微軟寫了份GPT4V說(shuō)明書:166頁(yè)詳細(xì)講解,提示詞demo示例全都有
分類: 最新資訊
心理詞典
編輯 : 心理知識(shí)
發(fā)布 : 10-05
閱讀 :200
克雷西 蕭簫 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI多模態(tài)王炸大模型GPT-4V,166頁(yè)“說(shuō)明書”重磅發(fā)布!而且還是微軟團(tuán)隊(duì)出品。什么樣的論文,能寫出166頁(yè)?不僅詳細(xì)測(cè)評(píng)了GPT-4V在十大任務(wù)上的表現(xiàn),從基礎(chǔ)的圖像識(shí)別、到復(fù)雜的邏輯推理都有展示;還傳授了一整套多模態(tài)大模型提示詞使用技巧——手把手教你從0到1學(xué)會(huì)寫提示詞,回答專業(yè)程度一看就懂,屬實(shí)是把GPT-4V的使用門檻打到不存在了。值得一提的是,這篇論文的作者也是“全華班”,7名作者全部是華人,領(lǐng)銜的是一位在微軟工作了17年的女性首席研究經(jīng)理。在166頁(yè)報(bào)告發(fā)布前,他們還參與了OpenAI最新DALL·E 3的研究,對(duì)這個(gè)領(lǐng)域了解頗深。相比OpenAI的18頁(yè)GPT-4V論文,這篇166頁(yè)“食用指南”一發(fā)布,立刻被奉為GPT-4V用戶必讀之物:有網(wǎng)友感慨:這哪里是論文,這簡(jiǎn)直快成一本166頁(yè)的小書了。還有網(wǎng)友看完已經(jīng)感到慌了:不要只看GPT-4V的回答細(xì)節(jié),我真的對(duì)AI展現(xiàn)出來(lái)的潛在能力感到害怕。所以,微軟這篇“論文”究竟講了啥,又展現(xiàn)出了GPT-4V的哪些“潛力”?微軟166頁(yè)報(bào)告講了啥?這篇論文鉆研GPT-4V的方法,核心就靠一個(gè)字——“試”。微軟研究員們?cè)O(shè)計(jì)了涵蓋多個(gè)領(lǐng)域的一系列輸入,將它們喂給GPT-4V,并觀察和記錄GPT-4V的輸出。隨后,他們對(duì)GPT-4V完成各類任務(wù)的能力進(jìn)行評(píng)估,還給出了使用GPT-4V的新提示詞技巧,具體包括4大方面:1、GPT-4V的用法:5種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場(chǎng)景文本(scene texts)和視覺指針(visual pointers)。3種支持的能力:指令遵循(instruction following)、思維鏈(chain-of-thoughts)、上下文少樣本學(xué)習(xí)(in-context few-shot learning)。例如這是基于思維鏈變更提問(wèn)方式后,GPT-4V展現(xiàn)出的指令遵循能力:2、GPT-4V在10大任務(wù)中的表現(xiàn):開放世界視覺理解(open-world visual understanding)、視覺描述(visual description)、多模態(tài)知識(shí)(multimodal knowledge)、常識(shí)(commonsense)、場(chǎng)景文本理解(scene text understandin)、文檔推理(document reasoning)、寫代碼(coding)、時(shí)間推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)其中就包括這種,需要一些智商才能做出來(lái)的“圖像推理題”:3、類GPT-4V多模態(tài)大模型的提示詞技巧:提出了一種新的多模態(tài)提示詞技巧“視覺參考提示”(visual referring prompting),可以通過(guò)直接編輯輸入圖像來(lái)指示感興趣的任務(wù),并結(jié)合其他提示詞技巧使用。4、多模態(tài)大模型的研究&落地潛力:預(yù)測(cè)了多模態(tài)學(xué)習(xí)研究人員應(yīng)該關(guān)注的2類領(lǐng)域,包括落地(潛在應(yīng)用場(chǎng)景)和研究方向。例如這是研究人員發(fā)現(xiàn)的GPT-4V可用場(chǎng)景之一——故障檢測(cè):但無(wú)論是新的提示詞技巧、還是GPT-4V的應(yīng)用場(chǎng)景,大伙兒最關(guān)注的還是GPT-4V的真正實(shí)力。所以,這份“說(shuō)明書”隨后用了150多頁(yè)來(lái)展示各種demo,詳細(xì)劇透了GPT-4V在面對(duì)不同回答時(shí)展現(xiàn)出的能力。一起來(lái)看看GPT-4V如今的多模態(tài)能力進(jìn)化到哪一步了。精通專業(yè)領(lǐng)域圖像,還能現(xiàn)學(xué)知識(shí)圖像識(shí)別最基礎(chǔ)的識(shí)別自然是不在話下,比如科技、體育界以及娛樂(lè)圈的各路名人:而且不僅能看出這些人是誰(shuí),還能解讀他們正在做什么,比如下圖中老黃正在介紹英偉達(dá)新推出的顯卡產(chǎn)品。除了人物,地標(biāo)建筑對(duì)于GPT-4V來(lái)說(shuō)同樣是小菜一碟,不僅能判斷名稱和所在地,還能給出詳細(xì)的介紹。△左:紐約時(shí)代廣場(chǎng),右:京都金閣寺不過(guò)越是有名的人和地點(diǎn),判斷起來(lái)也就越容易,所以要難度更大的圖才能展現(xiàn)GPT-4V的能力。比如醫(yī)學(xué)影像,針對(duì)下面這張肺部CT,GPT-4V給出了這樣的結(jié)論:雙肺多個(gè)區(qū)域存在實(shí)變和磨玻璃混濁,肺部可能存在感染或炎癥。右肺上葉也可能有腫塊或結(jié)節(jié)。甚至不告訴GPT-4V影像的種類和位置,它自己也能判斷。這張圖中,GPT-4V成功識(shí)別出了這是一張腦部的核磁共振(MRI)影像。同時(shí),GPT-4V還發(fā)現(xiàn)存在大量積液,認(rèn)為很可能是高級(jí)別腦膠質(zhì)瘤。經(jīng)過(guò)專業(yè)人士判斷,GPT-4V給出的結(jié)論完全正確。除了這些“正經(jīng)”的內(nèi)容之外,當(dāng)代人類社會(huì)的“非物質(zhì)文化遺產(chǎn)”表情包也被GPT-4V給拿捏了。△機(jī)器翻譯,僅供參考不僅是解讀表情包中的梗,真實(shí)世界中人類的表情所表達(dá)的情感也能被GPT-4看穿。除了這些真·圖像之外,文本識(shí)別也是機(jī)器視覺中的一項(xiàng)重要任務(wù)。這方面,GPT-4V除了可以識(shí)別拉丁文字拼寫的語(yǔ)言之外,中文、日文、希臘文等其他文字也都認(rèn)識(shí)。甚至是手寫的數(shù)學(xué)公式:圖像推理前面展示的DEMO,無(wú)論多么專業(yè)或多么難懂,都還停留在識(shí)別的范疇,但這只是GPT-4V技能的冰山一角。除了看懂圖片中的內(nèi)容,GPT-4V還具有一定的推理能力。簡(jiǎn)單一些的,GPT-4V可以發(fā)現(xiàn)兩張圖中的不同(雖然還有些錯(cuò)誤)。下面的一組圖中,王冠和蝴蝶結(jié)的區(qū)別都被GPT-4V發(fā)現(xiàn)了。如果加大難度,GPT-4V還能解決IQ測(cè)試當(dāng)中的圖形問(wèn)題。上面的這三道題中的特征或邏輯關(guān)系都還比較簡(jiǎn)單,但接下來(lái)就要上難度了:當(dāng)然難度不是在于圖形本身,注意圖中的第4條文字說(shuō)明,原題目中圖形的排列方式不是圖中展示的樣子。圖片標(biāo)注除了用文本回答各種問(wèn)題,GPT-4V還可以在圖片中執(zhí)行一系列操作。比如我們手里有一張四位AI巨頭的合影,要GPT-4V框出其中的人物并標(biāo)注他們的姓名和簡(jiǎn)介。GPT-4V先是用文本回答了這些問(wèn)題,緊接著便給出了處理之后的圖片:動(dòng)態(tài)內(nèi)容分析除了這些靜態(tài)內(nèi)容,GPT-4V還能做動(dòng)態(tài)分析,不過(guò)不是直接喂給模型一段視頻。下面的五張圖是從一段制作壽司的教程視頻中截取的,GPT-4V的任務(wù)是(在理解內(nèi)容的基礎(chǔ)上)推測(cè)這些圖片出現(xiàn)的順序。而針對(duì)同一系列的圖片,可能會(huì)有不同的理解方式,這是GPT-4V會(huì)結(jié)合文本提示進(jìn)行判斷。比如下面的一組圖中,人的動(dòng)作究竟是開門還是關(guān)門,會(huì)導(dǎo)致排序結(jié)果截然相反。當(dāng)然,通過(guò)多張圖片中人物狀態(tài)的變化,還可以推測(cè)出他們正在做的事情。甚至是預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么:“現(xiàn)場(chǎng)學(xué)習(xí)”GPT-4V不僅視覺本領(lǐng)強(qiáng),關(guān)鍵是還能現(xiàn)學(xué)現(xiàn)賣。還是舉個(gè)例子,讓GPT-4V讀汽車儀表盤,一開始得出的答案是錯(cuò)誤的:緊接著把方法用文字交給GPT-4V,但這是的答案依然不對(duì):然后又把例子展示給GPT-4V,答案倒是有樣學(xué)樣,可惜數(shù)字是胡編亂造出來(lái)的。只有一個(gè)例子的確是有點(diǎn)少,不過(guò)隨著樣本數(shù)量的提高(其實(shí)只多了一個(gè)),終于功夫不負(fù)有心人,GPT-4V給出了正確答案。GPT-4V的效果就展示這么多,當(dāng)然它還支持更多的領(lǐng)域和任務(wù),這里無(wú)法一一展示,感興趣的話可以閱讀原始報(bào)告。那么,GPT-4V這些神器的效果背后,是怎樣的一個(gè)團(tuán)隊(duì)呢?清華校友領(lǐng)銜這篇論文的作者一共有7位,均為華人,其中6位是核心作者。項(xiàng)目領(lǐng)銜作者Lijuan Wang,是微軟云計(jì)算與AI首席研究經(jīng)理。她本科畢業(yè)于華中科技大學(xué),在中國(guó)清華大學(xué)獲得博士學(xué)位,于2006年加入微軟亞洲研究院,并于2016年加入位于雷德蒙德的微軟研究院。她的研究領(lǐng)域是基于多模態(tài)感知智能的深度學(xué)習(xí)和機(jī)器學(xué)習(xí),具體又包括視覺語(yǔ)言模型預(yù)訓(xùn)練、圖像字幕生成、目標(biāo)檢測(cè)等AI技術(shù)。原文地址:https://arxiv.org/abs/2309.17421