時(shí)間:2023-03-24|瀏覽:919
來源:“峰瑞資本”(ID:freesvc),作者:陳石
“ChatGPT”可能是從2022年底至今,最為出圈的科技熱詞之一。GPT是Generative Pre-trained Transformer的縮寫,表示生成型預(yù)訓(xùn)練變換模型。這個(gè)由OpenAI研發(fā)的語言模型激起了人們對(duì)AI技術(shù)新一輪的熱情。人們與ChatGPT暢談古今,請(qǐng)它翻譯文本、編代碼、寫文章。(p.s.猜猜看,這篇文章是不是ChatGPT寫的?)
爆火背后,我們?cè)噲D對(duì)ChatGPT有更多理解。如果說以ChatGPT為代表的AIGC(AI-generated content,AI生產(chǎn)內(nèi)容)本質(zhì)上是技術(shù)革命,那么,脫離了對(duì)技術(shù)的認(rèn)知來討論這個(gè)議題,難免會(huì)出現(xiàn)偏差。
在這篇報(bào)告,我們會(huì)先梳理ChatGPT發(fā)展的歷史沿革:它從哪里來,到底是什么技術(shù)在驅(qū)動(dòng)它向前。我們的思考也會(huì)圍繞人們對(duì)它的討論而展開:它能火多久,有機(jī)會(huì)成為“人類大腦”或通用人工智能(AGI)嗎?同樣重要地,我們會(huì)把落點(diǎn)放在創(chuàng)投行業(yè),來探討與AIGC相關(guān)的創(chuàng)業(yè)及投資機(jī)會(huì)。
▍ChatGPT的本源——語言模型
ChatGPT其實(shí)是一種語言模型。依據(jù)OpenAI官方的介紹,ChatGPT已具備理解和生成人類語言文本的能力,可以跟人類輕松對(duì)話。
圖片來源:OpenAI官網(wǎng)
人類的語言非常復(fù)雜,而比語言更復(fù)雜的,是創(chuàng)造語言的思維。人們?cè)?jīng)試圖給語言建模,但是一直沒有取得顯著性的成功。而ChatGPT則為語言建模打開了新的窗口,這也是它的誕生轟動(dòng)全球的原因之一。
Wikipedia對(duì)語言模型的定義是:“單詞序列的概率分布,給定任何長(zhǎng)度為m的單詞序列,語言模型通過對(duì)語言的文本語料庫(kù)進(jìn)行訓(xùn)練,來生成概率分布”。斯坦福的公開課說得更為直接:“語言模型就是用來預(yù)測(cè)下一個(gè)出現(xiàn)的詞的概率”。(斯坦福的定義概括了GPT的核心原理,而不是BERT類語言模型的原理?;蛟S這能從側(cè)面反映,人們已將GPT采用的技術(shù)路線,視為主流語言模型路線。)
GPT系列的語言模型,其主要目標(biāo)是預(yù)測(cè)下一個(gè)單詞。比如,前半句是“the students opened their”,語言模型要預(yù)測(cè)的是下一個(gè)單詞出現(xiàn)“books”或者“l(fā)aptops”或者“exams”等詞匯的概率分別是多少。語言模型的技術(shù)原理雖然簡(jiǎn)單,但是卻衍生出了ChatGPT這樣智能、有復(fù)雜應(yīng)用場(chǎng)景的產(chǎn)品。
▍ChatGPT可能是當(dāng)前最成功的大型語言模型,我們正在經(jīng)歷iPhone Moment
ChatGPT可能是目前最成功的語言模型,人們把當(dāng)下這個(gè)ChatGPT誕生的時(shí)刻稱為“iPhone moment”。
GPT是Generative Pre-trained Transformer 的縮寫。Transformer神經(jīng)網(wǎng)絡(luò)算法是當(dāng)前最新的一種算法模型,我們會(huì)在下文展開。GPT系列模型都是語言模型,是新型神經(jīng)網(wǎng)絡(luò)算法、新型模型訓(xùn)練方式加上海量數(shù)據(jù)算力多重因素疊加產(chǎn)出的成果。
GPT模型有幾個(gè)主干版本,從 GPT-1、GPT-2、GPT-3演進(jìn)到最新的GPT-3.5版本。
當(dāng)下人們使用的ChatGPT是在3.5版本的基礎(chǔ)上,專門針對(duì)人類需求做了大量微調(diào),引導(dǎo)模型輸出更符合人類需求的結(jié)果。這讓GPT模型逐漸“社會(huì)化”,變得更像人。經(jīng)過微調(diào)的ChatGPT“情商”變高了,不再只是個(gè)話癆,也不再那么口無遮攔。
▍ChatGPT的誕生過程
圖片來源:微信公眾號(hào)@AI語者
在ChatGPT問世之前,GPT模型經(jīng)歷了怎樣的發(fā)展歷程?
2017年6月,Google發(fā)布Transformer這一神經(jīng)網(wǎng)絡(luò)算法模型,它為大型語言模型的發(fā)展奠定了基礎(chǔ)。
一年之后,OpenAI公司推出了GPT-1,GPT-1采用語言模型預(yù)訓(xùn)練+微調(diào)訓(xùn)練兩階段的訓(xùn)練方法,在問答和常識(shí)推理、語義相似度、分類等任務(wù)中,取得了還不錯(cuò)的語言任務(wù)執(zhí)行效果。
2018年10月,Google推出另一個(gè)語言模型——BERT,效果超過GPT-1。
圖片來源:知乎@雅正沖蛋
GPT和BERT都是基于Transformer衍生出的算法,但在技術(shù)路線上各有側(cè)重。GPT基于 Transformer 右邊部分,叫解碼器。BERT基于 Transformer 的左邊部分,叫編碼器。
GPT的技術(shù)原理是預(yù)測(cè)下一個(gè)詞,你可以看作是“文字接龍”,你寫出前面的句子,由GPT來猜下一個(gè)詞。但BERT更像是“完形填空”,其技術(shù)原理是把一句話中某個(gè)詞給遮擋住,然后請(qǐng)BERT來猜。
解碼器擅長(zhǎng)創(chuàng)作,編碼器擅長(zhǎng)理解,當(dāng)時(shí)它們要做的更多是屏蔽語言模型(Masked LM,類似“完形填空”)、相鄰句子判斷(Next Sentence Prediction,判斷句子是否能相連)這類偏閱讀理解的任務(wù),因此BERT占了上風(fēng)。
2019年,GPT-2發(fā)布,它采用15億個(gè)參數(shù)的Transformer解碼器,在當(dāng)時(shí)是個(gè)比較大的模型。相比BERT,OpenAI研究人員發(fā)現(xiàn),GPT-2預(yù)訓(xùn)練的語言模型無需微調(diào)訓(xùn)練,可直接執(zhí)行多種下游任務(wù)。這個(gè)發(fā)現(xiàn)堅(jiān)定了研究人員沿著現(xiàn)有技術(shù)路線,繼續(xù)研發(fā)的決心。
2020年5月,GPT-3誕生,它采用了史無前例的1750億參數(shù)的Transformer解碼器,用了接近5000億單詞的文本訓(xùn)練數(shù)據(jù)。整個(gè)訓(xùn)練過程可以說是“大力出奇跡”,讓GPT-3在文字生成方面實(shí)現(xiàn)質(zhì)的飛躍。GPT-3除了可以出色完成文字生成、翻譯、問答和文本填空等語言類任務(wù)外,還“涌現(xiàn)”出了其他一些智能,包括上下文學(xué)習(xí),以及更強(qiáng)大的零樣本和少樣本執(zhí)行任務(wù)的能力,等等。
GPT-3生成的文本質(zhì)量非常高,有時(shí)候人們甚至難以區(qū)分文本到底是人類寫的,還是GPT-3生成的。
基于GPT-3,已經(jīng)衍生出很多應(yīng)用,人們用GPT-3來創(chuàng)作各種類型的文本。有人用它寫了一篇新聞,被某熱門新聞點(diǎn)評(píng)網(wǎng)站排到頭部。一家名為Jasper的公司利用GPT-3為企業(yè)提供商業(yè)文本寫作服務(wù),2022年其收入達(dá)到9000萬美元左右。
GPT-3之后,OpenAI通過增加程序代碼訓(xùn)練和人類反饋強(qiáng)化學(xué)習(xí)等多種訓(xùn)練手段,并將主版本升級(jí)到GPT-3.5。最終,2022年11月,ChatGPT橫空出世。
▍訓(xùn)練GPT-3模型的三“大”要素:算法、數(shù)據(jù)、算力
我們稱GPT-3為大模型,這個(gè)“大”體現(xiàn)在哪些地方?
首先是算法。GPT-3采用的是Transformer的解碼器,具有1750億個(gè)參數(shù)和2048個(gè)Token(可簡(jiǎn)單理解為單詞,下同)的訓(xùn)練文本長(zhǎng)度。
圖片來源:OpenAI團(tuán)隊(duì)論文 《Language Models are Few-Shot Learners》
第二是數(shù)據(jù)。上圖是GPT-3的訓(xùn)練數(shù)據(jù),總共接近5000億個(gè)token的文本,主要包括Common Crawl、Webtext2、Books1、Book2、Wikipedia等等。其中占比最大的訓(xùn)練數(shù)據(jù)是Common Crawl,它是一個(gè)開源的數(shù)據(jù)集,抓取并保存了全球大量網(wǎng)頁(yè)的數(shù)據(jù)。
第三是算力。據(jù)微軟發(fā)布的信息, OpenAI 使用一臺(tái)全球排名前5的超級(jí)計(jì)算機(jī)系統(tǒng)來訓(xùn)練GPT-3,該系統(tǒng)擁有超過28.5萬個(gè)CPU核心,1萬個(gè)GPU和每秒400G的網(wǎng)絡(luò)。據(jù)悉其訓(xùn)練成本約為1200萬美元。
ChatGPT誕生以來,引發(fā)的討論非常多。那么說回來,人們?nèi)绾慰创@個(gè)新事物,對(duì)它又有什么期待?雖然眾說紛紜,有3個(gè)議題是被頻繁提到的。
▍人們肯定ChatGPT是一個(gè)稱職的語言模型
首先,ChatGPT是迄今為止最成功的人類語言模型,已經(jīng)具備形式語言能力(洞悉語言的規(guī)則模式等知識(shí))。
ChatGPT具備理解和生成人類語言文本的能力,可跟人類輕松對(duì)話。它用數(shù)據(jù)驅(qū)動(dòng)的大型神經(jīng)網(wǎng)絡(luò)的計(jì)算方式,某種程度上解碼了人類語言的內(nèi)部規(guī)律。這個(gè)內(nèi)部規(guī)律不是某種公式,而是一個(gè)神秘、暫不被人類理解的權(quán)重參數(shù)矩陣。
以前,人們認(rèn)為算法模型如果僅靠輸入文本,很難獲取關(guān)于語言的知識(shí)。但如今,ChatGPT可以從文本中直接學(xué)習(xí)語言的層次結(jié)構(gòu)和抽象類別等,這是一種無監(jiān)督學(xué)習(xí)的能力。
此外,ChatGPT也不只是個(gè)話癆。它可以寫作文、創(chuàng)作詩(shī)歌、撰寫商業(yè)文本、翻譯、做閱讀理解、代碼理解和生成等??梢哉f,作為一個(gè)語言模型,ChatGPT已經(jīng)比較稱職。
▍人們期待ChatGPT具有思維能力
人們對(duì)ChatGPT的期望不僅僅是語言模型,人們甚至期待ChatGPT成為一個(gè)思維機(jī)器,發(fā)展出功能語言能力(用語言思考和做事的能力)。
ChatGPT“涌現(xiàn)”出一些智能,包括上下文學(xué)習(xí)(理解和學(xué)習(xí)人類對(duì)話輸入文字的能力)、世界知識(shí)抽象(例如事實(shí)性知識(shí)和常識(shí))、執(zhí)行泛化任務(wù)(包括沒有做過的新任務(wù))、復(fù)雜推理等。然而,當(dāng)前ChatGPT的這些功能都還不算強(qiáng)大,出錯(cuò)甚至崩潰時(shí)有發(fā)生。
當(dāng)前,人們?cè)谒季S機(jī)器方向的探索有很多,例如有一種借助思維鏈(Chain of Thought)的方法,試圖引導(dǎo)或者優(yōu)化語言模型展現(xiàn)出復(fù)雜的推理能力。這些研究方向的進(jìn)展仍在持續(xù)。
上圖展示的是,一位科研人員在跟ChatGPT的對(duì)話中,通過分步驟提示引導(dǎo)的示例訓(xùn)練(引導(dǎo)過程未展示),使ChatGPT展現(xiàn)出分步驟思考和計(jì)算的能力。據(jù)分析,ChatGPT的這個(gè)能力來自GPT-3.5模型本身,思維鏈訓(xùn)練方法只是讓它意識(shí)到應(yīng)該用這種方式來思考和回答問題。整個(gè)過程有點(diǎn)類似老師輔導(dǎo)學(xué)生做題。
雖然這道題對(duì)于10歲的孩子來說很容易,但對(duì)語言模型來說卻很難,主要是由于數(shù)學(xué)和語言混合在一起。這類問題只是開始,當(dāng)前思維鏈的前沿科研工作已經(jīng)轉(zhuǎn)向更有難度的問題,例如高中、大學(xué),甚至是國(guó)際數(shù)學(xué)奧林匹克問題。
加利福尼亞大學(xué)洛杉磯分校(UCLA)近期的一篇論文發(fā)現(xiàn),ChatGPT似乎展現(xiàn)出了類比推理的能力。
什么叫類比推理?推理分三種,包含演繹、歸納、類比?!邦惐韧评硗ǔ1灰暈槿祟惓橄蠛透爬芰Φ牡湫湍芰ΑT趶V泛的問題類型中,ChatGPT達(dá)到或者超越人類水平...顯示出這種零樣本類比推理的能力?!?/span>
然而,ChatGPT的推理能力因其對(duì)世界缺乏物理理解而受限,因?yàn)樗鼉H僅依靠文本輸入,缺少視覺(圖像和視頻)、聲音、嗅覺等多模態(tài)數(shù)據(jù)輸入。文本對(duì)世界的物理描述是有限的,比如你很難通過文字描述清楚一間屋子里不同物品的位置具體,相反,看一張關(guān)于這間屋子的圖片,物品的位置信息就一目了然。
聽說GPT-4將于2023年發(fā)布,屆時(shí)會(huì)加入視覺等多模態(tài)數(shù)據(jù)輸入,這將有望進(jìn)一步提升它的智能。
▍對(duì)于ChatGPT能否成為“人類大腦”或通用人工智能,人們持有巨大爭(zhēng)議
目前,針對(duì)ChatGPT是否能夠變成“人類大腦”或者通用人工智能(AGI),爭(zhēng)議還非常大。Yan Lecun是深度學(xué)習(xí)的三巨頭之一,他也是Meta(原Facebook)公司的首席AI科學(xué)家。他認(rèn)為機(jī)器和人類不一樣,人類會(huì)在心智里面構(gòu)建一個(gè)虛擬世界,進(jìn)行推理和模擬,這點(diǎn)目前機(jī)器做不到。
著名語言學(xué)家喬姆斯基在2019年的一次采訪中提到,深度學(xué)習(xí)更偏工程,有點(diǎn)像推土機(jī),可以使用,但它沒有能力告訴你人類語言的任何事情。(注:ChatGPT這類語言模型可以輸出很精彩的文本,但是我們沒有確鑿證據(jù)證明它真正掌握了語言的規(guī)律,當(dāng)然也有可能是它掌握了規(guī)律,但人類無法理解。)
Kyle Mahowald等學(xué)者認(rèn)為,“擅長(zhǎng)語言” 未必 “擅長(zhǎng)思考”。雖然人類的語言和思想是不可分離的,但專?處理語言的人腦區(qū)域,與負(fù)責(zé)記憶、推理和社交技能的人腦區(qū)域是分開的。因此不應(yīng)該對(duì)語言模型有過多期望。
Kyle Mahowald提到了一個(gè)GPT-3沒能理解的失敗案例:怎么把沙發(fā)放到你家屋頂上。
就像我們?cè)谏衔奶岬降?,屋頂、沙發(fā)、起重機(jī)等更偏世界的物理知識(shí),對(duì)于人類來說,很容易就想到用各種辦法把沙發(fā)放到屋頂上去,但你很難讓ChatGPT理解這樣的操作思路。這個(gè)例子也說明世界物理知識(shí)的輸入,特別是視覺等多模態(tài)數(shù)據(jù)輸入的重要性。
講完ChatGPT究竟是什么,我們?cè)賮碇v一下背后的技術(shù)。
我們?cè)谏衔奶岬?,ChatGPT相當(dāng)于用“文字接龍”這樣簡(jiǎn)單的技術(shù)原理來訓(xùn)練和使用語言模型,從而實(shí)現(xiàn)跟人類的高質(zhì)量智能文本對(duì)話。這個(gè)技術(shù)原理,理論上是有升級(jí)和改善機(jī)會(huì)的,從而可能達(dá)到更好的效果。
在神經(jīng)網(wǎng)絡(luò)參數(shù)量方面,業(yè)界有人認(rèn)為有優(yōu)化空間,例如是否可以用參數(shù)量較小的模型達(dá)到同等效果。2048個(gè)token文本輸入窗口的設(shè)計(jì)及計(jì)算機(jī)制,也可能有優(yōu)化空間。例如當(dāng)前有人試圖讓ChatGPT寫推理小說,但推理小說里面的推理線索往往不易察覺且距離較遠(yuǎn)(例如好幾個(gè)章節(jié)之前的一個(gè)小線索),這個(gè)距離遠(yuǎn)遠(yuǎn)超出2048個(gè)token文本的窗口,如何把當(dāng)前窗口之外的知識(shí)信息容納進(jìn)來,也存在優(yōu)化可能。
整體而言,作為底層算法模型的Transformer在2017年6月才誕生,現(xiàn)在還處在發(fā)展早期,在快速迭代和改進(jìn)完善之中,應(yīng)該還有很多發(fā)展空間。
此外,前面提到的多模態(tài)數(shù)據(jù)輸入,會(huì)給GPT-4帶來什么樣的能力涌現(xiàn)和性能提升,也是業(yè)內(nèi)人士和群眾翹首以待的。
▍人類可以從ChatGPT中學(xué)到什么關(guān)于語言的規(guī)律?
在對(duì)人類語言的探索上,ChatGPT比以往的任何產(chǎn)品都走得更遠(yuǎn)更深。我們?nèi)祟惪梢詮腃hatGPT身上學(xué)到什么?
Stephen wolfram這名科學(xué)家認(rèn)為,人類語言可能沒那么復(fù)雜,只是因?yàn)槲覀內(nèi)祟悰]有能力理解和掌握其背后的規(guī)律;而ChatGPT用基于神經(jīng)網(wǎng)絡(luò)的算法,成功解碼了人類語言的本質(zhì)。
據(jù)OpenAI公開的GPT-2的論文,GPT-2的訓(xùn)練數(shù)據(jù)是純英語文本(做了非英語文本過濾)。即便如此,它還是顯示出一些多語言能力,并且展現(xiàn)出非常出色的法英互譯能力,盡管只是接受了10MB左右殘留的法語文本訓(xùn)練數(shù)據(jù)。
這個(gè)現(xiàn)象引發(fā)了人們的思考,當(dāng)前人類在語言學(xué)習(xí)方面花費(fèi)大量的時(shí)間和精力,這個(gè)學(xué)習(xí)效率是不是有提升的空間?我們能不能向語言模型學(xué)習(xí),更加有效率地學(xué)習(xí)人類語言?
ChatGPT在生成文本時(shí),是每次選擇一個(gè)詞,這個(gè)詞是在語言模型給出的概率表中做出的選擇。當(dāng)前科研人員的發(fā)現(xiàn)是,如果每次都選擇概率最高的詞匯,理論上是最優(yōu)解,最后呈現(xiàn)卻往往是一篇非常普通的文章;如果不是每次選擇最優(yōu)解,例如隨機(jī)選擇排名稍微靠后一點(diǎn)的,卻有更大機(jī)會(huì)生成一篇精彩文章。這也是個(gè)有意思的未解之謎。
以前,我們可能認(rèn)為創(chuàng)作一篇散文或者一首詩(shī),背后是人類精心的構(gòu)思和創(chuàng)造。但對(duì)于AI而言,創(chuàng)作意味著概率和選擇,我們認(rèn)為的精彩文章創(chuàng)作原來只是AI枯燥的選擇過程而已。由ChatGPT反觀,可能人類對(duì)語言本身的奧秘還知之甚少。
▍語言特征空間的單詞分布
GPT把文字向量化了,建立了語言的高維特征空間,也稱為隱含空間(Latent Space)。
GPT-2中每個(gè)詞是一個(gè)768維的向量,GPT-3中每個(gè)詞則是12288維的向量。每一個(gè)維度代表著一個(gè)屬性,相當(dāng)于GPT-3用1萬多種屬性,來描述人類語言中的詞匯特征。
Stephen wolfram試圖打開人類語言的特征空間,來觀察其中的規(guī)律。他選擇規(guī)模較小的GPT-2的特征空間,把它映射到人類比較容易理解的二維空間,從中發(fā)現(xiàn)了許多有意思的現(xiàn)象。比如,crocodile鱷魚 和 alligator短吻鱷 離得很近,蘋果跟梨聚在一起,這個(gè)可能容易理解。有趣的是,詞匯之間的關(guān)系,還能從向量加減操作中反映出來,比如皇帝(King)的向量減去男人(man)的向量,再加上女人(woman)的向量,就變成了女皇(Queen)的向量。
另外,他還試圖在GPT-2的語言特征空間中,尋找每次生成一個(gè)句子的游走規(guī)律,我們能從上面這個(gè)圖片中,看到GPT-2是怎么在768維度的空間中游走并陸續(xù)做出下一個(gè)詞的選擇,但是很遺憾他還沒有找到其中的規(guī)律。雖然從高維映射到二維中丟失了很多信息,但是未來如果能結(jié)合多維空間中的向量,我們可能會(huì)發(fā)現(xiàn)更多關(guān)于語言的規(guī)律。
▍Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)及注意力機(jī)制
2017年6月,Google發(fā)表了非常著名的Transformer論文,論文標(biāo)題是《Attention is all you need》,意思是說你只需要注意力機(jī)制就足夠了。
圖片來源: 知乎@雅正沖蛋
Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)的框圖如上,如前文所述,左邊部分是編碼器,右邊部分是解碼器。Google研發(fā)的BERT用的是編碼器,而OpenAI的GPT系列用的是解碼器。
在AI領(lǐng)域,有四大類神經(jīng)網(wǎng)絡(luò)算法,包括MLP、CNN、RNN、Transformer。MLP是多層感知器,CNN是卷積神經(jīng)網(wǎng)絡(luò),RNN是循環(huán)神經(jīng)網(wǎng)絡(luò)。
Transformer是最新的算法模型。在一些場(chǎng)景中,它正在逐漸替代CNN和RNN。Transformer的特征提取能力比較強(qiáng),擅長(zhǎng)長(zhǎng)序列處理、并行計(jì)算、多模態(tài)處理等。Transformer的注意力機(jī)制有點(diǎn)像人一樣,選擇性關(guān)注,因?yàn)橘Y源有限,只會(huì)關(guān)注最重要的事情。
Transformer已經(jīng)被廣泛應(yīng)用在自然語言處理、計(jì)算機(jī)視覺以及生物科技等領(lǐng)域。生物科技行業(yè)用來預(yù)測(cè)蛋白質(zhì)三維形狀的Alpha Folder算法就是基于Transformer算法模型來做的。
▍哪個(gè)模塊是GPT-3儲(chǔ)存智能的地方?
GPT-3模型發(fā)布時(shí),OpenAI團(tuán)隊(duì)發(fā)布了論文《Language Models are Few-Shot Learners (語言模型是少樣本學(xué)習(xí)者)》。
上圖是GPT-3模型的框圖,它基本上跟Transformer 的右邊部分的解碼器是類似的。無論是預(yù)訓(xùn)練還是推理(做任務(wù)),都是從框圖的最底部輸入前面部分的文本(GPT-3模型最大的長(zhǎng)度是2048個(gè)token),然后經(jīng)過12次運(yùn)算,從Text prediction輸出下一個(gè)詞概率預(yù)測(cè)(Task Classifier是微調(diào)訓(xùn)練分支,在此不詳述)。
一個(gè)有意思的話題是,GPT-3用1750億個(gè)參數(shù),去學(xué)習(xí)接近5000億單詞的文本,顯然它不是簡(jiǎn)單地把3個(gè)單詞存在1個(gè)參數(shù)中去,而是大抵掌握了一些語言規(guī)律且抽象了某些知識(shí)和能力。那么,問題來了,這些規(guī)律、知識(shí)和能力到底存在哪些地方呢?
有學(xué)者認(rèn)為,1750億參數(shù)主要集中在框圖中的注意力處理層和前饋網(wǎng)絡(luò)層,前者的值是動(dòng)態(tài)計(jì)算的(每輸入2048個(gè)token,就重新計(jì)算一次),它們是數(shù)據(jù)相關(guān)的動(dòng)態(tài)權(quán)重,因?yàn)樗鼈儠?huì)根據(jù)數(shù)據(jù)動(dòng)態(tài)變化。而前饋網(wǎng)絡(luò)層的權(quán)重是隨著訓(xùn)練過程而緩慢變化的,因此,有學(xué)者猜想在前饋網(wǎng)絡(luò)層中存儲(chǔ)著GPT發(fā)現(xiàn)的語言規(guī)律、知識(shí)和能力等,因?yàn)橐?jīng)過12次運(yùn)算,運(yùn)算次數(shù)越靠后存儲(chǔ)的信息越抽象。
Stephen wolfram把GPT-2的某個(gè)前饋網(wǎng)絡(luò)層存儲(chǔ)的768*768維度的權(quán)重參數(shù)矩陣提取出來,壓縮到64x64尺寸,就形成了如下一張神秘的圖像,代表著GPT-2總結(jié)的神秘的人類語言編碼規(guī)律及其他一些知識(shí)和能力的一部分。很好奇什么時(shí)候科學(xué)家可以逐步解密其中的部分內(nèi)容,相信對(duì)于人類提升自我能力有好處。
圖片來源:writings.stephenwolfram.com
和AI相比,自我意識(shí)和自由意志可以算作是人類最后的堡壘。
但是有一種觀點(diǎn)認(rèn)為,人類其實(shí)沒有所謂的自由意志。人類有兩個(gè)自我,一種是體驗(yàn)自我,另一種是陳述自我。體驗(yàn)自我,負(fù)責(zé)相對(duì)“機(jī)械”地解讀信息、作出決策;陳述自我,則負(fù)責(zé)對(duì)體驗(yàn)自我的決策進(jìn)行解釋和表述,有時(shí)甚至?xí)摌?gòu)故事來“欺騙”我們自己。所謂的自由意志,不過是陳述型自我給自己編的一個(gè)故事而已。
一些科學(xué)家和學(xué)者認(rèn)為,理論上,我們可以構(gòu)造出一個(gè)自我模擬的自指機(jī)器(Self-referential Machine),讓它也具備兩套體系,一個(gè)負(fù)責(zé)執(zhí)行算法,另一個(gè)則專門負(fù)責(zé)對(duì)自我進(jìn)行模擬(描述,或者可稱為在內(nèi)嵌虛擬世界中模擬自我)。這種機(jī)器會(huì)表現(xiàn)得就“像”一個(gè)具有自我意識(shí)的系統(tǒng),以至于我們可以用這樣的系統(tǒng)來定義所謂的“自我意識(shí)”。在古代歐洲,有一種傳說中的銜尾蛇,能夠自己吃自己,實(shí)現(xiàn)持續(xù)進(jìn)化。后來,有人提出哥德爾機(jī)( G?del Machine)的設(shè)想,認(rèn)為只要程序能夠模擬自身、改造自身,那么我們就可以將其稱為具有自我意識(shí)的。此外,還有Quine程序結(jié)構(gòu)、克萊因Kleene第二遞歸定理等也提出和支持了與之相似的假設(shè)。
圖片來源:維基百科
我們很難預(yù)料,未來機(jī)器是否能進(jìn)化出自我意識(shí)。
需要指出,當(dāng)前討論的生成式AI,跟之前的分析式AI是有較大不同的。分析式AI的主要能力是分析,例如:數(shù)據(jù)分析、趨勢(shì)預(yù)測(cè)、商品推薦、圖像識(shí)別等,而生成式AI主要的能力是創(chuàng)造,例如:寫詩(shī)、繪畫、設(shè)計(jì)產(chǎn)品、編寫代碼等。
當(dāng)前除語言模型外,生成式AI領(lǐng)域的其他進(jìn)展還包括圖像生成模型等等。未來,多模態(tài)(文本、圖、視頻等)對(duì)齊、融合、理解和生成等方向的進(jìn)展,意義也非常重大。
關(guān)于圖像生成模型,不得不提的是擴(kuò)散模型(Diffusion Model)。它主要解決通過文本生成圖像及其他媒體格式的難題,業(yè)內(nèi)知名的擴(kuò)散模型包括:DALIE2、Stable Diffusion等。
圖片來源:Denoising Diffusion Probabilistic Models
2022年,大語言模型爆發(fā)。據(jù)統(tǒng)計(jì),2022年,平均每4天就有一個(gè)新的大語言模型問世。
生成式AI技術(shù)也在持續(xù)引發(fā)人們對(duì)一些知名的模型層平臺(tái)和應(yīng)用的訪問,數(shù)據(jù)增長(zhǎng)很快,投資火熱。2019 年至2021年期間,流向生成式AI業(yè)務(wù)的資本增加了約130%,其中文本和寫作增長(zhǎng)630%、圖像增長(zhǎng)400%、數(shù)據(jù)增長(zhǎng) 370% 、音頻/視頻增長(zhǎng)350% 。
圖片來源:A16Z
上圖是投資公司A16Z總結(jié)的生成式AI的行業(yè)堆棧。底層深藍(lán)色的部分是基礎(chǔ)硬件和云平臺(tái),中間藍(lán)色的部分是模型層,再往上淺藍(lán)色的部分是應(yīng)用層。
在應(yīng)用層,有的創(chuàng)業(yè)公司自身只做應(yīng)用,模型能力則是調(diào)用外部的;還有一類叫端到端的應(yīng)用模式,它會(huì)自己做模型,但一般不做大模型,或者在其他大模型基礎(chǔ)上微調(diào)出自己的模型。
在模型層,有開源模型和閉源模型。深藍(lán)色部分的Model hubs是用于模型存儲(chǔ)和訓(xùn)練的第三方平臺(tái)。
當(dāng)前應(yīng)用層的增長(zhǎng)比較快,主要是由AI賦能的新型應(yīng)用案例所驅(qū)動(dòng),主要集中在圖像生成、文案寫作和代碼編寫,三個(gè)類別各自的年收入已超1億美元。
關(guān)于生成式AI的創(chuàng)業(yè),我有6點(diǎn)思考和建議:
第一,目前,與AI相關(guān)的科研、工程、產(chǎn)品和商業(yè)化,都在同時(shí)快速迭代,變數(shù)很大。這個(gè)過程中,會(huì)出現(xiàn)不同的技術(shù)分支和業(yè)務(wù)路徑,如果選錯(cuò)了技術(shù)分支和業(yè)務(wù)路徑,再掉頭就很麻煩。這就需要?jiǎng)?chuàng)業(yè)團(tuán)隊(duì)既懂技術(shù)又懂業(yè)務(wù),在創(chuàng)業(yè)初期努力做出正確選擇。
第二,對(duì)創(chuàng)業(yè)公司而言,從應(yīng)用層或者端到端的應(yīng)用層切入,可能是相對(duì)能降低風(fēng)險(xiǎn)的做法。模型層有少量機(jī)會(huì),但不一定適合大部分的創(chuàng)業(yè)者。第三,應(yīng)用層在做商業(yè)模型設(shè)計(jì)的時(shí)候,要警惕模型層的邊界。
以Jasper公司為例。2020年在GPT-3模型基礎(chǔ)上,Jasper衍生出付費(fèi)商業(yè)文本寫作的商業(yè)模式。到了2022年底,ChatGPT向用戶免費(fèi)開放,給Jasper帶來較大的壓力。盡管OpenAI未必會(huì)以商業(yè)文本生成作為自己的主要商業(yè)模式,但它平等賦能了入場(chǎng)的其他競(jìng)爭(zhēng)者。Jasper需要展現(xiàn)出有競(jìng)爭(zhēng)力的技術(shù)積累與業(yè)務(wù)縱深,才能穩(wěn)住腳跟。
第四,把AI技術(shù)應(yīng)用到產(chǎn)業(yè)場(chǎng)景,可分為新模式和舊模式改造兩類方式。新模式是指創(chuàng)造之前沒有的全新的應(yīng)用場(chǎng)景,舊模式改造則指在現(xiàn)有產(chǎn)業(yè)場(chǎng)景里用AI技術(shù)來改造部分環(huán)節(jié),或者團(tuán)隊(duì)帶著深度行業(yè)認(rèn)知和新的AI技術(shù)在成熟的產(chǎn)業(yè)場(chǎng)景中創(chuàng)業(yè)。新模式和舊模式改造,都存在巨大的機(jī)會(huì)。
在峰瑞已投企業(yè)中,有好幾家企業(yè)在垂直產(chǎn)業(yè)的場(chǎng)景中做業(yè)務(wù)創(chuàng)新。比如線上心理咨詢平臺(tái)閣樓、短視頻及直播SAAS服務(wù)企業(yè)特看科技、線上健身私教平臺(tái)BodyPark,都在積極使用生成式AI來賦能自己的業(yè)務(wù)。本周六(3月11日),我們將邀請(qǐng)這3家公司的創(chuàng)始人來分享他們的探索和發(fā)現(xiàn),歡迎參與。
第五,AI還面臨科研知識(shí)快速溢出的問題,因此找到自己的壁壘很重要。創(chuàng)業(yè)公司一定要想清楚自己未來的壁壘在哪里,比如到底是數(shù)據(jù)壁壘、工程壁壘(例如模型微調(diào))、場(chǎng)景壁壘,還是規(guī)模壁壘等等。在應(yīng)用層創(chuàng)業(yè),僅依靠外部模型層提供的能力,是無法形成壁壘的。
第六,應(yīng)用層的創(chuàng)業(yè),應(yīng)該是“技術(shù)為先、場(chǎng)景為重”。
“技術(shù)為先”,是指雖然通用AI技術(shù)未必是你的核心壁壘,但團(tuán)隊(duì)一定要懂技術(shù),才有能力思考如何更早更好地把技術(shù)應(yīng)用到合適的應(yīng)用場(chǎng)景里,做出好用的產(chǎn)品。
“場(chǎng)景為重”,意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場(chǎng)景,建立自己的商業(yè)模式,并在場(chǎng)景里形成自己的核心競(jìng)爭(zhēng)力。
最后來聊聊對(duì)AI行業(yè)格局的未來展望和猜想。這個(gè)部分我參考了奇績(jī)創(chuàng)壇陸奇博士之前的一個(gè)思考框架。
▍以AI和大模型為中心的新IT
新的硅基硬件產(chǎn)業(yè):硅基產(chǎn)業(yè)架構(gòu)和集合可能迎來新的發(fā)展機(jī)遇(例如:新的計(jì)算芯片及周邊技術(shù)和產(chǎn)業(yè)等)。
新的軟件和云服務(wù)體系:算力、模型和數(shù)據(jù)的云服務(wù)、基礎(chǔ)軟件、ML&Dev Ops、人機(jī)互助編程工具等。
▍新的基礎(chǔ)智能終端設(shè)備:智能傳感器、新型手機(jī)等
未來的智能終端會(huì)越來越智能,最近蘋果公司官宣支持Stable Diffusion圖像生成模型在iPad等終端上運(yùn)行,也有工程師把經(jīng)過裁剪的Stable Diffusion應(yīng)用在iPhone上運(yùn)行起來,可以預(yù)見以后我們的手機(jī)美顏和照片生成可以達(dá)到何等出神入化的境界。
此外,當(dāng)前的翻譯軟件技術(shù),在語義理解方面還是比較淺,翻譯質(zhì)量差強(qiáng)人意。如果可以把類似ChatGPT這樣的語言模型能力嵌入到智能終端中去,隨著文本和語音的實(shí)時(shí)翻譯成為可能,跨語言交流將變得很方便,這對(duì)于提升人類之間的交流效率意義重大。
▍圍繞內(nèi)容創(chuàng)作展開的產(chǎn)業(yè)
文、圖、視頻、3D等各種媒體格式的AI內(nèi)容創(chuàng)作工具,是當(dāng)前可以看到創(chuàng)業(yè)機(jī)會(huì)較多的新產(chǎn)業(yè)。
以ChatGPT為代表的語言模型的文本生成技術(shù),和以擴(kuò)散模型為代表的圖像視頻多模態(tài)生成技術(shù),可能會(huì)對(duì)內(nèi)容產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)的影響。從PGC到UGC,再到如今的AIGC,內(nèi)容領(lǐng)域會(huì)有更多新變化與新玩法。
從媒體行業(yè)發(fā)展情況來看,當(dāng)前頭部的內(nèi)容媒體平臺(tái)比如抖音快手B站是所謂的Web2.0平臺(tái),普遍采用UGC方式為主來生產(chǎn)內(nèi)容,但是隨著AI生產(chǎn)內(nèi)容(AIGC)的出現(xiàn),AI可以生成大量?jī)?yōu)秀內(nèi)容,成本較低、效果精良,而且甚至不乏創(chuàng)意,這個(gè)情況下內(nèi)容媒體平臺(tái)和行業(yè)就有可能出現(xiàn)較大的變化。
▍圍繞語言模型展開的產(chǎn)業(yè)
在這個(gè)領(lǐng)域,新的機(jī)會(huì)可能包括:語言學(xué)習(xí)范式改變,重塑跨語言溝通方式,更友好的人機(jī)界面等。
其中特別值得一提的,是語言學(xué)習(xí)范式的改變。如前文所述,如果我們可以打開語言模型,從中尋找到語言學(xué)習(xí)的規(guī)律,說不定可以幫助我們更有效率地學(xué)習(xí)語言。事實(shí)上,OpenAI投資了一家韓國(guó)的英語學(xué)習(xí)APP叫Speak。從有限的公開信息來看,這家公司未來的產(chǎn)品是一個(gè)語言學(xué)習(xí)助手,或者叫做虛擬語言老師——借助語言模型的能力和發(fā)現(xiàn)的語言規(guī)律,去幫助人們更好地學(xué)習(xí)外語,而且成本極低。
跨語言溝通的技術(shù)目前還不成熟。如前面所說,如果我們能夠把語言模型加載到智能終端,可能會(huì)極大改進(jìn)跨語言溝通的能力。
因?yàn)檎Z言模型足夠強(qiáng)大,未來我們的人機(jī)界面,會(huì)采用更友好的自然語言人機(jī)界面,無論是跟APP對(duì)話還是跟智能硬件對(duì)話。
▍圍繞思維模型展開的產(chǎn)業(yè)
不妨?xí)诚胍幌?,更聰明的軟件(或機(jī)器人)、科研服務(wù)、 “知識(shí)工程”、“世界大腦”等。
當(dāng)前的軟件產(chǎn)業(yè),即便有AI的加持,通用性和智能程度還是不盡如人意的,大多數(shù)情況下只能做一些特定的任務(wù),只能成為人類的效率助手;隨著更加通用的AI能力出現(xiàn),軟件也可以像人類一樣思考和做事,可以想象軟件就可以幫助人類承接較為完整的任務(wù)了。
如果AI可以發(fā)展出接近人類的思維能力,它也許可以成為人類科學(xué)家的科研助手,因?yàn)锳I可以不知疲倦,且可廣泛使用。當(dāng)前,我們很難想象AI可以達(dá)到人類頂尖科學(xué)家的水平。打個(gè)比方,你讓它去證明下哥德巴赫猜想,應(yīng)該還是很不現(xiàn)實(shí)的。當(dāng)然也有其他可能,如前文所述,如果AI程序可以實(shí)現(xiàn)自我優(yōu)化,具備迭代自己的算法和技術(shù)的能力,相信它的智能會(huì)很快趕上來。
如果我們展開想象,就可以有更多的可能性。例如“知識(shí)工程”,如果把人類的知識(shí)建模,然后讓人類以某種方式可以調(diào)用或者學(xué)習(xí),那么就不用經(jīng)過“痛苦”的學(xué)習(xí)過程。“世界大腦”,是指規(guī)模極大的思維模型,它可以幫助我們執(zhí)行各種重要的計(jì)算和思考。不過,如果真的發(fā)展到這個(gè)地步,可能離電影《黑客帝國(guó)》里邊的Matrix就不遠(yuǎn)了。
▍賦能人類,深入改變各行各業(yè)(特別是知識(shí)工作者)
語言是人類最主要的溝通方式,是知識(shí)和思維的主要載體;而深度思維是人類的高階能力,也是人類不同于其他物種的最重要的能力。如果AI掌握了這兩種能力,就基本具備了在某種程度上賦能或替代一部分人類知識(shí)工作者的可能。
類似于自動(dòng)化生產(chǎn)制造設(shè)備賦能傳統(tǒng)工業(yè),各類AI模型和應(yīng)用軟件也將有機(jī)會(huì)更好地賦能各行各業(yè)。但是不同于制造行業(yè),大批量使用的軟件,其邊際使用成本是非常低的,而且它很聰明、善學(xué)習(xí)、會(huì)思考、會(huì)交流,應(yīng)該會(huì)有大量的應(yīng)用場(chǎng)景有待開發(fā)。這里邊有非常多的創(chuàng)業(yè)機(jī)會(huì),也會(huì)給各行各業(yè)帶來新的發(fā)展動(dòng)力。
首先,ChatGPT是語言模型領(lǐng)域的重大進(jìn)展,鑒于語言對(duì)人類溝通和思維的重大意義,語言模型本身具備很強(qiáng)的通用性,以及人類可以通過研究語言模型獲取語言及知識(shí)的學(xué)習(xí)規(guī)律并得到效率提升,這些都會(huì)持續(xù)帶來長(zhǎng)期的創(chuàng)新機(jī)會(huì)。
第二,AI在思維機(jī)器這個(gè)方向上還有更遠(yuǎn)的路可以走。例如,如果AI能夠?qū)崿F(xiàn)良好的多模態(tài)信息輸入,增加對(duì)物理世界的理解,可能可以“涌現(xiàn)”出更多的智能。這個(gè)方向的任何進(jìn)步都意義重大。
第三,與AIGC相關(guān)的底層技術(shù)原理和算法都還處在發(fā)展早期,未來還有很長(zhǎng)的迭代和優(yōu)化機(jī)會(huì)。
一切,才剛剛開始。