国产成人 综合 亚洲欧美,羞羞影院成人午夜爽爽在线,中文字幕av在线一二三区,午夜私人成年影院在线观看,男人把大ji巴放进女人视频

okx

ChatGPT爆火之后AIGC往何處去?

時(shí)間:2023-03-24|瀏覽:919

來源:“峰瑞資本”(ID:freesvc),作者:陳石

“ChatGPT”可能是從2022年底至今,最為出圈的科技熱詞之一。GPT是Generative Pre-trained Transformer的縮寫,表示生成型預(yù)訓(xùn)練變換模型。這個(gè)由OpenAI研發(fā)的語言模型激起了人們對(duì)AI技術(shù)新一輪的熱情。人們與ChatGPT暢談古今,請(qǐng)它翻譯文本、編代碼、寫文章。(p.s.猜猜看,這篇文章是不是ChatGPT寫的?)

爆火背后,我們?cè)噲D對(duì)ChatGPT有更多理解。如果說以ChatGPT為代表的AIGC(AI-generated content,AI生產(chǎn)內(nèi)容)本質(zhì)上是技術(shù)革命,那么,脫離了對(duì)技術(shù)的認(rèn)知來討論這個(gè)議題,難免會(huì)出現(xiàn)偏差。

在這篇報(bào)告,我們會(huì)先梳理ChatGPT發(fā)展的歷史沿革:它從哪里來,到底是什么技術(shù)在驅(qū)動(dòng)它向前。我們的思考也會(huì)圍繞人們對(duì)它的討論而展開:它能火多久,有機(jī)會(huì)成為“人類大腦”或通用人工智能(AGI)嗎?同樣重要地,我們會(huì)把落點(diǎn)放在創(chuàng)投行業(yè),來探討與AIGC相關(guān)的創(chuàng)業(yè)及投資機(jī)會(huì)。

01 火爆了的ChatGPT,到底是什么?

▍ChatGPT的本源——語言模型

ChatGPT其實(shí)是一種語言模型。依據(jù)OpenAI官方的介紹,ChatGPT已具備理解和生成人類語言文本的能力,可以跟人類輕松對(duì)話。

圖片來源:OpenAI官網(wǎng)

人類的語言非常復(fù)雜,而比語言更復(fù)雜的,是創(chuàng)造語言的思維。人們?cè)?jīng)試圖給語言建模,但是一直沒有取得顯著性的成功。而ChatGPT則為語言建模打開了新的窗口,這也是它的誕生轟動(dòng)全球的原因之一。

Wikipedia對(duì)語言模型的定義是:“單詞序列的概率分布,給定任何長(zhǎng)度為m的單詞序列,語言模型通過對(duì)語言的文本語料庫(kù)進(jìn)行訓(xùn)練,來生成概率分布”。斯坦福的公開課說得更為直接:“語言模型就是用來預(yù)測(cè)下一個(gè)出現(xiàn)的詞的概率”。(斯坦福的定義概括了GPT的核心原理,而不是BERT類語言模型的原理?;蛟S這能從側(cè)面反映,人們已將GPT采用的技術(shù)路線,視為主流語言模型路線。)

GPT系列的語言模型,其主要目標(biāo)是預(yù)測(cè)下一個(gè)單詞。比如,前半句是“the students opened their”,語言模型要預(yù)測(cè)的是下一個(gè)單詞出現(xiàn)“books”或者“l(fā)aptops”或者“exams”等詞匯的概率分別是多少。語言模型的技術(shù)原理雖然簡(jiǎn)單,但是卻衍生出了ChatGPT這樣智能、有復(fù)雜應(yīng)用場(chǎng)景的產(chǎn)品。

▍ChatGPT可能是當(dāng)前最成功的大型語言模型,我們正在經(jīng)歷iPhone Moment

ChatGPT可能是目前最成功的語言模型,人們把當(dāng)下這個(gè)ChatGPT誕生的時(shí)刻稱為“iPhone moment”。

GPT是Generative Pre-trained Transformer 的縮寫。Transformer神經(jīng)網(wǎng)絡(luò)算法是當(dāng)前最新的一種算法模型,我們會(huì)在下文展開。GPT系列模型都是語言模型,是新型神經(jīng)網(wǎng)絡(luò)算法、新型模型訓(xùn)練方式加上海量數(shù)據(jù)算力多重因素疊加產(chǎn)出的成果。

GPT模型有幾個(gè)主干版本,從 GPT-1、GPT-2、GPT-3演進(jìn)到最新的GPT-3.5版本。

當(dāng)下人們使用的ChatGPT是在3.5版本的基礎(chǔ)上,專門針對(duì)人類需求做了大量微調(diào),引導(dǎo)模型輸出更符合人類需求的結(jié)果。這讓GPT模型逐漸“社會(huì)化”,變得更像人。經(jīng)過微調(diào)的ChatGPT“情商”變高了,不再只是個(gè)話癆,也不再那么口無遮攔。

▍ChatGPT的誕生過程

圖片來源:微信公眾號(hào)@AI語者

在ChatGPT問世之前,GPT模型經(jīng)歷了怎樣的發(fā)展歷程?

2017年6月,Google發(fā)布Transformer這一神經(jīng)網(wǎng)絡(luò)算法模型,它為大型語言模型的發(fā)展奠定了基礎(chǔ)。

一年之后,OpenAI公司推出了GPT-1,GPT-1采用語言模型預(yù)訓(xùn)練+微調(diào)訓(xùn)練兩階段的訓(xùn)練方法,在問答和常識(shí)推理、語義相似度、分類等任務(wù)中,取得了還不錯(cuò)的語言任務(wù)執(zhí)行效果。

2018年10月,Google推出另一個(gè)語言模型——BERT,效果超過GPT-1。

圖片來源:知乎@雅正沖蛋

GPT和BERT都是基于Transformer衍生出的算法,但在技術(shù)路線上各有側(cè)重。GPT基于 Transformer 右邊部分,叫解碼器。BERT基于 Transformer 的左邊部分,叫編碼器。

GPT的技術(shù)原理是預(yù)測(cè)下一個(gè)詞,你可以看作是“文字接龍”,你寫出前面的句子,由GPT來猜下一個(gè)詞。但BERT更像是“完形填空”,其技術(shù)原理是把一句話中某個(gè)詞給遮擋住,然后請(qǐng)BERT來猜。

解碼器擅長(zhǎng)創(chuàng)作,編碼器擅長(zhǎng)理解,當(dāng)時(shí)它們要做的更多是屏蔽語言模型(Masked LM,類似“完形填空”)、相鄰句子判斷(Next Sentence Prediction,判斷句子是否能相連)這類偏閱讀理解的任務(wù),因此BERT占了上風(fēng)。

2019年,GPT-2發(fā)布,它采用15億個(gè)參數(shù)的Transformer解碼器,在當(dāng)時(shí)是個(gè)比較大的模型。相比BERT,OpenAI研究人員發(fā)現(xiàn),GPT-2預(yù)訓(xùn)練的語言模型無需微調(diào)訓(xùn)練,可直接執(zhí)行多種下游任務(wù)。這個(gè)發(fā)現(xiàn)堅(jiān)定了研究人員沿著現(xiàn)有技術(shù)路線,繼續(xù)研發(fā)的決心。

2020年5月,GPT-3誕生,它采用了史無前例的1750億參數(shù)的Transformer解碼器,用了接近5000億單詞的文本訓(xùn)練數(shù)據(jù)。整個(gè)訓(xùn)練過程可以說是“大力出奇跡”,讓GPT-3在文字生成方面實(shí)現(xiàn)質(zhì)的飛躍。GPT-3除了可以出色完成文字生成、翻譯、問答和文本填空等語言類任務(wù)外,還“涌現(xiàn)”出了其他一些智能,包括上下文學(xué)習(xí),以及更強(qiáng)大的零樣本和少樣本執(zhí)行任務(wù)的能力,等等。

GPT-3生成的文本質(zhì)量非常高,有時(shí)候人們甚至難以區(qū)分文本到底是人類寫的,還是GPT-3生成的。

基于GPT-3,已經(jīng)衍生出很多應(yīng)用,人們用GPT-3來創(chuàng)作各種類型的文本。有人用它寫了一篇新聞,被某熱門新聞點(diǎn)評(píng)網(wǎng)站排到頭部。一家名為Jasper的公司利用GPT-3為企業(yè)提供商業(yè)文本寫作服務(wù),2022年其收入達(dá)到9000萬美元左右。

GPT-3之后,OpenAI通過增加程序代碼訓(xùn)練和人類反饋強(qiáng)化學(xué)習(xí)等多種訓(xùn)練手段,并將主版本升級(jí)到GPT-3.5。最終,2022年11月,ChatGPT橫空出世。

▍訓(xùn)練GPT-3模型的三“大”要素:算法、數(shù)據(jù)、算力

我們稱GPT-3為大模型,這個(gè)“大”體現(xiàn)在哪些地方?

首先是算法。GPT-3采用的是Transformer的解碼器,具有1750億個(gè)參數(shù)和2048個(gè)Token(可簡(jiǎn)單理解為單詞,下同)的訓(xùn)練文本長(zhǎng)度。

圖片來源:OpenAI團(tuán)隊(duì)論文 《Language Models are Few-Shot Learners》

第二是數(shù)據(jù)。上圖是GPT-3的訓(xùn)練數(shù)據(jù),總共接近5000億個(gè)token的文本,主要包括Common Crawl、Webtext2、Books1、Book2、Wikipedia等等。其中占比最大的訓(xùn)練數(shù)據(jù)是Common Crawl,它是一個(gè)開源的數(shù)據(jù)集,抓取并保存了全球大量網(wǎng)頁(yè)的數(shù)據(jù)。

第三是算力。據(jù)微軟發(fā)布的信息, OpenAI 使用一臺(tái)全球排名前5的超級(jí)計(jì)算機(jī)系統(tǒng)來訓(xùn)練GPT-3,該系統(tǒng)擁有超過28.5萬個(gè)CPU核心,1萬個(gè)GPU和每秒400G的網(wǎng)絡(luò)。據(jù)悉其訓(xùn)練成本約為1200萬美元。

02 人們?nèi)绾慰创鼵hatGPT?

ChatGPT誕生以來,引發(fā)的討論非常多。那么說回來,人們?nèi)绾慰创@個(gè)新事物,對(duì)它又有什么期待?雖然眾說紛紜,有3個(gè)議題是被頻繁提到的。

▍人們肯定ChatGPT是一個(gè)稱職的語言模型

首先,ChatGPT是迄今為止最成功的人類語言模型,已經(jīng)具備形式語言能力(洞悉語言的規(guī)則模式等知識(shí))。

ChatGPT具備理解和生成人類語言文本的能力,可跟人類輕松對(duì)話。它用數(shù)據(jù)驅(qū)動(dòng)的大型神經(jīng)網(wǎng)絡(luò)的計(jì)算方式,某種程度上解碼了人類語言的內(nèi)部規(guī)律。這個(gè)內(nèi)部規(guī)律不是某種公式,而是一個(gè)神秘、暫不被人類理解的權(quán)重參數(shù)矩陣。

以前,人們認(rèn)為算法模型如果僅靠輸入文本,很難獲取關(guān)于語言的知識(shí)。但如今,ChatGPT可以從文本中直接學(xué)習(xí)語言的層次結(jié)構(gòu)和抽象類別等,這是一種無監(jiān)督學(xué)習(xí)的能力。

此外,ChatGPT也不只是個(gè)話癆。它可以寫作文、創(chuàng)作詩(shī)歌、撰寫商業(yè)文本、翻譯、做閱讀理解、代碼理解和生成等??梢哉f,作為一個(gè)語言模型,ChatGPT已經(jīng)比較稱職。

▍人們期待ChatGPT具有思維能力

人們對(duì)ChatGPT的期望不僅僅是語言模型,人們甚至期待ChatGPT成為一個(gè)思維機(jī)器,發(fā)展出功能語言能力(用語言思考和做事的能力)。

ChatGPT“涌現(xiàn)”出一些智能,包括上下文學(xué)習(xí)(理解和學(xué)習(xí)人類對(duì)話輸入文字的能力)、世界知識(shí)抽象(例如事實(shí)性知識(shí)和常識(shí))、執(zhí)行泛化任務(wù)(包括沒有做過的新任務(wù))、復(fù)雜推理等。然而,當(dāng)前ChatGPT的這些功能都還不算強(qiáng)大,出錯(cuò)甚至崩潰時(shí)有發(fā)生。

當(dāng)前,人們?cè)谒季S機(jī)器方向的探索有很多,例如有一種借助思維鏈(Chain of Thought)的方法,試圖引導(dǎo)或者優(yōu)化語言模型展現(xiàn)出復(fù)雜的推理能力。這些研究方向的進(jìn)展仍在持續(xù)。

上圖展示的是,一位科研人員在跟ChatGPT的對(duì)話中,通過分步驟提示引導(dǎo)的示例訓(xùn)練(引導(dǎo)過程未展示),使ChatGPT展現(xiàn)出分步驟思考和計(jì)算的能力。據(jù)分析,ChatGPT的這個(gè)能力來自GPT-3.5模型本身,思維鏈訓(xùn)練方法只是讓它意識(shí)到應(yīng)該用這種方式來思考和回答問題。整個(gè)過程有點(diǎn)類似老師輔導(dǎo)學(xué)生做題。

雖然這道題對(duì)于10歲的孩子來說很容易,但對(duì)語言模型來說卻很難,主要是由于數(shù)學(xué)和語言混合在一起。這類問題只是開始,當(dāng)前思維鏈的前沿科研工作已經(jīng)轉(zhuǎn)向更有難度的問題,例如高中、大學(xué),甚至是國(guó)際數(shù)學(xué)奧林匹克問題。

加利福尼亞大學(xué)洛杉磯分校(UCLA)近期的一篇論文發(fā)現(xiàn),ChatGPT似乎展現(xiàn)出了類比推理的能力。

什么叫類比推理?推理分三種,包含演繹、歸納、類比?!邦惐韧评硗ǔ1灰暈槿祟惓橄蠛透爬芰Φ牡湫湍芰ΑT趶V泛的問題類型中,ChatGPT達(dá)到或者超越人類水平...顯示出這種零樣本類比推理的能力?!?/span>

然而,ChatGPT的推理能力因其對(duì)世界缺乏物理理解而受限,因?yàn)樗鼉H僅依靠文本輸入,缺少視覺(圖像和視頻)、聲音、嗅覺等多模態(tài)數(shù)據(jù)輸入。文本對(duì)世界的物理描述是有限的,比如你很難通過文字描述清楚一間屋子里不同物品的位置具體,相反,看一張關(guān)于這間屋子的圖片,物品的位置信息就一目了然。

聽說GPT-4將于2023年發(fā)布,屆時(shí)會(huì)加入視覺等多模態(tài)數(shù)據(jù)輸入,這將有望進(jìn)一步提升它的智能。

▍對(duì)于ChatGPT能否成為“人類大腦”或通用人工智能,人們持有巨大爭(zhēng)議

目前,針對(duì)ChatGPT是否能夠變成“人類大腦”或者通用人工智能(AGI),爭(zhēng)議還非常大。Yan Lecun是深度學(xué)習(xí)的三巨頭之一,他也是Meta(原Facebook)公司的首席AI科學(xué)家。他認(rèn)為機(jī)器和人類不一樣,人類會(huì)在心智里面構(gòu)建一個(gè)虛擬世界,進(jìn)行推理和模擬,這點(diǎn)目前機(jī)器做不到。

著名語言學(xué)家喬姆斯基在2019年的一次采訪中提到,深度學(xué)習(xí)更偏工程,有點(diǎn)像推土機(jī),可以使用,但它沒有能力告訴你人類語言的任何事情。(注:ChatGPT這類語言模型可以輸出很精彩的文本,但是我們沒有確鑿證據(jù)證明它真正掌握了語言的規(guī)律,當(dāng)然也有可能是它掌握了規(guī)律,但人類無法理解。)

Kyle Mahowald等學(xué)者認(rèn)為,“擅長(zhǎng)語言” 未必 “擅長(zhǎng)思考”。雖然人類的語言和思想是不可分離的,但專?處理語言的人腦區(qū)域,與負(fù)責(zé)記憶、推理和社交技能的人腦區(qū)域是分開的。因此不應(yīng)該對(duì)語言模型有過多期望。

Kyle Mahowald提到了一個(gè)GPT-3沒能理解的失敗案例:怎么把沙發(fā)放到你家屋頂上。

就像我們?cè)谏衔奶岬降?,屋頂、沙發(fā)、起重機(jī)等更偏世界的物理知識(shí),對(duì)于人類來說,很容易就想到用各種辦法把沙發(fā)放到屋頂上去,但你很難讓ChatGPT理解這樣的操作思路。這個(gè)例子也說明世界物理知識(shí)的輸入,特別是視覺等多模態(tài)數(shù)據(jù)輸入的重要性。

03 背后的技術(shù)和發(fā)現(xiàn)很精彩,也還有很多發(fā)展空間

講完ChatGPT究竟是什么,我們?cè)賮碇v一下背后的技術(shù)。

我們?cè)谏衔奶岬?,ChatGPT相當(dāng)于用“文字接龍”這樣簡(jiǎn)單的技術(shù)原理來訓(xùn)練和使用語言模型,從而實(shí)現(xiàn)跟人類的高質(zhì)量智能文本對(duì)話。這個(gè)技術(shù)原理,理論上是有升級(jí)和改善機(jī)會(huì)的,從而可能達(dá)到更好的效果。

在神經(jīng)網(wǎng)絡(luò)參數(shù)量方面,業(yè)界有人認(rèn)為有優(yōu)化空間,例如是否可以用參數(shù)量較小的模型達(dá)到同等效果。2048個(gè)token文本輸入窗口的設(shè)計(jì)及計(jì)算機(jī)制,也可能有優(yōu)化空間。例如當(dāng)前有人試圖讓ChatGPT寫推理小說,但推理小說里面的推理線索往往不易察覺且距離較遠(yuǎn)(例如好幾個(gè)章節(jié)之前的一個(gè)小線索),這個(gè)距離遠(yuǎn)遠(yuǎn)超出2048個(gè)token文本的窗口,如何把當(dāng)前窗口之外的知識(shí)信息容納進(jìn)來,也存在優(yōu)化可能。

整體而言,作為底層算法模型的Transformer在2017年6月才誕生,現(xiàn)在還處在發(fā)展早期,在快速迭代和改進(jìn)完善之中,應(yīng)該還有很多發(fā)展空間。

此外,前面提到的多模態(tài)數(shù)據(jù)輸入,會(huì)給GPT-4帶來什么樣的能力涌現(xiàn)和性能提升,也是業(yè)內(nèi)人士和群眾翹首以待的。

▍人類可以從ChatGPT中學(xué)到什么關(guān)于語言的規(guī)律?

在對(duì)人類語言的探索上,ChatGPT比以往的任何產(chǎn)品都走得更遠(yuǎn)更深。我們?nèi)祟惪梢詮腃hatGPT身上學(xué)到什么?

Stephen wolfram這名科學(xué)家認(rèn)為,人類語言可能沒那么復(fù)雜,只是因?yàn)槲覀內(nèi)祟悰]有能力理解和掌握其背后的規(guī)律;而ChatGPT用基于神經(jīng)網(wǎng)絡(luò)的算法,成功解碼了人類語言的本質(zhì)。

據(jù)OpenAI公開的GPT-2的論文,GPT-2的訓(xùn)練數(shù)據(jù)是純英語文本(做了非英語文本過濾)。即便如此,它還是顯示出一些多語言能力,并且展現(xiàn)出非常出色的法英互譯能力,盡管只是接受了10MB左右殘留的法語文本訓(xùn)練數(shù)據(jù)。

這個(gè)現(xiàn)象引發(fā)了人們的思考,當(dāng)前人類在語言學(xué)習(xí)方面花費(fèi)大量的時(shí)間和精力,這個(gè)學(xué)習(xí)效率是不是有提升的空間?我們能不能向語言模型學(xué)習(xí),更加有效率地學(xué)習(xí)人類語言?

ChatGPT在生成文本時(shí),是每次選擇一個(gè)詞,這個(gè)詞是在語言模型給出的概率表中做出的選擇。當(dāng)前科研人員的發(fā)現(xiàn)是,如果每次都選擇概率最高的詞匯,理論上是最優(yōu)解,最后呈現(xiàn)卻往往是一篇非常普通的文章;如果不是每次選擇最優(yōu)解,例如隨機(jī)選擇排名稍微靠后一點(diǎn)的,卻有更大機(jī)會(huì)生成一篇精彩文章。這也是個(gè)有意思的未解之謎。

以前,我們可能認(rèn)為創(chuàng)作一篇散文或者一首詩(shī),背后是人類精心的構(gòu)思和創(chuàng)造。但對(duì)于AI而言,創(chuàng)作意味著概率和選擇,我們認(rèn)為的精彩文章創(chuàng)作原來只是AI枯燥的選擇過程而已。由ChatGPT反觀,可能人類對(duì)語言本身的奧秘還知之甚少。

▍語言特征空間的單詞分布

GPT把文字向量化了,建立了語言的高維特征空間,也稱為隱含空間(Latent Space)。

GPT-2中每個(gè)詞是一個(gè)768維的向量,GPT-3中每個(gè)詞則是12288維的向量。每一個(gè)維度代表著一個(gè)屬性,相當(dāng)于GPT-3用1萬多種屬性,來描述人類語言中的詞匯特征。

Stephen wolfram試圖打開人類語言的特征空間,來觀察其中的規(guī)律。他選擇規(guī)模較小的GPT-2的特征空間,把它映射到人類比較容易理解的二維空間,從中發(fā)現(xiàn)了許多有意思的現(xiàn)象。比如,crocodile鱷魚 和 alligator短吻鱷 離得很近,蘋果跟梨聚在一起,這個(gè)可能容易理解。有趣的是,詞匯之間的關(guān)系,還能從向量加減操作中反映出來,比如皇帝(King)的向量減去男人(man)的向量,再加上女人(woman)的向量,就變成了女皇(Queen)的向量。

另外,他還試圖在GPT-2的語言特征空間中,尋找每次生成一個(gè)句子的游走規(guī)律,我們能從上面這個(gè)圖片中,看到GPT-2是怎么在768維度的空間中游走并陸續(xù)做出下一個(gè)詞的選擇,但是很遺憾他還沒有找到其中的規(guī)律。雖然從高維映射到二維中丟失了很多信息,但是未來如果能結(jié)合多維空間中的向量,我們可能會(huì)發(fā)現(xiàn)更多關(guān)于語言的規(guī)律。

▍Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)及注意力機(jī)制

2017年6月,Google發(fā)表了非常著名的Transformer論文,論文標(biāo)題是《Attention is all you need》,意思是說你只需要注意力機(jī)制就足夠了。

圖片來源: 知乎@雅正沖蛋

Transformer神經(jīng)網(wǎng)絡(luò)算法架構(gòu)的框圖如上,如前文所述,左邊部分是編碼器,右邊部分是解碼器。Google研發(fā)的BERT用的是編碼器,而OpenAI的GPT系列用的是解碼器。

在AI領(lǐng)域,有四大類神經(jīng)網(wǎng)絡(luò)算法,包括MLP、CNN、RNN、Transformer。MLP是多層感知器,CNN是卷積神經(jīng)網(wǎng)絡(luò),RNN是循環(huán)神經(jīng)網(wǎng)絡(luò)。

Transformer是最新的算法模型。在一些場(chǎng)景中,它正在逐漸替代CNN和RNN。Transformer的特征提取能力比較強(qiáng),擅長(zhǎng)長(zhǎng)序列處理、并行計(jì)算、多模態(tài)處理等。Transformer的注意力機(jī)制有點(diǎn)像人一樣,選擇性關(guān)注,因?yàn)橘Y源有限,只會(huì)關(guān)注最重要的事情。

Transformer已經(jīng)被廣泛應(yīng)用在自然語言處理、計(jì)算機(jī)視覺以及生物科技等領(lǐng)域。生物科技行業(yè)用來預(yù)測(cè)蛋白質(zhì)三維形狀的Alpha Folder算法就是基于Transformer算法模型來做的。

▍哪個(gè)模塊是GPT-3儲(chǔ)存智能的地方?

GPT-3模型發(fā)布時(shí),OpenAI團(tuán)隊(duì)發(fā)布了論文《Language Models are Few-Shot Learners (語言模型是少樣本學(xué)習(xí)者)》。

上圖是GPT-3模型的框圖,它基本上跟Transformer 的右邊部分的解碼器是類似的。無論是預(yù)訓(xùn)練還是推理(做任務(wù)),都是從框圖的最底部輸入前面部分的文本(GPT-3模型最大的長(zhǎng)度是2048個(gè)token),然后經(jīng)過12次運(yùn)算,從Text prediction輸出下一個(gè)詞概率預(yù)測(cè)(Task Classifier是微調(diào)訓(xùn)練分支,在此不詳述)。

一個(gè)有意思的話題是,GPT-3用1750億個(gè)參數(shù),去學(xué)習(xí)接近5000億單詞的文本,顯然它不是簡(jiǎn)單地把3個(gè)單詞存在1個(gè)參數(shù)中去,而是大抵掌握了一些語言規(guī)律且抽象了某些知識(shí)和能力。那么,問題來了,這些規(guī)律、知識(shí)和能力到底存在哪些地方呢?

有學(xué)者認(rèn)為,1750億參數(shù)主要集中在框圖中的注意力處理層和前饋網(wǎng)絡(luò)層,前者的值是動(dòng)態(tài)計(jì)算的(每輸入2048個(gè)token,就重新計(jì)算一次),它們是數(shù)據(jù)相關(guān)的動(dòng)態(tài)權(quán)重,因?yàn)樗鼈儠?huì)根據(jù)數(shù)據(jù)動(dòng)態(tài)變化。而前饋網(wǎng)絡(luò)層的權(quán)重是隨著訓(xùn)練過程而緩慢變化的,因此,有學(xué)者猜想在前饋網(wǎng)絡(luò)層中存儲(chǔ)著GPT發(fā)現(xiàn)的語言規(guī)律、知識(shí)和能力等,因?yàn)橐?jīng)過12次運(yùn)算,運(yùn)算次數(shù)越靠后存儲(chǔ)的信息越抽象。

Stephen wolfram把GPT-2的某個(gè)前饋網(wǎng)絡(luò)層存儲(chǔ)的768*768維度的權(quán)重參數(shù)矩陣提取出來,壓縮到64x64尺寸,就形成了如下一張神秘的圖像,代表著GPT-2總結(jié)的神秘的人類語言編碼規(guī)律及其他一些知識(shí)和能力的一部分。很好奇什么時(shí)候科學(xué)家可以逐步解密其中的部分內(nèi)容,相信對(duì)于人類提升自我能力有好處。

圖片來源:writings.stephenwolfram.com

04 未來,ChatGPT能否進(jìn)化出自我意識(shí)?

和AI相比,自我意識(shí)和自由意志可以算作是人類最后的堡壘。

但是有一種觀點(diǎn)認(rèn)為,人類其實(shí)沒有所謂的自由意志。人類有兩個(gè)自我,一種是體驗(yàn)自我,另一種是陳述自我。體驗(yàn)自我,負(fù)責(zé)相對(duì)“機(jī)械”地解讀信息、作出決策;陳述自我,則負(fù)責(zé)對(duì)體驗(yàn)自我的決策進(jìn)行解釋和表述,有時(shí)甚至?xí)摌?gòu)故事來“欺騙”我們自己。所謂的自由意志,不過是陳述型自我給自己編的一個(gè)故事而已。

一些科學(xué)家和學(xué)者認(rèn)為,理論上,我們可以構(gòu)造出一個(gè)自我模擬的自指機(jī)器(Self-referential Machine),讓它也具備兩套體系,一個(gè)負(fù)責(zé)執(zhí)行算法,另一個(gè)則專門負(fù)責(zé)對(duì)自我進(jìn)行模擬(描述,或者可稱為在內(nèi)嵌虛擬世界中模擬自我)。這種機(jī)器會(huì)表現(xiàn)得就“像”一個(gè)具有自我意識(shí)的系統(tǒng),以至于我們可以用這樣的系統(tǒng)來定義所謂的“自我意識(shí)”。在古代歐洲,有一種傳說中的銜尾蛇,能夠自己吃自己,實(shí)現(xiàn)持續(xù)進(jìn)化。后來,有人提出哥德爾機(jī)( G?del Machine)的設(shè)想,認(rèn)為只要程序能夠模擬自身、改造自身,那么我們就可以將其稱為具有自我意識(shí)的。此外,還有Quine程序結(jié)構(gòu)、克萊因Kleene第二遞歸定理等也提出和支持了與之相似的假設(shè)。

圖片來源:維基百科

我們很難預(yù)料,未來機(jī)器是否能進(jìn)化出自我意識(shí)。

05 生成式AI領(lǐng)域的其他進(jìn)展

需要指出,當(dāng)前討論的生成式AI,跟之前的分析式AI是有較大不同的。分析式AI的主要能力是分析,例如:數(shù)據(jù)分析、趨勢(shì)預(yù)測(cè)、商品推薦、圖像識(shí)別等,而生成式AI主要的能力是創(chuàng)造,例如:寫詩(shī)、繪畫、設(shè)計(jì)產(chǎn)品、編寫代碼等。

當(dāng)前除語言模型外,生成式AI領(lǐng)域的其他進(jìn)展還包括圖像生成模型等等。未來,多模態(tài)(文本、圖、視頻等)對(duì)齊、融合、理解和生成等方向的進(jìn)展,意義也非常重大。

關(guān)于圖像生成模型,不得不提的是擴(kuò)散模型(Diffusion Model)。它主要解決通過文本生成圖像及其他媒體格式的難題,業(yè)內(nèi)知名的擴(kuò)散模型包括:DALIE2、Stable Diffusion等。

圖片來源:Denoising Diffusion Probabilistic Models

06 生成式AI相關(guān)的6點(diǎn)創(chuàng)業(yè)思考與建議

2022年,大語言模型爆發(fā)。據(jù)統(tǒng)計(jì),2022年,平均每4天就有一個(gè)新的大語言模型問世。

生成式AI技術(shù)也在持續(xù)引發(fā)人們對(duì)一些知名的模型層平臺(tái)和應(yīng)用的訪問,數(shù)據(jù)增長(zhǎng)很快,投資火熱。2019 年至2021年期間,流向生成式AI業(yè)務(wù)的資本增加了約130%,其中文本和寫作增長(zhǎng)630%、圖像增長(zhǎng)400%、數(shù)據(jù)增長(zhǎng) 370% 、音頻/視頻增長(zhǎng)350% 。

圖片來源:A16Z

上圖是投資公司A16Z總結(jié)的生成式AI的行業(yè)堆棧。底層深藍(lán)色的部分是基礎(chǔ)硬件和云平臺(tái),中間藍(lán)色的部分是模型層,再往上淺藍(lán)色的部分是應(yīng)用層。

在應(yīng)用層,有的創(chuàng)業(yè)公司自身只做應(yīng)用,模型能力則是調(diào)用外部的;還有一類叫端到端的應(yīng)用模式,它會(huì)自己做模型,但一般不做大模型,或者在其他大模型基礎(chǔ)上微調(diào)出自己的模型。

在模型層,有開源模型和閉源模型。深藍(lán)色部分的Model hubs是用于模型存儲(chǔ)和訓(xùn)練的第三方平臺(tái)。

當(dāng)前應(yīng)用層的增長(zhǎng)比較快,主要是由AI賦能的新型應(yīng)用案例所驅(qū)動(dòng),主要集中在圖像生成、文案寫作和代碼編寫,三個(gè)類別各自的年收入已超1億美元。

關(guān)于生成式AI的創(chuàng)業(yè),我有6點(diǎn)思考和建議:

第一,目前,與AI相關(guān)的科研、工程、產(chǎn)品和商業(yè)化,都在同時(shí)快速迭代,變數(shù)很大。這個(gè)過程中,會(huì)出現(xiàn)不同的技術(shù)分支和業(yè)務(wù)路徑,如果選錯(cuò)了技術(shù)分支和業(yè)務(wù)路徑,再掉頭就很麻煩。這就需要?jiǎng)?chuàng)業(yè)團(tuán)隊(duì)既懂技術(shù)又懂業(yè)務(wù),在創(chuàng)業(yè)初期努力做出正確選擇。

第二,對(duì)創(chuàng)業(yè)公司而言,從應(yīng)用層或者端到端的應(yīng)用層切入,可能是相對(duì)能降低風(fēng)險(xiǎn)的做法。模型層有少量機(jī)會(huì),但不一定適合大部分的創(chuàng)業(yè)者。第三,應(yīng)用層在做商業(yè)模型設(shè)計(jì)的時(shí)候,要警惕模型層的邊界。

以Jasper公司為例。2020年在GPT-3模型基礎(chǔ)上,Jasper衍生出付費(fèi)商業(yè)文本寫作的商業(yè)模式。到了2022年底,ChatGPT向用戶免費(fèi)開放,給Jasper帶來較大的壓力。盡管OpenAI未必會(huì)以商業(yè)文本生成作為自己的主要商業(yè)模式,但它平等賦能了入場(chǎng)的其他競(jìng)爭(zhēng)者。Jasper需要展現(xiàn)出有競(jìng)爭(zhēng)力的技術(shù)積累與業(yè)務(wù)縱深,才能穩(wěn)住腳跟。

第四,把AI技術(shù)應(yīng)用到產(chǎn)業(yè)場(chǎng)景,可分為新模式和舊模式改造兩類方式。新模式是指創(chuàng)造之前沒有的全新的應(yīng)用場(chǎng)景,舊模式改造則指在現(xiàn)有產(chǎn)業(yè)場(chǎng)景里用AI技術(shù)來改造部分環(huán)節(jié),或者團(tuán)隊(duì)帶著深度行業(yè)認(rèn)知和新的AI技術(shù)在成熟的產(chǎn)業(yè)場(chǎng)景中創(chuàng)業(yè)。新模式和舊模式改造,都存在巨大的機(jī)會(huì)。

在峰瑞已投企業(yè)中,有好幾家企業(yè)在垂直產(chǎn)業(yè)的場(chǎng)景中做業(yè)務(wù)創(chuàng)新。比如線上心理咨詢平臺(tái)閣樓、短視頻及直播SAAS服務(wù)企業(yè)特看科技、線上健身私教平臺(tái)BodyPark,都在積極使用生成式AI來賦能自己的業(yè)務(wù)。本周六(3月11日),我們將邀請(qǐng)這3家公司的創(chuàng)始人來分享他們的探索和發(fā)現(xiàn),歡迎參與。

第五,AI還面臨科研知識(shí)快速溢出的問題,因此找到自己的壁壘很重要。創(chuàng)業(yè)公司一定要想清楚自己未來的壁壘在哪里,比如到底是數(shù)據(jù)壁壘、工程壁壘(例如模型微調(diào))、場(chǎng)景壁壘,還是規(guī)模壁壘等等。在應(yīng)用層創(chuàng)業(yè),僅依靠外部模型層提供的能力,是無法形成壁壘的。

第六,應(yīng)用層的創(chuàng)業(yè),應(yīng)該是“技術(shù)為先、場(chǎng)景為重”。

“技術(shù)為先”,是指雖然通用AI技術(shù)未必是你的核心壁壘,但團(tuán)隊(duì)一定要懂技術(shù),才有能力思考如何更早更好地把技術(shù)應(yīng)用到合適的應(yīng)用場(chǎng)景里,做出好用的產(chǎn)品。

“場(chǎng)景為重”,意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場(chǎng)景,建立自己的商業(yè)模式,并在場(chǎng)景里形成自己的核心競(jìng)爭(zhēng)力。

07 生成式AI行業(yè)的未來格局展望和猜想

最后來聊聊對(duì)AI行業(yè)格局的未來展望和猜想。這個(gè)部分我參考了奇績(jī)創(chuàng)壇陸奇博士之前的一個(gè)思考框架。

▍以AI和大模型為中心的新IT

新的硅基硬件產(chǎn)業(yè):硅基產(chǎn)業(yè)架構(gòu)和集合可能迎來新的發(fā)展機(jī)遇(例如:新的計(jì)算芯片及周邊技術(shù)和產(chǎn)業(yè)等)。

新的軟件和云服務(wù)體系:算力、模型和數(shù)據(jù)的云服務(wù)、基礎(chǔ)軟件、ML&Dev Ops、人機(jī)互助編程工具等。

▍新的基礎(chǔ)智能終端設(shè)備:智能傳感器、新型手機(jī)等

未來的智能終端會(huì)越來越智能,最近蘋果公司官宣支持Stable Diffusion圖像生成模型在iPad等終端上運(yùn)行,也有工程師把經(jīng)過裁剪的Stable Diffusion應(yīng)用在iPhone上運(yùn)行起來,可以預(yù)見以后我們的手機(jī)美顏和照片生成可以達(dá)到何等出神入化的境界。

此外,當(dāng)前的翻譯軟件技術(shù),在語義理解方面還是比較淺,翻譯質(zhì)量差強(qiáng)人意。如果可以把類似ChatGPT這樣的語言模型能力嵌入到智能終端中去,隨著文本和語音的實(shí)時(shí)翻譯成為可能,跨語言交流將變得很方便,這對(duì)于提升人類之間的交流效率意義重大。

▍圍繞內(nèi)容創(chuàng)作展開的產(chǎn)業(yè)

文、圖、視頻、3D等各種媒體格式的AI內(nèi)容創(chuàng)作工具,是當(dāng)前可以看到創(chuàng)業(yè)機(jī)會(huì)較多的新產(chǎn)業(yè)。

以ChatGPT為代表的語言模型的文本生成技術(shù),和以擴(kuò)散模型為代表的圖像視頻多模態(tài)生成技術(shù),可能會(huì)對(duì)內(nèi)容產(chǎn)業(yè)產(chǎn)生深遠(yuǎn)的影響。從PGC到UGC,再到如今的AIGC,內(nèi)容領(lǐng)域會(huì)有更多新變化與新玩法。

從媒體行業(yè)發(fā)展情況來看,當(dāng)前頭部的內(nèi)容媒體平臺(tái)比如抖音快手B站是所謂的Web2.0平臺(tái),普遍采用UGC方式為主來生產(chǎn)內(nèi)容,但是隨著AI生產(chǎn)內(nèi)容(AIGC)的出現(xiàn),AI可以生成大量?jī)?yōu)秀內(nèi)容,成本較低、效果精良,而且甚至不乏創(chuàng)意,這個(gè)情況下內(nèi)容媒體平臺(tái)和行業(yè)就有可能出現(xiàn)較大的變化。

▍圍繞語言模型展開的產(chǎn)業(yè)

在這個(gè)領(lǐng)域,新的機(jī)會(huì)可能包括:語言學(xué)習(xí)范式改變,重塑跨語言溝通方式,更友好的人機(jī)界面等。

其中特別值得一提的,是語言學(xué)習(xí)范式的改變。如前文所述,如果我們可以打開語言模型,從中尋找到語言學(xué)習(xí)的規(guī)律,說不定可以幫助我們更有效率地學(xué)習(xí)語言。事實(shí)上,OpenAI投資了一家韓國(guó)的英語學(xué)習(xí)APP叫Speak。從有限的公開信息來看,這家公司未來的產(chǎn)品是一個(gè)語言學(xué)習(xí)助手,或者叫做虛擬語言老師——借助語言模型的能力和發(fā)現(xiàn)的語言規(guī)律,去幫助人們更好地學(xué)習(xí)外語,而且成本極低。

跨語言溝通的技術(shù)目前還不成熟。如前面所說,如果我們能夠把語言模型加載到智能終端,可能會(huì)極大改進(jìn)跨語言溝通的能力。

因?yàn)檎Z言模型足夠強(qiáng)大,未來我們的人機(jī)界面,會(huì)采用更友好的自然語言人機(jī)界面,無論是跟APP對(duì)話還是跟智能硬件對(duì)話。

▍圍繞思維模型展開的產(chǎn)業(yè)

不妨?xí)诚胍幌?,更聰明的軟件(或機(jī)器人)、科研服務(wù)、 “知識(shí)工程”、“世界大腦”等。

當(dāng)前的軟件產(chǎn)業(yè),即便有AI的加持,通用性和智能程度還是不盡如人意的,大多數(shù)情況下只能做一些特定的任務(wù),只能成為人類的效率助手;隨著更加通用的AI能力出現(xiàn),軟件也可以像人類一樣思考和做事,可以想象軟件就可以幫助人類承接較為完整的任務(wù)了。

如果AI可以發(fā)展出接近人類的思維能力,它也許可以成為人類科學(xué)家的科研助手,因?yàn)锳I可以不知疲倦,且可廣泛使用。當(dāng)前,我們很難想象AI可以達(dá)到人類頂尖科學(xué)家的水平。打個(gè)比方,你讓它去證明下哥德巴赫猜想,應(yīng)該還是很不現(xiàn)實(shí)的。當(dāng)然也有其他可能,如前文所述,如果AI程序可以實(shí)現(xiàn)自我優(yōu)化,具備迭代自己的算法和技術(shù)的能力,相信它的智能會(huì)很快趕上來。

如果我們展開想象,就可以有更多的可能性。例如“知識(shí)工程”,如果把人類的知識(shí)建模,然后讓人類以某種方式可以調(diào)用或者學(xué)習(xí),那么就不用經(jīng)過“痛苦”的學(xué)習(xí)過程。“世界大腦”,是指規(guī)模極大的思維模型,它可以幫助我們執(zhí)行各種重要的計(jì)算和思考。不過,如果真的發(fā)展到這個(gè)地步,可能離電影《黑客帝國(guó)》里邊的Matrix就不遠(yuǎn)了。

▍賦能人類,深入改變各行各業(yè)(特別是知識(shí)工作者)

語言是人類最主要的溝通方式,是知識(shí)和思維的主要載體;而深度思維是人類的高階能力,也是人類不同于其他物種的最重要的能力。如果AI掌握了這兩種能力,就基本具備了在某種程度上賦能或替代一部分人類知識(shí)工作者的可能。

類似于自動(dòng)化生產(chǎn)制造設(shè)備賦能傳統(tǒng)工業(yè),各類AI模型和應(yīng)用軟件也將有機(jī)會(huì)更好地賦能各行各業(yè)。但是不同于制造行業(yè),大批量使用的軟件,其邊際使用成本是非常低的,而且它很聰明、善學(xué)習(xí)、會(huì)思考、會(huì)交流,應(yīng)該會(huì)有大量的應(yīng)用場(chǎng)景有待開發(fā)。這里邊有非常多的創(chuàng)業(yè)機(jī)會(huì),也會(huì)給各行各業(yè)帶來新的發(fā)展動(dòng)力。

08 寫在最后,為什么AIGC不會(huì)是短期風(fēng)口?

首先,ChatGPT是語言模型領(lǐng)域的重大進(jìn)展,鑒于語言對(duì)人類溝通和思維的重大意義,語言模型本身具備很強(qiáng)的通用性,以及人類可以通過研究語言模型獲取語言及知識(shí)的學(xué)習(xí)規(guī)律并得到效率提升,這些都會(huì)持續(xù)帶來長(zhǎng)期的創(chuàng)新機(jī)會(huì)。

第二,AI在思維機(jī)器這個(gè)方向上還有更遠(yuǎn)的路可以走。例如,如果AI能夠?qū)崿F(xiàn)良好的多模態(tài)信息輸入,增加對(duì)物理世界的理解,可能可以“涌現(xiàn)”出更多的智能。這個(gè)方向的任何進(jìn)步都意義重大。

第三,與AIGC相關(guān)的底層技術(shù)原理和算法都還處在發(fā)展早期,未來還有很長(zhǎng)的迭代和優(yōu)化機(jī)會(huì)。

一切,才剛剛開始。

熱點(diǎn):NFT爆發(fā) nft爆款 nft爆紅 usdt爆 BTG幣

歐易

歐易(OKX)

用戶喜愛的交易所

幣安

幣安(Binance)

已有賬號(hào)登陸后會(huì)彈出下載

« 上一條| 下一條 »
區(qū)塊鏈交流群
數(shù)藏交流群

合作伙伴

愛網(wǎng)站 周公解夢(mèng) 媽媽知道 秒懂域名 借春秋財(cái)經(jīng) 金色幣圈 幣圈論壇 培訓(xùn)資訊網(wǎng) 幣圈交流群 百悅米 天天財(cái)富 寶寶起名 非小號(hào)行情 兼職信息網(wǎng) 代特幣圈 美白沒斑啦 今日黃金 皮卡丘資訊 談股票 百科書庫(kù) 數(shù)字黃金 去玩唄SPA 幣圈ICO官網(wǎng) 玩合約 幣圈官網(wǎng) 趣玩幣 裝修裝飾網(wǎng) 黃金行情 減肥瘦身吧 谷歌留痕 數(shù)字財(cái)經(jīng) 旅游資訊網(wǎng) 茶百科 聚幣網(wǎng) 借春秋 元宇宙Web 玩票票財(cái)經(jīng)
非小號(hào)交易所排名-專業(yè)的交易行情資訊門戶網(wǎng)站,提供區(qū)塊鏈比特幣行情查詢、比特幣價(jià)格、比特幣錢包、比特幣智能合約、比特幣量化交易策略分析,狗狗幣以太坊以太幣玩客幣雷達(dá)幣波場(chǎng)環(huán)保幣柚子幣萊特幣瑞波幣公信寶等虛擬加密電子數(shù)字貨幣價(jià)格查詢匯率換算,幣看比特兒火幣網(wǎng)幣安網(wǎng)歐易虎符抹茶XMEX合約交易所APP,比特幣挖礦金色財(cái)經(jīng)巴比特范非小號(hào)資訊平臺(tái)。
非小號(hào)行情 yonghaoka.cn 飛鳥用好卡 ?2020-2024版權(quán)所有 桂ICP備18005582號(hào)-1