国产成人 综合 亚洲欧美,羞羞影院成人午夜爽爽在线,中文字幕av在线一二三区,午夜私人成年影院在线观看,男人把大ji巴放进女人视频

okx

從 GPT-1 到 GPT-4,看 ChatGPT 的崛起

時間:2022-12-05|瀏覽:1137

ChatGPT 的歷史淵源及其局限性

作者:阿法兔

封面:OpenAI

整理了一下 ChatGPT 的發(fā)展歷程、背后的技術(shù)原理,以及它的局限性在哪。(請注意:有部分內(nèi)容來自于文內(nèi)的參考資料,如有興趣還請閱讀原文,本文不構(gòu)成任何投資建議或者對項目的推薦)

*轉(zhuǎn)載請掃碼添加后臺微信二維碼,轉(zhuǎn)載請注明來源,且附上本文的所有參考文獻(xiàn)鏈接。

ChatGPT 是個啥?

*本文 3900 字左右

ChatGPT 是個啥?

近期,OpenAI 發(fā)布了 ChatGPT,是一個可以對話的方式進(jìn)行交互的模型,因為它的智能化,得到了很多用戶的歡迎。ChatGPT 也是 OpenAI 之前發(fā)布的 InstructGPT 的親戚,ChatGPT 模型的訓(xùn)練是使用 RLHF(Reinforcement learning with human feedback)也許 ChatGPT 的到來,也是 OpenAI 的 GPT-4 正式推出之前的序章。

什么是 GPT?從 GPT-1 到 GPT-3

Generative Pre-trained Transformer (GPT),是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型。它用于問答、文本摘要生成、機(jī)器翻譯、分類、代碼生成和對話 AI。

2018 年,GPT-1 誕生,這一年也是 NLP(自然語言處理)的預(yù)訓(xùn)練模型元年。性能方面,GPT-1 有著一定的泛化能力,能夠用于和監(jiān)督任務(wù)無關(guān)的 NLP 任務(wù)中。其常用任務(wù)包括:

  • 自然語言推理:判斷兩個句子的關(guān)系(包含、矛盾、中立)
  • 問答與常識推理:輸入文章及若干答案,輸出答案的準(zhǔn)確率
  • 語義相似度識別:判斷兩個句子語義是否相關(guān)
  • 分類:判斷輸入文本是指定的哪個類別

雖然 GPT-1 在未經(jīng)調(diào)試的任務(wù)上有一些效果,但其泛化能力遠(yuǎn)低于經(jīng)過微調(diào)的有監(jiān)督任務(wù),因此 GPT-1 只能算得上一個還算不錯的語言理解工具而非對話式 AI。

GPT-2 也于 2019 年如期而至,不過,GPT-2 并沒有對原有的網(wǎng)絡(luò)進(jìn)行過多的結(jié)構(gòu)創(chuàng)新與設(shè)計,只使用了更多的網(wǎng)絡(luò)參數(shù)與更大的數(shù)據(jù)集:最大模型共計 48 層,參數(shù)量達(dá) 15 億,學(xué)習(xí)目標(biāo)則使用無監(jiān)督預(yù)訓(xùn)練模型做有監(jiān)督任務(wù)。在性能方面,除了理解能力外,GPT-2 在生成方面第一次表現(xiàn)出了強(qiáng)大的天賦:閱讀摘要、聊天、續(xù)寫、編故事,甚至生成假新聞、釣魚郵件或在網(wǎng)上進(jìn)行角色扮演通通不在話下。在 “變得更大” 之后,GPT-2 的確展現(xiàn)出了普適而強(qiáng)大的能力,并在多個特定的語言建模任務(wù)上實(shí)現(xiàn)了彼時的最佳性能。

之后,GPT-3 出現(xiàn)了,作為一個無監(jiān)督模型(現(xiàn)在經(jīng)常被稱為自監(jiān)督模型),幾乎可以完成自然語言處理的絕大部分任務(wù),例如面向問題的搜索、閱讀理解、語義推斷、機(jī)器翻譯、文章生成和自動問答等等。而且,該模型在諸多任務(wù)上表現(xiàn)卓越,例如在法語-英語和德語-英語機(jī)器翻譯任務(wù)上達(dá)到當(dāng)前最佳水平,自動產(chǎn)生的文章幾乎讓人無法辨別出自人還是機(jī)器(僅 52% 的正確率,與隨機(jī)猜測相當(dāng)),更令人驚訝的是在兩位數(shù)的加減運(yùn)算任務(wù)上達(dá)到幾乎 100% 的正確率,甚至還可以依據(jù)任務(wù)描述自動生成代碼。一個無監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是 GPT-3 影響如此之大的主要原因

GPT-3 模型到底是什么?

實(shí)際上,GPT-3 就是一個簡單的統(tǒng)計語言模型。從機(jī)器學(xué)習(xí)的角度,語言模型是對詞語序列的概率分布的建模,即利用已經(jīng)說過的片段作為條件預(yù)測下一個時刻不同詞語出現(xiàn)的概率分布。語言模型一方面可以衡量一個句子符合語言文法的程度(例如衡量人機(jī)對話系統(tǒng)自動產(chǎn)生的回復(fù)是否自然流暢),同時也可以用來預(yù)測生成新的句子。例如,對于一個片段 “中午 12 點(diǎn)了,我們一起去餐廳”,語言模型可以預(yù)測 “餐廳” 后面可能出現(xiàn)的詞語。一般的語言模型會預(yù)測下一個詞語是 “吃飯”,強(qiáng)大的語言模型能夠捕捉時間信息并且預(yù)測產(chǎn)生符合語境的詞語 “吃午飯”。

通常,一個語言模型是否強(qiáng)大主要取決于兩點(diǎn):首先看該模型是否能夠利用所有的歷史上下文信息,上述例子中如果無法捕捉 “中午 12 點(diǎn)” 這個遠(yuǎn)距離的語義信息,語言模型幾乎無法預(yù)測下一個詞語 “吃午飯”。其次,還要看是否有足夠豐富的歷史上下文可供模型學(xué)習(xí),也就是說訓(xùn)練語料是否足夠豐富。由于語言模型屬于自監(jiān)督學(xué)習(xí),優(yōu)化目標(biāo)是最大化所見文本的語言模型概率,因此任何文本無需標(biāo)注即可作為訓(xùn)練數(shù)據(jù)。

由于 GPT-3 更強(qiáng)的性能和明顯更多的參數(shù),它包含了更多的主題文本,顯然優(yōu)于前代的 GPT-2。作為目前最大的密集型神經(jīng)網(wǎng)絡(luò),GPT-3 能夠?qū)⒕W(wǎng)頁描述轉(zhuǎn)換為相應(yīng)代碼、模仿人類敘事、創(chuàng)作定制詩歌、生成游戲劇本,甚至模仿已故的各位哲學(xué)家——預(yù)測生命的真諦。且 GPT-3 不需要微調(diào),在處理語法難題方面,它只需要一些輸出類型的樣本(少量學(xué)習(xí))。可以說 GPT-3 似乎已經(jīng)滿足了我們對于語言專家的一切想象。

注:上文主要參考以下文章:

1.GPT4 發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號 51CTO 技術(shù)棧- 2022-11-24 18:08

2. 一文解答你對 GPT-3 的好奇!GPT-3 是什么?為何說它如此優(yōu)秀?-張家俊 中國科學(xué)院自動化研究所 2020-11-11 17:25 發(fā)表于北京

3.The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號 DeeplearningAI-2022-02-07 12:30

GPT-3 存在什么問題?

但是 GTP-3 并不完美,當(dāng)前有人們最擔(dān)憂人工智能的主要問題之一,就是聊天機(jī)器人和文本生成工具等很可能會不分青紅皂白和質(zhì)量好壞,地對網(wǎng)絡(luò)上的所有文本進(jìn)行學(xué)習(xí),進(jìn)而生產(chǎn)出錯誤的、惡意冒犯的、甚至是攻擊性的語言輸出,這將會充分影響到它們的下一步應(yīng)用。

OpenAI 也曾經(jīng)提出,會在不久的將來發(fā)布更為強(qiáng)大的 GPT-4:

將GPT-3 與 GPT-4、 人腦進(jìn)行比較(圖片來源:Lex Fridman @youtube)

據(jù)說,GPT-4 會在明年發(fā)布,它能夠通過圖靈測試,并且能夠先進(jìn)到和人類沒有區(qū)別,除此之外,企業(yè)引進(jìn) GPT-4 的成本也將大規(guī)模下降。

ChatGP 與 InstructGPT

ChatGPT 與 InstructGPT

談到 Chatgpt,就要聊聊它的 “前身”InstructGPT。

2022 年初,OpenAI 發(fā)布了 InstructGPT;在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓(xùn)練出更真實(shí)、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT,InstructGPT 是一個經(jīng)過微調(diào)的新版本 GPT-3,可以將有害的、不真實(shí)的和有偏差的輸出最小化。

InstructGPT 的工作原理是什么?

開發(fā)人員通過結(jié)合監(jiān)督學(xué)習(xí)+從人類反饋中獲得的強(qiáng)化學(xué)習(xí)。來提高 GPT-3 的輸出質(zhì)量。在這種學(xué)習(xí)中,人類對模型的潛在輸出進(jìn)行排序;強(qiáng)化學(xué)習(xí)算法則對產(chǎn)生類似于高級輸出材料的模型進(jìn)行獎勵。

訓(xùn)練數(shù)據(jù)集以創(chuàng)建提示開始,其中一些提示是基于 GPT-3 用戶的輸入,比如 “給我講一個關(guān)于青蛙的故事” 或 “用幾句話給一個 6 歲的孩子解釋一下登月”。

開發(fā)人員將提示分為三個部分,并以不同的方式為每個部分創(chuàng)建響應(yīng):

人類作家會對第一組提示做出響應(yīng)。開發(fā)人員微調(diào)了一個經(jīng)過訓(xùn)練的 GPT-3,將它變成 InstructGPT 以生成每個提示的現(xiàn)有響應(yīng)。

下一步是訓(xùn)練一個模型,使其對更好的響應(yīng)做出更高的獎勵。對于第二組提示,經(jīng)過優(yōu)化的模型會生成多個響應(yīng)。人工評分者會對每個回復(fù)進(jìn)行排名。在給出一個提示和兩個響應(yīng)后,一個獎勵模型 (另一個預(yù)先訓(xùn)練的 GPT-3) 學(xué)會了為評分高的響應(yīng)計算更高的獎勵,為評分低的回答計算更低的獎勵。

開發(fā)人員使用第三組提示和強(qiáng)化學(xué)習(xí)方法近端策略優(yōu)化 (Proximal Policy Optimization, PPO) 進(jìn)一步微調(diào)了語言模型。給出提示后,語言模型會生成響應(yīng),而獎勵模型會給予相應(yīng)獎勵。PPO 使用獎勵來更新語言模型。

本段參考:The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號 DeeplearningAI-2022-02-07 12:30

重要在何處?核心在于——人工智能需要是能夠負(fù)責(zé)任的人工智能

OpenAI 的語言模型可以助力教育領(lǐng)域、虛擬治療師、寫作輔助工具、角色扮演游戲等,在這些領(lǐng)域,社會偏見、錯誤信息和毒害信息存在都是比較麻煩的,能夠避免這些缺陷的系統(tǒng)才能更具備有用性。

Chatgpt 與 InstructGPT 的訓(xùn)練過程有哪些不同?

總體來說,Chatgpt 和上文的 InstructGPT 一樣,是使用 RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))訓(xùn)練的。不同之處在于數(shù)據(jù)是如何設(shè)置用于訓(xùn)練(以及收集)的。(這里解釋一下:之前的 InstructGPT 模型,是給一個輸入就給一個輸出,再跟訓(xùn)練數(shù)據(jù)對比,對了有獎勵不對有懲罰;現(xiàn)在的 Chatgpt 是一個輸入,模型給出多個輸出,然后人給這個輸出結(jié)果排序,讓模型去給這些結(jié)果從 “更像人話” 到 “狗屁不通” 排序,讓模型學(xué)習(xí)人類排序的方式,這種策略叫做 supervised learning,本段感謝張子兼博士)

ChatGPT 存在哪些局限性?

如下:

a) 在訓(xùn)練的強(qiáng)化學(xué)習(xí) (RL) 階段,沒有真相和問題標(biāo)準(zhǔn)答案的具體來源,來答復(fù)你的問題。

b) 訓(xùn)練模型更加謹(jǐn)慎,可能會拒絕回答(以避免提示的誤報)。

c) 監(jiān)督訓(xùn)練可能會誤導(dǎo)/偏向模型傾向于知道理想的答案,而不是模型生成一組隨機(jī)的響應(yīng)并且只有人類評論者選擇好的/排名靠前的響應(yīng)

注意:ChatGPT 對措辭敏感。,有時模型最終對一個短語沒有反應(yīng),但對問題/短語稍作調(diào)整,它最終會正確回答。訓(xùn)練者更傾向于喜歡更長的答案,因為這些答案可能看起來更全面,導(dǎo)致傾向于更為冗長的回答,以及模型中會過度使用某些短語,如果初始提示或問題含糊不清,則模型不會適當(dāng)?shù)匾蟪吻濉?/p>

ChatGPT’s self-identified limitations are as follows.

Plausible-sounding but incorrect answers:

a) There is no real source of truth to fix this issue during the Reinforcement Learning (RL) phase of training.

b) Training model to be more cautious can mistakenly decline to answer (false positive of troublesome prompts).

c) Supervised training may mislead / bias the model tends to know the ideal answer rather than the model generating a random set of responses and only human reviewers selecting a good/highly-ranked responseChatGPT is sensitive to phrasing. Sometimes the model ends up with no response for a phrase, but with a slight tweak to the question/phrase, it ends up answering it correctly.

Trainers prefer longer answers that might look more comprehensive, leading to a bias towards verbose responses and overuse of certain phrases.The model is not appropriately asking for clarification if the initial prompt or question is ambiguous.A safety layer to refuse inappropriate requests via Moderation API has been implemented. However, we can still expect false negative and positive responses.

參考文獻(xiàn):

1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9aee81287677

2.https://pub.towardsai.net/openai-debuts-chatgpt-50dd611278a4

3.https://openai.com/blog/chatgpt/

4.GPT4 發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號 51CTO 技術(shù)棧- 2022-11-24 18:08

5. 一文解答你對 GPT-3 的好奇!GPT-3 是什么?為何說它如此優(yōu)秀?-張家俊 中國科學(xué)院自動化研究所 2020-11-11 17:25 發(fā)表于北京

6.The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號 DeeplearningAI-2022-02-07 12:30

免責(zé)聲明:作為區(qū)塊鏈信息平臺,本站所發(fā)布文章僅代表作者及嘉賓個人觀點(diǎn),與趣幣網(wǎng)立場無關(guān)。文章內(nèi)的信息僅供參考,均不構(gòu)成任何投資建議及要約,并請您遵守所在國家或地區(qū)的相關(guān)法律法規(guī)。

熱點(diǎn):區(qū)塊鏈 數(shù)據(jù) 智能化

歐易

歐易(OKX)

用戶喜愛的交易所

幣安

幣安(Binance)

已有賬號登陸后會彈出下載

« 上一條| 下一條 »
區(qū)塊鏈交流群
數(shù)藏交流群

合作伙伴

谷歌留痕 秒懂域名 借春秋 百悅米 聚幣網(wǎng) 裝修裝飾網(wǎng) 數(shù)字財經(jīng) 百科書庫 茶百科 皮卡丘資訊 幣圈交流群 玩合約 去玩唄SPA 談股票 美白沒斑啦 周公解夢 幣圈論壇 今日黃金 兼職信息網(wǎng) 黃金行情 玩票票財經(jīng) 愛網(wǎng)站 減肥瘦身吧 旅游資訊網(wǎng) 元宇宙Web 代特幣圈 數(shù)字黃金 培訓(xùn)資訊網(wǎng) 趣玩幣 媽媽知道 幣圈ICO官網(wǎng) 幣圈官網(wǎng) 非小號行情 天天財富 金色幣圈 借春秋財經(jīng) 寶寶起名
非小號交易所排名-專業(yè)的交易行情資訊門戶網(wǎng)站,提供區(qū)塊鏈比特幣行情查詢、比特幣價格、比特幣錢包、比特幣智能合約、比特幣量化交易策略分析,狗狗幣以太坊以太幣玩客幣雷達(dá)幣波場環(huán)保幣柚子幣萊特幣瑞波幣公信寶等虛擬加密電子數(shù)字貨幣價格查詢匯率換算,幣看比特兒火幣網(wǎng)幣安網(wǎng)歐易虎符抹茶XMEX合約交易所APP,比特幣挖礦金色財經(jīng)巴比特范非小號資訊平臺。
非小號行情 yonghaoka.cn 飛鳥用好卡 ?2020-2024版權(quán)所有 桂ICP備18005582號-1