時(shí)間:2024-07-27|瀏覽:268
一項(xiàng)新研究發(fā)現(xiàn),使用人工智能生成的材料進(jìn)行訓(xùn)練的大型語(yǔ)言模型 (LLM) 產(chǎn)生的輸出缺乏實(shí)質(zhì)內(nèi)容和細(xì)微差別。這一發(fā)現(xiàn)給依賴有限的人工數(shù)據(jù)集來(lái)獲取內(nèi)容的人工智能開發(fā)人員帶來(lái)了新的挑戰(zhàn)。
另請(qǐng)閱讀:報(bào)告稱,人工智能深度偽造使美國(guó)當(dāng)局難以保護(hù)兒童
英國(guó)劍橋大學(xué)和牛津大學(xué)的人工智能研究人員嘗試依靠?jī)H包含人工智能生成內(nèi)容的數(shù)據(jù)集來(lái)編寫提示。結(jié)果并不理想,因?yàn)樗a(chǎn)生了難以理解的回答。
人工智能仍然需要人類的理解
該論文的作者之一、劍橋大學(xué)的 Zhakar Shumaylov 表示,需要對(duì)提供給 LLM 的數(shù)據(jù)進(jìn)行質(zhì)量控制,而 LLM 是 ChatGPT 和谷歌 Gemini 等生成式 AI 聊天機(jī)器人背后的技術(shù)。Shumaylov 說(shuō):
“我們必須非常小心地對(duì)待訓(xùn)練數(shù)據(jù)。否則,事情總是會(huì)出錯(cuò)?!?/p>
Shumaylov 詳細(xì)介紹了這種現(xiàn)象,稱之為“模型崩潰”。事實(shí)證明,它會(huì)影響各種人工智能模型,包括那些專門使用文本提示生成圖像的模型。
根據(jù)這項(xiàng)研究,在一個(gè)模型上使用人工智能生成的數(shù)據(jù)重復(fù)文本提示最終產(chǎn)生了亂碼。例如,研究人員發(fā)現(xiàn),一個(gè)使用有關(guān)英國(guó)中世紀(jì)教堂塔樓的文本進(jìn)行測(cè)試的系統(tǒng)在僅僅九代之后就產(chǎn)生了一個(gè)重復(fù)的長(zhǎng)耳大野兔列表。
加州大學(xué)計(jì)算機(jī)科學(xué)家哈尼·法里德 (Hany Farid) 在評(píng)論這些輸出時(shí),將數(shù)據(jù)崩潰比作動(dòng)物近親繁殖特有的挑戰(zhàn)。
法里德說(shuō):“如果一個(gè)物種與自己的后代進(jìn)行近親繁殖,并且沒有使其基因庫(kù)多樣化,那么就會(huì)導(dǎo)致物種的滅絕。”
當(dāng)研究人員將人類生成的數(shù)據(jù)注入人工智能數(shù)據(jù)中時(shí),崩潰的速度比純?nèi)斯ぶ悄苌傻膬?nèi)容運(yùn)行時(shí)要慢。
人工智能模型在接受人工智能生成的數(shù)據(jù)訓(xùn)練時(shí)會(huì)產(chǎn)生胡言亂語(yǔ)。 研究人員:人工智能可能會(huì)加劇對(duì)少數(shù)群體的偏見
語(yǔ)言模型的工作原理是建立大量文本中的標(biāo)記(單詞或單詞部分)之間的關(guān)聯(lián),這些文本通常來(lái)自互聯(lián)網(wǎng)。它們根據(jù)這些學(xué)習(xí)到的模式,通過(guò)輸出統(tǒng)計(jì)上最有可能的下一個(gè)單詞來(lái)生成文本。
另請(qǐng)閱讀:由 ChatGPT 提供支持的泰迪熊 Poe 為孩子們讀睡前故事
這項(xiàng)研究于 7 月 24 日發(fā)表在《自然》雜志上,表明數(shù)據(jù)集中多次提到的信息很可能不會(huì)重復(fù)。研究人員擔(dān)心這可能會(huì)對(duì)已經(jīng)邊緣化的少數(shù)群體產(chǎn)生負(fù)面影響。
為了避免模型在實(shí)際使用中崩潰,該研究建議對(duì)人工智能生成的內(nèi)容和人類生成的內(nèi)容進(jìn)行水印處理。但研究表示,由于競(jìng)爭(zhēng)對(duì)手人工智能公司之間缺乏協(xié)調(diào),這也可能帶來(lái)問題。
該項(xiàng)研究結(jié)果發(fā)布之際,人們正日益爭(zhēng)論人工智能是否會(huì)導(dǎo)致人類完全被排除在內(nèi)容創(chuàng)作之外,包括小說(shuō)和報(bào)紙文章的寫作。
該研究的標(biāo)題為“人工智能模型在對(duì)遞歸生成的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)崩潰”,其結(jié)果平息了這場(chǎng)爭(zhēng)論——人類還沒有被排除在外。
熱點(diǎn):數(shù)據(jù) 人工智能 訓(xùn)練