OpenAI 文本轉(zhuǎn)視頻模型 Sora 令人驚嘆，但仍然存在弱點(diǎn)

時(shí)間：2024-02-17|瀏覽：334

人工智能公司 OpenAI 于周四推出了其首個(gè)文本轉(zhuǎn)視頻模型，獲得了熱烈反響，不過該公司承認(rèn)該模型還有很長(zhǎng)的路要走。

OpenAI 于 2 月 15 日推出了名為 Sora 的新生成式 AI 模型，據(jù)稱該模型可以根據(jù)簡(jiǎn)單的文本提示創(chuàng)建詳細(xì)的視頻、延續(xù)現(xiàn)有視頻，甚至基于靜態(tài)圖像生成場(chǎng)景。

隆重推出 Sora，我們的文本轉(zhuǎn)視頻模型。Sora 可以創(chuàng)建長(zhǎng)達(dá) 60 秒的視頻，其中包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及充滿活力的情感的多個(gè)角色。

https://t.co/7j2JN27M3WPprompt：“美麗，白雪皚皚…… pic.twitter.com/ruTEWn87vf

- OpenAI (@OpenAI) 2024 年 2 月 15 日

根據(jù) 2 月 15 日的博客文章，OpenAI 聲稱 AI 模型可以生成分辨率高達(dá) 1080p 的類似電影的場(chǎng)景。

這些場(chǎng)景可以包括多個(gè)角色、特定類型的運(yùn)動(dòng)以及主題和背景的準(zhǔn)確細(xì)節(jié)。

索拉的工作原理

與 OpenAI 基于圖像的前身 DALL-E 3 非常相似，Sora 運(yùn)行在所謂的“擴(kuò)散”模型上。

擴(kuò)散是指生成式人工智能模型通過生成看起來更像“靜態(tài)噪聲”的視頻或圖像來創(chuàng)建其輸出，然后通過幾個(gè)步驟“消除噪聲”來逐漸對(duì)其進(jìn)行轉(zhuǎn)換。

宣布推出 Sora——我們的模型可以根據(jù)文本提示創(chuàng)建一分鐘長(zhǎng)的視頻：https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— 格雷格·布羅克曼 (@gdb) 2024 年 2 月 15 日

這家人工智能公司寫道，Sora 是建立在 GPT 和 DALL-E3 模型過去研究的基礎(chǔ)上的，該公司聲稱這使得該模型能夠更好地“忠實(shí)”地代表用戶輸入。

OpenAI 承認(rèn) Sora 仍然存在一些弱點(diǎn)，并且很難準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理原理，即混淆了因果關(guān)系的本質(zhì)。

“例如，一個(gè)人可能咬了一口餅干，但之后餅干可能沒有咬痕?！?/p>

該公司表示，新工具還可能通過混淆左右方向或無法遵循精確的方向描述來混淆給定提示的“空間細(xì)節(jié)”。

索拉可能會(huì)意外地產(chǎn)生物理上難以置信的運(yùn)動(dòng)。

來源：OpenAI

OpenAI 表示，新的生成模型目前僅適用于“紅隊(duì)成員”（網(wǎng)絡(luò)安全研究人員的技術(shù)用語），以評(píng)估“危害或風(fēng)險(xiǎn)的關(guān)鍵領(lǐng)域”，并選擇設(shè)計(jì)師、視覺藝術(shù)家和電影制作人來收集有關(guān)如何推進(jìn)模型。

2023 年 12 月，斯坦福大學(xué)的一份報(bào)告顯示，使用人工智能數(shù)據(jù)庫 LAION 的人工智能圖像生成工具正在接受數(shù)千張非法虐待兒童材料的圖像的訓(xùn)練，這引發(fā)了文本到文本轉(zhuǎn)換的嚴(yán)重道德和法律問題。圖像或視頻模型。

X上的用戶“無語”

數(shù)十個(gè)視頻演示已在 X 上流傳，展示了 Sora 的實(shí)際操作示例，而 Sora 目前在 X 上已發(fā)布超過 173,000 個(gè)帖子，成為熱門話題。

為了展示新的生成模型的能力，OpenAI 首席執(zhí)行官 Sam Altman 向 X 上的用戶開放了自定義視頻生成請(qǐng)求，這位 AI 負(fù)責(zé)人總共分享了 7 個(gè) Sora 生成的視頻，從鴨子騎龍回到金毛獵犬在山頂錄制播客。

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) 2024 年 2 月 15 日

人工智能評(píng)論員 Mckay Wrigley 以及其他許多人寫道，Sora 生成的視頻讓他“無言以對(duì)”。

Nvidia 高級(jí)研究員 Jim Fan 在 2 月 15 日發(fā)布的 X 帖子中宣稱，任何認(rèn)為 Sora 只是另一個(gè)“創(chuàng)意玩具”（如 DALL-E 3）的人都大錯(cuò)特錯(cuò)。

如果您認(rèn)為 OpenAI Sora 是像 DALLE 一樣的創(chuàng)意玩具，...再想一想。

Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。

它是對(duì)許多世界的模擬，無論是真實(shí)的還是幻想的。

模擬器學(xué)習(xí)復(fù)雜的渲染、“直觀”物理、長(zhǎng)期推理和語義基礎(chǔ)，所有這些…… pic.twitter.com/pRuiXhUqYR