国产成人 综合 亚洲欧美,羞羞影院成人午夜爽爽在线,中文字幕av在线一二三区,午夜私人成年影院在线观看,男人把大ji巴放进女人视频

okx

高中教師養(yǎng)出40億美元超級獨角獸StableDiffusion背后數(shù)據(jù)集創(chuàng)建者

時間:2023-05-02|瀏覽:226

他本是一位普普通通的高中教師,卻活生生養(yǎng)出一個估值40億美元獨角獸。

而且方法也是非常的獨特——

打造了世界最大的免費開源數(shù)據(jù)集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請。

他叫舒曼,在德國漢堡市的高中教物理和計算機(jī)科學(xué)。

兩年前他創(chuàng)立了LAION(相當(dāng)于CLIP圖文數(shù)據(jù)集),如今被用于各種生成模型,包括谷歌Imagen、Parti,以及驚艷全球的Stable Diffusion

就連Stable Diffuision背后公司Stability AI的創(chuàng)始人曾親自來送錢時,他都表現(xiàn)出嗤之以鼻的樣子,認(rèn)定“這個人一定是瘋了”。

或許他怎么也沒想到,只不過兩年前靈機(jī)一動,就帶來了生成式AI的劇變。

受DALL-E啟發(fā)

2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實現(xiàn)跨界:

只需對著它說上一段話,就能生成對應(yīng)圖片。

一時間風(fēng)光無兩,吳恩達(dá)在內(nèi)的科技大佬們都激動了,網(wǎng)友們都稱其為甲方克星。

但在德國漢堡市郊區(qū)的一間房屋內(nèi),這位高中教師舒曼(Christoph Schuhmann)卻產(chǎn)生了對數(shù)據(jù)私有化的擔(dān)憂:

如果這一切都集中在一家、兩家或三家公司,那將對社會產(chǎn)生非常糟糕的影響。

當(dāng)時,OpenAI發(fā)表了背后關(guān)鍵模型CLIP的論文。論文中顯示,CLIP在4億個圖像-文本對上進(jìn)行了預(yù)訓(xùn)練,在沒有精細(xì)調(diào)整的情況下,最終在各種多模態(tài)基準(zhǔn)中實現(xiàn)高性能。

由此可見數(shù)據(jù)集對于CLIP的重要性,但OpenAI并沒有進(jìn)行公開,它只開源了CLIP的代碼和模型權(quán)重。

(看來從那時候就已經(jīng)變得Close了)

于是乎,舒曼就開始在Discord網(wǎng)羅了一群同為AI愛好者的朋友,嘗試復(fù)制OpenAI同等水平的「文本-圖像對」數(shù)據(jù)集。

沒想到這一搞就搞了大半年,直到2021年8月他們首次發(fā)布了LAION-400M數(shù)據(jù)集,里面包含了4.13億圖像-文本對。

回顧整個創(chuàng)建過程,舒曼對彭博社這樣形容:

就像是用數(shù)百萬張抽認(rèn)卡來教一個人一門外語。

他們用一個非盈利組織Common Crawl在2014年到2021年期間,抓取的隨機(jī)HTML代碼來定位網(wǎng)絡(luò)上的圖像,并將這些圖像與描述性文本聯(lián)系起來,最后還得根據(jù)一定規(guī)則來過濾掉不適合的樣本。

比如,刪除了所有文本長度少于五個字符;圖像小于5KB的的樣本;關(guān)鍵字帶有NSFW的……幾周之內(nèi),他們就擁有了300萬對圖文對。

數(shù)據(jù)集發(fā)布之后就收到了各種反響,被用于諸多論文和實驗。其中最具代表性的,就是Google Brain去年(2022)發(fā)布的Imagen——文本生成圖像的擴(kuò)散模型。

與此同時,更多機(jī)構(gòu)開始關(guān)注到這個非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次,還要屬一個對沖基金經(jīng)理來到Discord聊天室。

當(dāng)時他二話不說直接送錢,大概意思是:我給你們支付算力費用,沒有任何附加條件。

舒曼團(tuán)隊對這個行為嗤之以鼻,甚至覺得他是個瘋子:

一開始我們非常懷疑,但大概一個月后,我們獲得了價值近1萬美元的云計算服務(wù)。

后來,這個所謂的“瘋子”創(chuàng)辦了Stability AI,使用LAION數(shù)據(jù)集推出了Stable Diffusion,引領(lǐng)了生成式AI的浪潮,順便還拐走了LAION組織的兩個研究人員。

如今Stability AI正在尋求40億美元(折合276億元)估值,這主要歸功于LAION提供的數(shù)據(jù)。

據(jù)彭博社消息,舒曼卻并沒有從LAION中獲利,原因很簡單:不感興趣,希望保持這份工作的獨立性

因此他還婉拒了各類工作邀請,依舊選擇在德國漢堡當(dāng)一名普普通通的高中老師。

本人:數(shù)據(jù)集不應(yīng)該被監(jiān)控

即便如此,隨著LAION知名度打響,他還是避免不了地卷入到各種紛擾之中。

目前,LAION已經(jīng)發(fā)布了10項數(shù)據(jù)集,最具代表性的就是去年3月發(fā)布的LAION-5B,由58.5億個圖像文本組成,是當(dāng)前最大的免費開源數(shù)據(jù)集。

作為LAION-400M的繼任者,它收到了來自HuggingFace、Stability AI以及Doodlebot資助。

結(jié)果一發(fā)布就遭到了不小的爭議,網(wǎng)友們紛紛質(zhì)疑其數(shù)據(jù)未經(jīng)整理,導(dǎo)致充斥大量的非法內(nèi)容,對此LAION工程師Romain Beaumont回應(yīng):

非標(biāo)注數(shù)據(jù)集是自我監(jiān)督學(xué)習(xí)的基礎(chǔ),這是機(jī)器學(xué)習(xí)的未來。沒有人工標(biāo)注的圖像/文本是一項功能,而非錯誤。

早在Imagen發(fā)布時,也專門針對LAION-400M做出警示:因為依賴于這種未經(jīng)整理的網(wǎng)絡(luò)數(shù)據(jù), 集成了大模型的社會偏見和限制,因此不適合公開使用。

據(jù)彭博社消息,為了打造LAION,舒曼團(tuán)隊從亞馬遜網(wǎng)絡(luò)服務(wù)、Shopify等公司獲取視覺數(shù)據(jù),還有包括YouTube縮略圖、各類新聞網(wǎng)站上的內(nèi)容。

對此舒曼表示,任何在網(wǎng)上免費提供的東西都是公平競爭,歐盟也沒有人工智能法規(guī)。

更何況,也沒有人知道OpenAI實際上用什么樣的數(shù)據(jù)集訓(xùn)練AI的。

目前,LAION被迫卷入兩場訴訟之中,一起是Stability AI與Midjourney等集體訴訟,被指使用藝術(shù)家的版權(quán)圖片來訓(xùn)練他們的模型;

另一起是Getty Images起訴Stability AI,稱其1200萬張照片被LAION取走,并用來訓(xùn)練Stable Diffusion。

而舒曼將LAION比作大信息技術(shù)海嘯之上一艘“小型研究船”,采取海下的樣本向世界展示。

其實早在構(gòu)建數(shù)據(jù)庫時,他們就在運行一個自動化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產(chǎn)中學(xué)習(xí)。

我們本可以從公布的數(shù)據(jù)中過濾掉暴力,但我們決定不這樣做,因為這將加快暴力檢測軟件的開發(fā)。

現(xiàn)在更多關(guān)于監(jiān)管的建議在推動,各個科技大廠也在采取相應(yīng)的措施,比如英偉達(dá)就開源了護(hù)欄工具,來防止大模型來胡說八道。

但在舒曼看來,數(shù)據(jù)集不應(yīng)該被監(jiān)控。這也正是當(dāng)時創(chuàng)建LAION時候的初心。

他還警告,如果我們試圖放慢速度、過度監(jiān)管,就會有很大的危險,最終只有少數(shù)大公司能負(fù)擔(dān)得起所有的正式要求。

前段時間,在LAION與全球志愿者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發(fā)布。

60萬余條訓(xùn)練數(shù)據(jù)全部由人工生成,涵蓋了廣泛的話題和語言風(fēng)格,一時間引發(fā)眾人關(guān)注,HuggingFace也直接拿來用來構(gòu)建它自己的聊天軟件HuggingChat。

拿著德國鐵飯碗

不可否認(rèn)的是,他已經(jīng)在用開源數(shù)據(jù)集,加劇了生成式AI的浪潮。

但在舒曼的個人網(wǎng)站上,看到的只是一位兩個孩子的父親,在德國當(dāng)著終身制公務(wù)員,游走于中學(xué)校之間講授物理和計算機(jī)科學(xué)。

舒曼擁有維也納大學(xué)計算機(jī)科學(xué)與物理學(xué)學(xué)位。在學(xué)習(xí)這兩個專業(yè)之前,他還學(xué)了心理學(xué)。(大概完成了50%的學(xué)士學(xué)位然后就轉(zhuǎn)專業(yè)了)。

除此之外,他還在學(xué)習(xí)表演,制作了一部關(guān)于孩子學(xué)習(xí)的紀(jì)錄片「Schools of Trust」。

最近,這位高中教師也沒閑著,他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環(huán)節(jié)。

參考鏈接:
[1]https://laion.ai/blog/laion-400-open-dataset/
[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns
[3]http://christoph-schuhmann.de/
[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/
[5]https://laion.ai/projects/

來源:元宇宙之心

熱點:數(shù)據(jù)

歐易

歐易(OKX)

用戶喜愛的交易所

幣安

幣安(Binance)

已有賬號登陸后會彈出下載

« 上一條| 下一條 »
區(qū)塊鏈交流群
數(shù)藏交流群

合作伙伴

去玩唄SPA 兼職信息網(wǎng) 培訓(xùn)資訊網(wǎng) 代特幣圈 幣圈交流群 借春秋財經(jīng) 天天財富 谷歌留痕 金色幣圈 寶寶起名 聚幣網(wǎng) 裝修裝飾網(wǎng) 今日黃金 談股票 黃金行情 幣圈ICO官網(wǎng) 百悅米 幣圈官網(wǎng) 幣圈論壇 趣玩幣 茶百科 谷歌留痕代發(fā) 玩票票財經(jīng) 美白沒斑啦 秒懂域名 減肥瘦身吧 借春秋 非小號行情 周公解夢 媽媽知道 旅游資訊網(wǎng) 元宇宙Web 玩合約 百科書庫 皮卡丘資訊 愛網(wǎng)站
非小號交易所排名-專業(yè)的交易行情資訊門戶網(wǎng)站,提供區(qū)塊鏈比特幣行情查詢、比特幣價格、比特幣錢包、比特幣智能合約、比特幣量化交易策略分析,狗狗幣以太坊以太幣玩客幣雷達(dá)幣波場環(huán)保幣柚子幣萊特幣瑞波幣公信寶等虛擬加密電子數(shù)字貨幣價格查詢匯率換算,幣看比特兒火幣網(wǎng)幣安網(wǎng)歐易虎符抹茶XMEX合約交易所APP,比特幣挖礦金色財經(jīng)巴比特范非小號資訊平臺。
非小號行情 yonghaoka.cn 飛鳥用好卡 ?2020-2024版權(quán)所有 桂ICP備18005582號-1