時(shí)間:2023-04-23|瀏覽:251
2023 年 4 月 7 日 21:00,「ChainBreaker Podcast」播客活動(dòng)第四十六期拉開(kāi)帷幕。本期直播潘致雄(ChainFeeds Co-Founder)連線區(qū)塊先生 Mr. Block Chris、Mest Founder Ashu Chan、Max(Adaverse Asia Ecosystem Head),圍繞「AIGC 在 Web3的應(yīng)用」展開(kāi)深度討論。
內(nèi)容摘要:
阿樹(shù):
我們?cè)贑rypto Wallet行業(yè)工作了五六年,一直遇到如何向用戶表達(dá)鏈上數(shù)據(jù)的困擾。因此,我們花了很多時(shí)間研究如何使用自然語(yǔ)言等文本形式表達(dá)不同類型的鏈上數(shù)據(jù)。Crypto Wallet可以承載多種類型的鏈上數(shù)據(jù),例如DID、資產(chǎn)、NFT和DeFi。這些類型的數(shù)據(jù)很難在一個(gè)單一的窗口中表達(dá)。因此,我們一直在追求自然語(yǔ)言表達(dá)的解決方案。直到ChatGPT出現(xiàn),我們認(rèn)為這個(gè)東西變得比較可行。MEST想要解決的問(wèn)題是如何使用自然語(yǔ)言表達(dá)鏈上數(shù)據(jù),而ChatGPT是一個(gè)好的結(jié)合點(diǎn)。但早期,Mest主要在做內(nèi)容分發(fā),ChatGPT還沒(méi)有出現(xiàn)。
如果沒(méi)有ChatGPT,我們可能會(huì)使用更笨拙的方式模擬自然語(yǔ)言的表達(dá)形式,但這種形式可能并不好,而我們的工作,特別是作為鏈上數(shù)據(jù)產(chǎn)品的工作,可以更專注于如何生成有價(jià)值的鏈上數(shù)據(jù)。我們之前做了很多工具,如Dashboard,但現(xiàn)在完全轉(zhuǎn)向了語(yǔ)言交互這種形式,這是我們的一個(gè)試點(diǎn)。
在我們的理解中,這兩者是兩種不同的類型。我們認(rèn)為它們都有特定的應(yīng)用場(chǎng)景。圖形界面特別適用于流程性場(chǎng)景,例如轉(zhuǎn)站。它并不適合用自然語(yǔ)言表達(dá)。但是,一旦涉及多種類型的數(shù)據(jù)信息表達(dá),自然語(yǔ)言就是最適合的場(chǎng)景。最基本的例子是,當(dāng)你想看一些數(shù)據(jù)時(shí),現(xiàn)有的電商數(shù)據(jù)產(chǎn)品只能用圖表或表格表達(dá),但在一個(gè)大型Dashboard中,很難識(shí)別任何信息。在一些組合產(chǎn)品中,你也可能會(huì)感到很復(fù)雜,因?yàn)樗鼈円休d太多東西。但是,自然語(yǔ)言是非常適合的。因此,對(duì)我們來(lái)說(shuō),這種使用信息傳達(dá)技術(shù)的方法可能會(huì)有所不同。對(duì)于流程性的東西,我們通過(guò)圖形界面解決;對(duì)于信息傳達(dá)和數(shù)據(jù)傳達(dá),自然語(yǔ)言的優(yōu)勢(shì)是非常明顯的。這對(duì)于區(qū)塊鏈這個(gè)場(chǎng)景非常適用。
區(qū)塊鏈的特性是公開(kāi),數(shù)據(jù)都在那里。真正的問(wèn)題是如何應(yīng)用這些數(shù)據(jù),重新整合來(lái)找到所需要的答案。Dune Analytics在Defi Summer變得非常的好用,因?yàn)榇蠹议_(kāi)始知道它在鏈上想要找什么數(shù)據(jù)。在Defi之前,Dune已經(jīng)存在了,但大家并不會(huì)特別用Dune來(lái)去獲得它想要的一些資訊?,F(xiàn)在大家可能會(huì)透過(guò)MakerDAO的合約來(lái)了解說(shuō)MakerDAO從2021年到現(xiàn)在的區(qū)塊高度里面Minting Fee賺了多少錢,然后可以交叉比對(duì)它跟Liquidity這種穩(wěn)定幣所生成的Minting Fee差別有多少。用戶可以用這些資訊去佐證他的一些猜測(cè),驗(yàn)證他的一些投資的原因。但同樣的,這個(gè)出現(xiàn)了一個(gè)問(wèn)題,就是一個(gè)門檻,用戶可能有一些想法,但他可能不會(huì)寫(xiě)MySQL,所以就無(wú)法創(chuàng)造出自己的一個(gè)Dune Dashboard。ChatGPT的問(wèn)世后,讓很多人討論出來(lái)一種方式,甚至可以用ChatGPT來(lái)寫(xiě)合約,甚至用ChatGPT來(lái)做Unity的游戲,或是一個(gè)簡(jiǎn)單生成一個(gè)HTML Browser的Game。
是否可以未來(lái)通過(guò)自然語(yǔ)言去查詢一些數(shù)據(jù),生成一個(gè)Dune Page?有些工具剛好滿足了這個(gè)要求,可以用自然語(yǔ)言去查詢一個(gè)數(shù)據(jù)。但有個(gè)問(wèn)題,就是這些數(shù)據(jù)高質(zhì)量的這些表是從哪里來(lái)的?必須有人去把它從區(qū)塊鏈這些無(wú)序的、可能沒(méi)有價(jià)值信息中提取有價(jià)值的數(shù)據(jù),才能用自然語(yǔ)言去生成有價(jià)值的一個(gè)指標(biāo)出來(lái)。我認(rèn)為這是長(zhǎng)期是一個(gè)非常可行,但是在中短期,像數(shù)據(jù)服務(wù)商可以在中間建立一個(gè)將這些區(qū)塊鏈公開(kāi)數(shù)據(jù)大體量的數(shù)據(jù)去抽取出有價(jià)值的指標(biāo)出來(lái),去供用戶去調(diào)度,這個(gè)是目前比較可行的事情。我們將現(xiàn)在去鏈上數(shù)據(jù)有價(jià)值指標(biāo),
如果將來(lái)有朋友對(duì)這方面感興趣,首先要解決一個(gè)問(wèn)題,那就是你要有獨(dú)特的內(nèi)容。完成了第一步之后,我們要去給這些業(yè)務(wù)數(shù)據(jù)打標(biāo)簽,因?yàn)橹挥羞@些業(yè)務(wù)數(shù)據(jù)有足夠多的語(yǔ)言信息描述,當(dāng)用戶輸入自然語(yǔ)言時(shí),我們才能知道如何找到這個(gè)樣的一個(gè)數(shù)據(jù)去整合給他返回。在這里,會(huì)有一個(gè)概念叫做embedding,就是在GPT中,它有一個(gè)叫做向量的概念,它將文本的語(yǔ)言轉(zhuǎn)換成一個(gè)高維度的數(shù)字,然后進(jìn)行匹配。目前所有主流的對(duì)話式處理方案都是按照這個(gè)思路進(jìn)行的,首先給自己的數(shù)據(jù)打很多標(biāo)簽,這些標(biāo)簽或API需要標(biāo)記上很多問(wèn)題,比如“我有多少NFT”的問(wèn)題,這個(gè)指標(biāo)可能需要我們寫(xiě)上20條或者300條問(wèn)法,我們還可以用GPT幫助我們生成100條類似的問(wèn)法,去把它給標(biāo)記。只有這樣,用戶問(wèn)任何一個(gè)關(guān)于NFT的問(wèn)題,我們才能很高概率地匹配上這樣的一個(gè)數(shù)據(jù)。這是目前所有做對(duì)話式處理的中期階段。
如果到了后期的話,比較理想的情況下,我們有了數(shù)據(jù),有了大量標(biāo)記的內(nèi)容,那么可能我們會(huì)希望在已有的模型上進(jìn)行微調(diào),比如在一個(gè)開(kāi)源模型或GPT模型之上進(jìn)行微調(diào),讓它成為一個(gè)專屬領(lǐng)域的AI。我認(rèn)為我們可能會(huì)按照這個(gè)思路分三個(gè)階段去實(shí)現(xiàn),第一階段是有數(shù)據(jù),第二階段是標(biāo)記數(shù)據(jù),第三階段是向量匹配,然后再進(jìn)行微調(diào)。
最后,我們也在思考未來(lái)的發(fā)展,包括阿里巴巴也出了大語(yǔ)言模型,未來(lái)也會(huì)有更多這樣的大語(yǔ)言模型。我們正在追蹤這些發(fā)展,包括Facebook等都有一些開(kāi)源的語(yǔ)言模型,雖然效果上和GPT還有些差距,但是看現(xiàn)在這個(gè)發(fā)展的速度和能力,他們也有機(jī)會(huì)和能力能達(dá)到GPT3或3.5的水平。
所有做鏈上數(shù)據(jù)產(chǎn)品的人現(xiàn)在面臨的困境是,大家都基于公開(kāi)數(shù)據(jù)開(kāi)發(fā)出沒(méi)有摩擦的產(chǎn)品。所以我認(rèn)為,當(dāng)你提出這個(gè)問(wèn)題時(shí),它的復(fù)雜度和邏輯復(fù)雜度可能會(huì)慢慢增長(zhǎng),可能會(huì)包含七種條件和一些嵌套的邏輯。在這種情況下,即使是GPT4也無(wú)法準(zhǔn)確地得到一個(gè)百分之百準(zhǔn)確的結(jié)果,它可能還需要做一些調(diào)整才能完全理解用戶體的問(wèn)題。所以,在一些層面上,我們還有進(jìn)步的空間。
現(xiàn)在只能做到六七十分的狀態(tài),我們需要考慮的是這些詞的向量模型,例如Word2Vec。如何根據(jù)區(qū)塊鏈領(lǐng)域的特點(diǎn)對(duì)它們進(jìn)行調(diào)整?這可能也是Mest會(huì)遇到的問(wèn)題之一。我其實(shí)想要聊聊Word Embedding,你們?nèi)绾伪硎緟^(qū)塊鏈相關(guān)的詞,以及在搜索方面如何更好地執(zhí)行。
首先,我們肯定需要自己大量的人工投入,模擬用戶可能會(huì)問(wèn)的問(wèn)題,然后幫助我們生成一些問(wèn)題,打上標(biāo)簽,然后陸續(xù)投入生產(chǎn),讓用戶在這個(gè)過(guò)程中去交互,發(fā)現(xiàn)一些問(wèn)題或者獲得更多的數(shù)據(jù),輔助我們?nèi)?yōu)化這個(gè)標(biāo)簽,讓匹配度更高。
潘致雄:
我想分享一下我們使用ChatGPT的一些感受。我們已經(jīng)調(diào)研了接近兩個(gè)月,并嘗試做一些基于ChatGPT的上層工具鏈或應(yīng)用。如果將ChatGPT想象成一個(gè)有擴(kuò)寫(xiě)能力的人,給他一些主題,他就可以生成一些文章。對(duì)于內(nèi)容創(chuàng)作來(lái)說(shuō),這可能會(huì)提供一些幫助。但是,對(duì)于深度的研究或新興行業(yè)的分析,它仍然存在許多不足之處,因?yàn)樗狈π畔?kù)。因此,我們使用ChatGPT更多地是為了將信息濃縮,需要給它足夠多的上下文、聯(lián)系或知識(shí)。當(dāng)我們給它這些知識(shí)后,再進(jìn)行提問(wèn)或抽取某些信息庫(kù)中的信息,它的效果非常好。我們目前使用了兩個(gè)相對(duì)流行的開(kāi)源庫(kù):LlamaIndex。此外,我們也在使用一個(gè)基于ChatGPT的平臺(tái),可以幫助我們構(gòu)建自己的數(shù)據(jù)庫(kù),例如PDF和其他資料和數(shù)據(jù)。在和ChatGPT對(duì)話時(shí),我們可以對(duì)數(shù)據(jù)進(jìn)行預(yù)分類和預(yù)篩選,提高ChatGPT的效果。
我想舉個(gè)例子來(lái)說(shuō)明,假設(shè)我們需要回答一個(gè)用戶關(guān)于某個(gè)具體問(wèn)題的疑惑,比如 ERC-4337 是什么。我們首先需要從數(shù)據(jù)庫(kù)中找到相關(guān)文章或內(nèi)容,并對(duì)它們進(jìn)行切分。例如,一個(gè)文章可能被切分成 2000 或 3000 Token 為一個(gè)單元。當(dāng)用戶提出問(wèn)題時(shí),我們需要匹配每個(gè)單元和問(wèn)題的相關(guān)度,并找到相關(guān)性較高的部分進(jìn)行提問(wèn)和回答。然后來(lái)匹配單元和問(wèn)題,以得出相對(duì)準(zhǔn)確度較高的部分。然后,我們使用 ChatGPT 進(jìn)行提問(wèn)和回答,并從中總結(jié)得出答案。
這種方法適用于知識(shí)類問(wèn)題。但是如果用戶問(wèn)的是關(guān)于 Twitter 這樣的短內(nèi)容,我們只能將問(wèn)題與每條推特的嵌入式結(jié)果進(jìn)行匹配,并根據(jù)與問(wèn)題相關(guān)性較高的推特進(jìn)行提問(wèn)和回答,并讓 ChatGPT 進(jìn)行總結(jié)。通過(guò)這種方法,我們可以得出答案。
目前大多數(shù)人工知識(shí)庫(kù)和 ChatGPT 的大方向都是這樣的方法。當(dāng)然,這種方法也存在一些問(wèn)題,例如同義詞的處理。為了提高準(zhǔn)確性,可以使用向量表示法進(jìn)行匹配和總結(jié)。在我們的調(diào)試過(guò)程中,我們發(fā)現(xiàn)了許多這樣的問(wèn)題,例如當(dāng)一個(gè)問(wèn)題涉及到 ERC-4337 時(shí),可能在其他文章中出現(xiàn)了 ERC-20 和 4337 這些數(shù)字。這就可能導(dǎo)致搜索結(jié)果不夠準(zhǔn)確,因?yàn)槠ヅ涞氖清e(cuò)誤的內(nèi)容。
關(guān)于 ChainBreaker
由?@mrblocktw、?@nake13、@momoxi17?主辦的 ChainBreaker 播客,每周五晚上8點(diǎn)直播。
ChainBreak 播客主要和大家分享加密領(lǐng)域的熱點(diǎn)話題,加密技術(shù)的發(fā)展探討,以及加密世界的八卦等。
來(lái)源:DeFi之道
熱點(diǎn):web開(kāi)發(fā) web前端 聊聊比特幣 shib的 元宇宙br