時間:2022-02-11|瀏覽:642
假設你剛接觸web3.數據分析師,開始組建你的 web3 分析團隊,或者剛剛對 web3 對數據感興趣。無論采用哪種方式,你都應該大致熟悉 APIs、 數據庫、轉換和模型web2 工作方式。
數據思考
讓我們總結一下如何 web2 構建、查詢和訪問數據(即訪問 Twitter 的 API)。簡化數據渠道有四個步驟:
觸發(fā) API 事件(發(fā)了一些推文)
更新到數據庫(連接到現有用戶模型/狀態(tài)變更)
特定產品/分析用例的數據轉換
模型訓練和部署(用于管理你的 Twitter feed)
當數據開源時,唯一需要的步驟是在轉換完成后。Kaggle hugs Face(26,000 頂級 NLP 模型)和其他社區(qū)使用一些公共數據子集來幫助企業(yè)建立更好的模型。在某些特定的領域,如在前三個步驟中打開數據的開放街道地圖,但它們仍然有寫作權限的限制。
我想聲明的是,我只是在這里談論數據,我不是說 web2 根本沒有開源。和大多數其他工程角色一樣,web2 數據有大量的開源工具來構建它們的管道(dbt,apache,TensorFlow)。我們還在 web所有這些工具都在3 中使用??傊麄兊墓ぞ呤情_放的,但他們的數據是封閉的。
Web3 還開源數據,這意味著不僅數據科學家在開放環(huán)境中工作,分析工程師和數據工程師也在開放環(huán)境中工作!每個人都參與了一個更連續(xù)的工作流程,而不是一個幾乎循環(huán)。
工作形式已作web2 數據壩到 web3 數據河流、三角洲和海洋。同樣重要的是,生態(tài)系統(tǒng)中的所有產品都會同時受到這個循環(huán)的影響。
讓我們看一個 web3 分析師如何一起工作的例子。幾十家交易所使用不同的交易機制和費用,允許您使用代幣 A 代幣 B。如果這些都是典型的交易所,比如納斯達克,每個交易所都會向 10報告自己的數據k 或一些 API,然后其他一些服務,比如 capIQ,將所有交換數據放在一起,然后收取費用,讓您訪問他們的 API。也許有時他們會舉辦創(chuàng)新競賽,這樣他們將來就可以收集額外的數據/圖表功能。
在 web在3 交易所,我們有這樣的數據流:
dex.trades 是 Dune 上表(由很多社區(qū)分析工程師隨著時間的推移整理而成),所有 DEX 交換數據是聚合在一起的,所以你可以很容易地在所有交易所搜索單個代幣的交易量。
一位數據分析師通過社區(qū)開源查詢創(chuàng)建了一個儀表盤,所以現在我們正在整個 DEX 行業(yè)有一個公開的概述。即使所有的查詢似乎都是一個人寫的,你也可以猜測這是在discord經過大量的爭論,準確地拼湊在一起。
DAO 科學家檢查儀表板,并開始在自己的查詢中分割數據,查看特定的正確性,如穩(wěn)定貨幣。他們觀察用戶行為和商業(yè)模式,然后開始建立假設。因為科學家能看到哪個 DEX 在交易量中占有更大的份額,他們將提出新的模型,并提出改變治理參數,以便在鏈上投票和執(zhí)行。
之后,我們可以隨時查看公眾查詢/儀表板,看看如何創(chuàng)造更具競爭力的產品。
在未來,如果另一個 DEX 出現(或升級到新版本),此過程將重復。有人會創(chuàng)建插入查詢來更新此表。這將反映在所有的儀表板和模型上(沒有人必須回去手動修復/更改任何東西)。任何其他分析師/科學家都可以基于他人已經完成的工作。
由于共享的生態(tài)系統(tǒng),討論、合作和學習發(fā)生在一個更緊密的反饋周期中。我承認這有時是難以忍受的,我認識的分析師基本上都在輪換數據。然而,只要我們中的一個繼續(xù)推進數據(例如,有人創(chuàng)建了一個插入 DEX 查詢),那么別人就會受益。
它并不總是一個復雜的抽象視圖,有時它只是一個實用的功能,如果它很容易搜索 ENS 多數 反向分析器或工具的改進,如自動生成graphQL 映射與 CLI 命令!所有這些都可以被每個人重用,并且可以在某些產品的前端或你自己的個人交易模型中 API 的使用。
雖然在這里打開的可能性是驚人的,但我確實承認車輪還沒有順利運行。與數據工程相比,數據分析師/科學領域的生態(tài)系統(tǒng)仍然不成熟。我認為有以下原因:
數據工程是web三年來的核心焦點,從客戶端 RPC API 改進到基本 SQL/graphQL 聚合theGraph 和 Dune 這樣的產品就是他們在這方面努力的例子。
對分析師來說,理解 web3 獨特的跨協(xié)議關系表非常困難。例如,分析師可以理解如何只分析 Uniswap,但而,在混合中很難添加聚合器DEXs 和不同的代幣類型。最重要的是,實現這一切的工具直到去年才真正出現。數據科學家通常習慣于收集原始數據,獨自完成所有工作(建立自己的管道)。我認為他們不習慣在開發(fā)初期與分析師和工程師如此密切和開放的合作。就我個人而言,這需要一段時間。
除了學習如何合作,web3 數據社區(qū)仍在學習如何跨越這個新的數據堆棧。你不再需要控制基礎設施,或者慢慢地從 excel 建立到數據池或數據倉庫,只要你的產品在線,你的數據就會在線。您的團隊基本上被扔到數據基礎設施的最深處。
數據工具
讓我們來看看每種類型和用法:
交互 數據源:主要用于前端、錢包和低級數據攝取。
客戶端:雖然以太坊的底層實現是相同的,但每個客戶端都有不同的額外特征。Erigon 大量優(yōu)化數據存儲/同步,Quorum 支持隱私鏈。
節(jié)點是服務:您不必選擇運行哪個客戶端,但使用這些服務將為您節(jié)省維護節(jié)點和 API 正常運行的麻煩。節(jié)點的復雜性取決于你想捕獲多少數據(輕節(jié)點→全節(jié)點→歸檔節(jié)點)。
查詢 數據映射:這層數據要么用作 URI 在合同中引用用合同 ABI 將交易數據從字節(jié)映射到表模式。ABI 告訴我們合同中包含哪些函數和事件,否則只能看到部署的字節(jié)碼(沒有這個 ABI,不能反向工程/解碼合同交易)。
交易數據:這些是最常用的,主要用于儀表板和報告。theGraph 和 Flipside API 也在前端中使用。有些表是合約的 1:1 映射,有些表允許模式中額外的轉換。
元數據協(xié)議:這些不是真正的數據產品,而是用來存儲 DIDs 或存儲文件。大部分 NFT 將使用其中一個或多個數據源,我認為今年我們將開始使用越來越多的數據源來增強我們的查詢。
專業(yè)提供商:其中一些是非常強大的數據流產品,Blocknative 用于 mempool 數據,Parsec 用于鏈上交易數據。其他聚合鏈和鏈外數據,如 DAO 治理或國庫數據。
高維數據提供商:您無法查詢/轉換他們的數據,但他們已經幫助您完成了所有繁重的工作。
若沒有強大、優(yōu)秀的社區(qū)來配合這些工具,web3 不會出現!我們可以看到每種類型對應的優(yōu)秀社區(qū):
Flashbots:專注于 MEV 上,從保護交易中提供自定義 RPC 到專業(yè)白帽服務。MEV 主要是指槍跑問題,當有人支付比你多的 Gas(但直接給礦商),這樣他們就可以先交易了。
Dune 數據精英:專注于 Dune 為數據生態(tài)做出貢獻的數據分析精英。
Flipside 數據精英:專注于 Web3 數據分析精英為數據升天做出貢獻。
MetricsDAO:跨生態(tài)工作,處理多鏈上的各種數據獎勵。
DiamondDAO:專注于 Stellar 數據科學工作主要集中在治理、財代幣管理。
IndexCoop:重點分析代幣等特定領域,制定加密貨幣行業(yè)最佳指標。
OurNetwork:每周對各種協(xié)議、 Web3 數據覆蓋。
每個社區(qū)都做了很多改進 的工作web3 生態(tài)系統(tǒng)。毫無疑問,擁有社區(qū)的產品將以 100 倍的速度增長。這仍然是一個被嚴重低估的競爭優(yōu)勢。我認為他們不會得到這個優(yōu)勢,除非人們在這些社區(qū)建立了一些東西。
數據團隊
不用說,你也應該在這些社區(qū)找到能加入你的團隊的人。讓我們進一步分析重要性web3數據技能和經驗,讓你真正知道自己在搜索什么。如果你想被雇傭,把它看作是你所追求的技能和經驗!
至少分析師應該是 Etherscan 偵探何閱讀 偵探Dune 儀表板。這可能需要1個月的時間來適應悠閑的學習,如果你真的想瘋狂地學習,需要2周的時間。
此外,你還需要考慮更多的內容,特別是時間分配和技能轉移。
時間: web3 中大約有30名數據分析師-40%的時間將花在與生態(tài)系統(tǒng)中的其他分析師和協(xié)議同步上。請確保你不會對他們感到頭暈,否則這將對每個人造成長期損害。有必要與更大的數據社區(qū)一起學習、貢獻和構建。
可轉移性:在這個領域,技能和領域都是高度可轉移的。如果使用不同的協(xié)議,啟動時間可能會減少,因為鏈上數據的表模式是一樣的。
記住,知道如何使用這些工具并不重要,每個分析師或多或少都應該寫 SQL 或創(chuàng)建數據儀表板。這一切都是關于如何做出貢獻和與社區(qū)合作的。如果你面試的人不是 web3 數據社區(qū)的一員(似乎對這一塊不感興趣)可能要問問自己這是否是危險信號。