你是個剛接觸web3的數據師何成為一名Web3數據分析師？

時間：2022-02-11|瀏覽：642

假設你剛接觸web3.數據分析師，開始組建你的 web3 分析團隊，或者剛剛對 web3 對數據感興趣。無論采用哪種方式，你都應該大致熟悉 APIs、數據庫、轉換和模型web2 工作方式。

數據思考
讓我們總結一下如何 web2 構建、查詢和訪問數據(即訪問 Twitter 的 API）。簡化數據渠道有四個步驟：
觸發(fā) API 事件(發(fā)了一些推文)
更新到數據庫(連接到現有用戶模型/狀態(tài)變更)
特定產品/分析用例的數據轉換
模型訓練和部署（用于管理你的 Twitter feed）
當數據開源時，唯一需要的步驟是在轉換完成后。Kaggle hugs Face(26，000 頂級 NLP 模型)和其他社區(qū)使用一些公共數據子集來幫助企業(yè)建立更好的模型。在某些特定的領域，如在前三個步驟中打開數據的開放街道地圖，但它們仍然有寫作權限的限制。
我想聲明的是，我只是在這里談論數據，我不是說 web2 根本沒有開源。和大多數其他工程角色一樣，web2 數據有大量的開源工具來構建它們的管道（dbt,apache,TensorFlow）。我們還在 web所有這些工具都在3 中使用?？傊麄兊墓ぞ呤情_放的，但他們的數據是封閉的。
Web3 還開源數據，這意味著不僅數據科學家在開放環(huán)境中工作，分析工程師和數據工程師也在開放環(huán)境中工作！每個人都參與了一個更連續(xù)的工作流程，而不是一個幾乎循環(huán)。
工作形式已作web2 數據壩到 web3 數據河流、三角洲和海洋。同樣重要的是，生態(tài)系統(tǒng)中的所有產品都會同時受到這個循環(huán)的影響。
讓我們看一個 web3 分析師如何一起工作的例子。幾十家交易所使用不同的交易機制和費用，允許您使用代幣 A 代幣 B。如果這些都是典型的交易所，比如納斯達克，每個交易所都會向 10報告自己的數據k 或一些 API，然后其他一些服務，比如 capIQ，將所有交換數據放在一起，然后收取費用，讓您訪問他們的 API。也許有時他們會舉辦創(chuàng)新競賽，這樣他們將來就可以收集額外的數據/圖表功能。
在 web在3 交易所，我們有這樣的數據流：
dex.trades 是 Dune 上表(由很多社區(qū)分析工程師隨著時間的推移整理而成)，所有 DEX 交換數據是聚合在一起的，所以你可以很容易地在所有交易所搜索單個代幣的交易量。
一位數據分析師通過社區(qū)開源查詢創(chuàng)建了一個儀表盤，所以現在我們正在整個 DEX 行業(yè)有一個公開的概述。即使所有的查詢似乎都是一個人寫的，你也可以猜測這是在discord經過大量的爭論，準確地拼湊在一起。
DAO 科學家檢查儀表板，并開始在自己的查詢中分割數據，查看特定的正確性，如穩(wěn)定貨幣。他們觀察用戶行為和商業(yè)模式，然后開始建立假設。因為科學家能看到哪個 DEX 在交易量中占有更大的份額，他們將提出新的模型，并提出改變治理參數，以便在鏈上投票和執(zhí)行。
之后，我們可以隨時查看公眾查詢/儀表板，看看如何創(chuàng)造更具競爭力的產品。
在未來，如果另一個 DEX 出現(或升級到新版本)，此過程將重復。有人會創(chuàng)建插入查詢來更新此表。這將反映在所有的儀表板和模型上(沒有人必須回去手動修復/更改任何東西)。任何其他分析師/科學家都可以基于他人已經完成的工作。
由于共享的生態(tài)系統(tǒng)，討論、合作和學習發(fā)生在一個更緊密的反饋周期中。我承認這有時是難以忍受的，我認識的分析師基本上都在輪換數據。然而，只要我們中的一個繼續(xù)推進數據（例如，有人創(chuàng)建了一個插入 DEX 查詢)，那么別人就會受益。
它并不總是一個復雜的抽象視圖，有時它只是一個實用的功能，如果它很容易搜索 ENS 多數反向分析器或工具的改進，如自動生成graphQL 映射與 CLI 命令！所有這些都可以被每個人重用，并且可以在某些產品的前端或你自己的個人交易模型中 API 的使用。
雖然在這里打開的可能性是驚人的，但我確實承認車輪還沒有順利運行。與數據工程相比，數據分析師/科學領域的生態(tài)系統(tǒng)仍然不成熟。我認為有以下原因：
數據工程是web三年來的核心焦點，從客戶端 RPC API 改進到基本 SQL/graphQL 聚合theGraph 和 Dune 這樣的產品就是他們在這方面努力的例子。
對分析師來說，理解 web3 獨特的跨協(xié)議關系表非常困難。例如，分析師可以理解如何只分析 Uniswap，但而，在混合中很難添加聚合器DEXs 和不同的代幣類型。最重要的是，實現這一切的工具直到去年才真正出現。數據科學家通常習慣于收集原始數據，獨自完成所有工作（建立自己的管道）。我認為他們不習慣在開發(fā)初期與分析師和工程師如此密切和開放的合作。就我個人而言，這需要一段時間。
除了學習如何合作，web3 數據社區(qū)仍在學習如何跨越這個新的數據堆棧。你不再需要控制基礎設施，或者慢慢地從 excel 建立到數據池或數據倉庫，只要你的產品在線，你的數據就會在線。您的團隊基本上被扔到數據基礎設施的最深處。
數據工具
讓我們來看看每種類型和用法：
交互數據源：主要用于前端、錢包和低級數據攝取。
客戶端：雖然以太坊的底層實現是相同的，但每個客戶端都有不同的額外特征。Erigon 大量優(yōu)化數據存儲/同步，Quorum 支持隱私鏈。
節(jié)點是服務：您不必選擇運行哪個客戶端，但使用這些服務將為您節(jié)省維護節(jié)點和 API 正常運行的麻煩。節(jié)點的復雜性取決于你想捕獲多少數據(輕節(jié)點→全節(jié)點→歸檔節(jié)點)。
查詢數據映射：這層數據要么用作 URI 在合同中引用用合同 ABI 將交易數據從字節(jié)映射到表模式。ABI 告訴我們合同中包含哪些函數和事件，否則只能看到部署的字節(jié)碼(沒有這個 ABI，不能反向工程/解碼合同交易)。
交易數據：這些是最常用的，主要用于儀表板和報告。theGraph 和 Flipside API 也在前端中使用。有些表是合約的 1:1 映射，有些表允許模式中額外的轉換。
元數據協(xié)議：這些不是真正的數據產品，而是用來存儲 DIDs 或存儲文件。大部分 NFT 將使用其中一個或多個數據源，我認為今年我們將開始使用越來越多的數據源來增強我們的查詢。
專業(yè)提供商：其中一些是非常強大的數據流產品，Blocknative 用于 mempool 數據，Parsec 用于鏈上交易數據。其他聚合鏈和鏈外數據，如 DAO 治理或國庫數據。
高維數據提供商：您無法查詢/轉換他們的數據，但他們已經幫助您完成了所有繁重的工作。
若沒有強大、優(yōu)秀的社區(qū)來配合這些工具，web3 不會出現！我們可以看到每種類型對應的優(yōu)秀社區(qū):
Flashbots：專注于 MEV 上，從保護交易中提供自定義 RPC 到專業(yè)白帽服務。MEV 主要是指槍跑問題，當有人支付比你多的 Gas(但直接給礦商)，這樣他們就可以先交易了。
Dune 數據精英：專注于 Dune 為數據生態(tài)做出貢獻的數據分析精英。
Flipside 數據精英：專注于 Web3 數據分析精英為數據升天做出貢獻。
MetricsDAO：跨生態(tài)工作，處理多鏈上的各種數據獎勵。
DiamondDAO：專注于 Stellar 數據科學工作主要集中在治理、財代幣管理。
IndexCoop：重點分析代幣等特定領域，制定加密貨幣行業(yè)最佳指標。
OurNetwork：每周對各種協(xié)議、 Web3 數據覆蓋。
每個社區(qū)都做了很多改進的工作web3 生態(tài)系統(tǒng)。毫無疑問，擁有社區(qū)的產品將以 100 倍的速度增長。這仍然是一個被嚴重低估的競爭優(yōu)勢。我認為他們不會得到這個優(yōu)勢，除非人們在這些社區(qū)建立了一些東西。

你是個剛接觸web3的數據師何成為一名Web3數據分析師？
數據團隊
不用說，你也應該在這些社區(qū)找到能加入你的團隊的人。讓我們進一步分析重要性web3數據技能和經驗，讓你真正知道自己在搜索什么。如果你想被雇傭，把它看作是你所追求的技能和經驗！
至少分析師應該是 Etherscan 偵探何閱讀偵探Dune 儀表板。這可能需要1個月的時間來適應悠閑的學習，如果你真的想瘋狂地學習，需要2周的時間。
此外，你還需要考慮更多的內容，特別是時間分配和技能轉移。
時間: web3 中大約有30名數據分析師-40%的時間將花在與生態(tài)系統(tǒng)中的其他分析師和協(xié)議同步上。請確保你不會對他們感到頭暈，否則這將對每個人造成長期損害。有必要與更大的數據社區(qū)一起學習、貢獻和構建。
可轉移性:在這個領域，技能和領域都是高度可轉移的。如果使用不同的協(xié)議，啟動時間可能會減少，因為鏈上數據的表模式是一樣的。
記住，知道如何使用這些工具并不重要，每個分析師或多或少都應該寫 SQL 或創(chuàng)建數據儀表板。這一切都是關于如何做出貢獻和與社區(qū)合作的。如果你面試的人不是 web3 數據社區(qū)的一員(似乎對這一塊不感興趣)可能要問問自己這是否是危險信號。