時(shí)間:2023-04-28|瀏覽:226
王融?騰訊研究院首席數(shù)據(jù)法律專家
本期觀點(diǎn)摘要:
1. ChatGPT等AI應(yīng)用服務(wù)商直接面向個(gè)人提供服務(wù),收集并處理個(gè)人信息,可被視為個(gè)人信息保護(hù)合規(guī)主體——數(shù)據(jù)控制者。
2.與移動(dòng)互聯(lián)網(wǎng)APP的典型場(chǎng)景相比,生成式AI服務(wù)商的個(gè)人信息處理活動(dòng)有其自身特征,數(shù)據(jù)合規(guī)重點(diǎn)也有所不同。
3.根據(jù)GDPR,歐盟數(shù)據(jù)保護(hù)機(jī)構(gòu)(DPA)是監(jiān)管機(jī)構(gòu),而非市場(chǎng)準(zhǔn)入機(jī)構(gòu),其職責(zé)主要在指導(dǎo)督促企業(yè)滿足數(shù)據(jù)合規(guī)要求。
4.未來(lái)真正的挑戰(zhàn)來(lái)自于AI賦能的各類應(yīng)用服務(wù),解決新的數(shù)據(jù)安全問(wèn)題需要新思維。
并非所有的市場(chǎng)主體都是數(shù)據(jù)合規(guī)框架下的義務(wù)主體,需要根據(jù)技術(shù)原理、業(yè)務(wù)場(chǎng)景和法律規(guī)范來(lái)進(jìn)一步確定。當(dāng)主體身份重合時(shí),也需基于不同業(yè)務(wù)流程匹配合規(guī)義務(wù)。基于此分析框架,我們?cè)谏弦黄恼吕镌敿?xì)論證了大模型研發(fā)者,在模型研發(fā)階段有可能并不認(rèn)定為隱私數(shù)據(jù)合規(guī)上的法律主體(data controller)。
基于同樣的分析框架,我們認(rèn)為面向C端個(gè)人用戶提供生成式AI服務(wù)的運(yùn)營(yíng)者可被認(rèn)定為隱私數(shù)據(jù)合規(guī)上的數(shù)據(jù)控制者。例如,當(dāng)OpenAI在2022年11年面向公眾發(fā)布ChatGPT應(yīng)用服務(wù),并在2個(gè)月內(nèi)突破1億用戶,成為歷史上增長(zhǎng)最快的消費(fèi)者應(yīng)用時(shí),作為數(shù)據(jù)控制者的身份已確定無(wú)疑。
事實(shí)也如此。從國(guó)外實(shí)踐看,目前已面向個(gè)人的AI應(yīng)用服務(wù)商,在數(shù)據(jù)合規(guī)部分已完整配置隱私政策和用戶協(xié)議,以充分告知用戶收集了哪些類型的數(shù)據(jù),以及如何處理數(shù)據(jù)。OpenAI在隱私政策中列舉了收集類型[1];包括賬戶信息、通信內(nèi)容、使用記錄等;數(shù)據(jù)處理的目的包括但不限于:提供、改進(jìn)服務(wù),預(yù)防欺詐,網(wǎng)絡(luò)信息安全、履行法定義務(wù)所需等。類似的,面向公眾的圖片生成AI服務(wù)商Midjourney 也提供了清晰明了的隱私政策[2]。國(guó)內(nèi)目前雖然沒(méi)有正式上線的產(chǎn)品,但已有部分廠商在測(cè)試版本中嵌入隱私政策。
這也就不難解釋為什么數(shù)據(jù)保護(hù)機(jī)構(gòu)DPA是第一批入場(chǎng)的監(jiān)管機(jī)構(gòu)。3月31日,意大利數(shù)據(jù)監(jiān)管機(jī)構(gòu)Garante宣布暫時(shí)禁止ChatGPT,并要求OpenAI 在20天內(nèi)相關(guān)問(wèn)題作出回應(yīng)[3]。這是數(shù)據(jù)監(jiān)管機(jī)構(gòu)DPA對(duì)一項(xiàng)新興應(yīng)用的正常反映,但被誤讀為DPA可以對(duì)特定業(yè)務(wù)采取永久性措施。相反,根據(jù)歐盟GDPR,DPA雖然有天價(jià)處罰權(quán),但其職權(quán)被嚴(yán)格限制在矯正性權(quán)力范圍內(nèi),包括建議,警告以及暫時(shí)性的或者具有明確期限的禁令[4]。換言之,只要服務(wù)提供者滿足數(shù)據(jù)合規(guī)要求,則DPA不得對(duì)其采取市場(chǎng)禁入措施。在其臨時(shí)禁止令受到廣泛批評(píng)后,4月12日,Garante釋放信號(hào):“如果 OpenAI 采取有效措施,我們準(zhǔn)備在 4 月 30 日重新開(kāi)放 ChatGPT”[5]。
與移動(dòng)互聯(lián)網(wǎng)相比,面向個(gè)人的生成式AI應(yīng)用在數(shù)據(jù)合規(guī)上有很多相似之處,包括制定隱私政策、業(yè)務(wù)協(xié)議,明確處理用戶數(shù)據(jù)的合法性基礎(chǔ),通過(guò)隱私保護(hù)設(shè)計(jì)在信息系統(tǒng)中支持用戶圍繞其賬戶信息和使用服務(wù)過(guò)程中產(chǎn)生的個(gè)人信息的相關(guān)權(quán)利,包括查詢、訪問(wèn)、更正、刪除等。但一方面,我們更加關(guān)注其在個(gè)人信息處理活動(dòng)中的獨(dú)特性:
第一、收集的個(gè)人信息種類相對(duì)較少。導(dǎo)航軟件、打車、購(gòu)物等典型的移動(dòng)APP為實(shí)現(xiàn)對(duì)用戶個(gè)性化服務(wù)的閉環(huán),需要實(shí)時(shí)收集用戶較多類型的個(gè)人信息;而目前的生成式AI應(yīng)用,以O(shè)penAI和Midjourney為例,從其底層邏輯出發(fā),其更加關(guān)注生成內(nèi)容的質(zhì)量,在應(yīng)用服務(wù)階段收集個(gè)人信息主要是建立用戶賬戶體系,接受用戶指令(prompt)并與之交互,因此收集的個(gè)人信息相對(duì)較少,包括賬戶信息(用戶名、郵件)、使用記錄(cookie等),如果涉及購(gòu)買服務(wù)等交易,則還包括支付信息。因此,Midjourney更是以表格的形式,明確列出了不收集的用戶信息種類:包括用戶敏感信息,生物識(shí)別信息、地理位置信息等等。這些信息對(duì)于生成式AI應(yīng)用確實(shí)也無(wú)關(guān)緊要。
第二、在更早階段以及更廣泛地采取個(gè)人信息去標(biāo)識(shí)化以及匿名化措施。在提供服務(wù)過(guò)程中,生成式AI主要圍繞用戶賬號(hào)體系及通信內(nèi)容構(gòu)建數(shù)據(jù)安全防護(hù)體系。以ChatGPT為例,盡管在模型訓(xùn)練階段,其采集的數(shù)據(jù)源中的用戶個(gè)人信息較少(且主要為公開(kāi)信息),但在應(yīng)用服務(wù)階段,問(wèn)答式的會(huì)話功能會(huì)產(chǎn)生較為敏感的通信內(nèi)容,模型根據(jù)與用戶通信內(nèi)容(上下文環(huán)境)進(jìn)一步分析并生成回復(fù)。為降低用戶通信內(nèi)容泄露后產(chǎn)生的風(fēng)險(xiǎn),生成式AI會(huì)在更早階段采取用戶身份信息去標(biāo)識(shí)化及匿名技術(shù),或者將用戶身份信息與通信內(nèi)容相互分離,或者在模型生成回復(fù)內(nèi)容后及時(shí)刪除通信內(nèi)容等安全類措施。這也是由生成式AI更關(guān)注反饋內(nèi)容,而非用戶行為的邏輯所決定,這與建立在用戶行為特征基礎(chǔ)上,以個(gè)性化推薦見(jiàn)長(zhǎng)的移動(dòng)APP有顯著差異。
第三、由以上兩方面影響,生成式AI與移動(dòng)APP在數(shù)據(jù)安全的風(fēng)險(xiǎn)領(lǐng)域有所不同。移動(dòng)互聯(lián)網(wǎng)APP需要直接收集大量個(gè)人信息,用戶數(shù)據(jù)庫(kù)易成為黑客攻擊和數(shù)據(jù)泄露的目標(biāo)。然而,在生成式AI 應(yīng)用中,雖然其直接收集的用戶信息種類少,但其風(fēng)險(xiǎn)集中在模型被攻擊從而反向溯源數(shù)據(jù)庫(kù),以及用戶通信內(nèi)容泄露的隱患。意大利數(shù)據(jù)監(jiān)管機(jī)構(gòu)對(duì)OpenAI發(fā)出暫時(shí)禁令,即是由于用戶通信內(nèi)容因出現(xiàn)服務(wù)bug而泄露的事故。為減輕風(fēng)險(xiǎn),在技術(shù)上已經(jīng)明顯具備先發(fā)優(yōu)勢(shì)的OpenAI,開(kāi)始探索支持用戶可以選擇將個(gè)人刪除通信記錄。4月23日,OpenAI 推出新控件,允許 ChatGPT 用戶可以選擇關(guān)閉其聊天歷史記錄,且可以不用于模型訓(xùn)練目的[6]。
第四、在輸出階段,如果用戶引導(dǎo)的問(wèn)題涉及個(gè)人信息時(shí),基于大模型的語(yǔ)言預(yù)測(cè)生成的算法邏輯,輸出結(jié)果中的個(gè)人信息有可能是編造的,虛假的,這可能違反了個(gè)人信息保護(hù)法上的信息質(zhì)量原則,即保持個(gè)人信息準(zhǔn)確性要求。但這類問(wèn)題的背后實(shí)質(zhì)是生成式AI在內(nèi)容治理中面臨的一般性問(wèn)題,即AI進(jìn)入“幻想”,編造不準(zhǔn)確甚至是虛假的信息。
OpenAI在研發(fā)階段,即致力于改善和解決此類問(wèn)題,包括引入人類專家意見(jiàn)反饋機(jī)制和強(qiáng)化學(xué)習(xí)(RLHF),引導(dǎo)AI輸出準(zhǔn)確內(nèi)容。目前,部分生成類AI還加入了輸入(prompt)+輸出雙重過(guò)濾機(jī)制,來(lái)進(jìn)一步避免出現(xiàn)有害內(nèi)容或侵權(quán)問(wèn)題。盡管大語(yǔ)言模型的進(jìn)步速度令人瞠目結(jié)舌,僅用了4個(gè)月,ChatGPT 4相比于GPT3.5,其輸出信息的準(zhǔn)確率就大幅提升了40%,違反內(nèi)容政策的輸出可能性降低 82%[7],但目前仍不能保證其生成內(nèi)容具有可靠的準(zhǔn)確性。因此作為用戶也應(yīng)當(dāng)對(duì)ChatGPT的回答保持一定警惕和判斷力,避免被誤導(dǎo)。
綜上,看待生成式AI的數(shù)據(jù)合規(guī)問(wèn)題,需要從移動(dòng)互聯(lián)網(wǎng)服務(wù)中的數(shù)據(jù)合規(guī)慣性中跳脫出來(lái),圍繞其在隱私和數(shù)據(jù)安全方面的不同特點(diǎn),有的放矢采取相應(yīng)的合規(guī)和安全保護(hù)措施。
基于大語(yǔ)言模型的生成式AI為世人所矚目,不在內(nèi)容生成,而在其所具有的通用人工智能(Artificiall general interlligence,AGI)潛力,業(yè)界驚呼:AGI的奇點(diǎn)時(shí)刻正在到來(lái)。未來(lái),除了面向普通大眾的內(nèi)容生成式AI應(yīng)用外,業(yè)界普遍認(rèn)為AI也將改寫互聯(lián)網(wǎng)范式?,F(xiàn)有商業(yè)模式將廣泛引入AI智能模型,大幅提升用戶交互效率。這不是將來(lái)時(shí),而是進(jìn)行時(shí)。2023年3月17日,微軟發(fā)布Microsoft 365 Copilot,將大語(yǔ)言模型(LLM)功能與微軟辦公應(yīng)用相結(jié)合,幫助用戶解鎖生產(chǎn)力[8]。
Copilot將會(huì)被內(nèi)置到辦公全家桶內(nèi),在Word、Excel、PowerPoint中,AI將與個(gè)人通過(guò)便捷的語(yǔ)言交互,一起撰寫文檔,演示文稿,實(shí)現(xiàn)數(shù)據(jù)可視化;在Outlook,Teams ,Business Chat中,AI能夠幫助用戶回復(fù)郵件,管理郵箱,實(shí)時(shí)完成會(huì)議摘要和待辦事項(xiàng),提高會(huì)議效率。
辦公效率的飛越提升,不僅建立在強(qiáng)大的AI模型能力基礎(chǔ)之上,更建立在廣泛的數(shù)據(jù)打通鏈接基礎(chǔ)之上,使用Copilot意味著用戶將授權(quán)微軟打通跨越各業(yè)務(wù)平臺(tái)的個(gè)人數(shù)據(jù)。正如微軟隱私政策所陳述,為實(shí)現(xiàn)業(yè)務(wù)提供,改進(jìn)和開(kāi)發(fā)產(chǎn)品等目的,微軟會(huì)從不同的業(yè)務(wù)環(huán)境中(例如在使用兩個(gè)以上 Microsoft 產(chǎn)品的過(guò)程中)收集的數(shù)據(jù)進(jìn)行合并[9]。
這只是未來(lái)超級(jí)數(shù)字助理的雛形,在智能基礎(chǔ)設(shè)施的支持之下,每個(gè)人甚至可以擁有多個(gè)數(shù)字分身,協(xié)同完成任務(wù)。可以想見(jiàn),數(shù)字助理的背后是大語(yǔ)言模型訪問(wèn)、鏈接個(gè)人以及商業(yè)企業(yè)的私有數(shù)據(jù),數(shù)據(jù)的融合利用一定是無(wú)縫絲滑的。此類數(shù)據(jù)的訪問(wèn)處理如何以安全、合規(guī)、保護(hù)隱私的方式進(jìn)行,對(duì)安全技術(shù)保障措施提出了更高要求。
圖:Microsoft Graph 是 Microsoft 365 中數(shù)據(jù)和智能的網(wǎng)關(guān)。它提供了統(tǒng)一的可編程性模型,以安全便捷地跨業(yè)務(wù)平臺(tái)訪問(wèn)數(shù)據(jù)。
同時(shí),我們也迫切需要審視現(xiàn)有的隱私保護(hù)與合規(guī)機(jī)制。在當(dāng)前移動(dòng)互聯(lián)網(wǎng)個(gè)人信息保護(hù)實(shí)踐中,對(duì)于必要性原則解釋是非常嚴(yán)苛的,以最大程度的避免數(shù)據(jù)收集與匯聚。例如:《常見(jiàn)類型移動(dòng)互聯(lián)網(wǎng)應(yīng)用程序必要個(gè)人信息范圍規(guī)定》(簡(jiǎn)稱《39類規(guī)定》)不僅針對(duì)每類應(yīng)用區(qū)分了基本功能和附加功能,還針對(duì)基本功能收集的必要信息進(jìn)行了明確。在大部分基本功能中僅能收集兩三類個(gè)人信息,例如定位和導(dǎo)航功能僅能收集位置信息、出發(fā)地、到達(dá)地三種信息;《App違法違規(guī)收集使用個(gè)人信息行為認(rèn)定方法》中更是明確:不得僅以改善服務(wù)質(zhì)量、研發(fā)新產(chǎn)品等理由收集個(gè)人信息。這種基于“嚴(yán)防死守”的數(shù)據(jù)合規(guī)思路在未來(lái)的AI應(yīng)用場(chǎng)景中是否還能繼續(xù)走下去,是一個(gè)值得探討的問(wèn)題。
從移動(dòng)互聯(lián)網(wǎng)到我們正在步入的AI時(shí)代,雖然數(shù)據(jù)利用一直在向更廣更深的方向發(fā)展,但各類新技術(shù)應(yīng)用仍將隱私保護(hù)作為價(jià)值對(duì)齊(value alignment)的重要方面。隱私和數(shù)據(jù)安全的真諦從來(lái)也不是對(duì)數(shù)據(jù)的使用進(jìn)行各種限制,或者人為增加數(shù)據(jù)利用門檻,而在于通過(guò)激烈的市場(chǎng)競(jìng)爭(zhēng)、健全的法律機(jī)制和更加強(qiáng)大的技術(shù)安全措施來(lái)切實(shí)保障用戶隱私與數(shù)據(jù)安全。
參考資料來(lái)源:
[1]https://openai.com/policies/privacy-policy
[2]https://docs.midjourney.com/docs?/privacy-policy
[3]https://www.gpdp.it/web/guest/home/docweb/-/docweb-display/docweb/9870832
[4]GDPR ?Article 58&Article 83
[5]https://www.reuters.com/technology/italys-data-watchdog-chatgpt-can-resume-april-30-if-openai-takes-useful-steps-2023-04-18/
[6]https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt
[7]https://openai.com/product/gpt-4
[8]https://news.microsoft.com/zh-cn/microsoft-365-copilot/
[9]https://privacy.microsoft.com/zh-cn/privacystatement
熱點(diǎn):數(shù)據(jù)