ChatGPT類應(yīng)用服務(wù)數(shù)據(jù)合規(guī)有特殊性嗎？

時(shí)間：2023-04-28|瀏覽：226

王融?騰訊研究院首席數(shù)據(jù)法律專家

本期觀點(diǎn)摘要：

1. ChatGPT等AI應(yīng)用服務(wù)商直接面向個(gè)人提供服務(wù)，收集并處理個(gè)人信息，可被視為個(gè)人信息保護(hù)合規(guī)主體——數(shù)據(jù)控制者。

2.與移動(dòng)互聯(lián)網(wǎng)APP的典型場(chǎng)景相比，生成式AI服務(wù)商的個(gè)人信息處理活動(dòng)有其自身特征，數(shù)據(jù)合規(guī)重點(diǎn)也有所不同。

3.根據(jù)GDPR，歐盟數(shù)據(jù)保護(hù)機(jī)構(gòu)（DPA）是監(jiān)管機(jī)構(gòu)，而非市場(chǎng)準(zhǔn)入機(jī)構(gòu)，其職責(zé)主要在指導(dǎo)督促企業(yè)滿足數(shù)據(jù)合規(guī)要求。

4.未來(lái)真正的挑戰(zhàn)來(lái)自于AI賦能的各類應(yīng)用服務(wù)，解決新的數(shù)據(jù)安全問(wèn)題需要新思維。

C端AI應(yīng)用服務(wù)商是

數(shù)據(jù)控制者（data controller）

并非所有的市場(chǎng)主體都是數(shù)據(jù)合規(guī)框架下的義務(wù)主體，需要根據(jù)技術(shù)原理、業(yè)務(wù)場(chǎng)景和法律規(guī)范來(lái)進(jìn)一步確定。當(dāng)主體身份重合時(shí)，也需基于不同業(yè)務(wù)流程匹配合規(guī)義務(wù)。基于此分析框架，我們?cè)谏弦黄恼吕镌敿?xì)論證了大模型研發(fā)者，在模型研發(fā)階段有可能并不認(rèn)定為隱私數(shù)據(jù)合規(guī)上的法律主體（data controller）。

基于同樣的分析框架，我們認(rèn)為面向C端個(gè)人用戶提供生成式AI服務(wù)的運(yùn)營(yíng)者可被認(rèn)定為隱私數(shù)據(jù)合規(guī)上的數(shù)據(jù)控制者。例如，當(dāng)OpenAI在2022年11年面向公眾發(fā)布ChatGPT應(yīng)用服務(wù)，并在2個(gè)月內(nèi)突破1億用戶，成為歷史上增長(zhǎng)最快的消費(fèi)者應(yīng)用時(shí)，作為數(shù)據(jù)控制者的身份已確定無(wú)疑。

事實(shí)也如此。從國(guó)外實(shí)踐看，目前已面向個(gè)人的AI應(yīng)用服務(wù)商，在數(shù)據(jù)合規(guī)部分已完整配置隱私政策和用戶協(xié)議，以充分告知用戶收集了哪些類型的數(shù)據(jù)，以及如何處理數(shù)據(jù)。OpenAI在隱私政策中列舉了收集類型[1]；包括賬戶信息、通信內(nèi)容、使用記錄等；數(shù)據(jù)處理的目的包括但不限于：提供、改進(jìn)服務(wù)，預(yù)防欺詐，網(wǎng)絡(luò)信息安全、履行法定義務(wù)所需等。類似的，面向公眾的圖片生成AI服務(wù)商Midjourney 也提供了清晰明了的隱私政策[2]。國(guó)內(nèi)目前雖然沒(méi)有正式上線的產(chǎn)品，但已有部分廠商在測(cè)試版本中嵌入隱私政策。

這也就不難解釋為什么數(shù)據(jù)保護(hù)機(jī)構(gòu)DPA是第一批入場(chǎng)的監(jiān)管機(jī)構(gòu)。3月31日，意大利數(shù)據(jù)監(jiān)管機(jī)構(gòu)Garante宣布暫時(shí)禁止ChatGPT，并要求OpenAI 在20天內(nèi)相關(guān)問(wèn)題作出回應(yīng)[3]。這是數(shù)據(jù)監(jiān)管機(jī)構(gòu)DPA對(duì)一項(xiàng)新興應(yīng)用的正常反映，但被誤讀為DPA可以對(duì)特定業(yè)務(wù)采取永久性措施。相反，根據(jù)歐盟GDPR，DPA雖然有天價(jià)處罰權(quán)，但其職權(quán)被嚴(yán)格限制在矯正性權(quán)力范圍內(nèi)，包括建議，警告以及暫時(shí)性的或者具有明確期限的禁令[4]。換言之，只要服務(wù)提供者滿足數(shù)據(jù)合規(guī)要求，則DPA不得對(duì)其采取市場(chǎng)禁入措施。在其臨時(shí)禁止令受到廣泛批評(píng)后，4月12日，Garante釋放信號(hào)：“如果 OpenAI 采取有效措施，我們準(zhǔn)備在 4 月 30 日重新開(kāi)放 ChatGPT”[5]。

生成式AI服務(wù)商

數(shù)據(jù)合規(guī)的獨(dú)特性

與移動(dòng)互聯(lián)網(wǎng)相比，面向個(gè)人的生成式AI應(yīng)用在數(shù)據(jù)合規(guī)上有很多相似之處，包括制定隱私政策、業(yè)務(wù)協(xié)議，明確處理用戶數(shù)據(jù)的合法性基礎(chǔ)，通過(guò)隱私保護(hù)設(shè)計(jì)在信息系統(tǒng)中支持用戶圍繞其賬戶信息和使用服務(wù)過(guò)程中產(chǎn)生的個(gè)人信息的相關(guān)權(quán)利，包括查詢、訪問(wèn)、更正、刪除等。但一方面，我們更加關(guān)注其在個(gè)人信息處理活動(dòng)中的獨(dú)特性：

第一、收集的個(gè)人信息種類相對(duì)較少。導(dǎo)航軟件、打車、購(gòu)物等典型的移動(dòng)APP為實(shí)現(xiàn)對(duì)用戶個(gè)性化服務(wù)的閉環(huán)，需要實(shí)時(shí)收集用戶較多類型的個(gè)人信息；而目前的生成式AI應(yīng)用，以O(shè)penAI和Midjourney為例，從其底層邏輯出發(fā)，其更加關(guān)注生成內(nèi)容的質(zhì)量，在應(yīng)用服務(wù)階段收集個(gè)人信息主要是建立用戶賬戶體系，接受用戶指令（prompt）并與之交互，因此收集的個(gè)人信息相對(duì)較少，包括賬戶信息（用戶名、郵件）、使用記錄（cookie等），如果涉及購(gòu)買服務(wù)等交易，則還包括支付信息。因此，Midjourney更是以表格的形式，明確列出了不收集的用戶信息種類：包括用戶敏感信息，生物識(shí)別信息、地理位置信息等等。這些信息對(duì)于生成式AI應(yīng)用確實(shí)也無(wú)關(guān)緊要。

第二、在更早階段以及更廣泛地采取個(gè)人信息去標(biāo)識(shí)化以及匿名化措施。在提供服務(wù)過(guò)程中，生成式AI主要圍繞用戶賬號(hào)體系及通信內(nèi)容構(gòu)建數(shù)據(jù)安全防護(hù)體系。以ChatGPT為例，盡管在模型訓(xùn)練階段，其采集的數(shù)據(jù)源中的用戶個(gè)人信息較少（且主要為公開(kāi)信息），但在應(yīng)用服務(wù)階段，問(wèn)答式的會(huì)話功能會(huì)產(chǎn)生較為敏感的通信內(nèi)容，模型根據(jù)與用戶通信內(nèi)容（上下文環(huán)境）進(jìn)一步分析并生成回復(fù)。為降低用戶通信內(nèi)容泄露后產(chǎn)生的風(fēng)險(xiǎn)，生成式AI會(huì)在更早階段采取用戶身份信息去標(biāo)識(shí)化及匿名技術(shù)，或者將用戶身份信息與通信內(nèi)容相互分離，或者在模型生成回復(fù)內(nèi)容后及時(shí)刪除通信內(nèi)容等安全類措施。這也是由生成式AI更關(guān)注反饋內(nèi)容，而非用戶行為的邏輯所決定，這與建立在用戶行為特征基礎(chǔ)上，以個(gè)性化推薦見(jiàn)長(zhǎng)的移動(dòng)APP有顯著差異。

第三、由以上兩方面影響，生成式AI與移動(dòng)APP在數(shù)據(jù)安全的風(fēng)險(xiǎn)領(lǐng)域有所不同。移動(dòng)互聯(lián)網(wǎng)APP需要直接收集大量個(gè)人信息，用戶數(shù)據(jù)庫(kù)易成為黑客攻擊和數(shù)據(jù)泄露的目標(biāo)。然而，在生成式AI 應(yīng)用中，雖然其直接收集的用戶信息種類少，但其風(fēng)險(xiǎn)集中在模型被攻擊從而反向溯源數(shù)據(jù)庫(kù)，以及用戶通信內(nèi)容泄露的隱患。意大利數(shù)據(jù)監(jiān)管機(jī)構(gòu)對(duì)OpenAI發(fā)出暫時(shí)禁令，即是由于用戶通信內(nèi)容因出現(xiàn)服務(wù)bug而泄露的事故。為減輕風(fēng)險(xiǎn)，在技術(shù)上已經(jīng)明顯具備先發(fā)優(yōu)勢(shì)的OpenAI，開(kāi)始探索支持用戶可以選擇將個(gè)人刪除通信記錄。4月23日，OpenAI 推出新控件，允許 ChatGPT 用戶可以選擇關(guān)閉其聊天歷史記錄，且可以不用于模型訓(xùn)練目的[6]。

第四、在輸出階段，如果用戶引導(dǎo)的問(wèn)題涉及個(gè)人信息時(shí)，基于大模型的語(yǔ)言預(yù)測(cè)生成的算法邏輯，輸出結(jié)果中的個(gè)人信息有可能是編造的，虛假的，這可能違反了個(gè)人信息保護(hù)法上的信息質(zhì)量原則，即保持個(gè)人信息準(zhǔn)確性要求。但這類問(wèn)題的背后實(shí)質(zhì)是生成式AI在內(nèi)容治理中面臨的一般性問(wèn)題，即AI進(jìn)入“幻想”，編造不準(zhǔn)確甚至是虛假的信息。

OpenAI在研發(fā)階段，即致力于改善和解決此類問(wèn)題，包括引入人類專家意見(jiàn)反饋機(jī)制和強(qiáng)化學(xué)習(xí)（RLHF），引導(dǎo)AI輸出準(zhǔn)確內(nèi)容。目前，部分生成類AI還加入了輸入（prompt）+輸出雙重過(guò)濾機(jī)制,來(lái)進(jìn)一步避免出現(xiàn)有害內(nèi)容或侵權(quán)問(wèn)題。盡管大語(yǔ)言模型的進(jìn)步速度令人瞠目結(jié)舌，僅用了4個(gè)月，ChatGPT 4相比于GPT3.5，其輸出信息的準(zhǔn)確率就大幅提升了40%，違反內(nèi)容政策的輸出可能性降低 82%[7]，但目前仍不能保證其生成內(nèi)容具有可靠的準(zhǔn)確性。因此作為用戶也應(yīng)當(dāng)對(duì)ChatGPT的回答保持一定警惕和判斷力，避免被誤導(dǎo)。

綜上，看待生成式AI的數(shù)據(jù)合規(guī)問(wèn)題，需要從移動(dòng)互聯(lián)網(wǎng)服務(wù)中的數(shù)據(jù)合規(guī)慣性中跳脫出來(lái)，圍繞其在隱私和數(shù)據(jù)安全方面的不同特點(diǎn)，有的放矢采取相應(yīng)的合規(guī)和安全保護(hù)措施。

面向未來(lái)的挑戰(zhàn)：

前所未有的數(shù)據(jù)匯聚

基于大語(yǔ)言模型的生成式AI為世人所矚目，不在內(nèi)容生成，而在其所具有的通用人工智能（Artificiall general interlligence,AGI）潛力，業(yè)界驚呼：AGI的奇點(diǎn)時(shí)刻正在到來(lái)。未來(lái)，除了面向普通大眾的內(nèi)容生成式AI應(yīng)用外，業(yè)界普遍認(rèn)為AI也將改寫互聯(lián)網(wǎng)范式?，F(xiàn)有商業(yè)模式將廣泛引入AI智能模型，大幅提升用戶交互效率。這不是將來(lái)時(shí)，而是進(jìn)行時(shí)。2023年3月17日，微軟發(fā)布Microsoft 365 Copilot，將大語(yǔ)言模型（LLM）功能與微軟辦公應(yīng)用相結(jié)合，幫助用戶解鎖生產(chǎn)力[8]。

Copilot將會(huì)被內(nèi)置到辦公全家桶內(nèi)，在Word、Excel、PowerPoint中，AI將與個(gè)人通過(guò)便捷的語(yǔ)言交互，一起撰寫文檔，演示文稿，實(shí)現(xiàn)數(shù)據(jù)可視化；在Outlook，Teams ，Business Chat中，AI能夠幫助用戶回復(fù)郵件，管理郵箱，實(shí)時(shí)完成會(huì)議摘要和待辦事項(xiàng)，提高會(huì)議效率。

辦公效率的飛越提升，不僅建立在強(qiáng)大的AI模型能力基礎(chǔ)之上，更建立在廣泛的數(shù)據(jù)打通鏈接基礎(chǔ)之上，使用Copilot意味著用戶將授權(quán)微軟打通跨越各業(yè)務(wù)平臺(tái)的個(gè)人數(shù)據(jù)。正如微軟隱私政策所陳述，為實(shí)現(xiàn)業(yè)務(wù)提供，改進(jìn)和開(kāi)發(fā)產(chǎn)品等目的，微軟會(huì)從不同的業(yè)務(wù)環(huán)境中（例如在使用兩個(gè)以上 Microsoft 產(chǎn)品的過(guò)程中）收集的數(shù)據(jù)進(jìn)行合并[9]。

這只是未來(lái)超級(jí)數(shù)字助理的雛形，在智能基礎(chǔ)設(shè)施的支持之下，每個(gè)人甚至可以擁有多個(gè)數(shù)字分身，協(xié)同完成任務(wù)。可以想見(jiàn)，數(shù)字助理的背后是大語(yǔ)言模型訪問(wèn)、鏈接個(gè)人以及商業(yè)企業(yè)的私有數(shù)據(jù)，數(shù)據(jù)的融合利用一定是無(wú)縫絲滑的。此類數(shù)據(jù)的訪問(wèn)處理如何以安全、合規(guī)、保護(hù)隱私的方式進(jìn)行，對(duì)安全技術(shù)保障措施提出了更高要求。

圖：Microsoft Graph 是 Microsoft 365 中數(shù)據(jù)和智能的網(wǎng)關(guān)。它提供了統(tǒng)一的可編程性模型，以安全便捷地跨業(yè)務(wù)平臺(tái)訪問(wèn)數(shù)據(jù)。

同時(shí),我們也迫切需要審視現(xiàn)有的隱私保護(hù)與合規(guī)機(jī)制。在當(dāng)前移動(dòng)互聯(lián)網(wǎng)個(gè)人信息保護(hù)實(shí)踐中，對(duì)于必要性原則解釋是非常嚴(yán)苛的，以最大程度的避免數(shù)據(jù)收集與匯聚。例如：《常見(jiàn)類型移動(dòng)互聯(lián)網(wǎng)應(yīng)用程序必要個(gè)人信息范圍規(guī)定》（簡(jiǎn)稱《39類規(guī)定》）不僅針對(duì)每類應(yīng)用區(qū)分了基本功能和附加功能，還針對(duì)基本功能收集的必要信息進(jìn)行了明確。在大部分基本功能中僅能收集兩三類個(gè)人信息，例如定位和導(dǎo)航功能僅能收集位置信息、出發(fā)地、到達(dá)地三種信息；《App違法違規(guī)收集使用個(gè)人信息行為認(rèn)定方法》中更是明確：不得僅以改善服務(wù)質(zhì)量、研發(fā)新產(chǎn)品等理由收集個(gè)人信息。這種基于“嚴(yán)防死守”的數(shù)據(jù)合規(guī)思路在未來(lái)的AI應(yīng)用場(chǎng)景中是否還能繼續(xù)走下去，是一個(gè)值得探討的問(wèn)題。

從移動(dòng)互聯(lián)網(wǎng)到我們正在步入的AI時(shí)代，雖然數(shù)據(jù)利用一直在向更廣更深的方向發(fā)展，但各類新技術(shù)應(yīng)用仍將隱私保護(hù)作為價(jià)值對(duì)齊（value alignment）的重要方面。隱私和數(shù)據(jù)安全的真諦從來(lái)也不是對(duì)數(shù)據(jù)的使用進(jìn)行各種限制，或者人為增加數(shù)據(jù)利用門檻，而在于通過(guò)激烈的市場(chǎng)競(jìng)爭(zhēng)、健全的法律機(jī)制和更加強(qiáng)大的技術(shù)安全措施來(lái)切實(shí)保障用戶隱私與數(shù)據(jù)安全。

參考資料來(lái)源:

[1]https://openai.com/policies/privacy-policy

[2]https://docs.midjourney.com/docs?/privacy-policy

[3]https://www.gpdp.it/web/guest/home/docweb/-/docweb-display/docweb/9870832

[4]GDPR ?Article 58&Article 83

[5]https://www.reuters.com/technology/italys-data-watchdog-chatgpt-can-resume-april-30-if-openai-takes-useful-steps-2023-04-18/

[6]https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt

[7]https://openai.com/product/gpt-4

[8]https://news.microsoft.com/zh-cn/microsoft-365-copilot/

[9]https://privacy.microsoft.com/zh-cn/privacystatement

熱點(diǎn)：數(shù)據(jù)