天天速遞!AI契約論⑥:一方水土養一方AI?數據合規對人工智能訓練意味著什么
2023-06-06 15:37:34 來源:21世紀經濟報道 編輯:

南方財經全媒體 吳立洋 21世紀經濟報道 鄭雪 實習生陽飄飄 上海、北京報道

編者按:


【資料圖】

在2023年過去的幾個月里,各大公司搶灘大模型、GPT商用化探索、算力基礎設施看漲……如同15世紀開啟的大航海時代,人類交往、貿易、財富有了爆炸性增長,空間革命席卷全球。變革同時,也帶來了秩序的挑戰,數據泄露、個人隱私風險、著作權侵權、虛假信息......此外,AI帶來的后人類主義危機已然擺在桌面,人們該以何種姿態迎接人機混雜帶來的迷思?

此刻,尋求AI治理的共識、重塑新秩序成了各國共同面對的課題。南財合規科技研究院將推出AI契約論系列報道,從中外監管模式、主體責任分配、語料庫數據合規、AI倫理、產業發展等維度,進行剖析,以期為AI治理方案提供一些思路,保障負責任的創新。

隨著AI產業的快速發展,被用于訓練的數據集規模亦呈指數級上升趨勢,人類在漫長歷史中積累的經驗與文化正快速被人工智能這一新興智能形態所汲取,歲月的積累成為培養未來科技的基底,知識的璀璨星光同時照亮了文明的過去、現在與未來。

隨著越來越多的數據被AI所學習乃至理解,人們欣喜地看到,人工智能的智慧與能力正發生翻天覆地的變化,這種進化速度遠超已知的任何一種自然或人類造物,但同樣也帶來了社會對未知的隱憂。

難以完全確認的是,在人工標識和清洗那些被AI所汲取的數據和文本時,那些同樣根植于歷史的系統性惡意與偏見能夠被抹去。人們不可避免地發問,當似乎有著無限潛能的AI在仰望亙古以來的知識星空時,是否應同時對其教化以人類社會的精神和道德法則。

善意、德行與律法,當從AI生成與成長的源頭追溯是什么塑造了人工智能的形態,似乎仍需回到由人類所生產與處理的數據本身,而如何在數據的構建和使用中建立規則,同樣蘊含著我們與AI這一內容、工具抑或是伙伴真正的相處模式,以及互相影響的未來。

在數據的合規標準中,個人隱私與版權是當前已具備一定實踐標準的監管領域,但面對AIGC龐大的數據需求量和生產的“黑箱化”,隱私與版權合規在人工智能爆發期仍面臨很多難以完全依據過往經驗解決的新問題。

數據的源頭

根據自第一代發布的GPT訓練數據庫至GPT-3的數據庫總量,有觀點推測,ChatGPT的基礎GPT-4模型使用的訓練數據量已超過10TB,1.8萬億參數。

(表1:歷代CPT數據庫構成及大小

數據來源:CPT論文、Alan D. Thompson)

如表1所示,在對第一代GPT模型進行訓練時,OpenAI僅使用了4.6GB的書籍數據,隨著版本的更新迭代,維基百科、期刊、Reddit鏈接、Common Crawl等其他數據被逐漸加入到訓練數據中。

選擇書籍作為數據庫基礎的原因也并不難理解——作為一種精煉且結構化的內容,書籍文本所具備的信息量和邏輯性高,非常適合人工智能進行學習。

除數據規模外,決定數據集對模型訓練效果的因素還包括數據的準確度和數據分布。”綠盟科技天樞實驗室主任顧杜鵑在接受南方財經全媒體記者采訪時表示,數據集在收集階段會集合大量冗余數據、缺失數據和有毒數據,需要貼合目標任務對數據進行選擇和預處理;而數據集合中不同類型的數據分布(例如正常/不正常數據的黑樣本與白樣本比例)同樣會影響模型訓練的效果。

除數據質量外,從當前各公司大模型研發實踐來看,可得性亦是其構建訓練數據集時需要重點考慮的因素。今年4月,作為GPT模型訓練數據的重要來源之一,擁有5000多萬DAU、3.66億帖子數量的社交新聞站點Reddit宣布將針對AI大模型訓練,對其企業級API收費,這無疑將抬高數據的獲得門檻。

多位業內人士在與記者交流時指出,以數據質量和可得性為主要衡量維度,當前AIGC廠商的數據來源大致可分為三個面向:

其一是各個廠商歷史積累的數據,數據的具體類型和質量取決于廠商的主營業務情況;其二是公開渠道爬取的數據,受限于當前各類反爬取技術和規則,此類數據獲取將愈加困難;其三則是各類免費或付費的第三方數據庫與數據集,例如GPT數據來源中全球最大的免費網頁數據庫Common Crawl,各類高校,以及企業科研機構所搜集和處理的開源數據集如WikiQA(微軟研究院發布)、EXEQ-300K(北京大學、賓夕法尼亞大學、中山大學發布)、ArxivPapers(Facebook、倫敦大學學院、DeepMind發布)等。

不同數據來源的特征與實際應用需求間的耦合性,則形成了開發者不同的數據集構建策略,而合規,則是其中重要的原則之一。

顧杜鵑指出,開發者在制定數據收集策略時,需綜合衡量在數據收集上的預算限制、數據質量、數據合規性以及數據源可靠性,對比各收費和免費數據源是否具備多樣性、準確性、合法合規性等,結合開發目標,最終決定AI開發項目的數據源構成。

隱私保護與版權

在數據成為企業重要競爭力的今天,擺在企業面前的,除了回答如何獲取數據的問題之外,最為直接的問題是,如何確保來源繁雜且格式不一的AI訓練數據在個人隱私與版權層面的合規。

國內大模型方面,百度、阿里、科大訊飛等積累了豐富數據資源的企業紛紛加入大模型之戰。其中,隱私數據成為數據治理和使用中不可逾越的紅線。

一位不愿具名的算法工程師對記者介紹稱,近些年來,企業對于隱私數據進行專門治理,公司內部所積累的相關數據很難接觸,相關數據需要經過脫敏等措施才可使用?!皬募夹g上來說,不會故意使用相關數據;如果發現相關漏洞,第一選擇一定是堵上漏洞,現在誰都不敢去踩紅線。

大模型自身“大力出奇跡”的暴力美學,擁有的數據越多、質量越高,大模型的能力也就愈加強大。如上文所言,除企業本身所積累的數據之外,公開數據、開源數據集等也構成大模型數據來源的一部分。

某互聯網大廠人工智能架構師對記者表示,“對于大模型來說,數據集的范圍肯定是越多越好,覆蓋的領域越廣越好。開源的數據集的使用則會根據哪部分數據的適用途徑進行匹配?!?/p>

但其中,隨著數據來源的擴大,如何解決人工智能模型訓練數據中的可版權性問題,成為關注的焦點。即便是號稱“開源”的各類數據庫,也并非意味著完全不存在版權層面的合規問題,當前各類開源平臺往往以開放數據共享、社區數據許可協議等協議方式規范相關內容的署名權、繼承權、盈利權、演繹權等權益。

具體到開發層面,我國的AIGC領域的版權規制亦存在爭議。上海大邦律師事務所高級合伙人游云庭在接受記者采訪時表示,根據相關法律,利用數據訓練人工智能實際上存在“先上車再買票”的問題:“我國著作權法并沒有規定合理使用的相關情況。線上線下的聲音文字圖片,如果有獨創性,是個人創作的,就構成受著作權法保護的作品,未經著作權人許可進行使用,涉嫌侵權?!?/p>

值得關注的是,傳統的“授權許可模式”對于大模型的數據訓練存在天然困境,不僅在于實操層面難以落地,更在于對產業研發的長期影響。業界有觀點認為,需將數據納入合理使用的范疇進行規制。

可以看到,日本、英國、歐盟等已對將數據挖掘作為合理使用的情形進行了立法確認:日本以“計算機信息分析”的名義規定了文本數據挖掘的著作權例外,英國同樣引入文本和數據挖掘的版權許可或例外情況,歐盟則選擇“非科研目的”例外的謹慎方案……這些監管舉措的背后,則是各國對AIGC規制路徑的探索。

規則實踐

梳理近期不同國家和地區對AIGC的立法不難發現,基于不同的法律體系和產業發展愿景,不同國家選取的實踐路徑亦各有側重。

以近期剛剛在歐洲議會通過《人工智能法案》談判授權草案的歐盟為例,這部于2021年正式成為歐盟委員會提案的法案中規定,人工智能大模型的創建者需要在人工智能使用之前進行評估并減輕各種風險。相關公司必須公開訓練人工智能使用的數據,以確保其使用受版權法保護的數據訓練。

而隨著立法期間ChatGPT的橫空出世,歐洲立法者很快對法案增添了修正案,擴大了AI開發者的禁止行為清單,其中包括“禁止從社交媒體或監控攝像頭中抓取生物特征數據以創建面部識別數據庫(侵犯人權和隱私權)”。

在立法層面的法律法規不斷推進的同時,司法層面的案例亦開始涌現,今年1月,三名藝術家聯合對Stability Al、DeviantArt和Midjourney發起集體訴訟,指控其訓練數據侵害了藝術家版權。

作為全球首例知名的AIGC商業化應用領域,算法模型及訓練數據版權侵權案,原告認為Stable Diffusion等AI模型“將無數受版權保護的圖像存儲和合并為訓練圖像后……生成完全基于訓練圖像的‘新’圖像”,從而獲得商業利潤,擠占了原作品的交易市場。

雖然Stable Diffusion案距塵埃落定無疑還將面臨長久的訴訟過程,但在部分國家,為AI產業大開綠燈已成為重要的政策指引方向。

近日,日本最高教育行政長官、文部科學大臣在會議上重申,日本政府不會對人工智能訓練過程中使用的數據實施版權保護。上海大邦律游云庭告訴南方財經全媒體記者,根據日本著作權法第30條第4款規定,如果不以欣賞作品中表達的思想或情感為目的,且沒有不合理地損害著作人權益的,可以合理使用他人享有著作權的作品。

“考慮到立法已經先行,雖然會有動漫,影視制作的利益群體的游說,個人認為這個事情法律上的爭議還是會比較小?!庇卧仆ケ硎?。

“整體來看,各國都在基于自身人工智能產業發展的不同定位和戰略訴求,設計和實現自身的治理框架和治理主張,并引入與之匹配的治理機制?!?/strong>

北京師范大學法學院博士生導師、中國互聯網協會研究中心副主任吳沈括指出,以歐盟為例,基于其強調數字主權的立場,其更傾向于從數據治理角度強化與AI相關的數據流轉利用規則,日本則表現出以產業數據促進流轉利用的治理思路?!拔覈鴱娬{的是一種以風險為導向的綜合治理思路?!彼M一步表示。

某種程度上,隱私與版權仍是沿用人類已有的法律體系對AI利用生產資料的方式加以監督,而如何保證AI這一新興事物的“思考”與“輸出”符合人類的倫理和道德,卻是一項幾無先例可循的監管實踐。在本專題的下一篇,我們將進一步探討如何由從數據角度對AI生成與訓練加以梳理和監管,以打造真正“向善”的下一代人工智能。

統籌:王俊

記者:吳立洋 鄭雪 陽飄飄

關鍵詞:

相關閱讀
分享到:
版權和免責申明

凡注有"環球傳媒網 - 環球資訊網 - 環球生活門戶"或電頭為"環球傳媒網 - 環球資訊網 - 環球生活門戶"的稿件,均為環球傳媒網 - 環球資訊網 - 環球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網 - 環球資訊網 - 環球生活門戶",并保留"環球傳媒網 - 環球資訊網 - 環球生活門戶"的電頭。

性爱午夜6、点半