掃碼登錄
“我們曾做過試驗,當在特定論壇連續發布百余條虛假信息后,主流大模型對對標問題的回答置信度就會從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當網絡污染源形成規模,AI的知識體系就可能產生系統性偏差。”
可從優化大模型技術、完善監管與法律、加強行業自律等方面入手,構建數據治理框架,確保AI知識庫的純凈度,維護數字時代的認知安全
文 | 上海證券報記者 馬嘉悅 聶林浩
今年2月,某科普作家在社交平臺上表示,他向AI大模型詢問文物“青銅利簋”的有關情況時,結果稱該器物為商王帝乙祭祀父親帝丁所鑄,與實物考證不符。進一步追問文獻來源時,AI不僅偽造了學術觀點,還篡改了文獻作者信息。
記者近日在調研中發現,由于底層數據來源和語料的準確性與客觀性難以保證,大模型輸出內容可能偏離實際形成“語料污染”,加速虛假信息傳播,放大市場操縱、公共安全和法律版權等風險。
業內人士建議,可從優化大模型技術、完善監管與法律、加強行業自律等方面入手,構建數據治理框架,確保AI知識庫的純凈度,維護數字時代的認知安全。
語料污染致大模型有害內容顯著增加
近日,記者在某AI平臺查詢“某企業A是否投資過企業B”時,系統回答“企業A作為早期投資方參與企業B 2023年首輪融資”。然而,記者通過國家企業信用信息公示系統等平臺查詢核實后發現,該投資關系并不存在。
溯源發現,相關回答的語料來源于某平臺自媒體賬號連續多日發布的系列文章,這些未經權威信源印證的網絡討論,使AI系統誤判為可信信息。
中國信通院相關負責人分析稱:“我們曾做過試驗,當在特定論壇連續發布百余條虛假信息后,主流大模型對對標問題的回答置信度就會從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當網絡污染源形成規模,AI的知識體系就可能產生系統性偏差。”
中國信息協會常務理事、國研新經濟研究院創始院長朱克力介紹,數據注入、數據投毒等手段,是向大模型訓練數據中注入虛假或誤導性信息,或者通過大量無效或干擾數據影響大模型對有效信息的處理能力,甚至模仿他人口吻或身份發布信息,導致大模型誤判并采用。
2024年11月,360數字安全集團漏洞研究院發布的《大模型安全漏洞報告》稱,數據投毒攻擊是目前針對大模型最常見的攻擊方式之一,它通過惡意注入虛假或誤導性的數據來污染模型的訓練數據集,影響模型在訓練時期的參數調整,破壞模型的性能、降低其準確性或使其生成有害的結果。
紐約大學的一個研究團隊在一次模擬的數據攻擊中,通過使用GPT-3.5 API并進行提示工程,為外科、神經外科和藥物三個醫學子領域創建了5萬篇假文章,并將其嵌入HTML中,以隱藏惡意文本。
結果顯示,在訓練時,即使數據集中只有0.01%和0.001%的文本是虛假的,模型輸出的有害內容也會分別增加11.2%和7.2%。如果換成更大規模參數的模型,注入僅花費5美元生成的2000篇惡意文章,模型的有害內容則會增加4.8%。
數據失真風險不僅來自外部攻擊,還可能源于技術局限。騰訊研究院發布的一份報告顯示,AI大模型的數據源可能存在知識邊界,即缺乏特定領域知識或使用過時的信息,使得模型在面對特定問題時“無中生有”。即使數據本身沒有問題,模型也可能因為對數據利用不當而產生幻覺。
受訪者表示,AI生成內容還會造成遞歸污染,即大模型生成的虛假內容被再次上傳至互聯網,成為后續模型訓練的數據源,形成“污染遺留效應”。這種遞歸循環會導致錯誤信息逐代累積,最終扭曲模型的認知能力。
參賽選手在貴陽舉辦的第四屆“網鼎杯”網絡安全大賽決賽階段比賽中(2024 年 11 月 23 日攝) 陶亮攝 / 本刊
三方面風險值得關注
“大模型的語料污染在技術上是切實存在的。”北京一家頭部量化私募負責人表示,互聯網語料作為大模型的主要知識來源,其準確性與客觀性難以保證,可能影響模型輸出的可靠性。
業內人士稱,隨著大模型快速發展,AI語料污染會引發一系列潛藏風險,且隱蔽性較強。當前,尤其需要關注金融市場、公共安全和法律版權等方面的風險。
金融市場操縱風險。隨著大模型應用的普及,金融領域正面臨語料污染帶來的新型市場操縱風險。
有業內人士揭露了“AI殺豬盤”的典型操作手法:不法分子先是選定個股預埋股票倉位,再利用AI大量炮制虛假信息,散布于自媒體賬號、股吧、論壇等平臺,污染AI語料庫,再雇用“水軍”擴散AI對話截圖,人為制造概念股假象誘導散戶接盤。當股民“信以為真”沖著這些“利好”消息買入,便可套現離場,完成一輪“AI殺豬盤”。
這種新型市場操縱手段已經顯現出一定的市場破壞力。今年春節后,“某集團投資DeepSeek”的虛假信息在各投資平臺大規模傳播,直接引發相關上市公司股價異常波動,操盤者趁機高位套現。
值得注意的是,虛假信息即便被官方辟謠,仍可能持續污染語料庫。記者測試發現,部分被辟謠的虛假信息仍在AI系統中存續,顯示出虛假語料的頑固性。
明汯投資有關人士認為,大模型被“污染”后生成的統一傾向薦股內容,可通過社交媒體等渠道快速傳播,形成市場一致性預期,導致股價波動;若污染語料接入程序化交易系統,可能觸發自動化買賣指令,進一步加劇市場異常波動,形成聯動風險。
公共安全風險。多位業內人士坦言,AI語料污染還可能誤導公眾認知,擾動醫療、教育等多個領域認知,給社會公共安全帶來風險。
今年1月,西藏日喀則市定日縣發生6.8級地震。不法分子為追求流量,利用AI技術生產“災區”房屋坍塌、群眾被埋的虛假照片。其中,一張“被埋廢墟的6指男孩”圖片被廣泛轉發。
朱克力等表示,被污染的語料通過AI大模型生成虛假新聞快速擴散,可能誤導社會輿論,引發社會恐慌情緒。此外,若攻擊者系統性污染搜索引擎結果和AI訓練數據,可能篡改歷史記錄、扭曲科學常識、重構文化認知,影響社會集體記憶。
教育、醫療健康領域安全風險則更需警惕。一位量化私募人士表示,使用被污染的醫療類大模型可能生成錯誤診療建議,不僅危及患者生命安全,更可能加劇偽科學的傳播。例如某些AI系統若被注入“疫苗有害論”等偽科學語料,或將引發公共衛生危機。
法律版權風險。近年來,大模型訓練引發的知識產權糾紛不斷涌現:《紐約時報》起訴OpenAI公司,指控其非法復制數百萬篇文章用于ChatGPT大模型訓練,索賠金額高達數十億美元;三位美國作者對Anthropic PBC發起訴訟,稱其未經授權使用大量書籍訓練Claude大模型;2023年美國作家協會起訴Meta非法使用書籍數據……
生成式AI快速發展與現有知識產權法之間的沖突,爭議核心在于AI使用大量受版權保護內容進行訓練的合法性,而AI語料污染將加劇爭議版權判定難度。
受訪者表示,AI語料污染對版權爭議判定的核心挑戰在于其通過技術黑箱與數據混雜性,模糊了傳統版權法中侵權認定邏輯。一方面,語料污染意味著訓練數據中可能混雜海量未授權內容,AI內部運作機制的不透明性,使法律難以判定其是否實質性“復制”了原作,削弱了侵權歸責的基礎;另一方面,污染語料若包含用戶上傳的侵權內容,則AI生成的二次內容可能涉及原作者、上傳者、平臺、模型開發者等多方權利交織,使版權歸屬鏈條復雜化。
加強虛假語料治理
當前,加強虛假語料治理面臨兩大技術難點:首先是虛假信息的“記憶殘留”,即便原始信源被刪除,其衍生的對話數據、分析文本仍會持續污染語料庫;其次是污染行為“隱蔽性增強”,通過對抗性樣本、數據投毒等手段,污染行為削弱傳統內容審核識別能力。
針對AI快速發展背后暗藏的語料污染風險,業內人士認為需要從三方面筑牢大模型虛假信源防火墻。
一是優化大模型數據訓練等運行機制。朱克力等建議,加強大模型數據源治理與模型糾偏機制,建立嚴格的語料篩選機制,通過多層次多源交叉驗證和權威數據庫比對過濾可疑內容,并引入權威信源“白名單”,優先抓取政府機構、學術期刊等可信數據。明汯投資、九坤投資有關人士建議,增強大模型對虛假模式的識別能力,完善動態監測與反饋機制;強化開源模型治理,通過建立語料貢獻審核標準等防止惡意數據注入;在底層代碼等技術中融入“真實優先”的倫理原則,構建大模型對虛假信息的自適應識別能力。
二是進一步強化監管力度、完善法律法規。相關人士建議,提升監管技術水平,開發AI內容識別技術的監管工具,識別虛假信息并阻斷傳播;建立語料追溯機制,可要求大模型標注數據來源,并明確AI生成內容法律責任主體,提高違法犯罪成本。
成都理工大學文法學院教授張曉彤等建議,完善相關法律,加快推進人工智能治理的專門立法,可借鑒美日等國經驗設立專門管理機構,比如組建“人工智能倫理委員會”,負責技術備案審查、安全評估、倫理監測及責任追究。此外,加強社會引導,提高群眾對大模型生成信息的辨別能力。
三是加強行業自律。受訪人士建議,可推動金融等行業制定大模型應用倫理規范,嚴禁利用AI操縱市場;引導內容平臺擔負起“信息守門人”責任,通過添加AI生成提示性水印,建設謠言庫、權威信源庫和專業審核團隊等方式,加強虛假信息治理。