界面新聞記者 | 黃景源
界面新聞編輯 | 彭朋
截至2023年底,國內已完成備案的生成式人工智能服務達60余款。人工智能大模型在解放生產力、提高生產效率的同時也帶來了一系列問題,例如隱私信息泄漏、版權歸屬糾紛、內容真實性與合規性等,如何應對隨之而來的安全、治理問題?
9月9日,2024年國家網絡安全宣傳周上海地區活動拉開帷幕,在當日舉行的主論壇現場,教育部長江學者、復旦大學計算機科學技術學院院長楊珉圍繞“AI大模型安全評測與治理”,介紹了人工智能系統安全治理領域的研究成果。
楊珉指出,ChatGPT等通用大模型正成為大家日常生活中頻繁使用的工具,并逐步向具身智能體進化,在可預見的將來會出現AI社會,很多人工智能體會互相影響、協同工作。這種技術演變的趨勢背后,大模型生成內容的安全風險會逐漸外溢,進而形成物理世界的風險,如何動態、持續地監測通用大模型的安全水位,是學界、企業界、政府部門必須共同面對的重大挑戰。
“當前的安全技術遠遠滯后于的AI技術發展的整體速度。”楊珉表示,其中一個技術是基于個人的技巧發現安全問題,即誘導問題,它的特點是自動化程度低、成本高昂。楊珉及團隊一直深耕于此,希望尋找到一個通用的普適性的測試集,客觀地檢視當前大模型的安全合規能力。目前部分技術已在百度、阿里、華為落地應用。
此外,楊珉團隊還利用語言學中“轉換生成語法”的原理,建設了評測自動化、測試覆蓋率高和風險發現能力強的測評平臺。基于此,楊珉帶領團隊在今年6月發布第一代測試集,測試的維度包含了歧視性內容、商業違法違規、侵犯他人權益以及內容不準確不科學等31個子類。
楊珉表示, 未來將持續公布這種動態的測評結果,呈現產業之間在能力上的差異性,希望能助力整個行業生態的健康發展。
上海人工智能實驗室綜合管理部、AI治理負責人王迎春總結指出,大模型的安全問題包括國家安全、行業安全、社會安全以及人工智能可控性等極端風險。應對路徑一是治理政策和規則,二是測評等技術路徑。
《人工智能安全治理框架》1.0版指出,人工智能系統設計、研發、訓練、測試、部署、使用、維護等生命周期各環節都面臨安全風險,既面臨自身技術缺陷、不足帶來的風險,也面臨不當使用、濫用甚至惡意利用帶來的安全風險。
例如,以深度學習為代表的人工智能算法內部運行邏輯復雜,推理過程屬黑灰盒模式,可能導致輸出結果難以預測和確切歸因,如有異常難以快速修正和溯源追責。
王迎春指出,隨著模型能力的提升,執行的任務更加復雜,對其的監督能力已非人力能及,需要開發出更多新的技術,將監督信號設計到模型當中,其中就包括上述自動化紅隊測試等。
他預言,下一代的大模型發展應該是數字和物理融合的模型,會帶來新的安全風險問題,需要提前進行技術儲備,甚至在研發模型當中就要做技術的研究。王迎春認為,國內對于大模型安全的應對比較零散,不體系化,政府要構建人工智能安全技術體系圖,有助于有關部門包括企業布局相應技術研究,例如模型評測技術、模型內生安全技術等。
事實上,針對模型算法安全、數據安全和系統安全等內生安全風險和網絡域、現實域、認知域、倫理域等應用安全風險,剛剛發布的《人工智能安全治理框架》1.0版提出相應技術應對和綜合防治措施,以及人工智能安全開發應用指引,為促進人工智能健康發展和規范應用,提供了基礎性、框架性技術指南。
針對模型算法、訓練數據、算力設施、產品服務、應用場景,上述框架提出通過安全軟件開發、數據質量提升、安全建設運維、測評監測加固等技術手段提升人工智能產品及應用的安全性、公平性、可靠性、魯棒性人工智能安全治理框架的措施。