文|創瞰巴黎
導讀
機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。人工智能技術為什么存在偏見問題?本期帶您了解機器學習算法的運作機制,弄清其本質,找出避免問題的方法。
一覽:
- 機器學習有三大主流方法:有監督學習、無監督學習、半監督學習。
- 機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。
- 算法以歷史數據為基礎發掘規律,以解決當下問題,但容易出現“數據泛化”的問題——總結出過于片面的規律。
- 人工智能的使用也牽涉到權力的分配:數據使用權等倫理問題可能會不斷涌現。
- 民眾應充分利用人工智能技術,以協作的方式實現廣泛賦能。
要想解決人工智能技術存在的偏見問題,我們必須首先了解機器學習算法的運作機制,并弄清其本質。法國CEA-List研究所人工智能和機器學習專業博士后Victor Berger表示:“很多人都認為,所有的問題都能在數據集中通過統計學手段找到答案。”
01 三大主流學習方式
“有監督學習”是機器學習中最簡單,也是最常見的方法。Berger解釋道:“假設一個數據庫中存有動物圖片,那么有監督學習相當于告訴算法:狗的圖片、貓的圖片、雞的圖片對應著‘狗’、‘貓’、‘雞’等名詞。此后一旦給算法某個特定的輸入(圖片),就會得到一個特定的輸出(名詞)。機器翻譯就是典型的有監督學習算法。”
“無監督學習”是第二類算法,也就是說,對于一個給定輸入,不告訴算法現成的輸出。“以上文的數據庫為例,無監督學習指給機器輸入一張張動物圖片,讓算法自主進行統計歸納,從而對輸入進行分類。”
“監督算法的數據集發揮著至關重要的作用。”
第三類算法名為“半監督學習”。Berger稱:“在前兩類學習模式下,代碼能夠讓算法不斷自我改進。但在半監督模式下,算法只能分辨出任務完成與否,并不會得知改進方式。此時,影響算法學習能力的將是環境,以及環境對結果作出的反應。”
在上述三種學習模式中,提供給算法的數據集均發揮著至關重要的作用。Berger強調:“機器學習算法擅長識別規律。”因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。
02 數據泛化
瑞士科創企業Tournesol的聯合創始人Lê Nguyên Hoang是一名數學博士,他在人工智能的普及上做出過許多貢獻。在他看來,“數據泛化”這一現象在機器學習領域無處不在。“縱觀業界和學界,幾乎所有人都將焦點放在算法的設計上,很少會有人關注數據的質量。當我們在訓練算法時,使用了很多歷史數據庫,但其中的數據是否經過了仔細審核?從歷史數據中總結出泛化、片面的規律,是否真正對社會發展有益?”
為了更好地了解數據泛化,Berger分享了一個業界廣為流傳的小故事。“為了杜絕性別偏見,一家公司在使用人工智能篩選簡歷時,抹去了姓名和照片等信息。但隨后他們意識到,‘足球’一詞成為了算法的關注焦點。” 該公司已經是萬般謹慎,但他們沒有預料到,訓練算法時所使用的那些過往簡歷中,很多被招募的男性員工都將足球列為了興趣愛好。所以,在這則故事中,算法不僅沒有削弱性別偏見,反而助長了這一現象。Berger解釋道:“當前有兩種方法可以克服這一挑戰:一、花費精力打造質量更高的數據庫;二、讓算法消除已經形成的偏見。”
但這并不是萬全之策。Lê Nguyên Hoang 稱:“以內容審核為例,數據的研判取決于我們對言論自由的理解,以及對仇恨言論或虛假信息的判斷。可以說,這些問題并沒有明確的、放之四海而皆準的答案。如果問題本身牽涉到了技術之外的因素,那么解決方案也理應如此。”
03 反饋循環
算法可能會導致的反饋循環也引發了人們的討論。Lê Nguyên Hoang指出:“我們需要記住一點——機器學習算法的運作永遠是以目的為導向的,如提升內容曝光率、利潤、點擊率等。”
假設某地區的警察想使用算法來預測最易發生犯罪行為的街區。在Berger看來,算法勢必會基于警方的歷史數據進行預測,找出逮捕人數最多的街區。但這又回到了之前的問題:歷史數據的片面泛化,過度放大過往對未來的預測能力。事實上,算法不僅會對街區的現有治安環境進行定性,還會左右未來該街區的治安決策,如警力增加、視頻監控覆蓋率擴大,從而進一步加劇執法人員和民眾的對立。
“但這一做法可能使人們對激進主義、宗教運動和陰謀論更加深信不疑。”
同樣,當用戶使用社交媒體和娛樂平臺時,算法會基于他們的瀏覽記錄來做相關推薦,以盡可能吸引用戶駐足停留,但這可能會演變為系統大力推送宣揚激進主義、教派對立、陰謀論的內容。Lê Nguyên Hoang正在開發一款名為Tournesol的算法以解決上述問題。Tournesol使用的數據庫采用了開源模式,基于用戶的相互協作建立而成[1]。
04 權力分配
綜上所述,人工智能技術不僅牽涉到科學研究和技術應用,還涉及權力的分配問題。美國機器學習應用開發企業Hugging Face 的哲學研究員和高級倫理學家Giada Pistilli指出:“我們必須辨明算法在訓練、設計和部署等諸多環節可能產生的各種社會和倫理問題。”
問題究竟有哪些?Giada Pistilli稱,這些問題在人工智能技術的發展歷程中隨處可見。“一旦數據存在偏見,模型訓練完畢后便會引發一些倫理方面的思考,比如,相關數據是否會導致刻板印象的產生?特定數據的缺失會帶來何種后果?如果數據庫中含有侵犯了他人知識產權的圖片或數據,那么在使用數據前是否征得了本人的同意?”
但這僅僅是問題的冰山一角。Giada Pistilli 指出:“在算法的開發和部署環節,模型的歸屬、算法設計人員的選取、設計的目的等疑問都有待解答。此外,模型的使用十分耗能,出于減排的考慮,某些模型是否該舍棄?這也間接證明了只有‘財大氣粗’的公司才有能力去投資和使用算法。”
“我們可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”
所幸,前途并非一片黑暗——人工智能完全有潛力變成一種賦能工具。Giada Pistilli是BigScience項目的成員,該項目旨在開發一個開放的語言模型,共有幾千名參與者。在她看來,這樣的項目能夠極大發揮人工智能的益處。“開發這種專注于單一任務的人工智能模型其實更能因地制宜,因為在此過程中,人人皆可參與,并且可以密切監督該模型的發展。向公眾普及這些新技術,并廣邀社會各界參與數據庫的建立,可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”
人類能否自信迎接機器學習的重重挑戰?答案或許需要你來書寫。