簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

激化偏見還是廣泛賦能?人工智能有答案

掃一掃下載界面新聞APP

激化偏見還是廣泛賦能?人工智能有答案

即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。

文|創瞰巴黎

導讀

機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。人工智能技術為什么存在偏見問題?本期帶您了解機器學習算法的運作機制,弄清其本質,找出避免問題的方法。

一覽:

  • 機器學習有三大主流方法:有監督學習、無監督學習、半監督學習。
  • 機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。
  • 算法以歷史數據為基礎發掘規律,以解決當下問題,但容易出現“數據泛化”的問題——總結出過于片面的規律。
  • 人工智能的使用也牽涉到權力的分配:數據使用權等倫理問題可能會不斷涌現。
  • 民眾應充分利用人工智能技術,以協作的方式實現廣泛賦能。

要想解決人工智能技術存在的偏見問題,我們必須首先了解機器學習算法的運作機制,并弄清其本質。法國CEA-List研究所人工智能和機器學習專業博士后Victor Berger表示:“很多人都認為,所有的問題都能在數據集中通過統計學手段找到答案。”

01 三大主流學習方式

“有監督學習”是機器學習中最簡單,也是最常見的方法。Berger解釋道:“假設一個數據庫中存有動物圖片,那么有監督學習相當于告訴算法:狗的圖片、貓的圖片、雞的圖片對應著‘狗’、‘貓’、‘雞’等名詞。此后一旦給算法某個特定的輸入(圖片),就會得到一個特定的輸出(名詞)。機器翻譯就是典型的有監督學習算法。”

“無監督學習”是第二類算法,也就是說,對于一個給定輸入,不告訴算法現成的輸出。“以上文的數據庫為例,無監督學習指給機器輸入一張張動物圖片,讓算法自主進行統計歸納,從而對輸入進行分類。”

“監督算法的數據集發揮著至關重要的作用。”

第三類算法名為“半監督學習”。Berger稱:“在前兩類學習模式下,代碼能夠讓算法不斷自我改進。但在半監督模式下,算法只能分辨出任務完成與否,并不會得知改進方式。此時,影響算法學習能力的將是環境,以及環境對結果作出的反應。”

在上述三種學習模式中,提供給算法的數據集均發揮著至關重要的作用。Berger強調:“機器學習算法擅長識別規律。”因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。

02 數據泛化

瑞士科創企業Tournesol的聯合創始人Lê Nguyên Hoang是一名數學博士,他在人工智能的普及上做出過許多貢獻。在他看來,“數據泛化”這一現象在機器學習領域無處不在。“縱觀業界和學界,幾乎所有人都將焦點放在算法的設計上,很少會有人關注數據的質量。當我們在訓練算法時,使用了很多歷史數據庫,但其中的數據是否經過了仔細審核?從歷史數據中總結出泛化、片面的規律,是否真正對社會發展有益?”

為了更好地了解數據泛化,Berger分享了一個業界廣為流傳的小故事。“為了杜絕性別偏見,一家公司在使用人工智能篩選簡歷時,抹去了姓名和照片等信息。但隨后他們意識到,‘足球’一詞成為了算法的關注焦點。” 該公司已經是萬般謹慎,但他們沒有預料到,訓練算法時所使用的那些過往簡歷中,很多被招募的男性員工都將足球列為了興趣愛好。所以,在這則故事中,算法不僅沒有削弱性別偏見,反而助長了這一現象。Berger解釋道:“當前有兩種方法可以克服這一挑戰:一、花費精力打造質量更高的數據庫;二、讓算法消除已經形成的偏見。”

但這并不是萬全之策。Lê Nguyên Hoang 稱:“以內容審核為例,數據的研判取決于我們對言論自由的理解,以及對仇恨言論或虛假信息的判斷。可以說,這些問題并沒有明確的、放之四海而皆準的答案。如果問題本身牽涉到了技術之外的因素,那么解決方案也理應如此。”

03 反饋循環

算法可能會導致的反饋循環也引發了人們的討論。Lê Nguyên Hoang指出:“我們需要記住一點——機器學習算法的運作永遠是以目的為導向的,如提升內容曝光率、利潤、點擊率等。”

假設某地區的警察想使用算法來預測最易發生犯罪行為的街區。在Berger看來,算法勢必會基于警方的歷史數據進行預測,找出逮捕人數最多的街區。但這又回到了之前的問題:歷史數據的片面泛化,過度放大過往對未來的預測能力。事實上,算法不僅會對街區的現有治安環境進行定性,還會左右未來該街區的治安決策,如警力增加、視頻監控覆蓋率擴大,從而進一步加劇執法人員和民眾的對立。

“但這一做法可能使人們對激進主義、宗教運動和陰謀論更加深信不疑。”

同樣,當用戶使用社交媒體和娛樂平臺時,算法會基于他們的瀏覽記錄來做相關推薦,以盡可能吸引用戶駐足停留,但這可能會演變為系統大力推送宣揚激進主義、教派對立、陰謀論的內容。Lê Nguyên Hoang正在開發一款名為Tournesol的算法以解決上述問題。Tournesol使用的數據庫采用了開源模式,基于用戶的相互協作建立而成[1]。

04 權力分配

綜上所述,人工智能技術不僅牽涉到科學研究和技術應用,還涉及權力的分配問題。美國機器學習應用開發企業Hugging Face 的哲學研究員和高級倫理學家Giada Pistilli指出:“我們必須辨明算法在訓練、設計和部署等諸多環節可能產生的各種社會和倫理問題。”

問題究竟有哪些?Giada Pistilli稱,這些問題在人工智能技術的發展歷程中隨處可見。“一旦數據存在偏見,模型訓練完畢后便會引發一些倫理方面的思考,比如,相關數據是否會導致刻板印象的產生?特定數據的缺失會帶來何種后果?如果數據庫中含有侵犯了他人知識產權的圖片或數據,那么在使用數據前是否征得了本人的同意?”

但這僅僅是問題的冰山一角。Giada Pistilli 指出:“在算法的開發和部署環節,模型的歸屬、算法設計人員的選取、設計的目的等疑問都有待解答。此外,模型的使用十分耗能,出于減排的考慮,某些模型是否該舍棄?這也間接證明了只有‘財大氣粗’的公司才有能力去投資和使用算法。”

“我們可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”

所幸,前途并非一片黑暗——人工智能完全有潛力變成一種賦能工具。Giada Pistilli是BigScience項目的成員,該項目旨在開發一個開放的語言模型,共有幾千名參與者。在她看來,這樣的項目能夠極大發揮人工智能的益處。“開發這種專注于單一任務的人工智能模型其實更能因地制宜,因為在此過程中,人人皆可參與,并且可以密切監督該模型的發展。向公眾普及這些新技術,并廣邀社會各界參與數據庫的建立,可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”

人類能否自信迎接機器學習的重重挑戰?答案或許需要你來書寫。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

激化偏見還是廣泛賦能?人工智能有答案

即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。

文|創瞰巴黎

導讀

機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。人工智能技術為什么存在偏見問題?本期帶您了解機器學習算法的運作機制,弄清其本質,找出避免問題的方法。

一覽:

  • 機器學習有三大主流方法:有監督學習、無監督學習、半監督學習。
  • 機器學習算法能夠識別規律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。
  • 算法以歷史數據為基礎發掘規律,以解決當下問題,但容易出現“數據泛化”的問題——總結出過于片面的規律。
  • 人工智能的使用也牽涉到權力的分配:數據使用權等倫理問題可能會不斷涌現。
  • 民眾應充分利用人工智能技術,以協作的方式實現廣泛賦能。

要想解決人工智能技術存在的偏見問題,我們必須首先了解機器學習算法的運作機制,并弄清其本質。法國CEA-List研究所人工智能和機器學習專業博士后Victor Berger表示:“很多人都認為,所有的問題都能在數據集中通過統計學手段找到答案。”

01 三大主流學習方式

“有監督學習”是機器學習中最簡單,也是最常見的方法。Berger解釋道:“假設一個數據庫中存有動物圖片,那么有監督學習相當于告訴算法:狗的圖片、貓的圖片、雞的圖片對應著‘狗’、‘貓’、‘雞’等名詞。此后一旦給算法某個特定的輸入(圖片),就會得到一個特定的輸出(名詞)。機器翻譯就是典型的有監督學習算法。”

“無監督學習”是第二類算法,也就是說,對于一個給定輸入,不告訴算法現成的輸出。“以上文的數據庫為例,無監督學習指給機器輸入一張張動物圖片,讓算法自主進行統計歸納,從而對輸入進行分類。”

“監督算法的數據集發揮著至關重要的作用。”

第三類算法名為“半監督學習”。Berger稱:“在前兩類學習模式下,代碼能夠讓算法不斷自我改進。但在半監督模式下,算法只能分辨出任務完成與否,并不會得知改進方式。此時,影響算法學習能力的將是環境,以及環境對結果作出的反應。”

在上述三種學習模式中,提供給算法的數據集均發揮著至關重要的作用。Berger強調:“機器學習算法擅長識別規律。”因此,即便是最不起眼的偏見,也會影響到整個算法,最終導致偏見的延續和放大。

02 數據泛化

瑞士科創企業Tournesol的聯合創始人Lê Nguyên Hoang是一名數學博士,他在人工智能的普及上做出過許多貢獻。在他看來,“數據泛化”這一現象在機器學習領域無處不在。“縱觀業界和學界,幾乎所有人都將焦點放在算法的設計上,很少會有人關注數據的質量。當我們在訓練算法時,使用了很多歷史數據庫,但其中的數據是否經過了仔細審核?從歷史數據中總結出泛化、片面的規律,是否真正對社會發展有益?”

為了更好地了解數據泛化,Berger分享了一個業界廣為流傳的小故事。“為了杜絕性別偏見,一家公司在使用人工智能篩選簡歷時,抹去了姓名和照片等信息。但隨后他們意識到,‘足球’一詞成為了算法的關注焦點。” 該公司已經是萬般謹慎,但他們沒有預料到,訓練算法時所使用的那些過往簡歷中,很多被招募的男性員工都將足球列為了興趣愛好。所以,在這則故事中,算法不僅沒有削弱性別偏見,反而助長了這一現象。Berger解釋道:“當前有兩種方法可以克服這一挑戰:一、花費精力打造質量更高的數據庫;二、讓算法消除已經形成的偏見。”

但這并不是萬全之策。Lê Nguyên Hoang 稱:“以內容審核為例,數據的研判取決于我們對言論自由的理解,以及對仇恨言論或虛假信息的判斷。可以說,這些問題并沒有明確的、放之四海而皆準的答案。如果問題本身牽涉到了技術之外的因素,那么解決方案也理應如此。”

03 反饋循環

算法可能會導致的反饋循環也引發了人們的討論。Lê Nguyên Hoang指出:“我們需要記住一點——機器學習算法的運作永遠是以目的為導向的,如提升內容曝光率、利潤、點擊率等。”

假設某地區的警察想使用算法來預測最易發生犯罪行為的街區。在Berger看來,算法勢必會基于警方的歷史數據進行預測,找出逮捕人數最多的街區。但這又回到了之前的問題:歷史數據的片面泛化,過度放大過往對未來的預測能力。事實上,算法不僅會對街區的現有治安環境進行定性,還會左右未來該街區的治安決策,如警力增加、視頻監控覆蓋率擴大,從而進一步加劇執法人員和民眾的對立。

“但這一做法可能使人們對激進主義、宗教運動和陰謀論更加深信不疑。”

同樣,當用戶使用社交媒體和娛樂平臺時,算法會基于他們的瀏覽記錄來做相關推薦,以盡可能吸引用戶駐足停留,但這可能會演變為系統大力推送宣揚激進主義、教派對立、陰謀論的內容。Lê Nguyên Hoang正在開發一款名為Tournesol的算法以解決上述問題。Tournesol使用的數據庫采用了開源模式,基于用戶的相互協作建立而成[1]。

04 權力分配

綜上所述,人工智能技術不僅牽涉到科學研究和技術應用,還涉及權力的分配問題。美國機器學習應用開發企業Hugging Face 的哲學研究員和高級倫理學家Giada Pistilli指出:“我們必須辨明算法在訓練、設計和部署等諸多環節可能產生的各種社會和倫理問題。”

問題究竟有哪些?Giada Pistilli稱,這些問題在人工智能技術的發展歷程中隨處可見。“一旦數據存在偏見,模型訓練完畢后便會引發一些倫理方面的思考,比如,相關數據是否會導致刻板印象的產生?特定數據的缺失會帶來何種后果?如果數據庫中含有侵犯了他人知識產權的圖片或數據,那么在使用數據前是否征得了本人的同意?”

但這僅僅是問題的冰山一角。Giada Pistilli 指出:“在算法的開發和部署環節,模型的歸屬、算法設計人員的選取、設計的目的等疑問都有待解答。此外,模型的使用十分耗能,出于減排的考慮,某些模型是否該舍棄?這也間接證明了只有‘財大氣粗’的公司才有能力去投資和使用算法。”

“我們可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”

所幸,前途并非一片黑暗——人工智能完全有潛力變成一種賦能工具。Giada Pistilli是BigScience項目的成員,該項目旨在開發一個開放的語言模型,共有幾千名參與者。在她看來,這樣的項目能夠極大發揮人工智能的益處。“開發這種專注于單一任務的人工智能模型其實更能因地制宜,因為在此過程中,人人皆可參與,并且可以密切監督該模型的發展。向公眾普及這些新技術,并廣邀社會各界參與數據庫的建立,可以將人工智能打造成有效的賦能工具,為各類群體謀福祉。”

人類能否自信迎接機器學習的重重挑戰?答案或許需要你來書寫。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 瓮安县| 常山县| 崇义县| 凌海市| 思南县| 陇西县| 射阳县| 全南县| 杭锦后旗| 宁津县| 白朗县| 岐山县| 永宁县| 隆德县| 桑植县| 海阳市| 柳河县| 大港区| 彭阳县| 竹山县| 南丰县| 方正县| 新竹市| 锦屏县| 嘉祥县| 长春市| 丹凤县| 信阳市| 陈巴尔虎旗| 兴仁县| 武乡县| 吴旗县| 阳泉市| 建阳市| 永登县| 扶余县| 卢湾区| 出国| 平顶山市| 祁连县| 庆元县|