文|經緯創投
“歷史剛被創造出來,而世界上只有少數人知道。”在返程飛機上,李飛飛腦子中一直回蕩著這樣一句話。
就在一天前,還在休產假的李飛飛深夜接到一個電話后,便帶著狂躁的思緒和焦灼的問題登上了當天最后一班飛機飛往佛羅倫薩,去見證一個具有歷史意義的時刻——
當時還是多倫多大學研究人員的杰弗里·辛頓(Geoffrey Hinton)及其團隊參加了ImageNet的競賽,使用李飛飛的數據庫來訓練一種名為AlexNet的算法,達到了85%的識別精確率,奪得了ImageNet圖像識別大賽冠軍,也創造了計算機視覺識別領域的世界紀錄。作為ImageNet創始人之一,李飛飛親自趕到現場為辛頓團隊頒獎。
“神經網絡起死回生,比以往任何時候都更龐大、更復雜、更強大。”李飛飛如此興奮的原因,不僅僅是看到辛頓二十多年的研究成果有了回報,而是她看到深度學習重獲新生的希望火苗。
由此,「深度學習革命」拉開帷幕,各大商業公司巨頭敏銳地嗅到了人工智能帶來的商機,蜂擁而至。當時業界的共識是:“沒有ImageNet,就沒有現在的深度學習革命”。因此,李飛飛憑借著她發起的里程碑式的數據庫ImageNet,獲得了“AI教母”的稱號,成為人工智能領域最重要的科學家之一。
曾經改變過歷史的李飛飛,又一次站在人工智能進程中的重要轉折點。不久前,她宣布以“空間智能”為核心,開啟全新創業征程,意欲改變人工智能在現實世界中與人類交互的方式。對于這個創業項目,李飛飛保持了一貫的神秘感:“新的冒險總是在醞釀中,但更重要的是它們如何能真正推動技術向善,為社會帶來正面的影響。”
作為本世紀AI重大歷史時刻的參與者,李飛飛為AI飛躍式發展做了哪些貢獻?在AI寒冬的年代,她如何在一片反對聲中創建人工智能領域早期最重要的數據庫ImageNet?李飛飛決心all in的空間智能,將會把人類和機器人帶到何處?以下,Enjoy:
01 尋找北極星的她,意外推動歷史的車輪
李飛飛的“空間智能”并非空中樓閣。想要搞懂空間智能,大家要先了解她的另一項開創性研究,也是開頭提到的“ImageNet”。
“在寒冬中尋找北極星”,這便是李飛飛學術生涯的開端。上世紀90年代末,計算機領域風頭正盛,李飛飛卻選擇了正值寒冬的人工智能領域。當時,整個人工智能領域陷入研究瓶頸,其中一個需要攻克的難題是:教機器像人一樣識別圖片中的物體。
眾所周知,人類具有快速準確的圖像識別能力,只要看到某些細節就能通過自己的豐富經驗,自動填充其他部分,判斷出這個物體可能是什么。那么,如果想讓機器也做到這一點,是不是需要它們“看”過海量同一類別的圖片即可?李飛飛是這一研究方向的支持者。她認為給機器呈現一個完整的世界,它們會開始嘗試理解這個世界。
但她深入這一領域后,發現學術圈存在一個問題:大家都在苦心孤詣地研究更好的算法制定決策,卻往往忽略數據。“如果算法使用的數據無法反映真實世界的狀況,即便是最好的算法也無濟于事。”
于是,她決心創建數據庫,還確定了一個大膽目標,為每個物品類別搜集1000張不同的照片——1000張不同的小提琴照片、1000張不同的德國牧羊犬照片、1000張不同的抱枕照片,直到涵蓋全部2.2萬個類別,也就是一共需要大約2000萬張圖片。但這個數字只是最終成品數據庫的情況。研究人員可能需要從數億張照片,甚至10億張照片中篩選,才能達到目標。
在她看來,ImageNet的使命是在每張圖片中嵌入純粹的人類感知,以期在整個圖像集上訓練出的計算機視覺模型能夠展現出類似人類的智慧。使用機器可能會削弱這一目標。
但這項工作完全靠人標注,工程量浩大。按照既定的速度,ImageNet的完工需要整整19年的時間。當時,同事都不看好這個項目,李飛飛導師的導師,即李飛飛的“師爺”吉騰德拉委婉地提醒她:“科研的訣竅是跟隨你的領域一起成長,不要太超前。”也有資深同事勸誡她,如果你專注做這個項目,可能申請終身教授職稱都會有問題。那段時間,李飛飛聽到的勸阻之聲已經多得夠她用一輩子了(可能下輩子也夠了)。
沒有充足研究經費、沒有足夠的幫手,但李飛飛團隊最后依靠亞馬遜眾包平臺,解決了人工標注的龐大工作量。2009年,包含320萬張圖片的ImageNet數據集誕生。有了圖片數據集,就可以在此基礎上訓練算法,讓計算機提升識別能力。
但320萬的規模還是太少了。為了讓數據集不斷擴充,李飛飛舉辦圖片識別大賽,參賽者自帶算法識別數據集中的圖片,準確率最高者獲勝。但深度學習路線在當時并不是主流,ImageNet只能默默“掛靠”在歐洲知名賽事下面,才能勉強湊夠參賽人數。而后為了提升ImageNet的名氣,李飛飛舉辦了ImageNet 大規模視覺識別挑戰賽 (ILSVRC),但依舊收效甚微。
2012年成為了一個至關重要的轉折點。這年9 月30 日,一個名為 AlexNet 的算法成為了新一屆ImageNet 大規模視覺識別挑戰賽的冠軍。而AlexNet采用的算法是計算機視覺領域的老古董——神經網絡算法。到2017年,即比賽的最后一年,計算機識別圖像中物體的錯誤率已從2012年的15%降至3%以下。至少從某種程度上看,計算機已經變得比人類更善于觀察。
ImageNet推動了深度學習和計算機視覺的快速發展,為人工智能的后續突破鋪平了道路——它是自動駕駛汽車、面部識別、可以識別物體(并告訴你它們是否出售)的手機攝像頭有突破性進展的根源。
同時,作為ImageNet的創始人,李飛飛開放了ImageNet數據庫,免費提供給全世界的科研團隊用于計算機圖片識別訓練,這就引發了人工智能的井噴式發展,讓AI從實驗室走到了大眾的視野。由此,一種被稱為神經網絡的算法,一種被稱為圖形處理單元的專用硬件,以及龐大的數據集,如ImageNet,這三者的結合共同開啟了現代人工智能的新紀元。
02 如何讓機器人在真實世界行動自如?
ImageNet的誕生是實現真正機器智能的第一步,它讓計算機可以直接辨認出物品和人。但機器能看見遠遠是不夠的,真正的“看”是為了行動和學習。
“自然界通過「空間智能」創造了一個良性循環,將視覺和行動聯系起來。當人類處在三維空間和時間中采取行動時,可以通過觀察來學習如何做得更好。若想推動人工智能超越其現有的界限,我們所追求的不再是僅限于視覺識別和語言交流的智能體。我們渴望的是那些能夠行動的人工智能,能夠主動介入并與我們生活的世界互動。”這便是“AI教母”李飛飛決定創業的原因之一。
在溫哥華TED大會的演講中,李飛飛提到,當前最先進的算法已經能夠合理推斷圖像和文字在三維環境中的呈現方式,并據此作出行動。這種算法所依托的便是所謂的空間智能。“大自然中存在著一種視覺與行動之間的良性互動,而空間智能正是這種互動的核心。”李飛飛再一次強調。
為了讓大家更好理解空間智能這一概念,李飛飛在演講中借用了一張極具啟發性的圖片:一只貓正伸出爪子,意圖將玻璃杯推向桌子的邊緣。
當人類看見這一照片后,可以在極短時間內對玻璃杯的幾何構型、它在三維空間中的位置,以及它與桌子、貓和其他物體的相互關系進行綜合評估的能力。在此基礎上,大腦能夠預測接下來可能發生的情境,并采取相應措施來預防潛在的風險。譬如,人類可能會迅速伸手去接住可能會掉下來的杯子。而李飛飛的目標是賦予AI類似的能力,訓練計算機和機器人在3D世界中行動自如。
因此,空間智能是讓機器可以像人類一樣能夠高效地處理復雜的視覺數據,精準地作出預測,并基于這些預測迅速采取行動。總之,空間智能是比傳統視覺識別更高級的視覺智能。
不過,“空間智能”需要基于世界數據、多模態數據的人工智能模型架構,應對復雜多變的物體識別、場景感知等挑戰。因此,模型需要大量高質量標注數據進行訓練,對各種噪聲、遮擋等情況保持魯棒避免誤識別,進行圖像、文本等多模態學習等。
可見,想要AI將視覺化為洞察,將看見轉為理解,最終指導行動,這是一件充滿挑戰的科研探索。而李飛飛卻將其視為“解決人工智能難題的關鍵拼圖”,并將空間智能看作下一個指引她的“北極星”。當然,李飛飛為了攻克這一技術難關,也做足了準備。
早在2022年,李飛飛在《尋找計算機視覺的北極星》論文指出,在ImageNet和目標識別取得成功之后,計算機視覺領域還有許多令人興奮的研究方向和挑戰,比如具身智能、視覺推理、場景理解等,這三個便是CV(計算機視覺)發展的三顆“北極星”,也有可能成為“空間智能”發展三大重要基石。這里提到的「北極星」指的是研究人員專注于解決一個科學學科中的關鍵問題,可以激發研究熱情并取得突破性的進展。
用空間智能和語言智能為具身智能賦能,將開啟令人興奮的可能性。在具身智能領域,李飛飛帶領的研究團隊曾在2023年推出一項新成果VoxPoser,利用大型語言模型(LLMs)和視覺語言模型(VLMs)來驅動機器人。
在大模型的支持下,機器人不僅能夠與環境有效地交互,而且能夠在無需額外數據和訓練的情況下完成各種任務,如繞過障礙,開瓶子、按開關、拔充電線等。
為了解決真實場景中噪聲和物體遮擋等問題,今年1月份,李飛飛公布了一種名為 Wild2Avatar 的新模型,該模型即使在有遮擋的情況下仍然能夠完整、高保真地渲染人體。大多數研究都是在理想狀態下渲染3D人體,需要清晰、無遮擋的場景,但在真實場景下常常會有障礙物可能會阻擋攝像機的視線。
Wild2Avatar提出了遮擋感知場景參數化,用于將場景解耦為三個部分——遮擋、人物和背景。同時,研究還設計了廣泛的目標函數,以幫助強制將人體與遮擋和背景分離,并確保人體模型的完整性。
想要教會機器人在真正復雜的環境中觀察和行動,還需要創造比真實世界更多的數據。今年3月,李飛飛參與的一項研究工作推出了 BEHAVIOR-1K,這是一個以人為中心的機器人的綜合模擬基準。BEHAVIOR-1K 包括兩個組成部分。第一個是 1000 種日常活動的定義,基于 50 個場景(房屋、花園、餐館、辦公室等),有 9000 多個帶有豐富物理和語義屬性注釋的對象。第二個是 OMNIGIBSON,這是一種新穎的模擬環境,通過逼真的物理模擬和剛體、可變形體和液體的渲染來支持這些活動。
這些都是為了讓機器人觀察、學習、行動,那么,機器人如何實踐中不斷提高其觀察能力呢?這是涉及到一個視覺推理的概念。視覺推理包括三大類:三維關系理解,即理解二維場景中的三維空間關系,如理解“將左邊的金屬杯拿回來”的指令;社交智能,即理解人物間的關系和意圖,如判斷人物間的親情關系或預測人物行為,一個女人摟著腿上的小女孩,兩人可能是母女關系,一個男人打開冰箱,他可能是餓了;認知功能,計算機視覺不僅是感知,更是認知,需要理解場景的意義和背后的推理過程。當然,執行這些指令需要比視覺更多的東西,但視覺是其中的重要組成部分。
要知道,大自然歷經數百萬年的進化才賦予了生物空間智能。生物依賴于眼睛接收光線,在視網膜上形成二維圖像,隨后大腦將這些數據轉化為三維信息。那么機器在這方面有何進展?
不久前,谷歌的一組研究人員才開發出一種算法,能夠通過拍攝一系列照片,將它們轉化為三維空間模型;而斯坦福大學的教授和學生也開發了一種算法,僅憑一張圖像便能生成無限逼真、可供觀眾探索的三維空間;李飛飛與學生創造了一種算法,能夠將輸入的二維圖像轉換成三維形狀。一步一步地,機器人開始理解真實世界,而這或許就是李飛飛想要實現的目標。
正如李飛飛所感慨的那般,“隨著空間智能的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習,這是任何需要理解和與3D世界互動的具身智能系統的關鍵組成部分。”如果AI能夠精確理解三維物理世界的規則,并借助像人一樣靈活的具身智能完成動作。那么,空間智能則可以看作是AI領域的又一次“大革命”,也是一個讓計算機和機器人釋放潛能的寒武紀大爆發開端。
03 她看見的世界和她改變的世界
身處男性占主導地位的AI領域,李飛飛如何一步步成為世界級頂尖科學家?
1976年,李飛飛出生在一個知識分子家庭,曾就讀于重點中學成都七中。李飛飛在傳記《我看見的世界:李飛飛自傳》中直言,父母的性格各自有一部分對她產生影響。
父親是工程師,性格天真散漫。李飛飛出生那天,父親姍姍來遲,只因他一時興起,跑到公園觀鳥,忘了時間。給女兒起名“飛飛”,也是觀鳥時想的;而母親熱愛文學,會帶著女兒讀魯迅的作品以及波伏娃《第二性》、海明威《老人與海》等西方經典。
在16歲那年,她跟隨父母舉家移民到了美國,并在美國的新澤西州定居。年少時期,她便癡迷物理,連騎自行車轉彎時都思考加速度和角動量的變化。到了美國,李飛飛因語言不通成績不佳,但數學和物理兩門課受到的影響很小。
李飛飛對數學和物理的熱愛也成為了人生第一個轉折點。因為擔心學費太貴,李飛飛大多申請的是公立和社區大學,但為了內心的儀式感才申請了美國頂級名校普林斯頓大學。沒想到,普林斯頓大學看中了SAT(類似美國高考)數學考了滿分的李飛飛,主動伸出橄欖枝為其提供全額獎學金。
她在回憶錄中這樣描述自己當時的大學生活:“對我來說當時的生活就像‘雙城記’——帕西帕尼和普林斯頓。周一到周五,我在普林斯度學物理。周末我回到帕西帕尼給家里的干洗店幫忙,接待那些來取送衣物干洗的人。”
1999年,李飛飛以優異成績獲得普林斯頓大學物理學學士學位。大學畢業后,李飛飛面臨生活壓力和學術抱負的抉擇,陷入了兩難境地——母親身體狀態欠佳,家庭債務更讓她壓力倍增,而華爾街巨頭提供的高薪、福利、醫療可以幫助家庭解決困境,但需要她放棄科學。
當6位數年薪和健康保險擺在眼前,母親卻阻止了李飛飛的決定。李飛飛曾在自傳復現了那段拯救了她人生的話:
“飛飛,我們走到這一步,不是為了讓你放棄。我了解我的女兒,她不是一個咨詢顧問,她是一個科學家。”
最終,她選擇前往西藏進行藏藥研究,以“藏醫藥學與西醫學醫理的比較”作為課題,獲得了普林斯頓的Martin Dale1953獎學金,也為自己的研究拿到了經費。完成一年的研究,李飛飛回到校園內繼續自己的學術生涯,相繼在加州理工獲得了碩士和博士學位。她成為加州大學首個人工智能和計算神經科學方向的博士,開始了針對圖像識別技術的研究,由此開啟了她與AI的不解之緣。
從選擇改進和擴展訓練AI的數據這一冷門方向開始,李飛飛無意間敲開了AI世界的大門——作為現代人工智能的關鍵催化劑 ImageNet 創建者,李飛飛一躍成為了世界頂尖的華裔女AI專家;她曾在33歲便獲得斯坦福終身副教授職稱,成為首位擔任斯坦福大學人工智能實驗室主任的女性;她是美國三院院士、前谷歌副總裁、谷歌智能云及人工智能及機器學習首席科學家……這些耀眼的頭銜,都離不開她一系列開創性成就。
如今李飛飛選擇“清零”,開啟創業的新征程,尋找下一個改變人類歷史的“北極星”。從 2024 年 1 月開始,在 LinkedIn 上,她將自己目前的工作列為“新手”和“新事物”。
曾經推動歷史的李飛飛成為創業新手,正在試圖創造一個新事物、新未來——在宇宙誕生的初始階段,無盡的黑暗籠罩著一切,直至首批生物逐步演化出了視力。那一刻,生命的光輝得以綻放。在李飛飛看來,空間智能不僅僅是讓AI看清這個世界,更能使AI超越當前能力,與人類和3D世界互動,提高生產力和增強人性。也許,一個類似的轉折點即將在計算機與機器人領域上演。
提到李飛飛,總是不免要提起“人工智能教母”這一稱號,而此稱號源自「人工智能教父」稱謂,通常用來致敬三位在計算機科學領域取得卓越成就的開拓者 —— 杰弗里 辛頓(Geoffrey Hinton)、約書亞 本吉奧(Yoshua Bengio)和楊立昆(Yann LeCun)。他們因在 AI 技術方面的突破于 2018 年獲得計算機界的最高獎項——圖靈獎。
對此,李飛飛展現出開放的態度:“我從未自詡為任何事物的教母,但當這個稱號賦予我時,我確實對其進行了反思。隨后,我意識到,既然男性可以被稱為各種領域的教父,那么女性也完全可以被譽為教母。因此,我欣然接受了這個榮譽。”
她的出現讓科學領域多了一抹亮色,不再只有“帽衫男”這一典型形象。更為關鍵的是,李飛飛的求學、科研的經歷,能代表很多覺得自己在AI領域沒有發言權或找不到認同感的人——包括移民、年輕女性、各行各業的人,他們不一定是典型的硅谷AI人士。李飛飛的故事可以傳達一個聲音,給更多人帶來更多力量。
李飛飛身體力行地為更多人發聲。“盡管我們看到越來越多的女性和不同背景的人進入科技和人工智能領域,但我們也看到,他們的聲音往往被忽視或低估。”因此,她希望能成為一個催化劑,激勵更多女性站上科技的舞臺,共同塑造這個行業的多元未來。
References:
1.TED:With spatial intelligence, AI will understand the real world
2.quantamagazine:By Exploring Virtual Worlds, AI Learns in New Ways
3.Stanford University:BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation
4.USNews:Exclusive-Stanford AI Leader Fei-Fei Li Building 'Spatial Intelligence' Startup
5.Wired:Fei-Fei Li's Quest to Make AI Better for Humanity