文丨產業象限 錢江
編輯丨山茶
3月13日,一則2分34秒的人形機器人視頻引爆了網絡,讓人驚呼具身智能的時代提前到來了。
視頻內容是美國人形機器人公司Figure的產品演示實景拍攝,視頻中,工作人員向機器人詢問“我能吃點東西嗎”,機器人遲疑了幾秒,然后熟練地將蘋果遞給了工作人員。
▲圖源Figure
相信許多人看到這個畫面,都會有一種不真實的感受,似乎置身科幻之中。
為了將大家拉回現實,Figure創始人Brett Adcock還在X上特意強調,視頻是以1.0倍速連續拍攝的,機器人沒有遠程操作,所有動作和反饋都是完全基于深度學習自主完成的。
顯然,隨著Figure這則視頻的發布,人形機器人又完成一個關鍵突破。
但問題也隨之而來,為什么會是Figure?
要知道,Figure成立于2022年,發展時間距今不過2年。作為對比,世界上其他鼎鼎大名的人形機器人公司,特斯拉投入人形機器人已近3年,最近上市的優必選做了12年,波士頓動力更是做了21年。
那么,為何拿起“蘋果”的第一臺人形機器人是Figure?Figure是如何做到僅用兩年的時間,就引領具身智能的前沿發展的?它為何會成功,又面臨怎樣的挑戰?
驚艷的只是“智能”
雖然Figure展現了人形機器人無與倫比的交互能力,但我們仍然需要意識到的是,這并不代表真正的具身智能已經實現了,或者如Demo視頻中展現的人形機器人就即將進入千家萬戶。
原因很簡單,首先Demo視頻演示的只是一個固定場景,而機器人真正進入人類生活和工作,還需要學會成千上萬個類似的場景,這是一個從0到1,和從1到100的過程。
做一個簡單的舉例,就像自動駕駛第一輛車能夠在測試道路上實現直線、轉彎、超車變道等場景的自動駕駛,但并不等于自動駕駛車輛就有了上路行駛的能力。
就自動駕駛而言,早在20世紀60年,卡內基梅隆大學的研究人員依靠計算機視覺和人工智能開發的自動駕駛汽車,就已經可以在高速公路上以每小時20英里的速度行駛了。但直到60年后的今天,L5級別的自動駕駛仍然遙遙無期。
其次在Demo視頻中,Figure 01并沒有移動,它只是站在桌子面前,整個交互過程考驗的只是它的意圖識別、人機交互,以及上肢的操作能力。
簡單來說,這個視頻展示的真正厲害的點在于Figure01的軟件能力,即其內部融合的OpenAI大模型大腦的部分,以及Figure01自己的,可以將OpenAI大模型能力與機器人本體(指機器人機械部分)進行翻譯和交互智能系統。
Brett Adcock將這套系統稱為“端到端”的神經網絡,其工作流程大致為,OpenAI的大模型作為大腦,提供視覺推理和語言理解(其中可能包括Sora和GPT-4的能力);Figure01神經網絡作為小腦,根據OpenAI的大模型的判斷做出一系列快速、低級、靈巧的機器人動作。
而對于人形機器人的考驗,軟件交互能力只是其中一部分,另一部分在于其本體的機械能力,比如如何在行走中保持平衡,各個機械部件的傳動能力,如何讓動作變得自然平穩,如何控制力度和精度等等。
而這些,需要考驗人形機器人公司軟件和硬件的協同開發能力,需要考驗整個人形機器人供應鏈上下游的共同開發能力。而供應鏈也是目前人形機器人面臨的最大挑戰之一,其復雜程度不亞于當前的汽車產業鏈,但與汽車產業鏈發展距今130多年相比,人形機器人的產業鏈還處于“一張白紙”的狀態。
Brett Adcock也同樣認為,目前人形機器人最大的難題在供應鏈,這一點我們后面會詳細展開。
當然,Figure在機器人本體上也并非全無成績。事實上,它正在以飛快的速度前進。
這幾年,人形機器人公司賽道上的選手有很多,Figure01的速度格外扎眼,它只用了1年時間就打破了機器人行走紀錄,而特斯拉花了15個月、波士頓花了21年。
▲圖:X@Brett Adcock
除此之外,資本市場的青睞也給了它更多的推力。
今年2月,Brett Adcock公布Figure獲得6.75億美金融資,其投資團隊震動了半個硅谷,亞馬遜創始人貝索斯,以及微軟、英偉達、OpenAI都來捧場。
隨后,Brett Adcock也公布了一張公司職位申請數量增長圖,來顯示Figure的受歡迎程度,從2023年7月到2024年2月,8個月期間想入職Figure的應聘者數量增長了218%。
▲圖源:X@Brett Adcock
總而言之,Figure正在以前所未有的速度,向著“具身智能”的時代前進。
借上OpenAI的東風
正如我們前面提到的,Figure01的關鍵是軟件,而軟件中讓人驚艷的能力又主要來源于OpenAI。
所以嚴格意義上說,Figure在人形機器人上做出的創新其實有限。
但這并不妨礙Figure01帶來的驚艷。Figure01能聽懂人類的指令、識別出哪一個物體可以食用,并順暢地轉化為行動能力。
這項能力之所以令人驚艷,除了絲滑無障礙的溝通之外,還在于它解決了機器人行業的一個固有悖論——“莫拉維克悖論”。
它由人工智能和機器人學領域的先驅漢斯·莫拉維克提出,在計算機和機器人系統中一個有趣且非直觀的現象:對于人類來說簡單的感知和運動任務,對計算機和機器人而言卻異常困難;而人類認為復雜的邏輯和抽象思維任務,對計算機來說卻相對容易。
所以Figure01展現的遞蘋果、擺盤子行為看上去簡單,實現起來有一定的技術難度,需要擁有識別、計劃和執行任務的能力。
而這項能力也來源于“端到端的神經網絡閉環”,即Figure01可以直接將看到的、聽到的信息轉化為語言和行為結果,中間不需要經過其它程序處理。
Brett Adcock解釋Figure01的技術路線,稱Figure01連接了Open AI的能力,所有行為均由神經網絡視覺運動變壓器策略驅動,可以將像素直接映射到動作。
▲圖源:X@Corey Lynch
出門問問創始人李志飛在他的賬號“飛哥說”中詳細剖析Figure1的技術原理,在整個過程里,Figure01至少靈活擁有兩項能力:大語言模型的思維鏈COT能力,以及順暢的底層操控能力。
拆開來說,Figure01的這一套操作,需要機器理解自然語言,并把自然語言轉換成機器的抽象計劃,再將這項抽象計劃轉化成底層操控。
最近的一次引發轟動的機器人成果,是斯坦福大學華人團隊研究的Mobile ALOHA,它能夠炒蝦仁、按電梯,這個能力還是通過人工遠程操控疊加靜態ALOHA數據才實現。點擊查看《人形機器人,也迎來ChatGPT時刻?》
▲Mobile ALOHA樣機
在機器人領域,目前為了解決這個問題最盛行的是三種模型:
第一個是RT-1模型,輸入文本指令和對應圖像,通過預訓練模型將其轉化為token,再經過壓縮,最后輸出機器人聽得懂的三個維度操作指令Mode、Arm、Base,分別用于控制機器人的模式轉化、控制機器人手臂動作,以及控制機器人移動。
第二個是PaLM-E模型,通過輸入多模態模型知識,對任務信息進行處理,分解成特定的機器人指令。
這兩種模型可以進行融合,機器人經過PaLM-E模型接收特定指令,再由RT-1將特定指令轉化為對應的機器人控制指令。
第三種是RT-2模型,即視覺-語言-動作(VLA)模型,可以直接將機器人輸入的信息轉化為動作,單從表現來看,這似乎更符合Corey Lynch對外宣稱的“端到端”實現方式。
根據李志飛團隊的分析,Figure01更符合RT-1+PaLM-E的模型融合。Figure01從接收指令到行動,雖然這個這個過程有延緩,但整體非常順滑,RT-2決策頻率是1到5hz,很難做到Figure1的200Hz程度。
Brett Adcock搭載了Open AI的順風,在具身智能的道路上邁出了一大步。
單位時間內跑的最快的公司
當然,如果要回答Figure為什么跑得這么快,也不得不提到它的創始人Brett Adcock了。
和馬斯克一樣,Brett Adcock在社交媒體上異常活躍。但Brett Adcock又與馬斯克的口無遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進度和思考。
這是一個實打實的工作狂。2003年4月,隨著Figure完成7000萬美元A輪融資,Brett Adcock在X上發布帖子的速度變得更加勤快。
他每天都發布若干條創業心得或與機器人相關的動態,并按“周”的速度強調一遍對“AI Robotics”行業的觀察與變化,常用語是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。
除此之外,Brett Adcock還是一個久經沙場的創業老兵。在投身人形機器人這一硬件領域之前,他就已經在軟件領域摸爬滾打了10多年。
他在X上常常總結分享自己的創業洞見,最常見的幾個關鍵詞是:快速、高效、輕便、低員工數、小團隊、系統,在創辦Figure之前,這些方法論是Brett Adcock連續創業成功的關鍵。
▲圖源:X@Brett Adcock
Brett Adcock出生于1986年,他的童年在伊利諾伊州莫韋夸小鎮外的一個玉米和大豆農場度過,或許從小就見慣了日夜勞作的過程,他對提高工作效率、節省勞動力的事情格外著迷。
2002年,還在上學的Brett Adcock就創辦了一家網絡公司Street of Walls,據說這家網站至今還在幫助金融領域公司提高面試效率。
2012年,25歲的Brett Adcock和Adam Goldstein聯合創辦了一個就業網站Vettery,在這段經歷中,Brett Adcock將“高效”這件事情拔高了N個等級。
最初,Vettery只為第三方招聘公司提供服務,但“經歷幾次絕望的轉型”之后,最終決定“拋棄所有招聘人員,將求職者和公司放在一個市場”,通過機器學習匹配求職者和招聘方。
這個方法果然奏效,Vettery的用戶幾乎每周都在翻倍增長。
▲圖源:Newatlas
正向的循環很快得到了市場的回應。
2018年,Vettery在短短6年的時間內獲得20000名客戶,獲得當時世界上最大的招聘公司Adecco集團的注意,Adecco集團以1.1億美金的價格收購了Vettery。Brett Adcock獲得了人生第一桶金。
Brett Adcock的第二個創業項目是“電動垂直起降飛機”,其創辦的Archer Aviation(簡稱Archer)是第一批eVTOL(電動垂直起降)概念的公司之一,這時Brett Adcock 30歲。
Brett Adcock很擅長“找錢”和“找人”。
Archer成立后不久,Brett Adcock就拉來了沃爾瑪電子商務主管兼Jet.com創始人馬克·洛爾 (Marc Lore) 作為投資人。Lore在2016年將Jet.com出售給沃爾瑪的時候就已經身價上億,2020年還持有2.75億美金沃爾瑪股票。
通常來講,Lore不會投資朋友和家人以外的創業公司,但Brett Adcock成了例外。不僅如此,Lore還幫助Brett從家族和其他對科技感興趣的富人那里籌集了大量資金。
很快,Brett Adcock組建了“豪華”的44人團隊,尋找航空領域的人才,包括前航空電子和工程部門負責人斯科特·弗曼(Scott Furman)和湯姆·穆尼斯(Tom Muniz)、空中客車公司Vahana原型機的總工程師杰夫·鮑爾(Geoff Bower),正式開啟“空中租車服務”的旅途。
Brett Adcock“找錢”和“找人”的能力也復制到了Figure上。
2022年,當OpenAI開始在文本生成、自動編程、語言翻譯、內容創作等多個領域嘗試應用GPT-3時,Brett Adcock也從Archer離職了。
這個決定非常出人意料,因為當時Archer已經在申請飛行證的關鍵節點,現在我們無法考證Brett Adcock的離職是否是看到了人形機器人的更大機遇,但至少Brett Adcock因為這次離職趕上了人形機器人的風口。
之后就有了Figure的故事,Brett Adcock找來了Jerry Pratt擔任首席技術官,谷歌DeepMind科學家Corey Lynch也加入了Figure團隊。
Jerry Pratt從1998年就開始研究機器人,他曾經寫過一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機器人在有限的立足點信息內,也能實現邁步,火出圈的波士頓Atlas采用的正是這個算法。
2022年5月,Figure成立。之后兩年,人形機器人賽道群雄環伺。
國外有馬斯克不斷迭代Optimus,1X也獲得Open AI融資,中國市場宇樹H1不斷鉆研全尺寸人形機器人跑步,優必選敲鐘上市。Figure能在這些公司中突圍而出,或許緣于Brett Adcock在X上表達的理念,“如果我是一名投資人,我會建議尋找單位時間內進步最大的公司”。
難啃的供應鏈
雖然在Brett Adcock的帶領下,在硅谷資本的助推下,Figure正在以飛快的速度前進。但擺在Figure面前的挑戰也同樣艱巨。
Brett Adcock曾說起他選擇人形機器人的原因,“我們正在目睹前所未有的勞動力短缺,在我們重點關注的倉儲和制造行業,年周轉率在 50-150% 之間,這些行業正在努力尋找/留住人才并擴大勞動力規模。”
Brett Adcock認為機器人做成人形更有效率,因為擁有腿、手臂和手的機器人可以執行類似人類的任務,而無需改變環境,畢竟,重塑整個物理世界,是一項難以克服的挑戰。
“有用”是Brett Adcock做人形機器人的第一要義。但要讓人形機器人有用,證明這件事情是第一大挑戰。
Brett Adcock在一段采訪中表示,已經有幾十個客戶在尋找與Figure01的合作,但目前只和寶馬做了真正的合作,因為寶馬會真正地將人形機器人的部署和集成送到他們在斯帕坦堡的設施。他要先用盡可能少的機器人,證明可行性。
其次,當從有用到真正帶來生產了,人形機器人還需要大規模制造,而這其中的首要條件,就是硬件的可靠性。
雖然Brett Adcock有過一段做硬件的經歷,但真正踏入人形機器人世界時,他還是被供應鏈難住了。“供應鏈的缺乏讓我感到驚訝,這也意味著未來創業者還有很多新機會”。
▲圖源:X@Brett Adcock
他在X上多次提及人形機器人缺乏一套成熟的供應鏈,因此團隊必須從頭開始設計整個機器人,包括執行器、電子設備、結構、關節、操作系統、控件、固件、人工智能系統等。
復雜多樣的零部件需求,意味著要從全球不同的供應商那里進行采購,為了確保零部件的質量和供應的可靠性,還需要選擇合適的供應商,并維持良好的合作關系,這又不得不投入大量時間進行供應商管理、評估和審查。
更重要的是,人形機器人對零部件高性能的要求,會產生較高的成本,如果未來要規模化生產Figure01,Brett Adcock必須思考如何降低采購和物流成本,來保證企業的利潤。
在機器人領域,技術帶來的驚艷是一回事,但是如何在商業化上做好規模化又是另一回事。
而這也不僅僅是Figure的挑戰,也是所有人形機器人企業共同面臨的挑戰。