文|數智前線 周享玥
編輯|趙艷秋
2024年剛開始一個月,機器人領域已經十分熱鬧。
前腳,斯坦福大學華人團隊開源的既會做家務、又會煎蛋煮飯的MobileALOHA機器人,剛在全網刷屏,讓不少人直呼“用機器人養老有望”。后腳,馬斯克就發了一段特斯拉“擎天柱”(Optimus)人形機器人疊襯衫的炫技視頻,并緊接著透露Optimus最早將在2025年實現交付,狠狠刷了一波存在感。
這種熱鬧景象從2023年就開始了。業界觀察,過去一年間,在大模型以及具身智能熱潮的帶動下,整個機器人行業的各種動作都快了起來。不管是政策端、學術端,還是產業端,都發生了不少變化。
“2023年,具身智能賽道十分火熱,一下子就有十幾家公司出來。”長期追蹤并投資機器人行業的云啟資本合伙人陳昱告訴數智前線。這些公司中,既有原來做機器人研究的,也有從自動駕駛公司出來的創業者,試圖將在自動駕駛行業積累的經驗,復用到具身智能賽道。
而這波具身智能熱潮,像漣漪一樣一圈圈外延。一位在國內某知名航運公司從事物聯網應用的人士就向數智前線透露,自己在去年下半年關注到具身智能,并專門去了不少相關展會,進行學習研討。
具身智能到底是什么?為什么突然在機器人領域爆火?又將給機器人行業帶來怎樣的變革?
01、舊概念,新熱潮
2023年5月,英偉達創始人黃仁勛突然拋出一個大膽預測:人工智能的下一個浪潮將是具身智能(Embodied AI)。簡單來說,就是能理解、推理并與物理世界互動的智能系統,比如機器人、自動駕駛汽車。
具身智能并非新概念,1950年,“計算機科學之父”圖靈就曾在論文中提到過它,只不過過去幾十年間都未見太大進展。
最近一兩年,隨著AI技術的突破,以及關鍵零部件性價比的逐漸提升,情況有所改變。學術界以李飛飛、姚期智、盧策吾等為代表,都發布了“具身智能”相關的學術論文或不斷推動具身智能的發展。
“大模型的出現,讓行業內的人覺得既然機器可以理解語言了,它就能夠通過語言的邏輯理解整個世界。“ 獵豹移動CEO傅盛說。
中關村智友研究院院長王田苗進一步解釋,大模型出現后,具身智能相當于一個成長速度極快的孩子,能夠通過人機交互,將宏觀的任務分解為一系列思維鏈路和子任務,并利用自動編程,逐步自主地完成任務。期間,具身智能將逐漸學習和成長,同時在復雜環境下可以利用感知、視覺和觸覺等功能來校準行為動作或控制模型的誤差,以適應環境變化。
與具身智能不同,傳統機器人每一項智能都是人來定義和編程實現的。
大模型雖然并非走向具身智能的唯一路徑,但業界普遍認為,機器人擁抱AI大模型的過程就是具身智能機器人的實現過程。
“其中,具身智能對人形機器人影響最大。”一位機器人領域人士告訴數智前線,四足或人形機器人將是具身智能的最佳載體。馬斯克的觀點還要更激進一點,他預測,未來人形機器人的需求將遠超電動汽車,達到100億-200億臺,且最終單價有望低于2萬美元,低于一部車的價格。多重因素下,人形機器人在市場上的熱度明顯高漲。
面對具身智能這一確定的未來趨勢,產業端和政策端都已快速反應。
在政策端,主要國家及地區都把機器人產業發展上升到了國家戰略。2023年10月,工信部等部委一連拋出多份重磅文件,并給出了官方發展目標:到2025年,人形機器人實現批量生產,2027年綜合實力達到世界先進水平。
而在產業端,不管是谷歌、特斯拉、英偉達、阿里、小米,還是機器人創業公司,高校里的技術團隊,甚至產業鏈企業,都在積極跟進相關產品和技術布局。
比如英偉達發布了多模態具身智能系統NvidiaVIMA,微軟在探索如何將ChatGPT擴展到機器人領域,OpenAI投資了挪威人形機器人公司1X Technologies,阿里千問大模型在實驗接入工業機器人……
谷歌是更為顯眼的存在。依托旗下兩大AI研究機構——谷歌大腦和DeepMind,谷歌在具身智能上擁有眾多技術路線,且各路線間有著技術延續性。
2023年3月,谷歌發布參數量高達5620億的多模態具身視覺語言模型PaLM-E,6月,推出全球第一個可以解決和適應多種任務的機器人AI智能體“RoboCat”,7月,又基于RT-1和PaLM-E,升級得到了融合視覺、語言、動作能力的多模態大模型RT-2。據悉,基于RT-2的機器人,不僅能直接聽懂自然語言指令,還會主動思考,當聽到“撿起滅絕的動物”指令,能準確理解其中含義,并完成從恐龍、鯨魚、獅子三種塑料玩具中抓取恐龍的連續性動作。
資本層面也動作頻頻,尤其在人形機器人領域,融資消息不斷。2023年年初,華為天才少年“稚暉君”離職創業,成立智元機器人,一度被資本追著“喂飯”,成功創下一年6輪融資的“奇跡”。銀河通用、宇樹科技、加速進化等大批人形機器人公司也都在這一年獲得融資。
02、八仙過海,各顯神通
業界在進行各種“機器人+大模型”的探索和嘗試。
雖然工業機器人如工業機械臂、AGV、巡檢機器人等應用廣泛,但有數據顯示,2022年,我國工業機器人總體滲透率僅在2%左右。面向勞動力成本上升、人力資源趨緊的大趨勢,機器人的提升空間巨大。
更重要的是,當前的機器人大多是靠著預先編程,來重復執行固定的動作,泛化能力低,一旦進入新場景,就需要程序員重新編程和調整,費時且費力。
基于這些痛點和需求,一些機器人企業正在加速與大模型的結合。比如工業機器人企業,此前在噴涂、焊接、打磨等場景中積累了不少數據集,正在探索將這些經驗形成專家知識,結合大模型的能力,快速形成新產品的加工路徑,以減少機器人調試布置的時間。“這將更適應小批量、多品種、柔性化的產品生產。”北京航空航天大學副教授陶永告訴數智前線。
一位行業人士也透露,他們投資的一家機器人企業正在嘗試將打磨機器人和大模型結合,解決過去“很多件打不了、換件時間長”等問題。該方案目前已完成驗證,將在今年放量。
廣州高新興機器人正在將大模型和巡邏機器人結合。“機器人看似智能,但它的智能是人定義出來的。”公司董事長柏林告訴數智前線,比如在落地部署時,就要對機器人進行精心調教,做大量配置,部署周期以半月計。如果通過大模型,把任務下發到機器人,它能自動生成配置,就能降低落地成本。
工業機器人之外,另一個比較成熟的細分領域——掃地機器人,也正在嘗試引入大模型的能力。比如追覓,在去年9月官宣將與華為云機器人平臺合作,為掃地機器人等產品注入大模型“云智力”。科大訊飛去年10月推出的首款AI掃拖機器人,也搭載了星火認知大模型的能力,試圖讓掃地機器人能聽懂用戶通過APP語音輸入的長語句或口語化的清掃需求。
在更廣泛的服務機器人領域,更多探索也在繼續。比如獵戶星空,據稱已將自研大模型技術應用到機器人業務——“大模型機器人全家桶”中。其中,餐廳場景下的“招財豹”系列機器人服務員在升級后,相當于擁有了一個生成式AI大腦,與消費者的交互自然度以及回復的專業度、準確率都大幅提升。
人形機器人領域也不例外,包括宇樹科技、達闥科技、追覓、智元機器人等公司在2023年,推出過集成了AI大模型能力的人形機器人或四足機器人。達闥科技還在2023年7月,專門推出了機器人多模態人工智能大模型RobotGPT。
機器人企業大部分都很歡迎大模型的到來。”陶永總結稱,盡管現階段而言,大家更多還是在探索和嘗試中,在機器人領域真正大規模的推廣和應用尚未實現。
而據他觀察,一些大模型廠商也在主動找到機器人企業進行合作。比如科大訊飛,就和宇樹科技合作,在去年10月推出了首個“大模型+具身智能”人形機器人。據悉,該人形機器人在復雜任務拆解準確率上,提升了 95%,強化學習泛化抓取成功率提升了30%。
03、具身智能剛走到0.1?
1月初,在看到MobileALOHA機器人項目聯合負責人親自放出MobileALOHA執行任務失敗的視頻,并解釋“機器人還沒有準備好接管世界”后,一位機器人行業人士在朋友圈表達了自己對這一項目的肯定,以及對具身智能iPhone時刻的期待。
“iPhone時刻之后,以人機器人為代表的通用機器人將走入千家萬戶。”該人士表示,但他同時強調,具身智能的iPhone時刻仍需較長時間才會到來,這就好比智能手機的iPhone時刻并非iPhone1發布的時間,而是以iPhone4的發布作為標志。
"具身智能還是一個相對遙遠和長線的東西,還遠遠沒有達到像大家當初見到ChatGPT時那種驚艷程度和變革性的階段。”云啟資本合伙人陳昱告訴數智前線,大家目前還只是看到了潛在的技術發展方向,而且是一個需要長期投入和持續鉆研的方向,“有點像15年前的自動駕駛”。
陳昱舉例稱,就市場上的融資量級來看,具身智能也還遠遠比不上大模型企業,“大家現在全憑預期和想象投資。”在他看來,具身智能要真正大規模商業化應用,至少還要8至10年,“按0-100算的話,現在最多走到了0.1。”
而在此之前,具身智能機器人作為一個硬件、軟件均涉及的復雜系統,要想真正實現,還有算法、工程技術、數據、場景和復雜軟硬件等諸多層面的挑戰要解。
在2023世界機器人大會上,圖靈獎獲得者、中國科學院院士姚期智曾在談到機器人時稱,未來AGI需有具身實體,具身機器人還面臨四大主要挑戰:
第一,機器人不能夠像大語言模型一樣有一個基礎大模型直接一步到位,做到最底層的控制。
第二,計算能力的挑戰,即使是谷歌研發的Robotics Transformer模型,要做到機器人控制,距離實際需要的控制水平仍有許多事情要做。
第三,如何把機器人多模態的感官感知全部融合起來,仍面臨諸多難題需要解決。
第四,機器人的發展需要收集很多數據,也面臨很多安全隱私問題。
解決技術上的種種挑戰外,業界人士認為,類比自動駕駛的發展,在具身智能機器人領域,找到可商業化閉環和可數據閉環的“L2”級駕駛,也尤為重要。
上述機器人領域人士告訴數智前線,機器人領域商業化的進程,就好比一個天平。天平的一邊,是機器人能夠實現什么樣的功能,能創造多少價值,另一邊,則是為了實現這樣的價值,用戶需要付出的成本。“當天平的收益大于成本時,機器人就會在這個領域里實現大規模應用。”
此前工業場景的工業機器人、酒店或餐飲門店場景的服務機器人、家用的掃地機器人,都已經完成或初步完成這樣的階段。這些場景的機器人與大模型去結合,是目前能較快看到一些效果和價值的方向。而人形和四足機器人領域,雖仍處于成本高于價值的階段,但在大模型和具身智能熱潮的催動下,正在迎來商業化應用的前夕。
實際上,不少人士認為,2024年將有望成為人形機器人商業化元年。“大家都在瘋狂找場景。”
部分頭部企業已經鎖定一些場景,并展開驗證。比如中國電科21所,預計今年一季度將人形機器人投入智慧物流生產場景中做應用驗證。智元機器人則透露,今年下半年首先在工業制造領域實現商業化落地,此前已和一些頭部汽車公司、3C制造商接觸。
不過,這只是第一步,距離真正的具身智能機器人成為現實,走進千家萬戶,仍然還有很長一段路要走。