簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

今年,是人形機器人的“iPhone時刻”嗎?

掃一掃下載界面新聞APP

今年,是人形機器人的“iPhone時刻”嗎?

一個浪潮將是具身智能,而通用機器人是最理想的載體。

文|經緯創投

最近,人形機器人變得非常火熱。2023世界機器人大會近日在北京開幕,人潮涌動。同時,宇樹科技、智元機器人等創業公司,相繼發布了自己的人形機器人,當這些站立行走,能跑能跳的機器人真真切切地出現在人們面前時,把人們的期待推向了最高潮。

機器人一直是說起來容易,很科幻,但做起來非常難。哪怕是在不少工廠的流水線里,機器人還是很難適應很多復雜場景。不過自去年底,特斯拉發布了人形機器人Optimus(擎天柱)以來,人形機器人賽道就在逐漸升溫。

那么,為什么人形機器人火了?現在到技術爆發的臨界點了嗎?相比于工業機器人(是一個比較成熟的賽道,更像傳統機械設備),這一波大家對機器人的想象,與工業機器人有什么底層不同?

首先,我們總結說結論,人形機器人賽道之所以變熱,核心是智能泛化能力大幅加強,讓通用機器人成為可能。以前機器人行業之所以迭代得很慢,是因為每學一套新動作,就需要重新編程一次,只是“機械的自動化”。而現在有了智能泛化能力的突破,甚至只需要語音控制,機器人就能實現新功能,這是從自動化到智能化的底層轉變,機器人的通用性被大大增強。

英國機器人公司Engineered Arts的人形機器人Ameca,在接入Stable Diffusion之后,可以完成一些簡筆畫,比如畫一只貓。圖片來源:Engineered Arts

基于這個認知,我們還可以延展出很多新問題:

當機器人觸達技術爆發臨界點,更智能的機器人能用在哪里?

機器人是否要做成“人形”?

訓練數據是瓶頸,數據還能從哪里來?

今天這篇文章,我們就來探討以上這些問題,不過人形機器人是一個高速發展中的新賽道,很多問題還沒有準確答案,對于一些有爭議的部分,歡迎在評論區聊聊,Enjoy:

人形機器人是一個大賽道,能帶動眾多細分賽道。以特斯拉機器人Optimus為代表的人形機器人硬件全景圖。圖片來源:中信證券

01 當機器人觸達技術爆發臨界點,更智能的機器人能用在哪里?

曾經,機器人是一個迭代速度不算太快的領域,現在的汽車工廠里已有很多工業機器人,并且有著幾十年的應用歷史,但基本都是非通用智能機器人。

其中的瓶頸在于,像工業機器人這樣的非通用智能機器人(往往只是一個機械臂),是在特定場景里做特定任務,各種動作和反應的算法都是寫定的,一旦遇到新的情況或環境,如果沒有預先寫好算法,就會立即變成“智障”。

如今有可能出現真正的通用機器人,這也極大擴展了機器人潛在的應用場景。以往工業機器人只能在流水線的單點上,比如擰好某個螺絲,或是組裝好某個部件,但如今有了通用機器人之后,只需要讓機器人學會安裝邏輯和評估標準就可以了,并且它不僅可以擰好螺絲,當螺絲用完了還可以自己從倉庫里取來,或是給機器人裝上靈巧手,它就可以使用一些工具,來處理螺絲之外更復雜的事情。

此外,結合LLM我們還可以實現語音控制,只需要說出“請給我拿杯水”,先把語音轉換成代碼,再把代碼轉換成機器人的動作。這不是影視劇里很遙遠的事情,而是正在發生的。今年谷歌發布了Robotics Transformer-2(RT-2),微軟發布了“ ChatGPT for Robotics ”論文,給整個機器人行業帶來了轟動。

今年的這些新進展,與以前“每做一套新動作,就需要重新編程一次”的機器人,有著天壤之別。未來無論是在工廠車間,還是商場、家庭,都很有可能出現一個通用機器人,它能適應不同的環節,不需要重新編程就能在不同任務之間切換自如。

目前,對于大多數通用機器人創業公司來說,第一目標還不是ToC,而是ToB,比如工業或是商業場景。先在B端場景中打磨好能力,再最終應用到C端,是不少機器人公司的計劃。

很多公司都把汽車生產作為首要場景。汽車工廠規模很大,較早實現自動化,其中很多環節已經形成流水線用工業機器人替代,但仍有不少環節需要人工操作。比如在汽車工廠的總裝車間,仍然需要大量人力,人形機器人可以替代這些環節,并非替代已經通過工業機器人實現自動化的環節。

如果按照馬斯克的計劃,特斯拉的第一批機器人主要在B端應用,替代那些危險、無聊、重復的工作,或是人們不想做的工作。第二批大規模使用的機器人,會擁有在現實世界中的導航能力,也是復用特斯拉電動車的視覺導航技術,無需特定指令也能做有用的事;第三批則是10年左右,人們可以在家里使用機器人。

除了汽車工廠,還有3C的組裝、檢測等環節;以及在商業場景中,比如零售業的貨架管理、清潔等,也仍有需要大量人工的場景。隨著社會老齡化及人力成本的攀升,將有不小的勞動力缺口需要填補。

當然,有些場景也并非一定需要人形機器人,而是根據需求來選擇。比如宇樹科技創始人兼CEO王興興曾說,四足機器人與雙足機器人相比,具備更高的載荷能力和極強的平衡能力,也更易于控制、設計和維護,在工業端和消費端等都有廣泛的應用場景,尤其能在一些危險場景代替人類進行作業。

宇樹科技的機器狗可用于消防。圖片來源:宇樹科技

鴻海、軟銀投資的日本機器人初創公司Telexistence,可作為商超貨架的補貨機器人

不過,今天的通用機器人,離真正商業化落地還有諸多障礙。最明顯的就是成功率、執行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1,執行成功率提高到了80%,但在實機演示中,還是錯誤地識別了一罐檸檬味蘇打水,說成了“橘子味”;以及被問到桌子上有什么水果時,機器人回答成“白色”,但實際是香蕉。谷歌解釋說,因為WiFi臨時中斷,機器人使用了緩存的答案來回答。雖然80%的準確率在一些場景夠用,但在另一些需要精度的場景仍然不夠,比如一些精密儀器的操作等等。

當然,我們說了這么多具身智能、通用機器人,也并不是說原來的工業機器人領域就沒有機會了,只是邏輯不同。在傳統機械設備領域,仍有大量機器人零部件創新,和國產替代的機會。比如工業機器人的核心零部件減速器,就長期被日本和德國公司壟斷;工業機器人整體的國產化率也僅有35%,特別是在大六軸、汽車3C、焊接等工業機器人細分賽道,國產化率都是偏低的,結合智能化仍然有成長空間與創新潛力。

02 機器人是否要做成“人形”?

在無數科幻影視作品中,人形機器人一直才是人們對機器人的終極想象,比起工業機器人,人形機器人是一種更高維的存在。但由于實現難度太大,一直不是機器人行業的主要形態,直到最近1年特斯拉的人形機器人發布,才成為市場焦點。

市場也存在很多質疑聲:到底我們需不需要人形機器人?既然難度這么大,到底需要多少年才能在現實生活中落地?是否應該先從機械狗、多輪底盤+機械臂等形態入手,而不是一上來就做人形?

當然這個問題還沒有答案,我們看到谷歌搭載RT-2的機器人,就是四個輪子作為底盤+一個機械臂,已經能實現很多功能,比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務機器人不需要靈巧手(利用空心杯電機實現的仿人手設計)、不需要仿人腿的運動控制系統,也能實現很多家庭、工廠場景的功能。當然它也會有限制,比如不能上下樓梯。

Google的機器人就是輪式底盤+單臂+攝像頭的形態。圖片來源:Google Deepmind

當然,我們的觀點是人形肯定是終極形態,因為我們相信最終機器人是會進入千家萬戶的。但根據不同場景需求,其他形態的機器人也會共存,比如不一定是雙足雙臂,更早到來的可能是輪式單臂。

人形的好處是:首先是應用范圍。如果用終局思維來思考,人形機器人的應用范圍肯定是最廣的,因為人形才是最適合社會中所有場景的形態,我們所有的建筑、工具等等,都是基于人類的身形而設計的,所以無需改變場景來適應機器人,就能直接使用人類社會中所有工具。這也符合馬斯克所提出的愿景,他希望今后人類不想干的事全都可以交給機器人來干,甚至發掘出目前我們還預料不到的用途。

比如最典型的,就是人類的腿和手,在仿生步態下,機器人的運動能力比傳統履帶、四輪、雙輪機器人都有大幅提升,機器人可以上下樓,可以跳躍過障礙物等等。對于手來說,基于空心杯電機的靈巧手,可以實現雙手配合和工具替換,這比起傳統的工業機器人,能用更廣泛的人類工具,技能更廣。

特斯拉使用空心杯電機設計的靈巧手。圖片來源:東吳證券

其次如果考慮交互,“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中,心理學家就在強調肢體語言的作用。肢體語言也最符合人類的認知,人類無需重新學習任何新東西,就能輕松理解機器人的動作。在結合大語言模型之后,能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機器人Ameca,輸入了大量真人表情數據,通過立體3D打印機制作出精確的模具,實現了生動的面部表情和肢體語言。

英國機器人公司Engineered Arts的人形機器人Ameca,能夠在橡膠皮膚上表現出超過 62 種面部表情,這是Ameca著名的“蘇醒時刻”

我們都知道人形有這么多好處,但對人形機器人最大的制約,還是軟硬件技術的高難度,小到每一個關節的設計,再到運動控制、對環境的感知等等,每一個環節都存在技術難題,綜合在一起更是對系統的集成度、魯棒性要求很高。

比如運動控制的標桿波士頓動力,已經成立了31年,歷經被谷歌收購、被軟銀收購、被韓國現代集團收購,一直都在不斷投入,雖然實現了“跑酷”等炫酷的功能,但背后是不計成本的投入、功耗極高、噪音很大,離量產落地還差很遠。

波士頓動力的機器人跑酷演示。視頻來源:波士頓動力YouTube頻道

不過,如果一家公司把最終目標定位成人形機器人,不代表它的產品只有一款人形機器人。在高難度的技術研發中,無論是移動、抓取還是視覺感知等等,都可以在這個過程中迭代出新的產品,而最終把各項技術組合在一起,簡單來說就是:人形機器人是最難的機器人形態,誰能做好人形,誰就也能做好其他形態的機器人。

總之,機器人的通用性和智能化是接下來的重點,但不一定非要是人形,當下還需要看場景需求。

03 訓練數據是瓶頸,數據還能從哪里來?

能否獲得高質量且足夠便宜的數據,是當下制約智能機器人發展的瓶頸,也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots,它曾是谷歌的明星獨立項目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。造成Everday Robots成本高昂的一個重要原因,就是數據采集成本過于昂貴。OpenAI曾經也有一個機器人部門,但后來放棄了,問題也出在數據收集上。

為什么采集成本這么高?主要是因為Everday Robots基于真實環境來收集數據。谷歌為了訓練PaLM-E,用了13臺機器人,收集了17個月,才拿到足夠的數據量,如果是在更復雜的工業場景,數據采集成本會更高。

目前對于人形機器人來說,主流的數據獲取手段有四種:

遙操作數據:這是目前最主流的方式,特斯拉等很多機器人公司都在使用。這種方式基于人工遙操作,先學習和分解人是怎么做到的,然后對應機器人要怎么做到。由于是真實世界的數據,所以數據質量最高,但數據采集成本也是最高的。

模擬器數據:由于遙操作成本過高,更低成本的基于模擬器,來生產仿真數據也有越來越多人使用。一方面通過合成仿真數據可以大幅擴展數據集,此外仿真場景還可以去補充日常現實中比較少出現的任務。在一些任務中,比如導航或是抓取物品等,仿真表現不錯,但在另一些對真實物理數據要求比較高的場景,比如在流體中的運動、或是物體破裂等等,還比較難在仿真里做到。但模擬器不是萬能的,如何構建豐富的3D內容、如何設置合適的獎勵機制等,也是這種方式所面臨的問題,當然還有算力成本。

視頻數據:鑒于線上視頻網站中,有大量第一人稱視角的視頻,這些視頻完全可以讓機器人或者AI來學習,這些都是很好的人類真實活動的視頻,通過這些圖像來訓練機器人的行為決策,可以快速且低成本的實現數據積累和泛化能力。目前學界和谷歌等大廠,都在嘗試這種方式來加快訓練。

模仿學習:這種方式還在研究中,就是讓人直接在機器人面前演示一遍,機器人就學會了。比如在家庭場景中的一些動作,掃地或是把臟衣服放進洗衣機,可能只需要教幾遍,不需要額外采集數據,也不需要動作捕捉。有不少相關的論文已經發表。

總之,具身大數據對于機器人來說是一個重要瓶頸,在缺乏具身數據的情況下,很難訓練出真正好用的具身基礎模型。

目前在每條數據獲取的技術路徑上,都有很多公司或高校在嘗試,很多公司也是幾種方式混合在一起使用,以最快的速度和盡量低的成本來獲取高質量數據。

今年,機器人在真實環境中的規劃、感知、決策、執行等能力大幅提升,通過語音直接控制成為可行,人機交互也大大增強。在這種智能化、通用性的發展趨勢下,通用機器人的應用領域被大大拓寬,人形機器人的商業化也成為了可能。

通用機器人還將帶來工業制造能力的騰飛,從以前只能機械完成代碼指令的工業機器人,變成能使用大量人類工具、載具的通用機器人。而在工業制造領域,無論是在機器人零件端,還是工業制造的應用場景、訓練所需要的數據成本等方面,中國都更具優勢。

在ITF World 2023大會上,英偉達創始人黃仁勛說,人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。而通用機器人,無疑是最理想的載體。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

今年,是人形機器人的“iPhone時刻”嗎?

一個浪潮將是具身智能,而通用機器人是最理想的載體。

文|經緯創投

最近,人形機器人變得非常火熱。2023世界機器人大會近日在北京開幕,人潮涌動。同時,宇樹科技、智元機器人等創業公司,相繼發布了自己的人形機器人,當這些站立行走,能跑能跳的機器人真真切切地出現在人們面前時,把人們的期待推向了最高潮。

機器人一直是說起來容易,很科幻,但做起來非常難。哪怕是在不少工廠的流水線里,機器人還是很難適應很多復雜場景。不過自去年底,特斯拉發布了人形機器人Optimus(擎天柱)以來,人形機器人賽道就在逐漸升溫。

那么,為什么人形機器人火了?現在到技術爆發的臨界點了嗎?相比于工業機器人(是一個比較成熟的賽道,更像傳統機械設備),這一波大家對機器人的想象,與工業機器人有什么底層不同?

首先,我們總結說結論,人形機器人賽道之所以變熱,核心是智能泛化能力大幅加強,讓通用機器人成為可能。以前機器人行業之所以迭代得很慢,是因為每學一套新動作,就需要重新編程一次,只是“機械的自動化”。而現在有了智能泛化能力的突破,甚至只需要語音控制,機器人就能實現新功能,這是從自動化到智能化的底層轉變,機器人的通用性被大大增強。

英國機器人公司Engineered Arts的人形機器人Ameca,在接入Stable Diffusion之后,可以完成一些簡筆畫,比如畫一只貓。圖片來源:Engineered Arts

基于這個認知,我們還可以延展出很多新問題:

當機器人觸達技術爆發臨界點,更智能的機器人能用在哪里?

機器人是否要做成“人形”?

訓練數據是瓶頸,數據還能從哪里來?

今天這篇文章,我們就來探討以上這些問題,不過人形機器人是一個高速發展中的新賽道,很多問題還沒有準確答案,對于一些有爭議的部分,歡迎在評論區聊聊,Enjoy:

人形機器人是一個大賽道,能帶動眾多細分賽道。以特斯拉機器人Optimus為代表的人形機器人硬件全景圖。圖片來源:中信證券

01 當機器人觸達技術爆發臨界點,更智能的機器人能用在哪里?

曾經,機器人是一個迭代速度不算太快的領域,現在的汽車工廠里已有很多工業機器人,并且有著幾十年的應用歷史,但基本都是非通用智能機器人。

其中的瓶頸在于,像工業機器人這樣的非通用智能機器人(往往只是一個機械臂),是在特定場景里做特定任務,各種動作和反應的算法都是寫定的,一旦遇到新的情況或環境,如果沒有預先寫好算法,就會立即變成“智障”。

如今有可能出現真正的通用機器人,這也極大擴展了機器人潛在的應用場景。以往工業機器人只能在流水線的單點上,比如擰好某個螺絲,或是組裝好某個部件,但如今有了通用機器人之后,只需要讓機器人學會安裝邏輯和評估標準就可以了,并且它不僅可以擰好螺絲,當螺絲用完了還可以自己從倉庫里取來,或是給機器人裝上靈巧手,它就可以使用一些工具,來處理螺絲之外更復雜的事情。

此外,結合LLM我們還可以實現語音控制,只需要說出“請給我拿杯水”,先把語音轉換成代碼,再把代碼轉換成機器人的動作。這不是影視劇里很遙遠的事情,而是正在發生的。今年谷歌發布了Robotics Transformer-2(RT-2),微軟發布了“ ChatGPT for Robotics ”論文,給整個機器人行業帶來了轟動。

今年的這些新進展,與以前“每做一套新動作,就需要重新編程一次”的機器人,有著天壤之別。未來無論是在工廠車間,還是商場、家庭,都很有可能出現一個通用機器人,它能適應不同的環節,不需要重新編程就能在不同任務之間切換自如。

目前,對于大多數通用機器人創業公司來說,第一目標還不是ToC,而是ToB,比如工業或是商業場景。先在B端場景中打磨好能力,再最終應用到C端,是不少機器人公司的計劃。

很多公司都把汽車生產作為首要場景。汽車工廠規模很大,較早實現自動化,其中很多環節已經形成流水線用工業機器人替代,但仍有不少環節需要人工操作。比如在汽車工廠的總裝車間,仍然需要大量人力,人形機器人可以替代這些環節,并非替代已經通過工業機器人實現自動化的環節。

如果按照馬斯克的計劃,特斯拉的第一批機器人主要在B端應用,替代那些危險、無聊、重復的工作,或是人們不想做的工作。第二批大規模使用的機器人,會擁有在現實世界中的導航能力,也是復用特斯拉電動車的視覺導航技術,無需特定指令也能做有用的事;第三批則是10年左右,人們可以在家里使用機器人。

除了汽車工廠,還有3C的組裝、檢測等環節;以及在商業場景中,比如零售業的貨架管理、清潔等,也仍有需要大量人工的場景。隨著社會老齡化及人力成本的攀升,將有不小的勞動力缺口需要填補。

當然,有些場景也并非一定需要人形機器人,而是根據需求來選擇。比如宇樹科技創始人兼CEO王興興曾說,四足機器人與雙足機器人相比,具備更高的載荷能力和極強的平衡能力,也更易于控制、設計和維護,在工業端和消費端等都有廣泛的應用場景,尤其能在一些危險場景代替人類進行作業。

宇樹科技的機器狗可用于消防。圖片來源:宇樹科技

鴻海、軟銀投資的日本機器人初創公司Telexistence,可作為商超貨架的補貨機器人

不過,今天的通用機器人,離真正商業化落地還有諸多障礙。最明顯的就是成功率、執行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1,執行成功率提高到了80%,但在實機演示中,還是錯誤地識別了一罐檸檬味蘇打水,說成了“橘子味”;以及被問到桌子上有什么水果時,機器人回答成“白色”,但實際是香蕉。谷歌解釋說,因為WiFi臨時中斷,機器人使用了緩存的答案來回答。雖然80%的準確率在一些場景夠用,但在另一些需要精度的場景仍然不夠,比如一些精密儀器的操作等等。

當然,我們說了這么多具身智能、通用機器人,也并不是說原來的工業機器人領域就沒有機會了,只是邏輯不同。在傳統機械設備領域,仍有大量機器人零部件創新,和國產替代的機會。比如工業機器人的核心零部件減速器,就長期被日本和德國公司壟斷;工業機器人整體的國產化率也僅有35%,特別是在大六軸、汽車3C、焊接等工業機器人細分賽道,國產化率都是偏低的,結合智能化仍然有成長空間與創新潛力。

02 機器人是否要做成“人形”?

在無數科幻影視作品中,人形機器人一直才是人們對機器人的終極想象,比起工業機器人,人形機器人是一種更高維的存在。但由于實現難度太大,一直不是機器人行業的主要形態,直到最近1年特斯拉的人形機器人發布,才成為市場焦點。

市場也存在很多質疑聲:到底我們需不需要人形機器人?既然難度這么大,到底需要多少年才能在現實生活中落地?是否應該先從機械狗、多輪底盤+機械臂等形態入手,而不是一上來就做人形?

當然這個問題還沒有答案,我們看到谷歌搭載RT-2的機器人,就是四個輪子作為底盤+一個機械臂,已經能實現很多功能,比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務機器人不需要靈巧手(利用空心杯電機實現的仿人手設計)、不需要仿人腿的運動控制系統,也能實現很多家庭、工廠場景的功能。當然它也會有限制,比如不能上下樓梯。

Google的機器人就是輪式底盤+單臂+攝像頭的形態。圖片來源:Google Deepmind

當然,我們的觀點是人形肯定是終極形態,因為我們相信最終機器人是會進入千家萬戶的。但根據不同場景需求,其他形態的機器人也會共存,比如不一定是雙足雙臂,更早到來的可能是輪式單臂。

人形的好處是:首先是應用范圍。如果用終局思維來思考,人形機器人的應用范圍肯定是最廣的,因為人形才是最適合社會中所有場景的形態,我們所有的建筑、工具等等,都是基于人類的身形而設計的,所以無需改變場景來適應機器人,就能直接使用人類社會中所有工具。這也符合馬斯克所提出的愿景,他希望今后人類不想干的事全都可以交給機器人來干,甚至發掘出目前我們還預料不到的用途。

比如最典型的,就是人類的腿和手,在仿生步態下,機器人的運動能力比傳統履帶、四輪、雙輪機器人都有大幅提升,機器人可以上下樓,可以跳躍過障礙物等等。對于手來說,基于空心杯電機的靈巧手,可以實現雙手配合和工具替換,這比起傳統的工業機器人,能用更廣泛的人類工具,技能更廣。

特斯拉使用空心杯電機設計的靈巧手。圖片來源:東吳證券

其次如果考慮交互,“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中,心理學家就在強調肢體語言的作用。肢體語言也最符合人類的認知,人類無需重新學習任何新東西,就能輕松理解機器人的動作。在結合大語言模型之后,能夠更好的與人類交互。

例如英國Engineered Arts 公司的人形機器人Ameca,輸入了大量真人表情數據,通過立體3D打印機制作出精確的模具,實現了生動的面部表情和肢體語言。

英國機器人公司Engineered Arts的人形機器人Ameca,能夠在橡膠皮膚上表現出超過 62 種面部表情,這是Ameca著名的“蘇醒時刻”

我們都知道人形有這么多好處,但對人形機器人最大的制約,還是軟硬件技術的高難度,小到每一個關節的設計,再到運動控制、對環境的感知等等,每一個環節都存在技術難題,綜合在一起更是對系統的集成度、魯棒性要求很高。

比如運動控制的標桿波士頓動力,已經成立了31年,歷經被谷歌收購、被軟銀收購、被韓國現代集團收購,一直都在不斷投入,雖然實現了“跑酷”等炫酷的功能,但背后是不計成本的投入、功耗極高、噪音很大,離量產落地還差很遠。

波士頓動力的機器人跑酷演示。視頻來源:波士頓動力YouTube頻道

不過,如果一家公司把最終目標定位成人形機器人,不代表它的產品只有一款人形機器人。在高難度的技術研發中,無論是移動、抓取還是視覺感知等等,都可以在這個過程中迭代出新的產品,而最終把各項技術組合在一起,簡單來說就是:人形機器人是最難的機器人形態,誰能做好人形,誰就也能做好其他形態的機器人。

總之,機器人的通用性和智能化是接下來的重點,但不一定非要是人形,當下還需要看場景需求。

03 訓練數據是瓶頸,數據還能從哪里來?

能否獲得高質量且足夠便宜的數據,是當下制約智能機器人發展的瓶頸,也是拉開公司之間競爭的重要手段。

前車之鑒是Everday Robots,它曾是谷歌的明星獨立項目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。造成Everday Robots成本高昂的一個重要原因,就是數據采集成本過于昂貴。OpenAI曾經也有一個機器人部門,但后來放棄了,問題也出在數據收集上。

為什么采集成本這么高?主要是因為Everday Robots基于真實環境來收集數據。谷歌為了訓練PaLM-E,用了13臺機器人,收集了17個月,才拿到足夠的數據量,如果是在更復雜的工業場景,數據采集成本會更高。

目前對于人形機器人來說,主流的數據獲取手段有四種:

遙操作數據:這是目前最主流的方式,特斯拉等很多機器人公司都在使用。這種方式基于人工遙操作,先學習和分解人是怎么做到的,然后對應機器人要怎么做到。由于是真實世界的數據,所以數據質量最高,但數據采集成本也是最高的。

模擬器數據:由于遙操作成本過高,更低成本的基于模擬器,來生產仿真數據也有越來越多人使用。一方面通過合成仿真數據可以大幅擴展數據集,此外仿真場景還可以去補充日常現實中比較少出現的任務。在一些任務中,比如導航或是抓取物品等,仿真表現不錯,但在另一些對真實物理數據要求比較高的場景,比如在流體中的運動、或是物體破裂等等,還比較難在仿真里做到。但模擬器不是萬能的,如何構建豐富的3D內容、如何設置合適的獎勵機制等,也是這種方式所面臨的問題,當然還有算力成本。

視頻數據:鑒于線上視頻網站中,有大量第一人稱視角的視頻,這些視頻完全可以讓機器人或者AI來學習,這些都是很好的人類真實活動的視頻,通過這些圖像來訓練機器人的行為決策,可以快速且低成本的實現數據積累和泛化能力。目前學界和谷歌等大廠,都在嘗試這種方式來加快訓練。

模仿學習:這種方式還在研究中,就是讓人直接在機器人面前演示一遍,機器人就學會了。比如在家庭場景中的一些動作,掃地或是把臟衣服放進洗衣機,可能只需要教幾遍,不需要額外采集數據,也不需要動作捕捉。有不少相關的論文已經發表。

總之,具身大數據對于機器人來說是一個重要瓶頸,在缺乏具身數據的情況下,很難訓練出真正好用的具身基礎模型。

目前在每條數據獲取的技術路徑上,都有很多公司或高校在嘗試,很多公司也是幾種方式混合在一起使用,以最快的速度和盡量低的成本來獲取高質量數據。

今年,機器人在真實環境中的規劃、感知、決策、執行等能力大幅提升,通過語音直接控制成為可行,人機交互也大大增強。在這種智能化、通用性的發展趨勢下,通用機器人的應用領域被大大拓寬,人形機器人的商業化也成為了可能。

通用機器人還將帶來工業制造能力的騰飛,從以前只能機械完成代碼指令的工業機器人,變成能使用大量人類工具、載具的通用機器人。而在工業制造領域,無論是在機器人零件端,還是工業制造的應用場景、訓練所需要的數據成本等方面,中國都更具優勢。

在ITF World 2023大會上,英偉達創始人黃仁勛說,人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。而通用機器人,無疑是最理想的載體。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 梅州市| 麻阳| 乳山市| 同德县| 金昌市| 舟山市| 南皮县| 临猗县| 满洲里市| 江都市| 沅江市| 浏阳市| 栾川县| 武陟县| 晋城| 武乡县| 万山特区| 广元市| 英德市| 衡山县| 宜阳县| 昌江| 阳江市| 五寨县| 五华县| 固阳县| 斗六市| 青铜峡市| 汝阳县| 潼关县| 永兴县| 容城县| 莱阳市| 阳高县| 正安县| 金乡县| 伊金霍洛旗| 梓潼县| 花莲县| 兰溪市| 合水县|