?文|42號(hào)車庫
進(jìn)入到 2024 年,「端到端」開始成為自動(dòng)駕駛領(lǐng)域的一個(gè)熱門詞匯。
一個(gè)最為直接的原因是:2024 年 1 月下旬,特斯拉面向普通用戶正式推送了 FSD V12 的測試版本。根據(jù)這一版本的推送說明,F(xiàn)SD V12 將城市街道駕駛的軟件棧升級(jí)為單一的端到端神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過數(shù)百萬個(gè)視頻片段的訓(xùn)練,替代了超過 30 萬行 C++ 代碼。
在這個(gè)版本發(fā)布之后,海外媒體平臺(tái)出現(xiàn)了大量關(guān)于這個(gè)版本的測試視頻,有不少網(wǎng)友對(duì)它在城市道路中的駕駛表現(xiàn)表達(dá)了贊嘆和震驚,也有人直呼「這就是未來」。
不僅如此,也有不少自動(dòng)駕駛領(lǐng)域的專業(yè)人士對(duì)于特斯拉 FSD V12 的表現(xiàn)表示肯定。
當(dāng)然,特斯拉在端到端領(lǐng)域的一系列動(dòng)作,也在大洋彼岸的中國引發(fā)密切關(guān)注;尤其是在智駕領(lǐng)域,無論是產(chǎn)業(yè)界,還是輿論場,端到端都在成為一個(gè)熱門詞匯,甚至有一些在自動(dòng)駕駛領(lǐng)域追求搶先落地的車企也已經(jīng)把端到端列入到宣發(fā)口徑中。
需要明確的是,盡管端到端在自動(dòng)駕駛領(lǐng)域受到追捧,但行業(yè)對(duì)它的技術(shù)開發(fā)和商業(yè)落地本質(zhì)上還處于探索階段——基于這一背景,特斯拉作為自動(dòng)駕駛端到端方面的先行者,更值得成為重點(diǎn)關(guān)注的對(duì)象。
那么,在端到端這件事情上,特斯拉究竟做了什么?
特斯拉的 ChatGPT 時(shí)刻
2023 年 5 月 16 日,在主講了一年一度的特斯拉年度股東大會(huì)之后,馬斯克接受了美國知名財(cái)經(jīng)媒體 CNBC 的專訪。
其中,在談到特斯拉 AI 時(shí),馬斯克表示,特斯拉在現(xiàn)實(shí)世界 AI 方面擁有巨大的能力,可以說是遙遙領(lǐng)先,「我都說不上誰是第二名」。接著,針對(duì)主持人關(guān)于 ChatGPT 和生成式 AI 的提問,馬斯克表示:
我認(rèn)為特斯拉也會(huì)迎來一個(gè)所謂的「ChatGPT 時(shí)刻」,就算不是今年,我認(rèn)為也不會(huì)遲于明年。 這意味著某一天,突然之間,300 萬輛特斯拉汽車可以自己駕駛……然后是 500 萬輛,然后是 1,000 萬輛……
如果我們顛倒彼此的位置,特斯拉來做一個(gè)輸出結(jié)果不弱于 ChatGPT 的大語言模型,而微軟和 OpenAI 去做自動(dòng)駕駛,我們把彼此的任務(wù)互換。
毫無疑問地,我們會(huì)贏。
考慮到馬斯克本人此前對(duì)于特斯拉自動(dòng)駕駛技術(shù)能力和落地速度的長期鼓吹和數(shù)次跳票,馬斯克在這采訪中對(duì)于特斯拉 AI 和自動(dòng)駕駛的評(píng)價(jià),在當(dāng)時(shí)并沒有引起特別大的波瀾。
不過,很少有人注意到,其實(shí),在這次采訪中強(qiáng)調(diào)「特斯拉將迎來一個(gè) ChatGPT 時(shí)刻」的一周之前,馬斯克已經(jīng)首次提到了特斯拉在自動(dòng)駕駛技術(shù)上的重大變化,也就是:FSD V12 是一個(gè)端到端 AI,它能夠輸入圖像,然后從輸出轉(zhuǎn)向、加速、剎車燈動(dòng)作。
用他在三天之后發(fā)表的話來說,F(xiàn)SD V12 是一個(gè)能夠?qū)崿F(xiàn)「輸入視頻 + 輸出控制」的完全體 AI(FSD is fully AI from video in to control out)。
那么問題來了,特斯拉究竟是什么時(shí)候開始做端到端的?
事實(shí)上,根據(jù)由 Walter Isaacson 撰寫并且在 2023 年正式出版的《埃隆·馬斯克傳》所披露的消息,特斯拉做端到端自動(dòng)駕駛的起點(diǎn)時(shí)間,可以回溯到 2022 年 12 月——而且很明顯,正是受到了 ChatGPT 的啟發(fā)。
具體來說,2022 年 12 月 2 日深夜,馬斯克與特斯拉 Autopilot AI 團(tuán)隊(duì)一位名為 Dhaval Shroff 的工程師進(jìn)行了交談。
這里需要介紹一下 Dhaval Shroff 的背景。
Dhaval Shroff 是一名來自印度的高材生,他本科畢業(yè)于孟買大學(xué),后來到美國留學(xué),在卡內(nèi)基梅隆大學(xué)機(jī)器人專業(yè)獲得碩士學(xué)位,他于 2014 年 6 月進(jìn)入特斯拉 Autopilot 團(tuán)隊(duì)實(shí)習(xí)并在 2015 年轉(zhuǎn)正,隨后一直在 Autopilot 團(tuán)隊(duì)擔(dān)任研發(fā)和 AI 相關(guān)的工作。
2022 年 11 月,馬斯克剛剛收購 Twitter,他需要人手來解決 Twitter 的問題,因此就找到了 Dhaval Shroff 并與之會(huì)面。
當(dāng)時(shí)馬斯克的本意,其實(shí)是希望說服 Dhaval Shroff 離開特斯拉自動(dòng)駕駛團(tuán)隊(duì)到推特工作,但是 Dhaval Shroff 希望留在特斯拉,并且向馬斯克介紹了他正在研究的神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃項(xiàng)目的細(xì)節(jié)。
當(dāng)然,Dhaval Shroff 已經(jīng)在研究一個(gè)自動(dòng)駕駛前沿項(xiàng)目,該項(xiàng)目的核心是設(shè)計(jì)一種能夠從人類行為中學(xué)習(xí)的自動(dòng)駕駛車輛系統(tǒng)。在這次會(huì)面中,Dhaval Shroff 告訴馬斯克的原話是:
它就像 ChatGPT,不過是用在車上的。我們處理了大量有關(guān)真人在復(fù)雜駕駛環(huán)境中如何行動(dòng)的數(shù)據(jù),然后我們訓(xùn)練計(jì)算機(jī)的神經(jīng)網(wǎng)絡(luò)來模仿這種行為……我們不再只是根據(jù)規(guī)則確定車輛的正確行駛路線,而是通過神經(jīng)網(wǎng)絡(luò)來確定車輛的正確行駛路線。
換句話說,這是對(duì)人類的模仿。
終于,在這次會(huì)面之后,Dhaval Shroff 能夠保住他在特斯拉自動(dòng)駕駛團(tuán)隊(duì)的工作,因?yàn)轳R斯克對(duì)這個(gè)項(xiàng)目產(chǎn)生了極大的興趣——畢竟,在馬斯克看來,特斯拉已經(jīng)是一家人工智能公司;他本來也已經(jīng)打算聘請(qǐng)一批人工智能專家與 OpenAI 展開競爭。
由此,Dhaval Shroff 和他的團(tuán)隊(duì)正式得到了馬斯克的支持,并開始在特斯拉自動(dòng)駕駛的技術(shù)框架下進(jìn)行創(chuàng)新——在 Walter Isaacson 撰寫的《埃隆·馬斯克傳》一書中,Dhaval Shroff 所從事的這個(gè)項(xiàng)目被稱之為「neural network planner」。
后來的事實(shí)證明,這個(gè)項(xiàng)目成為特斯拉全面轉(zhuǎn)向端到端自動(dòng)駕駛的關(guān)鍵節(jié)點(diǎn)。
并非一蹴而就的“端到端”
實(shí)際上,在自動(dòng)駕駛框架下提到端到端這個(gè)詞匯,特斯拉并非是第一家。
早在 2016 年 8 月,致力于在進(jìn)軍自動(dòng)駕駛領(lǐng)域的英偉達(dá),就發(fā)表了一篇名為《End to End Learning for Self-Driving Cars》的學(xué)術(shù)論文,其中提到一種面向自動(dòng)駕駛的深度學(xué)習(xí)算法,該算法使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將汽車前攝像頭拍攝的圖片,對(duì)應(yīng)到無人駕駛車的行駛方向上。
其實(shí),從論文本身的介紹來看,這個(gè)算法能夠完成的任務(wù)很有限,比如說它只能學(xué)習(xí)控制方向盤,但是不考慮路徑和速度——但是從思維方式來說,它確實(shí)與當(dāng)時(shí)需要分感知、檢測、決策、控制等分模塊進(jìn)行的無人駕駛技術(shù)框架不同,而是采用了模塊的一體化方案。
簡單來說,輸入圖像,輸出動(dòng)作,確實(shí)是與「端到端」方案的理念完全一致。
不過,英偉達(dá)只是在技術(shù)研究層面提出了「端到端」,而從自動(dòng)駕駛伴隨汽車行業(yè)大規(guī)模量產(chǎn)落地的角度來看,端到端方案在很長一段時(shí)間里并不具備落地的可行性——即使是在自動(dòng)駕駛量產(chǎn)落地方面最為激進(jìn)的特斯拉,也并不例外。
那么,特斯拉是如何一步步走向「端到端」的?
一位從事自動(dòng)駕駛算法研究的行業(yè)專家告訴我們,盡管「端到端」這個(gè)概念看起來比較新穎且「高大上」,但是從行業(yè)落地的角度來看,特斯拉做端到端,并非是把以往的 FSD 算法成果完全抹去從頭再來、從零開始,而是很有可能是基于以往的算法成果進(jìn)行了算法框架的結(jié)構(gòu)性調(diào)整。
也就是說,特斯拉做端到端,并非是一蹴而就的。
比如說,早在 2021 年 8 月的特斯拉 AI Day 上,時(shí)任特斯拉 AI 負(fù)責(zé)人 Andrej Karpathy 正式對(duì)外介紹了基于 BEV + Transformer 的感知算法架構(gòu)——在這種情況下,特斯拉的感知算法模塊已經(jīng)是完全基于神經(jīng)網(wǎng)絡(luò)的 2.0 版本。
同時(shí),根據(jù)這次 AI Day 活動(dòng)展示的信息,特斯拉在 2021 年,就已經(jīng)對(duì)它的規(guī)劃和控制(Planning & Control)模塊進(jìn)行了面向軟件 2.0 的優(yōu)化,也就是說,特斯拉當(dāng)時(shí)已經(jīng)嘗試在規(guī)劃部分加入神經(jīng)網(wǎng)絡(luò)的元素(但并非全部)。
而到了 2022 年 10 月的特斯拉 AI Day 上,特斯拉 AI 算法架構(gòu)的感知模塊和規(guī)劃控制模塊都得到了更新,但它們之間依舊是相對(duì)獨(dú)立的模塊。具體來看:
在感知模塊,新任的特斯拉 AI 負(fù)責(zé)人 Ashok Elluswamy 介紹了特斯拉自動(dòng)駕駛算法框架中的占用網(wǎng)絡(luò)(Occupancy Network),配合 NERF 算法,它可以在 BEV+Transformer 感知框架的基礎(chǔ)上實(shí)現(xiàn)通用能力更強(qiáng)的 3D 空間感知。
而在規(guī)劃控制模塊,特斯拉則基于占用網(wǎng)絡(luò)的優(yōu)勢(shì),對(duì)于以往的算法進(jìn)行了又一次重寫。其中一部分用到了神經(jīng)網(wǎng)絡(luò),也用到了生成式 AI 技術(shù)(來生成行車軌跡預(yù)測),但總體來說,在這個(gè)模塊中依舊包括了大量的人工規(guī)則代碼——在整體上,它更像是一個(gè)采用軟件 2.0 代碼來解決部分問題的軟件 1.0 軟件棧。
這時(shí)候,盡管特斯拉的感知模塊和規(guī)劃控制模塊依舊是相對(duì)獨(dú)立的,但它們之間的關(guān)聯(lián)實(shí)際上已經(jīng)是更加緊密了。
可見,特斯拉在構(gòu)建 Autopilot 軟件算法框架的前后過程中,盡管感知、規(guī)劃、控制等模塊是相對(duì)獨(dú)立的,但是它們之間也一直存在著聯(lián)動(dòng)關(guān)系,并且規(guī)劃控制模塊也會(huì)隨著感知模塊的進(jìn)化升級(jí)而進(jìn)行升級(jí),甚至重寫——到 2022 年 12 月之前,感知模塊已經(jīng)完成了面向神經(jīng)網(wǎng)絡(luò)的軟件 2.0 進(jìn)化,而規(guī)劃、控制模塊則由于其極端復(fù)雜性依舊需要大量的基于規(guī)則的、由人工編寫的 C++ 代碼。
基于這一背景,Dhaval Shroff 所提到的神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃項(xiàng)目,可以說是特斯拉自動(dòng)駕駛走向「端到端」的關(guān)鍵一步。
需要說明的是,到目前為止,關(guān)于特斯拉如何實(shí)現(xiàn)將感知、規(guī)劃、決策、控制等自動(dòng)駕駛算法模塊融合一個(gè)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,從而實(shí)現(xiàn)「端到端」,特斯拉還沒有公開說明,甚至在外界時(shí)也絕口不談——不過,即使「端到端」能夠?qū)崿F(xiàn)整個(gè) FSD 算法框架面向軟件 2.0 的轉(zhuǎn)化,但它并不會(huì) 100% 摒棄人類的算法規(guī)則。
當(dāng)然,外界也有質(zhì)疑的聲音認(rèn)為,「端到端」可能只是馬斯克的一個(gè)營銷詞匯。
數(shù)據(jù):特斯拉的獨(dú)特優(yōu)勢(shì)
對(duì)于馬斯克來說,選擇支持 Dhaval Shroff 的神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃項(xiàng)目,并非是毫無風(fēng)險(xiǎn)、輕輕松松的——實(shí)際上,對(duì)算法進(jìn)行面向神經(jīng)網(wǎng)絡(luò)的又一次創(chuàng)新,往往意味著特斯拉要花費(fèi)相應(yīng)的時(shí)間、數(shù)據(jù)和算力資源來進(jìn)行試錯(cuò)。
甚至在特斯拉的內(nèi)部團(tuán)隊(duì)中,也有人并不相信這個(gè)神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃項(xiàng)目取得成功。
好在,僅用了半年左右的時(shí)間,Dhaval Shroff 就取得了突破,并且向馬斯克證明:這是一個(gè)正確的方向。
其中的一個(gè)助力因素是特斯拉的巨大數(shù)據(jù)優(yōu)勢(shì)。
實(shí)際上,基于特斯拉自動(dòng)駕駛團(tuán)隊(duì)以往在數(shù)據(jù)處理方面的豐富經(jīng)驗(yàn),從 2022 年底到 2023 年初的數(shù)個(gè)月時(shí)間里,Dhaval Shroff 的神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃項(xiàng)目對(duì)來自特斯拉客戶車輛的 1,000 萬個(gè)視頻片段進(jìn)行了分析。
根據(jù) Dhaval Shroff 的說法,他們選擇投入到數(shù)據(jù)訓(xùn)練中的視頻,是經(jīng)過精心選擇的。
其主要標(biāo)準(zhǔn)是,在視頻片段中,人類司機(jī)能夠很好地處理各種場景——只有這樣的視頻數(shù)據(jù),特斯拉才會(huì)納入到訓(xùn)練中進(jìn)行學(xué)習(xí)。同時(shí),在訓(xùn)練過程中,也需要對(duì)視頻內(nèi)容的多樣性提出要求,以便讓神經(jīng)網(wǎng)絡(luò)能夠針對(duì)各種各樣的人類司機(jī)駕駛場景進(jìn)行學(xué)習(xí)。
為此,特斯拉還在紐約州 Buffalo 市招募了大量的人類標(biāo)注員,他們能夠?qū)σ曨l頻段進(jìn)行評(píng)估并給出分?jǐn)?shù)——根據(jù)馬斯克的要求,這些人類標(biāo)注員要找到「Uber 五星司機(jī)會(huì)采取的做法」,然后相對(duì)應(yīng)的視頻被用來進(jìn)行數(shù)據(jù)訓(xùn)練。
根據(jù) Dhaval Shroff 曾經(jīng)向馬斯克展示的一個(gè)基于神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃的一個(gè)案例:在一條到處都是垃圾桶、交通錐桶和雜物散落的演示道路上,在神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃的引導(dǎo)下,車輛能夠繞過障礙物,越過車道線,甚至在必要時(shí)打破規(guī)則。
這個(gè)案例,已經(jīng)讓馬斯克感到興奮。
2023 年 4 月,在特斯拉自動(dòng)駕駛研發(fā)團(tuán)隊(duì)所在的 Palo Alto 市,馬斯克第一次體驗(yàn)到了基于全新神經(jīng)網(wǎng)絡(luò)路徑規(guī)劃技術(shù)的特斯拉自動(dòng)駕駛軟件版本,與他一起參加體驗(yàn)的,包括特斯拉 AI 負(fù)責(zé)人 Ashok Elluswamy 和 Dhaval Shroff 等團(tuán)隊(duì)成員。
在這次測試中,團(tuán)隊(duì)成員們向馬斯克解釋了 FSD 是如何用特斯拉用戶的車載攝像頭收集的數(shù)百萬個(gè)視頻片段進(jìn)行訓(xùn)練的,他們同時(shí)告訴馬斯克,這樣做出來的軟件堆棧,甚至比人類編程規(guī)定好數(shù)千條規(guī)則的傳統(tǒng)軟件堆棧要簡單得多。
用 Dhaval Shroff 的原話來說,「它的運(yùn)行速度快了 10 倍,可以直接刪掉 30 萬行代碼」。后來,這句話也成為馬斯克宣傳特斯拉自動(dòng)駕駛端到端方案時(shí)的常用話術(shù)。
在這次試駕體驗(yàn)中,針對(duì)試駕車的其中一次操作,馬斯克覺得它比自己做得都要好;為此,他感到非常高興,甚至當(dāng)場吹起了口哨。就這樣,在這次試駕之后,馬斯克宣布,他已經(jīng)徹底相信這個(gè)項(xiàng)目的重要性,并且認(rèn)為應(yīng)該調(diào)集大量資源來推進(jìn)這個(gè)項(xiàng)目。
需要明確的是,到這個(gè)階段,特斯拉的自動(dòng)駕駛團(tuán)隊(duì)已經(jīng)發(fā)現(xiàn)一個(gè)明確的事實(shí):那就是神經(jīng)網(wǎng)絡(luò)至少需要經(jīng)過 100 萬個(gè)視頻片段的訓(xùn)練才能夠達(dá)到良好的工作狀態(tài),如果訓(xùn)練量能夠達(dá)到 150 萬個(gè)視頻片段,那么它就會(huì)變得相當(dāng)理想。
好在,考慮到特斯拉車輛在全球范圍內(nèi)的巨大保有量(高達(dá)數(shù)百萬臺(tái)車),實(shí)際上,它每天都能夠收集龐大的視頻數(shù)據(jù)來進(jìn)行訓(xùn)練。
正如 Ashok Elluswamy 所言,特斯拉在數(shù)據(jù)方面有著得天獨(dú)厚的重大優(yōu)勢(shì)。
當(dāng)然,除了數(shù)據(jù)之外,特斯拉在算力方面也有著重大優(yōu)勢(shì),畢竟,特斯拉不僅僅購買了大量的英偉達(dá) GPU 用于數(shù)據(jù)中心的建設(shè),同時(shí)也在持續(xù)推進(jìn)自研的 Dojo 超級(jí)計(jì)算機(jī)項(xiàng)目。
而配合特斯拉在車端部署的 FSD Chip 芯片,特斯拉也構(gòu)建了從云端到車端的軟硬件一體化技術(shù)框架——這也是特斯拉在整個(gè)自動(dòng)行業(yè)里做「端到端」難以匹敵的優(yōu)勢(shì)之所在。
從端到端,到大模型思維
從目前的情況來看,特斯拉在端到端領(lǐng)域的探索,已經(jīng)取得不少突破。
實(shí)際上,在 2023 年 8 月,馬斯克就已經(jīng)在社交平臺(tái)上進(jìn)行了一場關(guān)于特斯拉端到端自動(dòng)駕駛測試版( FSD V12 Beta)的直播。從直播中的內(nèi)容來看,馬斯克信心滿滿,而這輛車在自動(dòng)駕駛過程中也僅僅出現(xiàn)了一次與紅綠燈相關(guān)的失誤,但效果已經(jīng)被整個(gè)行業(yè)所矚目。
數(shù)個(gè)月后,隨著特斯拉對(duì)端到端自動(dòng)駕駛系統(tǒng)的進(jìn)一步訓(xùn)練,F(xiàn)SD V12 也取得進(jìn)一步突破,并且在 2023 年 12 月逐漸開始擴(kuò)大內(nèi)測范圍到特斯拉內(nèi)部員工。到了 2024 年 1 月,F(xiàn)SD V12 又分別在 1 月推送給媒體人——最終在 2 月份,特斯拉把 FSD V12 推送給一定范圍內(nèi)的普通用戶。
從目前的反饋來看,在城市場景中,相對(duì)于依舊在規(guī)劃控制方面依賴于人工代碼的 FSD V11,基于神經(jīng)網(wǎng)絡(luò)的 FSD V12 更加受到認(rèn)可。
其中一個(gè)案例是,3 月 6 日,深度學(xué)習(xí)專家 James Douma 在體驗(yàn) FSD V12 后評(píng)價(jià)稱,與 V11 相比,V12 的人工干預(yù)將減少 100 倍以上,這并不是增量式的升級(jí),而是一個(gè)飛躍,它強(qiáng)大得令人印象深刻。
他還表示,通過端到端路徑規(guī)劃和控制有效實(shí)現(xiàn)的一系列行為表明,僅靠更多更好的數(shù)據(jù)和訓(xùn)練,特斯拉團(tuán)隊(duì)就能夠?qū)崿F(xiàn)「優(yōu)于人類」(better than human)的目標(biāo)——對(duì)于這一評(píng)價(jià),馬斯克回應(yīng)稱:這是非常準(zhǔn)確的評(píng)估。
當(dāng)然,從目前的情況來看,特斯拉在 AI 領(lǐng)域的探索,已經(jīng)明顯跨越了「端到端」的范疇本身。
實(shí)際上,早在去年的計(jì)算機(jī)領(lǐng)域的國際頂級(jí)會(huì)議 CVPR 上,特斯拉 AI 負(fù)責(zé)人 Ashok Elluswamy 就進(jìn)行過一場名為「Foundation Models for Autonomy」的主題演講。其中明確提到,特斯拉正在構(gòu)建一些基礎(chǔ)模型,而占用網(wǎng)絡(luò)(Occuancy Network)就是已經(jīng)融合其中、但并非以實(shí)體存在的重要一個(gè)。
更重要的是,Ashok Elluswamy 強(qiáng)調(diào),一個(gè)真正的基礎(chǔ)大模型(Foundation Model)并不是諸多小任務(wù)的機(jī)械式疊加,而是能夠產(chǎn)生溢出效應(yīng)。
他表示,特斯拉正在試圖構(gòu)建一個(gè)更加通用的世界模型(General World Model),它能夠預(yù)測未來,能夠幫助神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí),能夠像一個(gè)神經(jīng)網(wǎng)絡(luò)模擬器發(fā)揮作用,甚至能夠以 AI 的方式生成 3D 空間(并且根據(jù)人類的左右轉(zhuǎn)彎等指令,在八個(gè)攝像頭視角里同時(shí)進(jìn)行一致性非常強(qiáng)的 3D 變換)。
正是基于這一前提,馬斯克才會(huì)在 2024 年 2 月 Sora 橫空出世時(shí)反復(fù)強(qiáng)調(diào),特斯拉已經(jīng)構(gòu)建出了更加符合物理世界規(guī)律的生成式 AI。
而在這場演講的結(jié)尾,Ashok Elluswamy 強(qiáng)調(diào),特斯拉之所以能夠構(gòu)建上述基礎(chǔ)大模型,一方面是它擁有極端龐大的數(shù)據(jù)體量,另一方面是它已經(jīng)擁有非常強(qiáng)大的算力基礎(chǔ)。盡管他在此處的目的是招募更多的人才加入特斯拉,但是從基礎(chǔ)原理上來說,海量數(shù)據(jù)和龐大算力確實(shí)構(gòu)成了特斯拉構(gòu)建基于真實(shí)世界的大模型的重要支柱。
他還明確表示,特斯拉 FSD 不僅僅是為了汽車機(jī)器人(Car Robot)而構(gòu)建,也是為了人形機(jī)器人(Humanoid Robot)而構(gòu)建。
同樣是在這次 CVPR 會(huì)議上,特斯拉 AI 團(tuán)隊(duì)的另外一個(gè)成員 Phil Duan 也在演講中表示,特斯拉正在構(gòu)建的是一個(gè)高度多樣化、高質(zhì)量的數(shù)據(jù)集,并通過它來訓(xùn)練一個(gè)基礎(chǔ)大模型(Foundation Model)。而在特斯拉看來,這將會(huì)是它通過構(gòu)建大模型來賦能自動(dòng)駕駛和具身智能(Embodied AI)的未來路徑。
非常有意思的是,根據(jù)馬斯克在去年下半年發(fā)布的視頻,特斯拉 Optimus 人形機(jī)器人已經(jīng)用上了與其自動(dòng)駕駛系統(tǒng)相同的端到端神經(jīng)網(wǎng)絡(luò),并且體現(xiàn)出了非常明顯的能力進(jìn)化。
如今來看,以端到端為起點(diǎn),特斯拉對(duì)于 AI 的探索已經(jīng)進(jìn)入到另一個(gè)階段,那就是通過單一基礎(chǔ)視頻網(wǎng)絡(luò)(a single foundation video network)來直接駕駛汽車——從技術(shù)范式上來說,通過端到端的算法變革,特斯拉已經(jīng)整體上轉(zhuǎn)向類似于 OpenAI 旗下 GPT 這樣的大模型思維。
寫在最后
縱觀十年來的發(fā)展歷程,我們會(huì)發(fā)現(xiàn),自動(dòng)駕駛技術(shù)發(fā)展的底層驅(qū)動(dòng)力,往往是 AI 技術(shù)本身的變化。
比如說,由 2012 年的 AlexNet 出發(fā),深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在此后數(shù)年時(shí)間里成為自動(dòng)駕駛在感知領(lǐng)域常用的算法;到了 2020 年,在 Transformer 已經(jīng)賦能于自然語言處理領(lǐng)域數(shù)年之后,為了解決 3D 空間感知的效率和功率問題,Transformer 又被引入到特斯拉自動(dòng)駕駛的感知算法架構(gòu)中。
而到了 2022 年底和 2023 年初,伴隨著 ChatGPT 的橫空出世,特斯拉又在大模型思維的啟發(fā)下轉(zhuǎn)向自動(dòng)駕駛端到端,并由此進(jìn)入到通過訓(xùn)練單一的基礎(chǔ)大模型來構(gòu)建更加通用的下一代自主系統(tǒng)(Autonomy)的發(fā)展路徑中。
然而,無論是如今的各類大模型,還是特斯拉的端到端,其底層算法架構(gòu)中的關(guān)鍵組成部分依舊是誕生于 2017 年的 Transformer 算法,且短期內(nèi)它很難被替代。
回過頭來看,很難否認(rèn)的是,特斯拉在這條路徑上也是明顯受到了 OpenAI 和 ChatGPT 的影響,而這背后其實(shí)也是在自身業(yè)務(wù)層面的對(duì)于 Scaling Law 的遵循——從這個(gè)角度來看,在特斯拉和馬斯克的帶動(dòng)之后,AI 發(fā)展對(duì)于自動(dòng)駕駛發(fā)展產(chǎn)生直接影響的速度,變得越來越快。同時(shí),自動(dòng)駕駛與 AI 的關(guān)系也愈加緊密。
甚至有一種觀點(diǎn)認(rèn)為,當(dāng) AI 發(fā)展到通用人工智能的時(shí)候,完全無人的自動(dòng)駕駛也將能夠?qū)崿F(xiàn)。
有意思的是,很少有人注意到,早在 2020 年 6 月,OpenAI 創(chuàng)始成員、當(dāng)時(shí)擔(dān)任特斯拉 AI 負(fù)責(zé)人的 Andrej Karpathy 就已經(jīng)在 Twitter 上發(fā)表了自己對(duì) GPT 和自動(dòng)駕駛發(fā)展的暢想,他的原話是:
Autopilot 的終極形態(tài),應(yīng)該是將車輛管理局手冊(cè)(DMV Handbook)的內(nèi)容輸入到一個(gè)「大型多模態(tài)的 GTP-10」中,然后喂給它過去 10 秒的傳感器數(shù)據(jù),使它跟著走。
從當(dāng)時(shí)的情況來看,Andrej Karpathy 就已經(jīng)密切關(guān)注著 Transformer 和 GPT,并且將其與特斯拉 Autopilot 相關(guān)聯(lián)——然而,站在當(dāng)下的視角來回顧,如今我們?cè)谧詣?dòng)駕駛領(lǐng)域看到的一切和即將發(fā)生的一切,實(shí)際上在那個(gè)時(shí)候就已經(jīng)被預(yù)見到,并提前埋下了伏筆。