文|經緯創投
能用最簡單的方法,做最復雜的事,才是真正的技術壁壘。
特斯拉的全自動駕駛FSD(Full-Self Driving)V12新版本,很好詮釋了這一點。僅需8個攝像頭,無需用上激光雷達、毫米波雷達、超聲波攝像頭等等其他零部件,就實現了老司機一般的駕駛能力。
馬斯克甚至顛覆了自己,V12新版本比V11有極大變化,很多V11中采取的技術也被一并拋棄(即便這些技術可能是領先的)。一個對V12最簡單的理解是:V11之前都需要告訴FSD遇到紅燈需要停,但V12不再需要,而是依靠V12自己學習,自己“悟”出來。
于是,原本由人工編寫的30萬行代碼,如今驟減到3000行,取而代之的是類似大語言模型的訓練芯片矩陣(由上萬顆英偉達H100級芯片組成),全靠AI神經網絡訓練解決。可以說V11還是手工作坊式的生產方式,V12已經開啟了“工業革命”。
今天這篇文章,我們就來分析一下FSD V12版本背后有哪些顛覆性變化?以及與其他技術路線相比,FSD V12這種純視覺方案,有哪些優劣勢?Enjoy:
01 V12新版本背后,最重要的顛覆性變化是什么?
V12最大的變化,在于部署了“端到端”的AI大模型。這里面有兩大關鍵點,一個是端到端,一個是AI大模型。
“端到端”是指,一端指輸入端,一端指輸出端,輸入數據的包括攝像頭的感知數據、車身的數據等等,中間通過Transformer架構的AI大模型推演之后,最終直接輸出到電門、剎車、方向盤。
而通過Transformer架構的AI大模型,是在2022年底,特斯拉Autopilot部門的一位工程師向馬斯克提出的建議,要借鑒ChatGPT,讓神經網絡通過學習人類駕駛員的訓練素材,來實現路徑規劃。
馬斯克聽后大喜,拍板就這么干。由此開始,FSD的規劃部分,就直接放棄了原來普遍采用的Rule-base(通過人為定義的規則)方案,全面轉向神經網絡。
在這里我們簡短解釋一下什么是Rule-base方案:Rule-base就是人為規定的規則式驅動。原來自動駕駛分為幾個步驟,分別是感知、規劃、控制,先有攝像頭、激光雷達、毫米波雷達等等傳感器獲取信息,然后基于感知結果和人為設定的規則,由自動駕駛軟件代碼來實現決策。
所以這里面很重要的是,一是怎么獲取到足夠多維和準確的信息,所以大家都往車上裝各種攝像頭、雷達;二是決策中,由人為設定的規則需要覆蓋所有情況。這些代碼的邏輯基本是,如果遇到某種特定情況,算法就會查詢代碼中預先編寫好的應對方案,比如遇到紅燈需要停車、直行車道不能轉彎等等。
但是日常出現的駕駛情況太多了,并且還會有不常見的邊角情況(corner case)出現,它們往往非常危險,因為在算法庫里,可能沒有編好這種情況下的應對方案。此外,在100種不同的駕駛場景中,你可能需要100種不同的踩剎車和加速的方法,才能達到平滑的駕駛效果,否則就很容易暈車。顯然,要想讓系統在所有情況下都像人類駕駛那樣流暢,這是人類工程師哪怕日以繼夜地編寫代碼,也難以實現的。
特斯拉在以往的方法下,已經是市場領先。特斯拉在感知層面,采用了一個叫做九頭蛇(HydraNet)的系統來進行物體識別。HydraNet首先通過八個攝像頭的圖像輸入,進入到后端的一個基干網絡(backbone),每一個任務都由一個專門的頭(Head)來負責,比如進行物體檢測、紅綠燈識別、車道預測等等,特斯拉一共設計了50個Head,對各種任務的分類很細。
而在規劃部分,特斯拉采用的是類似谷歌AlphaGo下圍棋的方法(蒙特卡洛樹搜索,加神經網絡輔助),快速窮盡所有可能性,并計算出其中勝率最高的一條路徑。圍棋要遵守棋規,FSD要遵守交通規則,這其中就是大量人為定義的規則。簡單來說,就是根據預設規則,在所有可能的駕駛軌跡中,計算出一個不會和任何物體碰撞并且不違反交規的最優解。
V12出來掀了桌子,把之前很多技術都丟進了垃圾桶。V12不再需要通過代碼寫好“遇到紅燈需要停下”,而是通過讓AI觀看大量人類駕駛員的駕駛視頻,讓AI自己找出成千上萬條規律,遇到紅綠燈、減速、剎車這是AI自己學會的,是自己“悟”出來的。正是因為這樣的一個轉變,原來負責這一塊的30萬行C++代碼,如今變成了3000行。這也是為什么V12版本中,FSD的駕駛表現非常擬人化。
從更底層的角度來說,V12“看”的是像素點。V12不需要先識別畫面中的東西是什么、再到決策部門根據這個感知結果做判斷,而看的是畫面中的最小單位像素點,V12把畫面上像素點的位置、組成的形狀以及運行的規律,直接輸入到神經網絡中,通過數以億計的真實視頻來學習經驗,把現在輸入的像素點,與之前學習時遇到的像素位置進行對比,而這些學習的視頻,就是真實人類司機的駕駛反應。然后直接輸出一個結果,就是執行所需要的剎車、電門、方向盤。
以往視覺方案中的劣勢,比如異形障礙物識別失敗的問題,現在幾乎不存在了,只要能拍到這個物體,讓它出現在畫面里,它就會成為畫面中的一堆像素點,V12只需要這些像素點就夠了,所以V12所代表的AI方案被稱為“純視覺的最終解決方案”。
當然,那如果訓練所用的視頻數據本身是魯莽駕駛,那是不是訓練出來的AI駕駛員就會非常危險?答案確實是,特斯拉的解決辦法是開辟汽車保險業務。
比如在美國,特斯拉通過北美的保險業務,延伸出了一套駕駛員行為評分系統,它會對人類駕駛員的駕駛行為嚴格打分。特斯拉用于訓練FSD的數據,全部來自于90分以上的駕駛員,可以說是對數據的要求極為苛刻。
當然,V12跟ChatGPT這樣的大模型很像,都是一個“黑盒模型”,它們需要通過足夠多的數據訓練,才能涌現出一些驚人的能力,并且設計它的工程師也不知道,為什么會涌現出這些能力。
這也是為何FSD需要超過60億英里的驗證里程,只有推理得夠多,才能知道如何對模型進行微調和優化,在自動駕駛領域重現大語言模型中Scaling law的情況,實現指數級的能力增長。如馬斯克所言:當你有100萬個視頻片段,勉強夠用;200萬個,稍好一些;300 萬個,就會感覺哇塞;1000萬個,將變得難以置信。
那么,特斯拉的追趕者能追上嗎?這背后需要的是極其龐大的算力。“現在來看,自動駕駛超越人類駕駛就只是時間上的問題。”馬斯克說。在今年一季度,特斯拉把總算力又提高了,等同于3.5萬塊英偉達H100的算力,到年底還要翻倍達到8.5萬塊算力規模,這令特斯拉成為美國擁有第一流算力規模的科技公司,與微軟、Meta相當。
02 純視覺方案,有哪些優劣勢?
目前自動駕駛領域,主要分為純視覺和激光雷達兩個方案。如今純視覺通過結合AI,實現了端到端,有了突飛猛進的變化。在激光雷達方案里,還是依靠Rule-base的方法,通過激光雷達、毫米波雷達、超聲波攝像頭這些復雜的組合方案,現階段其實也有不錯的表現。那么純視覺+AI和Rule-base+激光雷達相比,有何優劣?
一言以蔽之,純視覺(+AI大模型)的劣勢是起步慢,但成長性更強。原來的Rule-base在初期能力增長快,但后期空間嚴重不足,兩者存在一個交點。
Rule-base也可以通過不斷修改來進行迭代。一旦發現問題之后,就可以找到對應的代碼,一般都是if-else語句,if在什么情況下發生,否則else怎么樣,這是規則式的核心邏輯。這時候只要修改某個if-else語句的參數量,或者解出錯誤的行數,把問題修復就解決了。這里面不需要喂大量的數據,直接把修復代碼放在車上重新部署即可。
在到達兩者的交點之前,意味著Rule-base算法優于大模型。這是大模型的特點導致的,當數據量不夠的時候,相比于規則式算法穩定性不夠。這也是Rule-base的核心優勢,它的解釋性比較強,規則非常明確,當把代碼部署到車上之后,會具備最基本的能力表現,能讓車實現基本的ACC、LCC輔助駕駛功能。但大模型不行,在沒有經過足夠的數據訓練之前,產品是非常弱的。
但在兩者的交點之后,純視覺的端到端模式,則更像是面向未來的終極方案。由于AI大模型具有通識能力,它能夠理解以前沒有看到過的東西。
比如說,某一次從前面的車上掉下來了一個塑料袋,另一次則掉出來了一個啤酒箱,但是在我們的訓練數據集里,從來沒有出現過這兩種情況。作為人類司機,我們知道塑料袋是軟的,不需要規避,但啤酒箱是硬的,需要規避。如果沒有大模型,自動駕駛系統就相當于一直生活在車上,它只能解決曾經在這個車上看到的場景。但是真正的人類駕駛員肯定不只生活在車上,他還生活在整個世界里,而大模型有通識能力,它能識別出塑料袋和啤酒箱的區別,它更接近人類,能應對各種場景,更何況它還有8顆攝像頭。
此外,從硬件角度來說,純視覺的端到端模式完勝,因為只需要8顆攝像頭,未來最多是不斷升級像素,這能極大降低整車成本。而且基本無需擔心硬件迭代,所帶來的技術斷層問題。
如果展望未來,從用戶體驗角度來說,大模型更能和座艙聯動。未來的自動駕駛AI,可能就會和真正有一位司機在開車一樣,你可以跟它聊天:比如“剛剛路過的湖叫什么?”,或者給它下達命令,比如“現在靠邊停車”或者“我們不太舒服你開穩一點”等等,這是邁向L4級自動駕駛的重要一步,也是提升自動駕駛體驗很關鍵的一點。
當然,雖然說V12的端到端確實是顛覆性的進步,但我們離真正的完全自動駕駛還有一條明確紅線,就是——責任在人類駕駛員還是在汽車系統身上,無論從技術、安全還是產品責任的角度來看,這都是一條最重要的分界線。目前,雖然有這么多進步,但我們還處于L2以下,我們可能需要足夠多的安全數據,來證明自動駕駛的事故率小于人類,才有可能真正跨越這條紅線。
References:
1.Morgan Stanley:Tesla Inc Tesla and Nvidia The Journey to AI Supremacy
2.華泰證券:特斯拉(TSLA.US)如何理解特斯拉的當下與未來?
3.中信證券:特斯拉FSD,2023突圍之年
4.西南證券:從特斯拉FSD看人工智能
5.WSJ:Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool