界面新聞記者 | 李如嘉
界面新聞編輯 | 文姝琪
3月18日,特斯拉開始在北美地區全面推送FSD(全自動駕駛)V12.3版本,這是去年公布V12以來,其向所有FSD用戶推送的第一個正式版本,預計將在近期實現全面覆蓋。
這次更新格外引人注目的關鍵在于,V12版本引入了“端到端神經網絡”技術,使用神經網絡替代了規則代碼。
2024年以來,“端到端”成為了自動駕駛界最火熱的概念,多家企業跟進特斯拉采取這一技術路線。
1月30日,何小鵬表示小鵬智駕未來將實現端到端模型全面上車,據報道,蔚來將在今年上半年推出端到端架構的主動安全功能;理想的新模型也將在今年上半年上線,算法新架構將不限制道路范圍,全國都能開。
3月17日,元戎啟行宣布已經成功將端到端模型適配到量產車上,該批量產車將于今年投入消費者市場。毫末智行也表示正在進行端到端模型的研發。
讓眾多車企和自動駕駛公司紛紛押注的“端到端”,究竟有何魔力?
“像人類一樣開車”的端到端模型
“比之前任何版本都更接近人類的駕駛方式。”一位特斯拉FSD V12.3版本的被推送用戶體驗后在社交平臺上這樣感嘆,“在高速公路上變道和匯入車流時比我還要開得好。”
根據網絡上的測評視頻,最新版本的特斯拉在一些突發事件中表現非常好,例如在車側有自行車出現時,系統會選擇減速通過;在車道前方突然有車輛停止時,系統也可以根據左側車道的情況順暢變道;在行人亂穿馬路時,即使是綠燈系統也先選擇了禮讓行人,再通過路口。
雖然也有選錯車道、在視野被遮擋時沒能識別路口消防車的問題。但整體來看,采取端對端模型之后,特斯拉的自動駕駛更像一位人類司機,少了程序化的機械感,更加靈活、人性化。
自動駕駛的實現是通過輸入攝像頭采集的視頻、GPS位置信息等,輸出駕駛決策。與大部分復雜AI任務一樣,自動駕駛的實現一般有兩種技術路線:分治法和端到端。
目前,國內消費市場的智能駕駛系統采用的都是傳統分治法,將自動駕駛任務切分為感知、預測、規劃三個獨立的模型,再進行系統集成來完成整個自動駕駛任務。
分治法的優點在于將復雜的自動駕駛任務拆解為大量相對簡單的子任務,大幅度降低了系統開發難度。這樣構成的系統具備很好的可解釋性,可以針對每個模塊的輸入輸出進行白盒化分析,一旦發生事故,可以深入分析,找到具體的問題點。
但是弊端在于需要編寫的代碼量巨大,系統設計時引入了太多的人為先驗經驗,導致自動駕駛能力上限比較低,系統的泛化性比較差,對于沒有見過的場景往往無法處理。
“模塊化的模型是基于規則的,駕駛動作的‘機械感’很強,但實際的道路狀況千變萬化,規則無法全部解決。”元戎啟行CEO周光告訴界面新聞。
比如壓實線的規則在大多數時候必須嚴格遵守,但在路邊有很多違停車輛,或者道路施工的情況下,車輛不得不壓點實線,借個道才能通過。遇到這樣需要靈活處理的情況,使用分治法的系統只能依賴提前寫好的程序來應對,這意味著工程師需要為每一種細分場景設定不同的規則,代碼越寫越長,但場景卻無窮無盡。
在這種分裂的模塊化架構下,信息的傳遞會出現減損,系統程序復雜,集成困難,維護難度大。
“在模塊化的架構下,一位工程師一天只能處理10多個case,效率不高。”周光補充。
而端到端模型則將感知、預測、規劃三個模型融為一體,無需冗長的代碼來制定規則,而是通過用海量數據去訓練系統,讓機器擁有自主學習、思考和分析的能力,能更好地處理復雜的駕駛任務。
“FSD Beta v12將城市街道駕駛堆棧升級為端到端神經網絡,經過數百萬個視頻訓練,取代了30多萬行C++代碼。”特斯拉的更新日志中如此介紹V12。
由于任務更少、避免了大量重復處理,端到端自動駕駛可以提高計算效率,并且可以通過不斷擴展數據來提升系統的能力上限。
在學術界,端到端并不是一個新鮮的概念,已經有諸多相關論文和研究。但是直到去年,在帶高階輔助駕駛功能的量產車大規模落地后,有了海量數據和海量算力加持,這才取得了突破性進展。
Chat GPT的出現也讓端到端自動駕駛看到了新的希望。
“如果選擇端到端,就需要持續且巨大的投入,并且短期內也不一定看得到結果,這不是一個輕易的決定。但OpenAI驗證了Scaling Law(標度律)在大語言模型上的奏效,讓大家看到了端對端自動駕駛也有出現‘涌現’的可能性。”有業內人士告訴界面新聞記者。
只有頭部玩家才能進入的賽道
“從特斯拉的開發經驗來看,端到端自動駕駛真不是一般的企業能玩的,其所需的數據規模、算力規模遠遠超出國內企業的承受能力。除了成本高昂,端到端自動駕駛的技術難度也非常高,想要實現從學術到產品落地,相當于跨越從二踢腳到登月的難度。”毫末智行數據智能科學家賀翔告訴界面新聞。
如此龐大的投入究竟值得嗎?不同企業有不同看法。
“我們對端到端自動駕駛系統能否全面應對自動駕駛挑戰表示擔憂,認為其還不夠完備,并且沒有必要性,端到端用在自動駕駛系統上大材小用了。”自動駕駛技術公司Mobileye的創始人、 總裁兼首席執行官Amnon Shashua認為,“Mobileye不需要一個端到端的系統來覆蓋所有的角落情況。”
他表示,目前公司已經掌握了足夠的數據量去證明自己的智能駕駛系統,但如果選擇端到端模型,其需要的數據量將呈指數級增長。
“毫不夸張地說,數據會占據端到端自動駕駛開發中80%以上的研發成本。”賀翔判斷。
根據特斯拉的計算,完成一個端到端自動駕駛的訓練至少需要100萬個、分布多樣、高質量的 clips (視頻片段)才能正常工作。而在2023 年初,特斯拉就聲稱已經分析了從特斯拉客戶的汽車中收集的1000萬個clips。
解決數據采集問題只是第一步,算力也是很大的限制。為了能在云端處理這些數據,當前特斯拉擁有近10萬張英偉達的A100,位居全球top5。其目標是,依靠英偉達的GPU和自身的Dojo超級計算機,要在2024年底達到100EFlops的算力,遙遙領先。
而在美國多輪制裁之下,國內采購GPU難上加難。賀翔表示,“大部分企業手里擁有的算力資源非常有限,擁有超過1000張A100的企業寥寥無幾,甚至全國加起來都沒有特斯拉一家企業多。”
即使有了數據和算力,如何設計合適的自動駕駛算法來進行端到端訓練,依然沒有統一的答案。端到端自動駕駛的評估也十分困難。如何將系統從云端搬到算力和功耗都有限制的車上進行泛化又是難題。
端到端模型還有一個關鍵的弱點在于可解釋性。當出現問題時,其無法像傳統自動駕駛任務一樣將中間結果拿出來進行分析,難以對事故、售后定責等問題給出有效的證據,也難以直接對出現問題的環節進行改進。
端到端模型,上車!
縱然面對各種挑戰,業界對端對端模型也抱有不同看法。仍有企業相信,端到端自動駕駛是未來最有希望實現無人駕駛的途徑之一,并且已經開始在這條道路上加深探索。
“我認為特斯拉也會迎來一個所謂的‘ChatGPT 時刻’,就算不是今年,我認為也不會遲于明年。這意味著某一天,突然之間,300萬輛特斯拉汽車可以自己駕駛……然后是500萬輛,然后是1000萬輛……”馬斯克在去年5月接受CNBC專訪時說。
周光也在公司內部提到過,他希望元戎啟行能夠做端對端自動駕駛Scaling Law的驗證者。
元戎啟行是國內第一家能夠將端到端模型成功上車的人工智能企業,并宣布已與英偉達達成合作,將于2025年采用英偉達的DRIVE Thor芯片適配公司的端到端智能駕駛模型。在2023年8月,公司已經運用端到端模型完成了道路測試。
在安全性問題上,元戎表示,剛開始把端到端模型上車的時候,會有很多兜底策略保證安全。譬如,發現將要發生碰撞時,系統就會啟動安全模型,讓車很早就進入保守的策略,避免出現安全事故。未來,隨著端到端模型表現越來越好,兜底策略會越來越簡化。
“算法上元戎有很深的積累,算力資源層面我們和英偉達有深度技術合作,我們的大股東阿里也會為我們提供支持,數據層面,我們已經和多家車企有了量產合作,客戶為我們提供了很多有價值的數據。”周光對端對端的路線有著很大的信心。
正在進行研發的毫末則采取了將端到端大模型進行拆分的方式來降低訓練難度:一個階段解決感知問題,即讓模型看懂世界,一個階段解決認知問題,即做出駕駛決策。這樣做的好處一是可以先獨立訓練,再進行調和,降低訓練難度,二是在不同的階段可以采用不同的數據,大幅降低數據成本。
此外,毫末還在端到端自動駕駛中引入了LLM(大語言模型),通過感知大模型識別后,將這些信息輸入LLM,通過LLM來提取世界知識,并作為輔助特征來指導駕駛決策。
但據賀翔介紹,這個系統極為復雜,算力消耗非常大,目前還只能在云端運行,未來幾年將加快向車端的落地。
端對端的未來還有哪些可能性呢?賀翔提到,為了解決長尾數據問題,業界也在嘗試用AIGC技術構造數據。
面對一個尚未解決的問題,如果現實環境難以采集到類似的數據,例如車禍,可以考慮使用 AIGC技術來定向生成類似場景的數據,來快速提升效果。也可以使用仿真引擎來構造類似的場景,生成數據。
隨著越來越多的端到端駕駛系統投入研發、落地,這一技術的未來也會越來越清晰。但是對于企業來說,起跑的槍聲已經打響,路線是關鍵,而朝著選好的方向狂奔,也是他們不得不的選擇。