123,123

智駕網(wǎng) 2024-03-28 12:00

具身智能時(shí)代呼喚“端到端”

“隨著模型能力的迭代，以及模型從語(yǔ)言模型逐漸變成一個(gè)加上生成、多模態(tài)理解的能力，相信在今年年底、明年可能會(huì)期待有質(zhì)變的產(chǎn)生，從務(wù)實(shí)的角度來(lái)看，大模型目前階段只是一個(gè)初步的階段?！?

一輛搭載著FSD V12.3.1 Beta的特斯拉穿梭在舊金山市鬧區(qū)的傍晚，依靠純視覺(jué)端到端的方案完成了從車位駛出到目的地?？柯愤叺慕z滑操作。

馬斯克幾乎會(huì)以每?jī)芍艿墓?jié)奏對(duì)FSD進(jìn)行一次“大改”，直到這次FSD V12.3.1 Beta的更新。

3月25日，馬斯克向全體特斯拉員工發(fā)了一封郵件，要求必須為北美地區(qū)提車的客戶演示并安裝激活FSD V12.3.1 Beta，并在交車前讓客戶進(jìn)行短暫的試駕。希望讓人們意識(shí)到FSD確實(shí)有效。

緊接著，馬斯克又隨即公布特斯拉基于純視覺(jué)方案的端到端自動(dòng)駕駛泊車功能將在這幾日推送，在Twitter上對(duì)FSD不惜溢美之詞的進(jìn)行宣揚(yáng)：開(kāi)特斯拉用FSD，幾乎哪兒都能去。

新版本發(fā)布后，海外媒體平臺(tái)充斥著該版本的測(cè)試視頻，不少網(wǎng)友對(duì)FSD V12.3.1在北美城市道路中的駕駛能力表達(dá)了贊嘆：Taht's so cool！

作為引領(lǐng)自動(dòng)駕駛風(fēng)向標(biāo)的特斯拉，已經(jīng)將端到端自動(dòng)駕駛的熱流從北美流入了國(guó)內(nèi)，又從輿論場(chǎng)的角逐帶到了今年3月15日-17日召開(kāi)的電動(dòng)汽車百人會(huì)的產(chǎn)業(yè)演講中來(lái)（以下簡(jiǎn)稱：百人會(huì)）。

端到端的風(fēng)暴，在中國(guó)正式打響了“第一槍“。

01.

純視覺(jué)在端到端中的“AB”面

隨著高速NOA走向城市NOA，自動(dòng)駕駛系統(tǒng)的復(fù)雜程度在大幅提升，數(shù)百萬(wàn)行的C++代碼對(duì)人工編寫規(guī)則方式帶來(lái)巨大的成本。

這時(shí)，完全基于人工智能和神經(jīng)網(wǎng)絡(luò)的感知模塊不會(huì)存在因?yàn)槭謩?dòng)編寫規(guī)則引發(fā)效率低下的困惑，所以現(xiàn)如今的行業(yè)風(fēng)向走到基于大模型的端到端自動(dòng)駕駛。

多家企業(yè)在今年百人會(huì)論壇中亮相了行業(yè)成果的殊榮，各家對(duì)于感知的技術(shù)路線看法也各有千秋。

去年，商湯的端到端自動(dòng)駕駛大模型UniAD入選了2023年CVPR最佳優(yōu)秀論文。

絕影是商湯智能汽車的板塊，商湯絕影智能汽車事業(yè)群總裁王曉剛在百人會(huì)上表示：“端到端的自動(dòng)駕駛UniAD，是今年我們自動(dòng)駕駛最大的突破，從高速到城區(qū)的領(lǐng)航，在這里可以看到場(chǎng)景日益復(fù)雜，需要大量的工程師每天去解決層出不窮的各種case。端到端自動(dòng)駕駛是數(shù)據(jù)驅(qū)動(dòng)，能夠?yàn)槲覀兏咝У亟鉀Q城區(qū)的領(lǐng)航，提供更加高效實(shí)踐的路徑?！?/p>

與傳統(tǒng)的的單模態(tài)模型相比，多模態(tài)大模型的優(yōu)點(diǎn)在于它可以從多個(gè)數(shù)據(jù)源中獲得更豐富的信息，從而提高模型的性能和魯棒性。

王曉剛還提到，商湯進(jìn)一步提出了多模態(tài)大模型自動(dòng)駕駛方案，這種方案的輸入，除了各種感知傳感器，系統(tǒng)的信息以外，還允許人機(jī)交互，通過(guò)自然語(yǔ)言作為輸入。當(dāng)自動(dòng)駕駛時(shí)覺(jué)得旁邊大車有壓迫感，如果想要離它遠(yuǎn)一點(diǎn)，或者想超車，都是可以通過(guò)語(yǔ)言模型進(jìn)行交互。

另外，輸出的時(shí)候不但可以輸出感知，還可以輸出規(guī)控，還可以對(duì)自動(dòng)駕駛做出的決策有解釋性。

毫末智行CEO顧維灝也發(fā)表了對(duì)多模態(tài)大模型的看法，基于毫末的的DriveGPT，顧維灝表示，DriveGPT最核心的能力是基于持續(xù)的多模態(tài)的視覺(jué)識(shí)別大模型。

“我們把它用Token化的表達(dá)方式進(jìn)行訓(xùn)練，再進(jìn)行三維化，這是我們做大模型很重要的技術(shù)基礎(chǔ)?！?/p>

DriveGPT是毫末智行研發(fā)的垂直領(lǐng)域大模型，在視覺(jué)大模型基礎(chǔ)上，毫末又構(gòu)建了多模態(tài)大模型，用以實(shí)現(xiàn)感知萬(wàn)物識(shí)別的能力。

顧維灝表示：“多模態(tài)放到視覺(jué)大模型里面，就會(huì)讓視覺(jué)三維的渲染、標(biāo)注、識(shí)別，能夠提前自動(dòng)化地理解這個(gè)照片里面，或者是說(shuō)前融合后的數(shù)據(jù)里面究竟這個(gè)桌子和講臺(tái)是怎么樣來(lái)分割的，所以加入了多模態(tài)大模型。在認(rèn)知模型里面，我們又加入了大語(yǔ)言的模型。大語(yǔ)言模型它不僅僅是自然的交互，它還有很多知識(shí)的理解?！?/p>

百度和火山更強(qiáng)調(diào)座艙大模型，共識(shí)是：認(rèn)為座艙大模型天生是多模態(tài)的場(chǎng)景。

百度的語(yǔ)音和大模型的一體化方案已經(jīng)在極越車上落地，百度智能云汽車行業(yè)解決方案總經(jīng)理肖猛認(rèn)為，2024年是座艙大模型的元年。

同時(shí)，極越還是目前國(guó)內(nèi)唯一采用純視覺(jué)自動(dòng)駕駛方案落地的車企，基于百度Apollo純視覺(jué)高階智駕能力和安全體系賦能，極越完成OCC（Occupancy Network，占用網(wǎng)絡(luò)）升級(jí)，已形成“B.O.T”（BEV+OCC+Transformer）完整技術(shù)體系。

與傳統(tǒng)的視覺(jué)方案相比，OCC的一個(gè)顯著優(yōu)勢(shì)在于它能夠處理未知或不常見(jiàn)的物體，降低了因未識(shí)別物體而可能引發(fā)的意外情況的風(fēng)險(xiǎn)。OCC還能夠以厘米級(jí)的精度對(duì)障礙物進(jìn)行三維建模。

3月26日，極越在其AI DAY2024技術(shù)大會(huì)上，發(fā)布了OTA V1.4.0新版軟件，升級(jí)涉及智能駕駛、智能座艙、智能互聯(lián)、三電等諸多領(lǐng)域，共計(jì)升級(jí)200多項(xiàng)功能。

當(dāng)OCC對(duì)應(yīng)在PPA（點(diǎn)到點(diǎn)領(lǐng)航輔助）功能上，就能使車輛擁有更合理的路線規(guī)劃，并實(shí)現(xiàn)更流暢的變道和繞行。

火山引擎汽車行業(yè)總經(jīng)理?xiàng)盍ピ谡劦酱竽Ｐ驮诟鱾€(gè)行業(yè)應(yīng)用時(shí)，發(fā)現(xiàn)汽車行業(yè)一個(gè)非常大的特點(diǎn)。

他表示：“手機(jī)目前交互形態(tài)還是基于觸摸屏幕，通過(guò)屏幕來(lái)交互的產(chǎn)品形態(tài)，所以這也是為什么我們看Siri和手機(jī)里面的語(yǔ)音助手做的不好，我相信座艙內(nèi)有非常便利的空間，目前沒(méi)有大模型的時(shí)候，我們座艙的語(yǔ)音交互的時(shí)長(zhǎng)和頻率已經(jīng)非常高，座艙是天生多模態(tài)的場(chǎng)景，機(jī)器想要跟人有互動(dòng)更好，大模型更像一個(gè)人機(jī)交互的操作系統(tǒng)和人機(jī)交互的智能品。這樣的話沒(méi)有多模態(tài)的能力是不行的?！?/p>

端到端是自動(dòng)駕駛研究和開(kāi)發(fā)領(lǐng)域的一個(gè)活躍研究方向，這是不爭(zhēng)的事實(shí)，但端到端自動(dòng)駕駛技術(shù)尚未成熟，跟隨特斯拉FSD V12的后來(lái)者雖多，但對(duì)于任何一家具備研發(fā)自動(dòng)駕駛技術(shù)能力的企業(yè)來(lái)說(shuō)，光是從普通架構(gòu)切換到端到端技術(shù)的單項(xiàng)成本就頗高。

楊立偉坦誠(chéng)地表達(dá)了這一觀點(diǎn)：大模型現(xiàn)在在整個(gè)汽車行業(yè)的應(yīng)用還是偏早期階段?！皠偛盼覀冞€在討論，目前是量的提升，沒(méi)有到質(zhì)變，隨著模型能力的迭代，以及模型從語(yǔ)言模型逐漸變成一個(gè)加上生成、加上多模態(tài)理解的能力，我相信在今年年底、明年可能會(huì)期待有質(zhì)變的產(chǎn)生，從務(wù)實(shí)的角度來(lái)看，大模型目前階段只是一個(gè)初步的階段?！?/p>

感知固然重要，它提供了必要的信息輸入，是司機(jī)的“眼睛與耳朵”，與它同樣重要的，還有被業(yè)界及科研機(jī)構(gòu)不斷研究的認(rèn)知，涉及到規(guī)劃、決策和應(yīng)對(duì)復(fù)雜或緊急情況的能力，相當(dāng)于司機(jī)的“大腦”。

而只有當(dāng)大模型作為自動(dòng)駕駛的駕駛員，在認(rèn)知層面遠(yuǎn)超于人類時(shí)，才能做出超出人類的決策能力，這時(shí)，感知、認(rèn)知會(huì)不斷迭代，甚至超出人類認(rèn)知的上限，自動(dòng)駕駛才會(huì)迎來(lái)真正所謂的GPT、IPhone時(shí)刻。

北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍在百人會(huì)上對(duì)當(dāng)下自動(dòng)駕駛發(fā)展階段進(jìn)行了總結(jié)：

第一個(gè)階段：只關(guān)心感知精度，缺乏認(rèn)知的階段，現(xiàn)在大部分車還處于這一階段，就是L2、L3還很難，因?yàn)槟阒魂P(guān)心感知，不關(guān)心認(rèn)知，這是肯定有問(wèn)題的。

第二個(gè)階段：特斯拉的FSD，但是他也不是真正的大模型，他只是用了Transformer，還是學(xué)人類的駕駛行為。但未來(lái)一定是對(duì)世界的深度認(rèn)知，加上很強(qiáng)感知的時(shí)代。

不過(guò)目前，基于純視覺(jué)方案的端到端自動(dòng)駕駛，仍被很多主機(jī)廠認(rèn)為是跨越鴻溝的必經(jīng)之路。

因?yàn)椴恍枰罅康娜斯げ呗?、只需要采集足夠多的?yōu)質(zhì)駕駛數(shù)據(jù)來(lái)訓(xùn)練即可，可以通過(guò)規(guī)模化的方式不斷擴(kuò)展數(shù)據(jù)來(lái)不斷提升系統(tǒng)的能力上限。

但這種簡(jiǎn)單也隱藏了巨大風(fēng)險(xiǎn)。

完全基于視覺(jué)的端到端自動(dòng)駕駛不具備傳統(tǒng)自動(dòng)駕駛系統(tǒng)的“透明性”，傳統(tǒng)自動(dòng)駕駛即模塊化方法，端到端自動(dòng)駕駛是一體化方法，不產(chǎn)生中間結(jié)果，直接通過(guò)圖像輸入，直接輸出控制信號(hào)，但這種技術(shù)路線也存在徹底黑盒，解釋性差的問(wèn)題。

同時(shí)，端到端模型的訓(xùn)練需要處理大量的數(shù)據(jù)，包括多模態(tài)視覺(jué)數(shù)據(jù)和車輛控制信號(hào)等。

02.
當(dāng)大模型訓(xùn)練的“暴力美學(xué)”應(yīng)用在自動(dòng)駕駛上

端到端可以類比做GPT-4語(yǔ)言模型，通過(guò)收集海量的數(shù)據(jù)加上訓(xùn)練而實(shí)現(xiàn)的。

以特斯拉為例，通過(guò)遍布全球的幾百萬(wàn)輛量產(chǎn)車，可以采集到足夠豐富、足夠多樣的數(shù)據(jù)，再?gòu)闹羞x出高質(zhì)量數(shù)據(jù)，在云端使用數(shù)萬(wàn)張GPU、以及自研的DOJO進(jìn)行訓(xùn)練和驗(yàn)證，使得端到端自動(dòng)駕駛能夠從paper變成product。

OpenAI的秘訣一直以來(lái)是屢試不爽的Scaling Law——當(dāng)數(shù)據(jù)和算力足夠多，足夠大，就會(huì)產(chǎn)生智能涌現(xiàn)的能力。

直到Scaling Law在這次百人會(huì)中被諸多次提及，意味著自動(dòng)駕駛的成熟需要“暴力美學(xué)”來(lái)催化，而背后是高昂的算力支出來(lái)支撐。

黃鐵軍在百人會(huì)上明確強(qiáng)調(diào)了大模型未來(lái)超越人類的關(guān)鍵不是靠概率，靠的正是對(duì)海量語(yǔ)料，數(shù)據(jù)背后精確的理解。

顧維灝表示，伴隨著人工智能和大模型的發(fā)展，自動(dòng)駕駛迎來(lái)了第三個(gè)階段：數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。

或許可以這么理解：大部分代碼都不是工程師來(lái)寫，這些工程師從第二個(gè)階段的“軟件驅(qū)動(dòng)的時(shí)代”來(lái)到了第三個(gè)階段的“數(shù)據(jù)驅(qū)動(dòng)時(shí)代”，解放了過(guò)去寫軟件的雙手，所有的工程師都是在準(zhǔn)備數(shù)據(jù)、準(zhǔn)備環(huán)境、訓(xùn)練模型、檢驗(yàn)最后的結(jié)果、調(diào)整結(jié)構(gòu)、調(diào)整參數(shù)等工作。

最近一段時(shí)間的發(fā)展，顧維灝認(rèn)為或許是自動(dòng)駕駛的3.0時(shí)代?！懊恳粋€(gè)時(shí)代里面的感知、認(rèn)知和模型是什么樣方式來(lái)實(shí)現(xiàn)的，都完全不一樣。”他說(shuō)。

智能駕駛1.0 時(shí)代，是以硬件驅(qū)動(dòng)為主；2.0 時(shí)代，是以軟件驅(qū)動(dòng)為主；3.0 時(shí)代，則是數(shù)據(jù)驅(qū)動(dòng)為主的大模型時(shí)代。

“端到端一定是未來(lái)很重要的方向，但它不會(huì)這么快到來(lái)，”顧維灝表示。他認(rèn)為還需要幾年的發(fā)展?！鞍堰^(guò)去的離散的部分逐漸地聚集化、模型化，把感知的模型聚集到一塊，把認(rèn)知的模型聚集到一塊，控制的模型聚集到一塊，然后再來(lái)實(shí)踐車端模型和云端模型的聯(lián)動(dòng)。”

在 3.0 時(shí)代中，顧維灝指出端到端是最重要的方向，目前行業(yè)的發(fā)展趨勢(shì)是一個(gè)從分散到聚集的過(guò)程。

在談到算力需求時(shí)，王曉剛認(rèn)為，過(guò)去發(fā)展的過(guò)程當(dāng)中，從2012年AlexNet出現(xiàn)，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)大規(guī)模的應(yīng)用，對(duì)于算力的需求是上千倍的提升。隨著ChatGPT、GPT-4，甚至更大規(guī)模的大模型，我們有上億倍算力需求的提升。

如何分配技術(shù)和下一代技術(shù)算力的精力、資源也是一針見(jiàn)血的問(wèn)題。

百度智能駕駛事業(yè)群組首席研發(fā)架構(gòu)師王亮在百人會(huì)活動(dòng)上接受媒體采訪時(shí)透露：“我們選擇純視覺(jué)路線，放棄了激光雷達(dá)把它拿掉也是資源的原因。我們希望把所有算力、數(shù)據(jù)、處理資源、人才、模型參數(shù)規(guī)模都給到純視覺(jué)，看準(zhǔn)了就把資源all in上去，同時(shí)也會(huì)保留一批像滾筒式的迭代?！?/p>

王亮很明確的一點(diǎn)是，初速度決定了產(chǎn)品原型的研發(fā)速度，這點(diǎn)上激光雷達(dá)占優(yōu)，能讓感知算法實(shí)現(xiàn)的難度大幅降低。

而視覺(jué)的初速度慢得多，從二維像素恢復(fù)三維信息是計(jì)算機(jī)視覺(jué)領(lǐng)的難題，不過(guò)一但技術(shù)進(jìn)入軌道，圖像里天然蘊(yùn)含的信息量?jī)?yōu)勢(shì)會(huì)在其在迭代加速度上更迅猛。

特斯拉 CEO 埃隆·馬斯克（Elon Musk）去年在財(cái)報(bào)會(huì)上談到了數(shù)據(jù)對(duì)自動(dòng)駕駛模型的重要性：“用 100 萬(wàn)個(gè)視頻 case 訓(xùn)練，勉強(qiáng)夠用；200 萬(wàn)個(gè)，稍好一些；300 萬(wàn)個(gè)，就會(huì)感到 Wow；到了 1000 萬(wàn)個(gè)，就變得難以置信了?！?/p>

而只有當(dāng)算法不斷被創(chuàng)新滿足，足夠高算力的智能駕駛芯片才會(huì)誕生。

03.
時(shí)代呼喚“端到端”到機(jī)器人領(lǐng)域

智駕時(shí)代變革起點(diǎn)是汽車“駕駛權(quán)”由人類向AI轉(zhuǎn)移，但遠(yuǎn)不止于此。端到端模型的潛力如果繼續(xù)迭代下去，可能會(huì)做出物理世界的AGI。

目前，F(xiàn)SD V 12的算法體系同時(shí)應(yīng)用在了人形機(jī)器人及汽車上，加速提升識(shí)別算法的泛化能力。

如果說(shuō)各家公司將戰(zhàn)略目標(biāo)放淺至5年來(lái)看，可能是推動(dòng)端到端模型上量產(chǎn)車積累算法數(shù)據(jù)，但如果拉長(zhǎng)，則是希望找到一條通過(guò)具體的實(shí)體與現(xiàn)實(shí)世界直接接觸和互動(dòng)——即具身智能（Embodied AI），它不再僅僅是軟件和算法的集合。

如果你有參加2024年的GTC，會(huì)發(fā)現(xiàn)黃仁勛在GTC上的主要敘事也是圍繞具身智能，而不是LLM。

阿里云智能集團(tuán)副總裁李強(qiáng)在百人會(huì)上的演講中，非常篤定的表達(dá)“具身智能”已成為大模型公司的下一重點(diǎn)共識(shí)，同時(shí)李強(qiáng)還提出了“具車智能”的概念。

而一個(gè)能承載更多想象的具車智能，最關(guān)鍵甚至起到?jīng)Q定性作用的技術(shù)底座一定是強(qiáng)大的基礎(chǔ)模型。

怎么誕生強(qiáng)大的基礎(chǔ)模型？李強(qiáng)總結(jié)為幾點(diǎn)：全規(guī)格和開(kāi)源。他認(rèn)為與友商大模型最核心的區(qū)別在于開(kāi)源。從算力角度來(lái)看，李強(qiáng)更希望未來(lái)能夠?yàn)樗械哪Ｐ凸?，包括未?lái)更多的開(kāi)源模型一起提供一個(gè)異構(gòu)的基礎(chǔ)設(shè)施。

而在具身智能的世界里，端到端自動(dòng)駕駛又被視為一個(gè)子集，專注于智能體如何通過(guò)感知來(lái)指導(dǎo)行動(dòng)，在自動(dòng)駕駛的背景下，這意味著車輛需要理解周圍環(huán)境并據(jù)此做出駕駛決策。

這種尤其強(qiáng)調(diào)動(dòng)態(tài)交互和深度學(xué)習(xí)的具身智能，往往比端到端自動(dòng)駕駛系統(tǒng)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量性和泛化性能力。不過(guò)，“暴力美學(xué)”是否可以同樣應(yīng)用在機(jī)器人上，目前還沒(méi)有一家實(shí)現(xiàn)的公司。

接下來(lái)，讓我們一起等待機(jī)器人領(lǐng)域的Scaling Law時(shí)刻吧。

打賞

相關(guān)標(biāo)簽：

端到端自動(dòng)駕駛具身智能

王欣什么都看看

專欄作者|57篇文章

相關(guān)文章全部

?“乾崑”落地，華為車BU開(kāi)啟靳玉志時(shí)代 2024-04-28 11:44
吉利銀河混動(dòng)系列至高優(yōu)惠 2.5 萬(wàn)元，主銷價(jià)格下探至10-15萬(wàn)元區(qū)間 2024-04-28 11:42
Nullmax打造的平臺(tái)化智能駕駛方案MaxDrive智能駕駛產(chǎn)品亮相北京車展 2024-04-28 11:32