智駕網(wǎng) 2024-03-28 12:00
具身智能時代呼喚“端到端”
分享
“隨著模型能力的迭代,以及模型從語言模型逐漸變成一個加上生成、多模態(tài)理解的能力,相信在今年年底、明年可能會期待有質(zhì)變的產(chǎn)生,從務(wù)實(shí)的角度來看,大模型目前階段只是一個初步的階段。”

一輛搭載著FSD V12.3.1 Beta的特斯拉穿梭在舊金山市鬧區(qū)的傍晚,依靠純視覺端到端的方案完成了從車位駛出到目的地??柯愤叺慕z滑操作。


圖片


馬斯克幾乎會以每兩周的節(jié)奏對FSD進(jìn)行一次“大改”,直到這次FSD V12.3.1 Beta的更新。


3月25日,馬斯克向全體特斯拉員工發(fā)了一封郵件,要求必須為北美地區(qū)提車的客戶演示并安裝激活FSD V12.3.1 Beta,并在交車前讓客戶進(jìn)行短暫的試駕。希望讓人們意識到FSD確實(shí)有效。


圖片


緊接著,馬斯克又隨即公布特斯拉基于純視覺方案的端到端自動駕駛泊車功能將在這幾日推送,在Twitter上對FSD不惜溢美之詞的進(jìn)行宣揚(yáng):開特斯拉用FSD,幾乎哪兒都能去。


新版本發(fā)布后,海外媒體平臺充斥著該版本的測試視頻,不少網(wǎng)友對FSD V12.3.1在北美城市道路中的駕駛能力表達(dá)了贊嘆:Taht's so cool!


作為引領(lǐng)自動駕駛風(fēng)向標(biāo)的特斯拉,已經(jīng)將端到端自動駕駛的熱流從北美流入了國內(nèi),又從輿論場的角逐帶到了今年3月15日-17日召開的電動汽車百人會的產(chǎn)業(yè)演講中來(以下簡稱:百人會)。


端到端的風(fēng)暴,在中國正式打響了“第一槍“。


01.

純視覺在端到端中的“AB”面


隨著高速NOA走向城市NOA,自動駕駛系統(tǒng)的復(fù)雜程度在大幅提升,數(shù)百萬行的C++代碼對人工編寫規(guī)則方式帶來巨大的成本。


這時,完全基于人工智能和神經(jīng)網(wǎng)絡(luò)的感知模塊不會存在因?yàn)槭謩泳帉懸?guī)則引發(fā)效率低下的困惑,所以現(xiàn)如今的行業(yè)風(fēng)向走到基于大模型的端到端自動駕駛。


多家企業(yè)在今年百人會論壇中亮相了行業(yè)成果的殊榮,各家對于感知的技術(shù)路線看法也各有千秋。


去年,商湯的端到端自動駕駛大模型UniAD入選了2023年CVPR最佳優(yōu)秀論文。


圖片


絕影是商湯智能汽車的板塊,商湯絕影智能汽車事業(yè)群總裁王曉剛在百人會上表示:“端到端的自動駕駛UniAD,是今年我們自動駕駛最大的突破,從高速到城區(qū)的領(lǐng)航,在這里可以看到場景日益復(fù)雜,需要大量的工程師每天去解決層出不窮的各種case。端到端自動駕駛是數(shù)據(jù)驅(qū)動,能夠?yàn)槲覀兏咝У亟鉀Q城區(qū)的領(lǐng)航,提供更加高效實(shí)踐的路徑。”


與傳統(tǒng)的的單模態(tài)模型相比,多模態(tài)大模型的優(yōu)點(diǎn)在于它可以從多個數(shù)據(jù)源中獲得更豐富的信息,從而提高模型的性能和魯棒性。


王曉剛還提到,商湯進(jìn)一步提出了多模態(tài)大模型自動駕駛方案,這種方案的輸入,除了各種感知傳感器,系統(tǒng)的信息以外,還允許人機(jī)交互,通過自然語言作為輸入。當(dāng)自動駕駛時覺得旁邊大車有壓迫感,如果想要離它遠(yuǎn)一點(diǎn),或者想超車,都是可以通過語言模型進(jìn)行交互。


另外,輸出的時候不但可以輸出感知,還可以輸出規(guī)控,還可以對自動駕駛做出的決策有解釋性。


毫末智行CEO顧維灝也發(fā)表了對多模態(tài)大模型的看法,基于毫末的的DriveGPT,顧維灝表示,DriveGPT最核心的能力是基于持續(xù)的多模態(tài)的視覺識別大模型。


“我們把它用Token化的表達(dá)方式進(jìn)行訓(xùn)練,再進(jìn)行三維化,這是我們做大模型很重要的技術(shù)基礎(chǔ)?!?/p>


DriveGPT是毫末智行研發(fā)的垂直領(lǐng)域大模型,在視覺大模型基礎(chǔ)上,毫末又構(gòu)建了多模態(tài)大模型,用以實(shí)現(xiàn)感知萬物識別的能力。


顧維灝表示:“多模態(tài)放到視覺大模型里面,就會讓視覺三維的渲染、標(biāo)注、識別,能夠提前自動化地理解這個照片里面,或者是說前融合后的數(shù)據(jù)里面究竟這個桌子和講臺是怎么樣來分割的,所以加入了多模態(tài)大模型。在認(rèn)知模型里面,我們又加入了大語言的模型。大語言模型它不僅僅是自然的交互,它還有很多知識的理解?!?/p>


百度和火山更強(qiáng)調(diào)座艙大模型,共識是:認(rèn)為座艙大模型天生是多模態(tài)的場景。


百度的語音和大模型的一體化方案已經(jīng)在極越車上落地,百度智能云汽車行業(yè)解決方案總經(jīng)理肖猛認(rèn)為,2024年是座艙大模型的元年。


圖片


同時,極越還是目前國內(nèi)唯一采用純視覺自動駕駛方案落地的車企,基于百度Apollo純視覺高階智駕能力和安全體系賦能,極越完成OCC(Occupancy Network,占用網(wǎng)絡(luò))升級,已形成“B.O.T”(BEV+OCC+Transformer)完整技術(shù)體系。


與傳統(tǒng)的視覺方案相比,OCC的一個顯著優(yōu)勢在于它能夠處理未知或不常見的物體,降低了因未識別物體而可能引發(fā)的意外情況的風(fēng)險。OCC還能夠以厘米級的精度對障礙物進(jìn)行三維建模。


3月26日,極越在其AI DAY2024技術(shù)大會上,發(fā)布了OTA V1.4.0新版軟件,升級涉及智能駕駛、智能座艙、智能互聯(lián)、三電等諸多領(lǐng)域,共計升級200多項功能。


圖片


當(dāng)OCC對應(yīng)在PPA(點(diǎn)到點(diǎn)領(lǐng)航輔助)功能上,就能使車輛擁有更合理的路線規(guī)劃,并實(shí)現(xiàn)更流暢的變道和繞行。


圖片


火山引擎汽車行業(yè)總經(jīng)理楊立偉在談到大模型在各個行業(yè)應(yīng)用時,發(fā)現(xiàn)汽車行業(yè)一個非常大的特點(diǎn)。


他表示:“手機(jī)目前交互形態(tài)還是基于觸摸屏幕,通過屏幕來交互的產(chǎn)品形態(tài),所以這也是為什么我們看Siri和手機(jī)里面的語音助手做的不好,我相信座艙內(nèi)有非常便利的空間,目前沒有大模型的時候,我們座艙的語音交互的時長和頻率已經(jīng)非常高,座艙是天生多模態(tài)的場景,機(jī)器想要跟人有互動更好,大模型更像一個人機(jī)交互的操作系統(tǒng)和人機(jī)交互的智能品。這樣的話沒有多模態(tài)的能力是不行的?!?/p>


端到端是自動駕駛研究和開發(fā)領(lǐng)域的一個活躍研究方向,這是不爭的事實(shí),但端到端自動駕駛技術(shù)尚未成熟,跟隨特斯拉FSD V12的后來者雖多,但對于任何一家具備研發(fā)自動駕駛技術(shù)能力的企業(yè)來說,光是從普通架構(gòu)切換到端到端技術(shù)的單項成本就頗高。


楊立偉坦誠地表達(dá)了這一觀點(diǎn):大模型現(xiàn)在在整個汽車行業(yè)的應(yīng)用還是偏早期階段?!皠偛盼覀冞€在討論,目前是量的提升,沒有到質(zhì)變,隨著模型能力的迭代,以及模型從語言模型逐漸變成一個加上生成、加上多模態(tài)理解的能力,我相信在今年年底、明年可能會期待有質(zhì)變的產(chǎn)生,從務(wù)實(shí)的角度來看,大模型目前階段只是一個初步的階段?!?/p>


感知固然重要,它提供了必要的信息輸入,是司機(jī)的“眼睛與耳朵”,與它同樣重要的,還有被業(yè)界及科研機(jī)構(gòu)不斷研究的認(rèn)知,涉及到規(guī)劃、決策和應(yīng)對復(fù)雜或緊急情況的能力,相當(dāng)于司機(jī)的“大腦”。


圖片


而只有當(dāng)大模型作為自動駕駛的駕駛員,在認(rèn)知層面遠(yuǎn)超于人類時,才能做出超出人類的決策能力,這時,感知、認(rèn)知會不斷迭代,甚至超出人類認(rèn)知的上限,自動駕駛才會迎來真正所謂的GPT、IPhone時刻。


北京大學(xué)計算機(jī)學(xué)院教授黃鐵軍在百人會上對當(dāng)下自動駕駛發(fā)展階段進(jìn)行了總結(jié):


第一個階段:只關(guān)心感知精度,缺乏認(rèn)知的階段,現(xiàn)在大部分車還處于這一階段,就是L2、L3還很難,因?yàn)槟阒魂P(guān)心感知,不關(guān)心認(rèn)知,這是肯定有問題的。


第二個階段:特斯拉的FSD,但是他也不是真正的大模型,他只是用了Transformer,還是學(xué)人類的駕駛行為。但未來一定是對世界的深度認(rèn)知,加上很強(qiáng)感知的時代。


不過目前,基于純視覺方案的端到端自動駕駛,仍被很多主機(jī)廠認(rèn)為是跨越鴻溝的必經(jīng)之路。


圖片


因?yàn)椴恍枰罅康娜斯げ呗?、只需要采集足夠多的?yōu)質(zhì)駕駛數(shù)據(jù)來訓(xùn)練即可,可以通過規(guī)?;姆绞讲粩鄶U(kuò)展數(shù)據(jù)來不斷提升系統(tǒng)的能力上限。


但這種簡單也隱藏了巨大風(fēng)險。


完全基于視覺的端到端自動駕駛不具備傳統(tǒng)自動駕駛系統(tǒng)的“透明性”,傳統(tǒng)自動駕駛即模塊化方法,端到端自動駕駛是一體化方法,不產(chǎn)生中間結(jié)果,直接通過圖像輸入,直接輸出控制信號,但這種技術(shù)路線也存在徹底黑盒,解釋性差的問題。


同時,端到端模型的訓(xùn)練需要處理大量的數(shù)據(jù),包括多模態(tài)視覺數(shù)據(jù)和車輛控制信號等。


02.
當(dāng)大模型訓(xùn)練的“暴力美學(xué)”應(yīng)用在自動駕駛上


端到端可以類比做GPT-4語言模型,通過收集海量的數(shù)據(jù)加上訓(xùn)練而實(shí)現(xiàn)的。


以特斯拉為例,通過遍布全球的幾百萬輛量產(chǎn)車,可以采集到足夠豐富、足夠多樣的數(shù)據(jù),再從中選出高質(zhì)量數(shù)據(jù),在云端使用數(shù)萬張GPU、以及自研的DOJO進(jìn)行訓(xùn)練和驗(yàn)證,使得端到端自動駕駛能夠從paper變成product。


OpenAI的秘訣一直以來是屢試不爽的Scaling Law——當(dāng)數(shù)據(jù)和算力足夠多,足夠大,就會產(chǎn)生智能涌現(xiàn)的能力。


圖片


直到Scaling Law在這次百人會中被諸多次提及,意味著自動駕駛的成熟需要“暴力美學(xué)”來催化,而背后是高昂的算力支出來支撐。


黃鐵軍在百人會上明確強(qiáng)調(diào)了大模型未來超越人類的關(guān)鍵不是靠概率,靠的正是對海量語料,數(shù)據(jù)背后精確的理解。


顧維灝表示,伴隨著人工智能和大模型的發(fā)展,自動駕駛迎來了第三個階段:數(shù)據(jù)驅(qū)動的時代。


或許可以這么理解:大部分代碼都不是工程師來寫,這些工程師從第二個階段的“軟件驅(qū)動的時代”來到了第三個階段的“數(shù)據(jù)驅(qū)動時代”,解放了過去寫軟件的雙手,所有的工程師都是在準(zhǔn)備數(shù)據(jù)、準(zhǔn)備環(huán)境、訓(xùn)練模型、檢驗(yàn)最后的結(jié)果、調(diào)整結(jié)構(gòu)、調(diào)整參數(shù)等工作。


最近一段時間的發(fā)展,顧維灝認(rèn)為或許是自動駕駛的3.0時代?!懊恳粋€時代里面的感知、認(rèn)知和模型是什么樣方式來實(shí)現(xiàn)的,都完全不一樣。”他說。


智能駕駛1.0 時代,是以硬件驅(qū)動為主;2.0 時代,是以軟件驅(qū)動為主;3.0 時代,則是數(shù)據(jù)驅(qū)動為主的大模型時代。


“端到端一定是未來很重要的方向,但它不會這么快到來,”顧維灝表示。他認(rèn)為還需要幾年的發(fā)展?!鞍堰^去的離散的部分逐漸地聚集化、模型化,把感知的模型聚集到一塊,把認(rèn)知的模型聚集到一塊,控制的模型聚集到一塊,然后再來實(shí)踐車端模型和云端模型的聯(lián)動?!?/p>


在 3.0 時代中,顧維灝指出端到端是最重要的方向,目前行業(yè)的發(fā)展趨勢是一個從分散到聚集的過程。


在談到算力需求時,王曉剛認(rèn)為,過去發(fā)展的過程當(dāng)中,從2012年AlexNet出現(xiàn),深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)大規(guī)模的應(yīng)用,對于算力的需求是上千倍的提升。隨著ChatGPT、GPT-4,甚至更大規(guī)模的大模型,我們有上億倍算力需求的提升。


如何分配技術(shù)和下一代技術(shù)算力的精力、資源也是一針見血的問題。


百度智能駕駛事業(yè)群組首席研發(fā)架構(gòu)師王亮在百人會活動上接受媒體采訪時透露:“我們選擇純視覺路線,放棄了激光雷達(dá)把它拿掉也是資源的原因。我們希望把所有算力、數(shù)據(jù)、處理資源、人才、模型參數(shù)規(guī)模都給到純視覺,看準(zhǔn)了就把資源all in上去,同時也會保留一批像滾筒式的迭代。”


王亮很明確的一點(diǎn)是,初速度決定了產(chǎn)品原型的研發(fā)速度,這點(diǎn)上激光雷達(dá)占優(yōu),能讓感知算法實(shí)現(xiàn)的難度大幅降低。


而視覺的初速度慢得多,從二維像素恢復(fù)三維信息是計算機(jī)視覺領(lǐng)的難題,不過一但技術(shù)進(jìn)入軌道,圖像里天然蘊(yùn)含的信息量優(yōu)勢會在其在迭代加速度上更迅猛。


特斯拉 CEO 埃隆·馬斯克(Elon Musk)去年在財報會上談到了數(shù)據(jù)對自動駕駛模型的重要性:“用 100 萬個視頻 case 訓(xùn)練,勉強(qiáng)夠用;200 萬個,稍好一些;300 萬個,就會感到 Wow;到了 1000 萬個,就變得難以置信了?!?/p>


而只有當(dāng)算法不斷被創(chuàng)新滿足,足夠高算力的智能駕駛芯片才會誕生。


03.
時代呼喚“端到端”到機(jī)器人領(lǐng)域


智駕時代變革起點(diǎn)是汽車“駕駛權(quán)”由人類向AI轉(zhuǎn)移,但遠(yuǎn)不止于此。端到端模型的潛力如果繼續(xù)迭代下去,可能會做出物理世界的AGI。


目前,F(xiàn)SD V 12的算法體系同時應(yīng)用在了人形機(jī)器人及汽車上,加速提升識別算法的泛化能力。


如果說各家公司將戰(zhàn)略目標(biāo)放淺至5年來看,可能是推動端到端模型上量產(chǎn)車積累算法數(shù)據(jù),但如果拉長,則是希望找到一條通過具體的實(shí)體與現(xiàn)實(shí)世界直接接觸和互動——即具身智能(Embodied AI),它不再僅僅是軟件和算法的集合。


如果你有參加2024年的GTC,會發(fā)現(xiàn)黃仁勛在GTC上的主要敘事也是圍繞具身智能,而不是LLM。


阿里云智能集團(tuán)副總裁李強(qiáng)在百人會上的演講中,非常篤定的表達(dá)“具身智能”已成為大模型公司的下一重點(diǎn)共識,同時李強(qiáng)還提出了“具車智能”的概念。


圖片


而一個能承載更多想象的具車智能,最關(guān)鍵甚至起到?jīng)Q定性作用的技術(shù)底座一定是強(qiáng)大的基礎(chǔ)模型。


怎么誕生強(qiáng)大的基礎(chǔ)模型?李強(qiáng)總結(jié)為幾點(diǎn):全規(guī)格和開源。他認(rèn)為與友商大模型最核心的區(qū)別在于開源。從算力角度來看,李強(qiáng)更希望未來能夠?yàn)樗械哪P凸?,包括未來更多的開源模型一起提供一個異構(gòu)的基礎(chǔ)設(shè)施。


而在具身智能的世界里,端到端自動駕駛又被視為一個子集,專注于智能體如何通過感知來指導(dǎo)行動,在自動駕駛的背景下,這意味著車輛需要理解周圍環(huán)境并據(jù)此做出駕駛決策。


這種尤其強(qiáng)調(diào)動態(tài)交互和深度學(xué)習(xí)的具身智能,往往比端到端自動駕駛系統(tǒng)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量性和泛化性能力。不過,“暴力美學(xué)”是否可以同樣應(yīng)用在機(jī)器人上,目前還沒有一家實(shí)現(xiàn)的公司。


接下來,讓我們一起等待機(jī)器人領(lǐng)域的Scaling Law時刻吧。

x

收藏 0
打賞
相關(guān)標(biāo)簽:
電話:010-65030507
郵箱:editor@autor.com.cn
地址:北京市朝陽區(qū)朝外大街乙6號朝外SOHO D座5097室
北京智駕時代傳媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版權(quán)所有 AutoR智駕 智能汽車網(wǎng)
京ICP備14027737號-1      京公網(wǎng)安備 11010502038466號
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證:京B-20211307
關(guān)注官方微信