智駕網(wǎng) 2024-03-28 12:00
具身智能時(shí)代呼喚“端到端”
分享
“隨著模型能力的迭代,以及模型從語(yǔ)言模型逐漸變成一個(gè)加上生成、多模態(tài)理解的能力,相信在今年年底、明年可能會(huì)期待有質(zhì)變的產(chǎn)生,從務(wù)實(shí)的角度來(lái)看,大模型目前階段只是一個(gè)初步的階段?!?

一輛搭載著FSD V12.3.1 Beta的特斯拉穿梭在舊金山市鬧區(qū)的傍晚,依靠純視覺(jué)端到端的方案完成了從車位駛出到目的地??柯愤叺慕z滑操作。


圖片


馬斯克幾乎會(huì)以每?jī)芍艿墓?jié)奏對(duì)FSD進(jìn)行一次“大改”,直到這次FSD V12.3.1 Beta的更新。


3月25日,馬斯克向全體特斯拉員工發(fā)了一封郵件,要求必須為北美地區(qū)提車的客戶演示并安裝激活FSD V12.3.1 Beta,并在交車前讓客戶進(jìn)行短暫的試駕。希望讓人們意識(shí)到FSD確實(shí)有效。


圖片


緊接著,馬斯克又隨即公布特斯拉基于純視覺(jué)方案的端到端自動(dòng)駕駛泊車功能將在這幾日推送,在Twitter上對(duì)FSD不惜溢美之詞的進(jìn)行宣揚(yáng):開(kāi)特斯拉用FSD,幾乎哪兒都能去。


新版本發(fā)布后,海外媒體平臺(tái)充斥著該版本的測(cè)試視頻,不少網(wǎng)友對(duì)FSD V12.3.1在北美城市道路中的駕駛能力表達(dá)了贊嘆:Taht's so cool!


作為引領(lǐng)自動(dòng)駕駛風(fēng)向標(biāo)的特斯拉,已經(jīng)將端到端自動(dòng)駕駛的熱流從北美流入了國(guó)內(nèi),又從輿論場(chǎng)的角逐帶到了今年3月15日-17日召開(kāi)的電動(dòng)汽車百人會(huì)的產(chǎn)業(yè)演講中來(lái)(以下簡(jiǎn)稱:百人會(huì))。


端到端的風(fēng)暴,在中國(guó)正式打響了“第一槍“。


01.

純視覺(jué)在端到端中的“AB”面


隨著高速NOA走向城市NOA,自動(dòng)駕駛系統(tǒng)的復(fù)雜程度在大幅提升,數(shù)百萬(wàn)行的C++代碼對(duì)人工編寫規(guī)則方式帶來(lái)巨大的成本。


這時(shí),完全基于人工智能和神經(jīng)網(wǎng)絡(luò)的感知模塊不會(huì)存在因?yàn)槭謩?dòng)編寫規(guī)則引發(fā)效率低下的困惑,所以現(xiàn)如今的行業(yè)風(fēng)向走到基于大模型的端到端自動(dòng)駕駛。


多家企業(yè)在今年百人會(huì)論壇中亮相了行業(yè)成果的殊榮,各家對(duì)于感知的技術(shù)路線看法也各有千秋。


去年,商湯的端到端自動(dòng)駕駛大模型UniAD入選了2023年CVPR最佳優(yōu)秀論文。


圖片


絕影是商湯智能汽車的板塊,商湯絕影智能汽車事業(yè)群總裁王曉剛在百人會(huì)上表示:“端到端的自動(dòng)駕駛UniAD,是今年我們自動(dòng)駕駛最大的突破,從高速到城區(qū)的領(lǐng)航,在這里可以看到場(chǎng)景日益復(fù)雜,需要大量的工程師每天去解決層出不窮的各種case。端到端自動(dòng)駕駛是數(shù)據(jù)驅(qū)動(dòng),能夠?yàn)槲覀兏咝У亟鉀Q城區(qū)的領(lǐng)航,提供更加高效實(shí)踐的路徑?!?/p>


與傳統(tǒng)的的單模態(tài)模型相比,多模態(tài)大模型的優(yōu)點(diǎn)在于它可以從多個(gè)數(shù)據(jù)源中獲得更豐富的信息,從而提高模型的性能和魯棒性。


王曉剛還提到,商湯進(jìn)一步提出了多模態(tài)大模型自動(dòng)駕駛方案,這種方案的輸入,除了各種感知傳感器,系統(tǒng)的信息以外,還允許人機(jī)交互,通過(guò)自然語(yǔ)言作為輸入。當(dāng)自動(dòng)駕駛時(shí)覺(jué)得旁邊大車有壓迫感,如果想要離它遠(yuǎn)一點(diǎn),或者想超車,都是可以通過(guò)語(yǔ)言模型進(jìn)行交互。


另外,輸出的時(shí)候不但可以輸出感知,還可以輸出規(guī)控,還可以對(duì)自動(dòng)駕駛做出的決策有解釋性。


毫末智行CEO顧維灝也發(fā)表了對(duì)多模態(tài)大模型的看法,基于毫末的的DriveGPT,顧維灝表示,DriveGPT最核心的能力是基于持續(xù)的多模態(tài)的視覺(jué)識(shí)別大模型。


“我們把它用Token化的表達(dá)方式進(jìn)行訓(xùn)練,再進(jìn)行三維化,這是我們做大模型很重要的技術(shù)基礎(chǔ)?!?/p>


DriveGPT是毫末智行研發(fā)的垂直領(lǐng)域大模型,在視覺(jué)大模型基礎(chǔ)上,毫末又構(gòu)建了多模態(tài)大模型,用以實(shí)現(xiàn)感知萬(wàn)物識(shí)別的能力。


顧維灝表示:“多模態(tài)放到視覺(jué)大模型里面,就會(huì)讓視覺(jué)三維的渲染、標(biāo)注、識(shí)別,能夠提前自動(dòng)化地理解這個(gè)照片里面,或者是說(shuō)前融合后的數(shù)據(jù)里面究竟這個(gè)桌子和講臺(tái)是怎么樣來(lái)分割的,所以加入了多模態(tài)大模型。在認(rèn)知模型里面,我們又加入了大語(yǔ)言的模型。大語(yǔ)言模型它不僅僅是自然的交互,它還有很多知識(shí)的理解?!?/p>


百度和火山更強(qiáng)調(diào)座艙大模型,共識(shí)是:認(rèn)為座艙大模型天生是多模態(tài)的場(chǎng)景。


百度的語(yǔ)音和大模型的一體化方案已經(jīng)在極越車上落地,百度智能云汽車行業(yè)解決方案總經(jīng)理肖猛認(rèn)為,2024年是座艙大模型的元年。


圖片


同時(shí),極越還是目前國(guó)內(nèi)唯一采用純視覺(jué)自動(dòng)駕駛方案落地的車企,基于百度Apollo純視覺(jué)高階智駕能力和安全體系賦能,極越完成OCC(Occupancy Network,占用網(wǎng)絡(luò))升級(jí),已形成“B.O.T”(BEV+OCC+Transformer)完整技術(shù)體系。


與傳統(tǒng)的視覺(jué)方案相比,OCC的一個(gè)顯著優(yōu)勢(shì)在于它能夠處理未知或不常見(jiàn)的物體,降低了因未識(shí)別物體而可能引發(fā)的意外情況的風(fēng)險(xiǎn)。OCC還能夠以厘米級(jí)的精度對(duì)障礙物進(jìn)行三維建模。


3月26日,極越在其AI DAY2024技術(shù)大會(huì)上,發(fā)布了OTA V1.4.0新版軟件,升級(jí)涉及智能駕駛、智能座艙、智能互聯(lián)、三電等諸多領(lǐng)域,共計(jì)升級(jí)200多項(xiàng)功能。


圖片


當(dāng)OCC對(duì)應(yīng)在PPA(點(diǎn)到點(diǎn)領(lǐng)航輔助)功能上,就能使車輛擁有更合理的路線規(guī)劃,并實(shí)現(xiàn)更流暢的變道和繞行。


圖片


火山引擎汽車行業(yè)總經(jīng)理?xiàng)盍ピ谡劦酱竽P驮诟鱾€(gè)行業(yè)應(yīng)用時(shí),發(fā)現(xiàn)汽車行業(yè)一個(gè)非常大的特點(diǎn)。


他表示:“手機(jī)目前交互形態(tài)還是基于觸摸屏幕,通過(guò)屏幕來(lái)交互的產(chǎn)品形態(tài),所以這也是為什么我們看Siri和手機(jī)里面的語(yǔ)音助手做的不好,我相信座艙內(nèi)有非常便利的空間,目前沒(méi)有大模型的時(shí)候,我們座艙的語(yǔ)音交互的時(shí)長(zhǎng)和頻率已經(jīng)非常高,座艙是天生多模態(tài)的場(chǎng)景,機(jī)器想要跟人有互動(dòng)更好,大模型更像一個(gè)人機(jī)交互的操作系統(tǒng)和人機(jī)交互的智能品。這樣的話沒(méi)有多模態(tài)的能力是不行的?!?/p>


端到端是自動(dòng)駕駛研究和開(kāi)發(fā)領(lǐng)域的一個(gè)活躍研究方向,這是不爭(zhēng)的事實(shí),但端到端自動(dòng)駕駛技術(shù)尚未成熟,跟隨特斯拉FSD V12的后來(lái)者雖多,但對(duì)于任何一家具備研發(fā)自動(dòng)駕駛技術(shù)能力的企業(yè)來(lái)說(shuō),光是從普通架構(gòu)切換到端到端技術(shù)的單項(xiàng)成本就頗高。


楊立偉坦誠(chéng)地表達(dá)了這一觀點(diǎn):大模型現(xiàn)在在整個(gè)汽車行業(yè)的應(yīng)用還是偏早期階段?!皠偛盼覀冞€在討論,目前是量的提升,沒(méi)有到質(zhì)變,隨著模型能力的迭代,以及模型從語(yǔ)言模型逐漸變成一個(gè)加上生成、加上多模態(tài)理解的能力,我相信在今年年底、明年可能會(huì)期待有質(zhì)變的產(chǎn)生,從務(wù)實(shí)的角度來(lái)看,大模型目前階段只是一個(gè)初步的階段?!?/p>


感知固然重要,它提供了必要的信息輸入,是司機(jī)的“眼睛與耳朵”,與它同樣重要的,還有被業(yè)界及科研機(jī)構(gòu)不斷研究的認(rèn)知,涉及到規(guī)劃、決策和應(yīng)對(duì)復(fù)雜或緊急情況的能力,相當(dāng)于司機(jī)的“大腦”。


圖片


而只有當(dāng)大模型作為自動(dòng)駕駛的駕駛員,在認(rèn)知層面遠(yuǎn)超于人類時(shí),才能做出超出人類的決策能力,這時(shí),感知、認(rèn)知會(huì)不斷迭代,甚至超出人類認(rèn)知的上限,自動(dòng)駕駛才會(huì)迎來(lái)真正所謂的GPT、IPhone時(shí)刻。


北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍在百人會(huì)上對(duì)當(dāng)下自動(dòng)駕駛發(fā)展階段進(jìn)行了總結(jié):


第一個(gè)階段:只關(guān)心感知精度,缺乏認(rèn)知的階段,現(xiàn)在大部分車還處于這一階段,就是L2、L3還很難,因?yàn)槟阒魂P(guān)心感知,不關(guān)心認(rèn)知,這是肯定有問(wèn)題的。


第二個(gè)階段:特斯拉的FSD,但是他也不是真正的大模型,他只是用了Transformer,還是學(xué)人類的駕駛行為。但未來(lái)一定是對(duì)世界的深度認(rèn)知,加上很強(qiáng)感知的時(shí)代。


不過(guò)目前,基于純視覺(jué)方案的端到端自動(dòng)駕駛,仍被很多主機(jī)廠認(rèn)為是跨越鴻溝的必經(jīng)之路。


圖片


因?yàn)椴恍枰罅康娜斯げ呗?、只需要采集足夠多的?yōu)質(zhì)駕駛數(shù)據(jù)來(lái)訓(xùn)練即可,可以通過(guò)規(guī)模化的方式不斷擴(kuò)展數(shù)據(jù)來(lái)不斷提升系統(tǒng)的能力上限。


但這種簡(jiǎn)單也隱藏了巨大風(fēng)險(xiǎn)。


完全基于視覺(jué)的端到端自動(dòng)駕駛不具備傳統(tǒng)自動(dòng)駕駛系統(tǒng)的“透明性”,傳統(tǒng)自動(dòng)駕駛即模塊化方法,端到端自動(dòng)駕駛是一體化方法,不產(chǎn)生中間結(jié)果,直接通過(guò)圖像輸入,直接輸出控制信號(hào),但這種技術(shù)路線也存在徹底黑盒,解釋性差的問(wèn)題。


同時(shí),端到端模型的訓(xùn)練需要處理大量的數(shù)據(jù),包括多模態(tài)視覺(jué)數(shù)據(jù)和車輛控制信號(hào)等。


02.
當(dāng)大模型訓(xùn)練的“暴力美學(xué)”應(yīng)用在自動(dòng)駕駛上


端到端可以類比做GPT-4語(yǔ)言模型,通過(guò)收集海量的數(shù)據(jù)加上訓(xùn)練而實(shí)現(xiàn)的。


以特斯拉為例,通過(guò)遍布全球的幾百萬(wàn)輛量產(chǎn)車,可以采集到足夠豐富、足夠多樣的數(shù)據(jù),再?gòu)闹羞x出高質(zhì)量數(shù)據(jù),在云端使用數(shù)萬(wàn)張GPU、以及自研的DOJO進(jìn)行訓(xùn)練和驗(yàn)證,使得端到端自動(dòng)駕駛能夠從paper變成product。


OpenAI的秘訣一直以來(lái)是屢試不爽的Scaling Law——當(dāng)數(shù)據(jù)和算力足夠多,足夠大,就會(huì)產(chǎn)生智能涌現(xiàn)的能力。


圖片


直到Scaling Law在這次百人會(huì)中被諸多次提及,意味著自動(dòng)駕駛的成熟需要“暴力美學(xué)”來(lái)催化,而背后是高昂的算力支出來(lái)支撐。


黃鐵軍在百人會(huì)上明確強(qiáng)調(diào)了大模型未來(lái)超越人類的關(guān)鍵不是靠概率,靠的正是對(duì)海量語(yǔ)料,數(shù)據(jù)背后精確的理解。


顧維灝表示,伴隨著人工智能和大模型的發(fā)展,自動(dòng)駕駛迎來(lái)了第三個(gè)階段:數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。


或許可以這么理解:大部分代碼都不是工程師來(lái)寫,這些工程師從第二個(gè)階段的“軟件驅(qū)動(dòng)的時(shí)代”來(lái)到了第三個(gè)階段的“數(shù)據(jù)驅(qū)動(dòng)時(shí)代”,解放了過(guò)去寫軟件的雙手,所有的工程師都是在準(zhǔn)備數(shù)據(jù)、準(zhǔn)備環(huán)境、訓(xùn)練模型、檢驗(yàn)最后的結(jié)果、調(diào)整結(jié)構(gòu)、調(diào)整參數(shù)等工作。


最近一段時(shí)間的發(fā)展,顧維灝認(rèn)為或許是自動(dòng)駕駛的3.0時(shí)代?!懊恳粋€(gè)時(shí)代里面的感知、認(rèn)知和模型是什么樣方式來(lái)實(shí)現(xiàn)的,都完全不一樣?!彼f(shuō)。


智能駕駛1.0 時(shí)代,是以硬件驅(qū)動(dòng)為主;2.0 時(shí)代,是以軟件驅(qū)動(dòng)為主;3.0 時(shí)代,則是數(shù)據(jù)驅(qū)動(dòng)為主的大模型時(shí)代。


“端到端一定是未來(lái)很重要的方向,但它不會(huì)這么快到來(lái),”顧維灝表示。他認(rèn)為還需要幾年的發(fā)展?!鞍堰^(guò)去的離散的部分逐漸地聚集化、模型化,把感知的模型聚集到一塊,把認(rèn)知的模型聚集到一塊,控制的模型聚集到一塊,然后再來(lái)實(shí)踐車端模型和云端模型的聯(lián)動(dòng)?!?/p>


在 3.0 時(shí)代中,顧維灝指出端到端是最重要的方向,目前行業(yè)的發(fā)展趨勢(shì)是一個(gè)從分散到聚集的過(guò)程。


在談到算力需求時(shí),王曉剛認(rèn)為,過(guò)去發(fā)展的過(guò)程當(dāng)中,從2012年AlexNet出現(xiàn),深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)大規(guī)模的應(yīng)用,對(duì)于算力的需求是上千倍的提升。隨著ChatGPT、GPT-4,甚至更大規(guī)模的大模型,我們有上億倍算力需求的提升。


如何分配技術(shù)和下一代技術(shù)算力的精力、資源也是一針見(jiàn)血的問(wèn)題。


百度智能駕駛事業(yè)群組首席研發(fā)架構(gòu)師王亮在百人會(huì)活動(dòng)上接受媒體采訪時(shí)透露:“我們選擇純視覺(jué)路線,放棄了激光雷達(dá)把它拿掉也是資源的原因。我們希望把所有算力、數(shù)據(jù)、處理資源、人才、模型參數(shù)規(guī)模都給到純視覺(jué),看準(zhǔn)了就把資源all in上去,同時(shí)也會(huì)保留一批像滾筒式的迭代。”


王亮很明確的一點(diǎn)是,初速度決定了產(chǎn)品原型的研發(fā)速度,這點(diǎn)上激光雷達(dá)占優(yōu),能讓感知算法實(shí)現(xiàn)的難度大幅降低。


而視覺(jué)的初速度慢得多,從二維像素恢復(fù)三維信息是計(jì)算機(jī)視覺(jué)領(lǐng)的難題,不過(guò)一但技術(shù)進(jìn)入軌道,圖像里天然蘊(yùn)含的信息量?jī)?yōu)勢(shì)會(huì)在其在迭代加速度上更迅猛。


特斯拉 CEO 埃隆·馬斯克(Elon Musk)去年在財(cái)報(bào)會(huì)上談到了數(shù)據(jù)對(duì)自動(dòng)駕駛模型的重要性:“用 100 萬(wàn)個(gè)視頻 case 訓(xùn)練,勉強(qiáng)夠用;200 萬(wàn)個(gè),稍好一些;300 萬(wàn)個(gè),就會(huì)感到 Wow;到了 1000 萬(wàn)個(gè),就變得難以置信了?!?/p>


而只有當(dāng)算法不斷被創(chuàng)新滿足,足夠高算力的智能駕駛芯片才會(huì)誕生。


03.
時(shí)代呼喚“端到端”到機(jī)器人領(lǐng)域


智駕時(shí)代變革起點(diǎn)是汽車“駕駛權(quán)”由人類向AI轉(zhuǎn)移,但遠(yuǎn)不止于此。端到端模型的潛力如果繼續(xù)迭代下去,可能會(huì)做出物理世界的AGI。


目前,F(xiàn)SD V 12的算法體系同時(shí)應(yīng)用在了人形機(jī)器人及汽車上,加速提升識(shí)別算法的泛化能力。


如果說(shuō)各家公司將戰(zhàn)略目標(biāo)放淺至5年來(lái)看,可能是推動(dòng)端到端模型上量產(chǎn)車積累算法數(shù)據(jù),但如果拉長(zhǎng),則是希望找到一條通過(guò)具體的實(shí)體與現(xiàn)實(shí)世界直接接觸和互動(dòng)——即具身智能(Embodied AI),它不再僅僅是軟件和算法的集合。


如果你有參加2024年的GTC,會(huì)發(fā)現(xiàn)黃仁勛在GTC上的主要敘事也是圍繞具身智能,而不是LLM。


阿里云智能集團(tuán)副總裁李強(qiáng)在百人會(huì)上的演講中,非常篤定的表達(dá)“具身智能”已成為大模型公司的下一重點(diǎn)共識(shí),同時(shí)李強(qiáng)還提出了“具車智能”的概念。


圖片


而一個(gè)能承載更多想象的具車智能,最關(guān)鍵甚至起到?jīng)Q定性作用的技術(shù)底座一定是強(qiáng)大的基礎(chǔ)模型。


怎么誕生強(qiáng)大的基礎(chǔ)模型?李強(qiáng)總結(jié)為幾點(diǎn):全規(guī)格和開(kāi)源。他認(rèn)為與友商大模型最核心的區(qū)別在于開(kāi)源。從算力角度來(lái)看,李強(qiáng)更希望未來(lái)能夠?yàn)樗械哪P凸?,包括未?lái)更多的開(kāi)源模型一起提供一個(gè)異構(gòu)的基礎(chǔ)設(shè)施。


而在具身智能的世界里,端到端自動(dòng)駕駛又被視為一個(gè)子集,專注于智能體如何通過(guò)感知來(lái)指導(dǎo)行動(dòng),在自動(dòng)駕駛的背景下,這意味著車輛需要理解周圍環(huán)境并據(jù)此做出駕駛決策。


這種尤其強(qiáng)調(diào)動(dòng)態(tài)交互和深度學(xué)習(xí)的具身智能,往往比端到端自動(dòng)駕駛系統(tǒng)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量性和泛化性能力。不過(guò),“暴力美學(xué)”是否可以同樣應(yīng)用在機(jī)器人上,目前還沒(méi)有一家實(shí)現(xiàn)的公司。


接下來(lái),讓我們一起等待機(jī)器人領(lǐng)域的Scaling Law時(shí)刻吧。

x

收藏 0
打賞
相關(guān)標(biāo)簽:
電話:010-65030507
郵箱:editor@autor.com.cn
地址:北京市朝陽(yáng)區(qū)朝外大街乙6號(hào)朝外SOHO D座5097室
北京智駕時(shí)代傳媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版權(quán)所有 AutoR智駕 智能汽車網(wǎng)
京ICP備14027737號(hào)-1      京公網(wǎng)安備 11010502038466號(hào)
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證:京B-20211307
關(guān)注官方微信