“端到端”在質(zhì)疑聲中紛紛落地,智駕頭部玩家?guī)缀醵稼s在了2024年末官宣了端到端的量產(chǎn)消息。
臨近2024年底,“端到端”的量產(chǎn)應(yīng)用成為高階智駕領(lǐng)域熱度最高的話題。以城市領(lǐng)航輔助為代表的高階智駕功能,從2023年的初現(xiàn)端倪,再到2024年的大規(guī)模落地,如今已經(jīng)成為各大車企爭奪高階智駕話語權(quán)的焦點(diǎn)。而高階智駕發(fā)展到今天的L2+級(jí)別,想要再上一個(gè)臺(tái)階達(dá)到L3級(jí)甚至更高,原有技術(shù)在面對(duì)復(fù)雜多變的城市道路時(shí)就顯得有點(diǎn)吃力了。于是,“端到端”成了智駕領(lǐng)域最近一個(gè)階段被高頻提及的關(guān)鍵詞。目前,官方宣布已經(jīng)落地端到端技術(shù)的車企越來越多,全球?qū)用娴牡谝粋€(gè)是特斯拉,國內(nèi)的第一個(gè)是小鵬。今年3月,特斯拉推出了FSD系統(tǒng)的V12版本,該版本宣稱刪除了幾十萬行的人工規(guī)則代碼,采用了端到端自動(dòng)駕駛解決方案。今年7月底,小鵬宣布向全球用戶全量推送AI天璣系統(tǒng)XOS 5.2.0版本,該版本采用了國內(nèi)首個(gè)量產(chǎn)端到端大模型,官方宣稱其高階智駕系統(tǒng)提升到了“全國都好用”的水平。在8月開幕的2024成都車展上,極越宣布PPA智駕升級(jí)為百度ASD,采用“純視覺+端到端大模型”的高階智駕方案在極越07上實(shí)現(xiàn)首搭。雖然更多的車企還沒有實(shí)現(xiàn)量產(chǎn)落地,但也在緊鑼密鼓地進(jìn)行著端到端技術(shù)的研發(fā)。蔚來在年中成立了大模型團(tuán)隊(duì),小米也將智駕技術(shù)研發(fā)團(tuán)隊(duì)的感知與規(guī)控兩個(gè)部門合二為一。8月初,梅賽德斯-奔馳則在上海研發(fā)中心宣布,全新一代自動(dòng)駕駛系統(tǒng)的“無圖”L2++城市領(lǐng)航輔助已經(jīng)開始測(cè)試,并且應(yīng)用了端到端大模型。而在10月末,又有兩個(gè)新勢(shì)力品牌官宣了端到端落地的消息。10月23日,理想汽車宣布全新一代雙系統(tǒng)智能駕駛解決方案“端到端+VLM視覺語言模型”正式全量推送。到了10月28日,智己汽車宣布IM AD 3.0率先完成從“最像人”到“有直覺”的斷代式進(jìn)化,為智駕系統(tǒng)率先注入人工智能生成的“直覺”——基于智己汽車與Momenta聯(lián)合打造的“一段式端到端直覺式智駕大模型”。至此,智己正式加入端到端陣營,而且還是國內(nèi)第一個(gè)官宣落地“一段式端到端”的車企。01.
“直覺”智駕與“一段式端到端”
究竟什么是端到端?這是高階智駕進(jìn)入端到端時(shí)代首先要理清的概念。所謂的“端到端”,一端是傳感器,包括攝像頭、激光雷達(dá)等,它們就像眼睛一樣承擔(dān)輸入環(huán)境信息的作用;另一端是行駛軌跡,也就是系統(tǒng)接收了來自傳感器的信息后,會(huì)輸出規(guī)劃軌跡,從而控制車輛按照軌跡行駛。以往,傳統(tǒng)的智能駕駛系統(tǒng)采用的是模塊化模型,將感知、預(yù)測(cè)、規(guī)劃分別為三個(gè)獨(dú)立的模型。每個(gè)模型的技術(shù)棧差異較大,處于下游的規(guī)劃模型需要依賴工程師編寫大量代碼去制定行駛規(guī)則。在模塊化的技術(shù)架構(gòu)下,信息的傳遞會(huì)出現(xiàn)減損,系統(tǒng)的維護(hù)難度大,無法從容應(yīng)對(duì)復(fù)雜路況。端到端大模型則截然不同,將感知、預(yù)測(cè)、規(guī)劃三個(gè)模型融為一體,無需程序員編寫冗長的代碼去制定規(guī)則,而是用海量數(shù)據(jù)去訓(xùn)練系統(tǒng),賦予機(jī)器自主學(xué)習(xí)、思考和分析的能力。端到端模型不會(huì)出現(xiàn)信息傳遞減損,能夠更好地處理復(fù)雜的駕駛?cè)蝿?wù)。這就是我們常說的系統(tǒng)具備了學(xué)習(xí)能力,可實(shí)現(xiàn)“邊看邊開”,從而擁有了應(yīng)對(duì)復(fù)雜場(chǎng)景的能力。按照智己官方的說法,IM AD 3.0能以更接近人腦結(jié)構(gòu)的思考方式,生成本能反應(yīng)主導(dǎo)的直覺決策能力,可以能像人類思維一樣做出瞬間預(yù)判,具備“十年老司機(jī)”的直覺駕駛體感。這個(gè)所謂的“直覺”,其實(shí)就是端到端技術(shù)的核心價(jià)值——打破傳統(tǒng)架構(gòu)中模塊化方案的解決思路,不再依賴人工編寫的規(guī)則,讓感知信息能夠更加無損地參與到每一次的路徑規(guī)劃,輸出更加類人的駕駛策略。因此,智己提到的這個(gè)“直覺”,其實(shí)也不算是新概念,而是對(duì)端到端技術(shù)最恰當(dāng)?shù)囊环N比喻。據(jù)官方介紹,智己IM AD 3.0讓智能汽車首次擁有了綜合分析道路環(huán)境全局信息的能力,尤其在應(yīng)對(duì)突發(fā)狀況時(shí),能夠“腦補(bǔ)”出看不見、看不全的路況信息,像人類高級(jí)思維一樣可以做出瞬間預(yù)判,即人們通常所說的“直覺”或“下意識(shí)反應(yīng)”。在具體場(chǎng)景方面,智己在發(fā)布會(huì)上展示了測(cè)試視頻,可見IM AD3.0能夠禮讓盲區(qū)橫穿的行人、可以繞行水坑等特殊障礙物;在面對(duì)人車混流的無保護(hù)左轉(zhuǎn)場(chǎng)景時(shí),能夠像老司機(jī)一樣老練博弈,而不再原地傻等;在錯(cuò)綜復(fù)雜的路口,即使面對(duì)無中線、超寬車等看不清的路況,也能流暢通行。智己還表示,IM AD3.0已經(jīng)可以做到“全國都好開,全場(chǎng)景都敢用”。其實(shí)從端到端技術(shù)的落地時(shí)間來講,智己并不算快,但此次官宣還有一個(gè)看點(diǎn),那就是“一段式端到端”的落地,這讓智己成為國內(nèi)首個(gè)具備這一技術(shù)的車企。當(dāng)前,端到端大模型基本都采用分模塊智駕結(jié)構(gòu),也就是所謂的“兩段式”架構(gòu),分別為感知的端到端和規(guī)控的端到端,二者各自獨(dú)立。為智己提供智駕方案的科技企業(yè)Momenta CEO曹旭東表示,在兩段式端到端中,感知的端到端一定需要這個(gè)物體對(duì)于人來說是比較好定義的,這樣的話才能夠很好地搜集訓(xùn)練數(shù)據(jù),以及學(xué)習(xí)和驗(yàn)證。但是對(duì)于復(fù)雜的通用障礙物,比較難在感知的端到端里面做定義的,規(guī)控的端到端就無法收到對(duì)應(yīng)的輸入,進(jìn)而忽視掉重要的感知信息,做出一些誤判的駕駛行為。“一段式端到端大模型”則取消了分模塊智駕結(jié)構(gòu),將感知與規(guī)劃整合進(jìn)一個(gè)大模型,通過數(shù)據(jù)飛輪提供的海量優(yōu)質(zhì)數(shù)據(jù),訓(xùn)練一個(gè)完整的神經(jīng)網(wǎng)絡(luò),分析全局信息、隱含信息,學(xué)習(xí)優(yōu)秀的人類駕駛行為,從原始數(shù)據(jù)輸入到規(guī)劃路徑輸出,形成了類似人腦的高級(jí)思維“直覺”反應(yīng)。曹旭東表示,一段式端到端的好處是感知的端到端和規(guī)控的端到端聯(lián)系在一起,哪怕未定義的物體出現(xiàn),在感知大模型的幫助下,仍然會(huì)做出合理避讓。為了解決一段式端到端方案前期下限低的問題,Momenta的端到端模型采用了短期記憶和長期記憶的訓(xùn)練邏輯。其中,短期記憶的訓(xùn)練周期是以“天”為級(jí)別的,好的數(shù)據(jù)和好的方法得到驗(yàn)證之后再進(jìn)入長期記憶的模型學(xué)習(xí)。這是一個(gè)類似于人類大腦進(jìn)行學(xué)習(xí)的邏輯,當(dāng)一個(gè)新的數(shù)據(jù)進(jìn)來,它會(huì)先進(jìn)入短期記憶,等到數(shù)據(jù)和方法被驗(yàn)證之后,才會(huì)進(jìn)入長期記憶去學(xué)習(xí)。根據(jù)官方數(shù)據(jù),這套智己與Momenta聯(lián)合打造的“一段式端到端大模型”在“長短期記憶模式”架構(gòu)的助力下,將模型訓(xùn)練成本節(jié)省了10-100倍,同時(shí)還大幅提升了迭代速度。02.
“端到端”到底難在何處?
雖然官宣落地端到端的車企越來越多,但無論是在研發(fā)端,還是在市場(chǎng)端,業(yè)內(nèi)人士對(duì)端到端的觀點(diǎn)及判斷并不一致。8月16日,在第四屆沈陽智能網(wǎng)聯(lián)汽車挑戰(zhàn)賽上,同濟(jì)大學(xué)汽車學(xué)院教授朱西產(chǎn)表示:“特斯拉的端到端、人工智能讓自動(dòng)駕駛更加成為可能,端到端被特斯拉帶火了,國內(nèi)的車企都在說端到端。但現(xiàn)在,誰宣布端到端量產(chǎn)上車了,他的這個(gè)車你就別買?!?/section>而在此一周之前,華為終端董事長、智能汽車解決方案BU董事長余承東評(píng)價(jià)特斯拉FSD到:“其商用版本進(jìn)步非常大,上限挺高,但下限也很低。我們?nèi)y(cè)試,路上停著靜止不動(dòng)的白色貨車,不減速就直接撞過去了,還有綠色的貨車,也是不減速就去撞?!?/section>根據(jù)朱西產(chǎn)的解讀,端到端大模型雖然能夠提供強(qiáng)大的泛化能力,但是在安全性方面存在不確定性。國內(nèi)車企在數(shù)量和AI訓(xùn)練算力方面與特斯拉相比還有較大差距,所以近兩年端到端量產(chǎn)上車的可能性不大。因?yàn)榇竽P托枰母咚懔€很難在車端布置,并且大模型目前也很難解決“長尾難題”。所謂“長尾難題”,就是指在自動(dòng)駕駛過程中那些發(fā)生概率較低、但種類繁多的特殊場(chǎng)景所帶來的潛在風(fēng)險(xiǎn)。這些問題涵蓋各種零碎、極端的情況和難以預(yù)測(cè)的人類行為,例如:帶有凸出貨物的卡車、打傘的行人、倒在路中央的樹木,以及異形車輛、亂穿馬路的行人和自行車、雨雪等極端天氣、極暗的行車環(huán)境等。同樣是在8月初,極越CEO夏一平也曾表達(dá)了對(duì)端到端技術(shù)的看法。他表示:“端到端很難一蹴而就,我不認(rèn)為現(xiàn)在市場(chǎng)上有任何一家是端到端,絕對(duì)不可能的,這個(gè)世界上現(xiàn)在沒有人是端到端,不要吹這個(gè)牛。特斯拉目前還是分段式的,真正端到端、完全視覺看到直接做執(zhí)行還很難。要知道,這背后的驗(yàn)證模型是巨大的投入?!?/section>夏一平所提到的巨大投入,就是端到端大模型量產(chǎn)的最大難點(diǎn)——它的完善需要巨額的訓(xùn)練數(shù)據(jù)積累,由此帶來的人力、物力和財(cái)力的消耗也是非??捎^的。以特斯拉為例,僅僅建設(shè)超算中心就花費(fèi)了40億美金,而端到端大模型越完善,也將意味著參數(shù)越多、數(shù)據(jù)越多,其中還包括圖片和視頻數(shù)據(jù)。在數(shù)據(jù)采集方面,目前車企紛紛依靠用戶的車輛采集數(shù)據(jù),銷量越大也意味著數(shù)據(jù)越豐富。據(jù)業(yè)內(nèi)人士預(yù)測(cè),誰的銷量先破100萬輛,誰就有可能在智能駕駛采集數(shù)據(jù)方面率先取得突破,而特斯拉在美國市場(chǎng)已經(jīng)銷售了170多萬輛,它在數(shù)據(jù)積累上的體量是目前任何一個(gè)品牌都很難達(dá)到的。朱西產(chǎn)認(rèn)為,根據(jù)國內(nèi)車企目前在智能駕駛開發(fā)的數(shù)據(jù)能力和AI訓(xùn)練算力,先做到感知的端到端,在規(guī)控算法上保留安全準(zhǔn)則模型,這種分段式的端到端方案模型是比較合理的技術(shù)路線。以當(dāng)前的情況來看,已經(jīng)官宣落地的“端到端”大概率都是這個(gè)模式。據(jù)極越官方表示,百度在AI和自動(dòng)駕駛領(lǐng)域擁有超過十年時(shí)間、超過1500億資金的持續(xù)投入,基于L4級(jí)自動(dòng)駕駛大模型Apollo ADFM打造了ASD。Apollo的L4級(jí)自動(dòng)駕駛里程已經(jīng)超過1億公里,并建立了超5.5EFLOPS的高算力訓(xùn)練集群,可以實(shí)現(xiàn)模型的高效訓(xùn)練和快速迭代。在這一點(diǎn)上,智己與Momenta宣布“模型訓(xùn)練成本節(jié)省了10-100倍,并大幅提升了迭代速度”其實(shí)與之意思相同,那就是強(qiáng)調(diào)數(shù)據(jù)訓(xùn)練效率提升,已經(jīng)積累到了可以支持端到端落地的量級(jí)。而至于小鵬、理想等品牌,目前尚未針對(duì)數(shù)據(jù)訓(xùn)練給出詳細(xì)的解讀信息。03.
L3量產(chǎn)只差臨門一腳
隨著端到端大模型的陸續(xù)落地,智能駕駛突破現(xiàn)有的L2級(jí)“限制”已經(jīng)迫在眉睫了。智己在宣布“一段式端到端直覺式智駕大模型”量產(chǎn)上車的時(shí)候,也同步官宣了“同時(shí)具備L2、L3、L4級(jí)智能駕駛量產(chǎn)能力”的消息。按照官方公布的信息,智己的L2+級(jí)高階輔助駕駛已在全國范圍內(nèi)開通全系車型“無圖城市NOA”;歐洲市場(chǎng)的L2+道路測(cè)試也已啟動(dòng);L3級(jí)自動(dòng)駕駛已進(jìn)入量產(chǎn)倒計(jì)時(shí),智己在今年6月入選了全國首批“L3準(zhǔn)入及路試聯(lián)合體名單”,預(yù)計(jì)將于2026年正式具備L3級(jí)自動(dòng)駕駛方案的量產(chǎn)條件;預(yù)計(jì)將在年內(nèi)獲得首批“L4級(jí)無駕駛?cè)说缆窚y(cè)試牌照”,實(shí)現(xiàn)無人駕駛車率先上路。智己表示,在隨著L3、L4級(jí)自動(dòng)駕駛相關(guān)法律法規(guī)的逐步出臺(tái),智己將最快落地全行業(yè)最領(lǐng)先的自動(dòng)駕駛體驗(yàn)。比智己更早一點(diǎn)官宣的是華為,余承東在2024世界智能網(wǎng)聯(lián)汽車大會(huì)上表示,預(yù)計(jì)ADS 4.0將于2025年推出,將實(shí)現(xiàn)高速L3級(jí)自動(dòng)駕駛商用及城區(qū)L3級(jí)自動(dòng)駕駛試點(diǎn)。而像小鵬、理想、蔚來、極越等具備了高階智駕能力的品牌,其實(shí)也已經(jīng)具備了突破L2級(jí)的技術(shù)積累,他們的智駕系統(tǒng)在功能上距離允許“脫手”也只差法規(guī)的松綁而已了。
因此,L3級(jí)智能駕駛的落地,已經(jīng)到了只差臨門一腳的時(shí)刻。
在6月15日舉辦的中國汽車藍(lán)皮書論壇上,華為智能汽車解決方案BU CEO靳玉志表示,汽車智能駕駛已經(jīng)在L2級(jí)停留了太長時(shí)間,L3級(jí)自動(dòng)駕駛技術(shù)在高速公路等場(chǎng)景的應(yīng)用已經(jīng)較為成熟,應(yīng)該盡快允許商用。雖然法規(guī)究竟何時(shí)可以“解綁”尚未可知,但端到端技術(shù)的逐步落地和持續(xù)完善無疑將起到助推作用。從這一點(diǎn)來講,2024年末國內(nèi)車企頭部玩家端到端技術(shù)的扎堆落地,將成為自動(dòng)駕駛發(fā)展歷程中值得記錄的一筆。