
2025年5月7日,理想汽車推出“理想AI Talk第二季——理想VLA司機(jī)大模型,從動物進(jìn)化到人類”,理想汽車董事長兼CEO李想重點分享了對于人工智能的最新思考,VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn),以及對于創(chuàng)業(yè)和個人成長的見解。
李想將AI工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。目前,大多數(shù)人將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價值。成為輔助工具后,AI可以提升效率,例如現(xiàn)在的輔助駕駛,但仍需人類參與。未來,AI發(fā)展為生產(chǎn)工具后,將能獨立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。
李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇傭司機(jī),人工智能技術(shù)最終也會承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具?!?/p>
目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對理想汽車而言, 未來的VLA就是一個像人類司機(jī)一樣工作的司機(jī)大模型”。
VLA的實現(xiàn)不是一個突變的過程,是進(jìn)化的過程,經(jīng)歷了三個階段,對應(yīng)理想汽車輔助駕駛的昨天、今天和明天。第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。
端到端模型在處理復(fù)雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領(lǐng)域的能力有限。同時端到端模型也難以與人類溝通。為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學(xué)術(shù)會議上發(fā)表論文,夯實了理論基礎(chǔ)。
在端到端的基礎(chǔ)上,到第三階段,VLA將開啟“人類智能”的階段。它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運(yùn)作方式。
VLA的訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個環(huán)節(jié),類似于人類學(xué)習(xí)駕駛技能的過程。預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D Vision(視覺)數(shù)據(jù)、交通相關(guān)的Language(語言)語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端高效運(yùn)行的端側(cè)模型。
后訓(xùn)練相當(dāng)于人類去駕校學(xué)習(xí)開車的過程。隨著Action(動作)數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機(jī)大模型。得益于短鏈條的CoT,以及Diffusion擴(kuò)散模型對于他車軌跡和環(huán)境的預(yù)測,VLA具備實時性的特點,實現(xiàn)了在復(fù)雜交通環(huán)境中的博弈能力。
強(qiáng)化訓(xùn)練類似于人類在社會中實際開車練習(xí),目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。強(qiáng)化訓(xùn)練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強(qiáng)化學(xué)習(xí))完成安全對齊,使模型遵守交通規(guī)則,貼合中國用戶的駕駛習(xí)慣;二是將純強(qiáng)化學(xué)習(xí)模型放入世界模型中訓(xùn)練,提升舒適性,避免碰撞事故,遵守交通規(guī)則。經(jīng)過預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后,VLA司機(jī)大模型即可部署至車端運(yùn)行。
VLA司機(jī)大模型以“司機(jī)Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機(jī)Agent溝通,跟人類司機(jī)怎么說,就跟司機(jī)Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。
除了提升專業(yè)能力,VLA司機(jī)大模型還需解決安全性和模型黑盒的問題。
模型能力越強(qiáng),越需要職業(yè)性約束,以確保能力下限。為了保障VLA司機(jī)大模型能夠?qū)崿F(xiàn)職業(yè)司機(jī)般的安全和舒適,避免學(xué)習(xí)加塞等違規(guī)行為,理想汽車在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源,并于2024年底組建超過100人的超級對齊團(tuán)隊,相當(dāng)于為司機(jī)Agent注入職業(yè)素養(yǎng)。
為解決模型的黑盒問題,理想汽車結(jié)合重建和生成兩種路徑,打造了真實、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素?;谑澜缒P偷姆抡婺芰?,VLA可以在世界模型中低成本、準(zhǔn)確地驗證現(xiàn)實問題,提升解決問題的效率,有效應(yīng)對模型黑盒帶來的挑戰(zhàn)。
判斷司機(jī)Agent是否是個好司機(jī),有三個關(guān)鍵標(biāo)準(zhǔn):專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。VLA司機(jī)大模型提升了專業(yè)能力,超級對齊增強(qiáng)了職業(yè)能力,VLA通過理解自然語言、具備記憶能力提升了構(gòu)建信任的能力。
得益于DeepSeek的開源,理想汽車在VLA司機(jī)大模型的語言能力研發(fā)上提速顯著,節(jié)省了近9個月的時間和數(shù)億元成本。盡管如此,理想汽車仍選擇加大投入,在基座模型上投入超預(yù)期3倍的訓(xùn)練卡,專注打造適配多場景的自研模型。李想表示:“我們可以站在巨人的肩膀上,但它只是其中的一部分?!痹谑芤骈_源的同時,理想汽車也選擇開源自研的汽車操作系統(tǒng)——理想星環(huán)OS,回饋社會。

x
-
迪王開「天眼」:又一場血流成河的價格戰(zhàn) 2025-02-12 14:29
-
五菱紅標(biāo)發(fā)布商用車增程技術(shù),適應(yīng)鄉(xiāng)村復(fù)雜路況和長時間作業(yè)需求 2025-03-18 14:48
-
7月新能源銷量榜:謗滿天下的理想、比亞迪,占了中國新能源汽車半壁江山 2024-08-05 17:25
-
寧德時代將于5月20日港股上市,預(yù)計募資40-50億美元,創(chuàng)近年港股IPO之最 2025-05-12 10:24
-
長城汽車智慧工廠半程馬拉成為長城汽車與保定市品牌IP 2025-05-12 10:44
-