123,123

智駕網(wǎng) 2024-09-01 23:05

商湯絕影創(chuàng)新中心李曉華：多模態(tài)大模型，打造下一代座艙大腦

在9月1日“科技生態(tài)方向圓桌論壇一：20年新引擎——深化人工智能技術(shù)的垂直化應(yīng)用”中，商湯絕影創(chuàng)新中心高級總監(jiān)李曉華發(fā)表題為“多模態(tài)大模型打造下一代座艙大腦”的演講。

由中國汽車技術(shù)研究中心有限公司、中國汽車工程學(xué)會、中國汽車工業(yè)協(xié)會、中國汽車報(bào)社共同主辦，天津經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管理委員會特別支持，日本汽車工業(yè)協(xié)會、德國汽車工業(yè)協(xié)會、中國汽車動力電池產(chǎn)業(yè)創(chuàng)新聯(lián)盟、新能源汽車國家大數(shù)據(jù)聯(lián)盟聯(lián)合協(xié)辦的第二十屆中國汽車產(chǎn)業(yè)發(fā)展（泰達(dá)）國際論壇（以下簡稱“泰達(dá)汽車論壇”）于2024年8月29日至9月1日在天津?yàn)I海新區(qū)舉辦。本屆論壇以“風(fēng)雨同舟二十載攜手并肩向未來”為年度主題，邀請重磅嘉賓展開深入研討。

以下為演講實(shí)錄：

大家上午好！我是來自商湯絕影的李曉華。大模型在車領(lǐng)域，無論是大語言模型還是多模態(tài)模型，都帶來了許多新的體驗(yàn)。

首先，我想播放一個(gè)小視頻，來展現(xiàn)多模態(tài)大模型在車行業(yè)中所帶來的全新體驗(yàn)。（播放視頻）

剛剛播放的這個(gè)視頻主要展示了多模態(tài)大模型如同一個(gè)助手，時(shí)刻關(guān)注著座艙內(nèi)以及車外發(fā)生的事情。例如，它能判斷車輛是否在公交車道行駛，是否有交警指揮，并能給出更好的建議。

接下來，我將為大家介紹一張多模態(tài)大模型的業(yè)務(wù)圖。我們可以將這張圖分為三層，最下面一層橙色部分是模型層，其中包括車端側(cè)的模型和云端的模型。車端側(cè)的模型可根據(jù)需求部署 2.1B、8B等規(guī)模的模型，用于進(jìn)行端側(cè)的多模態(tài)大模型推理。

在云端，則可以部署更大規(guī)模的模型，如 20B、100多B的模型。此外，云端除了多模態(tài)大模型外，還包括一些其他云類模型，如車書、醫(yī)療方面的模型，這些都適用于車領(lǐng)域的場景。上面藍(lán)色部分是引擎層，考慮到底層模型，包括記憶、推理框架等，使用起來相對復(fù)雜，因此我們構(gòu)建了引擎層。引擎層主要有兩個(gè)產(chǎn)品：

第一個(gè)是座艙大腦，它主要有以下幾個(gè)能力：

1.能夠很好地感知座艙內(nèi)的情況，例如識別人的穿著、性別，細(xì)致觀察座艙內(nèi)的細(xì)節(jié)特征，包括物品，如手機(jī)、寵物、帽子、眼鏡等，都能識別出來。

2.能夠感知一些行為，如打電話、吃東西等，并能有效地輸出。

3.能夠進(jìn)行環(huán)境推理和意圖推理，例如識別出兩個(gè)人在交流、在討論高興的事情等。

4.具有跨時(shí)空的記憶能力，能夠很好地記住座艙內(nèi)的人員以及共同經(jīng)歷的事情。就像剛才的 Demo 中第一個(gè)場景提到的 “去我們上次去的那個(gè)咖啡館”，它能記住上次與誰一起去的咖啡館，并且能識別出這次的人員是否與上次相同，這種能力可以作為座艙內(nèi)產(chǎn)品的輸出。

第二個(gè)產(chǎn)品是全時(shí)駕駛輔助，它利用多模態(tài)大模型的能力感知車外場景，包括道路條件，如是否有積水、挖坑、道路是否坑洼等，并能做出相應(yīng)推薦，例如車輛應(yīng)如何調(diào)節(jié)以適應(yīng)路況，以及光照、逆光等情況，它都可以作為行駛策略的輔助。此外，它還能提供決策輔助，感知周圍路況，如識別出眾多電動車、路邊攤販、救護(hù)車等，并做出決策輔助。最后，它還能提供一些判斷條件，包括司機(jī)的狀態(tài)、通行障礙等。這個(gè)產(chǎn)品主要感知車外能力，為駕駛提供輔助推薦。

下面，我將從技術(shù)角度介紹端云參考架構(gòu)。這張圖展示了我們的多模態(tài)模型可以單獨(dú)部署在端側(cè)，也可以部分部署在端側(cè)，部分部署在云側(cè)，而語言類模型可以純粹部署在云側(cè)。從最左邊開始，用戶發(fā)出聲音后，通過語音轉(zhuǎn)成 SR 文本，包括 OMS 攝像頭等數(shù)據(jù)，都將經(jīng)過數(shù)據(jù)處理模塊，對圖片、文字、聲音以及車的信號進(jìn)行處理。然后進(jìn)入觸發(fā)器模塊，該模塊主要考慮端云結(jié)合的情況，根據(jù)一些觸發(fā)信號，如開關(guān)門或用戶提問來進(jìn)行觸發(fā)。如果是純端側(cè)算力方案，則可以不斷觸發(fā)。接下來是進(jìn)入任務(wù)調(diào)度模塊，然后到端側(cè)模型。如果是端云一體的模型，我們會在端側(cè)主要對圖像進(jìn)行圖像特征向量化的提取，將端側(cè)的特征送到云端進(jìn)行推理生成。在云端做出推薦后，它可以進(jìn)入到行動詞，該行動詞具有車輛插件的能力以及其他智能體的配合，構(gòu)建了一個(gè)工作流。

接下來，我想講一下大模型在座艙合作的模式。首先，在部署方面，我們剛才提到可以部署在純云端，也可以采用端和云結(jié)合的方式。云端可以通過自研的推理框架，支持 100 多個(gè)算子庫，能夠高效地進(jìn)行端側(cè)模型計(jì)算。在生態(tài)開發(fā)方面，可以實(shí)現(xiàn)服務(wù)應(yīng)用的便捷開發(fā)，并且通過安全沙箱實(shí)現(xiàn)端側(cè)與云側(cè)隱私安全的隔離。下一步是持續(xù)更新，通過數(shù)據(jù)閉環(huán)，將用戶反饋的數(shù)據(jù)通過閉環(huán)進(jìn)行訓(xùn)練，通過私有化的 SFT 進(jìn)行微調(diào)，以加強(qiáng)大模型的能力。最后，在合作模式上，我們前面介紹過，從模型層、產(chǎn)品引擎層到上層的應(yīng)用層，都可以進(jìn)行不同方式的合作。

最后，我想談一談車類產(chǎn)品離不開芯片平臺的支持。在過去的一年，我們在高通、英偉達(dá)的 Orin 基礎(chǔ)上完成了端側(cè)框架的聯(lián)調(diào)適配。今年，我們主要在 MTK8678 平臺上進(jìn)行模型算子的調(diào)節(jié)。后面，我們還會在英偉達(dá)的 Sora、Intel 等芯片上進(jìn)行多模態(tài)模型的部署。

今天我的分享就到這里，謝謝大家！

（完）

打賞

相關(guān)標(biāo)簽：

泰達(dá)論壇商湯絕影

王欣給歲月以科技，給科技以歲月

專欄作者|209篇文章

相關(guān)文章全部

騰訊鐘翔平：騰訊已經(jīng)與超過100家車企和出行科技公司合作 2024-09-05 12:40
北京理工大學(xué)孫逢春院士：中國NEV技術(shù)三十年發(fā)展與未來技術(shù)再突圍 2024-09-01 10:04
廣汽埃安的大考之年 2024-09-09 15:45