3月18日,理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在NVIDIA GTC 2025進(jìn)行主題演講《VLA:邁向自動(dòng)駕駛物理智能體的關(guān)鍵一步》,分享理想汽車對(duì)下一代自動(dòng)駕駛技術(shù)MindVLA的最新思考和進(jìn)展。
賈鵬說:“MindVLA是機(jī)器人大模型,它成功整合了空間智能、語言智能和行為智能。MindVLA將把汽車從單純的運(yùn)輸工具轉(zhuǎn)變?yōu)橘N心的專職司機(jī),它能聽得懂、看得見、找得到。我們希望MindVLA能為汽車賦予類似人類的認(rèn)知和適應(yīng)能力,將其轉(zhuǎn)變?yōu)槟軌蛩伎嫉闹悄荏w?!?/p>
據(jù)介紹,MindVLA打破自動(dòng)駕駛技術(shù)框架設(shè)計(jì)的傳統(tǒng)模式,使用能夠承載豐富語義,且具備出色多粒度、多尺度3D幾何表達(dá)能力的3D高斯(3D Gaussian)這一優(yōu)良的中間表征,充分利用海量數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,極大提升了下游任務(wù)性能。
MindVLA利用Diffusion將Action Token解碼成優(yōu)化的軌跡,并通過自車行為生成和他車軌跡預(yù)測(cè)的聯(lián)合建模,提升在復(fù)雜交通環(huán)境中的博弈能力。同時(shí),Diffusion可根據(jù)外部條件,例如風(fēng)格指令、動(dòng)態(tài)調(diào)整生成結(jié)果。為解決Diffusion模型效率低的問題,MindVLA采用Ordinary Differential Equation(常微分方程)采樣器,實(shí)現(xiàn)2-3步就能完成高質(zhì)量軌跡的生成。面對(duì)部分長尾場(chǎng)景,理想建立起人類偏好數(shù)據(jù)集,并且應(yīng)用RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))微調(diào)模型的采樣過程,最終使MindVLA能夠?qū)W習(xí)和對(duì)齊人類駕駛行為,顯著提升安全下限。