具身智能的「ChatGPT時(shí)刻」還沒(méi)到,機(jī)器人的「幻覺(jué)」卻先來(lái)了?在需要幾十步操作的長(zhǎng)序列任務(wù)中,現(xiàn)有的VLA模型經(jīng)常「假裝在干活」,誤以為任務(wù)完成。針對(duì)這一痛點(diǎn),北京大學(xué)團(tuán)隊(duì)提出自進(jìn)化VLA框架EvoVLA。該模型利用Gemini生成「硬負(fù)樣本」進(jìn)行對(duì)比學(xué)習(xí),配合幾何探索與長(zhǎng)程記憶,在復(fù)雜任務(wù)基準(zhǔn)Discoverse-L上將成功率提升了10.2%,并將幻覺(jué)率從38.5%大幅降至14.8%。
具身智能(Embodied AI)正處于爆發(fā)前夜。
從谷歌的 RT-X 到開源社區(qū)的 OpenVLA,通才機(jī)器人策略(Generalist Robot Policies)展現(xiàn)出了驚人的零樣本泛化能力。然而,當(dāng)我們將目光從簡(jiǎn)單的「抓取-放置」轉(zhuǎn)向需要數(shù)十個(gè)步驟的長(zhǎng)程操作任務(wù)(Long-horizon Manipulation)時(shí),現(xiàn)有的 VLA 模型卻暴露出一個(gè)尷尬的致命弱點(diǎn):
它們學(xué)會(huì)了「作弊」。
在長(zhǎng)序列任務(wù)中,VLA模型經(jīng)常會(huì)出現(xiàn)一種被稱為「階段性幻覺(jué)」(Stage Hallucination)的現(xiàn)象。
簡(jiǎn)單來(lái)說(shuō),就是機(jī)器人「明明沒(méi)做完,卻以為自己做完了」。
例如,在搭建積木橋時(shí),只要機(jī)械臂移動(dòng)到了目標(biāo)附近,即便方塊滑落、沒(méi)對(duì)齊或者根本沒(méi)夾住,基于視覺(jué)語(yǔ)言模型(VLM)的評(píng)估系統(tǒng)往往會(huì)因?yàn)橐曈X(jué)上的相似性("看起來(lái)像是在操作"),給出一個(gè)很高的預(yù)測(cè)分?jǐn)?shù)。
這種「高分低能」的現(xiàn)象,導(dǎo)致機(jī)器人自信地跳過(guò)當(dāng)前步驟進(jìn)入下一階段,最終導(dǎo)致整個(gè)任務(wù)的崩潰。這就好比一個(gè)學(xué)生只寫了「解:」字,就以為自己做完了整道大題。
針對(duì)這一痛點(diǎn),來(lái)自北京大學(xué)的研究團(tuán)隊(duì)(第一作者:劉擇霆,楊子達(dá),指導(dǎo)老師:唐浩,張澤宇)提出了一種全新的自監(jiān)督VLA框架EvoVLA。