Gen2Act是什么

Gen2Act是由谷歌、卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)共同推出的一種機(jī)器人操作策略,基于預(yù)測(cè)網(wǎng)絡(luò)數(shù)據(jù)中的運(yùn)動(dòng)信息來(lái)生成人類視頻,并將視頻用在引導(dǎo)機(jī)器人執(zhí)行新任務(wù)。策略基于大量可用的網(wǎng)絡(luò)視頻數(shù)據(jù),避免直接生成機(jī)器人視頻的復(fù)雜性。Gen2Act的核心在于零樣本的人類視頻生成,結(jié)合預(yù)訓(xùn)練的視頻生成模型和少量的機(jī)器人交互數(shù)據(jù)訓(xùn)練策略。在真實(shí)世界的應(yīng)用中,Gen2Act展現(xiàn)強(qiáng)大的泛化能力,能操作未見(jiàn)過(guò)的物體類型并執(zhí)行新的動(dòng)作,相較于其他方法,成功率顯著提升。Gen2Act支持復(fù)雜任務(wù)的長(zhǎng)時(shí)執(zhí)行,例如連續(xù)完成“制作咖啡”等多步驟活動(dòng)。這一方法減少了對(duì)大規(guī)模機(jī)器人數(shù)據(jù)采集的需求,用閉環(huán)策略動(dòng)態(tài)調(diào)整提高操作的準(zhǔn)確性。

Gen2Act  谷歌、卡內(nèi)基梅隆、斯坦福聯(lián)合推出生成人類視頻引導(dǎo)機(jī)器人操作策略 第1張Gen2Act的主要功能零樣本視頻生成:Gen2Act能直接用預(yù)訓(xùn)練的視頻生成模型,根據(jù)語(yǔ)言描述的任務(wù)和場(chǎng)景圖像,生成人類執(zhí)行任務(wù)的視頻,無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。泛化到新任務(wù):基于生成的人類視頻引導(dǎo),Gen2Act使機(jī)器人執(zhí)行在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過(guò)的新任務(wù),包括操作未見(jiàn)過(guò)的物體類型和執(zhí)行新的動(dòng)作。閉環(huán)策略執(zhí)行:結(jié)合生成的視頻和機(jī)器人的實(shí)時(shí)觀察,Gen2Act基于閉環(huán)策略動(dòng)態(tài)調(diào)整機(jī)器人的動(dòng)作,適應(yīng)場(chǎng)景的變化準(zhǔn)確執(zhí)行任務(wù)。長(zhǎng)時(shí)任務(wù)處理:Gen2Act能夠完成單一任務(wù),基于任務(wù)序列的鏈接,執(zhí)行一系列復(fù)雜的長(zhǎng)時(shí)任務(wù),如“制作咖啡”,涉及到多個(gè)步驟的連續(xù)操作。減少數(shù)據(jù)需求:Gen2Act只需較少的機(jī)器人演示數(shù)據(jù),大大降低數(shù)據(jù)收集的成本和工作量。Gen2Act的技術(shù)原理人類視頻生成:?基于預(yù)訓(xùn)練的視頻生成模型,根據(jù)語(yǔ)言描述的任務(wù)和場(chǎng)景的首幀圖像,零樣本生成人類執(zhí)行任務(wù)的視頻。視頻到動(dòng)作的翻譯: 基于閉環(huán)策略,將生成的人類視頻轉(zhuǎn)化為機(jī)器人的動(dòng)作。策略用視頻的視覺(jué)特征和點(diǎn)軌跡預(yù)測(cè)隱式編碼運(yùn)動(dòng)信息。視覺(jué)特征提取: 用ViT編碼器和Transformer編碼器從生成的視頻和機(jī)器人的觀察歷史中提取特征。點(diǎn)軌跡預(yù)測(cè): 基于軌跡預(yù)測(cè)Transformer預(yù)測(cè)視頻中點(diǎn)的運(yùn)動(dòng)軌跡,輔助損失訓(xùn)練策略。行為克隆損失: 基于最小化預(yù)測(cè)動(dòng)作和真實(shí)動(dòng)作之間的誤差優(yōu)化策略,模仿人類視頻中的行為。Gen2Act的項(xiàng)目地址項(xiàng)目官網(wǎng):https://homangab.github.io/gen2act/arXiv技術(shù)論文:https://arxiv.org/pdf/2409.16283Gen2Act的應(yīng)用場(chǎng)景家庭自動(dòng)化:在家庭環(huán)境中,Gen2Act能操控家居設(shè)備,如開(kāi)關(guān)微波爐、操作咖啡機(jī)、整理物品等,幫助實(shí)現(xiàn)家庭自動(dòng)化。工業(yè)自動(dòng)化:在制造業(yè)中,Gen2Act能執(zhí)行復(fù)雜的裝配任務(wù),或者在需要靈活性和適應(yīng)性的環(huán)境中替換或輔助人工操作。服務(wù)行業(yè):在餐飲或零售服務(wù)中,Gen2Act指導(dǎo)機(jī)器人完成點(diǎn)單、上菜、整理貨架等任務(wù)。醫(yī)療輔助:在醫(yī)療領(lǐng)域,Gen2Act幫助開(kāi)發(fā)執(zhí)行精細(xì)操作的機(jī)器人,如協(xié)助手術(shù)或遞送醫(yī)療用品。災(zāi)難救援:在災(zāi)難救援現(xiàn)場(chǎng),Gen2Act操控機(jī)器人在未知環(huán)境中進(jìn)行搜索和救援任務(wù)。