的研究團隊宣布了一項令人興奮的進展,他們開發了一種名為 HOVER(人形多功能控制器)的新型神經網絡。這個神經網絡擁有150萬參數,專門用于協調人形機器人的運動和操作。
NVIDIA 的高級研究經理 Jim Fan 表示:“并不是所有基礎模型都需要龐大。我們訓練的這個1.5M 參數的神經網絡,旨在控制人形機器人的身體。” 他進一步解釋,HOVER 能夠捕捉到人類運動中的潛意識過程,這樣一來,機器人就可以在沒有繁瑣編程的情況下執行復雜任務。他提到,“人類在行走、保持平衡,以及靈活操控四肢時,都需要大量的潛意識處理。”
在訓練過程中,HOVER 使用了 NVIDIA 的 Isaac 模擬平臺,這個平臺能夠加速物理仿真,速度是現實時間的10000倍。
Jim Fan 透露,這個模型在虛擬環境中經過了一年的訓練,實際上只花費了大約50分鐘的真實時間,這在單個 GPU 上完成。他表示,這種高效的訓練使得神經網絡能夠順利轉移到現實應用中,而不需要進行微調。
HOVER 具備響應多種高層運動指令的能力,包括使用 XR 設備(如蘋果的 Vision Pro)進行頭部和手部姿勢的控制,或通過動作捕捉和 RGB 相機獲取全身姿勢,甚至可以從外骨骼獲取關節角度,或從操縱桿獲取根速度命令。Fan 強調,HOVER 為控制不同輸入設備的機器人提供了一個統一的接口,從而便利了用于訓練的遙操作數據的收集。
此外,HOVER 還與上游的視覺 - 語言 - 動作模型集成,使得運動指令能夠高頻率地轉化為低級別的馬達信號。這個模型與任何可以在 Isaac 中模擬的人形機器人兼容,使得用戶可以輕松地賦予機器人生命。
早在今年年初,NVIDIA 還宣布了一個名為 GR00T 的項目,這是一個通用基礎模型,專為人形機器人設計。GR00T(Generalist Robot00Technology)所驅動的機器人,能夠理解自然語言,并通過觀察動作來模仿人類的動作,這讓它們能夠快速學習協調、靈活性及其他在現實世界中有效互動所需的技能。
論文網址:https://arxiv.org/pdf/2410.21229
劃重點:
- ?? NVIDIA 推出 HOVER,一個150萬參數的神經網絡,旨在控制人形機器人的運動與操作。
- ? HOVER 在虛擬環境中訓練了一年,實際訓練時間僅為50分鐘,提升了現實應用的效率。
- ?? HOVER 支持多種高層運動指令,能與不同輸入設備協同工作,為機器人控制提供統一接口。

