近日,加州大學伯克利分校 BAIR 實驗室的 Sergey Levine 研究團隊提出了一種名為 HIL-SERL 的強化學習框架,旨在解決機器人在現實世界中學習復雜操作技能的難題。

這項新技術將人類演示和糾正與高效的強化學習算法相結合,使機器人能夠在短短1到2.5小時內掌握各種精密靈巧的操作任務,例如動態操作、精密裝配和雙臂協作。

以前,讓機器人學習新技能,那叫一個費勁,就像教一個熊孩子寫作業,得手把手地教,還得一遍遍地糾正。更讓人頭疼的是,現實世界里各種情況復雜多變,機器人往往學得慢、忘得快,一不小心就翻車。

而 HIL-SERL 這個框架,就像給機器人請了個“家教”,不僅有詳細的“教材”,也就是人類的演示和糾正,還配備了高效的學習算法,幫助機器人快速掌握各種技能。

你只需要示范幾次,機器人就能像模像樣地完成各種操作,從玩積木、翻煎餅,到組裝家具、安裝電路板,簡直無所不能!

為了讓機器人學得更快、更好,HIL-SERL 還引入了一種人機交互的糾正機制。簡單來說,就是當機器人犯錯的時候,人類操作員可以及時介入,進行糾正,并把這些糾正信息反饋給機器人。這樣一來,機器人就能不斷從錯誤中學習,避免重復犯錯,最終成為一個真正的高手。

經過一系列實驗,HIL-SERL 的效果那是杠杠的。在各種任務中,機器人都在短短1到2.5小時內達到了接近100% 的成功率,而且操作速度也比以前快了近2倍。

更重要的是,HIL-SERL 是第一個在現實世界中使用強化學習實現基于圖像輸入的雙臂協調的系統,也就是說,它可以讓兩個機器人手臂協同工作,完成更復雜的任務,比如組裝同步帶這種需要高度配合的操作。

HIL-SERL 的出現,不僅讓我們看到了機器人學習的巨大潛力,也為未來的工業應用和研究指明了方向。說不定,以后我們每個人家里都會有一個這樣的機器人“學徒”,幫我們做家務、組裝家具,甚至還能陪我們玩游戲,想想就覺得很爽啊!

當然,HIL-SERL 也有一些局限性。比如,對于一些需要長期規劃的任務,它可能就顯得力不從心了。 另外,目前 HIL-SERL 主要是在實驗室環境中進行測試,還沒有經過大規模的現實場景驗證。 不過,相信隨著技術的進步,這些問題都會逐步得到解決。

論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf

項目地址:https://hil-serl.github.io/