論文標題:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
項目地址:https://hil-serl.github.io/
機器人操作仍然是機器人技術中最困難的挑戰之一,其方法范圍從基于經典模型的控制到現代模仿學習。盡管這些方法已經取得了實質性進展,但它們通常需要大量的手動設計,在性能方面存在困難,并且需要大規模數據收集。這些限制阻礙了它們在實際世界中的大規模部署,其中可靠性、速度和穩健性至關重要。強化學習 (RL) 提供了一種強大的替代方案,它使機器人能夠通過交互自主獲得復雜的作技能。然而,由于樣品效率和安全性問題,在現實世界中充分發揮 RL 的潛力仍然具有挑戰性。
強化學習 (RL) 是一種很有前途的方法,可以自主獲取復雜而靈巧的機器人技能。通過反復試驗學習,原則上,有效的 RL 方法應該能夠獲得針對部署任務的特定物理特征量身定制的高度熟練技能。這可能會帶來不僅超過手工設計控制器的性能,而且超越人類遠程作的性能。然而,由于樣本復雜性、假設(例如,準確的獎勵函數)和優化穩定性等問題,在現實環境中實現這一承諾一直具有挑戰性。RL 方法對于模擬訓練和現有大型真實世界數據集的訓練非常有效,目的是泛化 。它們還與手工設計的功能或表示一起使用,用于狹隘的定制任務。然而,開發通用的、基于視覺的方法仍然具有挑戰性,這些方法可以在不同的現實世界任務中有效地學習物理復雜的技能,同時超越 IL 和手工設計控制器的熟練程度。我們相信,在這方面取得根本性進展可以釋放新的機會,從而推動真正高性能的機器人縱政策的發展。
UC伯克利BAIR實驗室的Sergey Levine、Jianlan Luo團隊最近發布了一項革命性的強化學習框架——Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning(HIL-SERL),可以獲得廣泛的精確和靈巧的機器人技能。HIL-SERL通過集成許多組件來解決前面提到的挑戰,這些組件可以在現實世界中實現有效的基于視覺的 RL 策略,從而訓練出通用的視覺驅動機器人操作策略。HIL-SERL的表現令人矚目,僅需1-2.5小時的訓練就能在所有任務上達到100%的成功率,遠超基線方法不足50%的平均成功率。即使面臨外部干擾,機器人也能保持出色的表現,展現出強大的魯棒性。
為了解決優化穩定性問題,使用了預訓練的可視化主干網進行策略學習。為了處理樣本復雜性問題,使用了一種基于具有先驗數據的 RL (RLPD)的樣本效率非策略 RL 算法,該算法結合了人工演示和校正。此外,還包括一個精心設計的低級控制器,以確保政策培訓期間的安全。在訓練期間,系統會向人工操作員詢問潛在的更正,然后用于以非政策方式更新策略。研究發現,這種人機交互的糾正程序對于使策略能夠從錯誤中吸取教訓并提高績效至關重要,特別是對于本文考慮的難以從頭開始學習的具有挑戰性的任務。
這些任務包括組裝家具、顛勺煎蛋、鞭打積木、插入 U 盤等操作,即使在人為干擾的情況下,機器人也依舊能夠穩定、靈活地完成任務。
如圖 1 所示,系統解決的任務包括動態翻轉平底鍋中的對象;從塔上拿出疊疊樂塊;在兩只手臂之間交出物體;以及使用一個或兩個機械臂組裝復雜的設備,例如計算機主板、宜家擱板、汽車儀表板或正時皮帶。這些任務在復雜錯綜復雜的動態、高維狀態和動作空間、長視野或它們的組合方面提出了挑戰。
其中一些技能以前被認為無法直接在現實環境中使用 RL 進行訓練,例如許多雙臂作任務,或者幾乎無法用當前的機器人方法克服,例如正時皮帶組裝或疊疊樂鞭打。此外,它們還需要不同類型的控制策略,例如用于精確作任務的反應性閉環控制或難以規定的精細開環行為,例如疊疊樂鞭打。然而,也許最出乎意料的發現是,系統可以訓練 RL 策略,在現實世界中只有 1 小時到 2.5 小時的訓練時間,在幾乎所有任務上實現近乎完美的成功率和超人的周期時間,受制于初始放置的幾厘米或程度變化。訓練有素的 RL 策略大大優于在相同數量的人類數據上訓練的 IL 方法,例如,相同數量的演示或糾正,平均成功率提高了 101%,周期時間縮短了 1.8×。這一結果很重要,因為它表明 RL 可以在實際培訓時間內直接在現實世界中學習各種復雜的基于視覺的縱策略,這在以前被認為用早期方法是不可行的。此外,RL 的性能水平遠遠超過了 IL 和手工設計的控制器。
圖1.實驗任務概述。本文考慮的任務子集,包括 (A) 從塔上取出疊疊樂塊,(B) 翻轉平底鍋中的物體,以及組裝復雜的設備,例如 (C) 正時皮帶、(D) 儀表板、(E) 主板和 (F) 宜家擱板。
為了評估系統的有效性,將其與幾種最先進的 RL 方法進行了比較,并進行了消融研究以了解每個組件的貢獻。結果表明,系統不僅優于相關基線,而且還強調令人印象深刻的實證結果歸功于這些組件的精心整合。此外,還對實證結果進行了全面分析,提供了對基于 RL 的作有效性的見解。該分析探討了學習的 RL 策略的訓練動態,并進一步檢查了 RL 策略作為獲取不同類型控制策略的通用基于愿景的策略的靈活性。
總之,通過適當的系統級設計選擇,RL 可以有效地解決現實世界中各種靈巧而復雜的基于視覺的作任務。系統支持從圖像輸入進行雙臂協調,并處理諸如鞭打疊疊樂塊和組裝正時皮帶等任務,展示了這種方法在不同作場景中的靈活性。在實際培訓的 1 到 2.5 小時內,該方法優于其他基線,將任務成功率提高了 2×,實現了近乎完美的成功率,平均執行速度提高了 1.8×。通過廣泛的實驗和分析結果表明,RL可以在實際訓練時間內直接在現實世界中學習各種復雜的基于視覺的縱策略。我們希望這項工作能夠激發新一代學習的機器人操作技術,有利于工業應用和研究進步。
文章來源:CAAI認知系統與信息處理專委會
