論文標題:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
項目地址:https://hil-serl.github.io/
機器人操作仍然是機器人技術中最困難的挑戰(zhàn)之一,其方法范圍從基于經(jīng)典模型的控制到現(xiàn)代模仿學習。盡管這些方法已經(jīng)取得了實質(zhì)性進展,但它們通常需要大量的手動設計,在性能方面存在困難,并且需要大規(guī)模數(shù)據(jù)收集。這些限制阻礙了它們在實際世界中的大規(guī)模部署,其中可靠性、速度和穩(wěn)健性至關重要。強化學習 (RL) 提供了一種強大的替代方案,它使機器人能夠通過交互自主獲得復雜的作技能。然而,由于樣品效率和安全性問題,在現(xiàn)實世界中充分發(fā)揮 RL 的潛力仍然具有挑戰(zhàn)性。
強化學習 (RL) 是一種很有前途的方法,可以自主獲取復雜而靈巧的機器人技能。通過反復試驗學習,原則上,有效的 RL 方法應該能夠獲得針對部署任務的特定物理特征量身定制的高度熟練技能。這可能會帶來不僅超過手工設計控制器的性能,而且超越人類遠程作的性能。然而,由于樣本復雜性、假設(例如,準確的獎勵函數(shù))和優(yōu)化穩(wěn)定性等問題,在現(xiàn)實環(huán)境中實現(xiàn)這一承諾一直具有挑戰(zhàn)性。RL 方法對于模擬訓練和現(xiàn)有大型真實世界數(shù)據(jù)集的訓練非常有效,目的是泛化 。它們還與手工設計的功能或表示一起使用,用于狹隘的定制任務。然而,開發(fā)通用的、基于視覺的方法仍然具有挑戰(zhàn)性,這些方法可以在不同的現(xiàn)實世界任務中有效地學習物理復雜的技能,同時超越 IL 和手工設計控制器的熟練程度。我們相信,在這方面取得根本性進展可以釋放新的機會,從而推動真正高性能的機器人縱政策的發(fā)展。
UC伯克利BAIR實驗室的Sergey Levine、Jianlan Luo團隊最近發(fā)布了一項革命性的強化學習框架——Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning(HIL-SERL),可以獲得廣泛的精確和靈巧的機器人技能。HIL-SERL通過集成許多組件來解決前面提到的挑戰(zhàn),這些組件可以在現(xiàn)實世界中實現(xiàn)有效的基于視覺的 RL 策略,從而訓練出通用的視覺驅(qū)動機器人操作策略。HIL-SERL的表現(xiàn)令人矚目,僅需1-2.5小時的訓練就能在所有任務上達到100%的成功率,遠超基線方法不足50%的平均成功率。即使面臨外部干擾,機器人也能保持出色的表現(xiàn),展現(xiàn)出強大的魯棒性。
為了解決優(yōu)化穩(wěn)定性問題,使用了預訓練的可視化主干網(wǎng)進行策略學習。為了處理樣本復雜性問題,使用了一種基于具有先驗數(shù)據(jù)的 RL (RLPD)的樣本效率非策略 RL 算法,該算法結(jié)合了人工演示和校正。此外,還包括一個精心設計的低級控制器,以確保政策培訓期間的安全。在訓練期間,系統(tǒng)會向人工操作員詢問潛在的更正,然后用于以非政策方式更新策略。研究發(fā)現(xiàn),這種人機交互的糾正程序?qū)τ谑共呗阅軌驈腻e誤中吸取教訓并提高績效至關重要,特別是對于本文考慮的難以從頭開始學習的具有挑戰(zhàn)性的任務。
這些任務包括組裝家具、顛勺煎蛋、鞭打積木、插入 U 盤等操作,即使在人為干擾的情況下,機器人也依舊能夠穩(wěn)定、靈活地完成任務。
如圖 1 所示,系統(tǒng)解決的任務包括動態(tài)翻轉(zhuǎn)平底鍋中的對象;從塔上拿出疊疊樂塊;在兩只手臂之間交出物體;以及使用一個或兩個機械臂組裝復雜的設備,例如計算機主板、宜家擱板、汽車儀表板或正時皮帶。這些任務在復雜錯綜復雜的動態(tài)、高維狀態(tài)和動作空間、長視野或它們的組合方面提出了挑戰(zhàn)。
其中一些技能以前被認為無法直接在現(xiàn)實環(huán)境中使用 RL 進行訓練,例如許多雙臂作任務,或者幾乎無法用當前的機器人方法克服,例如正時皮帶組裝或疊疊樂鞭打。此外,它們還需要不同類型的控制策略,例如用于精確作任務的反應性閉環(huán)控制或難以規(guī)定的精細開環(huán)行為,例如疊疊樂鞭打。然而,也許最出乎意料的發(fā)現(xiàn)是,系統(tǒng)可以訓練 RL 策略,在現(xiàn)實世界中只有 1 小時到 2.5 小時的訓練時間,在幾乎所有任務上實現(xiàn)近乎完美的成功率和超人的周期時間,受制于初始放置的幾厘米或程度變化。訓練有素的 RL 策略大大優(yōu)于在相同數(shù)量的人類數(shù)據(jù)上訓練的 IL 方法,例如,相同數(shù)量的演示或糾正,平均成功率提高了 101%,周期時間縮短了 1.8×。這一結(jié)果很重要,因為它表明 RL 可以在實際培訓時間內(nèi)直接在現(xiàn)實世界中學習各種復雜的基于視覺的縱策略,這在以前被認為用早期方法是不可行的。此外,RL 的性能水平遠遠超過了 IL 和手工設計的控制器。
圖1.實驗任務概述。本文考慮的任務子集,包括 (A) 從塔上取出疊疊樂塊,(B) 翻轉(zhuǎn)平底鍋中的物體,以及組裝復雜的設備,例如 (C) 正時皮帶、(D) 儀表板、(E) 主板和 (F) 宜家擱板。
為了評估系統(tǒng)的有效性,將其與幾種最先進的 RL 方法進行了比較,并進行了消融研究以了解每個組件的貢獻。結(jié)果表明,系統(tǒng)不僅優(yōu)于相關基線,而且還強調(diào)令人印象深刻的實證結(jié)果歸功于這些組件的精心整合。此外,還對實證結(jié)果進行了全面分析,提供了對基于 RL 的作有效性的見解。該分析探討了學習的 RL 策略的訓練動態(tài),并進一步檢查了 RL 策略作為獲取不同類型控制策略的通用基于愿景的策略的靈活性。
總之,通過適當?shù)南到y(tǒng)級設計選擇,RL 可以有效地解決現(xiàn)實世界中各種靈巧而復雜的基于視覺的作任務。系統(tǒng)支持從圖像輸入進行雙臂協(xié)調(diào),并處理諸如鞭打疊疊樂塊和組裝正時皮帶等任務,展示了這種方法在不同作場景中的靈活性。在實際培訓的 1 到 2.5 小時內(nèi),該方法優(yōu)于其他基線,將任務成功率提高了 2×,實現(xiàn)了近乎完美的成功率,平均執(zhí)行速度提高了 1.8×。通過廣泛的實驗和分析結(jié)果表明,RL可以在實際訓練時間內(nèi)直接在現(xiàn)實世界中學習各種復雜的基于視覺的縱策略。我們希望這項工作能夠激發(fā)新一代學習的機器人操作技術,有利于工業(yè)應用和研究進步。
文章來源:CAAI認知系統(tǒng)與信息處理專委會