北京大學楊越教授團隊開發(fā)了一種基于深度強化學習的方法,用于訓練一種類水母游動機器人在二維流場中高效追蹤移動目標。該游動體是一種柔性物體,配備基于扭簧的肌肉模型。我們采用深度Q網(wǎng)絡(DQN),以游動體的幾何形狀和動態(tài)參數(shù)作為輸入,輸出施加于其上的作用力作為動作指令。特別地,該方法引入了動作調節(jié)機制,以減輕復雜流固耦合作用帶來的干擾。這些動作的目標是引導游動體以最短時間抵達目標點。在DQN訓練中,游動體的運動數(shù)據(jù)通過浸沒邊界法數(shù)值模擬獲取。在追蹤移動目標時,由于脫落渦流與游動體自身運動之間的流體動力相互作用,作用力的施加與游動體的響應之間存在固有延遲。測試表明,搭載DQN智能體與動作調節(jié)機制的游動體能根據(jù)瞬時狀態(tài)動態(tài)調整行進路線。此項工作拓展了機器學習在流體環(huán)境中柔性物體控制領域的應用范圍。研究成果以“Deep reinforcement learning for tracking a moving target in jellyfish-like swimming”為題發(fā)表于流體力學領域旗艦期刊Journal of Fluid Mechanics。流體控制新需求:傳統(tǒng)流體力學控制方法在強流固耦合(FSI)場景下面臨建模困難,尤其在柔性體運動中存在動作延遲、渦流干擾等挑戰(zhàn)仿生應用價值:水母憑借高效推進機制(能量利用率比人工推進器高48%)成為海洋探測機器人理想模型,但其轉向控制機理長期未被攻克技術驅動:深度強化學習(DRL)在流體控制領域取得突破(如翼型路徑跟蹤、圓柱減阻),但尚未應用于強FSI環(huán)境的目標追蹤任務動作延遲效應:水母運動產(chǎn)生的脫落渦流對后續(xù)動作產(chǎn)生持續(xù)干擾,導致施力與機體響應存在顯著時滯狀態(tài)感知局限:生物導航可能僅依賴瞬時環(huán)境信息(無歷史記憶),傳統(tǒng)DRL需融合時序數(shù)據(jù)的方案不適用控制復雜性:柔性體變形與流體動力學的強非線性耦合,使訓練過程難以收斂(1)仿生肌肉模型:基于扭簧構建無扭矩形變肌肉單元(159個拉格朗日點);正弦力驅動機制:通過調節(jié)雙側力幅值差實現(xiàn)轉向控制。(2)動作調節(jié)機制:引入周期性施力間歇(如動作序列A1→A3→A0),抑制尾渦抵消現(xiàn)象;將動作空間簡化為4種基礎模式:對稱施力/左主導/右主導/零力。(3)瞬時狀態(tài)DRL框架:僅輸入當前時刻幾何與動力學參數(shù)(無需歷史狀態(tài));采用DQN網(wǎng)絡直接輸出最優(yōu)Q值動作。(4)流體-控制聯(lián)合仿真:基于浸沒邊界法(IBM)生成訓練數(shù)據(jù);獎勵函數(shù)設計:$r(s,a)=A/Δx - B·|θ_{err}| - C·t$(平衡距離、航向角與時間成本)。(1)固定目標追蹤:追蹤效率較基線策略提升63%;在Re=100-500范圍保持魯棒性。(2)移動目標追蹤:成功跟蹤直線/圓周軌跡,質心軌跡誤差<5%;突破動作延遲限制:即使存在0.3T的渦致時滯,仍實現(xiàn)航向動態(tài)調整。(3)流場調控機制::動作調節(jié)使渦量場有序脫落,推進效率提升27%;消除無調節(jié)時的渦流對消現(xiàn)象。(1)首創(chuàng)柔性水母DRL控制范式:首次實現(xiàn)強FSI環(huán)境下的純瞬時狀態(tài)目標追蹤,突破傳統(tǒng)DRL需歷史記憶的限制。(2)仿生-控制深度融合:扭簧肌肉模型還原生物推進機理;動作調節(jié)機制模擬水母神經(jīng)節(jié)律控制。(3)計算流體力學新應用:建立IBM-DRL聯(lián)合仿真框架,為流體智能控制提供新工具。(4)揭示生物導航機理:通過DRL策略反推水母可能采用"感知-動作"即時響應模式(解釋其無中樞神經(jīng)系統(tǒng)的導航能力)。圖文速覽
圖1:整體工作流程示意圖。(a) 通過多組仿真數(shù)據(jù)獲取離線訓練樣本。(b) 類水母游動體的幾何構型與狀態(tài)參數(shù),紅色區(qū)域標示作用力施加部位。(c) 包含四種動作(A_i,i = 0,1,2,3)的動作空間,分別表征典型水母運動模式(從左至右):兩側對稱施力、右側主導施力、左側主導施力、零施力狀態(tài)。(d) 隨機動作的多組仿真(左側虛線框)與經(jīng)驗元組(s_t, a_t, r_t, s_{t+Δt}, D)采集過程(右側虛線框)。(e) DQN模塊接收狀態(tài)向量并輸出各動作Q值,最終選擇Q值最高的動作。(f) 經(jīng)訓練后的智能體在不同追蹤任務中的測試效果,補充視頻1-2展示了游動體追蹤移動目標的動態(tài)過程。
圖2:類水母模型游動體由159個拉格朗日點構成。相鄰兩點間通過彈簧連接(黑色實線表示),每三個相鄰點間通過梁單元連接(黑色虛線表示)。不同顏色對應不同梁單元。右圖展示了三個相鄰點構成的離散纖維梁模型:紅色虛線表示梁單元,三個圓點代表梁模型的左(X_L)、中(X_M)、右(X_R)三個相鄰點,其位移矢量分別記為X_L、X_M、X_R,對應的拉格朗日力分別為F_L、F_M、F_R。圖3:獎勵函數(shù)r(s,a)的等高線圖(典型參數(shù):A=20,B=10,d=0.1)圖4:(a-c) 游動體追蹤固定目標(左前方、正前方和右前方)的運動軌跡,紅點表示起點和目標點。(d) 配備動作調節(jié)機制的游動體右轉過程(t/T=0, 0.2, 0.4, 0.6, 0.8, 1時刻的渦量幅值等高線圖),動作序列為A1、A3、A0、A0。(e) 游動體追蹤右前方目標時的運動軌跡及渦量幅值等高線圖。(f) 追蹤右前方目標過程中θ角和Ω角速度的時序變化。圖5:無動作調節(jié)機制的游動體右轉過程。(t/T=0、0.2、0.4、0.7、0.8、1時刻的渦量幅值等高線圖)。動作序列為A1、A1、A0、A0,其中第二拍施加非對稱作用力。不同拍次產(chǎn)生極性相反的尾渦(藍圈標示區(qū)域),這些渦流相互抵消導致推進效率下降。圖6: (a) 游動體質心運動軌跡(紅藍線)與移動目標軌跡(綠線)。紅色與藍色線段分別表示施力與未施力狀態(tài)下的動作。六個時間點的瞬時狀態(tài)展示包括:游動體形態(tài)(黑色曲線)、周圍渦量分布(彩色等高線)及目標點位置(綠點)。(b) 追蹤移動目標過程中θ角與Ω角速度的時序變化,圓形目標軌跡的追蹤過程詳見補充視頻1。文章小結
本研究開發(fā)了一種基于深度強化學習的控制方法,用于實現(xiàn)二維類水母游動機器人的移動目標追蹤。該控制策略采用深度Q網(wǎng)絡(DQN)智能體,其決策基于游動體的瞬時狀態(tài)。這個柔性游動體采用扭簧肌肉模型,其特點是在形變時不產(chǎn)生扭矩。我們通過在游動體肌肉部位施加一對正弦力,并通過調節(jié)力幅值來實現(xiàn)運動控制。
游動體在流體中的運動數(shù)據(jù)通過浸沒邊界法數(shù)值模擬獲取,并用于DQN智能體的訓練與驗證。為使游動更趨自然并降低訓練難度,我們引入了動作調節(jié)機制:通過在特定時段暫停施力,有效抑制游動體拍動運動產(chǎn)生的尾渦抵消現(xiàn)象。
配備DQN智能體與動作調節(jié)機制的游動體,展現(xiàn)出對固定/移動目標的雙重追蹤能力。動作調節(jié)機制削弱了歷史動作誘導流場的影響,使游動體能基于當前狀態(tài)獨立輸出控制動作。
在固定目標追蹤基準測試中,DQN智能體的控制效率顯著優(yōu)于附錄A的基線策略,且在不同雷諾數(shù)下均保持穩(wěn)健性能。面對移動目標追蹤的挑戰(zhàn)性任務時,由于脫落渦流與游動體運動之間的流體動力相互作用,施力動作與機體旋轉響應存在固有延遲。游動體仍能根據(jù)瞬時狀態(tài)動態(tài)調整航向,這種抗干擾能力凸顯了DQN智能體的強健決策特性。
當應對更復雜的"8字形"等目標軌跡時,智能體性能顯現(xiàn)局限。這一現(xiàn)象揭示了自然導航策略(特別是生物原生環(huán)境中的運動策略)涉及的多因素耦合機制。例如,真實水母會綜合運用內部狀態(tài)信號(如速度)和外部環(huán)境信息(如流場動態(tài))實現(xiàn)精準導航。
本研究將二維類水母游動體的運動能力從前進游動拓展到目標追蹤,探索了其控制策略,拓寬了強化學習在流體動力學中的應用邊界。鑒于游動體運動涉及強流固耦合作用,智能體可能需要更多信息來優(yōu)化決策。未來可通過以下方式提升性能:獲取周圍流場更多信息、預測目標位置、融合歷史狀態(tài)數(shù)據(jù),以及采用循環(huán)神經(jīng)網(wǎng)絡(RNN)或Transformer等能捕捉時序特征的網(wǎng)絡架構來構建更高階控制策略。
原文鏈接:
https://doi.org/10.1017/jfm.2025.10470