人形機器人本體大模型技術發展趨勢 大小腦分層協同成為部分廠商優選的技術路線。“大腦”+“小腦”分層具備可拓展、高效開發與強適應性三大特點,具有較好的泛化能力和可解釋性,可有效的支持“一腦多機”協同,成為當前機器人廠商較為容易落地的技術路線。 兼顧連續精準的動作和推理性能的混合端到端VLA模型架構成為新趨勢。市面已出現的VLA模型重點基于三種主流模型架構,自回歸預測、回歸式擬合及擴散頭生成。如何將以上三種技術特點有機結合,將機器人離散化的動作實現連續,有效建模連續動作分布,并充分發揮VLM的性能成為當前VLA模型的發展趨勢。 結合神經科學的新形態神經網絡架構成為行業研究的熱點。當前主流大模型仍然基于Transformer架構,雖然具備較好的模型可解釋性及并行計算能力,但該架構訓練的復雜度較高,難以處理超長序列問題,進而無法有效的進行長序列記憶建模,進而與人類相比其通用泛化能力仍較弱。因此如何進一步結合神經科學,通過構建類人腦的神經元結構來優化Transformer架構,提升大模型的訓練速度,降低推理代價,進一步改善模型的通用性和泛化性成為研究趨勢。 本次世界機器人大會企業及學術機構展出的人形機器人本體與潛在本體大模型,重點呈現三方面特征 大小腦分層技術趨于成熟,部分廠家機器人動作操作精度得到改善。本次WRC科大訊飛聆動通用訓練與推理一體的機器人依托其構建的多模態預訓練底座,結合“一腦多小腦”架構,實現快速適配場景,較好的平衡了通用與效率。此外,浙江人形機器人創新中心也展示了“感知決策大腦+精準運控小腦”的機器人,在柔性物料處理、自動化移動液體等工業場景方面展現出較高的操作精度。在柔性物料處理方面,全流程操作偏差嚴格控制在±2mm以內;在實驗室自動化移液方面,確保了1ml至500ml寬量程范圍內液體移液誤差<1mm。此外,機器人也較好的利用深度視覺理解零售場景中各商品的屬性,實現了精準抓取。 融合“快慢”思考的端到端VLA成為主流技術路線,國內廠商及研究機構端到端VLA模型較國外同類模型均有一定的性能提升。星海圖在WRC期間展出了R1 Lite機器人并進行了自主鋪床的動作展示,實現了全球首次全身運控的長柔性任務現場演示,同時在8月11日主論壇期間,星海圖發布了端到端雙系統全身控制模型G0,G0采用了雙系統快慢架構,具備“慢思考”和“快執行”雙重能力,經過評測,G0模型在多個基準任務上全面優于π0。另外,北京大學研究團隊也提出了統一的VLA框架——Hybrid VLA,將自規劃預測與擴散預測進行融合,使訓練輸入除了包括語言和視覺外,還融入了連續的機器人狀態、擴散噪聲與自回歸動作等,促進兩種模型任務充分融合,實現了兩種動作預測相互增強。經測試驗證表明,在超過80%的成功測試的樣本中,自回歸動作Token的平均置信度超過0.96。在真機測試過程中,部署HybridVLA的AgileX雙臂機器人在拿放水果、放置酒瓶、疊短褲等場景的平均性能分數為0.66,高于π0的0.55。 在探索結合神經科學的潛在機器人本體大模型方面,國內科研機構提出的新型神經網絡架構的“類腦”大模型的研究取得了一定的進展。本次WRC分論壇中科院團隊現場發布了融合“樹突多枝并行脈沖神經網絡”的“Spike-Drive Transformer”架構在7B“類腦”大模型上的最新性能,測試結果表明該模型在預訓練模型性能方面,在MMLU數據集上得分為65.84分,超過LIama-3.1的65.74分;在SFT模型性能方面,在GSM8K數據集上得分69.83分;在推理效率方面實現處理128K輸入的速度為Qwen2.5的2倍以上。預計8-9月中科院將發布70B“類腦”大模型。 國內人形機器人本體大模型的發展啟示 一是融合了快慢系統的大小腦技術路線可使廠商快速上手布局人形機器人業務,在提高機器人操作精度和執行任務成功率的同時,也將有效實現“一腦多小腦”的操控方式,實現機器人群體協作作業,這將推動人形機器人在操作準確性要求高,結構化較為清晰的工業場景實現應用落地。二是融合了快慢系統的端到端VLA模型架構仍持續優化,需進一步平衡和改善精細動作連續建模、模型推理、機器人四肢操作頻率等能力,同時需繼續增加機器人長序列任務高質量多模態數據集的構建,雙輪驅動改善模型性能。三是融合了神經科學的“類腦”大模型的神經網絡雖然在一定程度上改善了模型的推理效率,但是當前此類神經網絡模型仍處于初級發展階段,模型性能較低,需要持續測試驗證并探索可行的應用場景。 本文作者 李春輝 戰略發展研究所 分析師 碩士,長期專注于衛星導航與位置服務、5G通信系統及關鍵技術、人工智能與具身智能技術與產業研究。
