人形機(jī)器人本體大模型技術(shù)發(fā)展趨勢(shì) 大小腦分層協(xié)同成為部分廠商優(yōu)選的技術(shù)路線。“大腦”+“小腦”分層具備可拓展、高效開(kāi)發(fā)與強(qiáng)適應(yīng)性三大特點(diǎn),具有較好的泛化能力和可解釋性,可有效的支持“一腦多機(jī)”協(xié)同,成為當(dāng)前機(jī)器人廠商較為容易落地的技術(shù)路線。 兼顧連續(xù)精準(zhǔn)的動(dòng)作和推理性能的混合端到端VLA模型架構(gòu)成為新趨勢(shì)。市面已出現(xiàn)的VLA模型重點(diǎn)基于三種主流模型架構(gòu),自回歸預(yù)測(cè)、回歸式擬合及擴(kuò)散頭生成。如何將以上三種技術(shù)特點(diǎn)有機(jī)結(jié)合,將機(jī)器人離散化的動(dòng)作實(shí)現(xiàn)連續(xù),有效建模連續(xù)動(dòng)作分布,并充分發(fā)揮VLM的性能成為當(dāng)前VLA模型的發(fā)展趨勢(shì)。 結(jié)合神經(jīng)科學(xué)的新形態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu)成為行業(yè)研究的熱點(diǎn)。當(dāng)前主流大模型仍然基于Transformer架構(gòu),雖然具備較好的模型可解釋性及并行計(jì)算能力,但該架構(gòu)訓(xùn)練的復(fù)雜度較高,難以處理超長(zhǎng)序列問(wèn)題,進(jìn)而無(wú)法有效的進(jìn)行長(zhǎng)序列記憶建模,進(jìn)而與人類相比其通用泛化能力仍較弱。因此如何進(jìn)一步結(jié)合神經(jīng)科學(xué),通過(guò)構(gòu)建類人腦的神經(jīng)元結(jié)構(gòu)來(lái)優(yōu)化Transformer架構(gòu),提升大模型的訓(xùn)練速度,降低推理代價(jià),進(jìn)一步改善模型的通用性和泛化性成為研究趨勢(shì)。 本次世界機(jī)器人大會(huì)企業(yè)及學(xué)術(shù)機(jī)構(gòu)展出的人形機(jī)器人本體與潛在本體大模型,重點(diǎn)呈現(xiàn)三方面特征 大小腦分層技術(shù)趨于成熟,部分廠家機(jī)器人動(dòng)作操作精度得到改善。本次WRC科大訊飛聆動(dòng)通用訓(xùn)練與推理一體的機(jī)器人依托其構(gòu)建的多模態(tài)預(yù)訓(xùn)練底座,結(jié)合“一腦多小腦”架構(gòu),實(shí)現(xiàn)快速適配場(chǎng)景,較好的平衡了通用與效率。此外,浙江人形機(jī)器人創(chuàng)新中心也展示了“感知決策大腦+精準(zhǔn)運(yùn)控小腦”的機(jī)器人,在柔性物料處理、自動(dòng)化移動(dòng)液體等工業(yè)場(chǎng)景方面展現(xiàn)出較高的操作精度。在柔性物料處理方面,全流程操作偏差嚴(yán)格控制在±2mm以內(nèi);在實(shí)驗(yàn)室自動(dòng)化移液方面,確保了1ml至500ml寬量程范圍內(nèi)液體移液誤差<1mm。此外,機(jī)器人也較好的利用深度視覺(jué)理解零售場(chǎng)景中各商品的屬性,實(shí)現(xiàn)了精準(zhǔn)抓取。 融合“快慢”思考的端到端VLA成為主流技術(shù)路線,國(guó)內(nèi)廠商及研究機(jī)構(gòu)端到端VLA模型較國(guó)外同類模型均有一定的性能提升。星海圖在WRC期間展出了R1 Lite機(jī)器人并進(jìn)行了自主鋪床的動(dòng)作展示,實(shí)現(xiàn)了全球首次全身運(yùn)控的長(zhǎng)柔性任務(wù)現(xiàn)場(chǎng)演示,同時(shí)在8月11日主論壇期間,星海圖發(fā)布了端到端雙系統(tǒng)全身控制模型G0,G0采用了雙系統(tǒng)快慢架構(gòu),具備“慢思考”和“快執(zhí)行”雙重能力,經(jīng)過(guò)評(píng)測(cè),G0模型在多個(gè)基準(zhǔn)任務(wù)上全面優(yōu)于π0。另外,北京大學(xué)研究團(tuán)隊(duì)也提出了統(tǒng)一的VLA框架——Hybrid VLA,將自規(guī)劃預(yù)測(cè)與擴(kuò)散預(yù)測(cè)進(jìn)行融合,使訓(xùn)練輸入除了包括語(yǔ)言和視覺(jué)外,還融入了連續(xù)的機(jī)器人狀態(tài)、擴(kuò)散噪聲與自回歸動(dòng)作等,促進(jìn)兩種模型任務(wù)充分融合,實(shí)現(xiàn)了兩種動(dòng)作預(yù)測(cè)相互增強(qiáng)。經(jīng)測(cè)試驗(yàn)證表明,在超過(guò)80%的成功測(cè)試的樣本中,自回歸動(dòng)作Token的平均置信度超過(guò)0.96。在真機(jī)測(cè)試過(guò)程中,部署HybridVLA的AgileX雙臂機(jī)器人在拿放水果、放置酒瓶、疊短褲等場(chǎng)景的平均性能分?jǐn)?shù)為0.66,高于π0的0.55。 在探索結(jié)合神經(jīng)科學(xué)的潛在機(jī)器人本體大模型方面,國(guó)內(nèi)科研機(jī)構(gòu)提出的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)的“類腦”大模型的研究取得了一定的進(jìn)展。本次WRC分論壇中科院團(tuán)隊(duì)現(xiàn)場(chǎng)發(fā)布了融合“樹(shù)突多枝并行脈沖神經(jīng)網(wǎng)絡(luò)”的“Spike-Drive Transformer”架構(gòu)在7B“類腦”大模型上的最新性能,測(cè)試結(jié)果表明該模型在預(yù)訓(xùn)練模型性能方面,在MMLU數(shù)據(jù)集上得分為65.84分,超過(guò)LIama-3.1的65.74分;在SFT模型性能方面,在GSM8K數(shù)據(jù)集上得分69.83分;在推理效率方面實(shí)現(xiàn)處理128K輸入的速度為Qwen2.5的2倍以上。預(yù)計(jì)8-9月中科院將發(fā)布70B“類腦”大模型。 國(guó)內(nèi)人形機(jī)器人本體大模型的發(fā)展啟示 一是融合了快慢系統(tǒng)的大小腦技術(shù)路線可使廠商快速上手布局人形機(jī)器人業(yè)務(wù),在提高機(jī)器人操作精度和執(zhí)行任務(wù)成功率的同時(shí),也將有效實(shí)現(xiàn)“一腦多小腦”的操控方式,實(shí)現(xiàn)機(jī)器人群體協(xié)作作業(yè),這將推動(dòng)人形機(jī)器人在操作準(zhǔn)確性要求高,結(jié)構(gòu)化較為清晰的工業(yè)場(chǎng)景實(shí)現(xiàn)應(yīng)用落地。二是融合了快慢系統(tǒng)的端到端VLA模型架構(gòu)仍持續(xù)優(yōu)化,需進(jìn)一步平衡和改善精細(xì)動(dòng)作連續(xù)建模、模型推理、機(jī)器人四肢操作頻率等能力,同時(shí)需繼續(xù)增加機(jī)器人長(zhǎng)序列任務(wù)高質(zhì)量多模態(tài)數(shù)據(jù)集的構(gòu)建,雙輪驅(qū)動(dòng)改善模型性能。三是融合了神經(jīng)科學(xué)的“類腦”大模型的神經(jīng)網(wǎng)絡(luò)雖然在一定程度上改善了模型的推理效率,但是當(dāng)前此類神經(jīng)網(wǎng)絡(luò)模型仍處于初級(jí)發(fā)展階段,模型性能較低,需要持續(xù)測(cè)試驗(yàn)證并探索可行的應(yīng)用場(chǎng)景。 本文作者 李春輝 戰(zhàn)略發(fā)展研究所 分析師 碩士,長(zhǎng)期專注于衛(wèi)星導(dǎo)航與位置服務(wù)、5G通信系統(tǒng)及關(guān)鍵技術(shù)、人工智能與具身智能技術(shù)與產(chǎn)業(yè)研究。