?恒立佳創(chuàng):智元發(fā)布較早通用具身基座大模型GO-1
GO-1 基本信息
發(fā)布時間:2025 年 3 月 10 日。
發(fā)布公司:智元機器人,是由 “稚暉君” 彭志輝創(chuàng)辦的人形機器人初創(chuàng)公司,也是上海一家實現(xiàn)人形機器人量產(chǎn)的企業(yè)。
ViLLA 架構特點
組成部分
VLM(多模態(tài)大模型):借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù),使模型具備通用場景感知和語言理解能力,比如看到 “掛衣服” 的指令和相關畫面,能理解任務要求。
MoE 中的 Latent Planner(隱式規(guī)劃器):借助大量跨本體和人類操作視頻數(shù)據(jù),獲得通用的動作理解能力,可設想 “掛衣服” 過程包含的操作步驟。
MoE 中的 Action Expert(動作專業(yè)):借助百萬真機數(shù)據(jù),讓模型擁有精細的動作執(zhí)行能力,能夠精細完成 “掛衣服” 的一系列動作。
協(xié)同運作:在推理時,VLM、Latent Planner 和 Action Expert 三者協(xié)同工作。LAM(隱式動作模型)用于獲取當前幀和歷史幀之間 Latent Actions 的 Groundtruth(真值),由編碼器和解碼器組成。Latent Planner 負責預測離散的 Latent Action Tokens,與 VLM 主干網(wǎng)絡共享相同的 Transformer 結構,同時引入 Action Expert。
GO-1 的優(yōu)勢
人類視頻學習:可結合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強對人類行為的理解,更好地為人類服務。
小樣本快速泛化:具有強大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻和后訓練成本,如機器人完成 “倒水” 動作,未搭載 GO-1 模型需要 1 萬至 5 萬條數(shù)據(jù)采集,搭載后只需 1000 條左右。
一腦多形:作為通用機器人策略模型,能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體,實現(xiàn) “群體升智”,同一套算法可同時應用于雙足、輪式、機械臂等不同形態(tài)的機器人。
持續(xù)進化:搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習,越用越聰明。
性能優(yōu)先:相比已有的比較好模型,平均成功率大幅提高 32%,在真實世界的靈巧操作和長時任務方面表現(xiàn)優(yōu)良。
GO-1 的意義及應用前景
標志具身智能發(fā)展:標志著具身智能向通用化、開放化、智能化加速邁進。
應用前景廣
商業(yè)領域:可應用于物流機器人、導購機器人等,實現(xiàn)貨物搬運、智能導購等任務,提高商業(yè)運營效率。
工業(yè)領域:能用于工業(yè)生產(chǎn)中的裝配、質(zhì)檢等環(huán)節(jié),提高生產(chǎn)的自動化和智能化水平,例如精細完成零部件裝配任務。
家庭領域:可用于家庭服務機器人,如掃地、擦窗、照顧老人等,像陪護機器人通過長期觀察學會預防老人跌倒的預判能力。
(恒立佳創(chuàng)是恒立集團在上海成立的一站式客戶解決方案中心,旨在為客戶提供恒立全球12個生產(chǎn)制造基地生產(chǎn)的液壓元件、氣動元件、導軌絲桿、密封件、電驅(qū)電控、精密鑄件、無縫鋼管、傳動控制與系統(tǒng)集成等全系列產(chǎn)品的技術支持與銷售服務。)