?恒立佳創(chuàng)：智元發(fā)布較早通用具身基座大模型GO-1

來源：發(fā)布時間：2025-03-12

GO-1 基本信息

發(fā)布時間：2025 年 3 月 10 日。

發(fā)布公司：智元機器人，是由 “稚暉君” 彭志輝創(chuàng)辦的人形機器人初創(chuàng)公司，也是上海一家實現(xiàn)人形機器人量產(chǎn)的企業(yè)。

ViLLA 架構特點

組成部分

VLM（多模態(tài)大模型）：借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)，使模型具備通用場景感知和語言理解能力，比如看到 “掛衣服” 的指令和相關畫面，能理解任務要求。

MoE 中的 Latent Planner（隱式規(guī)劃器）：借助大量跨本體和人類操作視頻數(shù)據(jù)，獲得通用的動作理解能力，可設想 “掛衣服” 過程包含的操作步驟。

MoE 中的 Action Expert（動作專業(yè)）：借助百萬真機數(shù)據(jù)，讓模型擁有精細的動作執(zhí)行能力，能夠精細完成 “掛衣服” 的一系列動作。

協(xié)同運作：在推理時，VLM、Latent Planner 和 Action Expert 三者協(xié)同工作。LAM（隱式動作模型）用于獲取當前幀和歷史幀之間 Latent Actions 的 Groundtruth（真值），由編碼器和解碼器組成。Latent Planner 負責預測離散的 Latent Action Tokens，與 VLM 主干網(wǎng)絡共享相同的 Transformer 結構，同時引入 Action Expert。

GO-1 的優(yōu)勢

人類視頻學習：可結合互聯(lián)網(wǎng)視頻和真實人類示范進行學習，增強對人類行為的理解，更好地為人類服務。

小樣本快速泛化：具有強大的泛化能力，能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務，降低了具身模型的使用門檻和后訓練成本，如機器人完成 “倒水” 動作，未搭載 GO-1 模型需要 1 萬至 5 萬條數(shù)據(jù)采集，搭載后只需 1000 條左右。

一腦多形：作為通用機器人策略模型，能夠在不同機器人形態(tài)之間遷移，快速適配到不同本體，實現(xiàn) “群體升智”，同一套算法可同時應用于雙足、輪式、機械臂等不同形態(tài)的機器人。

持續(xù)進化：搭配智元一整套數(shù)據(jù)回流系統(tǒng)，可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習，越用越聰明。

性能優(yōu)先：相比已有的比較好模型，平均成功率大幅提高 32%，在真實世界的靈巧操作和長時任務方面表現(xiàn)優(yōu)良。

GO-1 的意義及應用前景

標志具身智能發(fā)展：標志著具身智能向通用化、開放化、智能化加速邁進。

應用前景廣

商業(yè)領域：可應用于物流機器人、導購機器人等，實現(xiàn)貨物搬運、智能導購等任務，提高商業(yè)運營效率。

工業(yè)領域：能用于工業(yè)生產(chǎn)中的裝配、質(zhì)檢等環(huán)節(jié)，提高生產(chǎn)的自動化和智能化水平，例如精細完成零部件裝配任務。

家庭領域：可用于家庭服務機器人，如掃地、擦窗、照顧老人等，像陪護機器人通過長期觀察學會預防老人跌倒的預判能力。