首個通用具身基座大模型！“華為天才少年”最新發(fā)布

來源：證券時報作者：周春媚 2025-03-10 18:19

Aa 大號字

3月10日，證券時報記者從機器人公司智元機器人獲悉，該公司發(fā)布了首個通用具身基座模型智元啟元大模型Genie Operator-1（GO-1）。

據(jù)介紹，該模型創(chuàng)新性地采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu)，由VLM（多模態(tài)大模型）和MoE（混合專家）組成，從而實現(xiàn)了可以利用人類視頻學(xué)習(xí)，完成小樣本快速泛化。目前，GO-1大模型已成功部署到智元多款機器人本體之中。

智元機器人由從華為離職的“天才少年”彭志輝創(chuàng)辦。彭志輝在互聯(lián)網(wǎng)上以“稚暉君”被人廣為熟知，因在B站發(fā)布了很多硬核科技產(chǎn)品的視頻而聞名，被稱為“野生鋼鐵俠”。對于GO-1大模型的發(fā)布，稚暉君早幾日已在微博上進行“預(yù)熱”，稱“下周有好東西發(fā)布”，相關(guān)詞條沖上熱搜。值得注意的是，今日GO-1發(fā)布后，稚暉君在微博上透露，“明天還有驚喜”。

大模型賦能機器人更好完成任務(wù)

遞水杯、做早餐、泡咖啡……在智元機器人發(fā)布的展示視頻中，成功部署了GO-1大模型的機器人持續(xù)進化，在一系列工作任務(wù)中表現(xiàn)出色。

例如在給人類遞水的任務(wù)中，GO-1通過學(xué)習(xí)大量的人類倒水視頻，從而“學(xué)習(xí)”了這一技能。據(jù)介紹，GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學(xué)習(xí)，增強模型對人類行為的理解。同時，GO-1大模型具有強大的泛化能力，能夠在百條級別的極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù)，降低了具身模型的使用門檻，使得后訓(xùn)練成本非常低。

除了人類視頻學(xué)習(xí)和小樣本快速泛化以外，GO-1大模型還有其他兩大顯著的特征。一是“一腦多形”，能夠在不同機器人形態(tài)之間遷移，快速適配到不同本體；二是能夠持續(xù)進化，搭配了智元機器人一整套數(shù)據(jù)回流系統(tǒng)，可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學(xué)習(xí)，越用越聰明。

GO-1大模型的訓(xùn)練主要是基于2024年底智元機器人推出的AgiBot World數(shù)據(jù)集。該數(shù)據(jù)集是包含超過100萬條軌跡、涵蓋217個任務(wù)、涉及五大類場景的大規(guī)模高質(zhì)量真機數(shù)據(jù)集，涵蓋超100種真實場景，其中40%為家居場景，20%為工業(yè)場景。共收錄80余種人類生活必備技能。

在模型架構(gòu)方面，為有效利用AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù)，智元機器人提出了Vision-Language-Latent-Action （ViLLA）這一創(chuàng)新性架構(gòu)，GO-1正是基于ViLLA架構(gòu)構(gòu)建的具身基座大模型。

ViLLA架構(gòu)是由VLM（多模態(tài)大模型）+ MoE（混合專家）組成，其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力，MoE中的Latent Planner（隱式規(guī)劃器）借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力，MoE中的Action Expert（動作專家）借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。

通過這一創(chuàng)新性架構(gòu)，智元機器人在五種不同復(fù)雜度任務(wù)上測試GO-1。結(jié)果顯示，GO-1相比于已有的最優(yōu)模型大幅領(lǐng)先，平均成功率提高了32%，并在倒水、清理桌面、補充飲料等任務(wù)中表現(xiàn)尤為出色。

智元機器人表示，GO-1大模型將加速具身智能的普及，機器人將從依賴特定任務(wù)的工具，向著具備通用智能的自主體發(fā)展，在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用。

智元機器人已量產(chǎn)下線1000臺機器人

在GO-1大模型發(fā)布的同時，智元具身研究中心常務(wù)主任任廣輝介紹，截至目前，智元機器人已經(jīng)量產(chǎn)下線1000臺機器人。

事實上，早在去年12月，智元機器人就對外宣布“開啟通用機器人商用量產(chǎn)”。今年 1 月，上市公司藍思科技與“稚暉君”創(chuàng)業(yè)項目智元機器人公司在長沙舉行了靈犀X1人形機器人套餐交付儀式，成功批量交付靈犀X1人形機器人相關(guān)產(chǎn)品。

作為人形機器人賽道的另外一家明星創(chuàng)業(yè)公司，智元機器人雖然成立僅兩年時間，卻備受行業(yè)關(guān)注，這與稚暉君的影響力密不可分。

公開資料顯示，稚暉君2015年本科畢業(yè)于電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院；2018年研究生畢業(yè)于電子科技大學(xué)信息與通信工程學(xué)院；2020年入選華為公司“天才少年計劃”，從事昇騰AI芯片和AI算法相關(guān)研究工作。業(yè)內(nèi)人士介紹，華為“天才少年”的招聘流程非常嚴格，不僅需要經(jīng)歷7輪左右的復(fù)雜流程，而且還要通過華為總裁的面試。最終成功入選這項計劃的“天才少年”們，年薪都是100萬元起步。

2022年10月，稚暉君宣布從華為辭職，并于數(shù)月后成立了智元機器人。2023年4月，他在微博發(fā)布了智元機器人的招聘帖，以此宣布投身創(chuàng)業(yè)。

公司成立半年后，2023年8月，智元機器人就發(fā)布了首款產(chǎn)品“遠征A1”。“遠征A1”身高175cm，重53kg，最高步速達到7km/h，全身有49個自由度，可以承重80kg，單臂最大負載5kg，在雙足行走、智能任務(wù)、人機互動等領(lǐng)域展現(xiàn)了業(yè)界領(lǐng)先的能力。

2024年8月，智元機器人在年度新品發(fā)布會發(fā)布了“遠征”“靈犀”兩大家族共計五款商用人形機器人新品（遠征A2、遠征A2-W、遠征A2-Max、靈犀X1以及靈犀X1-W），其中靈犀X1是智元機器人最新打造的具身智能機器人。至此，智元機器人旗下已形成人形機器人的兩大產(chǎn)品線——“遠征”和“靈犀”。

天眼查顯示，智元機器人是備受資本追捧的公司，目前累計完成7輪融資，投資方包含高瓴、經(jīng)緯、鼎暉、高榕、藍馳、紅杉中國等頭部投資機構(gòu)，還有比亞迪、上汽創(chuàng)投、百度風(fēng)投等產(chǎn)業(yè)資本。值得注意的是，智元機器人最新一輪融資為去年9月公布的A+++++輪融資，不斷疊加的“+”號也側(cè)面印證了公司的炙手可熱。

國聯(lián)民生證券認為，人形機器人作為一種高度復(fù)雜的智能裝備，其研發(fā)、生產(chǎn)和應(yīng)用涉及眾多學(xué)科領(lǐng)域，包括化學(xué)工程，機械工程、電子工程、計算機科學(xué)等。長期以來，高昂的成本一直是制約人形機器人大規(guī)模普及的關(guān)鍵因素。然而，隨著AI技術(shù)的飛速發(fā)展，其強大的數(shù)據(jù)分析、模擬優(yōu)化和自主學(xué)習(xí)能力為人形機器人的降本提供了全新的思路和方法。AI算法對合成環(huán)節(jié)的介入有望提高生產(chǎn)過程中的精度控制，并增加AI對環(huán)節(jié)產(chǎn)成品的關(guān)鍵性質(zhì)乃至分子排列等檢驗措施，從而提高當(dāng)前生產(chǎn)工藝下的產(chǎn)成品良率，從推動制造費用的下滑和原輔料的消耗減少，實現(xiàn)生產(chǎn)端的降本增效，人形機器人量產(chǎn)時代或加速到來。

責(zé)任編輯：戎艾茵