3月10日,證券時報記者從機器人公司智元機器人獲悉,該公司發(fā)布了首個通用具身基座模型智元啟元大模型Genie Operator-1(GO-1)。
據(jù)介紹,該模型創(chuàng)新性地采用了Vision-Language-Latent-Action (ViLLA) 架構(gòu),由VLM(多模態(tài)大模型)和MoE(混合專家)組成,從而實現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化。目前,GO-1大模型已成功部署到智元多款機器人本體之中。
智元機器人由從華為離職的“天才少年”彭志輝創(chuàng)辦。彭志輝在互聯(lián)網(wǎng)上以“稚暉君”被人廣為熟知,因在B站發(fā)布了很多硬核科技產(chǎn)品的視頻而聞名,被稱為“野生鋼鐵俠”。對于GO-1大模型的發(fā)布,稚暉君早幾日已在微博上進行“預(yù)熱”,稱“下周有好東西發(fā)布”,相關(guān)詞條沖上熱搜。值得注意的是,今日GO-1發(fā)布后,稚暉君在微博上透露,“明天還有驚喜”。
大模型賦能機器人更好完成任務(wù)
遞水杯、做早餐、泡咖啡……在智元機器人發(fā)布的展示視頻中,成功部署了GO-1大模型的機器人持續(xù)進化,在一系列工作任務(wù)中表現(xiàn)出色。
例如在給人類遞水的任務(wù)中,GO-1通過學(xué)習(xí)大量的人類倒水視頻,從而“學(xué)習(xí)”了這一技能。據(jù)介紹,GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學(xué)習(xí),增強模型對人類行為的理解。同時,GO-1大模型具有強大的泛化能力,能夠在百條級別的極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,使得后訓(xùn)練成本非常低。
除了人類視頻學(xué)習(xí)和小樣本快速泛化以外,GO-1大模型還有其他兩大顯著的特征。一是“一腦多形”,能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體;二是能夠持續(xù)進化,搭配了智元機器人一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學(xué)習(xí),越用越聰明。
GO-1大模型的訓(xùn)練主要是基于2024年底智元機器人推出的AgiBot World數(shù)據(jù)集。該數(shù)據(jù)集是包含超過100萬條軌跡、涵蓋217個任務(wù)、涉及五大類場景的大規(guī)模高質(zhì)量真機數(shù)據(jù)集,涵蓋超100種真實場景,其中40%為家居場景,20%為工業(yè)場景。共收錄80余種人類生活必備技能。
在模型架構(gòu)方面,為有效利用AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),智元機器人提出了Vision-Language-Latent-Action (ViLLA)這一創(chuàng)新性架構(gòu),GO-1正是基于ViLLA架構(gòu)構(gòu)建的具身基座大模型。
ViLLA架構(gòu)是由VLM(多模態(tài)大模型)+ MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。
通過這一創(chuàng)新性架構(gòu),智元機器人在五種不同復(fù)雜度任務(wù)上測試GO-1。結(jié)果顯示,GO-1相比于已有的最優(yōu)模型大幅領(lǐng)先,平均成功率提高了32%,并在倒水、清理桌面、補充飲料等任務(wù)中表現(xiàn)尤為出色。
智元機器人表示,GO-1大模型將加速具身智能的普及,機器人將從依賴特定任務(wù)的工具,向著具備通用智能的自主體發(fā)展,在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用。
智元機器人已量產(chǎn)下線1000臺機器人
在GO-1大模型發(fā)布的同時,智元具身研究中心常務(wù)主任任廣輝介紹,截至目前,智元機器人已經(jīng)量產(chǎn)下線1000臺機器人。
事實上,早在去年12月,智元機器人就對外宣布“開啟通用機器人商用量產(chǎn)”。今年 1 月,上市公司藍思科技與“稚暉君”創(chuàng)業(yè)項目智元機器人公司在長沙舉行了靈犀X1人形機器人套餐交付儀式,成功批量交付靈犀X1人形機器人相關(guān)產(chǎn)品。
作為人形機器人賽道的另外一家明星創(chuàng)業(yè)公司,智元機器人雖然成立僅兩年時間,卻備受行業(yè)關(guān)注,這與稚暉君的影響力密不可分。
公開資料顯示,稚暉君2015年本科畢業(yè)于電子科技大學(xué)生命科學(xué)與技術(shù)學(xué)院;2018年研究生畢業(yè)于電子科技大學(xué)信息與通信工程學(xué)院;2020年入選華為公司“天才少年計劃”,從事昇騰AI芯片和AI算法相關(guān)研究工作。業(yè)內(nèi)人士介紹,華為“天才少年”的招聘流程非常嚴格,不僅需要經(jīng)歷7輪左右的復(fù)雜流程,而且還要通過華為總裁的面試。最終成功入選這項計劃的“天才少年”們,年薪都是100萬元起步。
2022年10月,稚暉君宣布從華為辭職,并于數(shù)月后成立了智元機器人。2023年4月,他在微博發(fā)布了智元機器人的招聘帖,以此宣布投身創(chuàng)業(yè)。
公司成立半年后,2023年8月,智元機器人就發(fā)布了首款產(chǎn)品“遠征A1”。“遠征A1”身高175cm,重53kg,最高步速達到7km/h,全身有49個自由度,可以承重80kg,單臂最大負載5kg,在雙足行走、智能任務(wù)、人機互動等領(lǐng)域展現(xiàn)了業(yè)界領(lǐng)先的能力。
2024年8月,智元機器人在年度新品發(fā)布會發(fā)布了“遠征”“靈犀”兩大家族共計五款商用人形機器人新品(遠征A2、遠征A2-W、遠征A2-Max、靈犀X1以及靈犀X1-W),其中靈犀X1是智元機器人最新打造的具身智能機器人。至此,智元機器人旗下已形成人形機器人的兩大產(chǎn)品線——“遠征”和“靈犀”。
天眼查顯示,智元機器人是備受資本追捧的公司,目前累計完成7輪融資,投資方包含高瓴、經(jīng)緯、鼎暉、高榕、藍馳、紅杉中國等頭部投資機構(gòu),還有比亞迪、上汽創(chuàng)投、百度風(fēng)投等產(chǎn)業(yè)資本。值得注意的是,智元機器人最新一輪融資為去年9月公布的A+++++輪融資,不斷疊加的“+”號也側(cè)面印證了公司的炙手可熱。
國聯(lián)民生證券認為,人形機器人作為一種高度復(fù)雜的智能裝備,其研發(fā)、生產(chǎn)和應(yīng)用涉及眾多學(xué)科領(lǐng)域,包括化學(xué)工程,機械工程、電子工程、計算機科學(xué)等。長期以來,高昂的成本一直是制約人形機器人大規(guī)模普及的關(guān)鍵因素。然而,隨著AI技術(shù)的飛速發(fā)展,其強大的數(shù)據(jù)分析、模擬優(yōu)化和自主學(xué)習(xí)能力為人形機器人的降本提供了全新的思路和方法。AI算法對合成環(huán)節(jié)的介入有望提高生產(chǎn)過程中的精度控制,并增加AI對環(huán)節(jié)產(chǎn)成品的關(guān)鍵性質(zhì)乃至分子排列等檢驗措施,從而提高當(dāng)前生產(chǎn)工藝下的產(chǎn)成品良率,從推動制造費用的下滑和原輔料的消耗減少,實現(xiàn)生產(chǎn)端的降本增效,人形機器人量產(chǎn)時代或加速到來。