中新網(wǎng)上海3月10日電(記者 李姝徵)上海首家人形機(jī)器人量產(chǎn)企業(yè)——智元機(jī)器人10日發(fā)布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1)。
智元機(jī)器人是由“稚暉君”彭志輝創(chuàng)辦的人形機(jī)器人初創(chuàng)公司,也是上海首家實(shí)現(xiàn)人形機(jī)器人量產(chǎn)的企業(yè)。該企業(yè)2024年已下線1000臺(tái)人形機(jī)器人,并將在2025年實(shí)現(xiàn)數(shù)千臺(tái)的年產(chǎn)量。
智元機(jī)器人2024年已下線1000臺(tái)人形機(jī)器人,并將在2025年實(shí)現(xiàn)數(shù)千臺(tái)的年產(chǎn)量。中新網(wǎng)記者 湯彥俊 攝智元具身研究中心常務(wù)主任任廣輝當(dāng)日接受記者采訪時(shí)表示,GO-1大模型借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類的環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時(shí),它還支持部署到不同的機(jī)器人本體,高效地完成落地,并在實(shí)際的使用中持續(xù)不斷地快速進(jìn)化。
任廣輝介紹,GO-1大模型的特點(diǎn)可歸納為4個(gè)方面。首先是人類視頻學(xué)習(xí)。GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解。
第二是小樣本快速泛化。GO-1大模型具有強(qiáng)大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),不僅降低了具身模型的使用門檻,也大大了降低后訓(xùn)練成本。以“倒水”這一動(dòng)作為例,如果人形機(jī)器人沒(méi)有搭載大模型,完成該動(dòng)作的訓(xùn)練需要1萬(wàn)至5萬(wàn)條數(shù)據(jù)采集;搭載大模型后,完成該動(dòng)作僅需1000條左右數(shù)據(jù)采集。
第三是“一腦多形”。作為通用機(jī)器人策略模型,GO-1大模型能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體,類似“群體升智”。
第四是持續(xù)進(jìn)化。任廣輝介紹,搭配一整套數(shù)據(jù)回流系統(tǒng),GO-1大模型可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí),“越用越聰明”。
3月10日,智元機(jī)器人發(fā)布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1)。智元機(jī)器人 供圖如何達(dá)成這些?智元機(jī)器人合伙人、具身智能事業(yè)部總裁姚卯青介紹,這源于GO-1的Vision-Language-Latent-Action(ViLLA,即視覺(jué)-語(yǔ)言-隱式-動(dòng)作)架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型)+ MoE(混合專家)組成。
“VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE中的Action Expert(動(dòng)作專家)借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力?!币γ嘟榻B,通過(guò)三者環(huán)環(huán)相扣,讓GO-1可利用人類視頻學(xué)習(xí),完成小樣本快速泛化。
“例如,用戶給出指令告訴機(jī)器人要做的事情,比如‘掛衣服’,模型就可以根據(jù)看到的畫面,理解這句話對(duì)應(yīng)的任務(wù)要求。”任廣輝表示,該模型可根據(jù)之前訓(xùn)練時(shí)看過(guò)的掛衣服數(shù)據(jù),設(shè)想這個(gè)過(guò)程應(yīng)該包括哪些操作步驟,最后執(zhí)行這一連串的步驟,完成整個(gè)任務(wù)的操作。
距離人形機(jī)器人進(jìn)入家庭“打工”還有多久?“我們目前發(fā)布的技術(shù)處于從G3到G4的過(guò)渡階段?!比螐V輝表示,人形機(jī)器人走進(jìn)家庭創(chuàng)造價(jià)值,還需5年左右。(完)