作者 | 方文三
如果過去十年機(jī)器人領(lǐng)域的焦點(diǎn)先后經(jīng)歷了[可見]的視覺感知、[可理解]的語言理解,那么在VLA模型出現(xiàn)之后,機(jī)器人開始進(jìn)入[動(dòng)作精準(zhǔn)]的第三階段。
目前,VLA模型已逐漸成為具身智能行業(yè)的共識(shí),被視為連接感知、語言和行為的通用架構(gòu)。
VLA模型是通往通用智能的關(guān)鍵基礎(chǔ),它使機(jī)器人能夠從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí),并將這些學(xué)習(xí)轉(zhuǎn)化為具體行動(dòng)。
本地VLA模型?Gemini Robotics On-Device發(fā)布
近日,谷歌發(fā)布了Gemini Robotics On-Device,這一具身智能離線模型,實(shí)現(xiàn)了視覺-語言-動(dòng)作(VLA)多模態(tài)大模型在具身機(jī)器人上的本地離線運(yùn)行。
能夠同步處理視覺輸入、自然語言指令以及動(dòng)作輸出。即便在無網(wǎng)絡(luò)環(huán)境下,該模型也能保持穩(wěn)定運(yùn)行。
這一系列復(fù)雜的處理過程,如今均能在機(jī)器人的內(nèi)部計(jì)算單元中實(shí)現(xiàn)。
特別值得注意的是該模型的適應(yīng)性和通用性。
谷歌指出,Gemini Robotics On-Device是首個(gè)向開發(fā)者開放微調(diào)功能的機(jī)器人VLA模型,開發(fā)者能夠根據(jù)自己的特定需求和應(yīng)用場(chǎng)景,對(duì)模型進(jìn)行個(gè)性化訓(xùn)練。
研究顯示,僅需50至100個(gè)新的任務(wù)演示(通常通過遠(yuǎn)程操作機(jī)器人完成),模型便能迅速學(xué)習(xí)并掌握新技能,展現(xiàn)出卓越的[快速任務(wù)適應(yīng)]能力。
此外,谷歌還公開了相應(yīng)的軟件開發(fā)工具包(SDK),標(biāo)志著具身智能技術(shù)向?qū)嵱没~出了新的一步。
Gemini Robotics是谷歌于三月份推出的VLA系列模型之一,其核心在于將多模態(tài)大模型的能力引入現(xiàn)實(shí)世界。
而Gemini Robotics On-Device,顧名思義,是專為機(jī)器人設(shè)備本地運(yùn)行而優(yōu)化的模型。旨在以最低限度的計(jì)算資源實(shí)現(xiàn)機(jī)器人的智能化。
本地模型的優(yōu)勢(shì)在于,即便在網(wǎng)絡(luò)連接不穩(wěn)定或完全無連接的情況下,也能確保具身機(jī)器人的性能穩(wěn)定。
在多種測(cè)試場(chǎng)景中,Gemini Robotics On-Device展現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力,能夠理解自然語言指令,并完成如解開袋子或折疊衣物等高度靈巧的任務(wù)。
由于該模型獨(dú)立于數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行,它特別適合對(duì)延遲敏感的應(yīng)用,并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。
評(píng)測(cè)數(shù)據(jù)顯示,On-Device版本在泛化性能測(cè)試中表現(xiàn)突出。
盡管在視覺泛化、語義理解和行為泛化等多個(gè)維度上,與云端版本的Gemini Robotics相比略有差距,但已大幅超越了先前最佳的本地模型。
在處理分布外任務(wù)和復(fù)雜多步驟指令時(shí),Gemini Robotics On-Device相較于先前的本地模型也展現(xiàn)出了顯著的優(yōu)勢(shì)。
Gemini Robotics On-Device的推出,象征著具身智能從依賴云端計(jì)算能力向本地自主運(yùn)行的關(guān)鍵轉(zhuǎn)變。
具身智能的部署一直面臨著挑戰(zhàn)
在此之前,包括谷歌在內(nèi)的許多機(jī)器人系統(tǒng),通常采用一種混合架構(gòu):在機(jī)器人上部署一個(gè)較小的模型以處理快速響應(yīng),同時(shí)將需要復(fù)雜推理和規(guī)劃的任務(wù)交由云端強(qiáng)大的服務(wù)器處理。
盡管這種方法可行,但其對(duì)網(wǎng)絡(luò)連接的穩(wěn)定性和速度提出了極高的要求。
任何網(wǎng)絡(luò)延遲或中斷都可能導(dǎo)致機(jī)器人反應(yīng)遲緩甚至停擺;
同時(shí),將傳感器數(shù)據(jù)(尤其是來自家庭或醫(yī)療等隱私敏感環(huán)境的視覺數(shù)據(jù))上傳至云端,也引發(fā)了持續(xù)的隱私和安全顧慮。
①對(duì)云計(jì)算資源的重度依賴,這限制了機(jī)器人在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)環(huán)境下的獨(dú)立作業(yè)能力;
②模型體積龐大,難以在機(jī)器人有限的計(jì)算資源上高效運(yùn)行。
目前大多數(shù)機(jī)器人需要經(jīng)過成千上萬次的訓(xùn)練,才能完成一個(gè)任務(wù)。
谷歌希望為機(jī)器人領(lǐng)域提供一個(gè)開放、通用且易于開發(fā)的平臺(tái),正如安卓系統(tǒng)對(duì)智能手機(jī)行業(yè)所做的那樣。
過去受限于帶寬和計(jì)算能力,許多機(jī)器人AI僅能進(jìn)行示范。
具身智能技術(shù)的發(fā)展長(zhǎng)期受到對(duì)云計(jì)算資源高度依賴的制約,這導(dǎo)致機(jī)器人在缺乏網(wǎng)絡(luò)連接或網(wǎng)絡(luò)不穩(wěn)定的情況下難以獨(dú)立完成任務(wù)。
此外,由于模型體積龐大,它們?cè)跈C(jī)器人有限的計(jì)算資源上難以實(shí)現(xiàn)高效運(yùn)行。
為機(jī)器人產(chǎn)業(yè)的實(shí)際應(yīng)用開辟了新的道路,為機(jī)器人在更廣泛場(chǎng)景中的應(yīng)用提供了可能性。
例如,機(jī)器人在無網(wǎng)絡(luò)連接的工廠中進(jìn)行精確的零件裝配、在災(zāi)區(qū)廢墟中進(jìn)行自主救援等應(yīng)用場(chǎng)景,都依賴于機(jī)器人端側(cè)模型的部署。
目前,由于各類機(jī)器人在本體結(jié)構(gòu)、自由度以及傳感器配置上的差異,實(shí)現(xiàn)統(tǒng)一的軟件架構(gòu)頗具挑戰(zhàn)。
一旦硬件標(biāo)準(zhǔn)實(shí)現(xiàn)統(tǒng)一,類似于智能手機(jī)生態(tài)系統(tǒng)中USB接口、鍵盤、屏幕等通用組件所形成的規(guī)范,將顯著促進(jìn)算法標(biāo)準(zhǔn)化和本地部署的實(shí)現(xiàn)。
具身智能正在進(jìn)入“端側(cè)時(shí)代”
本地VLA模型將使機(jī)器人更適合家庭、醫(yī)療、教育等敏感場(chǎng)景,解決數(shù)據(jù)隱私、實(shí)時(shí)反應(yīng)、安全穩(wěn)定性等核心挑戰(zhàn)。
在過去的幾年中,大型語言模型的[端側(cè)部署]已成為一個(gè)重要趨勢(shì)。
從最初依賴大規(guī)模云端計(jì)算資源,到如今能夠在手機(jī)、平板等邊緣設(shè)備本地運(yùn)行,模型的壓縮優(yōu)化、推理加速與硬件協(xié)同不斷取得進(jìn)展。
同樣的演進(jìn)路徑,正在具身智能領(lǐng)域逐步展開。
VLA模型(視覺-語言-動(dòng)作模型)作為具身智能的核心架構(gòu),本質(zhì)上是賦予機(jī)器人從多模態(tài)信息中理解任務(wù)并作出相應(yīng)行動(dòng)的能力。
此次大模型版本的發(fā)布,也可能在業(yè)界引發(fā)連鎖反應(yīng)。隨著AI算力和模型架構(gòu)的持續(xù)演進(jìn),[邊緣智能]正從傳統(tǒng)的物聯(lián)網(wǎng)走向以具身智能為代表的更高級(jí)階段。
本地化VLA的引領(lǐng),預(yù)示著具身智能發(fā)展的新階段。
這一突破性技術(shù)標(biāo)志著機(jī)器人AI從依賴云端計(jì)算向自主邊緣智能的轉(zhuǎn)變,為工業(yè)制造、醫(yī)療護(hù)理、家庭服務(wù)等領(lǐng)域帶來了前所未有的可能性。
徹底擺脫對(duì)云端的依賴,機(jī)器人AI實(shí)現(xiàn)了[獨(dú)立思考]。
傳統(tǒng)機(jī)器人AI系統(tǒng)普遍依賴于云端計(jì)算資源,通過網(wǎng)絡(luò)將傳感器數(shù)據(jù)上傳至遠(yuǎn)程服務(wù)器進(jìn)行處理后再傳回指令。
盡管這種架構(gòu)的計(jì)算能力強(qiáng)大,但其固有的缺陷包括網(wǎng)絡(luò)延遲、連接不穩(wěn)定和隱私安全問題。
今年,諸如谷歌、微軟、Figure AI等國際企業(yè)紛紛推出了各自的VLA模型,與此同時(shí),國內(nèi)的銀河通用、智元機(jī)器人、自變量機(jī)器人等公司也已在這一領(lǐng)域展開了相應(yīng)的戰(zhàn)略部署。
今年6月1日,銀河通用正式推出了自主研發(fā)的產(chǎn)品級(jí)端到端導(dǎo)航大模型TrackVLA。
該模型具備純視覺環(huán)境感知、語言指令驅(qū)動(dòng)、自主推理能力以及零樣本泛化能力的具身大模型。
而在一周后的2025北京智源大會(huì)上,銀河通用又發(fā)布了全球首個(gè)面向零售場(chǎng)景的端到端VLA大模型GroceryVLA。
結(jié)尾
從全球具身智能的發(fā)展趨勢(shì)來看,Gemini Robotics On-Device的推出,代表了大模型技術(shù)在機(jī)器人領(lǐng)域的一次重大范式轉(zhuǎn)變。
過去十年,機(jī)器人智能主要依賴于云端大模型的支持,而未來將轉(zhuǎn)向邊緣本地部署、大模型小型化以及高頻自適應(yīng)更新的新階段。
這一趨勢(shì)對(duì)谷歌、特斯拉等具身智能國際巨頭至關(guān)重要,同時(shí)也對(duì)我國具身智能產(chǎn)業(yè)鏈提出了更高的要求。
部分資料參考:
新智元:《谷歌讓機(jī)器人[長(zhǎng)腦子]了!首發(fā)離線具身VLA模型,斷網(wǎng)精準(zhǔn)操控》,量子位:《谷歌發(fā)布本地具身智能模型!全程無聯(lián)網(wǎng)執(zhí)行精細(xì)操作,從人形機(jī)器人到工業(yè)機(jī)器人全覆蓋》,DeepTech深科技:《谷歌發(fā)布Gemini Robotics On-Device,首次實(shí)現(xiàn)機(jī)器人AI模型完全本地化運(yùn)行》,藍(lán)鯨TMT:《谷歌發(fā)布本地VLA模型,機(jī)器人界的[安卓系統(tǒng)]要來了?》,頭部科技:《機(jī)器人[本地最強(qiáng)大腦]誕生,谷歌DeepMind推出新一代VLA模型,國內(nèi)研究多維進(jìn)擊》,智維洞察:《谷歌發(fā)布Gemini本地模型,具身智能再提速》,機(jī)器覺醒時(shí)代: 《谷歌RT-1模型—— 具身智能VLA模型在早期的重要探索》