
具身智能領(lǐng)域的VLA模型正在從“單任務(wù)模仿學(xué)習(xí)”走向通用機(jī)器人基礎(chǔ)模型。但一個(gè)根本問題始終存在:如何讓機(jī)器人在理解復(fù)雜語義的同時(shí),還能實(shí)現(xiàn)高速、精準(zhǔn)、穩(wěn)定的物理控制?
傳統(tǒng)端到端VLA將視覺語言理解與動(dòng)作輸出全部塞進(jìn)一個(gè)大模型,導(dǎo)致訓(xùn)練成本高、遷移困難、實(shí)時(shí)性難以保證。今天,賽索德智能給出了一個(gè)新答案——SaiVLA-0,一個(gè)受神經(jīng)科學(xué)啟發(fā)的三系統(tǒng)架構(gòu)VLA,并已開源模型權(quán)重與調(diào)用。

在具身智能的頂級基準(zhǔn)LIBERO上,SaiVLA-0以99.0%的平均成功率刷新榜單,推理延遲僅約40ms,接近該基準(zhǔn)的性能上限。
核心亮點(diǎn):一組數(shù)據(jù)讀懂SaiVLA-0的硬實(shí)力
在深入技術(shù)細(xì)節(jié)之前,先看幾組關(guān)鍵數(shù)據(jù),直接感受它的行業(yè)突破性:
成功率拉滿:在公開長時(shí)序機(jī)器人操作基準(zhǔn)LIBERO上,平均成功率達(dá)99.0%,登頂全球公開榜單(evomind;VLA-Leaderboard),無限接近該基準(zhǔn)的性能上限;
速度夠快:推理時(shí)延低至~40ms,實(shí)現(xiàn)高頻閉環(huán)控制,應(yīng)對連續(xù)多步驟操作穩(wěn)如磐石;
落地高效:通過分離訓(xùn)練+特征緩存,訓(xùn)練效率提升67%;升級、遷移無需重構(gòu)系統(tǒng),大幅降低產(chǎn)線停機(jī)與研發(fā)成本;
開放模型權(quán)重:模型、論文、項(xiàng)目網(wǎng)站全部公開,開發(fā)者可直接上手調(diào)試,加速具身智能落地進(jìn)程。

兩條技術(shù)路線:通用大腦 vs 具身操作系統(tǒng)
當(dāng)前具身智能領(lǐng)域正在分化出兩種代表性方向:
一類以Skild AI為代表,致力于構(gòu)建跨本體的通用機(jī)器人基礎(chǔ)模型,希望通過一個(gè)統(tǒng)一的“機(jī)器人通用大腦”實(shí)現(xiàn)不同機(jī)器人之間的能力共享與遷移。

另一類則更面向真實(shí)產(chǎn)業(yè)落地,關(guān)注如何在復(fù)雜多變的工業(yè)環(huán)境中實(shí)現(xiàn)高效訓(xùn)練、快速適配與穩(wěn)定交付。賽索德智能的SaiVLA正是這一路徑的典型代表。
在真實(shí)工業(yè)場景中,不同工位、物料、夾具甚至機(jī)器人本體之間存在大量差異,單一通用策略模型很難直接覆蓋所有任務(wù)。更可行的范式是圍繞具體任務(wù)持續(xù)訓(xùn)練與迭代策略,并通過架構(gòu)解耦實(shí)現(xiàn)跨本體遷移與快速部署。
SaiVLA-0的出現(xiàn),正是瞄準(zhǔn)這一痛點(diǎn):不追求“萬能通用”,而是通過架構(gòu)解耦,讓機(jī)器人既能保持高性能,又能快速適配不同場景、不同本體,真正貼合工業(yè)落地需求。

簡單來說,如果Skild AI是在構(gòu)建機(jī)器人的“通用大腦”,那么SaiVLA正在構(gòu)建面向真實(shí)工業(yè)世界的具身智能操作系統(tǒng)——一種能夠在跨本體機(jī)器人平臺上持續(xù)訓(xùn)練、快速適配并實(shí)現(xiàn)規(guī)?;虡I(yè)交付的工業(yè)級具身智能范式。
技術(shù)拆解:三系統(tǒng)架構(gòu),重構(gòu)VLA的“分工邏輯”
SaiVLA-0的核心突破,在于將傳統(tǒng)VLA的“單體端到端”架構(gòu),重構(gòu)為類神經(jīng)科學(xué)的Cerebrum–Pons–Cerebellum(大腦-橋腦-小腦)三系統(tǒng),實(shí)現(xiàn)“語義理解、表征編譯、實(shí)時(shí)執(zhí)行”的解耦,讓每個(gè)模塊各司其職、協(xié)同發(fā)力。

1.大腦(Cerebrum):
相當(dāng)于機(jī)器人的“決策大腦”,采用凍結(jié)的大模型語義中樞,負(fù)責(zé)理解人類的語義意圖(比如“拾取這個(gè)零件”“裝配這個(gè)組件”),提供穩(wěn)定的多模態(tài)先驗(yàn)。
不輕易改動(dòng),避免因語義模塊升級導(dǎo)致整個(gè)系統(tǒng)不穩(wěn)定,為后續(xù)的動(dòng)作執(zhí)行提供可靠的“指令基礎(chǔ)”。
2.橋腦(Pons Adapter):
大腦輸出的是“語義意圖”(比如“拾取”),但機(jī)器人執(zhí)行需要“可操作指令”。橋腦的作用,就是把抽象的語義意圖,壓縮、重編碼成機(jī)器人能看懂的“可執(zhí)行上下文tokens”,相當(dāng)于打通“想法”與“動(dòng)作”的橋梁。
核心優(yōu)勢:可單獨(dú)訓(xùn)練——當(dāng)升級語義模型(大腦)時(shí),不用重構(gòu)整個(gè)系統(tǒng),只需重新訓(xùn)練橋腦,大幅降低升級成本。
3.小腦(Cerebellum/ParaCAT)
相當(dāng)于機(jī)器人的“手腳控制器”,負(fù)責(zé)實(shí)時(shí)執(zhí)行動(dòng)作,采用高頻運(yùn)行模式,確保操控的低時(shí)延與穩(wěn)定性。
這里有兩個(gè)關(guān)鍵設(shè)計(jì),直接決定了它的高性能:
并行分類動(dòng)作頭ParaCAT:通過并行解碼快速生成多步動(dòng)作決策,還加入了多種穩(wěn)定機(jī)制,避免動(dòng)作抖動(dòng),比傳統(tǒng)方式推理速度大幅提升,這也是它能實(shí)現(xiàn)~40ms低時(shí)延的核心原因;
幾何綁定ROI(腕部視野):聚焦機(jī)器人末端執(zhí)行器(相當(dāng)于“手腕”),對細(xì)微的姿態(tài)變化、接觸動(dòng)作更敏感,哪怕出現(xiàn)輕微偏差,也能快速調(diào)整,確保精細(xì)操作的穩(wěn)定性。這一設(shè)計(jì)在需要精細(xì)操作的場景(如插孔、裝配)中表現(xiàn)出顯著優(yōu)勢。
此外,賽索德智能還提出了一套新的評測指標(biāo):計(jì)算歸一化成功率(compute-normalized success)。

傳統(tǒng)VLA評測往往只看成功率,忽略實(shí)時(shí)性和算力成本。SaiVLA將語義模塊(Cerebrum)的一次調(diào)用成本與執(zhí)行模塊(Cerebellum)的每步推理成本分別統(tǒng)計(jì),使系統(tǒng)性能能夠在成功率、時(shí)延與計(jì)算開銷之間進(jìn)行統(tǒng)一衡量。
這意味著,“更高成功率”不再以犧牲實(shí)時(shí)性或算力為代價(jià),而是可以同時(shí)追求效率—性能協(xié)同優(yōu)化。
實(shí)驗(yàn)結(jié)果:LIBERO 99.0%成功率,真實(shí)環(huán)境驗(yàn)證
SaiVLA-0在公開長時(shí)序機(jī)器人操作基準(zhǔn)LIBERO上取得了99.0%的平均成功率,截止目前在全球公開榜單(evomind/VLA-Leaderboard)中與相關(guān)模型相比達(dá)到了最高成功率,并接近該基準(zhǔn)的性能上限。
與此同時(shí),在真實(shí)機(jī)器人環(huán)境中的多項(xiàng)操作任務(wù)上,SaiVLA-0也表現(xiàn)出高度穩(wěn)定的執(zhí)行能力,能夠可靠地完成連續(xù)多步驟操作。這一結(jié)果表明,SaiVLA-0不僅在標(biāo)準(zhǔn)化評測中取得突破,也展現(xiàn)出向真實(shí)世界任務(wù)遷移的強(qiáng)泛化能力,為機(jī)器人在真實(shí)環(huán)境中的長期自主操作奠定了重要基礎(chǔ)。
商業(yè)優(yōu)勢:為真實(shí)產(chǎn)業(yè)場景而生
對企業(yè)來說,SaiVLA-0的核心價(jià)值,不止是“99%的成功率”,更是“可落地、可復(fù)用、低成本”。它的三系統(tǒng)解耦架構(gòu),能精準(zhǔn)適配三大核心場景,直接解決行業(yè)落地痛點(diǎn):
1. 制造與物流:降低自動(dòng)化改造成本
在多工位、多SKU的柔性操作場景(如拾取、放置、裝配、分揀)中,SaiVLA-0通過三系統(tǒng)架構(gòu)解耦視覺理解與動(dòng)作控制。當(dāng)更換夾具、料盤、相機(jī)標(biāo)定或控制接口時(shí),僅需調(diào)整局部模塊即可完成適配,無需重新訓(xùn)練整個(gè)系統(tǒng),顯著減少產(chǎn)線停機(jī)時(shí)間和系統(tǒng)改造成本。
2. 實(shí)驗(yàn)室與高價(jià)值操作:提高單任務(wù)價(jià)值密度
在樣品處理、工具使用和多步驟操作等高價(jià)值場景中,SaiVLA-0的高頻控制閉環(huán)與ROI機(jī)制能夠提升手-物交互的穩(wěn)定性,使機(jī)器人能夠執(zhí)行更精細(xì)、更可重復(fù)的操作,從而提升自動(dòng)化替代人工的經(jīng)濟(jì)價(jià)值。
3. 具身智能平臺與研發(fā)市場:降低系統(tǒng)研發(fā)成本
在需要頻繁更換機(jī)器人本體或傳感器配置的研發(fā)環(huán)境中(如不同機(jī)械臂、移動(dòng)底盤、雙臂系統(tǒng)或不同相機(jī)布局),SaiVLA的三系統(tǒng)解耦架構(gòu)能夠?qū)崿F(xiàn)跨平臺快速遷移,僅需調(diào)整局部模塊即可完成適配,顯著降低研發(fā)、維護(hù)與系統(tǒng)集成成本。
開源與獲取
賽索德智能已將SaiVLA-0的代碼、模型權(quán)重、技術(shù)論文開源,可通過官網(wǎng),項(xiàng)目網(wǎng)站,論文等渠道獲取。
無論你是機(jī)器人領(lǐng)域的研究者、開發(fā)者,還是產(chǎn)業(yè)應(yīng)用方,都可以基于SaiVLA-0快速構(gòu)建自己的具身智能系統(tǒng),并針對具體場景進(jìn)行高效微調(diào)。
轉(zhuǎn)自:中華網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀