登錄

當(dāng)前位置首頁 > 中國制造 > 企業(yè) >

賽索德SaiVLA-0：全球首個(gè)三系統(tǒng)VLA，機(jī)器人操控成功率達(dá)99%

中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2026-03-18

具身智能領(lǐng)域的VLA模型正在從“單任務(wù)模仿學(xué)習(xí)”走向通用機(jī)器人基礎(chǔ)模型。但一個(gè)根本問題始終存在：如何讓機(jī)器人在理解復(fù)雜語義的同時(shí)，還能實(shí)現(xiàn)高速、精準(zhǔn)、穩(wěn)定的物理控制？

傳統(tǒng)端到端VLA將視覺語言理解與動(dòng)作輸出全部塞進(jìn)一個(gè)大模型，導(dǎo)致訓(xùn)練成本高、遷移困難、實(shí)時(shí)性難以保證。今天，賽索德智能給出了一個(gè)新答案——SaiVLA-0，一個(gè)受神經(jīng)科學(xué)啟發(fā)的三系統(tǒng)架構(gòu)VLA，并已開源模型權(quán)重與調(diào)用。

在具身智能的頂級基準(zhǔn)LIBERO上，SaiVLA-0以99.0%的平均成功率刷新榜單，推理延遲僅約40ms，接近該基準(zhǔn)的性能上限。

核心亮點(diǎn)：一組數(shù)據(jù)讀懂SaiVLA-0的硬實(shí)力

在深入技術(shù)細(xì)節(jié)之前，先看幾組關(guān)鍵數(shù)據(jù)，直接感受它的行業(yè)突破性：

成功率拉滿：在公開長時(shí)序機(jī)器人操作基準(zhǔn)LIBERO上，平均成功率達(dá)99.0%，登頂全球公開榜單（evomind；VLA-Leaderboard），無限接近該基準(zhǔn)的性能上限；

速度夠快：推理時(shí)延低至~40ms，實(shí)現(xiàn)高頻閉環(huán)控制，應(yīng)對連續(xù)多步驟操作穩(wěn)如磐石；

落地高效：通過分離訓(xùn)練+特征緩存，訓(xùn)練效率提升67%；升級、遷移無需重構(gòu)系統(tǒng)，大幅降低產(chǎn)線停機(jī)與研發(fā)成本；

開放模型權(quán)重：模型、論文、項(xiàng)目網(wǎng)站全部公開，開發(fā)者可直接上手調(diào)試，加速具身智能落地進(jìn)程。

兩條技術(shù)路線：通用大腦 vs 具身操作系統(tǒng)

當(dāng)前具身智能領(lǐng)域正在分化出兩種代表性方向：

一類以Skild AI為代表，致力于構(gòu)建跨本體的通用機(jī)器人基礎(chǔ)模型，希望通過一個(gè)統(tǒng)一的“機(jī)器人通用大腦”實(shí)現(xiàn)不同機(jī)器人之間的能力共享與遷移。

另一類則更面向真實(shí)產(chǎn)業(yè)落地，關(guān)注如何在復(fù)雜多變的工業(yè)環(huán)境中實(shí)現(xiàn)高效訓(xùn)練、快速適配與穩(wěn)定交付。賽索德智能的SaiVLA正是這一路徑的典型代表。

在真實(shí)工業(yè)場景中，不同工位、物料、夾具甚至機(jī)器人本體之間存在大量差異，單一通用策略模型很難直接覆蓋所有任務(wù)。更可行的范式是圍繞具體任務(wù)持續(xù)訓(xùn)練與迭代策略，并通過架構(gòu)解耦實(shí)現(xiàn)跨本體遷移與快速部署。

SaiVLA-0的出現(xiàn)，正是瞄準(zhǔn)這一痛點(diǎn)：不追求“萬能通用”，而是通過架構(gòu)解耦，讓機(jī)器人既能保持高性能，又能快速適配不同場景、不同本體，真正貼合工業(yè)落地需求。

簡單來說，如果Skild AI是在構(gòu)建機(jī)器人的“通用大腦”，那么SaiVLA正在構(gòu)建面向真實(shí)工業(yè)世界的具身智能操作系統(tǒng)——一種能夠在跨本體機(jī)器人平臺上持續(xù)訓(xùn)練、快速適配并實(shí)現(xiàn)規(guī)?；虡I(yè)交付的工業(yè)級具身智能范式。

技術(shù)拆解：三系統(tǒng)架構(gòu)，重構(gòu)VLA的“分工邏輯”

SaiVLA-0的核心突破，在于將傳統(tǒng)VLA的“單體端到端”架構(gòu)，重構(gòu)為類神經(jīng)科學(xué)的Cerebrum–Pons–Cerebellum（大腦-橋腦-小腦）三系統(tǒng)，實(shí)現(xiàn)“語義理解、表征編譯、實(shí)時(shí)執(zhí)行”的解耦，讓每個(gè)模塊各司其職、協(xié)同發(fā)力。

1.大腦（Cerebrum）：

相當(dāng)于機(jī)器人的“決策大腦”，采用凍結(jié)的大模型語義中樞，負(fù)責(zé)理解人類的語義意圖（比如“拾取這個(gè)零件”“裝配這個(gè)組件”），提供穩(wěn)定的多模態(tài)先驗(yàn)。

不輕易改動(dòng)，避免因語義模塊升級導(dǎo)致整個(gè)系統(tǒng)不穩(wěn)定，為后續(xù)的動(dòng)作執(zhí)行提供可靠的“指令基礎(chǔ)”。

2.橋腦（Pons Adapter）：

大腦輸出的是“語義意圖”（比如“拾取”），但機(jī)器人執(zhí)行需要“可操作指令”。橋腦的作用，就是把抽象的語義意圖，壓縮、重編碼成機(jī)器人能看懂的“可執(zhí)行上下文tokens”，相當(dāng)于打通“想法”與“動(dòng)作”的橋梁。

核心優(yōu)勢：可單獨(dú)訓(xùn)練——當(dāng)升級語義模型（大腦）時(shí)，不用重構(gòu)整個(gè)系統(tǒng)，只需重新訓(xùn)練橋腦，大幅降低升級成本。

3.小腦（Cerebellum/ParaCAT）

相當(dāng)于機(jī)器人的“手腳控制器”，負(fù)責(zé)實(shí)時(shí)執(zhí)行動(dòng)作，采用高頻運(yùn)行模式，確保操控的低時(shí)延與穩(wěn)定性。

這里有兩個(gè)關(guān)鍵設(shè)計(jì)，直接決定了它的高性能：

并行分類動(dòng)作頭ParaCAT：通過并行解碼快速生成多步動(dòng)作決策，還加入了多種穩(wěn)定機(jī)制，避免動(dòng)作抖動(dòng)，比傳統(tǒng)方式推理速度大幅提升，這也是它能實(shí)現(xiàn)~40ms低時(shí)延的核心原因；

幾何綁定ROI（腕部視野）：聚焦機(jī)器人末端執(zhí)行器（相當(dāng)于“手腕”），對細(xì)微的姿態(tài)變化、接觸動(dòng)作更敏感，哪怕出現(xiàn)輕微偏差，也能快速調(diào)整，確保精細(xì)操作的穩(wěn)定性。這一設(shè)計(jì)在需要精細(xì)操作的場景（如插孔、裝配）中表現(xiàn)出顯著優(yōu)勢。

此外，賽索德智能還提出了一套新的評測指標(biāo)：計(jì)算歸一化成功率（compute-normalized success）。

傳統(tǒng)VLA評測往往只看成功率，忽略實(shí)時(shí)性和算力成本。SaiVLA將語義模塊（Cerebrum）的一次調(diào)用成本與執(zhí)行模塊（Cerebellum）的每步推理成本分別統(tǒng)計(jì)，使系統(tǒng)性能能夠在成功率、時(shí)延與計(jì)算開銷之間進(jìn)行統(tǒng)一衡量。

這意味著，“更高成功率”不再以犧牲實(shí)時(shí)性或算力為代價(jià)，而是可以同時(shí)追求效率—性能協(xié)同優(yōu)化。

實(shí)驗(yàn)結(jié)果：LIBERO 99.0%成功率，真實(shí)環(huán)境驗(yàn)證

SaiVLA-0在公開長時(shí)序機(jī)器人操作基準(zhǔn)LIBERO上取得了99.0%的平均成功率，截止目前在全球公開榜單（evomind/VLA-Leaderboard）中與相關(guān)模型相比達(dá)到了最高成功率，并接近該基準(zhǔn)的性能上限。

與此同時(shí)，在真實(shí)機(jī)器人環(huán)境中的多項(xiàng)操作任務(wù)上，SaiVLA-0也表現(xiàn)出高度穩(wěn)定的執(zhí)行能力，能夠可靠地完成連續(xù)多步驟操作。這一結(jié)果表明，SaiVLA-0不僅在標(biāo)準(zhǔn)化評測中取得突破，也展現(xiàn)出向真實(shí)世界任務(wù)遷移的強(qiáng)泛化能力，為機(jī)器人在真實(shí)環(huán)境中的長期自主操作奠定了重要基礎(chǔ)。

商業(yè)優(yōu)勢：為真實(shí)產(chǎn)業(yè)場景而生

對企業(yè)來說，SaiVLA-0的核心價(jià)值，不止是“99%的成功率”，更是“可落地、可復(fù)用、低成本”。它的三系統(tǒng)解耦架構(gòu)，能精準(zhǔn)適配三大核心場景，直接解決行業(yè)落地痛點(diǎn)：

1. 制造與物流：降低自動(dòng)化改造成本

在多工位、多SKU的柔性操作場景（如拾取、放置、裝配、分揀）中，SaiVLA-0通過三系統(tǒng)架構(gòu)解耦視覺理解與動(dòng)作控制。當(dāng)更換夾具、料盤、相機(jī)標(biāo)定或控制接口時(shí)，僅需調(diào)整局部模塊即可完成適配，無需重新訓(xùn)練整個(gè)系統(tǒng)，顯著減少產(chǎn)線停機(jī)時(shí)間和系統(tǒng)改造成本。

2. 實(shí)驗(yàn)室與高價(jià)值操作：提高單任務(wù)價(jià)值密度

在樣品處理、工具使用和多步驟操作等高價(jià)值場景中，SaiVLA-0的高頻控制閉環(huán)與ROI機(jī)制能夠提升手-物交互的穩(wěn)定性，使機(jī)器人能夠執(zhí)行更精細(xì)、更可重復(fù)的操作，從而提升自動(dòng)化替代人工的經(jīng)濟(jì)價(jià)值。

3. 具身智能平臺與研發(fā)市場：降低系統(tǒng)研發(fā)成本

在需要頻繁更換機(jī)器人本體或傳感器配置的研發(fā)環(huán)境中（如不同機(jī)械臂、移動(dòng)底盤、雙臂系統(tǒng)或不同相機(jī)布局），SaiVLA的三系統(tǒng)解耦架構(gòu)能夠?qū)崿F(xiàn)跨平臺快速遷移，僅需調(diào)整局部模塊即可完成適配，顯著降低研發(fā)、維護(hù)與系統(tǒng)集成成本。

開源與獲取

賽索德智能已將SaiVLA-0的代碼、模型權(quán)重、技術(shù)論文開源，可通過官網(wǎng)，項(xiàng)目網(wǎng)站，論文等渠道獲取。

無論你是機(jī)器人領(lǐng)域的研究者、開發(fā)者，還是產(chǎn)業(yè)應(yīng)用方，都可以基于SaiVLA-0快速構(gòu)建自己的具身智能系統(tǒng)，并針對具體場景進(jìn)行高效微調(diào)。

　　轉(zhuǎn)自：中華網(wǎng)

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

科技賦能玫瑰產(chǎn)業(yè)升級校企合作共筑鄉(xiāng)村振興新篇章

熱點(diǎn)新聞

微信公眾號

違法和不良信息舉報(bào)電話 010-65367061 舉報(bào)流程

版權(quán)所有：中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964