突破實(shí)時(shí)生成瓶頸，Soul CEO張璐團(tuán)隊(duì)發(fā)布開源模型SoulX-LiveAct

2026-04-10 17:14:28 來源：今日熱點(diǎn)網(wǎng)

突破實(shí)時(shí)生成瓶頸，Soul CEO張璐團(tuán)隊(duì)發(fā)布開源模型SoulX-LiveAct

聚焦長時(shí)穩(wěn)定與實(shí)時(shí)推理，Soul CEO張璐團(tuán)隊(duì)開源SoulX-LiveAct模型

近日，Soul App CEO張璐團(tuán)隊(duì)宣布，其AI研究團(tuán)隊(duì)Soul AI Lab正式發(fā)布開源模型SoulX-LiveAct。作為面向?qū)崟r(shí)數(shù)字人生成的重要技術(shù)成果，該模型圍繞“長時(shí)穩(wěn)定”與“實(shí)時(shí)流式”兩大核心目標(biāo)，對(duì)現(xiàn)有生成范式進(jìn)行了系統(tǒng)性優(yōu)化。在數(shù)字人直播、視頻播客以及實(shí)時(shí)互動(dòng)場景不斷擴(kuò)展的背景下，SoulX-LiveAct為實(shí)時(shí)生成技術(shù)的工程化落地提供了新的實(shí)現(xiàn)路徑。

隨著人工智能在內(nèi)容生成領(lǐng)域的應(yīng)用加速，數(shù)字人技術(shù)逐漸從實(shí)驗(yàn)性演示走向?qū)嶋H應(yīng)用場景。然而，在長時(shí)間運(yùn)行的情況下，傳統(tǒng)生成模型往往難以保持一致表現(xiàn)。當(dāng)視頻生成時(shí)長延伸至分鐘甚至小時(shí)級(jí)，模型容易出現(xiàn)身份漂移、細(xì)節(jié)退化、畫面閃爍等問題，同時(shí)推理成本也會(huì)隨時(shí)間增加而上升。

針對(duì)上述挑戰(zhàn)，SoulX-LiveAct在整體架構(gòu)上采用自回歸擴(kuò)散（AR Diffusion）范式，并引入Neighbor Forcing與ConvKV Memory兩項(xiàng)關(guān)鍵機(jī)制，構(gòu)建面向長時(shí)序生成的穩(wěn)定體系。在具體實(shí)現(xiàn)上，模型以chunk為基本生成單元，通過逐段生成與上下文銜接，實(shí)現(xiàn)連續(xù)的視頻輸出。在每個(gè)chunk內(nèi)部，擴(kuò)散模型負(fù)責(zé)細(xì)節(jié)建模，而在chunk之間，通過條件信息傳遞實(shí)現(xiàn)動(dòng)作與身份的一致延續(xù)，從而形成完整的流式推理閉環(huán)。

在核心機(jī)制方面，Neighbor Forcing通過在同一擴(kuò)散步內(nèi)傳播相鄰幀的latent信息，使模型在統(tǒng)一的噪聲語義空間中進(jìn)行預(yù)測(cè)，有效降低訓(xùn)練與推理過程中因分布不一致帶來的不穩(wěn)定因素。與此同時(shí)，ConvKV Memory對(duì)歷史信息進(jìn)行結(jié)構(gòu)性壓縮，將傳統(tǒng)線性增長的緩存轉(zhuǎn)化為“短期精確+長期壓縮”的組合形式：近期信息保留高精度以保證局部細(xì)節(jié)，遠(yuǎn)期信息通過輕量卷積進(jìn)行壓縮，從而在控制內(nèi)存占用的同時(shí)保留關(guān)鍵上下文信息。此外，模型還通過RoPE Reset對(duì)位置編碼進(jìn)行對(duì)齊，進(jìn)一步減少長序列生成中的位置漂移問題。

在推理效率方面，SoulX-LiveAct強(qiáng)調(diào)“穩(wěn)定延遲”與“恒定顯存”。通過ConvKV Memory機(jī)制，歷史信息不再隨時(shí)間線性增長，使顯存占用保持在固定范圍內(nèi)。這一設(shè)計(jì)使得模型在長時(shí)間運(yùn)行過程中，計(jì)算與通信成本保持穩(wěn)定，不會(huì)隨著視頻長度增加而顯著上升。在實(shí)際性能表現(xiàn)上，系統(tǒng)在512×512分辨率下，可在2×H100/H200硬件條件下實(shí)現(xiàn)20 FPS的流式推理，同時(shí)端到端延遲約為0.94秒，計(jì)算成本為27.2 TFLOPs/frame，體現(xiàn)出較為均衡的實(shí)時(shí)性與資源利用效率。

在多項(xiàng)評(píng)測(cè)基準(zhǔn)中，SoulX-LiveAct也展示了其綜合性能優(yōu)勢(shì)。在HDTF數(shù)據(jù)集上，模型取得9.40的Sync-C與6.76的Sync-D，在分布相似性指標(biāo)上達(dá)到10.05 FID與69.43 FVD，并在VBench中獲得97.6的Temporal Quality與63.0的Image Quality，VBench-2.0的Human Fidelity達(dá)到99.9。在EMTD數(shù)據(jù)集上，模型同樣保持領(lǐng)先表現(xiàn)，取得8.61 Sync-C與7.29 Sync-D，并在VBench中實(shí)現(xiàn)97.3的Temporal Quality與65.7的Image Quality，Human Fidelity達(dá)到98.9。這些結(jié)果表明，該模型在口型同步、動(dòng)作一致性以及整體畫面穩(wěn)定性方面具備較強(qiáng)能力。

基于上述性能表現(xiàn)，SoulX-LiveAct能夠支持多種需要長期在線運(yùn)行的應(yīng)用場景，包括數(shù)字人直播、AI教育、智慧服務(wù)終端以及知識(shí)內(nèi)容生產(chǎn)等。在開放世界互動(dòng)場景中，數(shù)字角色需要在長時(shí)間交互過程中持續(xù)保持一致表達(dá)能力。SoulX-LiveAct在全身動(dòng)作數(shù)據(jù)集上的表現(xiàn)以及其實(shí)時(shí)流式推理能力，使其具備支持此類復(fù)雜場景的基礎(chǔ)條件。

SoulX-LiveAct的發(fā)布，也延續(xù)了Soul AI團(tuán)隊(duì)在實(shí)時(shí)數(shù)字人方向的技術(shù)布局。此前，團(tuán)隊(duì)已開源SoulX-FlashTalk與SoulX-FlashHead兩個(gè)模型，分別在超低延遲與輕量化部署方面進(jìn)行了探索。此外，團(tuán)隊(duì)還在語音與交互領(lǐng)域推出了SoulX-Podcast、SoulX-Singer以及SoulX-Duplug等模型與模塊，逐步構(gòu)建圍繞“實(shí)時(shí)交互”的多模態(tài)技術(shù)體系。

通過持續(xù)開放模型與技術(shù)方案，Soul CEO張璐團(tuán)隊(duì)不僅推動(dòng)了自身AI能力的迭代，也為開發(fā)者社區(qū)提供了可復(fù)用的技術(shù)基礎(chǔ)，促進(jìn)更多應(yīng)用場景的探索與落地。

免責(zé)聲明：市場有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！此文僅供參考，不作買賣依據(jù)。

標(biāo)簽：