日电影一区二区三区-欧美日韩国产中文在线首页-激情内射美女在线视频-欧美激情一区二区三区成人久久片-免费观看在线亚洲视频-国产成人一区二区三区日韩精品人-欧美性按摩在线观看不卡-国产女人爽到高潮a毛片-婷婷精品在线免费视频

突破實(shí)時(shí)生成瓶頸,Soul CEO張璐團(tuán)隊(duì)發(fā)布開源模型SoulX-LiveAct

來源:今日熱點(diǎn)網(wǎng)


突破實(shí)時(shí)生成瓶頸,Soul CEO張璐團(tuán)隊(duì)發(fā)布開源模型SoulX-LiveAct

聚焦長時(shí)穩(wěn)定與實(shí)時(shí)推理,Soul CEO張璐團(tuán)隊(duì)開源SoulX-LiveAct模型

近日,Soul App CEO張璐團(tuán)隊(duì)宣布,其AI研究團(tuán)隊(duì)Soul AI Lab正式發(fā)布開源模型SoulX-LiveAct。作為面向?qū)崟r(shí)數(shù)字人生成的重要技術(shù)成果,該模型圍繞“長時(shí)穩(wěn)定”與“實(shí)時(shí)流式”兩大核心目標(biāo),對(duì)現(xiàn)有生成范式進(jìn)行了系統(tǒng)性優(yōu)化。在數(shù)字人直播、視頻播客以及實(shí)時(shí)互動(dòng)場景不斷擴(kuò)展的背景下,SoulX-LiveAct為實(shí)時(shí)生成技術(shù)的工程化落地提供了新的實(shí)現(xiàn)路徑。

隨著人工智能在內(nèi)容生成領(lǐng)域的應(yīng)用加速,數(shù)字人技術(shù)逐漸從實(shí)驗(yàn)性演示走向?qū)嶋H應(yīng)用場景。然而,在長時(shí)間運(yùn)行的情況下,傳統(tǒng)生成模型往往難以保持一致表現(xiàn)。當(dāng)視頻生成時(shí)長延伸至分鐘甚至小時(shí)級(jí),模型容易出現(xiàn)身份漂移、細(xì)節(jié)退化、畫面閃爍等問題,同時(shí)推理成本也會(huì)隨時(shí)間增加而上升。

針對(duì)上述挑戰(zhàn),SoulX-LiveAct在整體架構(gòu)上采用自回歸擴(kuò)散(AR Diffusion)范式,并引入Neighbor Forcing與ConvKV Memory兩項(xiàng)關(guān)鍵機(jī)制,構(gòu)建面向長時(shí)序生成的穩(wěn)定體系。在具體實(shí)現(xiàn)上,模型以chunk為基本生成單元,通過逐段生成與上下文銜接,實(shí)現(xiàn)連續(xù)的視頻輸出。在每個(gè)chunk內(nèi)部,擴(kuò)散模型負(fù)責(zé)細(xì)節(jié)建模,而在chunk之間,通過條件信息傳遞實(shí)現(xiàn)動(dòng)作與身份的一致延續(xù),從而形成完整的流式推理閉環(huán)。

在核心機(jī)制方面,Neighbor Forcing通過在同一擴(kuò)散步內(nèi)傳播相鄰幀的latent信息,使模型在統(tǒng)一的噪聲語義空間中進(jìn)行預(yù)測(cè),有效降低訓(xùn)練與推理過程中因分布不一致帶來的不穩(wěn)定因素。與此同時(shí),ConvKV Memory對(duì)歷史信息進(jìn)行結(jié)構(gòu)性壓縮,將傳統(tǒng)線性增長的緩存轉(zhuǎn)化為“短期精確+長期壓縮”的組合形式:近期信息保留高精度以保證局部細(xì)節(jié),遠(yuǎn)期信息通過輕量卷積進(jìn)行壓縮,從而在控制內(nèi)存占用的同時(shí)保留關(guān)鍵上下文信息。此外,模型還通過RoPE Reset對(duì)位置編碼進(jìn)行對(duì)齊,進(jìn)一步減少長序列生成中的位置漂移問題。

在推理效率方面,SoulX-LiveAct強(qiáng)調(diào)“穩(wěn)定延遲”與“恒定顯存”。通過ConvKV Memory機(jī)制,歷史信息不再隨時(shí)間線性增長,使顯存占用保持在固定范圍內(nèi)。這一設(shè)計(jì)使得模型在長時(shí)間運(yùn)行過程中,計(jì)算與通信成本保持穩(wěn)定,不會(huì)隨著視頻長度增加而顯著上升。在實(shí)際性能表現(xiàn)上,系統(tǒng)在512×512分辨率下,可在2×H100/H200硬件條件下實(shí)現(xiàn)20 FPS的流式推理,同時(shí)端到端延遲約為0.94秒,計(jì)算成本為27.2 TFLOPs/frame,體現(xiàn)出較為均衡的實(shí)時(shí)性與資源利用效率。

在多項(xiàng)評(píng)測(cè)基準(zhǔn)中,SoulX-LiveAct也展示了其綜合性能優(yōu)勢(shì)。在HDTF數(shù)據(jù)集上,模型取得9.40的Sync-C與6.76的Sync-D,在分布相似性指標(biāo)上達(dá)到10.05 FID與69.43 FVD,并在VBench中獲得97.6的Temporal Quality與63.0的Image Quality,VBench-2.0的Human Fidelity達(dá)到99.9。在EMTD數(shù)據(jù)集上,模型同樣保持領(lǐng)先表現(xiàn),取得8.61 Sync-C與7.29 Sync-D,并在VBench中實(shí)現(xiàn)97.3的Temporal Quality與65.7的Image Quality,Human Fidelity達(dá)到98.9。這些結(jié)果表明,該模型在口型同步、動(dòng)作一致性以及整體畫面穩(wěn)定性方面具備較強(qiáng)能力。

基于上述性能表現(xiàn),SoulX-LiveAct能夠支持多種需要長期在線運(yùn)行的應(yīng)用場景,包括數(shù)字人直播、AI教育、智慧服務(wù)終端以及知識(shí)內(nèi)容生產(chǎn)等。在開放世界互動(dòng)場景中,數(shù)字角色需要在長時(shí)間交互過程中持續(xù)保持一致表達(dá)能力。SoulX-LiveAct在全身動(dòng)作數(shù)據(jù)集上的表現(xiàn)以及其實(shí)時(shí)流式推理能力,使其具備支持此類復(fù)雜場景的基礎(chǔ)條件。

SoulX-LiveAct的發(fā)布,也延續(xù)了Soul AI團(tuán)隊(duì)在實(shí)時(shí)數(shù)字人方向的技術(shù)布局。此前,團(tuán)隊(duì)已開源SoulX-FlashTalk與SoulX-FlashHead兩個(gè)模型,分別在超低延遲與輕量化部署方面進(jìn)行了探索。此外,團(tuán)隊(duì)還在語音與交互領(lǐng)域推出了SoulX-Podcast、SoulX-Singer以及SoulX-Duplug等模型與模塊,逐步構(gòu)建圍繞“實(shí)時(shí)交互”的多模態(tài)技術(shù)體系。

通過持續(xù)開放模型與技術(shù)方案,Soul CEO張璐團(tuán)隊(duì)不僅推動(dòng)了自身AI能力的迭代,也為開發(fā)者社區(qū)提供了可復(fù)用的技術(shù)基礎(chǔ),促進(jìn)更多應(yīng)用場景的探索與落地。

免責(zé)聲明:市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

標(biāo)簽:

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)