本報訊 (記者李喬宇)3月19日,昆侖萬維(300418)科技股份有限公司(以下簡稱“昆侖萬維(300418)”)旗下天工AI大模型SkyReels V4登上ArtificialAnalysis榜單Text to Video(With Audio)賽道全球第一,顯著超越Kling 3.0、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型,成為全球AI視頻生成能力最強(qiáng)的大模型,標(biāo)志著中國AI視頻生成技術(shù)實(shí)現(xiàn)世界級引領(lǐng)。
同時,SkyReels V4正式上線API入口,面向全場景開放API能力。
SkyReels V4 API核心能力完整覆蓋本模型的所有核心功能。從基礎(chǔ)的文生視頻(886068)、圖生視頻,到多模態(tài)參考生成、視頻編輯與修復(fù)、音畫聯(lián)合生成,SkyReels V4 API全能力開放、支持靈活的參數(shù)配置,滿足不同場景的定制化需求。
昆侖萬維(300418)方面表示,希望將SkyReels V4的視頻生成核心能力嵌入每一個有需求的場景里,賦能全行業(yè)的合作伙伴。
據(jù)悉,SkyReels V4在雙流架構(gòu)解決音畫同步核心問題的基礎(chǔ)上,帶來兩大核心變革,第一為通過全模態(tài)強(qiáng)化學(xué)習(xí)(RL)為AI注入邏輯推理能力;第二為新增多幀參考、網(wǎng)格圖參考等高階任務(wù),將視頻生成的一致性與可控性推至行業(yè)新高度。
具體來看,昆侖萬維(300418)打造了一套從評判標(biāo)準(zhǔn)到成長路徑的完整強(qiáng)化學(xué)習(xí)體系,一方面搭建全模態(tài)語義Reward模型,覆蓋文生視頻(886068)(T2V)、圖生視頻(I2V)、視頻編輯、音視頻對齊全場景,為生成提供全局精準(zhǔn)的實(shí)時反饋,全方位優(yōu)化生成效果;另一方面采用階梯式課程強(qiáng)化學(xué)習(xí)路徑,從分辨率與時長、任務(wù)復(fù)雜度、數(shù)據(jù)難度三個維度,讓模型由簡入繁掌握復(fù)雜能力,最終實(shí)現(xiàn)1080p 15s商用長序列生成,以及多任務(wù)大一統(tǒng)的能力框架。
該體系不僅實(shí)現(xiàn)了模型全任務(wù)能力的全面提升,更帶來了極強(qiáng)的跨任務(wù)泛化性,模型習(xí)得的視頻生成底層通用規(guī)律,可在不同任務(wù)間自由遷移。
此次升級,SkyReels V4新增關(guān)鍵幀參考能力(KeyframeReference)與網(wǎng)格圖參考能力(Grid Image Reference),全面提升視頻生成的穩(wěn)定性與靈活性。
其中,關(guān)鍵幀參考能力可基于用戶給定的多節(jié)點(diǎn)關(guān)鍵幀,精準(zhǔn)推演邏輯嚴(yán)密、動作連貫的中間畫面,實(shí)現(xiàn)極強(qiáng)的時空補(bǔ)完能力;專為短劇生成打造的網(wǎng)格圖參考能力,支持用戶上傳至多9張劇情關(guān)鍵幀,模型可穩(wěn)定提取并保留角色特征與場景風(fēng)格,生成邏輯完整、角色與場景全程連貫的敘事視頻,解決了短劇生成中角色走形、場景跳躍的行業(yè)痛點(diǎn)。
過去一年多,SkyReels團(tuán)隊致力于將“生成專業(yè)、好用、有感染力的視聽內(nèi)容”,變成可復(fù)現(xiàn)、可控制、可迭代的系統(tǒng)能力。
截至目前,昆侖萬維(300418)已經(jīng)陸續(xù)發(fā)布并開源多個SkyReels模型,包括SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4,以及SkyReels A1、SkyReels A2和SkyReels A3。
