您現(xiàn)在的位置是:cách ch?i cá c??c bóng ?á hi?u qu? nh?t >>正文
cách ch?i cá c??c bóng ?á hi?u qu? nh?t
t? l? cá c??c bóng ?á indo1797人已圍觀
簡介來源:機器之心作者:澤南、楊文國產(chǎn)開源版 Genie 3 問世,昆侖萬維(維權(quán))用 1.8B 模型跑出了神級效果。世界模型,正在迎來一次技術(shù)大突破。本月初,Google DeepMind 發(fā)布的 Ge...
來源:機器之心
作者:澤南、楊文
國產(chǎn)開源版 Genie 3 問世,昆侖萬維(維權(quán))用 1.8B 模型跑出了神級效果。
世界模型,正在迎來一次技術(shù)大突破。
本月初,Google DeepMind 發(fā)布的 Genie 3,因為效果驚艷,關(guān)注度直接超越了 OpenAI 同日發(fā)布的 GPT-5。
Genie 3 實現(xiàn)了實時互動、高度一致化的生成,直接從‘游戲畫面’邁入‘真實世界’的程度,它能維持?jǐn)?shù)分鐘的生成一致性,更重要的是還能做到實時響應(yīng)。

Genie 3 實現(xiàn)的效果。
AI 領(lǐng)域里,技術(shù)發(fā)展的速度總是很快,沒過兩個星期,開源的實時世界模型就已經(jīng)出現(xiàn)。
這款國產(chǎn)開源的新模型能把復(fù)雜的建筑和地形,玻璃的反光都模擬出真實感,符合物理邏輯。

或是模擬出《俠盜獵車手》(GTA)的大地圖,讓你可以在其中自由探索。

如果你上傳一個神廟逃亡游戲的截圖,就可以在這個世界模型里面開一局,AI 腦補出來的畫面會無限地向前延伸。

它就是昆侖萬維發(fā)布的交互世界模型‘Matrix-Game 2.0’,它的參數(shù)量僅有 1.8B,能跑在單塊 GPU 上,生成的虛擬環(huán)境幀率能達到 25FPS,我們在其中可以用鍵盤 WASD 按鍵進行實時的自由移動和視角控制,實現(xiàn)持續(xù)時長達分鐘級的互動。
最重要的是,它還是完全開源的(有權(quán)重 + 代碼庫),任何人都可以免費使用和修改,還可以自己上傳圖片進行體驗。
項目鏈接:https://matrix-game-v2.github.io/
GitHub 鏈接:https://github.com/SkyworkAI/Matrix-Game
HuggingFace:https://huggingface.co/Skywork/Matrix-Game-2.0
Matrix-Game 2.0 成為了業(yè)內(nèi)首個在通用場景上實現(xiàn)實時長序列、交互式生成的世界模型開源方案,相比過去的開源模型有了質(zhì)的飛躍。它也成為了在外網(wǎng)引發(fā)關(guān)注的又一個國內(nèi)開源模型。

有人已經(jīng)在說‘這是開源版本的 Genie 3’了。它的效果究竟如何,我們第一時間進行了實測。
一手實測
丟張圖即可走進實時生成的虛擬世界
世界模型一直面臨諸多挑戰(zhàn),尤其是在處理復(fù)雜環(huán)境、實時交互和高度動態(tài)變化的情況下。傳統(tǒng)的世界模型通常依賴大量高質(zhì)量數(shù)據(jù),且在缺乏預(yù)設(shè)情境時難以進行準(zhǔn)確推理和反應(yīng)。同時,這類模型在生成和更新時需要消耗龐大的計算資源,導(dǎo)致實時反饋效率受限,從而難以真正落地應(yīng)用。
昆侖萬維推出的 Matrix-Game 2.0 為這一領(lǐng)域帶來了新突破。這款交互式世界模型結(jié)合了高度自由的操作與實時生成的特點,提供了一種獨特的玩法體驗。
我們只需上傳一張靜態(tài)圖片,模型便會基于該圖像加載并生成一個虛擬世界。玩家可以通過方向鍵或 WASD 鍵控制人物在虛擬世界中的移動,且每一次人物的移動都會實時影響環(huán)境,并生成新的視頻內(nèi)容。
例如,我們丟給它一張 3A 大作《荒野大鏢客》的游戲畫面,并控制方向和視角切換,模型最終生成的視頻展示了非常細膩的自然景觀。

從山上俯瞰,一條清澈的河流蜿蜒流淌,看起來,Matrix-Game 2.0 不僅能夠理解海拔的高度差異,還能夠模擬出流水的動態(tài)效果,這種精細的渲染無疑增加了虛擬世界的真實感與沉浸感。

再以經(jīng)典的《CS:GO》地圖 De_Dust2 為例,模型不僅加載了現(xiàn)有場景,還展現(xiàn)出強大的推理和補充能力。它能夠基于圖像信息自然拓展額外視角和細節(jié),確保生成視頻在場景一致性和時序連貫性上的高度可靠。

對于《我的世界》這種像素畫風(fēng)的游戲場景,Matrix-Game 2.0 同樣表現(xiàn)出了極高的創(chuàng)造力。通過將靜態(tài)元素轉(zhuǎn)化為動態(tài)場景,模型生成了一段如同無人機航拍的視角視頻,展現(xiàn)了兩側(cè)山脈的輪廓、梯田的層次、高大的樹木,以及河流中的倒影。

最近,《戰(zhàn)地 6》在全球范圍內(nèi)引起了廣泛關(guān)注,預(yù)購開啟后短時間內(nèi)登上 PS5 及 Steam 多個國家的暢銷榜,并在 Beta 公測期間以 52 萬 Steam 同時在線人數(shù)打破記錄。
我們利用 Matrix-Game 2.0 復(fù)刻了這款尚未發(fā)售的 3A 游戲精細地圖,每次角色移動和視角切換都會實時觸發(fā)新的畫面生成。高幀率和物理一致性保證了操作與畫面的緊密結(jié)合,充分展現(xiàn)了其在cách ch?i cá c??c bóng ?á hi?u qu? nh?t高復(fù)雜度交互場景中的潛力。

Matrix-Game 2.0 的能力不僅局限于游戲場景,在現(xiàn)實世界模擬中,它能快速響應(yīng)用戶的視角與移動變化,生成符合物理規(guī)律的自然畫面。
例如,它成功復(fù)現(xiàn)了自行車騎行的第一視角:柏油馬路筆直延伸,兩旁的行道樹不斷后撤,畫面細節(jié)豐富、動態(tài)感強,每一幀都精準(zhǔn)模擬了現(xiàn)實騎行的空間感與真實感。

前段時間,Google DeepMind 研究科學(xué)家 Aleksander Holynski 使用谷歌 Genie3,‘走’進 1978 年的名畫《蘇格拉底之死》,吸引了不少網(wǎng)友圍觀。
這次我們也來個‘名畫漫游’,讓 Matrix-Game 2.0 生成一段梵高《星空》的視頻,可以自定義不同角度觀察畫作,感受其構(gòu)圖、色彩與氛圍的變化。

同樣,我們還通過模型生成了宮崎駿風(fēng)格的鄉(xiāng)間小道場景,隨著方向鍵的切換,生成的畫面景色也隨之變化,腦補出的畫面毫無違和感,甚至連樹影都模擬出來了。

經(jīng)過一系列測試,我們認為 Matrix-Game 2.0 的技術(shù)確實具備巨大的潛力。作為一個開源項目,它已經(jīng)能夠?qū)崿F(xiàn)高度真實的虛擬世界生成和實時交互,為游戲開發(fā)者和玩家提供全新的可能性。當(dāng)然,它也有不少可以提升的空間,比如視覺保真度并不總是能與主流游戲工作室的水平相媲美,而且復(fù)雜的交互有時對 AI 來說也難以完美處理。
不過這是一個好的開始,Matrix-Game 2.0 讓我們看到,虛擬世界與現(xiàn)實交互的邊界正在被逐步打破,下一代游戲和智能體或許就將以此為基石。
從數(shù)據(jù)生成到模型架構(gòu)
核心技術(shù)全面突破
在上周開源模型的同時,昆侖萬維同時放出了 Matrix-Game 2.0 的技術(shù)報告,我們可以在其中看到不少技術(shù)細節(jié)。

技術(shù)報告鏈接:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
最近一段時間,基于擴散模型的方法讓我們看到了交互式視頻生成的潛力。但是,現(xiàn)有的交互式世界模型依賴于雙向注意力機制和冗長的推理步驟,嚴(yán)重限制了實時性能,難以模擬現(xiàn)實世界的動態(tài)。
為解決這個問題,昆侖萬維提出了一種全新的視覺驅(qū)動交互世界建模方案,徹底擺脫了此前依賴語言提示的生成模式,專注于通過視覺理解和物理規(guī)律學(xué)習(xí)來構(gòu)建虛擬世界。
在 Matrix-Game 2.0 上,研究人員通過少步驟自回歸擴散算法實時生成長視頻,引入了一個專為實時模擬和交互設(shè)計的高效框架,同時應(yīng)對解決了效率和可控性的挑戰(zhàn)。
Matrix-Game 2.0 模型由三個關(guān)鍵組件組成:
適用于虛幻引擎和 GTA5 環(huán)境的可擴展數(shù)據(jù)生產(chǎn)流水線,可有效生成海量(約 1200 小時)交互式視頻數(shù)據(jù);
動作注入模塊,支持幀級鼠標(biāo)和鍵盤輸入交互;
基于自回歸擴散模型的少步驟蒸餾,用于實時流式視頻生成。
基于以上架構(gòu)和訓(xùn)練機制,Matrix -Game 2.0 能夠在單塊英偉達 H100 GPU 上以 25 FPS 的速度跨不同場景生成高質(zhì)量的分鐘級視頻。
在模型的構(gòu)建過程中,首先昆侖萬維設(shè)計并實現(xiàn)了全面的數(shù)據(jù)生產(chǎn)管線,以支持交互式視頻生成模型的大規(guī)模訓(xùn)練,克服精準(zhǔn)匹配鍵盤控制與畫面、完善動態(tài)交互這兩大挑戰(zhàn)。其開發(fā)的多樣化數(shù)據(jù)集生產(chǎn)流程包含從著名游戲引擎虛幻引擎和游戲 GTA5 的模擬環(huán)境中獲取靜態(tài)與動態(tài)場景。
虛幻引擎的數(shù)據(jù)生產(chǎn)管線如下所示:

為了獲取更多交互式動態(tài)場景,工程人員在 GTA5 環(huán)境中開發(fā)了一個綜合記錄系統(tǒng),使用 Script Hook V 擴展工具,使視覺內(nèi)容與相應(yīng)的用戶動作同步捕捉。這個數(shù)據(jù)整理流程收集了超過 120 萬個視頻片段,它們的整體準(zhǔn)確率超過 99%。

GTA5 采集數(shù)據(jù)的軌跡。
在 Matrix-Game 2.0 的基礎(chǔ)模型框架上,昆侖萬維也進行了一系列獨特的設(shè)計。模型源自 WanX,通過移除文本分支并添加動作模塊,該模型僅根據(jù)視覺內(nèi)容和對應(yīng)的動作來預(yù)測下一幀的畫面。
該系統(tǒng)首先對原始視頻數(shù)據(jù)進行時空壓縮,圖像輸入通過 3D Causal VAE 和 CLIP 圖像編碼器作為條件輸入進行處理。在用戶提供的輸入動作的引導(dǎo)下,DiT 模型(Diffusion Transformer)生成一個視覺隱空間序列,隨后通過 3D VAE 解碼器將其解碼為視頻。
簡單來說,這種機制避免了語言先驗可能帶來的語義偏置,轉(zhuǎn)而專注于圖像的空間結(jié)構(gòu)和動態(tài)模式,可以更準(zhǔn)確地理解和生成虛擬世界。
為了讓人們可以與生成內(nèi)容互動,Matrix-Game 2.0 系統(tǒng)集成了動作條件控制模塊,支持幀級cách ch?i cá c??c bóng ?á hi?u qu? nh?t鍵盤與鼠標(biāo)交互輸入。在其中,連續(xù)的鼠標(biāo)操作會直接與輸入的潛在表征相連接,經(jīng)多層感知機(MLP)層處理后,再通過時序自注意力層進行動態(tài)調(diào)整。此外,鍵盤操作通過交叉注意力層對融合特征進行查詢,從而實現(xiàn)交互操作的精準(zhǔn)可控性。

Matrix-Game 2.0 基礎(chǔ)模型框架。
最后,為了生成更長的視頻,減少內(nèi)容上出現(xiàn)的偏差,昆侖萬維開發(fā)了一種用于實時長視頻合成的自回歸擴散生成機制,通過 Self-Forcing 把雙向基礎(chǔ)模型轉(zhuǎn)化為高效的自回歸變體,讓每個幀基于先前自生成的輸出而非真實值進行條件化處理,從而解決了暴露偏差,顯著減少了此前世界模型中常見的誤差累積問題。

自驅(qū)動因果擴散模型訓(xùn)練流程示意圖。通過自條件生成機制,蒸餾過程將學(xué)生模型的分布與教師模型進行對齊。該方法在保持生成質(zhì)量的同時有效抑制了誤差累積。
實驗效果如何?在與 Oasis 世界模型的對比上,Matrix-Game 2.0 在長時間互動視頻生成方面效果更好:Oasis 會在生成幾十幀之后效果明顯下降,Matrix-Game 2.0 則能夠一直保持穩(wěn)定。

Matrix-Game 2.0 和 Oasis 生成畫面效果的對比。
定量比較的話,Matrix-Game 2.0 在圖像質(zhì)量、時間一致性、控制準(zhǔn)確性等方面保持領(lǐng)先,同時也保證了靈活性和效率不降低。

可見,昆侖萬維的新方法可以有效減少當(dāng)初 Oasis 模型‘轉(zhuǎn)一圈畫風(fēng)完全變了’的尷尬情況,這對于面向?qū)嶋H落地的應(yīng)用來說非常重要。
昆侖萬維
持續(xù)發(fā)力開源社區(qū)
Matrix-Game 2.0 并不是昆侖萬維第一次展示實力。在開源領(lǐng)域,最近這家公司的名字越來越頻繁地出現(xiàn)。
僅在今年,昆侖萬維就開源獎勵模型 Skywork-Reward-V2,無限時長電影生成模型 SkyReels-V2,多模態(tài)推理模型 Skywork-R1V,面向數(shù)學(xué)、代碼等領(lǐng)域的文本推理模型 Skywork-OR1,以及軟件工程自主代碼智能體基座模型 Skywork-SWE 等等多款模型。

在 HuggingFace 上,昆侖萬維的模型熱度很高。
上周連續(xù)五天的技術(shù)發(fā)布活動,昆侖萬維還陸續(xù)發(fā)布了 SkyReels-A3 視頻生成模型、世界模型 Matrix-Game 2.0 與 Matrix-3D、Skywork UniPic 2.0 多模態(tài)訓(xùn)練推理框架,Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。這一套覆蓋圖像、音頻、視頻、音樂、智能體的組合拳,向世人展示了該公司持續(xù)深耕技術(shù)的成果。
這些 AI 領(lǐng)域的新技術(shù),有很多都實現(xiàn)了業(yè)界領(lǐng)先的水平,不僅讓昆侖萬維在技術(shù)落地上不斷擴大版圖,也通過不斷的開源反哺了研究社區(qū)。
當(dāng)然,這樣持續(xù)不懈的前沿技術(shù)研發(fā)也在引發(fā)質(zhì)變,開啟新的方向。
世界模型
進入實用階段
在 DeepMind 的 Genie 3 發(fā)布后,很多人發(fā)現(xiàn),世界模型已經(jīng)不再是個未來式,而是正在展現(xiàn)出很大應(yīng)用潛力。DeepMind 自己就表示,希望能把世界模型生成的環(huán)境直接對齊到機械臂和具身智能的訓(xùn)練上。
在很多情況下,具身智能的基礎(chǔ)模型面臨著數(shù)據(jù)匱乏、采集難、難以泛化等問題,世界模型生成的虛擬環(huán)境,可以成為 AI 完美的訓(xùn)練場。世界模型會在學(xué)習(xí)物理規(guī)律、事物之間交互規(guī)則等知識后進行預(yù)測和規(guī)劃。在其中進行探索的機器人、自動駕駛汽車依據(jù)這些規(guī)則進行交互,就可以訓(xùn)練出更多的智能。
可見不僅在游戲、虛擬人等娛樂場景中,在發(fā)展現(xiàn)實世界生產(chǎn)力的‘物理 AI’方面,世界模型也可以發(fā)揮作用。
在 Matrix-Game 2.0 等開源技術(shù)出現(xiàn)之后,世界模型實用化的腳步還會加快。

責(zé)任編輯:楊賜
Tags:
相關(guān)文章
追覓科技:2025上半年營收遠超2024全年
cách ch?i cá c??c bóng ?á hi?u qu? nh?t新浪科技訊 9月4日下午消息,追覓科技今日宣布,2025上半年,公司僅用半年時間便實現(xiàn)營收遠超2024年全年。此外,追覓掃地機在全球22個國家及地區(qū)市場登頂Top1,12個國家及地區(qū)市占超40%,成功...
閱讀更多
騰訊宣布:國行Nintendo Switch將于2026年12月31日停止游戲機及相關(guān)配件維修服務(wù)
cách ch?i cá c??c bóng ?á hi?u qu? nh?t新浪科技訊 8月25日下午消息,騰訊Nintendo Switch官方賬號發(fā)布消息表示,國行Nintendo Switch將于2026年12月31日停止Nintendo Switch游戲機、Ninte...
閱讀更多
“AI手辦”風(fēng)靡全球 美顏相機登頂泰國、老撾App Store總榜
cách ch?i cá c??c bóng ?á hi?u qu? nh?t新浪科技訊 9月2日下午消息,在谷歌推出Nano Banana 并帶動AI生成3D手辦玩法走紅后,全球相關(guān)應(yīng)用掀起熱潮。日前,美圖公司旗下美顏相機BeautyCam)憑借“AI手辦”創(chuàng)新玩法登頂泰國、...
閱讀更多