今天除了 OpenAI 開源的 gpt-oss 之外,還有一個我覺得非常值得一說的東西。
更多谷歌模型介紹:
作為一個將近 20 年的游戲玩家和近 10 年的 VR 玩家,我看到這個視頻的時候,心真的在怦怦跳。
本來 6 點鐘發了 gpt-oss 之后,想睡醒了再聊,下午發。
但是翻來覆去睡不著,于是翻身起床,決定來聊聊這玩意。
先看視頻吧。
這不是又一個簡單的可以互動的 AI 視頻模型,更不是什么 Sora 或者 Veo 的簡單升級。
如果你僅僅把它理解為能實時互動的 Sora,那我覺得,就完全低估了它的革命性了。
Genie 3 是一個世界模型 (World Model)。
對我而言,它更像是是一個創世引擎的雛形。
我們正站在一個新世界的入口,而 Google,剛剛為我們推開了一絲門縫。
要理解 Genie 3 的顛覆性,我們必須先弄明白一個概念。
世界模型。
這個詞聽起來很玄乎,但我們可以用一個簡單的比喻來理解。
比如說過去的視頻生成模型,Sora,更像是一位電影導演。
他已經把整部電影拍完、剪好,加好特效,然后放給你看。畫面很精美,故事很完整,但你是純粹的觀眾,只能被動接受,無法改變任何事。
而世界模型,則更像一個即時計算的視頻游戲引擎,每一步都根據當前狀態和用戶操作來決定下一瞬間的畫面。
這個游戲引擎,搭起了一個世界,這個世界里有物理定律,比如東西往下掉,撞墻會反彈,有環境設定,甚至有 NPC 的行為邏輯。
它搭好舞臺后,就在那兒等著你的指令。
當你按下手柄的按鍵,它會根據這個世界的規則,實時地計算并渲染出接下來會發生什么。
這就是 Genie 3 和 Sora、Veo3 之類的 AI 視頻產品最本質的區別。
一個是預先錄制的電影,另一個是可實時演算的模擬器。
前者是敘事的終點,后者是世界的起點。
Genie 3 的演示里,有一個直升機在天空中飛行的場景,之所以讓人震撼,是因為每一次轉彎、每一次海面水波的蕩漾,都是模型對用戶實時輸入的即時反饋,所有的場景,都穩定的始終如一。
要知道,這可不是在播放一段固定的視頻,所有的場景也不是事先建模好的 3D 場景,而是在你按下手柄方向鍵的那一刻,它,為你生成了全世界。
這種能力,我們在游戲里,一般稱之為:
創世。
比如這個這只蜥蜴的世界。
還有這個山脈漂浮,懸崖倒置,河流在半空中扭曲的世界。
所有的一切,都是跟隨著你的前進、你的移動、你的跳躍,實時生成的。
這畫質、這穩定性、這一致性、這交互性。
太可怕了。
當然,Genie 3 并非橫空出世的奇跡,羅馬也不是一天建成的。
他們之前就做過很多實驗了。
GameNGen 是一個來自 2023 年初 DeepMind(準確來說是 Google Research)的實驗性項目,全名叫做 Diffusion Models Are Real-Time Game Engines。
當時基于毀滅戰士做了一個很短的可控視頻實時生成,還挺火的。
不過那時候還是非常的偏實現性質,太糙了,分辨率也只有可憐的 320p。
接著,他們做出了 Genie1 和 Genie 2。
分辨率提升到了 360p,應用范圍也擴大到了更通用的 3D 環境。
但注意看,代價是什么?交互延遲那一欄寫著“非實時”,非常的卡頓。
為了追求更復雜的環境,他們犧牲了最重要的實時性。
同時,交互時長也只從幾秒提升到了 10-20 秒。
在探索世界模型的同時,另一條 AI 視頻的路線也在狂飆突進,代表作大家肯定都知道了,就是 Veo。
Veo 把分辨率直接干到了 4K 級別,生成的畫面也極其通用和逼真,可以說是現在最牛逼的 AI 視頻模型了。
但它的本質,依然是 AI 視頻模型,沒有交互。
它只負責把畫質和真實感這條路走到極致。
然后,就是今天,主角 Genie 3 登場了。
它像一個集大成者,終于解決了前輩們無法調和的矛盾。
交互延遲:實時,它找回了 GameNGen 最初的夢想。
交互時長:數分鐘, 相比 Genie 2 的十幾秒,是數量級的飛躍。
控制方式:導航+可提示世界事件,不僅能讓你行動,還可以直接用語言創世。
分辨率:720p,一個非常聰明的選擇,是在保證實時性和互動時長的前提下,找到的最佳畫質平衡點。
理解了這段歷史,我們再來看“一致性”這個致命難題,就會有更深的感觸。
在 Genie3 里面,開頭是一副黑板,上面有圖、有字,你走上前去,細細觀摩,然后走到一邊,看向窗外,過了一分鐘,再回來,黑板上的內容,只字未改,依舊存在。
這個一致性,這個記憶能力,太恐怖了。
還有這個視頻。
他們是可以保證,建筑物左側的樹木在整個互動過程中保持一致,即使它們時而進入視野,時而又離開視野。
太牛逼了。
之前應該也就一個月左右,我體驗過一個叫 Odyssey 的產品,也是世界模型。
坦誠的講,那是一次非常糟糕的體驗。
我控制角色往前走了也就十幾秒,整個畫面就開始崩壞、扭曲。
最嚇人的是,每次當我回頭看走過的路時,身后的世界完全變了樣,而且是每回頭一次,它就變一次。
那種感覺,就像你走在一個不斷溶解、不斷重組的恐怖空間里,極度缺乏安全感。
我在一個世界模型里,走出了恐怖游輪的感覺。
而 Genie 3 最牛逼的地方,恰恰就是在這個要命的問題上取得了突破。
當它的穩定交互時長能從十幾秒躍升到數分鐘時,就意味著我們終于可以從 Odyssey 那種回頭即崩的恐怖體驗,邁向一個至少在幾分鐘內值得信賴和探索的穩定世界。
所以,Genie 3 在我看來,就像一場我們能部分控制的清明夢。
絢爛、多變、充滿驚喜,但目前還像個隨時可能醒來的夢。
即便如此,它所展現出的可能性,已經給了我前所未有的想象空間。
你甚至可以在這個夢里,就跟創世神一樣,隨意的修改。
這種創世引擎一旦成熟,它對現有部分行業的沖擊將是核彈級的。
我玩了這么多年 VR,其實一直以來,最大的痛點就是內容匱乏。
我們體驗到的依然是一個個稀少的、孤立的、精美的 3D 場景,而不是一個活生生的世界。
未來,你戴上 VR 頭顯,不再是打開一個 App 列表,而是對你的 AI 助手說一句話:帶我去一個雨夜的賽博朋克城市,要能聽到遠處警笛聲,街角要有一個賣拉面的小攤。
然后,一個獨一無二、可供你實時探索的世界,就為你而生了。
VR 將從一個內容消費的設備,變成一個世界生成的入口,解決了內容的問題,才有元宇宙真正該有的樣子。
這也才是綠洲,真正的魅力。
對于游戲行業來說,也是。
現代 3A 的開發成本動輒數億美金,其中絕大部分都花在了構建龐大而精細的游戲世界上,這是一個勞動密集型、資本密集型的產業。
比如說未來的《上古卷軸 6》或者《GTA7》,又或者《博德之門 4》,除了主線劇情,我們在游戲過程中,跟一個有個人意識的 NPC 聊天,然后觸發了一個全新的支線任務。
“一個被巨龍摧毀的村莊的系列任務,我要在廢墟里尋找幸存者,并找到巨龍的巢穴。”
當然,我并不是想表達,純粹隨機的故事或游戲能好玩到哪里去。講故事、做游戲,想讓大家覺得好看、好玩是非常難的一件事,規則的約束至關重要。
世界模型的可貴之處在于,它能在精妙的人類規則設計下,填充無窮無盡、合乎邏輯的動態細節。
游戲的延展,被巨幅拓寬,制作人或者設計者,完全可以指定這個 AI 世代的隨機規則,就像生成《無人深空》里面的星球一樣,用規則來約束世界模型的生成,在保證游戲性和故事性的基礎上,讓玩家的體驗,不再首先與人力和想象力,而是把這個世界的主導權,交還一部分給玩家。
玩家不再只是玩家,更是關卡設計師、任務發布者、甚至是世界觀的共創者。
官方演示里,智能體在 Genie 3 生成的世界里完成任務,我覺得這已經揭示了未來的冰山一角。
除了 VR、游戲,還有電影。
電影誕生一百多年來,其實也一直是線性的、導演中心制的,觀眾只能被動地跟隨鏡頭,看一個被安排好的故事。
直到去年一些互動影游火了以后,講故事的方法,稍微開始會有一些變化了,但,互動影游的情節,本質上也是一個被安排好的故事。
Genie 3,尤其是它的可提示世界事件,更像是一種全新敘事形式的誕生。
未來的電影,可能也更像一場由你主導的夢境。
當你看到主角面臨一個抉擇時,你可以暫停,然后用語言導演接下來的劇情。
“讓天開始下雪,讓他們在雪中擁抱。”或者,“讓反派的電話突然響起,打斷他們的對峙。”
你不再是觀眾,而是擁有部分神之權限的參與者。
這比《黑鏡:潘達斯奈基》那種選擇分支的互動劇要走得遠得多。
它不是在 A 和 B 之間做選擇,而是在一個擁有無限可能性的空間里,進行自由創作。
電影和游戲的邊界,將在這里徹底消融。
我一想到那樣的未來,我就心潮澎湃。
當然,我們也必須清醒地看到 Genie 3 當下的局限性。
只能維持幾分鐘的互動時長、無法精確模擬真實世界、文本渲染能力差……
以及,現在還沒有對公眾開放,真正產品上線的時候,效果不知道會不會打折。
它就像一百多年前盧米埃爾兄弟在咖啡館里放映的第一部電影《火車進站》,粗糙、黑白、無聲,甚至可能讓當時的人感到恐慌。
但這不重要。
重要的是,它證明了一件事:路,是通的。
過去,我們通過文字和口述來傳承神話。
后來,我們通過繪畫和電影來描繪神話。
而今天,我們即將獲得親手創造神話的能力。
那問題來了。
“你,究竟想要一個什么樣的世界呢?”
謝謝你看我的文章,我們,下次再見。
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 752 位幸運星
發表評論 為下方 7 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓