【“双碳”背景下,煤岩气有望成天然气增产核心力量】在“双碳”目标与能源转型加速背景下,天然气增产成行业核心关切。我国天然气产量从2000年的300亿立...
2025-10-17 0
当 OpenAI 的奥特曼还在到处买显卡、买算力,来支撑他的 Sora 2 视频生成模型。
李飞飞的实验室 The World Labs,用一张显卡就能运行一个世界。他们今天发布了一项名为 RTFM (Real-Time Frame Model) 的新技术,一个全新的实时世界生成模型。
和九月中旬发布的图生世界 Marble 不同,RTFM 不仅是用一张照片,生成一个我们可以自由漫步、探索的 3D 世界。最重要的是,它被设计为可以在单块 H100 GPU 上高效运行,并且实时生成。
目前,RTFM 已经作为研究预览版正式发布,并提供了 Demo 可以亲自去试试。
RTFM Demo 链接:https://rtfm.worldlabs.ai/
意外地发现,这个 Demo 的名字叫做 FRAMEBOY,结合这个网页布局,我很快想到了年代久远的 Game Boy 游戏机。
这样一个拥有逼真的光影、反射和阴影的世界,并且这一切还在我们眼前实时发生,在某种程度上,何尝不是另一种玩游戏。
RTFM 的核心能力,就是能实时生成可供用户交互的视频。它可以从一张静态图片开始,渲染出一个可以自由探索的 3D 场景。
与许多世界模型不同,RTFM 能够学习并渲染出,极其复杂和真实的视觉效果。无论是光滑大理石地面的倒影、物体在阳光下的阴影,还是透过玻璃看到的景象,RTFM 都能准确地模拟。
RTFM 依靠的不是传统的图形学编程,而是让模型通过对海量视频数据的端到端学习,不断进化出来的。
支撑这项能力的,是设计 RTFM 背后围绕的三项核心原则。
效率 (Efficiency),要想把未来拉到眼前,世界模型的计算需求是最大的阻碍。
无论是像 Sora 这样的 AI 生成视频,还是 Google 尚未正式公开上线的 Genie 3, 都意味着巨大的计算挑战。有相关的研究提到,要实时生成 4K 60fps 的交互视频流,AI 模型每秒需要处理的 tokens 数量约等于一本《哈利·波特》的文字量。
而如果要在超过一小时的交互中,保持这些生成内容的持续性,需要处理的上下文,将超过 100M 个 token。这对于当下的计算基础设施而言,既不现实,也难以负担。
李飞飞团队的目标是「在今天硬件上,运行的明天模型,并提供最高保真度的预览。」
他们通过对架构、模型蒸馏和推理过程的极致优化,以及整个系统的重新设计。RTFM 成功地实现了,仅使用单个 H100 GPU,就可以交互式帧率进行推理,实时生成。
可扩展性 (Scalability),从视频模型,能直接到世界模型。
传统的 3D 引擎,用的是三角网格、高斯点云、体素渲染等显式结构,完全依赖于一些复杂的计算机图形学知识。每个物体都要建模、上材质、打光、烘焙阴影。这和我们之前介绍的混元 3D 世界,所采用的方法类似,它们主打的是实现 3D 全管道的生成。
传统 3D 方式(左)和 RTFM 方式(右)
World Lab 选择的路和混元不同, RTFM 不会构建任何显式的 3D 模型。它使用了类似 Sora 的「自回归扩散 Transformer」,直接从视频帧序列中学习世界规律。
举个例子,模型不再需要知道「这是一堵墙」或「那是一盏灯」,它只通过成千上万段视频的学习,学会了什么是「空间感」,学会从输入的 2D 图像序列中,预测出下一个新的视角画面。
和生成 3D 资产的路线不同,RTFM 能够更好地利用不断增长的数据和算力,从而实现无限扩展。
持久性 (Persistence),让世界模型像 nano banana 一样保持一致。
大部分的视频生成模型有一个天生缺陷,就是它们没有记忆。即便现在 Sora 一次性,能生成 25 秒的震撼画面,但视频生成结束后,世界就结束了,并不能提供持续的交互。
而如果要记住所有场景,计算负担势必又会随着探索的深入而无限累积。
RTFM 试图解决的,就是让生成的世界具备持续存在的能力。它引入了一个叫「spatial memory(空间记忆)」的机制。它为生成的每一帧画面,都赋予了在 3D 空间中的精确「姿态」(位置和方向)。
在生成新画面时,模型会采用一种「上下文杂耍」 (context juggling) 的技术,只调用新画面附近位置的帧作为参考,而不是全局内容。
这使得 RTFM 能够做到,让我们反复进入这个世界,离开再回来,而不会增加计算负担。
目前,RTFM 的 Demo 体验时间只有 3 分钟,3 分钟后,它还是会不记得这个世界。我在那个 Demo 里面拖动左右两个摇杆,玩了很久,想到了李飞飞之前说,空间智能才应该是 AGI 的下一个方向。
未来是否真的有机会,像头号玩家一样,让现实世界和虚拟世界之间,产生明确的联系,光看现在的世界模型,要加载的内容还有太多。
毕竟,即便单个 H100 GPU,售价也大约在 25000 美元以上。但是当算力的价格下降,当算法再快一点;我们或许能看到,真正意义上的世界模型「大更新」,是现实,被完整生成的那一天。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿|原文链接· ·新浪微博
相关文章
【“双碳”背景下,煤岩气有望成天然气增产核心力量】在“双碳”目标与能源转型加速背景下,天然气增产成行业核心关切。我国天然气产量从2000年的300亿立...
2025-10-17 0
近日,由中国移动主导的《智慧产业园区共享设备任务协调系统的要求与能力》标准成功立项。这是全球首个针对低空经济共享设备的国际标准,标志着我国在该领域的技...
2025-10-17 0
当 OpenAI 的奥特曼还在到处买显卡、买算力,来支撑他的 Sora 2 视频生成模型。李飞飞的实验室 The World Labs,用一张显卡就能...
2025-10-17 0
广西有两个国家级重大水利工程传来好消息!日前,国家西部陆海新通道西线关键节点工程——百色水利枢纽通航设施工程建设取得阶段性进展。桂林长塘水库(坝区)工...
2025-10-17 0
你是否想过,手中的手机、桌上的电脑,甚至鼻梁上的眼镜,正在经历一场前所未有的智能跃迁?2025年下半年,消费电子行业迎来了它的“iPhone时刻”——...
2025-10-17 0
聊到国产手机是否在影像上超越苹果?很多朋友都非常感兴趣!因工作关系,平时各个品牌负责影像研发的朋友和我们交流的也比较多,今天我们听听这些专业人士是怎么...
2025-10-17 1
一年一度的双十一购物狂欢节再度来袭,各大品牌的优惠活动令人眼花缭乱。在众多电子消费品中,平板电脑凭借其在学习、办公和娱乐场景中的多面手角色,成为许多人...
2025-10-17 0
2024年诺贝尔生理学或医学奖刚聚焦到微小核糖核酸(miRNA)研究,这领域就爆了个大雷,学术不端中的论文伪造在这儿成了重灾区。一篇2018年发表、标...
2025-10-17 0
发表评论