公司动态

令人震惊的世界模型首次以超现实主义的方式模

Google DeepMind昨晚的10点在昨晚的10点宣布,Genie World Model系列已正式到达其第三代。 “ Genie 3是一种创新的世界模型,它使您可以用单个文字创建互动和可玩环境。从摄影主义景观到幻想王国,有无限的可能性。”据报道,在Genie 3产生的动态世界中,玩家可以实时导航到每秒24幅画,从而使玩家能够保持一致性几分钟,达到720p的分辨率。与上一代使用扩散模型的游戏生成引擎的Gamengen Gamengen相比,我看到的是,最后一部精灵3在多个功能方面具有明显的优势。例如,与Genie 2相比,Genie的最新一代取得了重大的解决方案的改进,达到了真实的可用性水平,支持迅速使用单词忘记世界事件并保持SE的一致性Veral分钟(DeepMind称其为“交互式视野”)。更重要的是,Genie 3可以实现真正的时间响应。与专门针对游戏产生的Gamengen相比,Genie 3通常比其他指标(例如分辨率)好得多。最后,与VI 3相比,Genie 3仍然在解决方案中带来不便,但在其他方面也有明显的优势。宣布后,Genie 3引起了许多赞美。马特·麦吉尔(Matt McGill)分享了三个精灵团队的视频,“看着鞋子……如果您理解调色板是什么”引起了激烈的辩论:他的现实主义超越了想象力。一段时间以来,护理中心最近将长期已久的歌剧开源模型黯然失色。接下来,让我们看看Genie 3产生的一些特定技能和案例。GeniWorld Modele3的最新功能确保世界完全能够建立一个完美的世界,确保从长远来看,生成的世界是一致的和互动的。它的特征包括:它模拟了世界的物理特性:它显示了自然现象,例如水和射线以及环境干扰复合物。模拟自然世界:从动物行为到复杂的植物生命,都会产生充满活力的生态系统。小说动画和建模:激发您的想象力,创建幻想场景和表现力的动画角色。不同地点和历史背景的建模:通过地理和时间限制探索本地和历史场景。注意:穿过佛罗里达州的人行道,在一侧的两侧,在另一侧,在另一辆车的道路上,在飓风临近的飓风中,强烈的风和海浪在道路上飞溅。在代理商的左边是一个栏杆,将它们与海洋分开。这条路走在海岸,您可以在特工前看到一条短桥。海浪散布在栏杆和道路上。棕榈树在风中弯曲。有大雨S和代理使用防水。现实世界,第一人称。提示:在佛罗里达州的人行道上走,一侧两条车道,另一侧的海洋,强烈的风和海浪驶向道路。在代理的左侧,有一个将其与海洋分开的栏杆。道路沿着海岸延伸,特工的浪潮撞到了一条铁轨,奔向道路。棕榈树在风中弯曲。我在下雨很多,在特工面前看到一条短桥。具有防水的代理。现实世界,第一人称。注意:现实世界跟随 - 深海游泳的镜头,在深处和庞大的水母的水母,生物发光的照明之间。注意:请求折纸风格,蜥蜴:Vaporetto Venice。威尼斯频道被重新创建在彻底的杰出中。水具有现实的反射和觉醒,建筑物显示了一个世纪的倒塌石膏和一个世纪。这个场景在其他缆车,水和驳船出租车中很受欢迎。威尼斯频道招募用细致的细节食用。水的表面具有逼真的反射和波。该建筑物表明,灰泥和数百年的风化将起飞。现场展示了其他吊船,水和驳船的出租车。实际 - 时间响应和长期一致性这次,Genie 3的演变的亮点是用户在实际响应中的共同性,可以在几分钟内采取行动并具有一致性(3D)。 Google通过技术取得了一系列重要的进步,以实时为Genie 3提供控制能力和互动性能的能力。在每张图片的自动化过程中,该模型必须不断考虑随着时间的推移而增长的职业信息。例如,如果用户在一分钟后再次返回位置,则该模型必须能够返回并参考一分钟前生成的相关信息。要实现真实的时间交互,必须完成此计算几次P第二,及时响应用户的连续进入。因此,由AI产生的世界更加沉浸,环境需要长期保持身体一致性。但是,通过自动网络生成环境在技术上比同时生成完整视频的技术更具挑战性,因为随着时间的流逝,错误往往会累积。尽管有这一挑战,但Genie 3产生的环境在几分钟内非常一致,一分钟前返回屏幕状态的视觉记忆。情感在建筑物的左侧,即使他们走出来,它们都在整个互动过程中保持一致。作为世界模型,Genie 3本质上是图像生成/两个维视频的模型,它与三维场景的直接生成截然不同。简而世界是由基于世界描述和用户操作的图片制成的。基于3D模型(例如NERF和Gaussian脱落)的其他方法也可以产生一致且可导航的3D环境,但请相信3D表示,以大大限制场景的丰富性。除了导航条目外,Genie 3还以快速单词的形式生成世界事件,还接受了更具表现力的文本相互作用形式。世界上的快速事件可以改变生成的世界,如何改变气候条件以及引入新物体和角色,从而改善导航控制的体验。这种能力也可以增加反事实的背面。这将使玩家能够更自由地想象。在这种情况下会发生什么?这些场景可以由代理商根据他们的经验来处理。 Genie 3限制是一种前所未有的世界模型,但仍有限制,其中包括:快速全球事件Allo更广泛的环境干预措施,但这些干预措施不一定由代理商本身实施。当前,代理可以直接执行的操作的范围受到限制。其他代理的相互作用和模拟。在共享环境中,在多个独立代理之间建模复杂的相互作用仍然很难。现实世界的精确表示。 Genie 3 Currentnte无法以完整的地理精度模拟真实位置。文字渲染。通常,仅在入口界描述中提供清晰而易于阅读的文本。交互时间有限。目前,Genie 3承认连续数分钟而不是几个小时。我期待未来。 Google DeepMind还揭示了有关未来Genie 3计划和世界博客模型的研究的说明。 “ Genie 3是世界模型的关键时刻,将开始影响多个学科,例如AI和生成媒体。为此,我们正在寻找将来使用Genie 3的方法。”他们希望Genie 3相信新的教育和培训机会,帮助学生学习和专业人士获得经验。例如,Genie 3允许您探索古希腊的街道。不仅可以预测古希腊的街道。不仅可以为培训机器人和自主系统提供培训的培训,而且还可以培训型号的范围,还可以评估代理的效果。代理人将Sima置于Genie 3的世界中,而Genie 3可以模拟全世界的回答,而这对于建立强大的代理人而言,这是GENIE 3,这可能是Genie 3,这可能是“神经元视频游戏”,这很重要。克雷与星际迷航一起吃全息槌! Depmind Nobel奖首席执行官和获奖者Demis Hassabis的推文,您如何看待Genie 3 World Model?参考链接https://x.com/googleddeepmind/status/1952732150928724043HTTPS:///deepmind.google/discover/discover/discover/blog/glog/genie-3-a-a-a-a-a-a-newfrontier-fortier-fortier-fortier-for-world-world-models/