谷歌DeepMind发力世界模型：Genie 2与未来AGI的竞赛

综合金融 2025年01月25日 12:54 9 author

谷歌在人工智能领域持续发力，近期动作频频。其将AI Studio项目和Gemini API团队整合入DeepMind部门，并由2024年诺贝尔化学奖得主德米斯·哈萨比斯领导，标志着谷歌AI研发力量的全面整合。更引人注目的是，谷歌新成立了一个团队，专注于开发能够模拟物理世界的AI大模型，由前OpenAI视频生成项目Sora联合负责人蒂姆·布鲁克斯领衔。

该团队致力于构建能够模拟整个世界的大型生成式模型，并将与Gemini、Veo和Genie等现有项目合作。其中，Genie 2模型是该团队的重要成果，它能够将单一图像转化为可交互的3D环境，支持长达一分钟的互动体验。Genie 2集成了物理模拟、照明效果、NPC行为等高级功能，展现出在动作控制、场景生成、长期记忆、视频生成、环境模拟等方面的强大能力。通过SIMA技术，Genie 2构建的虚拟世界能用于训练和评估具身智能体，并支持用户通过文字描述构建理想世界，实现交互或AI代理训练。

值得关注的是，世界模型的研发已成为科技巨头争相角逐的领域。英伟达推出了Cosmos世界模型，李飞飞的World Labs也投入巨资进行大世界模型的构建。OpenAI的Sora模型也被视为一种世界模型。这些模型旨在通过对海量数据训练，构建对世界运作方式的内部表征，实现复杂的推理和规划，并推动生成式视频技术发展，未来有望广泛应用于游戏、影视、自动驾驶和机器人等多个领域。

世界模型的概念源于人类大脑的心智模型，它试图模拟人类潜意识的推理能力，这被认为是实现人类级智能的关键。虽然距离成熟的世界模型还有数年时间，但其潜力巨大，未来可能实现按需生成用于游戏、虚拟摄影等用途的3D世界，大幅降低开发成本和时间。