Google I/O 2025：发布新一代视频生成模型Veo 3、图像生成模型Imagen 4以及电影制作工具Flow-AI前沿快讯-AI工具导航

Google I/O 2025：发布新一代视频生成模型Veo 3、图像生成模型Imagen 4以及电影制作工具Flow

Google I/O 2025开发者大会正式拉开帷幕，谷歌正式推出最新一代视频生成模型Veo 3。这款模型不仅能生成高质量视频片段，还能同步生成配套的音效、背景音甚至对话，标志着视频生成领域正式告别“无声时代”。

2024年6月，DeepMind曾披露其正在开发一个通过视频片段、声音及对话文本联合训练的模型。现在，用户只需通过文本或图像输入创作需求，描述人物、环境及对话风格，Veo 3即可基于生成的视频画面像素信息，自动匹配生成贴合场景的声音元素，包括环境噪音、角色对话等。比如用户设定“森林中探险者与机器人对话”的场景，模型不仅能呈现树木摇曳、脚步踩踏落叶的画面，还能生成符合角色性格的对话音效与环境音。

在发布Veo 3的同时，谷歌宣布对Veo 2进行了功能升级。新版Veo 2支持用户输入角色、场景、物体的参考图像及风格设定，以确保生成内容的一致性。新增对镜头运动，如旋转、推移、缩放的理解能力，可精准呈现运镜效果。还支持视频物体增减、画幅扩展、将竖屏转为横屏等编辑功能，这些升级功能将于未来几周内集成至Vertex AI API平台，进一步增强旧版模型的实用性。

目前，Veo 3已面向订阅谷歌AI Ultra计划（月费249.99美元）的用户开放，集成于Gemini聊天机器人应用中，用户可通过文本或图像指令触发生成功能。

最新图像生成模型方面，谷歌正式推出Imagen 4。据介绍，该模型能够渲染出诸如织物、水滴和动物毛发等“精细细节”，在处理照片写实风格和抽象风格方面都表现出色，并且能够生成各种纵横比、分辨率高达2K的图像。

谷歌实验室负责人乔什·伍德沃德（Josh Woodward）在新闻发布会上称：“Imagen 4在质量上取得了巨大的飞跃。我们还特别关注并改进了它生成文本和展示的方式，使得它在制作幻灯片、邀请函或任何需要将图像与文本融合的场景中表现出色。”

当下，市面上的图像生成模型众多，这些工具普遍功能强大，能够生成高质量的艺术作品。而谷歌认为，Imagen 4的独特之处在于其快速的生成速度，后期更新版本的Imagen 4将比Imagen 3快10倍。目前，Imagen 4已在Gemini应用程序、谷歌的Whisk和Vertex AI平台，以及Google Workspace中的Google Slides、Vids、Docs等应用中上线。

另外，谷歌推还出了一个专为电影制作设计的AI视频工具Flow，依托Veo（视频生成）、Imagen（图像生成）、Gemini（文本与提示）三大AI模型运行。

该工具支持用户导入或直接创建角色、场景等元素，功能涵盖镜头控制（改变拍摄角度与场景视角）、场景构建器（编辑扩展镜头并引导场景流程）及素材管理。同时，配套推出的“FlowTV”平台以精选内容流形式展示视频片段，用户可通过查看具体提示词了解他人创意逻辑。

Flow的发布标志着谷歌从模型供给转向AI视频生成应用层的直接布局。目前该工具率先面向美国地区Google AI Pro和AI Ultra套餐用户开放。Pro用户每月可进行100次内容生成，Ultra用户则享有更高生成额度及最新视频模型使用权。