Google I/O 2025:发布新一代视频生成模型Veo 3、图像生成模型Imagen 4以及电影制作工具Flow

前沿资讯 1747815538更新

0

Google I/O 2025开发者大会正式拉开帷幕,谷歌正式推出最新一代视频生成模型Veo 3。这款模型不仅能生成高质量视频片段,还能同步生成配套的音效、背景音甚至对话,标志着视频生成领域正式告别“无声时代”。

2024年6月,DeepMind曾披露其正在开发一个通过视频片段、声音及对话文本联合训练的模型。现在,用户只需通过文本或图像输入创作需求,描述人物、环境及对话风格,Veo 3即可基于生成的视频画面像素信息,自动匹配生成贴合场景的声音元素,包括环境噪音、角色对话等。比如用户设定“森林中探险者与机器人对话”的场景,模型不仅能呈现树木摇曳、脚步踩踏落叶的画面,还能生成符合角色性格的对话音效与环境音。

在发布Veo 3的同时,谷歌宣布对Veo 2进行了功能升级。新版Veo 2支持用户输入角色、场景、物体的参考图像及风格设定,以确保生成内容的一致性。新增对镜头运动,如旋转、推移、缩放的理解能力,可精准呈现运镜效果。还支持视频物体增减、画幅扩展、将竖屏转为横屏等编辑功能,这些升级功能将于未来几周内集成至Vertex AI API平台,进一步增强旧版模型的实用性。

目前,Veo 3已面向订阅谷歌AI Ultra计划(月费249.99美元)的用户开放,集成于Gemini聊天机器人应用中,用户可通过文本或图像指令触发生成功能。

最新图像生成模型方面,谷歌正式推出Imagen 4。据介绍,该模型能够渲染出诸如织物、水滴和动物毛发等“精细细节”,在处理照片写实风格和抽象风格方面都表现出色,并且能够生成各种纵横比、分辨率高达2K的图像。

谷歌实验室负责人乔什·伍德沃德(Josh Woodward)在新闻发布会上称:“Imagen 4在质量上取得了巨大的飞跃。我们还特别关注并改进了它生成文本和展示的方式,使得它在制作幻灯片、邀请函或任何需要将图像与文本融合的场景中表现出色。”

当下,市面上的图像生成模型众多,这些工具普遍功能强大,能够生成高质量的艺术作品。而谷歌认为,Imagen 4的独特之处在于其快速的生成速度,后期更新版本的Imagen 4将比Imagen 3快10倍。目前,Imagen 4已在Gemini应用程序、谷歌的Whisk和Vertex AI平台,以及Google Workspace中的Google Slides、Vids、Docs等应用中上线。

另外,谷歌推还出了一个专为电影制作设计的AI视频工具Flow,依托Veo(视频生成)、Imagen(图像生成)、Gemini(文本与提示)三大AI模型运行。

该工具支持用户导入或直接创建角色、场景等元素,功能涵盖镜头控制(改变拍摄角度与场景视角)、场景构建器(编辑扩展镜头并引导场景流程)及素材管理。同时,配套推出的“FlowTV”平台以精选内容流形式展示视频片段,用户可通过查看具体提示词了解他人创意逻辑。

Flow的发布标志着谷歌从模型供给转向AI视频生成应用层的直接布局。目前该工具率先面向美国地区Google AI Pro和AI Ultra套餐用户开放。Pro用户每月可进行100次内容生成,Ultra用户则享有更高生成额度及最新视频模型使用权。