
前沿资讯
1750320689更新
0
Midjourney今日正式发布其首个视频生成模型V1,新功能现已面向全体用户开放,通过“图像转视频(Image-to-Video)”的方式,可实现静态图像的动态演绎。
Midjourney创始人David Holz(大卫·霍尔茨)在公告中表示,虽然公司过去几年一直专注于图像生成,但其长期目标是构建可实时生成、可交互、可移动的三维视觉模拟系统。本次发布的视频模型V1正是这一蓝图的重要组成部分。“为了实现开放世界模拟系统,我们需要图像模型作为视觉基础,需要视频模型让图像动起来,需要三维模型支持空间移动,还需要实时性能确保系统响应足够快。”David表示。
此次发布的视频模型基于现有图像生成流程构建,用户可直接在Midjourney平台生成图像后点击“Animate”按钮,将其转化为动态影像。系统提供两种动画控制方式:自动动画模式和手动动画模式。自动模式由AI根据图像内容自动生成“动作提示(motion prompt)”,手动模式则允许用户自定义画面中的动态变化。
在动画强度设置方面,用户可根据需求选择“低动态”或“高动态”模式。其中,“低动态”适用于氛围感较强、镜头稳定的场景,但有时可能生成静止画面,而“高动态”则适合希望整体画面大幅移动的场景,不过也更容易出现效果瑕疵。
每段视频初始时长约5秒,用户可最多扩展四次,总时长达到20秒。此外,Midjourney还支持外部图像上传动画功能,用户可拖拽任意图片至平台作为起始帧,并通过文字描述指令实现动画控制。
据官方介绍,本次视频生成功能在成本控制方面取得突破性进展。每个视频任务费用约为图像任务的8倍,但一次任务可生成4段各5秒的视频,相当于每秒仅需一幅图像生成的价格,这已经比当前市场同类服务便宜至少25倍。
目前,该功能暂时仅在网页版提供,并开放“Relax”视频模式测试,适用于Pro及更高订阅用户。官方也提醒,初期由于服务器资源限制,可能会根据用户使用情况调整策略,以确保服务的可持续运行。
Midjourney表示,未来一年将逐步构建包括图像、视频、三维空间及实时计算在内的各项模块,并最终整合成统一的AI模拟系统。虽然这一过程初期成本可能较高,但团队相信,该技术终将普及,成为每个人都能使用的创造工具。“我们希望提供一个有趣、简单、美观且价格亲民的工具,让每一位用户都能参与探索。”David总结道,“这是我们走向未来的重要一步,感谢你们一路同行。”
参考资料:https://www.midjourney.com/updates/introducing-our-v1-video-model