通义千问推出 Qwen-Image-Edit-2509:多图编辑、文字一致性和 ControlNet 全面升级

前沿资讯 1758624353更新

0

导读】:通义千问发布了Qwen-Image-Edit-2509。本次更新的亮点包括:支持多图输入编辑、人物和产品在处理过程中的一致性大幅提升,以及对文字和 ControlNet 的更精细支持。这些改进不仅让图片处理更灵活稳定,也让老照片修复、表情包制作、广告设计等场景更好落地。


通义千问发布了最新版本 Qwen-Image-Edit-2509。作为 Qwen-Image-Edit 系列的月度迭代版本,它带来了几项实用性很强的升级。

第一,大幅增强的多图编辑能力。此前版本只能对单张图片进行处理,而 Qwen-Image-Edit-2509 可以同时输入 1 到 3 张图片,系统会自动把它们拼接并生成结果。比如:

  • “人物+人物”:可以把两个人合成在同一张照片里,甚至调整他们的互动姿势;
  • “人物+场景”:把自拍照自然地放进旅游景点背景中;
  • “人物+产品”:常见于电商场景,比如模特与商品图合成。

这些操作还能结合 ControlNet 使用,比如通过关键点图来改变姿势,或者通过边缘图和素描图来保持结构。这样既能保证画面自然,又能让结果符合设计需求。

第二,单图编辑的一致性全面提升。

  • 人物一致性:换造型、换姿势,甚至加上长文本说明,都能保持面部特征不丢失。比如一张老照片修复后,人物依然能看得出原貌。
  • 产品一致性:普通的白底商品图可以直接生成完整的宣传海报,甚至还能自动衍生出 logo 图案。对于电商设计来说,可以省去不少时间。
  • 文字一致性:不只是修改文字,还能调整字体类型、颜色、材质,做到和整体画面风格统一。在制作广告海报时,文字和图像可以无缝结合,不容易出现“贴上去”的突兀感。

在实际应用场景里,这些改进非常直观。比如,用户可以轻松制作带有趣味文字的表情包;在老照片修复中,不仅能去除噪点,还能恢复清晰度和人物身份;在二次元或卡通创作里,也能维持角色形象的一致性。

第三,原生支持 ControlNet。新版本直接集成了常见的控制条件,包括深度图、边缘图、关键点图等。这让用户在创作时拥有更高的可控性。比如,在舞蹈姿势生成里,可以直接用关键点控制动作;在建筑草图渲染中,可以用素描快速生成带有质感的成品。

此外,官方还给出了快速体验的方法。用户只需安装最新的 diffusers 库,就能通过 Python 脚本调用 Qwen-Image-Edit-2509 的功能。官方示例中展示了如何将两只“熊”角色放进同一画面里,并指定他们的互动场景。这种开放式的调用方式,也方便开发者将功能嵌入到自己的应用和工作流中。

Qwen-Image-Edit-2509 ,不再只是一个简单的图片修改工具,而更接近于一套可扩展的创意平台。它既能满足设计师、电商商家、插画爱好者的需求,也能被开发者用于更复杂的创意生产链。


参考资料:https://x.com/Ali_TongyiLab/status/1970194603161854214;https://huggingface.co/Qwen/Qwen-Image-Edit-2509#introduction