阿里云发布Qwen-Image-2.0:7B参数实现文生图与图生图二合一,文字渲染能力再升级

前沿资讯 1770713433更新

0

概要:阿里云通义千问团队正式发布新一代图像生成基础模型:Qwen-Image-2.0。这款模型最核心的突破在于实现了文生图与图生图的二合一,不仅在文字渲染上达到了"准、多、美、真、齐"五大特性,更原生支持1k token指令和2K超高清分辨率。实测数据显示,同一模型在AI Arena盲测中,文生图和图生图两个基准均取得了业界领先的成绩。更关键的是,它是一个仅7B参数的轻量级模型,生成一张2K图像仅需数秒。目前,开发者已可通过阿里云百炼申请API调用,或在Qwen Chat(chat.qwen.ai)免费体验。


作为通义千问在视觉生成领域的里程碑之作,Qwen-Image-2.0实现了生图与编辑的二合一架构,在文字渲染、真实质感、语义遵循三个维度实现了质的飞跃,同时保持了轻量级模型的高效推理能力。

Qwen-Image-2.0主要包含四大核心升级:

更专业的文字渲染:支持1k token指令,可直出专业信息图,包括PPT、海报、漫画等复杂图文混排内容,实现像素级的多脚本排版能力。

更细腻的真实质感:原生支持2K分辨率(2048×2048),能够精准刻画人物皮肤毛孔、织物纹理、建筑肌理、自然植被等微观细节。

更强的语义遵循:理解与生成一体化架构,生图编辑二合一,无需切换流水线即可完成从创意到成品的全流程。

更轻量的模型架构:仅7B参数,在保证视觉保真度的同时实现秒级推理,兼顾效果与效率。

技术演进:两条支线的合二为一

在2.0版本之前,开发团队一直在两条支线上并行探索:

生图支线:2025年8月发布的Qwen-Image着重解决文字渲染的精准性问题,12月发布的Qwen-Image-2512则强化了细节质感和写实能力。

编辑支线:从8月的单图编辑、9月的多图编辑,到12月的一致性提升,开发团队持续攻克图像编辑中的保持性问题。

而今天的Qwen-Image-2.0,成功将两条支线合二为一,同一模型在文生图和图生图两个任务上均取得了业界领先的成绩。AI Arena模型盲测数据显示,Qwen-Image-2.0在生图编辑双赛道中均展现出优越性能。

实测表现:文字渲染的"准、多、美、真、齐"

Qwen-Image-2.0在文字渲染上体现了五大特性:

:模型能够准确渲染复杂的发展历程时间轴、"画中画"结构,甚至是《兰亭集序》全文的小楷书写,除极个别字外基本实现完美复刻。

:1k token的超长指令支持,使得模型能够处理极其复杂的图文排版需求。例如一张A/B测试结果报告的信息图,包含左中右三栏布局、统计图表、流程箭头、数据对比表,模型能够一次性完整生成。

:在生成图文混合画面时,模型会自动在空白区域渲染文字,确保不遮挡图像主体。例如用宋徽宗瘦金体书写《探春令》,或用水墨长卷风格呈现柳永《雨霖铃》,文字与画面意境高度统一。

:模型能够准确渲染不同介质上的字体,如玻璃白板上的手写笔迹、衣服上的品牌LOGO、杂志封面上的印刷文字,每种介质的光影质感都高度真实。

:在漫画分镜、日历、OKR信息图等复杂版式中,相似文字段落会自动对齐,对话框中的文字也保持规整居中,整体排版整洁专业。

编辑能力:文字渲染增益的全方位迁移

由于Qwen-Image-2.0是生图编辑二合一的omni模型,文生图带来的文字渲染和真实质感增益也完整迁移到了图像编辑能力上。

图片题词:可以直接在一张任意照片上题写诗词,字体风格可指定(如赵孟頫楷书),模型会自动处理文字与画面融合的光影效果。

跨次元合成:将卡通形象以壁画风格嵌入真实城市照片,建筑、车辆、人物等真实元素保持不变,合成效果自然无拼接痕迹。

人物融合:将两张不同场景的同一人照片合成为一张自然合影,服装、光影、姿态协调统一。

阿里云百炼平台已开通Qwen-Image-2.0 API邀测,开发者可提交申请进行集成。同时,所有用户可通过Qwen Chat(chat.qwen.ai)免费体验新模型——点击"生成图像"即可开始创作。



参考资料:https://mp.weixin.qq.com/s/D8nwRYxQp7wv9yzfk8FL9A