前沿资讯
1762063406更新
0
导读:英伟达和多伦多大学团队联合推出了时空编辑(ChronoEdit),让图片修改不仅看起来真实,还符合现实中的物理逻辑,让AI第一次真正理解了“因果”与“动作”。
英伟达在 Hugging Face 上发布了 ChronoEdit-14B,这是其最新的图像编辑与世界模拟技术。简单来说,这套系统能在编辑图片时,自动考虑物理规律和动作逻辑,比如物体该如何运动、碰撞、交互。

研究人员把“图片编辑”当成短视频处理来做:把原图当成视频的第一帧,修改后的目标图像当成最后一帧,中间让AI自动补齐合理的过渡过程。
这种方法让ChronoEdit能借助视频生成领域积累的“物理常识”,比如重力、速度、材质交互等,从而生成符合现实逻辑的修改结果。
为了让结果更精确,ChronoEdit引入了“时空推理(temporal reasoning)”机制。系统在生成结果前,会先构思出修改过程的“动作轨迹”,就像动画师提前打好草稿。完成推理后,它会自动删除中间的临时数据,只保留最终效果,在保证物理一致性的同时,大幅提升效率。
这次发布的版本中,ChronoEdit-14B 是完整版,拥有约140亿参数,效果最佳。同时还提供了速度提升6倍的轻量版 ChronoEdit-Turbo,只需5秒就能完成一张图的编辑,几乎不损失质量。此外,还有一款20亿参数的小型版,适合资源受限的环境。
ChronoEdit的潜在用途非常广泛。从给图片换背景、调整姿态,到模拟自动驾驶突发状况、机器人执行任务,都能精准还原真实世界的因果关系。
目前,ChronoEdit已在全球范围内开放下载,基于英伟达 GPU 加速系统运行,支持 Linux 环境,可通过 PyTorch 与 Triton 推理服务器集成。其使用受英伟达开放模型许可协议与 Apache 2.0 授权条款约束。
在AI开始“懂物理”的这一刻,图像编辑可能真的迈入了一个新阶段。
参考资料:https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers#chronoedit-towards-temporal-reasoning-for-image-editing-and-world-simulation
豫公网安备41010702003375号