ViViD：扩散模型虚拟试穿视频技术

463 0 0

ViViD是阿里巴巴开发的一项视频虚拟试穿技术，能够在视频中随意替换人物的衣服。ViViD 可以生成自然、真实的虚拟试穿视频，将服装转移到视频中的人物身上，同时保持视频其余部分不变。

– ViViD 演示网站：https://becauseimbatman0.github.io/ViViD
– ViViD 论文地址：https://arxiv.org/abs/2405.11794

随着电商的快速发展，消费者通过在线平台如淘宝和京东可以方便地接触到各种类型的服装。然而，单纯依赖电商网站上的服装图片，消费者很难想象服装穿在自己身上的效果。虽然图片换装技术已经相对成熟，但视频换装技术特别是在与身体动作的交互方面仍然较为稀缺。

虚拟试穿视频通过将服装转移到目标人物上，解决了这一问题。将基于图像的试穿技术直接应用于视频领域会导致时间不一致的结果，而之前基于视频的试穿解决方案只能产生低视觉质量和模糊的结果。

中国科学技术大学和阿里巴巴集团的研究团队联合开发了 ViViD 视频虚拟试穿技术，旨在通过合成视频让消费者看到衣物穿在自己身上的真实效果。这个视频框架利用扩散模型（Diffusion Models）来实现高质量和一致性的试穿视频。

具体来说，ViViD 采用了以下技术：

1. 服装编码器：提取细粒度的服装语义特征，引导模型捕获服装细节，并通过注意特征融合机制将这些细节注入到目标视频中。
2. 姿势编码器：为了确保时空一致性，引入了一个轻量级的姿势编码器来编码姿势信号，使模型能够学习服装和人体姿势之间的相互作用。
3. 分层时间模块：将分层时间模块插入到文本到图像的稳定扩散模型中，以获得更加连贯和逼真的视频合成效果。

此外，研究团队还收集了一个新的数据集，这是迄今为止视频虚拟试穿任务中最大、服装类型最多样化、分辨率最高的数据集。大量的实验表明，ViViD 方法能够产生令人满意的视频试穿结果。数据集、代码和权重将公开。

ViViD 的出现，标志着虚拟试穿技术的一大进步，为消费者提供了更加直观和真实的购物体验。