不实际试穿,就能尝试各种服饰,虚拟试衣技术让「QQ秀」升级成了真人版,为时尚行业打开了新世界的大门。
然而,现有的虚拟试衣方法在逼真性和细节上的一致性方面还存在挑战。虽然扩散模型在创造高品质和真实感图像方面表现出众,但在虚拟试衣等特定场景中,它们在维持控制力和一致性方面还有待提高。
OutfitAnyone利用了一种创新的双流条件扩散模型,有效地解决了这些问题,能够精确地处理服装的变形效果,实现更加逼真的试穿体验。OutfitAnyone的特点是其极强的适应性和广泛的应用范围,不仅能调整以适应不同的姿势和体形,无论是动画形象还是真人,都可以一键换装。现已开放试玩。
主要方法:条件扩散网络
虚拟试衣任务本质是一个条件生成的任务,也就是基于给定一张服饰图片作为条件输入,控制生成服饰在人身上的试衣图片。当前的diffusionmodel在生成的可控性方面做了很多工作,比如基于tuning-based的方法,如lora,dreamBooth等,可以实现通过针对某一个或几个概念的样本图片进行针对性训练,学习对应的某个concept,在生成的过程中可以实现对应concept或者物体的生成。然而这种方式以来finetuning,计算和时间成本高,且难以扩展到多个物体的同时生成。
另外一类控制生成的方法是以controlnet为代表,其主要原理是通过zero-conv训练一个插件的网络,可以实现利用mask,cannyedge,depth等多种信号控制最终生成图片的layout。这种方式的的弊端在于控制信号与目标图像在空间上是align的,但服饰与控制信号和目标图像在空间分布上有较大的差异,导致无法直接使用,从而限制了其应用的拓展范围。
因此,作者提出了一种新的支持试衣功能的条件生成网络,实现服饰的形变,光照的变化,服饰新视角变化情况下的生成,同时能够保持服饰的纹理,版型,细节的一致性。
相比lora,dreambooth等方法的好处是,不再需要针对每个物体进行finetuning,具有很强的泛化性,从而可以实现zero-shot一键试衣。
此外,为了提升试衣结果的真实性,作者提出了refiner网络,对服饰的细节进行提升,从而能够提升服饰的材质、色彩,使其更接近真实的试衣效果。OutfitAnyone也支持各种复杂的服饰,多样的姿势,以及适配多种体型,使其能够满足用户多样化的试衣需求。
框架设计
近些年,虽然模型仍层出不穷,但模型设计逐渐走向同质化。主要可以分为3个部分:
(1)输入信号(图像/视频/文本/timestep)转化为embedding参入到后续网络计算中;
(2)基础计算单元:以ConvolutionBlock和TransformerBlock构成;
(3)信息交互单元则根据embedding之间的不同,可以通过spatially-alignedoperation和non-spatiallyalignedoperation的多种方式实现融合。
在框架设计上,研究团队遵循简洁有效的原则,按以上的基础思路,首先确定了需要何种输入信号,并根据信号的差异化采用不同的特征交互方式。
在试衣场景中,需要3个控制信号:
OutfitAnyone采用了以下的控制信号植入形式:
目前,基于DiffusionModel的生成模型强调生成内容在语义层
标签: 阿里、本文地址: https://yihaiquanyi.com/article/21188abb872ee65c1f09.html
上一篇:热烈祝贺上海鑫友华新材料科技有限公司热烈...