作者 | 杨东明
撰稿 | 陈大鑫
给带队ACG老婆的脸庞;
下带队就能让她们全部笑容起来:
或者对铲屎霞关来说,把乌鸦猫变为?,把狗变为狼?,还能把乌鸦变为猫:
阿这,白龙村,让我来捋一下:乌鸦—>>猫——>>狗——>>狼,这岂不是说,乌鸦==狼了?
对而此点,或许广大网友们早就司空见惯了,毕竟苏大强也能化身古天乐:
没错,正如我们所猜到的一样,今天AI科技评论为我们如是说的就是一款能自学透过操纵者隐内部空间语法展开面部特性撰稿的GAN数学模型—— L2M-GAN。
这是北京师范大学高瓴人工智慧学校卢志武老师实验室团队明确提出的数学模型,学术论文已经被CVPR 2021接收为Oral,学术论文题目:《L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing》。
1
学术论文如是说
面部特性撰稿任务的目标是操纵者真实面部相片的语法特性,其在现实中有著广泛的应用,比如娱乐、辅助治疗法以及统计数据增强等等。随着深度生成数学模型的发展,最近的工作大多以GAN(Generative Adversarial Network)为基础。现有的面部特性撰稿数学模型面临的两个主要挑战是要同时满足用户三个要求:
(1)正确地修正想要的特性;(2)保留其它毫无亲密关系的重要信息。但因为相同特性间存有著各种亲密关系,且特性与身分重要信息间也存有著亲密关系,所以在修正两个特性时很可能不知不觉地引致其它特征的改变,这引致了同时满足用户这三个特性是很困难的。
为的是满足用户这三个条件,一些最捷伊办法采用了内部空间目光的方式。这类方式假定每个特性有著两个有关联的局部地区,相片的特性操作能被管制在而此地区中。它透过网络中的目光组件去自学可视化而此地区,一但而此地区被确定,它便能使用统计数据流和状态参数和的方式同时实现仅在部分地区内展开撰稿。
但而此假定并非对所有的特性都满足用户,比如说性别、笑容等特性,那些特性有关联的地区基本覆盖了整个面部且与其它特性地区重叠。因此这类数学模型在操纵者那些特性时效果并不好。另一部分方式则把目光放在对GAN教给的隐内部空间中展开隐表达式的降解,从而透过降解得到特性有关的矢量。取值两个预体能训练好的GAN数学模型,它透过自学子态射的方式将原矢量态射到表达有关联特性的矢量。
但这类方式仍然存有三个问题:
(1)它依赖于预体能训练好的GAN数学模型提供更多的隐内部空间,并不对数学模型再次体能训练。这种没有再次展开起新端体能训练的数学模型的隐内部空间可能是两个次优化的隐内部空间。
(2)这类方式往往只在统计数据集提供更多的几个条码间展开解耦,但还有许多并没有被包含在那些原订义的条码中的重要信息需要被解耦,比如日光重要信息和身分重要信息等。
为的是克服那些管制,本文明确提出了两个捷伊隐内部空间降解数学模型L2M-GAN。
该数学模型展开起新端的体能训练,并自学将隐矢量明晰地降解为特性有关矢量和特性毫无亲密关系矢量,以同时实现有关特性重要信息和其它重要信息的解耦。与以后的这类方式类似,他们也根据特性条码对隐内部空间中的表达式展开解耦,但相同的是,他们明晰地将其降解为特性有关的矢量和特性毫无亲密关系的矢量,而非仅仅对三个原订义的特性展开解耦。
2
方式
在如是说他们的方式以后,他们先定义“域”而此概念。“域”指的是某些特性的值构成的组合。比如想要撰稿特性<性别,年龄>时,一共存有4个“域”,<男性,年老>,<女性,年老>,<男性,年轻>,<女性,年轻>。取值一张输入相片和它所有关联的域,以及目标域,他们的目的是合成一张属于目标域的相片,同时保留输入相片的与域毫无亲密关系的重要信息。
如下图所示,他们明确提出的数学模型由三个部分组成:风格编码器、风格转换器和生成器。
在多任务自学的设置下,他们的风格编码器由多个域的输出分支组成。为的是解释方便,上图中仅表示了两个域的输出。
风格编码器是L2M-GAN的关键组成部分,它由降解器和域转换器三个组件构成。其中,降解器从原始的隐矢量中降解出与域毫无亲密关系的(特性毫无亲密关系的)矢量
,再透过相减能得到域有关的(特性有关的)矢量。因为他们的目标是修正目标特性到目标域中,而其它毫无亲密关系的重要信息不会被修正。这种情况会出现,当且仅当和
是相互垂直的,且修正后的矢量也与
是相互垂直的。
为此,他们引入了垂直损失来对这三个矢量展开管制。值得注意的是,以后的方式使用垂直损失来对三个特性展开解耦,而L2M-GAN则用该损失来把特性有关的重要信息和其它所有毫无亲密关系的重要信息分离开。这对特性撰稿中保留其它重要信息而此要求是至关重要的,因为其它的特性条码并不能涵盖所有的毫无亲密关系重要信息。在得到域有关矢量以后,L2M-GAN透过域转换器把它转换到目标域中,得到表示目标域重要信息的域有关矢量。其与域毫无亲密关系矢量
相加后便可得到撰稿过后的隐矢量。
生成器以一张输入相片和两个撰稿后的隐编码作为输入,生成一张目标域的相片,其包含目标域重要信息和输入相片的与域毫无亲密关系的其它重要信息。与StarGAN V2类似,他们的生成器也采用 Adaptive Instance Normalization(AdaIN)结构来将隐编码中包含的风格重要信息融合到输入相片中。
3
实验
他们在广泛使用的CelebA-HQ统计数据集上展开实验。他们根据CelebA的划分以及CelebA和CelebA-HQ相片间的有关联亲密关系,把CelebA-HQ划分为27176张体能训练相片和2824张测试相片。
他们将他们的方式与其它几种最捷伊方式展开了对比。正文中的实验几种在“笑容”而此特定特性上,其它更多特性的结果他们放在了附件中。值得注意的是,“笑容”而此特性是统计数据集所给的40个条码中最具挑战性的两个特性,因为其同时涉及面部中的多个部分,添加和消除笑容都需要数学模型对输入相片有高级的语法理解,这样才能同时修正多个面部相片的组成部分而不改变其它重要信息。
从可视化结果中能看到,StarGAN和CycleGAN倾向于在嘴周围生成模糊和失真的结果,因此在大多数生成相片中,它没法很好地正确撰稿有关联特性。ELEGANT 则总是把参考相片中与特性毫无亲密关系的重要信息也迁移到生成相片中,这是因为它展开特性交换的隐内部空间并没有很好地解耦。
PA-GAN是基于内部空间目光的方式,因此它较好地保留了一些毫无亲密关系的重要信息,比如背景等,但能看到,面对难以定义确定修正地区的“笑容”特性,其通常会出现修正不充分的情况,因而无法正确地撰稿特性。InterfaceGAN*能够生成高质量的相片,但在一些细节上仍然做的不够好,比如眼睛和嘴的生成。同时其有时会修正输入相片的身分重要信息,这是因为其仅仅考虑了特性间的解耦,而没有考虑身分等其它重要信息。
在量化结果上,他们主要采用了FID和特性操作准确率来分别评价合成相片的质量以及特性撰稿的结果正确率。能看到除了在消除笑容而此结果上的FID比PA-GAN低,其它的结果都是超过了所有最捷伊结果的,而PA-GAN是以修正不充分为代价来达到较高的相片质量的。
除了上述结果,他们的数学模型还展现出了其它的能力,包括:控制撰稿特性的强度、同时修正多个特性以及对未见过的相片的迁移等。
因为经过体能训练之后的隐内部空间是两个自教给了语法重要信息的连续内部空间,当他们线性地把变换到时,合成的相片所表示的关于目标域的语法重要信息也会逐渐增加,关于原域的语法重要信息会逐渐减少,同时因为他们对、与
的垂直管制,这个过程不会改变其它毫无亲密关系的重要信息。而此过程能表达为:
他们能透过控制超参数来控制合成相片的有关特性的强度。
此外,他们的L2M-GAN数学模型以StarGAN V2作为骨架网络,所以能很自然地展开多特性撰稿的任务。
本文还使用了统计数据集外的相片测试了他们数学模型的泛化能力。能看到,他们的数学模型在CelebA-HQ而此真实人脸统计数据集上体能训练过后,直接在分布差异比较大的动漫统计数据集上测试也能很好地同时实现特性撰稿的功能且合成质量很高的相片。
同时,为的是进一步验证他们数学模型结构的有效性,他们还在非人脸的动物统计数据集AFHQ上展开体能训练。从可视化结果中能看到,他们的数学模型在非人脸统计数据集上也能达到很好的特性撰稿效果以及生成相片质量。这进一步验证了他们的方式的有效性及泛化性。
4
总结
他们明确提出了一种捷伊基于隐内部空间降解的面部特性撰稿数学模型。
他们明确提出的数学模型L2M-GAN是首个基于隐内部空间降解的起新端面部特性撰稿数学模型,其能有效地撰稿局部和全局特性。这得益于明确提出的捷伊风格转换器将隐矢量降解为特性有关的部分和特性毫无亲密关系的部分,并对转换前后的矢量施加了垂直约束。大量的实验证明了他们明确提出的L2M-GAN比其它现有的方式有明显的改进。
还木有评论哦,快来抢沙发吧~