神经风格迁移是指使用神经网络将一幅输入图像(如名画)的风格转移到另一幅输入图像(如后院照片)的技术。研究人员提出了多种不同的风格迁移技术,但哪种方法效果最佳?这个问题没有标准答案,因为观看者的偏好各不相同。
在AAAI 2023会议上发表的一篇论文中,我们提出了一种新的风格迁移模型,该模型可以输出多个选项,用户可以通过选择模型参数来控制输出效果。研究表明,大多数现有的风格迁移方法都可以重写为我们称为"分配-混合模型"的标准形式。
该模型的"分配"步骤涉及一个分配矩阵,该矩阵将一个输入图像的特征映射到另一个输入图像的特征。论文表明,风格迁移技术之间的差异主要源于分配矩阵的熵值,即矩阵值的多样性。
对于新图像中的特定点,分配可能是风格编码中的单个向量,也可能是向量的加权组合。在第一种情况下,分配矩阵是二值的:每个矩阵项要么是0要么是1,这是最小熵分配。相比之下,如果新内容图像中的每个点都由风格图像中每个向量的加权组合组成,则分配矩阵具有更高的熵。
在分配步骤之后,我们进入混合阶段。在这个阶段,我们遍历新合成图像的编码,对于每个图像区域,测量其编码与原始内容示例编码之间的距离。然后按照 divergence 的程度比例混合原始内容编码中的特征向量,这确保了新图像保留原始内容。
该过程的计算瓶颈是创建具有不同熵值的多个分配矩阵。但论文表明,Sinkhorn-Knopp算法可以应用于构建分配矩阵的问题,该算法使矩阵能够以支持高效解决方案的标准形式重写。
在实验中,该方法在保持内容输入的内容和风格输入的风格方面表现更好,并产生了更多样化的输出。人类评估研究也显示,在特定的多样性参数设置下,受试者更喜欢该方法生成的图像。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。