photorepair – 高光照片优化

打假！网红Ps前后差太大了吧！

以揭露真实为目标
告诉大家
其实每个人都没有这么完美不要太焦虑

杂志照和网络上的美图
大多都逃脱不了PS
不是你的眼影不上色也不是牙太黄而是我们看到的都是精心修饰的图
皱纹，痘痘，毛孔粗大是人类通病了

没什么不好意思的其实

现在一打开美女自拍
满屏都是完美的身材和皮肤刷着刷着就让人产生焦虑和自我厌恶的情绪于是，有人开设了专门“打假”的账号

世界也不会因为谁是模特而优待该有的瑕疵一个也跑不了

照片中的好身材
其实也不是那么回事

皮肤不光滑也是常有的事情

化妆+PS就约等于换了个脸

有时用力过猛反而像个假人

很难发现这是同一个人

吸气缩小肚子
再套个滤镜
会完全不一样

其实
美丽≠细腰丰臀≠健身≠自律
过自己觉得舒适的生活最为重要

这些博主把打假照发出来的初衷
就是不希望人们沉溺在美颜陷阱中
接受自己也是接受更多美好

现实中的女孩子
会是环肥燕瘦

这些打假博主通过对比图

来展示PS技术可以使她在5秒之内拍的照片判若两人

这一切都是ps的功劳

其实卸了妆不修图，没有刻意凹造型日常中的明星和网红也没有照片中那么美

就有个痘痘和小肚子怎么了嘛！PS可以让人当小仙女
可回到现实
也总要食五谷杂粮的

你还在身材焦虑吗

在实现复杂且高精度图像编辑效果的同时，EditGAN 还能保持较高的图像质量和对象身份，英伟达在图像处理领域果然「出手不凡」。当前，AI 驱动的照片和图像编辑技术有助于简化摄影师和内容创作者的工作流程，并赋能更高水平的创意和数字艺术。基于 AI 的图像编辑工具也已经以神经照片编辑过滤器（filter）的形式应用在消费级软件上，并且深度学习研究社区积极地开发新的技术。其中，各式各样基于生成对抗网络（GAN）的模型和技术层出不穷，在实现原理上，领域研究人员要么将图像嵌入到 GAN 的隐空间，要么直接使用 GAN 生成图像。
大多数基于 GAN 的图像编辑方法分为以下几类。一些工作依赖于 GAN 在类标签或像素级语义分割注释上发挥作用，不同的条件会使输出结果出现变动；另一些工作使用辅助的属性分类器来指导图像的合成和编辑。然而，训练这种条件式 GAN 或外部分类器需要大规模的标注数据集。因此，这些方法目前仅适用于拥有大规模标注数据集的图像类型，如肖像等。即使拥有足够注释的数据集，大多数方法也仅能提供有限的编辑控制，这是因为这些注释通常仅包含高级的全局属性或者比较粗糙的像素级分割。
另一些方法专注于对不同图像的特征进行混合和插值，因此需要参照图像作为编辑目标，通常也无法提供微调控制。还有一些方法仔细剖析 GAN 的隐空间，找出适合编辑的解耦隐变量或者控制 GAN 的网络参数。但遗憾的是，这些方法无法实现精细的编辑，速度也通常较慢。
近日，英伟达、多伦多大学等机构在论文《EditGAN: High-Precision Semantic Image Editing》中克服了这些局限，并提出了一个全新的基于 GAN 的图像编辑框架 EditGAN——通过允许用户修改对象部件（object part）分割实现高精度的语义图像编辑。
相关研究已被 NeurIPS 2021 会议接收，代码和交互式编辑工具之后也会开源。

论文地址：https://arxiv.org/pdf/2111.03186.pdf项目主页：https://nv-tlabs.github.io/editGAN/
具体而言，EditGAN 在最近提出的 GAN 模型基础上构建，不仅基于相同的潜在隐编码来共同地建模图像及其语义分割，而且仅需要 16 个标注示例，从而可以扩展至很多目标类和部件标签。研究者根据预期编辑结果来修改分割掩码，并优化隐编码以与新的分割保持一致，这样就可以高效地改变 RGB 图像。
此外，为了实现效率，他们通过学习隐空间中的编辑向量（editing vector）来实现编辑，并在无需或仅需少量额外优化步骤的情况下直接在其他图像上应用。因此，研究者预训练了一个感兴趣编辑的库以使得用户可以在交互工具中直接使用。
研究者表示，EditGAN 是首个同时实现以下目标的 GAN 驱动的图像编辑框架：

提供非常高精度的编辑；
仅需极少量的标注训练数据，并且不依赖额外的分类器；
实时交互运行；
多个编辑的直接语义合成；
在真实的嵌入式、GAN 生成的甚至域外（out-of-domain）图像上运行。

研究者在包括汽车、猫、鸟和人脸等在内的广泛图像上应用了 EditGAN，最终都展现出了前所未有的高精度编辑。他们还将 EditGAN 与多个基准方法进行定量比较，并在身份和质量保持、目标属性准确性等指标上胜过它们，同时需要的标注训练数据少了数个量级。

在项目主页中，研究者展示了多个 EditGAN 相关的 Demo 视频，如下动图（左）为编辑向量插值效果，图（右）为在域外图像上应用 EditGAN 编辑向量的效果。

下图（左）为交互 demo 工具中使用 EditGAN 的效果，图（右）为使用 EditGAN 时可以实现多个编辑和预定义编辑向量。

使用 EditGAN 如何完成高精度语义图像编辑？
下图 2（1）为训练 EditGAN 的流程；图 2（2&3）分别为编辑分割掩码和利用编辑向量的实时编辑，其中用户可以修改分割掩码，并由此在 GAN 的隐空间中进行优化以实现编辑；图 2（4）为在隐空间中学习编辑向量，用户通过应用以往学习到的编辑向量进行编辑，并可以交互式地操纵图像。

通过分割编辑在隐空间中找出语义
EditGAN 的核心思想是在实现高精度图像编辑中利用图像和语义分割的联合分布 p(x, y)。给定一张待编辑的新图像 x，我们可以将它嵌入到 EditGAN 的 W^+ 隐空间中。然后，分割部分将生成相应的分割 y，这是因为分割和 RGB 图像共享相同的隐编码 w^+。使用简单的交互式数字绘画或标注工具，即可根据预期的编辑手动修改分割。研究者将编辑的分割掩码表示为了 y_edited。
例如，当修改右侧汽车照片中的车轮时，Q_edit 将包含轮胎、辐条和轮毂等所有与车轮相关的零件的标签：

推理过程中不同的编辑方法

总的来说，我们可以通过以下三种不同的模式使用 EditGAN 进行图像编辑：

使用编辑向量进行实时编辑。对于局部解耦良好的编辑，仅通过应用先前学习的具有不同尺度的编辑向量即可进行编辑，并以交互式速率（interactive rate）操纵图像；
利用自监督细化的向量编辑。对于未与图像其他部分完美解耦的局部编辑，可以通过测试过程中的额外优化去除编辑伪影，同时使用学习到的向量初始化编辑；
基于优化的编辑。特定图像和大规模的编辑不能通过编辑向量迁移到其他图像。对于此类操作，则可以从零开始进行优化。

实验结果
在实验部分，研究者在四种不同类别的图像上对 EditGAN 进行了广泛的评估，它们分别是：

汽车（空间分辨率 384×512）
鸟（512×512）
猫（256×256）
人脸（1024×1024）

其中，人脸示例的注释细节如下图 7 所示：

当仅基于优化或通过学习编辑向量完成编辑时，研究者通常使用 Adam 执行 100 steps 的优化。对于汽车、猫和人脸，他们使用 DatasetGAN 测试集中的真实图像，使用这些非 GAN 训练数据的图像是为了验证编辑功能；对于鸟，他们在 GAN 生成的图像上展示编辑功能。
定性结果
首先来看域内（in-domain）结果。在下图 4 中，研究者展示了当在新图像上应用以往学习到的编辑向量并执行 30 steps 的优化细化时，EditGAN 框架的图像编辑效果。结果显示，使用 EditGAN 的编辑操作保持了高图像质量并对所有类别的图像实现了良好的解耦。
研究者表示，以往没有任何一种方法可以做到像 EditGAN 那样复杂且高精度的编辑，同时还能保持较高的图像质量和对象身份。

如下图 8 所示，使用 EditGAN，研究者甚至可以实现极高精度的编辑，例如旋转汽车的轮辐（左）或者扩大人的瞳孔（右）。EditGAN 可以对那些像素极少对象的语义部分进行编辑，同时还能实现大规模的修改。

在下图 9 中，研究者展示了仅通过修改分割掩码和优化即可以去除汽车的车顶或将其改装成旅行车。值得注意的是，通过一些编辑操作生成的图像与 GAN 训练数据中出现的图像不同。

其次是域外结果。研究者在 MetFaces 数据集上展示 EditGAN 对域外数据的泛化能力。他们使用在 FFHQ 上训练的 EditGAN 模型，并使用域内真实人脸数据创建编辑向量。接着嵌入域外 MetFaces 肖像（使用 100 steps 的优化），再通过 30 steps 的优化应用编辑向量。结果如下图 6 所示，该研究的编辑操作无缝地迁移至相差甚远的域外图像示例。

定量结果
为了展示 EditGAN 的图像编辑能力的定量评估结果，研究者使用了 MaskGAN 引入的笑脸编辑（smile edit）基准。中性表情的人脸被转换为笑脸，并使用以下三项指标对性能进行度量，它们分别是：

语义正确性（Semantic Correctness）
分布级图像质量（Distribution-level Image Quality）
身份保持（Identity Preservation）

研究者将 EditGAN 与三个强基准方法进行比较，分别是 MaskGAN2、LocalEditing 和 InterFaceGAN，最后还与 StyleGAN2 蒸馏做了比较。结果如下表 2 所示，EditGAN 在三项指标上均优于其他方法。此外，EditGAN 在身份保持和属性分类准确率方面也优于 InterFaceGAN。在与 StyleGAN2 蒸馏的比较中，EditGAN 也表现出了强大的性能。

在下图 11 中，研究者展示了与 InterFaceGAN 比较的更多细节，其中应用了具有从 0 到 2 不同尺度系数的笑脸编辑向量。当编辑向量尺度较小时，身份分数高但笑脸属性分数低，这是对原始图像修改最小化导致的。他们发现，使用编辑向量的实时编辑效果可以媲美 InterFaceGAN。

最后说下运行时间。研究者仔细记录了 EditGAN 在 NVIDIA Tesla V100 GPU 上的运行时间。给定一个编辑好的分割掩码的情况下，走完 30 (60) 个优化 steps 的条件式优化耗时 11.4 (18.9) 秒。这一操作为他们提供了编辑向量。此外，编辑向量的应用几乎是瞬间完成的，仅耗时 0.4 秒，因此得以实现复杂的实时交互编辑。走完 10 (30) steps 的自监督细化将额外耗时 4.2 (9.5) 秒。

AI也能「抽象派」作画，圆形+方块组合，可微2D渲染下生成抽象人脸

文章来源微信公众号：机器之心

有人将一张方块图、圆形图的组合生成了抽象的人脸！还有人将帆布油画《阿尼埃尔的浴场》还原为直线。
绘画，尤其是草图可以说是传达概念、对象和故事的一种方式。计算机视觉和人机交互方面的草图研究历史悠久，可追溯到 1960 年代。近年来，由于深度学习技术的快速发展，草图应用越来越多，这些技术可以成功地处理草图识别、生成、基于草图的检索、语义分割、分组、解析和抽象等任务。
关于草图的研究也不时的被网友顶上热搜，近日新闻网站 reddit 上就有一篇帖子热度爆表，短短十几个小时热度就达到 800+，原贴内容为：从形状到「脸」- 使用神经网络进行形状抽象的可微 2D 渲染。

它的效果是这样的：从动图展示效果来看，一开始输入为 4×4 不同形状的图像，最后生成了人脸轮廓（尽管生成的人脸轮廓有些抽象，但我们还是可以看出是人脸）：

针对这一展示效果，网友纷纷表示惊艳，但可惜的是，原贴作者并没有给出更多的技术细节，但在评论区中，我们可以从原贴作者的回答中得出一些信息：
原贴作者即项目作者表示：「这是我用于神经渲染的 POC。该模型只是试图最小化输出与真值图像（在本例中为 celeb 数据集）之间的 L2 距离。动图中展示的是训练运行期间验证过程，遵循单一形状收敛。输入形状可以以任何形式开始，但 4×4 网格输入应该是最有趣的，这一实现效果可扩展到很多应用。我正在考虑写一篇简短的文章，把自己的想法表达出来。」

上面的回复中，项目作者提到了自己并没有写技术文档，不过，也有网友分享了一篇今年 7 月的文章《 Differentiable Drawing and Sketching 》。项目作者表示：「这真的很酷！其实我一直在找类似的东西，但找不到，所以做了这个。」

具体而言：这篇文章是来自南安普敦大学的研究者提出了一种自底向上的可微松弛（relaxation）过程：即将点、线和曲线绘制到一个像素光栅（pixel raster）。这种松弛过程允许模型学习和优化端到端的可微程序和深度网络，此外，松弛过程还为网络提供了几个构建块，以控制如何对组合绘图过程建模。值得注意的是，该研究所提方法是自底向上的，这一特性允许绘图操作以能够模拟绘图的物理现实而不是被束缚的方式组成，例如，现代计算机图形学的方法。

论文地址：https://arxiv.org/pdf/2103.16194.pdf
GitHub 地址：https://github.com/jonhare/DifferentiableSketching

论文展示了如何通过直接优化照片生成草图，以及在没有监督的情况下如何构建自动编码器将栅格化手写数字转换为矢量。

虽然论文与reddit项目作者的最终实现效果不同，论文是将图像抽象为点或线段的草图，项目则是将方块和圆形最终生成抽象人脸，但论文采用的方法对项目具有借鉴意义。因此，机器之心对论文《 Differentiable Drawing and Sketching 》中的技术细节进行了介绍。
技术解读：可微光栅化松弛
在这部分内容中，研究者讨论了如何将连续世界空间（continuous world space） W 中定义的点、线和曲线绘制或光栅化到图像空间中。
他们的目标是提出一种形式化方法（formalisation），使得最终可以定义相对于世界空间参数（如点坐标或线段起点和终点的坐标）可微的光栅化函数。
一维光栅化
研究者首先考虑了对一维点 p ϵ W 进行光栅化的问题，其中 W = R。具体来讲，点 p 的光栅化过程可以由函数 f(n; p) 来定义，该函数为图像空间中的每个像素计算一个值（通常为 [0 , 1]）。这个图像空间的位置又由给出。
先来看看简单的最近像素（closest-pixel）光栅化函数。如果假设第 0 个像素覆盖点 p 的世界空间中的域 [0, 1)，第一个像素覆盖 [1, 2) ，如此类推。然后，最近邻光栅化将真值点 p 映射到一个图像，如下等式（1）所示：

这一过程如下图 2a 所示。2b 则是另一种光栅化方案，其中在两个最近的像素上进行插值。

假设当被光栅化的点位于中点（midpoint）时，像素具有最大值，则如下等式（2）所示：

实际上，这些可以扩展至 2D 的函数在很多计算机图形系统中得到隐式地使用，但很少以我们编写它们的形式出现。
接下来是可微松弛。理想情况下，研究者希望能够定义一个相对于点 p 可微的光栅化函数，这允许 p 优化。等式（1）给出的光栅化函数对于 p 是分段可微的，但梯度几乎在所有地方都为零，这是没有用的。等式（2）在最邻近 p 的两个像素中具有一定的梯度，但总体而言它的梯度也几乎处处为零。
因此，研究者想定义一个光栅化函数，它对所有（或至少大部分）可能的 n 值都具有梯度。这个函数几乎在任何地方都应该是连续的和可微的。抗锯齿光栅化方法对如何实现这一点给出了一些提示：该函数可以根据 n 和 p 之间的距离为每个 n 计算一个值。
N 维中的松弛光栅化
以往定义的所有一维光栅化函数都可以简单地扩展为「在二维或更多维度上对一个点进行光栅化」。
线段可以通过其起始坐标 s = [s_x, s_y] 和结束坐标 e = [e_x, e_y] 来定义。为了开发一组通用、潜在可微的光栅化函数，研究者需要考虑光栅的形式化，就像在一维情况下所做的那样：找到一个函数，该函数在给定线段 f (n; s, e) 的情况下，能够在图像中所有像素位置集合 n 上定义一个标量场。
光栅化线段需要考虑像素与线段的接近程度。研究者高效地计算了任意像素 n 到线段上最近点的平方欧几里德距离，如下所示：

在最近邻光栅化的情况下，有人会问「这条线段是否穿过谈论中的像素」。只有在以下这种情况下才填充：

为了以相对于参数可微的方式光栅化曲线（与参数化无关），研究者遵循了与线段相同的通用方法：计算每个坐标与曲线之间的最小平方欧几里德距离：
与线段的情况一样，接下来这一距离变换（distance transform）能够与「根据距离运行的光栅化函数」相结合：

扩展至多条线段
为了光栅化多条线段，研究者考虑论了将不同线段的光栅化组合成单个图像。具体而言，他们将光栅化不同线段 {s_1, e_1}, {s_2, e_2}, . . . , {s_i, e_i} 生成的图像表示为在相同图像空间上定义的矩阵 I ^(1) , I^ (2) , . . . , I^ (n)。
在最简单的二进制光栅化情况下，研究者认为相应像素的逻辑或（logical-or）可能会产生所需的效果，即将单个光栅化中着色的任何像素作为最终输出中的着色，如下等式（9）所示：

研究者还将这种 composition 松弛为可微的，并允许像素值为非二进制（但限于 [0, 1]），如下等式（10）所示：

最终，研究者得到了点或线段构图所需要的全部组件。
图像优化示例
为了证明针对真实图像优化原语（primitives）方法的有效性，该研究提供了许多示例。例如图 4 和图 5 利用图 3a 中大小为 200 × 266 输入图像作为目标图像进行优化。
图 4 显示了使用模糊 MSE 损失优化 1000 个点和 1000 条线的结果，并展示了可以实现的整体效果。图 5 显示了使用一系列不同损失从同一起点优化 500 条线段的效果。
此外，该研究还将自动生成的草图与人类绘制的图像进行了比较。图 3b 是用笔（pen and ink）绘制的草图，用于生成图 4 和 5。很明显，草图广泛地捕捉了场景的整体结构和明暗区域。

2021 NeurIPS MeetUp China

受疫情影响，NeurIPS 2021依然选择了线上的形式举办。虽然这可以为大家节省一笔注册、机票、住宿开支，但不能线下参与这场一年一度的学术会议、与学术大咖近距离交流讨论还是有些遗憾。

我们将在NeurIPS官方支持下，于12月11日在上海博雅酒店举办线下NeurIPS MeetUp China，促进国内人工智能学术交流。

2021 NeurIPS MeetUp China将设置 Keynote、圆桌论坛、论文分享、 Poster和企业招聘等环节，邀请顶级专家、论文作者与现场参会观众共同交流。

作者： photorepair

打假！网红Ps前后差太大了吧！

一张图像百般变化，英伟达用GAN实现高精度细节P图

AI也能「抽象派」作画，圆形+方块组合，可微2D渲染下生成抽象人脸