找回密码
 注册
Simdroid-非首页
查看: 655|回复: 0

[其他] 卷积神经网络表征可视化研究综述(3)

[复制链接]
发表于 2022-8-13 09:39:31 | 显示全部楼层 |阅读模式 来自 河北邯郸
卷积神经网络表征可视化研究综述(3)
人工智能技术与咨询
源自:自动化学报     作者:司念文 张文林 屈丹 罗向阳 常禾雨 牛铜
3.   可视化效果的评估
可视化效果评估用于度量不同方法的解释效果, 指导用户针对特定任务选择合适的可视化方法. 具体来讲, 可从以下两个方面对可视化效果进行评估: 有效性和鲁棒性.
3.1  有效性
  3.1.1 定性评估
定性评估方法在表征可视化研究的早期被经常使用, 依靠人的视觉感观来评价解释结果是否符合人的认知. 由于定性评估具有简单直观、便于理解等优点, 至今仍广泛使用. 常用的定性度量标准有以下3个:
1、视觉连贯性. 热力图需要关注感兴趣的目标区域, 忽略其他不相关区域. 在视觉连贯性标准下, 热力图中突出的区域对感兴趣目标的覆盖越全面、冗余部分越少, 表明可视化效果越好.
2、视觉可分辨性. 热力图需要与预测结果中的不同类别相对应, 这对于含有多个不同类别目标的图像来说至关重要. 例如, 在同时含有“Dog”和“Cat”的图像中, “Dog”的热力图应该聚焦与之对应的图像区域, 而尽量去除与“Cat”相关的区域. 视觉可分辨性对应于可视化方法的类别区分性特点, 用于评估热力图能否针对特定类别进行可视化, 以定位仅与该类别其相关的区域和特征.
3、多目标可视化. 当多个同一类别的目标同时出现在图像中时, 可视化方法需要同时定位多个目标, 而没有遗漏其中的某个目标.
此外, 解释结果的客观性也应作为一种评价可视化方法有效性的标准, 即解释结果是否真实的反映了模型的决策依据, 而非按照“预期”寻找到了人类所希望的决策依据. 例如, 文献[78]的实验表明, 分类器做出的决策可能依据目标周围的环境因素, 而目标自身却不是主导因素. 该情形下, 解释方法只能对分类器的分类依据如实解释, 而非按照人的期望去定位目标主体的某些特征. 文献[84]的研究同样验证了这一点, 若分类器从数据集中学习到“女性面部涂口红, 男性面部不涂口红” 这种带有一定“偏见”的事实, 导致分类器面对“涂有口红”的男性图像时, 仍将其判定为“未涂口红”. 此时, 尽管分类器结果错误, 但解释方法应当遵循分类器的决策依据, 定位于男性面部的其他特征, 将其作为判定为“男性”, 进而“未涂口红”的依据. 而非像人所认为的那样, 直接对该图像的嘴唇位置进行定位, 这样的解释结果与分类结果将出现明显不一致的现象, 无法客观地解释分类器的决策依据.
尽管解释的客观性问题在相关文献中较少被提及, 但也应引起注意. 只有让解释方法客观、真实地反映模型的决策依据, 才能使人真正理解并诊断其存在的问题, 进而改进与优化.
3.1.2 定量评估
定量评估方法按照某种得分规则, 计算数据集上所有图像的可视化结果的平均得分, 从而定量比较各方法的优劣. 这里介绍3种典型的定量评估方法.
1)弱监督目标定位. 使用目标定位任务的指标来评价可视化方法的目标定位效果. 具体方法为: 按照设定的阈值处理热力图以生成边框, 然后和真实边框进行比较, 计算交并比(Intersection over union, IoU). 对于某个定位结果, IoU > 0.5表示成功定位该目标, 以此在整个数据集上计算定位准确率. 该方法多用于评价CAM这类目标区分性较好、具有区域级可视化效果的方法.
由于某些细粒度的可视化方法更易定位与预测最相关的像素, 而非寻求覆盖目标整体, 因此, 热力图对应的边框将会定位在目标的局部区域, 导致IoU值总体偏小. 此时, IoU值无法反映解释结果的优劣, 表明这种评价方法具有一定的局限性[66].
2)指向游戏. 对于特定类别目标的热力图, 计算其最大激活值是否落入该类别的一个实例的边框中, 若落入则计入指向成功1次(#Hit), 否则不计入(#Miss), 以此计算每个目标类别的定位准确率Acc=#Hits/(#Hits+#Misses). 最终使用不同类别的平均准确度作为度量标准.
指向游戏只考虑热力图的最大值点, 无需突出特定目标的全部区域, 仅需对热力图最少量的后处理, 这样对不同特点的热力图更公平. 其可能的缺点在于热力图自身的噪声问题, 最大值点可能来自极值噪声点, 导致评价结果产生误差.
3)随机性检验. 文献[85]提出随机性检验方法, 用于评估可视化方法的适用范围和解释质量. 分为两种随机化检验: 一种是模型参数随机化, 使用随机化模型参数和预训练模型参数加载模型, 对比这两种情形下可视化方法的输出变化, 以检验该方法是否对模型参数敏感; 另一种是数据随机化, 对训练数据标签进行随机化打乱并重新训练模型, 与未打乱标签的可视化结果进行对比, 检验该方法是否对训练数据标签敏感.
随机性检验已成为广泛认可的基准测试方法, 用于检验可视化方法是否能有效实现解释, 从而区分出对模型参数和训练数据标签并不敏感的可视化方法. 这种不敏感的可视化方法的真实作用相当于一个独立于模型的边缘检测器, 而非一个有效的解释器. 文献[85]通过该实验验证了VBP和Grad-CAM的有效性, 而GBP和Guided Grad-CAM等未通过检验.
3.2 鲁棒性
可视化方法的鲁棒性与CNN模型的鲁棒性不同. CNN模型的鲁棒性是指模型的预测结果不会因为对抗攻击而发生明显变化. 可视化方法的鲁棒性是指在面临对抗攻击时, 可视化方法仍能够提供准确有效的解释. 为此, 本文将对抗攻击分为以下2种情形: 1)攻击模型预测结果, 测试解释结果是否随之改变; 2)攻击解释结果, 测试其是否会被误导.
3.2.1 稳定性
可视化方法的稳定性是指在模型预测受到对抗攻击时, 可视化方法的解释结果仍能保持稳定而不发生显著变化. 其中, 用于攻击模型预测结果的对抗样本xadv具有以下3个特点:
1、对原图x施加扰动δ后得到对抗图像xadv, xadv相对于x的变化在视觉上难以感知, 满足||δ||=||xadv−x||≪ε(ε表示较小常数), 保证扰动后图像的视觉不变性;
2、图像分类模型f对xadv的分类结果将会极大的改变, 即f(xadv)≠f(x);
3、解释方法g产生的解释结果不会因为扰动而发生显著变化, 满足g(xadv)≈g(x).
这里简单介绍一种经典的基于梯度的对抗攻击方法 (Fast gradient sign method, FGSM)[86], 可用于攻击模型的预测结果, 检验可视化方法的解释结果是否仍保持稳定. FGSM利用梯度上升方法, 通过优化输入图像来最大化损失函数, 使模型产生误分类的结果, 此时对应的输入图像即为对抗图像. FGSM方法形式化如下:
   (38)   

式中, ∇xJ(θ,x,f(x))表示原图对应初始类别的梯度. sign(⋅⋅)表示符号函数, 根据梯度正负取+1或−1. ϵ表示扰动系数. FGSM的具体过程如图33所示. 其中, x表示输入图像, f(x)的结果为“Panda”, 置信度为57.7%. 扰动量大小ϵ = 0.07. 经过“Nematode”的扰动后, 扰动后的图像虽然在视觉上仍为“Panda”, 但却被分类为“Gibbon”, 且置信度高达99.3%
图 33  FGSM生成对抗样本的过程[87]
Fig. 33  The process of generating adversarial example by FGSM[87]
文献[63]和文献[66]使用FGSM对抗样本测试Grad-CAM生成的类激活图的稳定性, 如图34所示. 图34(a)和(b)分别表示原图和对抗图像, 原图分类结果为Boxer: 0.40, Tiger Cat: 0.18. 对抗图像的分类结果为Airliner: 0.9999. 在图34(c)和图34(d)中, 针对对抗图像, 使用Grad-CAM分别对Boxer (Dog)和Tiger Cat (Cat)进行定位时, 仍可以稳定地找出相关目标区域, 尽管此时这两种目标的分类置信度非常低. 这表明Grad-CAM产生的解释具有一定的稳定性, 可以抵抗针对模型预测结果的对抗攻击.
图 34  使用FGSM对抗样本测试Grad-CAM的稳定性[63] ((a)原图; (b)对抗图像; (c) Grad-CAM “Dog”; (d) Grad-CAM “Cat”)
Fig. 34  Using FGSM adversarial example to test the stability of Grad-CAM[63] ((a) Original image; (b) Adversarial image; (c) Grad-CAM “Dog”; (d) Grad-CAM “Cat”)
尽管这是一种测试可视化方法稳定性的方法, 但文献[88]认为, 当模型分类结果受到攻击时, 解释结果应当随着分类结果的改变而改变, 即解释方法应该尝试对新的分类结果进行解释, 而不应保持原来的解释不变, 这样才是一种忠实的解释方法. 由此可见, 这种稳定性测试方法的合理性仍存在一定疑问. 根据这种思路, 即可视化结果应当与新的误分类结果相对应, 文献[88]使用可视化方法来检测对抗样本, 从而找出其中误导分类结果的特征.
3.2.2 抗欺骗性
可视化方法的抗欺骗性是指可视化方法自身受到对抗攻击时, 解释结果能够抵抗这种欺骗性的攻击, 仍能实现有效的解释.
文献[89]指出, 可视化方法生成的显著图可以被人为设计的对抗样本操纵. 通过对输入施加视觉上难以察觉的扰动, 使网络的输出近似保持不变, 显著图却可以被任意改变. 也就是说, 这种对抗样本的攻击对象不是模型预测结果, 而是对预测结果的解释. 用于攻击可视化方法的解释结果的对抗样本xadv具有以下3个特点[90]:
1、对原图x施加扰动δ后得到对抗图像xadv. xadv相对于x的变化在视觉上难以感知, 满足||δ||=||xadv−x||≪ε(ε表示较小常数), 保证扰动后图像的视觉不变性;
2、图像分类模型f对xadv的分类结果基本不变, 即f(xadv)=f(x);
3、解释方法g产生的解释结果g(xadv)将根据扰动的变化而变化g(x), 使之偏离原来的解释结果, 即满足g(xadv)≠g(x).
一种典型的针对解释结果的攻击方法如图35所示, 图35中3个CNN表示同一个待解释的预训练CNN. 其中, Con表示原图x的分类置信度, Exp表示对应的解释. 使用均方误差损失作为约束, 使对抗图像的分类结果f(xadv)逼近原图的分类结果f(x), 而解释结果g(xadv)则逼近目标图的解释结果g(xtarget), 最终的目标函数是两者的加权和:
图 35  针对可视化结果的攻击
Fig. 35  Attacks on the visualization results
    (39)   
式中, xtarget表示用于诱导解释结果的目标图像, λ1和λ2为2部分的权重参数.
攻击结果如图36所示, 图36(a)为目标图像xtarget, 图36(b)为原图x, 图36(c)为对抗图像xadv, 图36(e) ~ (g)分别表示对应的显著图. 由图36可以看出, g(xadv)被诱导偏向g(xtarget), 显示出一只鸟的轮廓. 与此同时, f(xadv)却基本保持不变.
图 36  使用GAN生成的目标图像诱导对LRP显著图的攻击[82, 90]
Fig. 36  Using the target image generated by GAN to induce an attack on the LRP saliency map[82, 90]
对于使用随机初始化的原图生成的对抗图像图36(d), 同样可以使用上述攻击方法, 使其对应的显著图36(h)被诱导偏向目标图的解释图36(e), 尽管原图和对抗图像本身没有任务的语义信息. 最终, 分类器对对抗图像图36(d)的分类结果图36(b)相近, 解释结果与图36(e)相近, 但对抗图像图36(d)从视觉上看仅是一幅噪声图像. 可见, 显著图解释方法的抗欺骗能力的确存在漏洞, 而目前对于造成这一问题的原因分析仍在探索之中[90].
上述分析显示, 在输入图像未被显著改变、分类结果也保持不变的情形下, 针对分类结果的解释却可以被明显改变而偏向任意目标的解释, 表明可视化方法存在被欺骗的可能. 文献[91]从另一种思路出发, 通过重新微调模型参数, 使微调后的模型的预测结果大致不变, 但解释结果却可以被任意引导. 文献[92]对自解释模型所提供的解释的鲁棒性进行了评估, 发现通过创建这样一些对抗性输入, 会使自解释模型提供错误的解释, 表明现有的自解释模型提供的解释鲁棒性并不好, 无法经受住对抗性攻击. 另一方面, 为了提升可视化方法的鲁棒性, 使其不易被误导, 文献[93]将显著图应用到模型训练中, 对训练集进行数据增强, 从而训练出归因鲁棒性较好的模型.
登录中国人工智能培训chinaai查看更多信息

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|小黑屋|联系我们|仿真互动网 ( 京ICP备15048925号-7 )

GMT+8, 2024-4-28 08:38 , Processed in 0.029579 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表