添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

杨天明组在类脑算法助力人工智能的安全方面取得进展

发布时间:2022-08-04

人工智能在日常生活中随处可见,无论是人脸解锁还是自动驾驶,背后都离不开人脸、车辆、交通标志等物体的自动识别技术。人工智能一旦出错,轻则造成使用者的不便,重则可能引发车毁人亡等严重后果。因此确保算法的安全性是 AI 研究中非常重要的一部分。目前常见的对抗攻击算法,可以针对人工神经网络进行攻击,通过在图片或语音信息上加入一些难以识别的微小噪声,让 AI 产生完全错误的判断。

动物和人类在做决定的时候,虽然感官刺激可能存在许多噪声,但是大脑可以排除各种干扰,最终做出合理的选择。认知神经科学中的漂移扩散模型(图 1 drift-diffusion model DDM )定量描述了这个过程:大脑通过积累带有干扰的证据,在达到一定阈值时做出最终决定。大量心理物理实验发现人和动物在抉择过程中的行为能被 DDM 模型很好的解释。同时,在大脑中的前额叶、后顶叶等脑区均发现了神经元编码并表征了抉择中的证据累积过程。

1 :漂移扩散模型示意图。在一个两难选择的任务里,在每个时刻,模型接受到含正态分布的噪声的信号作为证据。模型在时间上进行证据累积,直到累积的证据达到某个预先设定的阈值时候做出相应的选择。

中国科学院脑科学与智能技术卓越创新中心(神经科学研究所)杨天明研究组对 DDM 模型在大脑中的神经机制进行了长期深入的研究,发现大脑前额叶与后顶叶的神经元在信息累积中所进行的计算原理。受到这一系列研究的启发,杨天明研究组针对人工智能的安全性问题,设计了名为 Dropout-based Drift-Diffusion Model DDDM )的防御算法(图 2 )。研究人员首先通过 Dropout 机制随机失活模型中的单元,来模拟神经元之间的突触噪声,这种人工引入的额外防御性噪声,在 AI 受到攻击时能够提高被攻击的分类准确率。引入的噪声幅度越大,越能够“覆盖”那些攻击噪声,从而使攻击失效。然而大幅度的噪声也会让 AI 的输出更加随机,准确率也会随之下降。因此,研究人员进一步引入了 DDM 机制,把 AI 对带有随机性的输出作为证据进行累积,并设定阈值进行判断,来去除噪声的干扰,提高分类的准确率。

2 :(左)生物脑中的抉择过程。(右) DDDM 中的抉择过程。

研究人员在图像,音频,文本三种场景下进行了实验,验证了 DDDM 的在防御攻击时的有效性,不同数据模态和不同攻击方法下的通用性。在最重要的图像分类任务中,研究人员使用了八种不同的方法,去攻击一个手写数字的卷积神经网络分类器。 DDDM 大幅度恢复了所有攻击下的分类准确率,在四种攻击下的准确率可以恢复到 98% 以上(表 1 )。在 CIFAR-10 图片数据集, IMDB 电影评论数据集和 SpeechCommands 语音指令数据集的实验中, DDDM 也成功提高了受攻击后的分类准确率。

DDDM 模型还可以动态地对抉择所需的时间进行调整。在攻击噪声幅度逐渐增大时,抉择的难度也变大。这时候, DDDM 通过延长决策时间,将分类准确率维持在较高水平。这种行为类似于动物和人类,能够在面对不同难度的抉择时,通过调节做出决定所需的时间来维持一定的准确率。

该研究充分表明,受到大脑抉择机制所启发的 DDDM 模型是一个在多模态、多任务的场景下能够很好抵御对抗攻击的通用类脑算法框架。模型不依赖于针对特定攻击的预训练,并能够根据需要在时间和精度方面进行取舍。

该研究由博士研究生陈希源,博士后李星宇在杨天明研究员和周熠研究员的指导下完成,已被 2022 年度国际人工智能联合会议论文 (IJCAI-2022) 收录。本项工作获得科技部、中科院、上海市的资助。

附件下载:
上海市岳阳路320号 邮编: 200031
电话:86-21-54921723 传真:86-21-54921735 邮件:[email protected]
沪ICP备20013257号-1