论文简介
一、指出先前的深度学习方法将人脸反欺骗问题视为一个简单的二分类问题,将Spoof Face和Live Face分别采用简单的0,1标签进行监督学习。这样的神经网络很难抓住足够的欺骗线索并且对线索的归纳性很差
二、论证辅助监督在引导神经网络学习区别和归纳线索方面的重要性
三、提出了一种新的CNN-RNN模型。利用基于像素级的监督方式来估计人脸的深度信息以及基于序列监督的方式来估计人脸的rPPG信号。将估计的深度信息以及rPPG信号进行融合来区分Spoof Face和Live Face
四、介绍了一个新的人脸反欺骗数据库OULU Database,此数据库涵盖了大范围的光照、受试者和姿势变化
论文研读
二分类监督的不足
二分类监督的反欺骗模型,主要存在两个问题:
首先,存在不同程度的图像退化,即欺骗模式,将恶搞脸与活人脸进行比较,这包括皮肤细节丢失、颜色失真、莫尔图案、形状变形和欺骗伪影(例如,反射)。利用Softmax Loss的CNN可能会发现能够区分这两个类别的任意线索,例如屏幕边框,但不会发现忠实的恶搞模式。当这些线索在测试过程中消失时,这些模型将无法区分Spoof Face和Live Face,从而导致较差的泛化能力
其次,在测试过程中,在二元监督下学习的模型只会生成一个二元决策,而没有对决策做出解释及其基本原理的阐述【无法了解具体使用了什么线索】
论文创新点
PA: attackers present face spoofs (i.e., presentation attacks, PA), PA include printing a face on paper (print attack), replaying a face video on a digital device (replay attack), wearing a mask (mask attack), etc. 利用假脸来解锁人脸安全系统的行为,包括打印攻击,回放攻击以及面具攻击等
PIE:variations in poses, illuminations, expressions (PIE). 在姿态、照明、表情上的变化
为了解决上述问题,本文作者提出了一种深度学习模型,该模型利用时间和空间上的辅助信息监督而不是0、1监督,以从人脸视频中稳健地检测PA
空间信息监督Spatial Auxiliary:活体脸部具有与脸部相似的深度,活体人脸具有深度信息,而电子设备以及纸质设备上的人脸在一个平面上(或者对于直至媒体来说可以是一张扭曲后的平面),活体人脸具有更严格和多样性的深度信息
时间信息监督Temporal Auxiliary:正常的rPPG信号(即心脏脉搏信号)可以从活体人脸视频中检测到,但不能从欺骗视频中检测到,所以通过提供不同的rPPG信号作为辅助监管,分别��导网络学习Live Videos和Spoof Videos
为了实现这两种辅助信息监督,作者设计了一个网络架构,该架构具有一个桥接(short-cut connection)用于捕捉不同尺度,以及一个用于处理运动和姿态变化的新型非刚性配准层(non-rigid registration layer)来获取rPPG估计信号
贡献SiW数据库Spoof in the Wild Database:
作者认为相机和屏幕质量是影响Spoof Face成像质量的关键因素。以往的数据集都是几年前收集的了,如见电子设备已经更替几倍,这些数据集早已过时。而最近的数据集在PIE上的变化很少,缺少必要变化的数据集难以训练出有效的模型。因此作者收集了SiW数据集。SiW数据库由165个受试者、6个欺骗媒介和4个会话组成,涵盖了PIE、摄像机的距离等变量。SiW涵盖了比以往数据库更大的变化
前期工作
作者回顾了前人的三项工作:1、基于纹理(texture-base);2、基于时间(temporal-based);3、远程光电体积描记术(remote photoplethysmography)
基于纹理方法:对RGB图像使用手工制作的特征例如LBP、HoG、SIFT、SURF并采用传统的分类器SVM和LDA。也有将RGB转换为HSV和YCbCr颜色空间,或使用傅里叶谱作为输入信息来克服照明的影响。随着深度学习的兴起,许多工作尝试使用基于CNN特征或CNN网络来处理人脸反欺骗问题,然而这项工作的大多数人通过应用softmax损失函数将人脸反欺骗问题视为一个简单的二分类问题,例如一些对ImageNet上的CaffeNet或VGG-face预训练模型进行微调、使用多尺度人脸和手工特征来直接区分真假脸。《Face anti-spoofing using patch and depth-based CNNs》这篇论文提出的基于纹理和深度的two-steam CNN-based anti-spoofing方法与我们工作相似,并且相对于这篇论文我们在许多方面取得了进展,这其中包括rPPG、更精细的网络结构、新型非刚性配准层以及综合实验对我们的支撑
基于时间的方法:基于时间线索是面部反欺骗的最早解决方案之一,例如眨眼检测,通过跟踪嘴和嘴唇的运动来检测面部表情。这些方法对典型的纸面攻击有效,但对回放攻击或剪裁出眼睛/嘴巴部分的纸张攻击时,效果并不好
还有一些工作依赖于更一般的时间特征,而不是特定的面部动作。最常见的方法是帧连接。许多手工制作的基于特征的方法通过简单的连接连续帧的特征来训练分类器以此提高内数据集测试的性能。此外,也有一些工作提出了特定时间的特征,例如Haralick特征、运动放大和光流。在深度学习时代,Fenget等人将光流图和剪切波图像特征喂入CNN。Xue等人提出了一种利用时间信息进行二值分类的LSTM-CNN结构。总体而言,现有的人脸反欺骗方法仍然将人脸反欺骗视为二分类问题,因此很难在跨库测试中得到很好的推广。在这项工作中,通过学习人脸视频的rPPG信号来提取可区分的时间信息
远程光电体积描记术:远程光电容积描记术(rPPG)是一种跟踪生命信号(例如心率)而无需与人体皮肤接触的技术。研究始于没有运动或照明变化的面部视频到具有多种变化的视频。Haan等人通过照明和运动变化来估计RGB面部视频中的rPPG信号,它利用色差消除镜面反射并估计两个正交色度信号。 应用带通滤波器(BPM)后,色度信号的比率将用于计算rPPG信号
rPPG曾被用来解决面部反欺骗,例如在3D面具攻击中,活体人脸显示出心跳脉冲。通过提取rPPG信号并计算相关特征进行分类。同样,Magdalena等人从三个面部区域和两个非面部区域提取rPPG信号用于检测打印和回放攻击。尽管在回放攻击中,rPPG提取器可能仍会捕获正常脉冲,但多个区域的组合可以辨别真假。尽管rPPG提取的解析解决方案易于实现,但我们观察到它对PIE变化很敏感。因此,我们采用一种新颖的CNN-RNN架构来学习从人脸视频到rPPG信号的映射,这不仅对PIE变化具有鲁棒性,而且对于活体的区分具有判别能力【提取RPPG的方法来源于论文《Robust pulse rate from chrominance-based rPPG》】
Face Anti-Spoofing with Deep Network
所提出的方法的主要思想是引导深层网络关注横贯空间和时间的已知欺骗模式,而不是提取任何能够区分两个类别却难以归纳的线索。如下图所示,所提出的网络以连贯的方式结合了CNN和RNN架构。CNN部分利用深度图监督来发现微妙的纹理属性,从而对真假脸的识别带来不同的深度。然后,它将估计的深度和特征映射喂入到新的非刚性配准层以创建对齐的特征图。RNN部分使用对齐的特征图和检查视频帧间变化的rPPG作为监督进行训练
Depth Map Supervision
使用人脸的深度图作为标签的方法比简单的0-1标签信息更丰富,因为它表明了活体人脸、打印和回放人脸之间的一个基本区别。将深度图用于深度损失函数来监督CNN部分,基于像素的深度损失函数将引导CNN学习从感受野内的面部区域到标记深度值得映射。对于活体面部,深度值在0-1。对于欺骗面部,深度值为0
rPPG Supervision
rPPG信号提供了有关活体面部的时域信息,因为rPPG信号与面部的皮肤有关,随着时间的变化,面部的不同变化会带来不同的rPPG信号。这些强度变化与血液流动高度相关。提取rPPG信号的传统方法《Robust pulse rate from chrominance-based rPPG》具有三个缺点。首先,它对姿势和表情变化很敏感,因为跟踪特定的面部区域来测量强度变化变得更加困难。其次,它对照明的变化也很敏感,因为额外的照明会影响皮肤反射的光量。第三,出于反欺骗的目的,从欺骗视频中提取的rPPG信号可能无法与真实人脸视频信号充分区分开
作者所提出的方法是采用RNN网络来估计rPPG信号。这简化了具有PIE变化的面部视频的信号估计,并且由于为活体视频和欺骗性视频提供了不同的rPPG监控,因此它还会产生更具有区分性的rPPG信号
论文中假设在不同的PIE条件下同一受试者的视频具有相同的ground truth rPPG。因为对于短时间内(<5分钟)捕获的同一受试者的视频,心跳相似。从受约束的视频中提取的rPPG信号(即,没有PIE变化)用作rPPG损失函数中针对同一受试者的所有活体视频的“ground truth”监督。这种一致的监督有助于CNN和RNN部分对PIE变化具有鲁棒性
Network Architecture
论文提出的网络由两个深层网络组成。首先,CNN部分分别评估每个帧,并估计每个帧的深度图和特征图。其次,递归神经网络(RNN)部分评估整个序列特征图上的时域变化
CNN Network
CNN部分采用FCN(Fully Convolutional Network,全卷积网络)结构。如上图所示,CNN部分含有多个blocks,每一个blocks包含三个卷积层,一个池化层,一个resizing(调整网络大小)层,每一个卷积层后面都跟有一个ELU层(exponential linear units,指数线性单元)层和BN(batch normalization,批归一化)层。然后,在每一个block后,resizing层将response maps(将响应图)调整到一个预定义的64x64大小并将response maps连接起来。与ResNet结构相似,旁路连接帮助网络利用不同深度blocks提取到的特征,CNN部分含有两个分支,一个用于估计深度图,一个用于估计特征图
CNN深度图估计分支采用256x256大小尺寸的输入图像,即I∈R256×256I \in {R^{256 \times 256}}I∈R256×256,使用深度图作为监督,采用的公式如下:
ΘD=argmin∑i=1Nd∥CNND(Ii;ΘD)−Di∥12{\Theta _D} = \arg \min \sum\limits_{i = 1}^{
{N_d}} {\left\| {
{\text{CN}}{
{\text{N}}_D}({
{\rm I}_i};{\Theta _D}) - {
{\text{D}}_i}} \right\|_1^2}ΘD=argmini=1∑Nd∥CNND(Ii;ΘD)−Di∥12
DiD_iDi表示第iii张图的“ground truth”,IiI_iIi表示输入的第iii张图,ΘD{\Theta _D}ΘD表示CNN的参数,NdN_dNd表示图片的数量。CNN特征图的输出则将被送入非刚性配准层
RNN Network
RNN部分的目的是估计具有NfN_fNf帧输入序列{ Ij}j=1Nf\left\{ { { {\text{I}}_j}} \right\}_{j = 1}^{ {N_f}}{ Ij}j=1Nf的rPPG信号f\text{f}f,仍然如上图网络结构所示。作者使用带有100个隐藏神经元的LSTM层、全连接层和FFT层。FFT层将全连接层的响应转换为傅里叶域。给定输入序列{ Ij}j=1Nf\left\{ { { {\text{I}}_j}} \right\}_{j = 1}^{ {N_f}}{ <

提出一种结合CNN和RNN的深度学习模型,利用深度图和rPPG信号作为辅助监督信息,提高了人脸反欺骗任务的准确性和泛化能力。
最低0.47元/天 解锁文章

906

被折叠的 条评论
为什么被折叠?



