英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
通过静态和动态唇形细节上的集成学习来验证视觉说话人
摘要
本文提出了一种新的视觉说话人认证方案,该方案能够提取出说话人嘴唇特征中最具有代表性的细节。对于每一个说话者,特定的提示文本的整个发音会被分解成几个词级段和一个静音段。本文中研究了三种唇形细节,其中包括:1)每个词段的唇动;2)每个词过渡时的唇动;3)在静音段出现唇形。采用了模型自适应的隐马尔可夫模型描述动态细节,采用线性支持向量机对静态细节进行区分。在此基础上,我们提出了一种基于置信度的评价方法来评价说话人与其他说话人在细节上的辨别能力。最后,提出了一种基于判别细节的集成学习结构,并给出了可靠的验证结果。实验结果表明,与传统方法相比,该方法具有更好的性能。
关键词:视觉说话人认证,唇生物计量学,集成学习,隐马尔可夫模型HMM,通用背景模型UBM
介绍
最近的研究表明,唇形和唇动包含大量与身份相关的信息,可以作为一种新的生物特征用于说话人的身份认证[1- 4,6 -10]。嘴唇特征的主要优点有两个,首先,唇特征是双生物特征,具有较高的鉴别能力[2-4]。从不同的唇形和独特的说话习惯可以区分说话者。其次,唇部特征是基于视频的,与语音特征高度相关。因此,它可以很容易地与面部及语音特征相结合,构建一个多生物特征系统,提高安全水平[5]。
在过去的十年中,许多研究者提出了各种方法来利用嘴唇特征进行说话人认证[6-10]。在[6]中,Luettin等人以轮廓点和强度轮廓作为边缘特征,采用连续隐马尔可夫模型( continuous hidden Markov model,CHMM)作为分类器。在其对12位说话人的认证试验中,准确率达到了97.9%。Broun等人将内口信息与几何形状结合作为唇部特征,采用多项式模型作为分类器[7]。在XM2VTS数据集[8]上实现了半总错误率(half total error rate,HTER)达到6.3%。Chan等人[9]提出了局部有序对比模式( Local Ordinal Contrast Pattern,LOCP)特征来描述唇区,并在XM2VTS上实现了一个非常低的半总错误率(HTER)值0.36% 。最近,Liu和Cheung提出了一种多增强的隐马尔可夫模型(HHM)方法来验证可视说话人认证[10]。其不是对整个话语进行处理,而是使用隐马尔可夫模型(HHM)对每个词段进行建模,并使用Adaboost算法来组合每个词级隐马尔可夫模型(HHM)的输出,从而给出最终的决策。
针对现有方法的优缺点,本文提出了一种新的可视说话人认证方案。我们的方法有两个主要贡献。首先,提出了一种同时考虑动态和静态边缘细节的分类方法。该方案首先引入了转词时的唇动,从而推断出说话者在连读时的独特说话习惯。其次,引入了具有模型自适应能力的通用背景模型(Universal background model,UBM),克服了在有限训练样本条件下建立隐马尔可夫模型(HMM)的困难。每个客户三个培训样本。
鉴别性唇特征提取
由于照明条件、说话人与摄像机的距离、头部姿势等方面的巨大差异。,所捕获的唇部图像序列不能直接输入到分类器中。需要进行唇形特征提取,提取的目的是为了表达具有低维特征的唇形和唇动。根据我们之前的工作[11,12],从唇图中提取14点唇模型来表示唇轮廓(如图1所示)。我们的视觉说话人认证方案采用了四种唇形特征,分别是:i)唇形描述符,由归一化等高线点坐标[3]描述;ii)口腔区域[3]的归一化唇纹;iii)等高线点[13]的运动矢量特征;以及整个唇形图像[9]的LOCP特征。一个简短的提取的唇部特征如图1所示。由于篇幅有限,感兴趣的读者可参考[3,9,13]了解唇特征提取的详细步骤。
图1嘴唇特征调查
提出的方法
图2拟议方案的概要
唇部生物特征识别作为一种双生物特征识别,其识别能力主要体现在生理和行为两个方面。生理上,不同的人有不同的嘴唇,静态特征描述嘴唇的外观可以为区分不同类型的嘴唇提供有用的信息。在行为上,不同的人有不同的说话风格或习惯。显然,并不是所有的唇动都具有同样的识别性,说话者独特的说话习惯可能在某些特定的单词或相连的声音中得到更好的反映。因此,针对这些有区别的唇动段,可以提高鉴别性能。
在此基础上,提出了一种可视说话人认证方案。我们的方案示意图如图2所示。使用[10]中的分词方法将整个话语分成几个词级段。然后我们简单地通过检测相邻单词中唇高的局部最大值来提取表示声音链接的词过渡段。词过渡段由前一个词的最后一个局部极大值与后一个词的第一个局部极大值之间的唇形图像组成。最后,从原始唇序列中提取出三种唇细节,分别是词段、词过渡段和静态静音段。
唇瓣亚分类器设计
词和词过渡段包含大量动态的唇动信息,可以推断说话人的说话习惯。第二节中所介绍的四种唇形特征都可以用于生成特征序列。采用连续密度隐马尔可夫模型(HMM)对边缘特征序列进行建模,可以通过底层状态结构很好地模拟连续特征之间的时间相关性。然而,作为一个复杂的模型,隐马尔可夫模型(HHM)甚至不能用有限的训练数据来初始化,例如从3到5个样本[14]。受[15]的启发,采用了通用背景模型(universal background model, UBM)和模型自适应技术。用于建模单词和单词过渡段的HMM-UBM分类器(基于隐马尔可夫模型的通用背景模型a hidden Markov model-Universal background model,HMM-UBM)如下所示。
1 、对于每个片段,为用户和其他几个演讲者(冒名顶替者)收集一些特征序列,形成训练集。用Baum-Welsh算法训练带混合高斯密度的HMM-UBM 。
2、以用户的训练样本获取适应的用户模型。通用背景模型(UBM) 与[15]相似,仅对高斯混合密度的均值向量使用(1)和(2),如下所示。
表示用户的第r个训练序列在t时刻(用表示)处于状态j和混合状态m的概率,表示用户训练序列的均值向量,表示的训练均值向量,表示适应向量,alpha;表示先验知识对适应的权重,R和分别表示训练序列的总数和第r序列的总帧数。然后通过用代替表示,可以得到适应模型。
3 、收集步骤1中相同说话者的更多特征序列(与训练样本不同),构建评价集。通过Viterbi算法计算出基于的评估集中所有样本的输出对数似然。假定用户的错误接受率等于错误拒绝率,计算出其最佳对数似然的阈值。
4 、对于一个未知的测试部分,计算其基于的对数似。按其对数似比的大/小设定分类器的输出为1/0。
对于静态静音段,说话人的嘴通常处于中性闭合状态,只能利用静态信息。除了运动矢量特征外,所有的唇形特征都被用来描述静音段的唇形。采用线性支持向量机[16]对唇形图像是否属于用户进行分类。提出的无声段分类器运行如下。
1 、对于每个片段,为客户和冒名者收集一定数量的样本,形成训练集,并对SVM进行相应的训练。
2 、为客户端和冒名者收集更多的样本,构建评估集,并根据步骤1训练的SVM计算评估样本的输出值。用户的阈值被设置为虚假接受率等于虚假假拒绝率的值。
3 、对于未知的测试片段,利用SVM计算每个唇形图像的唇形特征的输出值。如果样品输出值大于,则该嘴唇图像被划分为积极样品,反之亦然。SVM 如果在静音段有更多的正/负结果,则将分类器的输出设置为1/0。
置信度测量设计
为了评估每一段的判别能力,提出了一种置信量度。由于评价集中样本的分类误差通常很小,很多情况下甚至为零,基于分类误差[10]的置信量度不能很好地评价判别能力。取而代之的是一种类似于费雪线性判别分析(Linear Discriminant Analysis,LDA)的分离方法,计算如下。对于每个片段,计算用户和所有冒名者的分类器分类分数(动态隐马尔可夫模型(HHM)的对数似和静态SVM的输出值)。将用户样本的得分记为,其中N为评价集合中用户样本的个数,记录冒名顶替者样品的N个最大得分(代表最易混淆的样本),记为。分离度计算公式为:
其中, 和分别为SP和SN的平均值和标准偏差。可见,Dis值较大的线段具有较强的鉴别能力,而Dis值为0或负值的线段则具有较小的鉴别能力,甚至会给用户认证带来困惑。通过(4)中的sigmoid函数对Dis进行归一化,得到最终的置信量度CF。
其中,选择改变和来改变sigmoid函数的均值和陡度。
根据第3.1小节中的亚分类器设计和式(4)中的信度计算,最终的认证结果是由所有段的分类输出的总和加上相应的信度值加权得到的。如果加权和大于零,则接受样本,反之则拒绝。。
实验
为了评价所提出的可视说话人认证方案的性能,我们的实验使用了[3]中的数据集。该数据集由40名演讲者(29名男性和11名女性)组成,每个演讲者被要求重复短语“3725”十次。每个话语持续3秒,共90帧,空间分辨率220times;180。
图3 .实验中的speaker认证协议
我们采用了类似于Lausanne protocol[17]的认证协议,其工作原理如图3所示。 i)以用户加其他9个说话者(冒名顶替者)的3个序列(共30个序列)构成训练集,对所有的子分类器进行训练;ii)以用户另外三个序列和9个冒名顶替者的其余样本作为评价集,获得所有子分类器的阈值。计算(4)中的置信度,最终确定的集成分类器如图1所示;iii)用户的其余四个序列和其余说话人的所有序列用于测试集成分类器。采用半总错误率(HTER)来评估认证性能,认证性能由HTER=(FAR FRR)/2计算,其中FAR为假接受率,FRR为假拒绝率。由于在计算半总错误率(HTER)时,测试样本与分类器的设计无关,因此相对于平均错误率(EER)(9,17),这是一种更为合理的估计值。此外,采用了10个随机测试,记录平均平均错误率(EER)/半总错误率(HTER),以减少训练数据的各种选择带来的影响。
每一段的判别功率分析
考虑到我们的提示文本“3725”,每个序列被分为四个词段、三个词过渡段和一个静音段,表1显示了所有调查片段在评估阶段的平均错误率(EER)和测试阶段的半总错误率(HTER)。
表1. 不同部分的辨别力
从表1可以看出,三种片段都包含丰富的身份相关信息。相对而言,词和词的过渡段更具有鉴别性,因为它们包含了唇动学的有用信息。此外,特定群体的辨别力因人而异。例如,“2”-“5”的过渡段对于说话人 2来说很有代表性,但是它对第一个说话人的区别要小得多。因此,利用些有代表性的片段并省略那些令人困惑的片段将提高身份验证的性能。
置信测度的评价
表2显示了使用不同的置信度选择进行集成学习后的最终认证性能。注意,这里只列出了半总错误率(HTER),因为在测试阶段,当所有的模型和阈值都已确定时,会对置信度进行研究。此外,对于我们的置信量度,令当Dis=0时CF=0,因为在这种情况下,各片段是非常不可靠的。因此,可以由直接计算得出,表2中我们只列出了。
表2. 不同置信度选择下的认证性能
从表2可以看出,建议的置信度对不是那么敏感且为了得到最佳性能将设置为5。由于评价集中的平均错误率(EER)在大多数情况下都接近于零,因此[10]中的置信度指标与投票所得的结果相似。此外,在使用置信测度的最佳参数情况下,表3列出了使用各种段组合的身份验证性能。从表3可以看出,这三种片段都是相互区别和互补的。
表3. 各种段组合的身份验证性能
与现有方法的性能比较
对三种最先进的可视说话人认证方法的性能进行的评估,即Cetingul等人[13]、Chan等人[9]以及Liu和Cheung等人[10]采用的方法。从表4可以看出,本文所提出的方案获得了最好的性能,这说明i)相比于分析整个序列[9,13],专注于判别细节更有效;ii)除了[10]中的词段外,词过渡段有助于提高性能;iii)与[10]相比,集成学习中的置信度度量更有效。
表4. 所有方法的性能比较。
结论
本文提出了一种新的说话人认证方案。从原始序列中提取了三种片段。采用基于隐马尔可夫模型的通用背景模型(HMM-UBM)和线性SVM分别对动态段和静态段进行建模。在此基础上,提出了一种基于新置信度的可视说话人认证集成学习结构。实验结果表明,说话人的静态唇形、特定词时的唇动和过渡词时的唇动是可以区分的。此外,与三种最先进的唇形认证方案相比,该方案具有更优的性能。
确认
本工作得到了国家自然科学基金(61271319)的全力支持。
参考文献
[1] Y. F. Liu, C. Y. Lin, and J. M. Guo, “Impact of the Lips for Biometrics,” IEEE Trans. Image Processing, vol. 21-6, pp. 3092- 3101, 2012.
[2] Michal Choras, “The lip as biometric,” Pattern Analysis and Applications, vol. 13-1, pp. 105-112, 2010.
[3] S. L. Wang, and A. W. C. Liew, “Physiological and behavioral lip biometrics: A comprehensive study of their di
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238852],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。