英语原文共 29 页,剩余内容已隐藏,支付完成后下载完整资料
与文本无关的说话人识别概述:从特征到超向量
Tomi Kinnunen a,*, Haizhou Li b
a 约恩苏大学计算机科学与统计系,语音和图像处理单元,芬兰约恩苏 80101 邮箱 111
b 信息通信研究所(I2 R)人类语言技术系,1 Fusionopolis Way,#21-01 Connexis,南塔,新加坡 138632,新加坡
2008 年 11 月 4 日收到;2009 年 7 月 1 日收到修订本;2009 年 8 月 20 日接受
摘 要
本文概述了自动说话人识别技术,重点是与文本无关的识别。说话人识别已被积极研究了几十年。我们概述了经典方法和最新技术。我们从自动说话人识别的基础开始,涉及特征提取和说话人建模。我们精心设计了先进的计算技术来解决鲁棒性和会话可变性。
从向量到超向量的最新进展开辟了一个新的探索领域,并代表了一种技术趋势。我们还提供了这一最新进展的概述,并讨论了说话人识别系统的评估方法。最后,我们讨论了未来的发展方向。
copy; 2009 Elsevier BV 保留所有权利。
关键词:说话人识别;文本独立特征提取;统计模型;判别模型;超向量休会期间可变性补偿
1. 介绍
说话者识别是指从语音中识别人。没有两个人听起来相同,因为他们的声道形状,喉头大小以及他们的声音产 生器官的其他部分都不同。除了这些身体上的差异外,每个说话者都有自己独特的说话方式,包括使用特定的口音。节奏,语调,发音模式,词汇选择等。最新的说话人识别 系统并行使用许多这些功能,试图涵盖这些不同方面,并以互补的方式使用它们以实现更准确的识别。
说话人识别技术的重要应用是取证。两方之间在电话交谈中(包括在罪犯之间)交换了大量信息,近年来,人们越来越有兴趣集成自动说话人识别功能,以补充听觉和 半自动分析方法(Alexander 等,2004;冈萨雷斯-罗德里格斯 et al., 2003;Niemi-Laitinen et al., 2005;普菲 斯 特 ( Pfister ) 和 比 特 勒 ( Beutler )2003;Thiruvaran 等,2008b). 说话者识别技术不仅会为法医分析人员,而且也将使 普通人受益。已经预料到,具有集成语音识别,说话者识别和语言识别的基于电话的服务将来将补充甚至取代人工操作的电话服务。一个示例是通过电话自动重置密码。1 此类自动服务的优势显而易见-与之相比,容量要大得多人工服务,同时处理数百或数千个电话。实际上,多年来,说话人识别研究的重点一直放在这种基于电话的应用程序 上。 除了电话语音数据之外,其他语音文档(例如电视广播,电话会议和度假视频剪辑)的供应也在不断增加。从这些文档中提取诸如讨论主题或参与者名称和性别之类的元数据将使自动信息搜索和索引编制成为可能。说话人二元化(特兰特和雷诺兹 2006),也称为“何时说话”,试图从语音文档中提取不同参与者的语音转弯,并且是“经典”说 话人识别技术的扩展,适用于与多个说话者进行录音的情 况。在取证和说话人区分中,由于不想明确承认说话人,因此可以认为他们不合作。另一方面,在基于电话的服务和访问控制中,用户被认为是合作的。另一方面,说话人识别系统可以分为与文本相关的系统和与文本无关的系统。
在依赖文本的系统中(赫伯特,2008 年)(适合合作用 户使用),识别短语是固定的,或者是事先已知的。例如,可以提示用户读取随机选择的数字序列,如(希金斯(Higgins)等人,1991 年).在独立于文本的系统中,对允许说话者使用的单词没有任何限制。因此,参考话语(在培训中要说的话)和测试话语(在实际使用中要说的 话)的内容可能完全不同,识别系统必须考虑到这种语音上的不匹配。与文本无关的识别是两项任务中更具挑战性的。通常,语音变异性是与文本无关的说话人识别准确性的一个不利因素。声学环境和技术因素(换能器,通道)的变化,以及“扬声器内”的变化 说话者自身的状况(健康状况,情绪,衰老)代表其他不 良因素。通常,同一位发言人的两次录音之间的任何变化 都称为会话变化性(肯尼(Kenny)等人,2007 年;Vogt 和 Sridha- 跑了,2008 年).会话可变性通常被描述为训 练和测试条件不匹配,并且仍然是说话人识别中最具挑战性的问题。
本文概述了说话人识别技术,包括从 1980 年代至今的 一些代表性技术。此外,我们重点介绍了最近的技术,这 些技术已呈现出从基于矢量的传统说话人模型到所谓的超 矢量模型的范式转变。本文将为想要开始说话人识别研究 的人提供研究问题及其解决方案的快速概述。这篇论文对 于语音科学家来说也可能是有用的,以了解该领域的当前 趋势。我们假设熟悉数字信号处理和模式识别的基础。 我们认识到,经过 40 多年的积极研究,对该领域进行 全面的审查具有挑战性。因此,对于感兴趣的读者,我们 指向其他有用的调查。坎贝尔的教程(坎贝尔,1997 年)包括对特征选择和随机建模的深入讨论。可以在()中找到更新的概述,其中对归一化方法和说话人识别应用进行了有益的讨论。Bimbot 等,2004).有关说话人分类各个方面的书籍章节的最新集合,也可以在(Muller,2007a;Muller, 2007b).有关基于文本的识别的概述,请参阅(赫伯特,2008 年). 部分 2 提供说话人识别的基础。栏目 3 和 4 然后阐述 特征提取和说话人建模原理。部分 5 描述了针对现实噪声 和会话不匹配条件的可靠方法,重点是功能和评分标准化。部分 6 然后专门讨论当前的超向量分类器及其会话补偿。在节中 7,我们讨论了说话人识别性能的评估,并提供了 指向软件包的指导。最后,本节概述了该领域的未来前景 8,然后是本节中的结论
2. 基本原理
上面是注册过程,下面的面板说明了识别过程。特征提取模块首先将原始信号转换为特征向量,在特征向量中强调特定于说话者的属性并抑制统计冗余。在注册模式下,使用目标演讲者的特征向量训练演讲者模型。在识别模式下,将从未知言语中提取的特征向量与系统数据库中的模型进行比较,以给出相似度评分。决策模块使用此相似性分数做出最终决策。几乎所有最先进的说话人识别系统都以一组或另一种形式使用一组背景说话人或同类说话人,以增强识别器的鲁棒性和计算效率。在注册阶段,将背景演讲者用作判别模型训练中的负面示例(坎贝尔(Campbell)等人,2006a),或在训练通用背景模型(根据该模型改编目标说话者模型)后(雷诺兹 等,2000).在识别阶段,背景说话者用于对说话者匹配分数进行归一化(Furui, 1997;Higgins et al。,1991。李和波特,1988;雷诺(Reynolds),1995 年;Reynolds 等,2000;西瓦库马兰 等,2003b).
2.1. 功能选择
语音信号包括许多功能,但并非所有功能对于说话人的辨别都很重要。理想的功能是罗斯,2002 年;狼,1972 年)典型的自动说话人识别系统的组件。在注册模式下,将使用先前创建的背景模型创建说话者模型;在识别模式下,假设模型和背景模型都匹配,并且背景得分用于标准化原始得分。
功能的数量也应该相对较少。传统的统计模型,例如高斯混合模型(Reynolds 等,2000;雷诺和罗斯,1995年)无法处理高维数据。可靠的密度估计所需的训练样本
的数量与特征的数量成指数增长。这个问题被称为维数的诅咒(in 那教 等,2000).对于低维特征,计算上的节省也是显而易见的。有多种方法可以对功能进行分类(图 2).从其物理解释 的角度来看,我们可以将它们分为(1)短期频谱特征,(2)语音源特征,(3)频谱时态特征,(4)韵律特征和(5)高级特征。顾名思义,短期频谱特征是根据持续时间约 20-30 ms 的短帧计算得出的。它们通常是短期频谱的描述 包络线是音色的声学关联,即声音的“颜色”,以及咽上声道 的共鸣特性,声源又表征了声源(声门流)。时态特征跨越 数十或数百
从物理解释的角度对特征进行汇总。功能的选择必须基于它们的区分性,健壮性和实用性。短期频谱特征是最简单但最具判别力的特征。韵律韵律和高级功能以高昂的计算成本受到了广泛关注。毫秒,包括语调和节奏。最后,高级功能试图捕获说话 者的对话级特征,例如单词的特征性使用(“嗯”,“您知道”,“哦是”等)(多丁顿,2001 年). 应该使用哪些功能这取决于预期的应用程序,计算 资源,可用的语音数据量(用于开发目的和运行时)以及 说话者是否合作。对于想开始研究说话人识别的人,我们 建议从短期频谱特征入手,因为它们易于计算并产生良好 的性能(雷诺兹等人,2003 年).韵律和高级功能被认为 具有更强的鲁棒性,但区别性较小,更易于模仿。例如, 众所周知,专业模仿者往往会朝着模仿的扬声器修改整体 音高轮廓(Ashour 和 Gath,1999 年; 北村,2008).高级 功能还需要更复杂前端,例如自动语音 识别器。总而言之,全球尚不存在“最佳”功能,但选择是在 说话者辨别力,健壮性和实用性之间进行权衡。
2.2. 演讲者造型
通过使用从给定的语音训练话语中提取的特征向量,可以对说话者模型进行训练并将其存储到系统数据库中。在依赖文本的模式下,模型是特定于发声的,并且包括特征向量之间的时间依赖性。与文本相关的说话者验证和语音识别确实共享模式匹配过程的相似之处,也可以将它们组合在一起(BenZeghiba 和 Bourland,2003 年; 赫克与格努德(2002)). 在与文本无关的模式下,我们经常对特征分布(即 “特征云”的形状而不是与时间的相关性)进行建模。请 注意,在与文本相关的识别中,我们可以在时间上对齐测试和训练发音,因为它们包含(被假定为包含)相同的音素序列。但是,在独立于文本的识别中,由于测试中的帧与参考话语之间几乎没有或完全没有对应关系,因此无法在帧级别进行对齐。因此,将信号分为电话或广泛的语音类别可以用作预处理步骤,或者可以将扬声器模型进行语音构造。已经在(Faltlha- 用户和 Ruske,2001;Hansen 等,2004;古普塔和 Savic,1992 年;Heacute;bert 和 Heck,2003 年;朴和禅 2002;卡亚雷卡和赫曼 斯基,2001 年).也可以使用数据驱动单位代替严格的语 言音素作为细分单位(Hannani 等,2004). 古典扬声器模型可以分为模板模型和随机模型(坎贝 尔,1997 年),也分别称为非参数模型和非参数模型。在模板模型中,将训练和测试特征向量直接相互比较,并 假设其中一个是另一个的不完美副本。它们之间的失真程 度代表了它们的相似程度。矢量量化(VQ)(Soong 等, 1987)和动态时间规整(DTW)(古井 1981)分别是用于文本无关和文本相关识别的模板模型的代表示例。在随机模型中,每个说话者都被建模为具有未知但固定概率密度函数的概率源。训练阶段是从训练样本估计概率密度函数的参数。通常通过评估相对于模型的测试发声的可能性来进行匹配。高斯混合模型(GMM)(雷诺和罗斯, 1995;雷诺兹等人,2000 年)和隐马尔可夫模型 (HMM)(BenZeghiba 和 Bourland,2006 年;Naik 等,1989)分别是最不受文本识别和依赖文本的识别模型。根据训练范例,模型也可以分为生成模型和判别模型。生成模型(例如 GMM 和 VQ)估计每个说话者内的特征分布。区分模型,例如人工神经网络(ANN)(Farrell etal。,1994; Norman 等,1994。 Heck et al。,2000;Hack 等,2000。Yegnanarayana 和 Kishore,2002 年)和 支持向量机(SVM)(Campbell 等,2006a),相反,对 扬声器之间的边界进行建模。有关更多讨论,请参(Ramachandran 等,2002). 总之,扬声器的特征在于扬声器模型,例如 VQ,GMM 或 SVM。在运行时,未知声音首先由特征向量或超向量的 集合表示-多个向量的串联,然后针对目标说话者模型进 行评估。
3. 特征提取
3.1. 短期光谱特征
语音信号由于关节运动而不断变化,因此,必须在持续时间约 20-30 ms 的短帧中将其分解。在此间隔内,假定信号保持稳定,并从每个帧中提取频谱特征向量。通常,在进一步的步骤之前,先对帧进行预强调并乘 以平滑的窗口函数。预加重会增强高频,由于声门音源引起的频谱向下倾斜,强度会非常低(哈灵顿和卡西迪,1999, p. 168).另一方面,由于离散傅里叶变换(DFT)的有限长度效应,需要窗口函数(通常是汉明)。有关详细信息,请参阅(哈里斯,1978 年;Deller et al。, 2000; Dell 等,2000。Oppenheim 等, 1999).实际上, 窗口功能的选择并不重要。尽管帧长通常是固定的,但也 已研究了音高同步分析(Nakasone 等, 2004;Zilca 等人,2006 年;Gong 等,2008).(中的实验 Nakasone 等,2004; Zilca 等,2006)表示此技术会降低识别准确性,而(Gong 等,2008)在嘈杂的条件下获得了一些改善。还研究了与音高有关的扬声器模型(Arcienega et al., 2001;Ezzaidi 等,2001). 众所周知的快速傅立叶变换(FFT)是 DFT 的一种快速 实现,它可以将信号分解为频率分量(Oppenheim )等,
1999).文献中已经研究了基于 FFT 的信号分解的替代方法, 例如非谐波基,非周期性函数和源自独立成分分析(ICA) 的 数 据 驱 动 基 ( Gopalan et al., 1999;Imperl 等 , 1997;Jang
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[607588],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。