Regularized minimum variance distortionless response-based cepstral features for robust continuous speech recognition
Md Jahangir Alama,b,Patrick Kennyb,Douglas Orsquo;Shaughnessy
a INRS-EMT, University of Quebec, Montreal, Quebec, Canada
b CRIM, Montreal, Quebec, Canada
Received 10 June 2013; received in revised form 8 June 2015; accepted 22 July 2015
Available online 29 July 2015
Abstract
In this paper, we present robust feature extractors that incorporate a regularized minimum variance distortionless response (RMVDR) spectrum estimator instead of the discrete Fourier transform-based direct spectrum estimator, used in many front-ends including the conventional MFCC, to estimate the speech power spectrum. Direct spectrum estimators, e.g., single tapered periodogram, have high variance and they perform poorly under noisy and adverse conditions. To reduce this performance drop we propose to increase the robustness of speech recognition systems by extracting features that are more robust based on the regularized MVDR technique. The RMVDR spectrum estimator has low spectral variance and is robust to mismatch conditions. Based on the RMVDR spectrum estimator,robust acoustic front-ends, namely, are regularized MVDR-based cepstral coefficients (RMCC), robust RMVDR cepstral coefficients(RRMCC) and normalized RMVDR cepstral coefficients (NRMCC). In addition to the RMVDR spectrum estimator,RRMCC and NRMCC also utilize auditory domain spectrum enhancement methods, auditory spectrum enhancement (ASE) and medium duration power bias subtraction (MDPBS) techniques, respectively, to improve the robustness of the feature extraction method.Experimental speech recognition results are conducted on the AURORA-4 large vocabulary continuous speech recognition corpus and performances are compared with the Mel frequency cepstral coefficients (MFCC), perceptual linear prediction (PLP), MVDR spectrum estimator-based MFCC, perceptual MVDR (PMVDR), cochlear filterbank cepstral coefficients (CFCC), power normalized cepstral coefficients (PNCC), ETSI advancement front-end (ETSI-AFE), and the robust feature extractor (RFE) of Alam et al. (2012).Experimental results demonstrate that the proposed robust feature extractors outperformed the other robust front-ends in terms of percentage word error rate on the AURORA-4 large vocabulary continuous speech recognition (LVCSR) task under clean and multi-condition training conditions. In clean training conditions, on average, the RRMCC and NRMCC provide significant reductions in word error rate over the rest of the front-ends. In multi-condition training, the RMCC, RRMCC, and NRMCC perform slightly better in terms of the average word error rate than the rest of the front-ends used in this work.
1. Introduction
Mel-frequency cepstral coefficients (MFCC) Davis and Mermelstein (1980), which have proven to be one of the most effective feature sets for speech and speaker recognition tasks, are frequently used as a low-dimensional set of features to represent short-time speech signals. MFCC are usually computed by integrating a triangular-shaped Mel-scaled filterbank (MelFB) either to the DFT-based short-time spectrum or to the linear predictive coding (LPC)-based spectrum. MFCC and perceptual linear prediction (PLP) Hermansky (1990)-based speech recognizers perform well under matched training/test conditions but the performance gap between automatic speech recognizers (ASRs) and human listeners in real world settings is significant (Huang et al., 2001; Orsquo;Shaughnessy, 2000). Different operating conditions during signal acquisition (e.g., channel response, handset type, additive background noise, reverberation, etc.) lead to feature mismatch across training and testing and thereby degrade the performance of MFCC (and PLP)-based speech recognition systems. To tackle this problem, various robust feature extractors are employed in speech recognition tasks, such as the ETSI advanced front-end (ETSI-AFE) (ETSI ES 202 050, 2003), power normalized cepstral coefficients (PNCC) (Kim and Stern, 2010), and the robust feature extractors proposed in Alam et al. (2012, 2013a, 2014b), van Hout and Alwan (2012), Mitra et al. (2012), Chiu et al. (2012), etc. In MFCC (Davis and Mermelstein, 1980) and PLP (Hermansky, 1990) front-ends, and in most of the robust feature extractors the features are computed from a windowed (e.g., Hamming) direct spectrum estimate (the squared magnitude of the Fourier transform of the short-time windowed observed signal) that has a high spectral variance. The variances of these features are greatly influenced by the variances of the spectral estimates of the observed speech signal. Variance in the feature vectors has a direct bearing to the variance of Gaussians modeling the speech classes. Reduction in the variance of the feature vector increases class separability and improved class separability can potentially increase recognition accuracy and decrease search speed (Dharanipragada and Rao, 2001). Although direct spectrum estimators (also known as non-parametric spectrum estimators) are entirely independent of data and therefore do not suffer from problems arising from modeling deficiencies, these methods are not robust to noise and hence they perform poorly under mismatched training/test conditions. Among the parametric spectrum estimators, the linear predictive coding (LPC) based all-pole spectrum estimator is most widely used (Capon, 1969). It has been noted in speech modeling literature that the LP-based all-pole models do not provide good models of the spectral envelope for medium and high pitch voiced speech (Dharanipragada and Rao, 2001). Also, the LP-based cepstra are known to be very sensitive to noise. They tend to overestimate or overemphasize sparsely spaced harmonic peaks (Wolfel et al., 2009). The standard feature extractors used for speech recognition are based on either DFT, e.g., M
基于规范化最小方差无失真响应倒谱特征的稳健连续语音识别
Md Jahangir Alama,b,Patrick Kennyb,Douglas Orsquo;Shaughnessy
a INRS-EMT, University of Quebec, Montreal, Quebec, Canada
b CRIM, Montreal, Quebec, Canada
Received 10 June 2013; received in revised form 8 June 2015; accepted 22 July 2015
Available online 29 July 2015
摘要
在本文中,我们提出了强大的特征提取器,它包含一个正则化的最小方差无失真响应(RMVDR)频谱估计器,而不是基于离散傅里叶变换的直接频谱估计器,用于许多前端,包括传统的MFCC,用于估计语音功率光谱。直接频谱估计器,例如单锥形周期图,具有高方差,并且它们在嘈杂和不利条件下表现不佳。为了降低性能下降,我们建议通过基于正则化MVDR技术提取更稳健的特征来提高语音识别系统的稳健性。RMVDR频谱估计器具有低频谱方差,并且对于不匹配条件是稳健的。基于RMVDR频谱估计器,稳健声学前端,即基于MVDR的正规系数(RMCC),稳健RMVDR倒谱系数(RRMCC)和归一化RMVDR倒谱系数(NRMCC)。除RMVDR频谱估计外,RRMCC和NRMCC还分别利用听觉域频谱增强方法,听觉频谱增强(ASE)和中等持续时间功率偏差减法(MDPBS)技术来提高特征提取方法的稳健性。实验语音在AURORA-4大词汇量连续语音识别语料库上进行识别结果,并将性能与Mel频率倒频谱系数(MFCC),感知线性预测(PLP),基于MVDR谱估计的MFCC,感知MVDR(PMVDR),耳蜗进行比较。滤波器组倒谱系数(CFCC),功率归一化倒谱系数(PNCC),ETSI推进前端(ETSI-AFE),以及Alam等人的稳健特征提取器(RFE)。实验结果表明,在清洁和多条件训练条件下,AURORA-4大词汇量连续语音识别(LVCSR)任务中所提出的稳健特征提取器在百分比字错误率方面优于其他稳健特征提取器。在干净的培训条件下,RRMCC和NRMCC平均可以显着降低其他前端的字错误率。在多条件训练中,RMCC,RRMCC和NRMCC在平均字错误率方面的表现略好于本工作中使用的其他前端。
1. 介绍
Mel频率倒谱系数(MFCC)已被证明是语音和说话人识别任务中最有效的特征集之一,它经常被用作表示短时间的低维特征集语音信号。MFCC通常通过将三角形Mel缩放滤波器组(MelFB)整合到基于DFT的短时频谱或基于线性预测编码(LPC)的频谱来计算。MFCC和感知线性预测(PLP)基于Hermansky(1990)的语音识别器在匹配的训练/测试条件下表现良好,但在现实世界环境中自动语音识别器(ASR)和人类听众之间的性能差异很大(Huang等, 2001;O#39;Shaughnessy,2000)。信号获取期间的不同操作条件(例如,信道响应,手机类型,附加背景噪声,混响等)导致训练和测试之间的特征不匹配,从而降低基于MFCC(和PLP)的语音识别系统的性能。为了解决这个问题,各种强大的特征提取器被用于语音识别任务,例如ETSI高级前端(ETSI-AFE)(ETSI ES 202 050,2003),功率归一化倒频谱系数(PNCC)(Kim和Stern, 2010),以及Alam等人提出的强大的特征提取器。 (2012,2013a,2014b),van Hout和Alwan(2012),Mitra等。在MFCC(Davis和Mermelstein,1980)和PLP(Hermansky,1990)前端,并且在大多数强大的特征提取器中,特征是从窗口(例如,汉明)直接频谱估计计算的(具有高频谱方差的短时窗口观测信号的傅立叶变换的平方幅度。这些特征受观察到的语音信号的频谱估计的变化的影响很大。特征向量的方差直接影响高斯人对语音类别建模的方差。减少特征向量的方差会增加类别可分性,并且改进的类别可分性可能会提高识别准确度并降低搜索速度(Dharanipragada和Rao,2001)。尽管直接频谱估计器(也称为非参数频谱估计器)完全独立于数据,因此不会遇到由建模缺陷引起的问题,但这些方法对噪声不稳健,因此它们在不匹配的训练/测试条件下表现不佳。在参数频谱估中,基于线性预测编码(LPC)的全极点频谱估计器被最广泛地使用(Capon,1969)。在语音建模文献中已经注意到,基于LP的全极点模型不能为中高音调语音提供良好的频谱包络模型(Dharanipragada和Rao,2001)。此外,已知基于LP的cepstra对噪声非常敏感。它们倾向于过高估计或过分强调稀疏的谐波峰(Wolfel等,2009)。用于语音识别的标准特征提取器基于DFT,例如MFCC或线性预测,例如PLP。 MFCC特征提取器不稳固,因此在嘈杂和不利条件下表现出差的性能。另一方面,PLP前端不适合可靠地估计语音信号的频谱,这对于使用线性预测包络的所有方法都是如此(Wolfel等,2009)。为了克服与线性预测相关的问题,即在浊音语音谐波处的频谱功率的过度估计,在Murthi和Rao(2000)中提出了MVDR方法。对于语音的所有极点建模,它也被称为Capon的方法(Capon,1969)。在本文中,我们建议将一个正则化的最小方差无失真响应(RMVDR)频谱估计器,代替基于DFT的直接频谱估计器,并入传统上使用的特征提取框架,例如MFCC,用于语音识别任务。基于RMVDR频谱估计方法,我们还提出了稳健特征提取器,称为稳健正则化MVDR倒谱系数(RRMCC)和归一化RMVDR倒谱系数(NRMCC),包括使用S形听觉域频谱增强(ASE)(Alam et al分别为中等功率偏差减法(Kim和Stern,2010)技术,以改善语音识别系统在不利条件下的稳健性,同时在匹配的列车/测试条件下几乎没有性能降低。 RMVDR频谱估计器的优点是:(a)它克服了线性预测频谱估计中明显的问题。(b)正则化参数有助于惩罚全极谱包络的快速变化,从而产生平滑的光谱而不影响共振峰位置,它提供了强大的频谱估计.
2. 背景光谱分析
频谱估计可以松散地定义为自动确定信号的频率内容的任何过程。 频谱分析的应用包括语音分析,音乐分析,通信,雷达,声纳和实验科学。 谱估计分为参数和非参数(或直接)。 基于离散傅立叶变换(DFT)的周期图是非参数(或直接)频谱估计的示例,并且基于LPC的频谱估计器是参数方法。
2.1. 基于DFT和LP的频谱估计器
MFCC(和PLP)特征是根据给定的基于离散傅里叶变换(DFT)的窗口周期图估计来计算的
(1)
其中f表示离散频率索引,N是帧的长度,j是样本索引,s(j)是时域语音信号,w(j)表示时域窗口函数,例如汉明窗。
2.2. MVDR频谱估计
由此引入的最小方差无失真响应(MVDR)频谱估计主要用于阵列信号处理应用,并且还涉及其他应用,例如辅助建模,强健语音识别和说话人识别系统。 MVDR方法定义了一种滤波器,该滤波器使信号在感兴趣的频率处不失真,同时以最佳方式抑制其他频率。 MVDR频谱由下式给出:
(2)
模型阶数p对应于自相关矩阵中的最大相关滞后。式。表明在MVDR中,通过在最佳约束滤波器的输出处对几个样本求平均数来获得功率。该平均数导致谱估计器方差的减小。可以找到关于MVDR谱估计器的偏差和方差减小的更详细描述。 MVDR光谱与非参数滤波器组光谱分析方法具有亲和力。在基于DFT的频谱分析方法的滤波器组解释中,任何给定频率的频谱可以被视为带通滤波器输出处的功率。在这种情况下,带通滤波器组是数据无关的,并且其特性由分析窗口的长度和选择来定义,沿着等间隔的频率网格布置。而且,各个滤波器的频率特性使得它们之间也是频率无关的。与基于DFT的方法类似,MVDR谱估计可以在概念上被视为一组滤波器的输出,每个滤波器以一个分析频率为中心。然而,与基于DFT的方法相比,MVDR组的带通滤波器依赖于数据和频率,并且由信号自相关矩阵R捕获的信息出现在等式1中的MVDR频谱的定义中。
3. 正则化MVDR(RMVDR)频谱估计
基于LP的语音信号的全极点频谱包络估计通常表现出不自然的尖峰,特别是对于具有高音调频率的扬声器(Murthi和Rao,2000; Ekman等,2007)。LP方法无法将短期依赖性(包络)与长期依赖性(音调)分开,并且所得到的包络被谐波污染。这些尖峰频谱包络可能会导致语音修改出现问题(Ekman等,2007)。由于MVDR频谱估计的固有平滑特性,使用LP系数获得的MVDR频谱估计具有比LP频谱估计更少的快速变化,但是MVDR估计可能仍然受到影响。在Murthi和Kleijn(2000)和Ekman等人。(2007)将正则化引入到LP方法的目标函数中,以惩罚频谱包络的快速变化,这有助于改善对全极点频谱包络的估计。对于稳健和改进的频谱估计,在本文中,我们建议从正则化LP(RLP)系数计算MVDR频谱估计。图1和图2给出了(a)干净语音的帧的估计频谱的比较,以及(b)由各种频谱估计获得的带噪声的语音(在0dB的信噪比下被嘈杂噪声破坏)的信号的比较在本文中描述。图1和图2表明,与基于DFT和LP的频谱估计相比,MVDR和RMVDR都提供了稳健的频谱估计。与LP和MVDR方法相比,RMVDR提供平滑的光谱峰值。LP和MVDR频谱估计相比,RMVDR方法提供了平滑的频谱估计,因此导致频谱方差减小。提供了由MVDR和RMVDR频谱估计获得的估计短期运行频谱(语音的所有帧(元音/ ae /)信号,帧索引从左到右和从上到下增加)的比较。从该图中可以看出,RMVDR提供了比MVDR频谱估计更好和平滑的频谱估计。
4. 基于MVDR(RMVDR)的稳健前端
除了基于RMVDR的倒谱系数特征(称为RMCC)之外,我们还提出了两个稳健的特征提取器,即稳健的RMVDR倒谱系数(RRMCC)和归一化的RMVDR倒谱系数(NRMCC)。这些前端包含听觉域增强的方法以增强语音频谱。常规MFCC和PLP特征提取过程的各个步骤。这里,我们使用HTK版本的PLP(Young et al。,2006),其中,代替Bark标度滤波器组,Mel标度滤波器组用于语音频谱的听觉频率分析。RMCC和MFCC特征提取过程之间的唯一区别在于频谱估计。MFCC特征是从基于DFT的直接频谱估计计算的,而在RMCC提取方法中,RMVDR频谱估计器用于估算语音功率谱。所提出的基于RMVDR的稳健特征提取器RRMCC和NRMCC的组合框。仅属于RRMCC或NRMCC特征提取过程的阶段由虚线包围。
图1.当语音信号是(a)干净,(b)被0破坏时,使用各种频谱估计器获得的语音信号帧(发出元音音素/ ae /的女性说话者)的估计语音频谱的比较 dB嘈杂声。 为了更好的可视化,每个图中的光谱都已移动。 使用的模型阶数是p = 100.用于正则化MVDR(RMVDR)估计器的正则化参数k的值是109(Capon,1969; Wolfel等人,2009)。
并且,当连接点1和3时,获得NRMCC特征。 两个前端的特征由RMVDR频谱估计计算。 在以下小节中,我们提供了所提出的强大前端的详细描述。
5. 结论评估
AURORA-4(Parihar等,2004)连续语音识别语料库来自华尔街日报(WSJ0)语料库。它分为3组,即训练(清洁条件和多条件训练数据),开发(开发测试)和评估(评估或测试)组。该任务通常被称为5k闭合词汇任务,即,评估集中没有词典外词(OOV)。该训练集包含来自83个发言者的7138个话语,总共14小时的语音数据。多条件训练集包含7138个话语。一半的话语用主Sennheiser麦克风录制,另一半用几个不同的辅助麦克风录制。两个部分包括干净的语音和语音的组合,被六种不同的噪音之一腐蚀 - 街道交通,火车站,汽车,潺潺声,餐馆,机场,信噪比为10-20 dB。定义了14个评估集,以研究由麦克风条件,滤波和噪声环境引起的语音识别性能的下降。选择用Sennheiser麦克风和辅助麦克风记录的评估集的每个滤波版本以形成两个评估集。剩余的12个子集是通过随机选择6种噪声类型(汽车,潺潺声,餐馆,街道交通,机场和火车站噪声)中的每一种来定义的,每个麦克风类型的随机选择SNR在5到15 dB之间。上文提到的。目标是使6种噪声类型和SNR中的每一种具有相等的分布,平均SNR为10 dB(Parihar等,2004)
对于AURORA-4语料库上的连续语音识别任务,所有实验都使用状态相关的填字游戏独立三音素声学模型,每个状态具有16个高斯混合。使用基于单通道维特比波束搜索的解码器以及具有250的剪枝宽度的标准5K词典和双字母语言模型(Parihar等人,2004; Au Yeung和Siu,2004)。对于我们的实验,我们使用13个倒谱特征(包括第0个倒谱系数)增加了它们的delta和double delta系数,从而产生了39维特征向量。分析帧长度为25 ms,帧移位为10 ms。使用具有5帧窗口的回归公式计算delta和double delta特征。本文考虑的所有前端(包括所提出的方法)都将特征归一化作为后处理方案。 MFCC(Davis和Mermelstein,1980),PLP(Hermansky,1990),MVDR(Dharanipragada和Rao,2001),PMVDR(Yapanel和Hansen,2008),以及基于RMVDR的倒谱系数(RMCC)前端使用常规基于全话语的均值和方差(MVN) - 归一化。在CFCC(Li
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。