卷积神经网络用于远程语音识别外文翻译资料

 2021-11-21 23:12:15

英语原文共 5 页

卷积神经网络用于远程语音识别

Pawel Swietojanski, Student Member,IEEE, Arnab Ghoshal,Member,IEEE,and Steve Renals, Fellow, IEEE

摘要

我们研究了卷积神经网络(CNNs)用于大词汇远程语音识别,从单个远程麦克风(SDM)到多个远程麦克风(MDM)记录的语音进行训练。在MDM情况下,我们探索了与直接使用多个声学通道作为CNN的并行输入相比,波束形成信号输入的表示方法,探索了不同的权重共享方法,并提出了一种双向汇集的信道方式卷积。我们在使用AMI会议语料库进行的实验中发现,相较于传统的深度神经网络(DNN),CNNs提高了6.5%的字错误率(WER),而相较于相差训练的高斯混合模型(GMM)基线,提高了15.7%。对于跨频道的CNN训练,相对于比较型DNN结构,WER提高了3.5%。而与最佳波束形成的GMM系统相比,跨频道卷积相对将WER降低了9.7%,并且达到了波束形成DNN的精度。

关键词:AMI语料库,卷积神经网络,深度神经网络,远程语音识别,会议。

  1. 引言

由于混响和竞争声源,远程语音识别(DSR)[1]是一项具有挑战性的任务。 DSR系统可能配置为使用单个远程麦克风(SDM)或多个远程麦克风(MDM)来记录音频数据。在对话语音方面,当前DSR系统的准确性远低于用于近距离语音上,并且通常需要复杂的多通道解码方案和复杂的前端处理技术[2] - [4]。与MDM系统相比,SDM系统通常会导致更高的字错误率(WER)。

深度神经网络(DNN)声学模型[5]扩展了自动语音识别(ASR)声学建模的最新技术,它使用了混合配置方案[6] - [11],其中神经网络用于估计隐马尔可夫模型(HMM)输出概率和后验图的配置[12] - [15],并且神经网络为HMM提供判别特征。 现已经证明,混合神经网络系统可以显著提高会话DSR的准确性[16]。使用混合方法的一个优点是,对比于倒谱域特征,使用频域特征向量了获得了小但是相对的提升。

通过使用局部连通性和权重共享来限制网络架构,卷积神经网络(CNNs)[18]已成功应用于文档识别[19]。当权值共享被限定在时间维度时,网络便被称为时延神经网络,并且已经应用于语音识别[20] - [22]。CNNs已被用于语音检测[23],直接建模于原始语音信号[24],并用于语音识别中的声学建模,其中卷积和池化将在频域中进行[25] - [27]。与基于DNN的声学模型相比,已发现CNNs可以将广播新闻转录的WER平均降低10%[26],[27]。

在这里,我们在多通道DSR的背景下研究CNN的权值共享和池化技术,特别是跨通道池化在跨越多个麦克风下的隐藏表示。我们通过AMI会议语料库中的实验来评估这些方法[28]。

  1. CNN声学模型

上下文相关的DNN-HMM系统使用DNNs将输入声音信号分为对应于HMM绑定状态的类。在训练之后,DNN的输出结果提供了在每个时间t下,给定声学观察值时,对于每个HMM状态s的后验概率的估计值,这可以用于获得给定观察值下的状态s的(缩放的)对数似然性:[6],[8],[29],其中是根据训练数据计算的先验状态概率。

图1. 频域最大池化多通道CNN层(左),具有跨通道最大池(右)的类似层。

  1. 卷积和池化层

通过使用卷积层[19]可以丰富前馈神经网络的结构,允许在整个输入空间中学习和重用局部特征受体。最大池操作符[30]可用于对卷积输出带进行下采样,从而减少隐藏激活的可变性。考虑一个神经网络,它被划分为频带B,其中第b个频带,包含上下文窗口的所有帧中的所有相关系数Z(静态,,,hellip;),其中声学特征向量V由大小为的声学上下文窗口内的滤波器组输出组成。然后第k个隐藏的卷积带,,由具有连续输入带F的权重向量J(滤波器)的线性卷积组成,,其中是滤波器移位。图1给出了具有滤波器大小F=3和移位L=1的这种卷积的示例。这可以扩展到S个声学通道(每个对应于相应的麦克风),然后可以通过对通道求和来计算隐藏激活变量:

, (1)

其中是非线性S形函数,*表示线性有效卷积[1],是第j个滤波器的加权矢量,作用于第s个输入通道的局部输入,是第j个滤波器和第k个卷积带的附加偏差。由于通道包含类似的信息(声学特征会在时间轴上移动),我们推测滤波器权重可以在不同的通道上共享。然而,公式和实现方法兼容每个通道中不同的过滤器重量。类似地,每个卷积带可能具有单独的可学习偏置参数,而不仅仅有在带间共享的偏差[25],[26]。

整个卷积激活层由卷积带组成,卷积带是通过在整个(多通道)输入空间V上应用(共享)滤波器组J而获得的(如图1所示)。在这项工作中,权重与输入空间紧密联系在一起(即每个权重共用相同的过滤器);或者,权重可以被部分共享,仅联系跨越相邻频带的权重[25]。虽然据称有限的权重共享可以改善听筒的分类[25]和小型LVSR任务[32],但最近对大型任务的研究[27]表明,使用足够数量的过滤器进行完全权重共享同样可以很好地发挥作用,同时也更容易实施。

卷积层之后通常是一个池化层,它对激活变量h进行下采样。最大池运算符[33]在一组激活变量R中向前传递最大值。第m个最大池化带由J个相关的滤波器组成。

(2)

其中,, 是一种池化转移,当Nlt;R(在图1中,R=N=3),允许汇集区域之间的重叠。池化层将输出维度从卷积带的维度K减小到池化带的维度,并且得到的层是。

  1. 通道式卷积

多通道卷积(1)构建与LeNet-5模型相类似的特征映射[19],其中每个卷积带由跨越所有输入通道的滤波器的激活变量组成。我们还使用跨通道的最大池构建了特征映射,其中激活变量以通道方式生成,然后通过最大池化(4)以形成单个跨通道卷积带(图1(右)):

(3)

(4)

注意,这里滤波器权重需要跨越通道,使得跨通道最大池(4)对相同特征接收器的激活变量进行操作,使用频率(2)可以进一步最大化所产生的跨通道激活变量。通道方式的卷积也可以被视为二维卷积的特殊情况,其中有效池化区域在频率上确定,但是在时间上变化根据麦克风之间的实际时间延迟确定。

  1. 全连接层

完整的声学模型由一个或多个CNN层组成,随后是多个全连接层,包括最大输出层。对于单个CNN层,网络执行的计算如下:

,其中

, (5)

, (6)

其中是第(l 1)层的输入,当时;是连接权重矩阵,是第l层的附加偏置向量;是一个非线性S形函数,在其输入向量上按元素进行运算; 是输出层的激活变量。

  1. 实验

我们使用AMI会议语料库[28](http://corpus.amiproject.org/),并使用相同的训练和测试配置进行了实验[16]。AMI语料库包括在英国,荷兰和瑞士的三个站点的仪表化会议室中记录的大约100小时的会议。每次会议通常有四个参与者,语言都是英语,虽然有很大比例的人不是以英语为母语。多种麦克风被使用到,包括个人耳机麦克风(IHM),翻领麦克风和一个或多个的麦克风阵列。每一次记录使用到主要的8麦克风均匀圆形阵列(半径10厘米),以及在站点之间几何形状不同的二级阵列。在这项工作中,我们使用主阵列进行MDM实验,并使用主阵列的第一个麦克风进行SDM实验。我们的系统使用语料库版本中推荐的拆分部分进行训练和评估:80小时的训练集,以及9小时的开发和测试集。 我们还使用了AMI语料库注释提供的分段(v1.6)。出于训练的目的,我们考虑了所有片段(包括具有重叠的语音片段),语音识别输出的WER根据NIST RT推荐的同步语音评分工具asclite [34]进行评分(http://nist.gov/speech/tests/rt/2009)。非重叠段的WER也可以由asclite工具使用重叠限制选项生成。在这里,我们仅使用开发集报告结果:开发和测试集都相对较大,我们之前发现,为开发集选择的最佳参数也是评估集的最佳参数[16]。

所有CNN / DNN模型都在40维测井Mel滤波器组(FBANK)特征上进行了训练,这些特征附加了第一次和第二次导数[17],这些导数在帧长Z=11的对称上下文窗口中呈现。我们在这项工作中的远程麦克风系统仍未适应扬声器和会话。将演讲者归于没有划分的片段是不现实的,而对于会话的适应性,训练和评估声学环境之间小的不匹配使得特征空间最大似然线性回归仅部分有效(WER的绝对减少量小于1%)。我们的实验使用Kaldi语音识别工具包[35]和pylearn2机器学习库[36]进行。

我们的实验使用了50,000字的发音字典[4]。使用AMI训练转录本(801k字)估计域内三义语言模型(LM)。这是用另外两个三元组LMs插值的 —— 一个是从Switchboard训练成绩单(3M单词)估算的,另一个来自Fisher英语成绩单(22M单词)[37]。对于LMs的估计使用到了改良的Kneser-Ney平滑算法[38]。LM插值权重如下:AMI转录本(0.73);交换机(0.05); Fisher(0.22)。最终插值LM具有1.6M三字符和1.5M双字节,结果是开发集中出现了78次的错误。

  1. 结果

我们已经使用SDM和MDM输入测试了CNN。 在每种情况下,我们将CNN与两个基线系统进行比较:(1)高斯混合模型(GMM)系统,我们分别使用增强的最大互信息(BMMI)[39]进行有区别的训练,使用线性判别法(LDA)分析处理后的mel频率倒频谱系数(MFCC)的特征,并使用半连接协方差变换(STC)进行去相关操作[40];并且(2)使用具有6个隐藏层的,每层中有2048个单元的[16]深度神经网络(DNN)进行训练,FBANK特征与用于CNNs的方式相同。对于基线DNN系统,我们使用受限制的Boltzmann机器(RBM)预训练[41],但不用于CNN系统。对CNN系统的实验结果说明了该网络由一个单CNN层和后面的5个全连接层组成。CNN超参数如下:滤波器数量,滤波器大小,滤波器移位L=1。

表I

关于AMI开发集-SDM的字错误率(%)

  1. 单远程麦克风。

我们对SDM情况应用了两种CNN方法,其中仅使用来自单个信道的声音。在第一种方法中,每个频带使用相同的偏差项[26](第II-A节),单通道CNN的结果可以在表I中找到。前两行是SDM基线在[16]中说明)[2]。以下三行是使用最大池大小(PS),R=N=1,2,3的CNN的结果。通过使用CNN,我们能够得出,相对于最佳DNN模型的WER减少3.4%,与经过区别训练的GMM-HMM相比,WER相对减少19%。注意,CNN模型的参数总数在这里变化R=N,而在实验过程中,J保持恒定。但是,性能最佳的模型既不是最高的也不是最低数量的参数,这表明它是由最佳的池化设置导致的。

表II

关于AMI开发集-MDM的字错误率(%)

表III

关于AMI开发集-MDM的字错误率(%)

表 IV

采用不同的权重共享和池化技术,关于AMI开发集的字错误率(%)

  1. 多远程麦克风。

对于MDM的情况,我们将延迟和波束形成器与直接使用多个麦克风通道作为网络输入进行了比较。对于波束成形实验,我们使用Wiener滤波器跟踪噪声消除,使用BeamformIt [42]在8个均匀间隔的阵列通道上进行延迟和波束成形的操作。结果在表II中进行了总结,表II的第一部分给出了模型在8个麦克风的波束形成信号上进行训练的情况的结果。前两行显示了[16]中说明的基线GMM和DNN声学模型的WER。以下三行包含具有不同池化大小(PS)R=N=1,2,3具有可比性的CNN结构。最佳模型的WER(池大小R=1,即非最大池)得分为46.3%,相对于最好的DNN网络,WER提高6.4%,与经过有区别训练的GMM-HMM系统相比,WER相对改善16%。

表II的第二部分显示了直接利用多通道特征的模型所得出的WER。第一行是在4个连接通道上训练的基线DNN变体[16]。然后,我们呈现的CNN模型与MDM输入卷积由公式(1)和池大小2计算出来的是最佳的SDM实验结果。与具有级联通道的DNN结构相比,此方案的相对WER降低了1.6%。应用了具有双向汇集的信道方式卷积之后(在第II-B节中概述),该方案带来了相对3.5%WER的进一步增益。此外,通道方式的池化对于多输入通道更加有效:4通道的常规卷积达到50.4%WER,几乎与2通道网络相同,而4通道的通道式卷积达到了49.5%的WER,而2通道的情况则为50.0%。这些结果表明,在进行基于多个麦克风模型的组合时,在通道内选择最佳信息(选择具有最大激活变量的特征受体)是最重要的。

  1. 个人耳机麦克风

我们观察了用于密切谈话语音实验中分别使

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。