英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
双向LSTM网络,用于改进音素分类和识别
摘要:在本文中,我们使用双向和单向长短时间记忆(LSTM)网络在TIMIT语音产品上进行了两个实验。在第一个实验(逐帧音素分类)中,我们发现双向LSTM优于单向LST和常规的递归神经网络(RNN)。在第二个(音素识别)中,我们发现混合BLSTM-HMM系统在等效的传统HMM系统以及单向LSTM-HMM基础上进行了改进。
1 介绍
因为人类发音系统将相邻的声音模糊在一起,以便快速、顺畅地生成它们(被称为共发音的过程),所以上下文信息对于语音处理中的许多任务很重要。例如,在对语音数据帧进行分类时,有助于查看其后以及之前的帧,尤其是当它出现在单词或句段末尾时。通常,递归神经网络(RNN)非常适合此类任务,而上下文影响的范围是事先未知的。但是它们确实有一些局限性:首先,由于它们按时间顺序处理输入,因此它们的输出通常主要基于先前的上下文;其次,它们在学习时间相关性方面的困难超过了几个时间步长。双向网络为第一个问题提供了一种优雅的解决方案。在此模型中,输入将向前和向后呈现到两个单独的递归网络,这两个递归网络都连接到同一输出层,对于第二个问题,一种替代的RNN架构LSTM已经被证明能够学习长时间的依赖关系。
在本文中,我们扩展了以前在双向LSTM(SLSTM)上的工作进行逐帧音素分类和音素识别的实验。对于音素识别,我们使用了混合方法,在迭代训练过程中结合隐马尔可夫模型(HMM)和RNN。这使我们可以深入了解双向训练对语音识别的可能影响,还可以使我们直接将结果与传统HMM系统进行比较。
2 LSTM
LSTM使一种RNN架构,旨在处理长时间的依赖关系。它是通过对现有RNN中的错误流进行分析得出的,发现现有架构无法解决长时间的滞后问题,因为反向传播的误差会急剧增加或呈指数级的衰减。
LSTM隐藏层由一组循环连接的块(称为存储块)组成。这些块可以被认为是数字计算机中存储芯片的不同版本。它们每个否=都包含一个或多个循环连接的存储单元以及三个乘法单元(输入、输出和忘记门),它们为单元提供连续的写、读和复位操作模拟。更准确的说是单元的输入乘以输入门的激活,网络的输出乘以输出门,而先前的单元值乘以忘记门。网络只能通过门与单元交互。
双向LSTM需要对原始LSTM训练算法进行一些修改。看获取完整的详细信息和伪代码。
3 混合LSTM-HMM音素识别
混合人工神经网络(ANN)/HMM系统在文献中有大量文献记载(例如参见[3])。一方面,混合方法得益于在统一的数学框架中将神经网络用作声学概率的估计器,另一方面得益于对高级语言知识的访问。
HMM的参数通常是由维特比(Viterbi)训练估算的,它还提供了新的目标(以语言信号的新分段形式)来重新训练网络。重复此过程,知道收敛为止。另外,Bourlard等开发了一种算法迭代的增加单词序列的整体后验概率。
在本文中,我们实现了基于维特比(Viterbi)训练的LSTM/HMM混合系统,将其与传统的HMM进行音素识别。
4 实验
所有实验均在TIMIT数据库上进行。TIMIT包含提示英语的句子以及完整的语音记录。它由61种不同音素的词典。训练集和测试集分别包含4620和1680个发声。对于所有实验,我们都使用5%(184)的训练话语作为验证集,并对其余部分进行训练。
我们使用来自26个滤波器组通道的12个Mel频率倒谱系数(MFCC)将多有音频数据预处理为帧。我们还提取了对数能量及其对数和其他系数的一阶导数,得出每帧总共26个系数的向量。
4.1实验一:逐帧音素分类
我们第一个实验任务是将语音数据帧分类为音素。目标是随数据提供的手工标记的转录,
目标
双向输出
仅正向网
仅反向网
1 到 5
图一.双向LSTM网将Numbers95 corpus中的发音分类为“ 1 到 5”。不同的线表示不同输出节点的激活(或目标)。双向输出将正向和反向子网的预测结合在一起。它与目标紧密匹配,表明分类准确。要查看子网如何协同工作,请分别绘制其对输出的贡献(“仅正向网络”和“仅反向网络”)。正如我们所期望,正向网更为准确。但是,在某些地方,其替换项(w),插入项(ow的开头)和删除项(f)都可以通过反向网进行校正。此外,两者都需要准确定位音素边界,而反向网络趋向于寻找起点,而正向网则倾向于寻找终点(“ay”就是一个很好的例子),并且记录的分数是训练和测试集中帧的百分比,这些帧的输出分类与目标一致。
我们为此任务评估了以下体系结构:双向LSTM(BLSTM),单向LSTM(LSTM),双向标准RNN(BRNN)和单向RNN(RNN)。对于某些单向网络,在目标和当前输入之间引入了4个时间步长的延迟,即网络总是尝试预测4个时间步长之前的音素。对于BLSTM,我们还采用了持续加权失误进行了实验,其中,根据当前音素的持续时间来缩放在每个帧上注入的误差。
我们对所有实验都使用标准的RNN拓扑,只有一个经常连接的隐藏层,并且在输入层和输出层之间没有直接的连接。LSTM(BLSTM)隐藏层每个包含一个单元的140(93)个块,RNN(BRNN)隐藏层包含275(185)个单元。每个网络的权重约为100000。
所有LSTM块均具有以下激活功能:对于单元的输入和输出挤压功能,逻辑Sigmoids的范围为[2,2],对于门的逻辑Sigmoids的范围为[0,1]。非LSTM网络在隐藏层中的逻辑Sigmoids型激活范围为[0,1]。
所有网络均经过梯度下降训练(误差梯度通过时间反向传播计算),学习率为10-5,动量为0.9。在每次讲话结束时,都会进行权重更新,并将网络激活重置为0。
作为K分类中1个的标准,输出层具有softmax激活,并且使用交叉熵目标函数进行训练。有61个输出节点,每个音素一个。在每一帧,给定输入信号,输出激活被解释为各个音素的后验概率。最高几率的音素被记录为该帧的网络分类。
4.2实验2:音素识别
使用HTK语音识别工具包(http://htk.eng.cam.ac.uk/)开发了传统的HMM。上下文无关的模型(单电话)和上下文相关的模型(三电话)都经过了培训和测试。两者都是具有三个状态的从左到右模型。表示沉默的模型(h#,pau,epi)包括两个额外的过渡:从第一个状态到最终状态,反之亦然,以使它们更加健壮。观察概率由八种高斯混合模型建模。
使用了61个独立于上下文的模型和5491个关联独立于上下文的模型。 由于左/右上下文出现在TIMIT转录中(例如,“我的眼睛”被转录为/ m ay z /),因此包含了上下文相关的模型,其左/右上下文与中央电话重合。在识别期间,仅允许与上下文相关的模型与匹配的上下文进行排序。
为了公平比较传统LSTM/HMM和混合LSTM.HMM的声学建模功能,系统中不包含语言信息或部分电话序列的概率。
对于混合LSTM/HMM系统,使用了以下在先进实验中训练的网络:无帧延迟的LSTM,具有加权误差的BLSTM和BLSTM。使用基于维特比的强制对齐训练了一个状态分别为61个状态的模型,每个状态具有自我转换和退出转换的可能性。过渡和先前概率的初始估计是使用训练集的正确转录完成的。将网络输出概率除以先验概率,以获得HMM的概率。对该系统进行培训,直到未观察到任何改善或信号的分段不变为止。由于时间限制,没有对网络进行重新训练以使其收敛。
由于两个基于HMM系统的输出都是一串电话,因此使用了基于动态编程的字符串对齐过程(HTK的HResults工具)来比较系统的输出和语音的正确转录。系统的准确性不仅通过点击次数来衡量,而且还考虑了输出字符中的插入次数(准确性=((命中-插入)/标签总数)*100%)。对于传统系统和混合系统,都对插入惩罚进行了估计并在识别过程中对其进行了应用。
5 结果
从表1,我们可以看到双向网络在逐帧分类中的性能优于单向网络。从表2我们还可以看到,对于BLSTM来说,这一优势延续到了音素识别中。
总体而言,混合系统在音素识别方面优于等效的HMM系统。同样,对于上下文相关的HMM,它们使用的可训练参数要少得多。
LSTM网络的训练速度时标准RNN的8到10倍,并且准确性更高。从表中它们的训练和测试集得分之间的更大差异可以看出,它们也更容易过度拟合。我们在TIMIT训练集上使用双向LSTM网络记录的最高分类得分为86.4%,比我们在测试集上管理的得分高出近17%。考虑到训练框架与重量的比例很高(对于单向LSTM为20到1),这种过度拟合的程度非常显著。显然,更好的概括是可取的。
使用持续时间加权误差会稍微降低BLSTM的分类性能,但会提高其识别精度。这就是我们所期望的,因为它的作用是使短电话对培训的影响与对长电话一样重要。
表1.逐帧音素分类
网络 |
训练集 |
测试集 |
周期 |
77.4% |
69.8% |
21 |
|
BLSTM |
76.0% |
69.0% |
170 |
BRNN |
75.7% |
68.9% |
15 |
BLSTM加权误差 |
77.5% |
65.5% |
33 |
RNN(4帧延迟) |
70.8% |
65.1% |
144 |
LSTM(0帧延迟) |
70.9% |
64.6% |
15 |
RNN(0帧延迟) |
69.9% |
64.5% |
120 |
表2.传统HMM和混合LSTM/HMM的音素识别精度
系统 |
参数数量 |
准确性 |
上下文无关的HMM |
80K |
53.7% |
上下文相关的HMM |
gt;600K |
64.4% |
LSTM/HMM |
100K |
60.4% |
BLSTM/HMM |
100K |
65.7% |
加权误差BLSTM/HMM |
100K |
66.9% |
6 结论
在本文中,我们发现双向递归神经网络在逐帧音素分类中优于单向神经网络。我们还发现,在相同任务下,LSTM系统比常规RNN更快、更准确。此外我们观察到双向训练的优势延续到混合HMM/LSTM系统的音素识别中。通过这些系统,我们记录了比同等传统HMM更好的音素准确性,并且记录的参数更少。最后,我们通过使用持续时间加权误差函数提高了BLSTM的音素识别得分。
致谢
作者要感谢Nicole Beringer在语言学和语音识别方面的专家建议。这项工作得到了SNF的支持,授权号为200020-100249。
补充材料
使用LSTM和双向LSTM模型进行基于深度学习的股票价格预测
摘要:在金融界,股票价格的预测获得了极大的吸引力。对于公司股票中股东的成长,为了增加投机者向公司投资的兴趣,股价预则非常需要考虑。成功预测股票的未来成本可能会带来可观的收益。在预测前几年的库存趋势时,采用了不同类型的方法。在这项研究中,利用两个流行的模型,提出了一个新的股票价格预测框架。递归神经网络(RNN )模型,即长期短期记忆(LSTM)模型和双向长期短期记忆(B-LSTM)模型。从仿真结果可以看出,使用这些RNN模型(即LSTM和BI-LSTM)以及适当的超参数调整,我们提出的方案可以高精度预测未来的库存趋势。LSTM和BI-LSTM模型的均方误差均方根(RMSE)通过改变历元,隐藏层,致密层以及隐藏层中使用的不同单位的数量来测量,以找到可以用于准确预测未来股价的更好模型。通过使用可自由访问的数据集进行公开、高、低和收盘价的评估,以进行评估。
lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405727],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。