英语原文共 25 页
多语言语音合成:综述
摘要
术语多语言语音合成是指以多种语言产生语音的过程来自单个文本到语音合成(TTS)系统的单个发言者的语音。本报告回顾文献中现有的努力来开发多语言TTS。 不同的方法在此描述审查主要侧重于开发一种自然,可理解且具有成本效益的TTS系统多语言文本输入。 由于多语言文本在TTS的所有应用中变得非常普遍,最近的重点是开发一种具有成本效益的多语言TTS系统,而不是传统的单语TTS。本综述还讨论了不同方法和提及的利弊克服限制的可能方向
引言
文本到语音合成(TTS)处理转换输入文本消息到等效语音[1]。典型的TTS
系统有两个主要模块,文本分析和语音波形生成。在文本分析模块中,给出
输入文本通过语言检测算法,语言特定的字形到音素转换,并获得持续时间等韵律信息,
投球和压力。在语音波形生成中模块,语音波形由生成的语言规范生成。来自TTS的合成大小语音的优点通常用来衡量清晰度和自然度。可懂度是指如何消息内容是可理解的,而自然性指的是合成语音对人类语音的相似程度。因此,高度可理解任何实际的,自然语言都是最需要的应用。一个好的TTS系统会找到许多应用,如虚拟助手,虚拟新闻阅读器,有声读物中的故事,屏幕阅读器,电话服务,语音转换等。
多语种国家对TTS系统的要求,如印度,有许多官方认可的语言,是多种语言的合成。独立于居住的国家,印度人最常使用印地语和英语混合了他们的母语日常对话以及区域新闻报道。而且,居住在印度边境地区的人们国家和人民迁移到不同的国家似乎混合两种以上的语言。除非另有说明,否则传统的TTS系统会为所选择的人生成语音语言被称为单语TTS系统。或者,如果TTS系统能够生成两种语言的语音,然后被称为双语TTS系统。可以产生语音的TTS系统两种以上的语言可以称为多语言TTS系统。开发多语言TTS的一种方法系统正在收集和处理来自不同的语音发言者,每种语言一个。或者,如果说话者精通多种语言,然后是语音可以收集来自同一扬声器的不同语言,并且可以开发多语言TTS系统。这种多语言TTS系统,用于为所有语言生成同一个发言者的讲话,被称为多语言TTS系统[2]
在多语言TTS的情况下,扬声器改变是相关联的语言切换,每天都不会发生通讯。 不会有任何发言人改变多语言TTS的情况因此,多语言是优选的在实际应用中使用多语言TTS。 随着全球化的增加,语言的融合也是如此在沟通的各个方面,即每个方面都在增长说话者正在熟练地用多种语言制作和感知语音。 因此,在TTS系统中,应用程序也需要生成能力来自多种语言的演讲。 从而发展了一个能够产生语音的多语言TTS系统非常自然,可以用多种语言理解同一个扬声器是TTS领域最受欢迎的选择。
随着计算能力的提高和以较低的成本存储,有很多改进过去二十年来对TTS的研究。这些在自然性,可懂度方面的改进,使用资源少,时间少。这两个最受欢迎方法是连接合成,更多资源消耗,但提供更多的自然性,和统计参数语音合成(SPSS)较少足迹,其自然性较差[3]。简要下一节将介绍对这些方法的回顾。在谈到多语言TTS时,非常一个人想到的第一个想法就是切换几种单语言TTS系统[2],带语言切换输入文本。在这种情况下,单语TTS系统使用统一框架开发。其中一个发展是贝尔实验室TTS系统[4]。这个一种多语言的TTS可能有助于合成一个话语只有一种语言的文本。如果通过这样的TTS合成多语言话语,那么合成语音将通过语音切换进行扬声器切换。随着扬声器的变化,那里可能会切换扬声器和语言特定的专业参数,这是不可取的并且非常不合理。为了避免这些困难,另一种方法是用多语言扬声器记录数据库[2]。一个真正的多语言演讲者是能够制作的人使用电话清单和韵律参数的演讲所选语言但如果说话者不完整多语言,合成的合成语音将是重音[5]。此外,很难找到多语言说话人的语言数量增加。为了合成多个语言在同一话语中的文本,多语言TTS可以不太好用。因此,为了处理多语言的完整性,需要多语言TTS。
除了使用多语言扬声器库存来开发一个多语言TTS,其他进步包括映射将要合成的语言(目标语言)的电话转换为现有TTS语言的电话工作或数据库设计有所需的扬声器 - 声音(源语言)[6,7]。演讲者改编和语音转换也可以通过使用一组单语数据库有效地用于多语言综合论[8,9]。扬声器和语言分解方法也可以用于SPSS框架生成多语言语音[10]。最近的进展专注于生成手机缺少源语言电话,但存在于通过混合子电话级单位(状态源语言库存[11,12]。多语言TTS的初始发展使用USS和SPSS接近,而目前的要求是低脚在资源受限的设备上打印TTS系统。也,需要灵活性来适应TTS系统它在多语言下更自然,更容易理解上下文。由于这些,最近在多语言方面取得了进展综合特别关注SPSS。
由不同类型的TTS产生的合成语音的质量需要适当的评估来确定是否达到了听众的要求实际情况下的效率和效率。主要要求是自然性,可懂度,噪音稳健性,和可理解性。除了这些,主要目标评估应该是确定哪个系统表现最佳,可能是系统的缺陷和实际环境中的表现,如[13]中提到的那样。人们也应该照顾多少有效的方法可以提供正确的信息关于TTS系统。不同的评估措施已经在文献中提出要满足这一点。专业评价方法大致有两种:主观的评估和客观评估[14]。主观评价包括人类专家的听力测试。意思意见得分(MOS)是一个众所周知,有用的主观评价方法[15]。在[16]中,MOS被修改并通过使用专门为合成语音而设计心理测量技术,如验证因素分析包括心理测量属性。修改Fied MOS还考虑了在合成大小的语音中发现的文物。另一种主观评价方法是进行配对比较,以获得特定TTS的自然因素和偏好等没有明确规模的其他人。在[17]中进行了许多主观评价,以分析效果语音性别和噪音对可懂度的影响。有可能从研究中推断,在干净的条件下,男性的声音比女性的声音更加智能,而对于同样的女声比男声更容易被理解当增加噪音时。这种评估是必要的使TTS系统对实际应用具有鲁棒性。
用于评估可懂度,语义不可预测句子(SUS)由TTS合成,并且要求对象通过听取来写下句子合成语音[18]。 然后,字错误率确定(WER),其是可懂度的度量合成语音。 虽然这种方法涉及手动努力,但它是可懂度的可靠衡量标准。在大多数评估方法中,重点是智能或分段信息而不是韵律合成语音的方面或超区域方面。
客观评价是通过与言语感知质量相关的一些特征来比较合成话语和自然话语。由于它不需要经过培训的人类专家,因此可以认为它更有效。但是,方法客观评价需要首先通过与主观评价结果相比较来确定。而且,用作客观措施的属性应该是有效的考虑合成语音中的伪像和相关的对人类的感知。而不是简单地比较两个话语中,作者在[19]中进行了综合比较通过不同的方式记录几个录音的话语韵律特征。最不相同的衡量标准类似记录的话语被认为是客观的。客观测量,感知评价语音质量(PESQ),表现出高度的相关性MOS [20]。在[21]中提出了一些客观措施评估合成的可懂度和质量言语。 Dau和Glimpse比例措施是据报道,与可懂度预测的主观测量具有高度相关性。
上面的介绍给出了TTS领域发生的各种发展的一瞥。正如之前提到的那样,对多语言的要求像印度这样的国家是一个很自然的多语言TTS系统并且可以理解。要开发这样的系统,必不可少了解与多语言有关的现有文献TTS。除此之外,由于之间存在重叠多语言和多语言TTS开发的工作,明确两个领域的重点,审查多语言TTS的主要发展也是可取的。所有TTS系统都是使用USS开发的或SPSS方法。因此,需要对USS和SPSS中采用的综合过程进行简要回顾。为了迎合在这些方面,本文的其余部分按以下方式组织:在第2节中,简要介绍USS和SPSS给出。对双语TTS案例中一些重要发展的描述见第3节开发多语言TTS的一些主要方法在第4节中给出。多语言TTS中的开发实践详细介绍了第5节。讨论涉及各种方在第6节中给出了所描述的多语言合成的现有技术和可能的方向第7节提到了进一步的改进。
2基于USS和SPSS的TTS方法
针对不同的TTS领域的不同作品应用程序或解决不同的问题,使用基本基于USS或SPSS的TTS框架。 基于USS的TTS从记录的数据库中选择自然段连接它们以产生自然的声音言语。 SPSS使用一组生成模型(例如,hid den Markov模型(HMM))分别对源和声道信息进行建模。 语音是由...合成的传递衍生的源和声道信息通过声码器。 由于它使用了建模参数,所以与基于USS相比,输出语音不太自然方法[3]。
2.1单位选择合成
连接合成已经取得了进展基于双音素的固定库存TTS [22]到USS所在地适当的单位是从大的自动选择数据库没有任何修改自然波形式[23]。由于韵律方面自然发生在演讲中,合成语音是自然的质量。目标规范与candi日期单位的相似性是通过使用连接成本和目标来衡量的成本[23]。如图1所示,目标成本C(t)(ti,ui)在第i个候选单位和目标单位之间,ui和ti,分别定义为,其中j D 1,2,...,p表示用于计算目标成本的不同特征的索引,包括pho ??? netic和韵律上下文,以及w(t)j是权重分配给这些功能中的每一个。 C(t)的j(ti,ui)是目标ti和ui之间第j个特征的子成本。连接成本C(c)(ui -1,ui)两个子候选单位uiiexcl;1和ui之间的定义为这里k D 1,2,...,q表示光谱和光谱的索引用于导出连接的其他声学特征成本和w(c)k是与每个相关联的权重他们。 C(c)中k(uiiexcl;,ui)是第k个的连接子成本uiiexcl;1和ui之间的特征。连接成本计算框架如图2所示。总成本函数(C(t1:n,u1:n))是焦油成本和级联成本的总和。其中n是为合成特定话语而选择的单位数。最佳的单位串通过最小化整体成本函数C(t1:n,u1:n)从数据库中选择un:提出了几种有效预先计算目标成本的方法。一种这样的方法是基于聚类的方法,其中类似的单元聚集在决策树中,该树根据关于的问题分割每个节点。语音和韵律特征[24]。类似的单位是通过使用它们之间的声学差异将它们聚集在同一决策树中。合成的目标规范由语言组件生成。目标基于成本和级联成本函数的计算还提出了统计方法[25?28]。那里是不同的研究来决定最佳单位大小,即框架大小[28,29],HMM状态大小[30,31],一半手机[32],双音素[24]和更大的单位[33,34]。在[35]中,据报道小型单位可以拥有更多最佳连接点和更小的占地面积。
已经开发了许多商业系统来实现基于USS的TTS的有效性[32,36?38]。在[36]中,完全选择了库存中的单位基于语音知识而非使用声学特征。如[32]中所述,AT&T TTS系统是AT&T最佳组件的组合Flextalk TTS [39],Festival TTS系统[40]和ATRCHATR系统[41]。文本规范化,字母到声音和韵律生成部分来自Flex?talk,而整体架构遵循Festi?val框架。而不是在CHATR中的双音素,这里有一半手机被用作基本单位,可显着提高自然效果。另一种这样的商业系统是L&H RealSpeak实验室TTS(RSLab)系统[38]它使用基于语料库的综合方法和采用有效的段选择过程。在[37]中,一组使用构建的依赖于说话者的决策树通过询问有关即时通讯的问题来使用HMM。建造单独的树木以保持持续时间和能量。在合成期间,预测的持续时间,能量和从树叶获得其他声学特征并用作目标规格。动态编程搜索用于所有经过训练的叶节点以获取电话顺序连接的序列。但是,输出语音质量取决于数据库的大小和质量录音。如果从适当的上下文中选择特定单位,则单位的加入将是平滑的而且很自然。否则,单位的加入可能会突然发生可能导致低清晰度和不自然性的故障。然而,有限域合成在合成自然语音[42]方面非常成功系统是根据目标应用设计的。USS的另一个限制是缺乏将输出语音转换为所需风格,情感或类型的灵活性改变说话者的声音。这只能通过根据所需的扬声器,说话风格和设计特定数据来合并到基于USS的TTS中。情感。这是一项困难且成本密集的任务[43,44]。
由于上述USS的困难联合语音合成,SPSS在过去十年中越来越受欢迎[3,45]。这是产生一些类似声音单位的平均值的过程据报道比它更容易理解USS [46 48]。 统计表示也可以实现改变声音特征,说话风格和通过模仿声音,混合声音和控制声音来表达情感[3]。
2.2统计参数语音合成(SPSS)
在SPSS中,表示声道的光谱参数提取信息和激励参数图2:连接成本计算来自给定的语音文件。通常是光谱参数包括mel-广义倒谱系数(MGC)[49]及其动态特征或线谱对(LSP)及其动态特征。动态特征是语音的一阶和二阶导数参数。动态功能包括在内适应一帧特征的依赖性附近的帧[50]。如果ct代表MGC载体at时刻t,然后将其动态特征向量Dct表示为 是窗系数,L是窗口长度。同样,激励参数由基波组成频率(logF0)及其动态特征。这俩激发和光谱参数使用建模多流概率分布[51]。最大值通过使用期望最大化(EM)算法[52]的似然(ML)估计用于估计模型参数与建模相同语音识别。其中lambda;是模型参数的集合,^lambda;是估计模型参数的集合,O是一组训练数据,并且W是对应于O. Linguistic的单词序列的集合和韵律语境一起考虑语音的。使用这些功能和时间对齐语音转录,与上下文无关的单手机HMM经过培训。基本子字单元考虑用于HMM合成系统是依赖于上下文的inin电话。这些依赖于上下文的模型是从一组独立于上下文开始构建的单声道HMM。在这个过程中,声学上相似国家被捆绑以减少总数参数不会降低性能楷模。这里基于树的聚类用于状态绑定。
在综合部分中,输入文本被转换为依赖于上下文的标签序列。 话语HMM就是通过连接依赖于上下文来构造HMM根据标签序列。 这个演讲参数生成算法然后生成光谱和激发参数的序列使用最大化标准的话语HMM。 这个演讲为给定的单词序列生成参数O.合成W,从估计模型的集合^位,到最大化他们的输出概率最后,使用语音从
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。