英语原文共 6 页，剩余内容已隐藏，支付完成后下载完整资料

泰语语音合成

基于共振峰综合的家庭机器人

孔敬大学计算机系泰国孔敬府

摘要 - 几年前，家用机器人对人类生活起着重要作用。人类需要操作机器人而不是人类，有些机器人可以和人类的语言交流，如英语或日语。另一方面，泰语与其他语言不同，因为它是音调语言，其中一个单词可以发音为五个音调。大多数泰语语音合成使用连接技术，不能灵活地调整参数和情绪音不能执行。因此，本文提出了基于共振峰的综合的泰语语音合成技术，为家庭机器人合成泰语音节。所提出的系统的参数可以通过基于规则的自适应调整。参数将根据规则进行调整以合成所需的语音。基频是一个重要的参数。在所提出的方法中，所提出的系统的主要部分集中于音调模式规则的开发。这些规则由辅音组，元音组和拼写组组成。系统开始用具有相应共振峰频率的输入阵列替换每个音素。之后，音素阵列按照规则进行调整。我们利用了50个泰语音节样本。每个音节由10个人测试，在控制室听取。实验结果表明，泰语中的合成音节正确率为71.8％。

关键词 - 家用机器人; 泰语语音合成; 共振峰合成; 音调; 基本频率

I. 介绍

现在，机器人被用于很多领域。例如，人们生产机器人可用于增加产品并降低包括人员管理在内的工人的风险。而且，机器人已经被控制与人们作出反应。该反应将显示屏幕或语音形式^[1,2]。

大多数语音合成广泛应用于文本语音（TTS）。TTS对许多功能非常重要，如说话字典，首页阅读器和智能手机。泰语的大部分数据合成由三部分组成：文本分析，韵律分析和语音合成。以机器人的正确形式发音取决于语音合成。它执行语音转录和韵律分析，让人们加热这些音节^[3,4]。通常，语音合成被分类为四方法，级联合成，关节合成，HMM合成和共振峰合成^[5]。

泰语与另一种语言不同，因为一个单词可以发音为五个音。泰语中的音调包括2种类型：平调和轮廓色调。等级音是辅音和元音之间声音稳定的频率。包括低音（เอก），中音（สามญ）和高音（รี）。轮廓色调是辅音和元音之间许多不同声音的频率。包括升调（จา））和降调（โ）^[6,7]。

大部分的语音合成都使用级联合成，其中有很多优点。该解决方案可提供出色的音质。然而，它有很多限制，比如说话的痕迹和改变言语的节奏[1]。泰语由辅音，元音，拼写和音调组成。此外，如果需要更多功能，级联综合需要更多的内存来保持源音。为了解决这个问题，共振峰语音合成被用于适应可用性并获得更好的语音合成。

共振峰合成是合成语音的一种解决方案。共振峰合成的优点是可以减少数据格式和语音分割。它可以很容易地调整语音合成的参数，并且需要较少的内存来保持共振峰频率。

为了自然地与人交流，家庭机器人需要自动调整语音参数。由于泰语是特定的语言。因此，我们提出了基于共振峰合成的泰语语音合成家庭机器人。通过调整对应于所需条件的参数，机器人可以像人一样说话。遵循上述优势，泰语的共振峰合成将有效地用于机器人。数据形式可以减少，音调可以调整。

本文组织如下。第二节介绍了家庭机器人，泰语和共振峰合成，第三节描述了所提出的方法，第四节实验结果和第五节总结了本文。家用机器人反而有很多用处

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

II. 相关工作

A. 家庭机器人

人类，与人类交流，以及与人类交流的朋友^[8,9]。现在，它可以从互联网上看到诸如机器人真空或救援机器人。它有很多功能的例子，导航，跟着我，谁是谁和操纵。硬件 - 人机界面和通信实验室（H2I-Comm）中的家庭机器人如图1所示。它将用作所提出系统的原型。

图1.硬件 - 人机界面和通信实验室中的家庭机器人

泰语

综合泰语的原则与语言理论，理论和用于演讲的器官有关。器官使用讲话来理解泰语的性质，如舌头，嘴唇的外观。理解原理时，可以结合相应的参数。

泰语的最小单位是音节。每个音节由辅音或双元音，元音，拼写和音调组成。 Diphthong和拼写有或没有它。泰语的音调如图2所示^[6,7]。泰语音节的结构如图3所示

图2.泰语的音调

图3.泰语音节的结构

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

泰语辅音有44个音素，但有21种不同的声音。元音是27个音素。拼写是9个声音。色调是4个音素，但有5个声音。

C.共振峰合成

共振峰合成由两个主要部分组成^[10-14]。共振峰合成系统如图4所示。

图4.共振峰合成系统^[1]

在图四中第一部分被称为“规则系统”。这部分与创建每种语言的规则有关。共振峰合成器是一个语音合成功能，它从规则系统接收数据到合成语音。规则系统由四条规则组成。首先，基频（F0）规则是一个规则，它定义了音调的性质，这是重要的信息，对于单个语言来说是独一无二的，例如改变音节音调的泰语会产生显着的差异。其次，强度规则是一种用声音响度来管理的规则，例如语音辅音比无言的辅音更响亮。第三，持续时间规则是处理音素和音节周期持续时间的规则。它被设置为每个音素的默认值，例如由短声和长声组成的泰语。最后，共振峰频率规则（F1，F2和F3）是每个音素对每个音素特定的频率。F0将涉及男性和女性的演讲，因为女性的F0演讲比男性演讲要高。

第二部分叫做“福尔芒合成器”。这部分是转换频率形式到语音形式的解决方案。本文采用Klsyn语音合成程序，并通过命令行[12]使用。该程序将从MATLAB接收48个参数来合成泰语语音。Klsyn合成器如图5所示，Klsyn合成器的图示于图6。

图5. Klsyn合成器

图6. Klsyn语音合成[9]

建议的方法

语音合成设计的总体

泰语语音合成系统包括三个主要部分：共振峰频率替换，参数共振峰频率调整和共振峰合成器。图7显示了泰语语音合成系统。

图7.泰语语音合成系统

“共振峰频率替换”是泰语语音合成的第一个过程，其中包括与语音合成相关的其他参数。本文采用共振峰频率和其他参数代替音节语音。音节的演讲将与音节的结构相匹配。在图8中，C是辅音音素，V是元音音素，F是拼音音素，S是无声音。 “共振峰频率替换”的结果存储在一个数组中。它用于调整下一部分，如图9所示。“共振峰频率替换”示例程序如

十一所示：

图8.音节的结构

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

时间1时间2时间3时间n

图9.结构频率的音节

“通过参数调整共振峰频率”是通过将发送给它的参数来更新音节的共振峰频率的过程。这些参数包括声音的速度，性别和音调。它将根据需要提取每个参数的规则内容以更新共振峰频率。音调规则由泰语中的5个音调组成：中，低，下降，高和上升。图10中示出了通过参数调整之前的音调音规则的示例图。



F0（Hz）

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

中间色调

低调

时间（毫秒）降调

时间（毫秒）

高调

时间（毫秒）

升调

时间（毫秒）

图10.调整参数前的音调调制规则图

F0（Hz）

这包括低音，中音和高音。轮廓色调是辅音和元音之间许多不同声音的频率，包括上升音和下降音[6,7]。

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

“共振峰合成器”是一种语音合成解决方案，它从规则中接收数据以合成语音。共振峰合成器系统如图12所示。规则包括讲话速度，讲话性别，讲话音量和音调。性别规则的示例伪代码如图13所示。

图11.共振峰频率替换示例程序

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

.wa

参数

音位

Klsy

规则

图12.共振峰合成器系统

伪码1：性别的规则

输入：基频F0，共振峰频率的旧阵列（F0，F1，F2，F3）Vo

输出：共振峰频率Vn的新阵列

如果F0 = 220那么 //如果性别是女性F0 = 220 Hz

对于我= 1到4做

对于j = 1到Vo的长度，如果i = 2 然后

Vn [2，j] = Vo [2，j] 144 // F1女性多于F1男性144赫兹

否则，如果我= 3那么

Vn [3，j] = Vo [3，j] 184 // F2女性大于F2男性184 Hz

否则，如果我= 4那么

Vn [4，j] = Vo [4，j] 362 // F3女性多于F3男性362 Hz

其他然后

n [i，j] = Vo [i，j] // F0无更新

结束

如果结束

结束

万一

图13.共振峰合成器系统

B. 系统原型

图14.系统原型

在图14中，我们的系统是在MATLAB上开发的，它由三个主要部分组成。

1、每个音节的输入包括辅音，元音，拼写和音调。每个音素和音调由选择下拉列表控制。该系统包括三个按钮（合成，保存和清除），用于控制输入音节。

2.共振峰调整的输入包括速度和性别。这些参数应用于语音合成。

3.系统的输出是显示由第1部分中的参数合成的语音和频率信号（F0，F1，F2和F3），以及第2部分。

IV.实验结果

泰语语音合成基于共振峰合成的家用机器人实验结果。意义词语言被合成为50个样本。为了测试合成词的语音表现，合成词由控制室中的10个人听式。

（1）用于评估如下所示

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

其中，a是每个听众正确音节语音的百分比，C是正确音节数，N是所有样本音节的数量。实验结果分别显示在表I，表II和表III中

表一. 每个听者的正确标签的结果

每个听众的正确

全文共6730字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[15067]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

泰语语音合成基于共振峰综合的家庭机器人外文翻译资料

泰语语音合成

您可能感兴趣的文章

登录

注册

找回密码

泰语语音合成

您可能感兴趣的文章