英语原文共 16 页
言语情感识别的研究概况: 特征、分类方案和数 据库
摘 要
近年来, 人们越来越关注语音信号的情感内容研究, 因此, 提出了许多系统来识别口语的情感内容。本文对语音情感分类进行了综述, 涉及语音情感识别系统设计的三个重要方面。首先是选择适合语音表示的功能。第二个问题是设计适当的分类方案, 第三个问题是适当准备一个情绪语音数据库, 以评估系统性能。本调查的最后一节讨论了关于当前语音情感识别系统的性能和局限性的结论。本节还提出了改进语音情感识别系统的可能方法。
关键词: 原型情感;言语情感识别统计;分类器;降维技术;情感语音数据库
- 介 绍
语音信号是人与人之间最快、最自然的交流方式。这一事实促使研究人员将语言视为一种快速有效的人与机器之间互动的方法。然而, 这就要求机器应该有足够的智慧来识别人类的声音。自五十年代末以来, 对语音识别进行了大量的研究, 这涉及到将人类语音转化为一系列单词的过程。然而, 尽管在语音识别方面取得了很大进展, 但由于机器不了解说话者的情绪状态, 我们仍然远远没有人与机器之间进行自然的互动。这就引入了一个相对较新的研究领域, 即言语情感识别, 其定义是从说话者的言语中提取说话者的情绪状态。认为语音情感识别可以从语音情感识别中提取有用的语义。从而提高了语音识别系统的性能。
语音情感识别对于需要自然人机交互 (如网络电影和计算机教程应用程序) 的应用特别有用, 这些系统对用户的响应取决于检测到的情绪。它也适用于车内板系统, 其中司机的精神状态的信息可能会提供给系统, 以保证他/她的安全。它也可以作为治疗师的诊断工具使用。它在自动翻译系统中也可能有用, 在这些系统中, 说话者的情绪状态在当事人之间的沟通中发挥着重要作用。在飞机驾驶舱中, 人们发现, 受过压力语音训练的语音识别系统比那些受过正常语音训练的系统获得更好的性能。语音情感识别也被用于呼叫中心应用和移动通信中。使用语音情感识别的主要目的是在检测说话人声音中的挫折或烦恼时调整系统响应。由于以下原因, 语音情感识别任务具有很大的挑战性。首先, 不清楚哪些语言特征在区分情绪方面最有力。不同句子、说话者、说话风格和说话速率所带来的声学变异性增加了另一个障碍, 因为这些特性直接影响到大多数常见的提取语音特征, 如音高和能量轮廓。此外, 在同一话语中, 可能会有不止一种感知的情感;每一种情绪对应于口语的不同部分。此外, 很难确定这些部分之间的界限。另一个具有挑战性的问题是, 某种情绪的表达一般取决于说话者、他或她的文化和环境。大多数工作都集中在单语情感分类上, 假设说话者之间没有文化差异。然而, 多语言分类的任务已经研究出了这个结果。另一个问题是, 一个人可能会经历某种情绪状态, 比如几天、几周甚至几个月的悲伤。在这种情况下, 其他情绪将是短暂的, 不会持续几分钟以上。因此, 不清楚哪种情绪影响最深。
近年来, 人们越来越关注语音信号的情感内容研究, 因此, 提出了许多系统来识别口语的情感内容。本文对语音情感分类进行了综述, 涉及语音情感识别系统设计的三个重要方面。首先是选择适合语音表示的功能。第二个问题是设计适当的分类方案, 第三个问题是适当准备一个情绪语音数据库, 以评估系统性能。本调查的最后一节讨论了关于当前语音情感识别系统的性能和局限性的结论。本节还提出了改进语音情感识别系统的可能方法。自动情感识别器会检测到: 长期情绪或短暂情感。情感,目前还是没有一个共同统一的理论定义。然而, 当人们感受到情绪影响时, 就会知道情绪的重要性。为此, 研究人员能够研究和定义情绪的不同方面。人们普遍认为情感可以表现为两个维度: 激活和价值维度。激活维度是指表达某种情绪所需的能量。根据威廉姆斯和史蒂文斯对情绪产生机制的一些生理研究, 发现交感神经系统是由喜悦、愤怒和恐惧的情绪引起的。这导致心跳加快、血压升高、呼吸运动深度变化、声下压力增大、口腔干燥、偶尔肌肉颤抖。由此产生的语音相应响亮、快速, 并具有强大的高频能量、更高的平均音高和更宽的音高范围。另一方面, 随着副交感神经系统的兴奋, 随着悲伤、心跳率和血压的下降, 唾液增多, 产生的语音缓慢、低音, 高频能量很少。因此, 声音特征, 如音调, 时间, 语音质量, 和语音信号的发音高度与情感之间存在潜在相关性情感。然而, 情绪不能仅仅使用激活维度来区分。例如, 愤怒和快乐情绪都对应于高激活, 但它们传达不同的影响。这种差异的特点是价值维度。不幸的是, 研究人员内部没有就声学特征如何或甚至是否与这一维度相关的问题达成一致。因此, 虽然高激活 (也称为高唤醒) 情绪和低激活情绪之间的分类可以在高精度下实现, 但不同情绪之间的分类仍然具有挑战性。语音情感识别中的一个重要问题是需要确定一套由自动情感识别器进行分类的重要情感。语言学家已经定义了情绪状态的清单, 这些状态是我们生活中遇到的最多的。一个典型的集合由 Schubiger、 o#39;Connor 和 Arnold 给出的, 包含300个情感状态的数据库。然而, 对如此大量的情绪进行分类是非常困难的。许多研究人员同意 '调色板理论', 即任何情绪都可以分解为主要的情绪, 就像任何颜色是一些基本颜色的组合一样。主要的情感是愤怒、厌恶、恐惧、喜悦、悲伤和惊喜。这些情绪是我们生活中最明显、最独特的情绪。他们称原型情感。
本文以不一定具有深厚语音分析背景的模式识别研究人员为目标, 对语音情感识别系统进行了全面的综述。我们调查了言语情感识别的三个重要方面: (1) 情感言语语料库的重要设计标准, (2)语言特征对语言情感识别分类性能的影响; (3) 分类系统用于语言情感识别。虽然对语音情感识别的评价很多。 我们的调查是全面的,调查了语音特征和分类技术在语音情感识别中使用。我们调查了不同类型的功能, 并考虑了将现有声学信息与语言、话语和视频信息等其他信息来源结合起来的好处。我们从理论上详细介绍了语音情感识别中使用的不同分类技术。我们还包括了许多在其他研究论文中实现的语音识别系统, 以便对现有语音情感识别器的性能有一个深入的了解。然而, 读者应该仔细解释这些系统的识别率, 因为每个系统都使用了不同的情感言语语料库和实验设置。
第一章 情感语音数据库
在评价语音情感识别器时需要考虑的一个重要的问题是用于评估其性能的数据库的自然程度。如果使用低质量的数据库, 可能会得出不正确的结论。此外, 数据库的设计对正在考虑的分类任务至关重要。例如, 被分类的情绪可能是以婴儿为导向的;例如抚慰和禁止,或成人指导;例如喜悦和愤怒。在其他数据库中, 分类任务是检测语音中的重音。分类任务还由数据库中包含的情绪的数量和类型定义。
1.1设计标准
应该有一些标准可以用来判断某个情感数据库模拟真实世界环境的情况。根据一些研究 , 以下是需要考虑的最相关因素:现实世界的情绪或行动的情绪: 使用从现实生活中收集到的语音数据更现实。一个著名的例子是主要事件的无线电新闻广播的录音例如 Hindenburg 的崩溃事件。这样的录音包含非常自然的情绪。不幸的是, 可能存在一些法律和道德问题, 禁止将其用于研究目的。或者, 可以像大多数现有数据库一样, 在健全的实验室中提取情感句子。人们一直批评说, 行为情绪与真实情绪不一样。威廉姆斯和史蒂文斯发现行动的情绪往往比真实的更夸张。然而, 声学关联和行为情绪之间的关系并不与声学关联和真实相关之间的关系相矛盾。谁说出情绪: 在大多数情绪演讲数据库中, 专业演员被邀请用所需的情绪来表达 (或假装) 预先确定的句子。然而, 在其中一些例如丹麦情感数据库,半专业演员被雇用改为为了避免夸张在表达情感和更接近现实世界的情况。
如何模拟话语: 大多数情绪语音数据库中记录的话语不是在对话的背景下产生的。因此, 话语可能缺乏一些自然, 因为人们认为大多数情绪是我们对不同情况的反应的结果。一般来说, 有两种方法可以引起情绪上的话语。在第一种方法中, 有经验的说话者表现得好像他们处于特定的情绪状态, 例如高兴、愤怒或悲伤。在许多开发公司, 这样有经验的演员是不可利用的, 并且半专业或业余演员被邀请说出情感话语。或者,使用'奥兹威茨'方案来帮助参与者达到所需的情感状态。这个向导涉及到参与者和计算机之间的交互,就好像后者是人发音一样。在最近的一项研究中, 有人建议使用电脑游戏来诱导自然的情感言论。在游戏事件之后, 无论玩家是赢了还是输了比赛,都会收到声音样本,同时伴随着愉快或不愉快的声音。平衡话语或不平衡话语: 虽然平衡话语对控制科学分析和实验有用, 但它们可能会降低数据的有效性。作为一种替代方法, 可以使用大量不平衡和有效的话语。 话语在情感上均匀分布: 一些语料库开发者更喜欢每个情感的话语数量几乎相同, 以便正确地评估分类准确性, 例如在柏林语料库中。另一方面, 许多其他研究人员更喜欢的是, 在数据库中的情绪分布反映他们在世界上的频率。例如, 中性情绪是我们日常生活中最常见的情绪。因此, 具有中性情感的话语数量应该是情感言语语料库中最大的。 同样的陈述与不同的情绪: 为了研究情绪对言语话语的声学特征的显性影响, 在许多数据库中, 用不同的情绪记录相同的句子是很常见的。这样一个数据库的一个优点是确保人类对感知情感的判断完全基于句子的情感内容, 而不是其词汇内容。
1.2现有和已知的情感语音数据库
大多数已开发的情绪语音数据库无法供公众使用。因此, 研究人员之间可以共享的基准数据库很少。这种隐私的另一个结论是, 这一领域的研究人员之间缺乏协调: 同样的错误也在不同的情感语音数据库中重复出现。表1总结了一些常用的语音情感识别数据库的特点。从这张桌子上, 我们注意到情绪通常是由专业或非专业演员刺激的。事实上, 有一些法律和伦理问题可能会阻止研究人员记录真实的声音。此外, 非专业行为者被邀请在许多数据库中产生情绪, 以避免夸大感知的情绪。此外, 我们注意到, 大多数数据库都有以下共同的情绪: 愤怒、喜悦、悲伤、惊讶、无聊、厌恶和中立遵循调色板理论。最后, 大多数数据库都解决了成年人导向的情绪, 而只有两个人, KISMET 和 BabyEars, 被认为是婴儿导向的情绪。人们相信, 识别婴儿导向的情绪是非常有用的在人和机器人之间的相互作用。现有情感语音数据库中存在的问题:
几乎所有现有的情绪语音数据库在评估建议的情感识别器的性能方面都有一些局限性。简要介绍了情感语音数据库的一些局限性:
(1) 大多数言语情感数据库不能很好地模拟情绪, 以一种自然和清晰的方式。人类主体的认知率相对较低就证明了这一点。在某些数据库中, 人的识别性能低至65% 左右。
(2) 在一些数据库中, 例如 KISMET, 记录的话语质量并不那么好。此外, 采样频率略低 (8 kHz)。
(3) 有些数据库, 如婴儿耳, 没有提供语音转录。因此, 很难从这些数据库的话语中提取语言内容。
第二章 语音情感识别的特征语音
情感识别系统设计中的一个重要问题是提取有效描述不同情绪的合适特征。由于模式识别技术很少独立于问题域, 因此认为正确的特征选择会显著影响分类性能。 在特征提取中必须考虑四个问题。第一个问题是用于特征提取的分析区域。虽然一些研究人员遵循将语音信号分成小间隔 (称为帧) 的普通框架, 从每个区间提取一个局部特征向量, 而另一些研究人员则更喜欢从整个语音表达中提取全局静态信号。另一个重要的问题是, 这个任务的最佳特征类型是什么, 例如音高、能量、零交叉等?第三个问题是, 普通语音处理 (如过滤后和静音删除) 对分类器整体性能的影响是什么?最后, 是否足以使用声学特征来模拟情绪, 或者是否有必要将它们与其他类型的特征 (如语言、话语信息或面部特征) 结合起来。
2.1 局部特征与全局特征
由于语音信号即使在广义上也不是固定的, 因此在语音处理中, 将语音信号分成称为帧的小片段是很常见的。在每个帧内, 信号被认为是近似静止的。从每个帧中提取音高和能量等韵律语音特征, 称为局部特征。另一方面, 全局要素被计算为从话语中提取的所有语音特征的统计信息。对于哪些局部和全局特征更适合语音情感识别, 一直存在分歧。大多数研究人员一致认为, 在分类精度和分类时间方面, 全局特征优于局部特征。与本地功能相比, 全局功能还有另一个优势;他们的人数少得多。因此, 交叉验证和特征选择算法在全局特征中的应用比应用于本地要素的速度要快得多。然而,研究人员声称,全球特征只有在区分高兴奋情绪 (如愤怒、恐惧和喜悦) 和低觉醒情绪 (如悲伤) 方面才是有效的。他们声称,全球特征未能对具有相似觉醒的情绪进行分类,例如愤怒与喜悦。全局特征的另一个缺点是语音信号中存在的时间信息完全丢失。此外, 使用隐藏马尔可夫模型 (hmm) 和具有全局语音特征的支持向量机 (SVM) 等复杂分类器可能是不可靠的, 因为训练向量的数量可能不足以可靠地估计模型参数。另一方面, 可以利用大量的局部特征向量对复杂的分类器进行可靠的训练, 从而准确地估计其参数。这可能会导致比使用全局特征更高的分类精度。 第三种特征提取方法是基于对底层音素的语音信号进行分割, 然后为每个分割音素计算一个特征向量。这种方法依赖于一项研究, 该研究在不同的情绪下观察同一部手机的光谱形状的变化。这种观察对于元音本质上是正确的。然而, 音素分割算法的性能较差可能是另一个问题, 尤其是在没有提供语音转录的情况下。另一种方法是为每个语音段提取一个特征向量, 而不是为每个音素提取一个特征向量。语音段是指由声带振动引起的连续的语音部分是振荡的。与基于音系的方法相比,这种方法更容易实现。特征向量包含了基于分段的特征和全局特征的组合。使用 k 最近邻居 (k-NN) 和支持向量机进行分类。KISMET 情感语料库被用来评估分类表现。语料库包含了1002个来自三个讲英语的人的话语, 他们的情绪是由婴儿引导的: 赞同、关注、禁止、抚慰和中立。主要考虑的是与速度有关的分类。使用它们的特征表示使其比仅使用全局特征相应的基线精度增加5%。特别是, 基于分段的方法使用 k-N
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。