运用功能分区法研究资源欠缺汉语方言的词汇调式范畴[1]
吴君如1.2, Yiya Chen2 , Vincent J van Heuven2.3 , Niels O Schiller2
(1.华东师范大学,汉语言文学系,上海,200241;2.莱顿大学语言学中心,莱顿,2300 RA; 3. 潘诺尼亚大学,匈牙利语和应用语言学,维斯普雷姆)
摘要:本文运用功能分区法,对资源匮乏的济南普通话双音节词的声调模式范畴进行了研究。文中提出了两级分区方法,它以半自动化方式处理含有不规则词语变体的多话语者语料库。在第一阶段,基于函数k均值排序算法的结果和从有效的相关汉语方言(如标准普通话)的音韵词典中获得的音调信息,程序为语音学家提供建议,以确定每个记录的词语词汇声调变体。第二阶段基于轮廓的标准,迭代k均值分区的功能版本,以从整个语料库中提取出最佳数量的音调模式,这也允许语音学家以可控方式调整自动程序的结果,从而为集群的子集重做分区。这一过程产生了济南普通话的十一种双音声调模式,代表了当代济南普通话使用者使用不同年龄层的声调系统。本文所使用的程序与以往的语言描述不同,以往的语言描述更多的是基于老年人的发音,而该方法将语音学知识和初步的语言资源整合到分区过程中。在为资源不足的语言建立语音词典而进行词汇语音分类时,可以提高词汇调式范畴研究的效率和客观性。
关键词:模式识别; 发音学 ;音调;语音词典;k -均值分区
语音词典的建设通常是昂贵的,特别是对于资源不足的语言和方言。有时,语言描述和词典是十分重要的,然而这些资源通常只含老年人使用的规范或稳定的词汇变体。但由于缺乏标准,这些资源不足的语言和方言通常具有丰富的词汇变体。
对于普通话的方言声调来说,有许多被广泛使用但并不标准,方言调式通常以多样方式出现。例如,图1中所展示的,词语“简单”在济南普通话中有两种不同的声调变体,而词语“非常”只有一种。
图1.
为了进一步对这些方言进行建模,无论是出于语言学还是工程学的目的,需要回答以下问题:给定的词语有哪些音调变体?语言系统有哪些音调模式?
这些问题都十分基础,但这些结果可以被运用到构建语言学理论和词典基线中,也可被运用到对NPL模型的评估。但是要得到这些问题的答案,需要费力的手动标记,并且结果会面临主观性和人为失误的问题。如果我们在这个过程中可以引进一些自动方式,将减少工作量,准确性也会提高。基于以上考虑,本文提出了一种两级半自动分区方法。
- 两级半自动分区
我们提出了一种两级半自动分区方法,它将从多话语者的双音节词语语料库中去获得以字为单位的声调变体和基础的声调模式。这种两级半自动分区的核心算法是功能性k均值,它将观察到的曲线划分为给定数量(k)的聚类。由于以下原因,选择K均值分区而不是其他类型的分区方法:k均值分区基于质心的性质符合音素感知的性质。心理语言学家发现在音韵类别中有“原型”的存在,与那些更接近非原型的声音相比,声学分布中接近原型的声音更难以区分。k均值分区也假定每个群集中有“原型”,一条语音的归属取决于它们距最近原型的距离。与其他方法的假设相比,例如层次聚类所假设的二分法层次结构、基于分布聚类所假设的聚类内正常性和基于密度的聚类所假设的稀疏区域,由k均值假设的原型分区更合理。
在当前的提议中,使用k均值分区的功能版本,这意味着每个音高轮廓被视为一条曲线,并且算法将曲线分为给定数量的聚集。根据调查阶段,一些集群可以被直接给予模型,也可以从基于轮廓宽度的范围中选择。划分被分割为两个阶段进行,分别产生词汇声调变体和一般声调模式。
在第一阶段,语音学家利用该程序来决定每个词语的词汇音调变体。以字为单位的过程如下:1)绘制该词语的所有标准化音高轮廓;2)将曲线分成选定数量的集群;3)语音学家为每个集群键入标签;4)语音学家验证每条曲线的标签(可选)。在这个过程中,语音学家可以选择从相关且有更多资源的方言或历史性系统中查看参考标签。这个阶段提出每个词语的音调分类和变异可能性。它还可以根据语音学家给出的标签提取音调模式的初步的和主观的分类。
然后在第二阶段,为从词汇音调变体导出的音调系统选择最佳音调模式划分解决方案。与由语音学家所决定的初步分类不同,该阶段由程序自动决定两个词汇音调变体是否属于相同的音调模式,考虑了所有变体的分布。前一阶段中以字为单位的结果将在第二阶段输入模型。该过程如下:1)使用基于深度可产生原型曲线集合的标准,自动计算出每个词汇音调变体的一个原型曲线;2)排除具有极小概率的词汇音调变体,因为实际上它们可能导致一些错误(可选);3)根据提供的初步分类,为每个集群计算出一个初步原型;4)使用初步原型作为初始中心曲线,计算原型曲线的k均值分区;5)移除最不可区分的集群的中心(具有最小轮廓宽度的集群),并重做k均值分区; 6)迭代步骤5直到有只剩下两个集群,并记录步骤4和5中生成的所有解决方案;7)计算每个分区轮廓的平均值和标准偏差,从中减去标准偏差以示解决方案的良好价值,并选择具有最高良好度值的解决方案作为最佳分区解决方案。
由于此阶段的最佳分区解决方案仅是k均值分区可以实现的最佳分区解决方案,因此仍有改进的空间。k均值分区的一个潜在问题是,集群可能具有相似的大小。真实的音调系统可能涉及紧密重叠的音调模式,这些可以与其他音调模式区分开。但是在K均值分区中依据最佳分区解决方案,这些重叠的音调模式将被归入相同的集群。
为了改进分区,一个附加过程被引入,该过程重新排列集群的子集,同时保持其余集群与给定分区中的集群相同。语音学家观察了给定分区的片段后,拿出两个需要重新排列的聚类,聚类的数量由语音学家指定。然后,新聚类替换给定分区中的两个原始聚类,产生一个调整后的分区。这个程序可以从最优解开始并不断重复直到调整后的分区解决方案符合语音学家的判断。
- 实验
利用小型多话语者的济南话双音节词语语料库进行两级半自动分区法试验。
2.1语料库准备
42名济南本地人用济南普通话读了400个汉语双音节词。这些词语源自一个中文电影字幕语料库,包括200个高频词语和200个低频词语。已出版的济南汉语语言词典中的音调组合在语料库中尽可能均匀地展示。该列表以不同的随机顺序呈现给每个济南话讲话者,讲话者可以自定进度。
Praat用于从押韵中提取音高轮廓。受过训练的语音学家手动标记押韵。此外,在此过程中,排除了具有言语和抄录错误的记录。音高轮廓转换为以100Hz为基础的半音,然后根据说话者的方式和标准差转换成z分数值。然后对归一化的音调轮廓进行插值,每个音节20分,以消除差异持续时间。采用基于密度的局部方法来消除可能的异常值。针对每个说话者的音高轮廓计算局部异常值。从语料库中消除任何具有大于1.5并且属于最高积分密度的2.5%的因子。
2.2逐字分区和验证
在第一阶段,使用R中fda.use包的K均值fd函数执行逐字分区和验证,以查找每个词语的词汇音调变体。
图2.(a).(b).(c).(d)
这里以“简单”一词的过程为例进行说明。首先,绘制了该词语所有样本的音高轮廓,如图2a所示,其中显示标准汉语的音调类别以供参考。将集群的数量(词汇变体的数量)指定为2,K均值分区提供了最佳的分区解决方案,如图2b所示。根据Qian等人所描述的参考标准和语调,第一组标记为“35”,第二组标记为“31”。然后我们验证了每条曲线的标签,发现由06号说话者产生的那个音调可能属于另一个音调模式(在第二个音节中有一个下降的轮廓,如图2c),因此我们为此曲线分配了不同的标签“34”。“简单”的最终分区解决方案如图2(d)所示。
图3.
值得注意的是,在此步骤中,语音人员的标签采用了初步分类。很明显,词汇变体“简单-35”,“眼睛-35”和“小心-35”都标有“35”,如图3所示,这意味着语音学家认为这些变体带有相同的音调模式。 这是初步的分类(主观更大,所以不是客观分区)。
2.3为基本声调模式分区
2.3.1计算词汇变体的原型声调轮廓
在该步骤中,使用fda.usc R包中的深度模式功能计算每个词汇音调变体的一个原型音高轮廓。有两种方法可以决定原型曲线,选择最深的曲线(作为真正的原型)或计算出修剪后的平均曲线(作为抽象原型),如图3中的示例所示。在本实验中,使用抽象原型的集合。
图4.
2.3.2优化通用分区解决方案
在该步骤中,每个词汇音调变体用一个原型曲线表示。然后根据不同的参数对这些原型曲线的相同集合按以下程序进行分区。
第一轮分区配有给定的初始中心。在实验中,这些初始中心计算如下。如在3.2中所提到的,假设用相同音调模式标记的每个词汇音调变体的原型曲线属于相同的音调模式。这里计算了由语音学家假设的每个音调模式的最深原型曲线。这些原型曲线的集合被作为第一轮分区的初始中心。第一种解决方案采用与初步分类中相同数量的音调模式,并调整了中心和相应聚类的位置。
然后计算第一个分区中每个类聚的轮廓宽度。具有最小轮廓宽度的群集是最不可区分的群集,并且可能不准确。因此,在下一轮分区中移除了与该类聚相对应的中心。此外,在每一轮分区中,最不可区分的聚类被移除,直到只剩下两个聚类。该程序如图所示。
图5.
在每轮分区中保留所有集群的轮廓宽度记录,以及它们的平均值和标准偏差。 一方面,轮廓宽度越大,聚类区分度越高,这点也适用于整个分区的轮廓宽度平均值。另一方面,比较所有群集都可以区分和只有一些群集是可区分(而其他群体非常混乱)的解决方案时,我们更喜欢前者。这意味着轮廓宽度的标准偏差越小,解决方案就越好。因此,这个解决方案的优点被定义为从中减去的轮廓标准差,因为它同时考虑到两个标准。因此,最佳解决方案选自于所有的候选者。(如图6所示)。
图6.
2.3.3调整通用分区解决方案
值得注意的是,最佳分区解决方案中的某些群集,例如图6中所示的群集7,似乎涉及不同的音调模式,这体现了有需要进一步被调查的子群集。本研究中的语音学家选择了集群7及其最相似的集群(集群 6),并将它们再次划分为四个新的集群,集群6、7、9和10,如图7所示。语音学家重复这个过程,直到调整后的解决方案符合她的判断。值得注意的是,在此过程中,从不手动更改曲线的描述。因此,调整后的分区解决方案仍然符合k均值分区的逻辑,只有现在子集群被展现出来。
图7.
- 结果
3.1以字为单位的分区
正如图8所示,词汇语音变体在济南普通话中十分的普遍,但许多词汇音调变体的概率很低。
图8.
语音学家初步将20个双音节模式标记为初步分类。显然,双音节音调模式与构成这些双音节词的词素的引用音有关。编码包含两部分,即第一个音节的引用音(1,2,3或4)和第二个音节的引用音(1,2,3,4或5 =中性音)。 正如预期的那样,实验中的词语语音变体比出版的济南普通话词典和提供参考的SC音调类别更复杂。许多词语有两个变体,一个以中性声调结尾,一个以非中性声调结束,例如图4中“简单”的“35”和“31”变体。由于具有极值的样本被排除在语料库准备中,最深的曲线和修剪的平均曲线通常是相似的,但后者更平滑。
3.2优化和调整后的一般分区结果
图9和图10展现了优化和调整后的一般分区方法(除去了低概率词语语音变体)。在单独的小组中进行的聚类清晰可辨。它们代表了济南普通话的双音节模式,最佳方案只有八种,但可以进一步被分为十一种。可以为每个聚类配以一条原始曲线(修剪平均值或最深曲线),每个聚类代表一个声调图案的形状。
一般分区法的结果展示了音调合并。与语音学家的初步分类相比,一般的分割结果似乎忽略了第一个音节中引用音的差异。例如,来自假定的音调类“31”和“21”的曲线被划分成相同的聚类(如图10聚类2所示),其中这两个假设的音调类确实在视觉上是不可区分的。在其他假定音调类别“3”和“2”(例如“31-21”,“32.-22”,“33_23”和“34-24”)与“1”和“4”(例如“12-42”,“13-43”,“14_44”)中,也发现了类似的合并。中性音调表现出对前一个音节的回归异化,其双音节音调模式有时会与不相关的音调组合融合。例如,如图10所示,假定的音调类“35”主要分配到具有“13-43”(集群3)或“12-42”(集群4)的相同集群中,而与以引用音“3”开头的其他音调类别相比,它显示出非常不同的音调模式(例如在群集2,6,8和9中)。此外,其中最高的几个音调模式(图9中的集群7和图10中的集群6,7和9)非常相似,并且仅在调整后才出现。然而,子集群似乎反映了单音节引用音的差异,这些引用音与双音节调类是相关的。调整后的一般分区解决方案中的集群6,7和9主要与音调类“33-23”,“25”和“22-32”相关联。
图9
图10.
- 讨论与结论
在本文中,我们提出了一种两级半自动化分区步骤从多话语者语料库中提取词汇语音变体和音调模式。
该程序将语音学家的语言知识与分区的客观程序相结合。所有步骤都符合k均值分区和感知磁体理论的运行逻辑,而手动标记仅限于词汇级别。
语音学家工作量的减少体现在不同方面。首先,可以引入相关方言的资源作为实验程序的参考,减少智
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。