英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
歌唱语音检测方法的比较研究
引言 检测音轨的段中的歌唱段是音乐信号处理和检索中的重要且有用的技术。在本文中,我们使用具有各种特征的HMM(隐马尔科夫模型)分类器,包括MFCC(梅尔频率倒谱系数),LPCC(线性预测倒谱系数)和LPC(线性预测系数)来研究检测歌唱段的准确性。模拟结果表明,在音轨中检测歌唱段比在纯乐器段中检测它们更困难。此外,组合MFCC和LPCC产生更高的精度。自助抽样法仅具有有限的精度改进以检测音带中的所有歌唱段。为了完整,我们还进行了一个实验,表明如果我们将歌声检测手法纳入识别过程,进行音乐识别的时间可以减少40%以上。
关键词 MFCC LPCC HMM 声乐 自助抽样法 音乐识别
1.简介
我们生活在一个拥有很多多媒体内容的世界。在这中,音乐内容非常受欢迎。对于个人使用,不难仅靠双手管理和搜索一个小集合的音轨。或者,我们可以使用智能手机来协助管理[6]。然而,对于一个商业网站,情况是完全不同的。例如,一个大型音乐网站可能包含多达150亿首歌曲[7]。对于这样大的数据库,如何搜索歌曲标题是非常不重要的,特别是如果用户不知道音乐的标题或艺术家。对于这个问题,一个可能的解决方案是使用基于内容的查询[22]。具体来说,假设某人碰巧听到他/她喜欢的歌曲,他/她可以记录一段声音,并将其用作数据库查询。这种技术被称为逐例查询,一种基于音乐识别的技术。
虽然逐例查询技术对用户非常方便,但搜索整个数据库可能非常耗时。因此,很少使用PCM(脉冲编码调制)样本进行比较,因为计算复杂度太高[21,22]。为了更实际的实现,用称为音频指纹[3]的音频特征来表示用于比较的音频样本的片段。这样做,大大降低了比较复杂性。
为了进一步降低比较复杂度,我们可以根据内容的音乐流派,如摇滚,流行,乡村,经典等等,在数据库中安排音频内容[4]。然后,将音乐内容划分成多个数据库,每个数据库一个类型。查询项目时,仅搜索与查询具有相同流派的数据库。因此,减少了搜索时间。虽然这样的策略是可行的,但是确定短音频段的类型不容易也不可靠。另一种可能是将包含艺术家唱歌(具有或没有乐器伴奏)的音轨与不包含歌唱声音(即,只有乐器演奏)的歌曲进行区分。与音乐类型分类相比,这种类型的分类相对更容易。在下文中,我们将使用术语“声乐片段”来指示包含歌唱声音声带的一个片段,并且对于仅具有乐器内容的片段使用“非声乐片段”。
声乐数据库
非声乐数据库
声乐
查询
图1 带有声乐和非声乐数据库的两步查询
一旦数据库中的所有声轨被分为声乐和非声乐,则查询过程包含两个步骤,如图1所示。首先,查询音频被分类为声乐片段或非声乐片段。第二,如果查询是vocal,则搜索声乐数据库。否则,搜索非声乐数据库。由于仅在数据库中的可用声轨的一部分上执行搜索,因此减少了搜索复杂度。为了具有最高可能的准确度,在现实中,如果声音查询被确定为不在声乐数据库中,则还应当搜索非声乐数据库。即使如此,我们将在第4.5节中显示,搜索复杂度可以显著降低。
为了实现这个查询策略,我们需要考虑两个不同的阶段,即在数据库构建期间和查询操作期间。在构建阶段,我们需要检测整个声轨的声乐片段。另一方面,当用户向数据库查询时,仅考虑查询段(通常具有几秒的持续时间)。在下文中,我们将整个音轨的标识称为全段检测,并且将查询的标识称为孤立段检测。对于全段检测问题,可以进行额外的后处理步骤(参见第4节)以提高检测精度。然而,对于孤立段检测,不可能执行任何后处理,因为查询是从不同的跟踪摘录的。虽然这两种类型的识别问题不完全相同,但它们具有一些共同的基础,例如相同的特征提取过程和分类器。此外,由于孤立段问题的精度严重依赖于“代表性”修整段,更多样化的修整样本(段)通常导致更好的分类性能。因此,如何获得更多的修整段是一个重要的问题。对于大多数实验,不幸的是,修整部分是实验者为了获得基本事实定制和检查。因此,修整段很小。如果可以有效地解决全部段识别问题,则可以从所有种类的音乐类型自动地生成修整样本。因此,可以有效地进行实验。
虽然全段和孤立段是不同的检测问题,不幸的是,大多数研究论文在文献中没有明确区分这两种情况。实际上,大多数论文考虑全部段问题,但不是孤立段。为了知道文献中的技术和结论是否也可以用于孤立段,我们对孤立段和全段问题都应用现有技术,并观察精度。此外,我们还考虑了其他研究人员没有解决的三个问题。第一个是我们是否可以设计一个梅尔规模方程[10,14],使MFCC(梅尔频率倒谱系数)[1]特征可以提供更好的识别检测(也见第3节)。第二个是区分两种不同类型的非声乐片段。第一类是一个纯粹的乐器演奏音乐的节录,如钢琴独奏或乐团演奏。第二种是来自歌曲配乐的只有乐器的部分。知道他们的识别率,未来的研究人员可以专注于更困难的类型的问题。最后一个是在图1中给出的想法实际上是否有用。为了回答所有的问题,我们设计了四个实验并报告结果。
本文组织如下:第二部分简要回顾了相关工作。第三部分介绍了所使用的特征和分类器的基本知识。实验和结果在第四部分中给出。最后,第五部分是结论。
2.相关工作
Berenzwei和Ellis[2]使用从神经网络获得的后验概率特征来修整用于识别音频记录中的歌唱段的HMM(隐马尔可夫模型)。他们的实验结果表明,精度约为80%。虽然实验中的测试音频样本只有15秒,但他们的工作与前面提到的全部段问题有关。
Vembu和Baumanny[18]研究了使用各种特征在音频记录中执行声乐与非声乐分段的准确性。他们发现,组合多种类型的功能产生更好的结果。通过使用平滑技术的三种不同类型的特征的组合,精度为大约84%。
为了识别音频文件中的歌唱段,Rocamora和Herrera[16]研究了各种类型的特征和不同的分类器。他们的结果表明,MFCC(梅尔频率倒谱系数)更好,精度为78%。
Lukashevich et al[11]还研究了将音轨分成声乐(唱歌)和非声乐片段的问题。他们还将MFCC作为第一步,然后使用ARMA(自回归移动平均)模型来平滑识别的结果。基于共同的努力,非声乐片段的准确度为90%,而声乐片段的准确度为75%。因此,平均为82.5%。
New et al。[13]使用多模型HMM来包含音乐的结构信息以检测音频文件中的声乐和非声乐片段。当与自助抽样法技术[17]结合时,精度为86.7%。
基于上述描述,我们知道所报告的精度在大约80%到87%之间,并且不容易实现高于90%的精度。此外,我们知道大多数研究人员专注于全部段识别问题。因此,考虑隔离段和全段问题是有意义的。
3实验特征和分类器
本节简要介绍实验中使用的特征和分类器。提出了许多特点来应对歌唱语音检测问题。在这些特征中,我们选择检查MFCC[1],LPC(线性预测系数)和LPCC(线性预测倒谱系数)的性能[15]。我们还给出了MPEG-7音频签名描述符的简要描述,其将在音频识别实验中用作音频指纹。
3.1 MFCC计算和变化
MFCC特征已经广泛地用于许多语音和音频识别问题中。可以通过以下步骤计算MFCC:
- 输入音频信号被分成短块。
- 每个块与窗口相乘,并且通过FFT(快速傅里叶变换)将加窗的样本转换到频域。
- 一个频带内的频率系数的功率(根据梅尔标度)在乘以三角形重叠窗口之后相加。然后,计算功率的对数。
- 通过对所有对数(功率)值应用离散余弦变换(DCT),变换的系数是MFCC。
然而,在实现方面,至少有两个方程来计算文献中的梅尔标度。广泛使用的等式如下[14]:
Lindsay&Norman[10]也提出了另一个MFCC方程
由于梅尔标度方程控制系数的计算,因此询问是否有更好的方法来“设计”方程以获得更好的识别率是有用的。基于我们的观察,我们知道低频部分在识别声音内容中更重要。因此,我们打算通过在低频分量中放置更多的频带来强调低频部分。为此,我们设计两个等式,如在(3)和(4)中给出。
图2描绘了所有四个方程的曲线。可以观察到(1)和(2)具有类似的曲线,而(3)和(4)的曲线具有低于1kHz的更陡的斜率。因此,(3)和(4)具有比(1)和(2)具有低于1kHz的更多频带(和更多系数)。
图2 MFCC曲线 曲线a是公式(1),b代表(2),c代表(3),d代表(4)
3.2 LPC和LPCC计算
给定信号x[n],我们可以通过P阶线性预测来计算x[n 1]预测器
其中R(k)是具有时间差k的信号的自相关。等式(6)可以通过Levinson-Durbin算法有效地求解。当然,直接求解(6)也是可能的。
基于计算的LPC系数,我们可以递归计算LPCC[15]。具体地,计算LPCC cm,0le;mle;N
其中sigma;2是信号的功率。
3.3分类器
为了区分声乐片段和非声乐片段,我们需要一个分类器。一些受欢迎分类器是HMM,高斯混合模型(GMM),神经网络,支持向量机(SVM)等。在可能的候选中,我们选择使用HMM作为分类器,因为它被广泛地用于具有良好性能的语音识别。HMM有两个变量。第一个假设模型只发送整数值(称为离散HMM),而第二个假设发射值是连续的(称为连续HMM)。离散HMM更容易使用,但它不适合当前的应用程序。在某种意义上,连续HMM是GMM的扩展。事实上,如果我们将连续HMM减少到仅一个状态,则HMM等价于GMM。GMM也是一个广泛使用的分类器,如检测森林火灾[19]。为了使用HMM作为分类器,我们需要首先修整模型。在修整阶段,我们分别从声乐和非声乐段获得特征(MFCC,LPC或LPCC)。这些特征用于修整两个HMM模型,一个用于声乐,另一个用于非声乐。在测试阶段期间,向两个模型呈现一段音频。在一个模型中,输入特征的似然性由维特比解码器计算。如果声乐HMM产生较高的可能性值,则传入段将其确定为声乐片段。另一方面,如果非声乐模型具有较高的似然值,则将该片段确定为非声乐片段。
3.4 MPEG-7音频签名描述符
MPEG-7(运动图像专家组)音频[8]包含低级和高级描述符。低级描述符是基于波形的时间和频谱特性计算的。它们可以独立使用,也可以用作高级描述符的构造块。所定义的高级描述符具有各种应用,例如作为声音识别和索引。在高级描述符中,我们使用音频签名描述符作为实验中的指纹。
MPEG-7音频签名描述符计算如下[8,21]:
- 通过使用FFT计算窗口化音频样本的频谱。窗口被窗口大小的三分之一覆叠。
- 将FFT系数划分为子带,其中每个子带具有四分之一的带宽。
- 找到每个子带的平坦度度量F(b)b。
- 在16个连续FFT窗口中找到子带b的F(b)的平均值。
- 平均值是描述符。
由于描述符是频谱时间特征,所以它们可以以矩阵形式布置,如图5所示。在该图中,描述符表示15-s音频的段。
4.实验结果
本节包含实验和结果。实验设置在4.1节中给出。然后,第4.2和4.3节涵盖实验以比较相关检测在隔离段检测的情况下的各种特征的精度。所有段检测的自助抽样法技术在第4.4节中进行了检查。为了完成,我们还在4.5节中进行实验,以通过将歌唱声音检测结合到音乐识别中来评估节省。
图3 MPEG-7音频签名描述符
4.1实验设置
为了在第4.2节和第4.3节进行实验,我们从各种音频专辑收集了大约300个音轨。歌唱音乐包括了男女艺术家流行,摇滚,乡村音乐等。只有乐器的音乐包括钢琴独奏,乐队协奏曲,长笛独奏,吉他独奏,等等。音轨中的声轨的采样率减小到16 ks/s,然后计算MFCC,LPC或LPCC特征。
我们打算在孤立片段实验中区分“声乐.纯乐器”和“声乐与间奏”这两个不同的问题,以便知道哪种类型的非声乐片段更难以检测。知道答案可能有助于研究人员使用这种类型的段进行后续实验。事实上,以前的文献在进行实验时没有做出这样的区分。
对于第4.2节和第4.3节中的实验,我们有两个独立的数据集用于“声乐.乐器”和“声乐与间奏”的情况。在“声乐.乐器”数据集中,修整和测试段是从两种声道中随机抽取的:来自歌唱音乐的声乐片段和来自纯乐器音乐的非声乐片段。对于“声乐与间奏”数据集,修整和测试部分都是从歌唱音乐。声乐和非声乐片段摘自歌唱和非歌唱部分(例如,介绍,过门,插曲或中断)。全部片段摘自上一段中提到的音轨。在每个数据集中,有530段5s音乐,其中265个是声乐,另外265个是非声乐。在530个部分中,75%是随机选择用于修整,其余的25%用于测试。
在全段检测的实验中,使用90个声轨作为测试项目。每个音轨都无缝地分为许多3-S段。手动检查特定段是否是有声的。如果段包含至少一秒的歌声,则该段被标记为声乐;否则,作为非声乐。在这个实验中,修整段包含150个声乐和170个非声乐片段。这些片段不是来自测试音轨,但可能来自同一专辑。
最后,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28420],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。