英语原文共 11 页
基于谐波聚类跟踪的和弦音频的实时旋律提取
Vipul Arora和Laxmidhar BEHERA, IEEE高级成员
摘要-从包含各种乐器的音乐表演中提取主要旋律是音乐信息检索和计算音乐学领域中最具挑战性的任务之一。本文提出了一种新的框架,通过在谐波聚类(梳状)的帮助下跟踪各种声源,然后利用声源的谐波强度确定主要的声源,实时估计主要的声乐旋律。新颖的实时谐波梳状聚类跟踪方法同时符合结构和时间约束。与跟踪音调值的现有方法相比,它依赖于强大的高次谐波来抵抗由于低频伴奏引起的一次谐波失真的鲁棒性。主要的声源识别取决于识别得分的源依赖过滤的新颖思想,其允许算法实时实现。所提出的方法虽然是实时的,但显示出明显优于我们对用于声乐旋律提取的最先进的离线方法的实现。评估还显示了八度音程误差的减少以及新颖分数滤波技术在提高性能方面的有效性。
关键词:音乐信息检索,音高跟踪,声学谐波,声乐旋律估计
I. 引言
人类听觉系统具有很强的聚焦能力,它能有效聚焦于混合声音中特定声源和特定性质的声音。但从数学上讲,由于各种约束条件,例如自由度太低,这个问题非常困难。对于语音信号,这个问题被称为鸡尾酒会问题。在音乐信号中,这个问题有许多研究课题,如乐器分离,旋律转录等。一般来说,歌曲包含各种音调的歌声以及打击乐器的声音。在这项工作中,我们将注意力集中在从单声道(即单声道,录音)的伴奏和打击乐伴奏的存在下估计来自单个歌手的歌声的旋律。在这里,复调(和弦)音乐一词用于表示单声道多伴奏音乐,而不是传统意义。此外,我们忽略歌曲中的语言信息,仅考虑旋律信息。该系统旨在实时提取主流旋律,在提高计算机参与现场音乐表演,基于查询的音乐搜索,音乐教学工具等方面有多种应用。
通常,音高与基频具有一对一的对应关系[1],但并非总是如此。在基频(F0)估计方面已经做了很多工作。但最近,复调(和弦)音乐的旋律转录已经成为一个活跃的研究课题[2],[3]。这在音乐信息检索中具有各种应用。与单声道声音相比,其在各种表现空间中的结构已得到很好的研究[4],复音声音包含具有重叠结构的声源,从而产生复杂的模式。通常,F0或各种音调源的谐波都是重叠的。此外,打击乐器会引入短时高能量爆发。
通过以各种形式表示信号并估计对应于F0的特征来执行F0的估计。大多数F0估计系统的基本架构如图1.1所示。音频信号中的信息传播被转换为合适的表示空间,信息可以方便地聚集到各种子空间中。每个子空间代表一个来源,可以可靠地提取。静态约束用于在单个时间范围内分析和聚类信息。动态约束模拟子空间随时间的演变,并有助于在连续的时间帧上聚类源信息。然后,聚类子空间为我们提供了对应于各种源的多个F0,其中使用谐波强度标准和仪器特定约束来选择在该工作中声音的一个特定源。
图1.1 声乐旋律提取的一般框架
时域方法基于识别声音波形的时间表示中的周期性重复结构,并且静态约束涉及基于自相关[5]和基于差函数[1]的特征来估计F0。基于计算听觉场景分析(CASA)的方法[6]使用滤波器组将音频分离成各种流,灵感来自人类听觉建模的心理声学线索。
在许多情况下,频域方法涉及基于短时傅里叶变换(STFT)的表示空间。
静态约束涉及模拟谐波源频谱的各种方式。[7]-[9]使用非负矩阵分解将频谱分解为频谱成分集。其他人认为谐波谱峰的聚类属于不同的源。许多作品[10],[11]形成了一个标量谐波显著性得分,它取决于谐波的功率和谐波峰值与估计值F0的整数倍的偏差。为了减少计算,一些工作[12]-[16]只考虑频谱中峰的频率、幅度和相位,而不考虑它们的形状。这些峰值称为正弦分量或部分分量,这种建模方法称为正弦分析。[14]讨论并比较了基于使用正弦分量制定谐波显著函数的各种F0的估计方法。[15]为基于谐波的音调检测开发了一种双向不匹配标准,[16]进一步用于从复调音乐中提取声乐旋律。
动态约束处理连续频谱上源的谐波结构的时间演变。该步骤提高了定位谐波源的效率,即使它们的振幅随时间变弱。它还有助于将连续频谱中的谐波结构分组为属于同一源。[17],[18]使用隐马尔可夫模型来模拟从频谱中得到的特征的时间演变过程。[19]中使用的谐波时间聚类方案定义了概率模型,以联合估计F0及其时间演变过程,从而将静态和动态约束组合成一个步骤。许多作品[8],[9],[16],[20]使用动态规划来寻找各种声源的F0轨迹。[21]用谐波GMM模拟旋律源,并使用卡尔曼滤波器框架和动态编程及时跟踪它们。[22]使用基于多智能体的跟踪的思想,其中在每个瞬间计算F0的概率密度函数(Probability Density Function, PDF)并且及时跟踪该PDF的峰值。
在正弦建模中,通常由于低频伴随干扰,一些谐波失真或丢失,而高次谐波通常受影响较小。在该时间范围内,如果算法可以依赖于这些未受影响的谐波,则可以使F0跟踪更加稳健。对于此任务,必须及时跟踪各个部分。维尔塔宁[23]提出了一种用于跟踪单个峰值的峰值延续算法。
在本文中,我们用轮廓空间表示音频信号,该轮廓空间由正弦分量组成。我们将F0估计任务视为该轮廓空间的两级聚类,第一级为静态聚类或频谱层的聚类,即在每个时间窗口中进行聚类,第二级为动态聚类,即穿过连续的时间窗口对各种声源进行聚类。我们开发了一个统一的框架,可以同时完成这两项任务,以便实时实现。这种方法受到卡尔曼滤波器框架的启发,该框架负责系统的结构和动态约束,以估计状态轨迹。谐波相关的轮廓空间的聚类被称为梳状聚类。每个梳状聚类旨在从单个源跟踪轮廓空间,有几个梳状聚类同时跟踪各种声调源。虽然其他工作使用F0和显着值进行动态约束,但我们的工作依赖于直接跟踪高次谐波。
接下来的任务是将一个旋律轨迹识别为主导(声音)轨迹,研究人员使用了一些方法。[24]使用从各个部分提取的特征来识别复调音乐中的乐器。但是由于年龄,性别,风格和人际声音特征,人声显示出各种各样的变化,这种方法尚待测试。许多研究人员[14]使用以各种方式量化的谐波强度(显著性函数)作为确定主要旋律的标准。[25]使用由于无意识抖动引起的声音音高轮廓的时间不稳定性的办法,以消除具有稳定F0轮廓的大音调乐器。[26]也使用抖动信息来增强旋律分量。[27]使用基于颤音特征的傅里叶变换对声音/乐器的音高轮廓进行估计并分类。在这项工作中,我们使用一系列滤波器开发了一种新颖的声乐旋律选择方案,旨在使系统实时实现。
在实时音高检测方面的工作很少[22],[28]-[30]。实时处理要求每个时间帧仅处理一次。此外,它限制了计算复杂性和算法的内存要求。[22]的实时旋律提取算法跟踪F0的轨迹,我们的算法依赖于高次谐波也对F0的轨迹进行了跟踪。
这项工作的新颖贡献包括 -(i)提出了一个实时旋律提取的统一框架;(ii)该框架依赖于用于跟踪的强高次谐波;(iii)设计了基于滤波器的声源选择方案。据我们所知,这些概念之前并未用于旋律提取。所提出的系统的总体流程图如图1.2所示。
图1.2 系统的总体流程图
第II,III,IV节描述了我们系统的主要模块,如图1.2所示。从提取轮廓空间开始,然后是谐波源跟踪模块,最后是声源识别模块。第五部分使用标准音乐数据库,对这项工作与另一种先进系统的性能进行了比较评估,并对这项工作中提出的一些新想法进行了论证。结论见第VI节。
II. 轮廓空间的提取
作为第一步,必须将信号转换为表示空间,该表示空间包含和弦中各种音调源的大部分相关信息。这是通过考虑离散傅里叶变换(DFT)空间中所有部分(幅度谱中的峰值)的频率和幅度来实现的。之所以选择这种表示是因为它的计算速度快,因此适合实时处理。
使用滑动的汉宁窗来计算单声道音乐录音的N点短时傅里叶变换,该汉宁窗的窗口长度为80毫秒。所选的N为采样频率Fs的量级,公式如公式2.1所示。选择这样大的N值不会增加频率解析负担(频率解析负担取决于窗口长度),反而它将离散化误差降低到小于1Hz。音乐信号主要是周期性的,声音音调在节奏上变化缓慢,因此,我们仍然选择较短的窗口长度,这样即使音高从一个音符转换到另一个音符时也能获得良好的估计。仅考虑STFT的幅度,忽略相位信息。
下一步是提取频谱中的峰(部分)。有多种方法可以提高部分估计精度。 Dressler [31]使用多分辨率FFT在不同的时频分辨率下计算STFT。为了更好地估计频率和幅度,一些人使用抛物线插值,基于频谱主瓣(以dB为单位)可以近似为抛物线的事实; 而其他人则使用基于相位声码器概念的瞬时频率信息。 Salamon等人[14]在旋律提取的背景下对这些部分提取算法进行了比较评估。然而,我们的工作使用最简单的方法,即频谱中仅局部最大值的幅度和频率。局部最大值是一个点,其幅度大于频率轴上其直接邻居的幅度。
分析范围限制为采样频率的一半或5 kHz,以最小值为准,因为这是发现具有显著幅度的声音谐波的区域。这些峰的幅度和频率用ak, fk(k=1,2,hellip;,K)表示,按幅度的递减顺序进行排序,形成完整的空间以备后续研究使用。这个空间被称为轮廓空间。下一个任务是将此空间聚类到与不同源相对应的子空间中。
III. 源跟踪系统
本节介绍如何使用谐波和动态约束将轮廓空间聚类到源子空间以及如何及时跟踪这些聚类。我们将这些聚类称为梳状聚类,以表示它们的谐波结构。源跟踪系统的主要模块如图3.1所示。
图3.1 谐波源跟踪系统的原理框图
Cc[n], c=1,2,hellip;,Nc表示的是第n个时刻(时间帧)的第c个梳状聚类的状态。Cc[n]中第h个轮廓空间的幅度和频率用Ac,h[n]和Fc,h[n]表示。Cc[n]包含与其相关的Nh个轮廓空间的频率和幅度信息,如公式3.1所示:
为了便于表示,我们省略了几个地方。在下面的讨论中,将使用到两个似然函数,因其不便表示,此处仅提及不做深入研究。
跟踪一组轮廓的梳状聚类Cc的状态必须在下一时刻更新。使用预测和度量更新完成此任务,如卡尔曼滤波器框架[32]。总之,谐波源跟踪系统完成的任务就是对多个轮廓空间进行聚类,由于声音的谐波在语谱图上看起来很像梳子,故这样的聚类称为梳状聚类。经过谐波源跟踪系统可以得到多个梳状聚类,但无法确定每个梳状聚类表示的是哪个声源。在下一节中,将处理这些梳状聚类,找到可以代表和弦音频主旋律的梳状聚类。
IV. 声源识别模块
在当前时刻出现的最大数量的Nc个梳状聚类中,必须识别出对应于声源的梳状聚类。
为了确定声音轮廓,使用谐波强度标准。第n个时刻的第c个梳状聚类的声音识别得分定义如公式4.1所示:
(4.1)
其他研究人员使用了识别标准而不是单个框架,而我们使用梳状聚类跟踪相同来源的方法通过使用一阶线性滤波器来平滑得分,在z域中表示如公式4.2所示:
(4.2)
如果在当前时刻选择声音,则这增强了在下一时刻也选择声源作为声乐的可能性。因此,由于伴奏强度的瞬间升高(例如在伴奏开始期间),即使它在特定时刻具有较少的显著性,它也有助于识别声带梳。这里,delta;S是一个小于1的正数。
很多时候,一些响亮的音调乐器得分更高,因此它们会降低识别质量。为了降低它们的分数,我们根据[25]中提出的办法开发了一种滤波器,这些乐器大多具有稳定的音高轮廓,而声带音高轮廓具有称为抖动的无意义不稳定性。使用标准差(SD)量化音高轮廓的稳定性,在有限数量的先前时刻(此处为20)计算。
用于获得声梳识别得分的方案如图4.1所示。总之,该方案包括计算每个声梳的谐波显著性得分,通过一阶平滑滤波器,然后通过基于抖动的滤波器对该得分进行滤波。过滤后具有最大分数的声梳被选定为所要跟踪的声源。
图4.1 获得声梳识别分数的方框示意图
用于整个旋律提取方案的算法以图4.2中的伪代码的形式给出。
V. 评估
所提出的用于旋律提取的谐波聚类跟踪方案(HCTM)通过两个步骤完成旋律提取任务,即谐波源跟踪和声音音调选择。因此,我们评估旋律提取的性能准确度,无需选择声源。前一个声梳告知是否有一个声梳正在跟踪声乐旋律。此性能不与任何现有系统进行比较,因为此工作与多F0跟踪无关。后者告诉完整HCTM系统的跟踪准确性。我们使用Nc=5,Nh=10。为我们实施HCTM选择的各种其他参数的值显示在表5.1中。这些参数是针对一位歌手启发式选择的,即Kenshin,并适用于其他歌手,没有歌手特定的调整。
图4.2 HCTM算法的伪代码
表5.1 HCTM的参数值
VI. 结论
在这项工作中,我们描述了一种谐波聚类跟踪系统,用于跟踪和弦音乐中的各种谐波源,并在其中识别基于各种启发式的主要声乐旋律。
这项工作的创新之处有如下几点:
(i)统一方法:大多数先前的方法分别应用静态和动态约束,首先应用静态约束,然后应用动态规划形式的动态约束。但是我们的方法是在跟踪的每个步骤同时使用这些约束的统一方法。因此,每个帧仅被遍历一次,这是实时处理所需的。
(ii)跟踪强高次谐波:虽然先前的方法使用维特比算法等跟踪lsquo;F0轨迹rsquo;,但我们的算法依赖于用于跟踪的“强高次谐波”。
(iii)
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。