英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
音乐信息检索评价交流(2005–2007):音乐信息检索研究的一个窗口
J. Stephen Downie Graduate School of Library and Information Science,
University of Illinois at Urbana-Champaign
摘要:音乐信息检索评估交换(MIREX)是基于社区的音乐信息检索系统和算法的正式评估框架。通过观察MIREX的背景、结构、挑战和贡献,本文提供了对MIREX研究世界的一些见解。因为MIREX任务是由社区定义的,所以它们反映了整个社区的兴趣、技术和研究范式。MIREX和MIR都强烈倾向于基于音频的方法,因为大多数MIR研究人员在信号处理方面都有优势。基于光谱的MIR任务方法已导致MIR领域的进步,但它们现在似乎达到了其有效性的极限。这种限制被称为“玻璃天花板”问题,MIREX结果数据支持其存在。对MIREX结果数据的事后分析表明,在各种MIREX任务中,有几组系统表现同样良好。MIREX和MIR研究面临许多挑战,其中大多数挑战的根源在于围绕音乐的知识产权问题。目前,研究人员无法在一年一度的MIREX周期之外用MIREX测试集测试他们的方法,这阻碍了改进的MIREX系统的快速发展。
关键词:音乐信息检索,评价,MIREX
- 介绍
音乐信息检索是一个多学科的研究领域,它借鉴了非常广泛的学科的传统、方法和技术[1]。这些学科的不完整列表包括声学、心理声学、信号处理、计算机科学、音乐学、图书馆学、信息学和机器学习等。不管在什么样的学科范式下进行,音乐研究的主要目标是提供一个与基于文本的搜索引擎目前提供的水平相当或更高的访问世界上大量音乐存储的水平。因为音乐是声学、节奏、和声、结构和文化现象的复杂混合体,所以MIR研究面临的巨大挑战是开发以自己的方式处理音乐的检索系统。也就是说,音乐研究人员努力建立检索系统,其中的音乐本身,无论它是在听觉表示(例如MP3,WAV等)。)或符号(如MIDI、乐谱等。)格式(或两者)是用户与系统交互的主要机制。简而言之,MIR研究希望开发一种系统,允许用户使用带有音乐框架的查询来搜索音乐内容。音乐框架查询可以包括诸如通过歌唱查询、通过示例查询(例如,提交已知的MP3以找到相似的片段)和/或通过注释查询(例如,在五线谱上放置音符以形成查询)等技术。对于那些新的MIR领域,[2]和[3]是推荐的介绍性概述。还建议仔细阅读国际音乐信息检索会议(ISMIR)的会议记录[4]。如果一个人希望了解重要的问题、趋势和在音乐信息检索研究中的进展,他应该从检查音乐信息检索评估交换(MIREX)的基础设施、挑战、评估结果和未来目标开始。MIREX代表了一个基于社区的框架,用于对与MIR相关的算法和技术进行正式评估。MIREX由伊利诺伊大学厄巴纳卡姆佩恩分校的国际音乐信息检索系统评估实验室(IMIRSEL) [5]协调和管理。自2005年成立[6]以来,已经进行了三次MIREX年度评估,涵盖了一系列任务,这些任务紧密模拟了许多主要的MIREX研究领域。与MIREX 2005、2006和2007相关的任务如表1所示。
表一 MIREX 2005年、2006年和2007年的任务列表(对每个任务的运行次数进行评估)。
(从上往下依次为)
1.音频艺术家识别 2.音频节拍跟踪3.音频古典作曲家识别4.音频封面歌曲识别5.音频鼓检测6.音频流派分类7.音频键查找8.音频旋律提取9.音频情绪分类10.音频音乐相似性和检索
11.音频开始检测12.音频速度提取13.多重F0估计14.多重F0音符跟踪15.关于歌声或嗡嗡声的疑问16.分数跟踪17.象征体裁分类18.符号键查找19.象征性旋律相似性
通过观察MIREX的背景、结构、挑战、主要贡献和未来,本文将提供一个进入更大的MIREX研究世界的窗口。第2节概述了MIREX的基本背景和基础设施,并解释了MIREX如何反映MIREX社区的利益。第3节强调了MIREX和MIR研究总体上面临的主要挑战。第4节深入讨论了MIREX对MIR研究做出的两个关键贡献。第5节总结了我们对MIREX和MIR问题的探索,并介绍了一个新的研究联盟,该联盟旨在提高MIREX和MIR未来研究的可行性和生产率。本文最后提供了如何参与MIREX和MIR社区的信息。
2.MIREX 2005、2006和2007任务
2.1 背景和基础设施
2004年,庞培法布拉大学的音乐技术组(MTG)作为2004年国际音乐多媒体展的主办方,举办了“音频描述比赛”(ADC) [7]。模数转换器是MIREX的直接前身,更雄心勃勃的MIREX从中吸取了许多教训。ADC和MIREX都受到文本检索会议(TREC)框架[8,9]的启发,因此在总体评估方法上有许多相似之处。模数转换器,MIREX和TREC是基于1:1的标准化。重要规模的测试集合;2.要对测试集合执行的任务和/或查询;和3。用于评估任务/查询生成的结果的评估方法。与TREC一样,每年一次的MIREX的任务定义和评估方法在很大程度上是由社区通过各种沟通渠道讨论决定的。对于MIREX,社区使用一个特殊的邮件列表进行社区范围的输入(gt; 300个订户),并使用一组专用的维基空间1进行特定任务的辩论和定义。该社区传统上在早春开始任务讨论,当热切的研究人员表示对特定任务感兴趣时。如果表现出兴趣,自定的任务负责人建立一个维基空间,在这里感兴趣的各方可以提炼他们关于测试集合、要评估的任务、要使用的度量标准以及算法将遵循的输入/输出格式的想法。如果所有这些部分结合在一起,并且至少有三名研究人员愿意参与,MIREX将把这项任务纳入其官方评估集。评估本身在每年的7月和8月进行。最终结果以及一些原始性能数据将在年度ISMIR会议(9月或10月)之前发布到MIREX Wiki上。在一年一度的ISMIR会议上,MIREX举行海报会议(预计所有与会者都将对此做出贡献),并召开为期半天的MIREX全体会议,讨论成功和失败,并规划未来的MIREX评估。特别鼓励读者访问MIREX Wiki,查看任务辩论和结果报告。参与者应提交描述被评估技术的扩展摘要,这些摘要也可在MIREX Wiki上获得。
2.2 MIREX是MIR研究的反映
表1突出了一些关于MIREX和MIR的有趣事实。在2005-2007年期间,已经确定并运行了19项不同的任务。因为有些任务已经运行了多年,其中有些任务包含几个子任务,总共运行了35个任务“集合”。
表二:MIREX 2005、2006和2007年的汇总数据。
- 任务(和子任务) 集 的数量2.团队数量3.个体数4.国家数量5.运行的数量
在定义的19个不同的任务中,只有三个(SG、SMS和SK)是符号域中的任务。其余16项任务(84%)是采用音频处理技术的任务。SF和QBSH这两个任务虽然包含在基于音频的任务类中,但实际上是混合任务,因为它们都接受音频输入,并试图将其与底层符号表示进行匹配。据表2所示,在MIREX的三年历史中,评估的算法数量急剧增加(总共300个算法)。同样,我们看到这300次测试中有257次(86%)是在评估基于音频的技术。有几个原因可以解释为什么基于听觉的研究在MIREX和MIR中占主导地位。首先,许多MIR研究人员来自一个信号处理研究学科(如电气工程、声学、语音处理等)。).因此可以理解的是,这些研究人员将他们的音频技能应用于MIR问题。第二,从个人CD收藏、MP3收藏、iTunes等资源中收集音乐信息相对容易。另一方面,大规模的数字编码符号/记谱法音乐收藏是非常罕见的,这些音乐容易获得并且不局限于“古典”音乐风格。这种稀有性是象征性MIR技术发展的一个重大障碍。第三,对于那些在音乐领域有专长的人来说,这可能更麻烦,因为它认为以音频形式处理音乐比处理符号形式需要更少的音乐特定知识(即,一个人需要能够阅读和理解音乐,才能以非琐碎的方式处理符号音乐表示)。请注意,在一个名为“音乐信息检索”的领域中,19个任务(AMS、短信和QBSH)中只有3个(16%)表示标准意义上的信息检索任务,即呈现查询和返回项目。MIREX任务中的五项(26%)是在机器学习社区的传统训练测试交叉验证范例中构建的。其中9项(47%)任务可以用评估“低水平”MIR子组件(AB、AD、AK、AME、AO、AT、MFT、MFE和SK)来描述。这种低水平的分类表明,如果未来的音乐识别系统要真正按照自己的方式处理音乐及其多方面的复杂性,被评估的技术必然会被纳入这些系统。例如,在最底层,是一组音频开始(AO)技术,用于表示音频流中具有音乐意义的事件的确切位置。如果AO问题得到圆满解决,将有助于AB、AD、AME、AT、MFT、MFE等其他低级任务的执行。这些低层次的任务将依次用于提取/构建音乐上必要的特征,如旋律形状、和声进行和节奏模式等。有用的微波成像系统将依赖于此。因此,在我看来,MIREX执行的“低水平”和红外任务数量之间的三倍差距准确地反映了MIR空间站社区的普遍共识,即MIR空间站研究首先需要将其注意力放在低水平研究问题上,未来MIR空间站系统的成功依赖于这些问题。在继续讨论运行MIREX带来的挑战之前,我想提请读者注意MIREX缺乏处理可用性和界面问题的任务。这两个领域都是重要而活跃的MIR研究领域。因为可用性和界面的评估涉及评估者的一定数量的定性判断,所以已经证明很难正确地设计正式的MIREX可用性和界面任务定义。关于如何克服MIREX这一严重缺点的讨论正在进行中。
- 管理MIREX的挑战
尽管很大程度上受TREC的启发,但MIREX与TREC的显著不同之处在于,每项任务的数据集并不是免费分发给参与者的。缺乏免费可用数据集的主要原因是音乐知识产权版权实施的现状。关于美国唱片业协会(RIAA)对那些被指控在点对点网络上分享音乐的人提起诉讼的新闻故事不断,对媒体研究和数据共享产生了深远的寒蝉效应。尽管在“合理使用”或“公平交易”版权原则下存在潜在的抗辩,但没有高级研究人员或实验室管理人员希望在此类诉讼中被点名,也不想承担可能被证明是不成功的抗辩的费用。因此,由于无法自由分发测试收集数据,MIREX采用了一种模式,即所有评估数据都存储在一个中心位置(IMIRSEL)。MIREX的参与者然后将他们的算法提交给IMIRSEL,根据数据集合运行。这种集中式算法到数据的模型为IMIRSEL团队和整个社区管理和执行每年的MIREX带来了一系列独特的挑战。下面的讨论强调了MIREX继续面临的七大挑战。
-
测试收集数据的简单获取充满了耗时的危险。有时这些数据是由对某项特定任务感兴趣的实验室捐赠的(或以成本价购买的)。有时(很少)是唱片公司捐赠的。有时(最常见的)它们是直接从商业来源购买的(这可能会对IMIRSEL的研究预算造成压力)。因此,每年要花费数百个小时来查找、收集和管理各种各样的评估内容。然而,与机构利益相关者之间正式使用条款协议的谈判相比,这算不了什么。随着机构法律和行政团队的介入,协商这些使用条款协议会耗费大量时间。
2.真实数据的获取产生了自己的一系列挑战。高质量的真实数据生产成本很高。即使数据是由志愿者创建的,也必须为其创建分配大量资源。这使得即使是最慷慨的实验室也不愿与MIREX分享基本事实数据集。地面真实数据的缺乏导致像美国电话电报公司、AME公司、澳大利亚国家航空公司和美国国家航空公司等使用与前几年相同的地面真实数据的任务重新运行。事实上,AO在MIREX 2005、2006和2007年的每一次会议上都使用了相同的基础事实。这种情况使这些评估任务处于被正在评估的算法过度使用的危险中,这可能严重降低结果数据的未来效用。
3.一些评估任务属于人类主题研究的范畴,这会极大地增加管理费用。例如,医疗辅助系统和短信任务,其中系统由志愿者临时评估,他们比较查询和返回的结果的相似性,这两个任务都被伊利诺伊大学的机构审查委员会认为是人类研究的主题。这一决定启动了美国联邦法律必须遵循的一整套法律要求和保障措施。这些保障措施包括构建正式的研究方案并获得外部批准,建立知情同意机制,筛选未成年评估者,以及对结果数据进行特殊处理以确保评估者的保密性。
4.经验表明,MIREX团队很有可能破坏或错误注释测试集合和/或地面真实数据。这迫使MIREX采用连续的数据完整性测试机制。例如,在人工智能任务中出现了这个问题,其中发现一些基本事实注释被错误地标注。在自动组和自动组任务的上下文中,从在线来源获取的元数据信息被发现是不正确的,必须手工更正。对于AK和SK,我们发现评估数据上的一些关键签名标签也不正确。由于这些关键签名标签旨在形成基本事实,IMIRSEL不得不召集一个具有完美音高的本科音乐专业学生来验证1252个测试集合文件中的每个文件的关键。
5.MIREX目前的算法到数据模型带来了基础设施容量问题。例如,MIREX音乐收藏目前包含超过2 TB的音频数据,代表大约30,000首曲目,分为流行、古典和美国子收藏。此外,许多算法在执行过程中会生成大量中间数据,这些数据也必须得到管理。在某些情况下,中间数据的大小比它们描述和表示的实际音乐大。使用短时傅立叶变换(STFT)技术的算法特别容易出现这种中间数据爆炸问题。由于空间限制,MIREX一直在丢弃各种算法生成的特征集。我们认为这是MIR社区的一个重大损失,因为这些特征集反过来可以被研究人员在新的实验中重复使用。尽管算法生成的原始评估输出也可能相当大和多样,但MIREX确实有保留这些原始输出的正式政策。该政策旨在鼓励社区在评估任务的二次分析中重新使用原始输出数据。尽管本政策会带来归档负担,但提供对这些输出集的访问有助于机构群体发现并纠正评估错误,例如,关于AO和AB任务的评估错误。 -
提交算法的管理是IMIRS
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[263952],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。