英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
2019年第23届国际会议信息可视化(IV)
可视化音乐语义
Hugo Lima Carlos Santos Bianchi Meiguins
帕拉联邦大学(UFPA) 帕拉联邦大学(UFPA) 帕拉联邦大学(UFPA)
摘要:
我们介绍了SongVis,它是一种代表音乐语义描述符的可视化文件。SongVis使用表情符号,颜色,线条和形状来体现歌曲的语义内容。它旨在帮助用户完成与音乐库的浏览/浏览有关的任务,并根据视觉特征查询相似的曲目。在对“音乐可视化”主题进行论文调查之后,我们首先收集了描述符,并使用了问卷调查表以咨询公众意见。然后,使用最新的音乐信息检索算法提取情绪、舞蹈、节奏、音乐类型和乐器等特征,并考虑其视觉效果。最后,我们讨论了潜在的改进措施。
一、相关工作
音乐是在所有人类社会中普遍存在的一种社会现象。尽管是一种听觉现象,但许多尝试还是试图在视觉上呈现音乐。有些打算传达其内容,有些则只是作为一种艺术装置。尽管音乐可视化不是一个新话题(例如,古希腊人将音乐音色与颜色相关联),但很少有人试图代表它的主观内容。
需要听音乐以理解音乐,但是良好的视觉表示可以快速传递歌曲中所包含的信息,并且可能引入听觉没有注意到的特征。问题在于如何视觉上呈现一种有意义且自然的类比现象,这种类比现象在本质上是听觉上也依赖于感知的现象的语义。
最常见的视觉表示是波形。它呈现两个维度,一个是时间(几乎在所有构想的音乐可视化中都存在),另一个是幅度(与“响度”相关),并且在FreeSound [1]和Soundcloud [2]等流行的网站上使用。但是,波形表示没有提供有关主观内容的详细信息。另一个常见的表示形式是西方音乐广泛使用的通用音乐符号。它提供了各种音符以及有关如何弹奏这些音符的信息,而使读者/音乐家可以解释/执行乐曲。
没有可视化可以捕获和表示所有数据内容,因此可以构想根据每个细分市场或必要性的专门化可视化。在与探索有关的任务上,例如浏览音乐库,更希望将一些描述符可视化。我们的建议基于以下前提:当用户寻找音乐时,他们会对某些功能感兴趣,例如:情绪,舞蹈性,流派,音乐的速度等等。我们在咨询了最具代表性的特征后会考虑先前的功能与音乐可视化主题相关的论文中。
该建议为用户提供了一个机会,可以在迅速凝视歌曲的视觉表示时留下更好的理解,而留下较少表现力的视觉表示。音乐目录可以受益,因为音乐的表现形式更加有趣,主要是基于其抽象内容-超越了基本的“时间” X经典波形表示使用的“幅度”。我们希望我们的可视化提案能够在执行以下任务时为用户提供帮助:浏览音乐库以查找新歌曲,基于其视觉表示对相似歌曲进行分组(相似歌曲具有相似的视觉效果),识别歌曲中的模式(例如检查重复结构)),根据所需的视觉功能过滤数据库以及与音乐收藏和音乐分析有关的许多其他任务。
我们的贡献如下:
- 我们调查了公众在描述歌曲时认为哪些特征最重要;
- 建立了由抽象特征组成的可视化原型。
- 信息可视化技术,例如:字形,图案,颜色和形状,广泛用于表示所选特征;
- 表情符号代表了大多数功能,以一种新颖的方式利用“世界知识”。
- 歌曲可以通过视觉效果进行比较,视觉效果直接代表抽象特征。
- 提供了交互功能,并突出显示了通常对浏览和分析任务很重要的功能;
- 旨在解决特征和视觉表示之间的现有语义鸿沟,已迈出了一步[3]。
二、相关工作
与代表定量特征(即,使用信号处理算法提取的某种稳定特征)的研究数量相比,在“音乐的语义描述符的可视化”主题中发表的论文数量很少。从旨在视觉上代表音乐语义的一些建议中,我们可以参考Ciuha等人的著作。[4],在其中他们为音乐间隔及其和声分配颜色,饱和度用于表示响度。
图1使用Songvis编译音乐可视化效果。中间是Songvis的布局,显示每个部分的名称,底部显示布局尺寸的计算。1.第一个示例描绘了鲍勃·迪伦(Bob dylan)的歌曲“我想要你”,主要显示了音乐文件的波形和顶部的表情符号,代表5种特征;2.代表序曲“ op。28 – 12.在“ F尖调未成年人”中,由弗雷德里克·肖邦(Frederic Chopin)创作,并在图片底部的平铺地图中突出显示了“心情”:蓝色调的大量出现表明这首歌很伤心。3.绿洲代表歌曲“ wonderwall”,其下半部分(称为“波浪部分”)以bpm表示变化;4.大卫·鲍伊(David Bowie)的歌曲“最漂亮的明星”,将“情绪”选择器和“ bpm /速度”选择器组合在一起;
Wing-YiChan等。[5]开发了通用音乐符号(CMN)的修改版本;并将颜色,形状和纹理映射到高级特征,例如音色,旋律轮廓和谐波张力;这样,用户可以更轻松地注意到音乐结构中的模式。尽管他们主动表示语义关系,但它们仅代表了少量的高级功能。另外,它们的主要目的是使活页乐谱的记号变得更容易,因此,他们的动机是为了解音乐记谱法的音乐家提供音乐分析任务。我们的建议有所不同,因为它代表了更多高级功能,并且侧重于针对公众的搜索/浏览和简单分析任务。
其他需要注意的建议是:Gumulia等。[6],用圆圈和正方形表示构图在时域上的感知速度;Wattenberg等。[7]建议使用弧线指出音乐中的重复部分;Malandrino等。[8]出版了“ Visuall-larmony”,该工具可帮助用户完成分析任务,主要是有关研究音调和声,突出段落和更重要的音符/和弦的任务。格栅等。[9]代表了结构声音的感知质量,这些声音是固定的声音,即不会随时间变化。它们被组装在一张瓷砖地图中,形成了声音多样性的视觉表示。作者将高音量和低音量映射到亮度和色相的变化。色调和嘈杂的听觉结构被映射到饱和度的变化;和其他功能,旨在代表整个集合的结构及其单个元素的属性。
诸如Apple Music [10],Spotify [11]和Google Play Music [12]之类的商业平台,使用专辑封面或歌手的照片仅为说明目的。我们认为视觉表示将帮助用户根据自己的视觉找到相似的曲目或新曲目。
但是,对于文献中的音乐库,[13]用突出显示最突出特征的彩色矩形条表示每首歌曲;他们设计了一种特征提取器,可以捕获要表示的最相关的和弦序列。[14]使用连接的语料库图根据歌曲的旋律结构来映射歌曲之间的相似性;他们的目的是对传统乐曲中的旋律关系进行视觉探索。通过连接的顶点表示曲调。[15]还使用了图表,每首歌都由一个节点表示,并通过其梅尔频率倒谱系数(MFCC)放置在屏幕上;在这方面,类似的曲调彼此靠近。可以看出,大多数建议仅提供基本表示形式,而与它们是否对目标用户有用无关,特别是在与音乐收藏中的歌曲比较相关的任务上。
本节中提到的所有参考文献,尽管有其局限性,但都参考了SongVis,因为它们的许多目标都与我们的目标相似,即:它们突出显示了模式,代表了特征的可感知性,以视觉方式代表了主观特征,通过视觉和视觉手段代表了内容。运用了从简单到复杂的各种信息可视化(InfoVis)技术来满足其目的。咨询的大多数音乐可视化旨在表示一些功能,大多数缺乏形式化研究,而其他则缺乏实用性。我们通过实现有用的音乐可视化来解决所有这些问题;实用性强,可以被在线音乐库广泛采用,并结合了广泛的语义描述符。
三、可视化音乐语义
在本节中,我们介绍SongVis,这是一种音乐可视化效果,代表音乐的语义内容。经过与公众的简短调查,从一系列用于描述音乐的术语中选择了一组语义描述符。使用最先进的技术和与之相关的视觉隐喻来提取特征,例如:字形,颜色,形状,纹理和其他InfoVis技术。我们从选择普通公众认为最重要的语义描述符开始。讨论了它们的可视化表示形式,即,我们评估了可用于表示语义描述符的信息可视化技术。
A.选择语义描述符
为了调查哪些特征最能代表音乐的内容,我们调查了50篇与音乐的“语义表示”和“特征可视化”有关的论文。收集了用于描述音乐的词语,并准备了在线问卷,让用户对最重要的功能进行投票。通过这种方式,我们可以征求用户的意见,而不是随意定义我们想要表示的要素,而是假设投票最多的要素是要表示的最有趣的要素。
1)方法论
从文献中查阅的论文中,我们发现了48个用于描述音乐内容的术语。然后,我们将这些术语归为相似的类别,例如,将“悲伤”和“快乐”这两个词归为同一组“情绪”;例如,“和弦”,“音符”和“键”也可以属于同一类别,尽管每个术语所描述的内容有所不同。其他需要举例说明的类别,例如“乐器”,使受访者可以清楚地了解问卷是关于音乐描述的;“体裁”也是如此,需要举例说明,不要与其他体裁定义相混淆;我们认为“可跳舞性”也需要澄清,我们认为元组“可跳舞/不可跳舞”更容易理解。
最终结果是选择16种类别,如表I的“功能”列中所列。尽管假设以前的分类是公平的,但我们认为修改后的最终结果(即问卷)更容易被吸收。接下来的段落描述了问卷的结构以及访谈的方式。
问卷调查
编写了一份在线调查表以调查哪些是用于描述音乐的最重要功能。问卷的在线地址遍布社交媒体,并进行了一些访谈。有72个人回答了调查表,他们来自未知背景,即我们没有关注特定的群体,例如音乐家或非音乐家,但让每个人都参与以涵盖最普遍的回答。这样,可以进行更一般的可视化,从而减少了了解背景知识的必要知识。
表I x“弹奏乐器”和“不弹奏乐器”列是响应的平均值,“出现次数”列是平均值的总和
问卷的第一部分包含有关个人的年龄,性别以及他/她是否弹奏乐器的信息(39个弹奏乐器,33个没有弹奏乐器)。第二部分是三个问题,它们是摘要:根据他/她的意见对最重要特征的一般性问题,以及涉及音乐描述的其他两个问题。允许答卷人写下他们想要的选项数量,但始终会建议您选择“最多五个类别”。每当受访者加载页面时,就对每个问题的功能进行随机排序,迫使他们阅读列出的所有16个类别,以搜索所需的选项。歌曲还从9种不同流派的范围中随机加载,每种流派2首样本歌曲。
2)结果
先前收集的响应导致“发生 X功能”表(表I)。对于可视化,我们只考虑了被至少1/3所咨询用户打分的特征,因此,我们减少了要表示的特征数量,并着重研究以获得足够的视觉表示。
B.提取语义描述符
我们使用Essentia [16]提取先前选择的特征。Essentia是一个用于音频分析的开源库,它具有用于音乐信息检索(MIR)的广泛算法集合,能够提取低级和高级功能。低级特征主要是声学描述符,它依赖于信号处理技术,并且其值是稳定的。另一方面,使用预先训练的数据(在Essentia情况下为Support-Vector Machines(SVM))提取高级描述符,并且分类器的准确性会根据所使用的技术和数据集而变化。
Python脚本组织了对Essentia API的多次调用,并输出一个JSON文件,其中包含SongVis的三个部分的大致信息:“波形”,“ wavesection”和“ glyphsection1”。提取音频样本(每秒10个样本),然后用于在SongVis中绘制波形表示。对于波状截面,将总样本分为20个块,每个块包含以下四个频段的平均bpm(avg_bpm),平均情绪(avg_mood),强峰值(strong_peak)和平均能量的值:低 [20, 150] Hz,中低 [ 150,800 ] Hz,中高 [ 800,4000 ] Hz和高 [ 4000,20000 ] Hz。最后,字形部分包含以下内容的概率值:流派,主要乐器,bpm,舞蹈性,情绪。在以下段落中,将详细介绍如何提取每个功能。
1)类型
数据集genre_rosamerica [17]用于流派,其准确度为87%,并考虑以下类别:古典,舞蹈,嘻哈,爵士,流行,节奏和布鲁斯,摇滚。
2)仪器
我们使用IRMAS数据集训练了一个定制的SVM模型,用于检测音乐文件中的“主要乐器” [18]。在以下类别中,我们达到了74%的总体准确度:大提琴,单簧管,长笛,原声吉他,电吉他,风琴,钢琴,萨克斯管,小号,小提琴和人类唱歌声。
3)节奏
Essentia的节奏提取器上有一个BPM检测器。根据音乐节奏的经典细分,从Larghissimo(小于24 BPM)到Prestissimo(高达200 BPM)[19],我们在两个字形之间进行了划分,一个是“慢速”节奏(小于108 BPM)。另一个用于“快速”节奏(高于108 BPM)。
4)心情
为了检测“情绪”,我们使用了Essentia提供的mood_happy默认模型。SongVis中使用从0到1的概率来选择相应的图标。结果是考虑音乐片段“多么高兴”的可能性。因此,我们使用概率将N
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238760],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。