英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
用上下文和内容进行信息挖掘的音乐推荐
作者:台湾成功大学的ja-Hwang Su、Hsin-Ho Yeh和Vincent S.Tseng
芝加哥伊利诺伊大学的Philip S.Yu
为了提供适合听众和情境的音乐推荐,uMender可以挖掘情景信息和音乐内容,然后考虑相关用户的评分。
像智能手机这类的移动设备变得受欢迎,它可以在不同的场景下实时的接收多媒体数据,并且变得越来越简单。通过适当配备的通信服务,用户可以很容易地获取他们想要的广泛分布的视频,音乐和文件。由于音乐的可用性和容量的需求,音乐比其他类型的多媒体数据更受欢迎。文档和视频很难在手机的小屏幕上观看,并且视频的大的数据量会导致检索的高额花销。但是先进的音乐压缩技术可以明显减少所需的存储空间,使得音乐数据的流通更加容易。这就意味着用户无需去音乐商店就可以直接从网上寻找到自己喜欢的音乐。因此,在过去的几年,帮助用户在大量的文档中找到自己所喜欢的音乐成为一个充满吸引力且具有挑战性的事情。下一代手机可能会提供这样的背景信息。因此,图1所示的无处不在的音乐推荐最近受到了相当的关注。在本文中,我们提出了无处不在的音乐推荐器(uMender),它通过挖掘音乐内容和上下文信息来解决音乐推荐问题。 对于音乐内容,我们提出了一种两阶段聚类方法,用于识别每个音乐项目的感知模式,其中包括隐藏在音乐中的声学和时间特征。考虑到这种模式,我们可以更精确地捕捉用户对音乐项目的聆听兴趣。 对于上下文信息,我们设计了一种新颖的解决方案来捕获用户在各种环境条件下的偏好。与传统方法中计算用户评分的相关系数不同,我们将用户在相似的情境条件下分组以找到隐含的,更适用的感知模式。通过对情景信息和音乐内容的综合挖掘,提供适当的无处不在的音乐建议。
概念基础
无处不在的音乐推荐的主要挑战是如何使用情景信息和音乐内容来有效发现用户的隐含兴趣。 为了应对这一挑战,我们根据可用的背景信息探索了采矿音乐的感知模式。uMender图2显示了我们推荐的推荐人的主要想法。基本上,我们的系统将音乐项目表示为指示音乐项目签名的变换符号序列。在CF原则的基础上,uMender将用户分类到相似的环境中,这意味着对音乐有着相似的兴趣。然后,uMender识别符合用户的聆听兴趣和当前情境的相关音乐项目。 uMender是一个创新的推荐者,它整合了音乐内容挖掘和上下文信息过滤,以实现高质量的无处不在的音乐推荐。
框架
如图3所示,uMender框架包括两个阶段:离线预处理和在线预测。在离线预处理过程中,系统根据用户的收听兴趣挖掘感知模式,这有助于在上下文信息的基础上进行在线偏好预测。
离线预处理
这个阶段的重点是音乐预处理,其中包括特征提取,两阶段聚类和音乐符号化。 因为我们提出的预测是基于音乐特征的,所以这个阶段对在线预测很重要。 我们的系统首先从数据库中的音乐中提取音乐特征。 接下来,通过两阶段聚类,它将每个音乐项目转换为由一组感知模式组成的连续符号字符串(也称为感知模式字符串)。
在线预测
当活跃的用户ui到达时,系统搜索评分矩阵和上下文日志以产生代表最相关用户和具有相似情境信息的音乐项目的改进子矩阵。然后,它会逐个预测每个音乐项目的评分。 对于每个音乐项目,系统将一组连续的模式编码为以窗口旁边方式的片段。 根据细化子矩阵的正负集合匹配的片段,系统可以使用基于模式的偏好预测来确定首选音乐项目。最后,系统生成推荐列表。
预处理阶段
到目前为止,基于音乐特征的音乐推荐的效果非常有限[2,3]。这是因为在将传统的低级特征转化为语义特征的过程中,用户的聆听兴趣模式可能会丢失,比如速度, 音调,节奏,音色等。 为了捕捉用户的聆听兴趣,我们提出了一种两阶段聚类方法,将音乐转换为一组连续的感知模式(图4)。 感知模式就像一个音乐项目的基因,通过声音和时间特征来表示音乐的签名。实验评估结果显示了感知模式的稳健性。 现在,我们展示如何从低级音乐特征中推导出感知模式。 在聚类之前,我们从音乐中提取低级特征。 对于MP3格式的音乐,我们在一秒钟内提取38帧,并在26 ms内用576个修正离散余弦变换(MDCT)系数表示每帧。 在我们的方法中,我们从576中选择36个重要系数来降低计算成本。 第一个聚类阶段(基于帧的聚类)通过计算Pearson相关系数将相似的帧分组为一个聚类。也就是说,它将具有相似频谱的帧分组以表示声学特征。 基本上,基于帧的聚类是一种分层分裂策略。我们的方法使用两个标准 - 比例和密度 - 作为分割每个叶节点的阈值。 比例表示集群中的总帧数; 密度表示集群确信半径中的帧数(可信半径指定集群质心周围的资格区域以验证密度的帧分布。)假设集群Cj由一组帧组成,并且c是Cj的质心。
术语dist(f,c)表示帧f和质心c之间的距离,如下所示其中| MDCT | = 36,mff i和mfc i是帧f和质心c的第i个MDCT系数特征; mff和mfc是帧f和质心c的平均MDCT值。 对于每个叶子节点,如果比例低于预设阈值,或者密度高于预设阈值,则不分割节点。 最后,当每个节点停止分裂时,分割过程停止。 在基于帧的聚类结束时,音乐的MDCT值被转换成一组符号。 实际上,音乐的声学特性可以用基于相关系数的符号表示。在基于帧的聚类之后,音乐流由一组顺序符号表示。 根据顺序符号,我们进入第二个聚类阶段,基于序列的聚类。 这个阶段考虑音乐的时间连续性。
为了捕捉两个音乐序列之间的时间关系,我们采用图5所示的序列比对作为距离函数,对基于分割的K均值算法进行预处理。 我们建议的方法可以部署任何几种当代聚类方法,如DBSCAN(基于密度的噪声应用空间聚类),CURE(使用代表进行聚类)或Birch(使用层次结构的平衡迭代缩减和聚类)。 在这篇文章中,我们采用了K-means作为我们的集群组件,因为它实现起来非常有效和简单。
在预处理阶段,我们采用符号字符串中的九个顺序符号作为执行对齐的子序列。 换句话说,帧速率为9.最后,一秒音乐可以被编码成四种感知模式,并且每个音乐串包含一组感知模式; 例如,30秒的音乐串由120个感知模式组成。 在基于序列的聚类之后,用于音乐的每个符号字符串可以被转换成一组连接感知模式。
在线预测
在线预测包括从上下文信息和前一阶段生成的感知模式推断用户的音乐偏好。一般而言,当活跃用户(ui)访问系统并激活推荐人时,此阶段开始。
首先,我们将涉及的用户项目矩阵MX定义为MXU→I [vn,m],其中U是用户集合{u1,u2,...,un},I是{itm1,itm2,..., itmm},v是评分值。 例如,假设MXU→I [vn,m]包含一组用户{Alice,Andre,Ben,Eric,Juice,David}和一组项{itm1,itm2,itm3,itm4,itm5},并且 在三次推荐交易中,Alice对物品{itm1,itm3,itm5}进行评级。 她的评价值是v1,1 = 3,v1,3 = 3,v1,5 = 5,n,第一个元组的其他值是0.也就是说,用户项目矩阵的相关元组是{3 ,0,3,0,5}。为了预测,我们提出的推荐人逐个检查与ui相关的目标项目。
第1步 生成精制的子矩阵
这一步骤的目标(图6中的1-3行)是在类似的环境条件下,找到与用户界面最相关的用户和项目。 然后,我们的推荐人将最相关的用户和项目存储在新的子矩阵中。表1列出了收集的上下文信息的不同维度以及每个维度的相关可能值。推荐人按照维度进行迭代过程以找到最相关的 用户和项目。上下文日志包含一组表示上下文条件集下项目上用户投票的上下文事务。 我们将一个日志事务定义为{UserName,HT,BT,AT,NV,HY,LT,M,T,S,LN,Rating(I)},其中Rating(I)表示{itm1,itm2 ,...,itmm}。表2给出了包含13个上下文事务的示例上下文日志。在这种情况下,第一事务表示Alice在上下文条件{HT = 79,BT = 35.9,AT = 25.0,NV = 54,HY = 80,LT =黑暗,M =停止,T =下午,S =夏天,LN =卧室}。
假设活跃用户的条件集为{HT = 88,BT = 36.4,AT = 33.0,NV = 50,HY = 20,LT = light,M = slow,T = morning,S = summer,LN = outdoor}。 对于心跳维度(HT),{Alice,Andre,Ben,Eric,Juice,David}的相似度集合为{1,1,2,1,0,0},其中0意味着不相关,其他数值意味着相关。类似地,根据HT,{itm1,itm2,itm3,itm4,itm5}的相似性集合是{1,1,1,2,0}。 通过确定相似性集合,按维度进行维度推荐,可以通过归一化得分计数来诱导最相关的用户和项目。
第2步 生成正面和负面的偏好项目集
从生成的子矩阵中,推荐人可以获得正面和负面的项目集(图6中的4-11行)。 这里,如果推荐人的评分值为3至5,则推荐人认为该项目是肯定的。否则,它将该项目视为否定(不喜欢)。 除了子矩阵之外,还有其他有用的收视率信息可供收集。第一种类型是基于用户的评分信息,它表示不在子矩阵中但已被活跃用户评分的项目。 第二种是基于项目的评分信息,表示目标项目的评分。 然后,我们分别从基于用户和基于项目的信息收集正面和负面项目集。 这些正面和负面的项目集为推荐者提供有用的偏好预测信息。
第3步 生成频繁的正片段和负片段
离线预处理阶段将音乐流转换为基于感知模式的字符串,我们可以将这些组合模式视为音乐基因。 因此,我们在这一步骤中的意图(图6中的12-13行;图7)是发现在正负集合中超过预设最小频率的模式。为了考虑模式的连续连续性和持续时间, 被称为滑动窗口(在图6中定义为winsize)的子序列沿着序列滑动以生成片段,每个片段由四个连续图案组成。 图7显示了挖掘频繁片段以代表活动用户潜在的积极和消极偏好的过程。
步骤4.预测基于模式的偏好
包含频繁正片段的项目可被视为潜在推荐。 但是,该项目也可能包含频繁的负片段。 确定该项目是否是用于ui的良好建议是一项具有挑战性的任务。 为了解决这个问题(图6中的14-32行),推荐人使用兴趣度量来判断项目目标的偏好程度。其中ts是目标片段,P_degree和N_degree是片段的正负频率(出现次数)(通过计数来自正片和负片的片段的出现而获得),并且TFIDF表示片段ts的权重。 假设在I和tsisin;DS中存在一组不同的片段DS。 我们为ts定义TFIDF。
事实上,关于模式可区分性,TFIDF有助于识别片段。 也就是说,如果TFIDFts很高,ts是对targetitm内容的很好描述。 关于频率逆文档频率(tf-idf)加权方案,我们可以将Interest作为根据正负频率之间的累积差异导出的加权度来查看。 在计算活跃用户未分级的目标项目的兴趣值之后,推荐者可以通过相关兴趣值对目标项目进行排名。 通过这种方式,即使在信息减少的情况下,我们提议的推荐人也可以有效地制作移动音乐推荐,就像面对新的项目或用户时一样。
实验评估
现在我们已经描述了uMender是如何工作的,现在我们转向我们对系统性能评估的实验结果。
实验数据
为了评估uMender的性能,我们使用semireal数据进行了实验。 实验数据由两部分组成:音乐评级数据和上下文数据。 对于音乐数据,我们从Amazon.com收集了真实的评级日志。 由于很少有上下文数据是公开可用的,我们构建了一个模拟器来构建综合上下文数据。
音乐评分数据包含六种音乐风格:经典摇滚,古典,爵士,拉丁,歌剧声乐和摇滚。该集合由130个专辑(每个是一个项目)和251个用户组成。 数据的总时长约为25小时,其数据大小约为1.5G。对于上下文数据,我们采用了两种数据集。 一个是合成数据,另一个是真实的。 为了完成评估,我们构建了一个模拟器,以使用我们的上下文维度定义来构建合成数据。 我们的模拟器在树结构中查看上下文数据,树中的每个路径代表条件组合。 也就是说,上下文维度中的上下文事务可以通过遍历上下文条件树而在条件路径中分类。 我们将音乐评级数据与此上下文数据相关联以形成交易集。 模拟背后的主要考虑因素是将条件路径和子矩阵连接为半导体上下文事务。
除了合成数据之外,我们还实施了一个系统原型,并邀请了36位用户来测试系统。 为了收集真实的评级交易,我们要求测试人员根据不同的环境条件(位置,时间,气温,噪音,光线,湿度,动作等)对音乐进行评级。总体而言,我们收集了2,785次真实评级交易。
我们采用了10倍交叉验证方法来进行评估。 表3列出了参数设置。
在我们的实验中,我们采用了四种基本比率来评估推荐技术:真阳性(TP),假阳性(FP),真阴性(TN)和假阴性(FN)。 使用这些措施,我们构建了评估推荐人的三个标准:
bull; Precision = TP/(TP FP); bull; Recall = TP/(TP FN); and bull; F = (2 times; precision times; recall)/ (precision recall).
精度揭示了预测的逼真度,而召回揭示了预测的完整性。 为了同时考虑精确度和回忆,F度量揭示了两者的谐波均值。
全文共9514字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11638],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。