英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料
通过上下文偏好挖掘
构建用户画像
Author:Sandra deAmoa,Mouhamadou Saliou Diallobc,
Cheikh Talibouya Diopc,Arnaud Giacomettib,DominiqueLib,Arnaud Souletb
目录
通过上下文偏好挖掘 2
摘要
近年来随处可见的计算技术的兴起带来了一个新的研究领域,即将有关上下文理解出来的偏好查询设施结合到数据库系统中。这种布置中的一个重要步骤是首选启发任务,该任务包含了向用户提供通过最小努力来通知他/她对物体对的选择的方式。在本文中,我们提出了一种基于文本挖掘技术的自动偏好启发方法。该方法在于利用一组用户偏好样本提取用户画像。在我们的布置中,用户画像由一组上下文偏好规则来指定,以验证正确性和简洁性。在证明问题是NP完全的后,我们提出了两个阶段的解决方案。第一阶段通过上下文偏好规则提取所有个人用户偏好。第二阶段使用贪婪方法从这组规则开始建立用户画像。为了评估用户画像的质量,我们提出了三种受益于这些画像的排名技术,使我们能够根据用户的喜好对对象进行排名。我们评估我们三种排名策略的有效性,并将其与着名的排名方法(SVMR ank)进行比较)。评估是通过在基于电影的用户偏好的真实世界数据库上执行的大量实验来进行的。
1 . 介绍
由于从电子商务到个性化搜索引擎的各种应用程序(用户的偏好是必不可少的),近年来,利用情境感知偏好查询功能增强数据库系统的主题在数据库社区中引起了很大兴趣。在系统模型设计中。一些重要的研究工作一直致力于这个话题,包括研究(1)偏好建模和推理的强大框架和(2)偏好查询语言,对个性化数据库应用具有高声明性和表现力。然而,迄今为止,关于偏好启发主题的研究工作,换句话说就是获得用户偏好的方式一直很少。本文主要关注这个话题。
偏好的启发基本上在于为用户提供一种方式来通知他/她对属于数据集的对象的偏好,并且为他/她花费最小的努力。它可以通过以下不同的策略来实现:(a)通过使用查询界面让用户表达他们的偏好;或者(b)通过捕获隐式用户的选择并应用偏好挖掘算法。第一种方法效率不高,因为用户一般不能以精确和一致的方式表达他们的偏好。本文重点介绍了偏好启发的第二种选择。我们假设我们的数据是由两两比较构成的。我们不会在本文中讨论用户通知他/她的选择的方式,因为他们知道可以应用不同的策略。我们的方法简单地假设已经以某种方式收集了表示用户偏好的对象对。下面的示例演示了我们在本文中讨论的偏好挖掘问题。在这个例子中,我们假设通过某些标签上的点击次数来通知用户偏好。
激励的例子:网络服务定期向其订户提供关于电影的推荐。为了捕捉他们对电影的偏好而不会太烦人和侵入性,该服务为其订户提供了试用期,在此期间他们可以自由访问电影信息。他们通过点击不同的标签来表明他们感兴趣的电影。例如,订阅者可以点击标签Action,Spielberg和War来表明他/她有兴趣通过史蒂夫斯皮尔伯格导演的电影获取信息,并且基于战争故事创作剧本并采取很多行动。他/她的点击在试用期间自动收集。关系d在表1中描述了在试用期间一些用户的访问。标签A,B,C,D和E分别代表斯皮尔伯格,汤姆汉克斯,行动,莱昂纳多迪卡普里奥和战争。每个ti(i=1,hellip;,5) 表示每次用户访问服务时我为其选择的一组标签。他们被称为交易。假设在试用期间,用户通过点击标签集t 1访问服务十次,并且通过点击标签集t 3仅仅五次。因此,他/她暗示他/她对与标签t 1相关联的电影比对标签t 3更感兴趣,如第一对所示 〈t1,t3〉 关系 P如表1所示。请注意,t 1和t 3都包含标签A(斯皮尔伯格)和C(行动)。在他们之间,他/她比包含标签B(汤姆汉克斯)的标签更喜欢包含标签D(莱昂纳多迪卡普里奥)的标签。因此,可以推断出以下背景偏好规则:在斯皮尔伯格执导的两部动作电影中,他/她更喜欢莱昂纳多迪卡普里奥扮演的那部电影,而不是汤姆汉克斯扮演的电影。标签行动和斯皮尔伯格构成上下文的规则。请注意,一些交易对(例如, 〈t1,t2〉 )不会出现在关系中 P,表明这些标签集中每个标签的点击次数相同或者可以忽略不计的点击次数(低于给定阈值)。
表一. 事务数据库和首选项数据库
D |
|||||
---|---|---|---|---|---|
Tid |
事务 |
||||
t1 |
A |
C |
D |
||
t2 |
A |
B |
D |
||
t3 |
A |
B |
C |
E |
|
t4 |
C |
D |
|||
t5 |
A |
B |
|
||
P |
|||||
Pid |
用户的偏好 |
||||
p1 |
〈t1,t3〉 |
||||
p2 |
〈t2,t3〉 |
||||
p3 |
〈t2,t4〉 |
||||
p4 |
〈t3,t4〉 |
||||
p5 |
〈t4,t5〉 |
在本文中,我们提出ProfMiner方法,用于根据系统先前捕获的他/她的偏好样本来构建用户画像。用户画像由一组满足一些有趣性标准的上下文偏好规则指定,即健全性和简洁性。它的稳健特性保证了优先规则指定画像是在一个大组中的用户喜好的协议,违背了少数人。另一方面,简洁意味着画像是一组较小的优先规则。在形式上,我们的问题是要找到一套上下文偏好规则,以最小化考虑了健全性标准的cost函数。由于这个问题是NP完全的,我们的方法由两个分离的阶段组成:首先,挖掘一组上下文偏好规则S ; 第二,用户画像是从S中提取的。我们认为,与文献中发现的其他偏好模型相比,基于偏好规则的方法具有许多优点。该模型由于其简洁性和定性方面而易于理解和管理(它由一组偏好规则构成,并且不使用分数函数明确地为每个交易分配等级)。此外,健全性保证我们的方法建立具有良好预测属性的用户画像。
除了介绍ProfMiner构建用户画像的方法之外,我们还提出了三种排名策略,利用挖掘的相关文件根据用户的喜好对对象进行排名。这些
全文共26561字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[11534],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。