英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
武汉大学
自然科学杂志
2015年,第20卷,第二号,第146-152页
文章编号 1007-1202(2015)02-0146-07
DOI 10.1007/s11859-015-1073-1
基于微博情感分析的网络出版推荐机制
-
田平芳1,2、朱中华1,2、李雄1,2、许钫钫2
- 武汉科技大学计算机科学与技术学院,中国 , 湖北武汉 430065;
- 智能化信息处理与实时工业系统湖北省重点实验室, 中国,湖北武汉430065
copy; 武汉大学和柏林海德堡大学 2015
摘要:微博是一个拥有庞大的用户交流和海量数据的社交平台。本文提出了一种基于情感分析的微博语义推荐机制。 首先,通过自然语言处理,包括切分、词法分析和策略选择,提取出该机制中的关键词和情感词。然后,利用用户的基本信息对基于链接开放数据(LOD)的背景知识库进行查询。实验结果表明,通过情感分析和语义查询,推荐准确率在70%~89%之间。与传统的重频修正方法相比,该方法能很好地满足用户的要求.
关键词: 情感分析;微博; 关键字析取; 链接开放数据; 背景知识库
中图分类号: TP 393
收稿日期: 2014-09-20
基础项目: 国家自然科学基金资助(60803160 和 61272110), 国家社会科学基金重点项目(11amp;ZD189),湖北省自然科学基金(2013CFB334), 湖北省教育机构自然科学基金(Q20101110), 武汉大学软件工程开放基础国家重点实验室 (SKLSE2012-09-07), 湖北省教学研究项目 (2011s005) 武汉重点技术支持项目(2013010602010216)
个人简介: 田平芳,女, 硕士,副教授 ,研究方向:人工智能, 语义万维网. 电子邮箱: 24958320@ qq.com
?1994-2018中国学术期刊电子出版社
0 引言
随着信息技术和社交网络的飞速发展, 如何满足网络用户日益增长的个性化需求,已经成为一个亟待解决的问题。因此,对网络中个性化推荐服务[1]的研究具有重要的理论和实践意义,其中,出版建议[2]服务是不可或缺的一部分。
微博的出现带为出版物推荐服务带来新的机遇。微博上的用户和数据数量众多,这使得微博成为推荐出版物的新选择。越来越多的用户喜欢通过这个社交平台发表评论和讨论时事。与其他信息平台不同的是,微博的信息是相对真实的,用户在这个平台上有个人网络。因此,对数据挖掘和研究具有重要的现实意义。正是由于这些优势,基于微博的出版推荐成为了制造商的首选。但是国内对微博的研究还处于起步阶段,在其发表的推荐一般情况下是低效的。
目前,出版物推荐服务主要是基于关键字的[3]。由于微博中提到的事物和情感是未知的,单纯基于关键词的宣传推荐具有准确性低、效果不佳等缺点。 微博的分析不同于普通文本情感分析,它常常涉及一些情绪。
版权所有. http://www.cnki.net
田平芳等人:一种网络出版的推荐机制 hellip; 147
因此,基于关键词和情感的出版物修正的准确性应该高于单纯基于关键字的修正。然而,微博中不断出现的各种新的网络词汇,如赞、给力、Low等,都存在着一些不足。因此,它们不足以使现有的情绪库随时准确获取用户情绪。
为了解决这些问题,我们在对微博[4, 5]进行分析的基础上,通过扩展表达情感库,收集各种新的网络词汇和热点词汇,提出了一种基于前文的自我推荐机制。
1 系统框架
为了提高基于微博的出版物推荐的准确性,我们进行了以下四个步骤:
- 结合用户的基本信息,从微博[6]中提取情感关键词;
- 基于句法依赖关系抽取法分析关键词之间的关系 [7] ;
- 基于LOD[8] 的出版物背景知识库中的语义查询;
4) 获取满足用户需求的出版物并推荐给微博用户。
推荐机制的主要架构如图1所示
微博内容
基本词汇
分词
扩充词汇
普通词汇
句法分析
制定严格规则
消除无用依赖项
词提取
情感库库
背景知识
语义推荐
用户信息
出版物
推荐的书籍
图 1 推荐机制的主要框架
?1994-2018中国学术期刊电子出版社
该框架的过程主要分为以下几个步骤:
① 分词 为了实现对微博内容更准确的分词处理,我们建立了一个通用词典和一个扩展词典。这些词典中包含微博中的热门词和新的网络词汇。
② 句法分析 通过句法分析得到单词之间的依赖关系,这便于我们随意提取关键词和情感词。
③ 词提取 词提取分为关键词提取和情感词提取。关键词通常是名词短语,情感词通常指谓语动词、形容词或介词修饰形容词。
④ 语义推荐 根据提取的关键词和情感词,结合背景知识库,制定相应的推荐策略。
-
系统实施
- 分词模块
由于汉语句子结构的复杂性和独特性,因此,在分词过程中,由于同义词的多样性和综合的多样性,应该实现新词识别[9]和歧义识别处理[10]两种技术。
新词识别是汉语分词领域中的一项重要内容,当语句中存在新词时,分词结果往往偏离用户的语义。
歧义识别是指语句中可能存在多种分区,但通常只有一个分区才能正确地表达语义,准确地表达用户的意图。
本文采用Jcseg作为切分工具,因其是一个简单方便的工具。另外,Jcseg还支持自定义配置,这意味着Jcseg具有使用我们扩展的词典的能力,在使用该工具之前,应建立出版物和作者库,以保证分词过程的准确性。
- 句法分析模块
通过分词处理,微博被分割成多个词的组合,但它们之间的联系却是未知的。
版权所有. http://www.cnki.net
148 武汉大学自然科学学报,2015年第20卷第2期
句法分析的工作原理是通过一个典型的句子依赖关系,得到词之间的依存关系,然后提取关键词和情感。句法分析产生的句法分析树识别词类之间的关系和词间的距离,根据关键词可以制定相应的语义推荐策略并推荐给用户。
我们使用句法分析树来表示句法分析的结果。 这种句法分析树是指句法分析后的树结构,在句法分析树中,顶点表示单词,边缘表示单词与句子中距离的依赖关系。本文选用斯坦福自然语言处理组(NLP)提供的斯坦福解析器作为句法分析工具,该工具是利用率最高的句法分析工具之一。使用这个工具可以通过几个前缀来描述单词之间的依赖关系。语法分析结果如下:
句子: 我喜欢鲁迅
结果: 名词性主语(喜欢-2,我-1)
词根(ROOT-0, 喜欢-2)
补语从句(喜欢-2, 鲁迅-3)
其中,前缀以每一对单词的形式显示依赖关系,这些单词都是二进制的::语法关系保持在管理者和依赖者之间 。表1中给出了部分语法关系[11]定义。
从句子中提取关键词和情感实际上是一个句法树的解析过程。
表 1 部分语法关系
|
关系名称 |
描述 |
|
advmod |
状语 |
||
amod |
形容词修饰语 |
||
attr |
定语 |
||
ccomp |
补语从句 |
||
dep |
附属语句 |
||
dobj |
直接宾语 |
||
neg |
否定句 |
||
nn |
名词复合修饰语 |
||
nsubj |
名词性主语 |
||
pobj |
介词宾语 |
||
prep |
介词修饰语 |
||
rcmod |
关系从句修饰语 |
||
root |
词根 |
||
tmod |
时间修饰语 |
?1994-2018中国学术期刊电子出版社
参考文献[12]描述了如何在句法分析之后制定规则,并提出了 ROOT 规则和DEP规则。如果上述句子符合词根规则,然后将词根的谓词提取为句子的关键字, 即句子中表达的感情是“喜欢”。但由于微博的不规则性和多样性,这两条规则并不能满足微博的抽取要求。例如, “鲁迅[赞]” 与“我喜欢鲁迅”表达的意思相同, 但我们不能用参考文献[13]中描述的方法来提取情感。为了准确提取情感和关键词,我们将微博分为三类:
① 类型 1 包含作品或作者。作品或作者可以从这些微博中提取。
② 类型 2 包含情感的文字。只有情感是从这些微博中提取出来的。
③ 类型 3 包含用户
全文共9121字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[12818],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。