英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
从中文网页内容中提取学者信息的一种新型文本挖掘方法
夏谢 a,lowast;,1, 于福 a, 海进 a, 赵亚良 b,c, 曹文治d
a华中科技大学计算机科学与技术学院国家大数据技术与系统工程研究中心,服务计算技术与系统实验室,集群与网格计算实验室,武汉430074
b 华中科技大学计算机科学与技术学院,武汉430074
c 河南大学,开封475004
d湖南商业大学湖南省移动电子商务协同创新中心,湖南省移动商务智能重点实验室,长沙410205
文章信息 文章历史: 2019年2月23日收到 以修订版收到2019年7月8日 2019年8月29日接受在线可用 关键字: 大数据 文字挖掘 专家数据库 信息提取 |
摘要 文本挖掘是从文本中获取高质量信息的过程,因此它可以专注于从文本或Web文档中提取有用的信息。物联网设备生成大量的结构化或非结构化数据,包括文本数据。大数据和非结构化数据背后的机遇,极大地推动了政府或公司选择基于文本挖掘方法的解决方案,以改善战略业务活动并促进决策制定。专家信息是决策的重要参考信息。如何从文本或Web文档中收集专家信息是一个问题。本文介绍了一种文本挖掘方法,用于从Internet上爬网和提取专家信息。我们建立了一个基本框架和主要模块,包括信息提取,数据清理和重复数据删除,专家推荐模型,以应对来自Web内容的文本数据。我们还定义了多个指标,数据结构,并提出了一些有助于文本挖掘的算法。最后,利用数据集进行了实验,结果表明我们的文本挖掘方法可以准确地提取专家属性。 |
1. 介绍
由于Internet是巨大的信息资源,因此人们可以通过搜索引擎找到几乎所有内容。 Internet中的大多数信息都是文本形式的,因此从Web源中提取文本信息已成为当今的热门话题。 物联网(IoT)是一种通过通用传感器将互联网连接到物理世界的系统[1]。 最近,越来越多的设备和传感器被收集到Internet上,生成大量数据[2-4]。 正如Gartner估计的那样,目前大约有49亿个互联设备(例如工业设备,汽车,家具)生成数据,预计到2020年将达到250亿。然而,主要问题之一是IoT生成的数据通常是非结构化的 ,高度分散,时空分散且非常异构,这意味着分析此类数据是一个巨大的挑战[5]。
因此,在物联网中,有必要将大数据转换为智能数据
lowast; 通讯作者. 电子邮件地址: shelicy@hust.edu.cn (X. Xie), wenzcao@hnuc.edu.cn (W. Cao). 1对应地址:华中科技大学,武汉430074; 湖南商业大学长沙410205 中国。 https://doi.org/10.1016/j.future.2019.08.033 0167-739X/copy; 2019由Elsevier B.V.发布 |
copy; 2019由Elsevier B.V.发布.
并从智能数据中提取信息,因为仅大数据是不够的。智能数据旨在过滤掉噪声并保留有价值的数据,从而可以有效地支持物联网的规划,运营,监控,控制和智能决策。不仅在物联网中,智能数据还在云计算等许多其他领域也具有巨大潜力,云计算是一个热门的研究领域[6-8]。将大数据转换为智能数据的一种方法是数据挖掘,包括文本挖掘。因此,研究人员越来越关注文本挖掘方法,政府和公司正在尝试寻找基于文本挖掘方法的解决方案。尽管当前的搜索引擎可以指导人们找出最简单的问题的答案,但是当涉及到一些复杂的问题时,仍然需要大量时间才能从各种结果中获得满意的答案。例如,当某人想认识一位在中国进行数据挖掘理论研究的专家时,他可能会从不同的搜索引擎中搜索结果,但是一般的搜索引擎通常会返回大量页面,因此他必须阅读这些页面。即使他只需要一点点。如果可以从Internet上自动提取专家的信息,则计算机系统能够提供我们所需的正确信息。因此,有效的文本挖掘成为一项重要任务。此外,与数据挖掘不同,文本挖掘专注于从文本中获取高质量信息,而数据挖掘旨在处理结构化数据。文本挖掘专注于文本数据,并打算处理全文文档或Web内容。换句话说,文本挖掘处理大多数以文本形式存储为非结构化内容的数据[9]。
文本挖掘遇到了许多挑战,可以分为两类:语言挑战和算法挑战。语言挑战包括复杂的语言语法,非结构化文本,语言歧义和多种语言。如果要从文本数据中提取有用的信息,则应使用信息提取方法来获取特定的信息。算法挑战是由大规模文本收集,高维数据和脏数据引起的。文本挖掘总是从大量文本中提取信息,因此算法很难处理。除了大数据量外,高维和脏数据也给数据清理算法带来了困难。我们的文本挖掘方法着重于从纯文本文档的网页中提取专家的属性,因此它是文本挖掘的重要组成部分。例如,专家的特定属性是研究领域,性别,教育程度等。尽管,我们将收集有关专家的许多记录,但是只有一个有效记录可以插入到专家数据库中。因此,我们应该利用专家推荐模型来推荐单个有效记录。此外,在进行分析之前,还需要清理和重复数据删除数据,因为错误的和冗余的数据将由搜寻器搜寻。
在本文中,我们提出了一种文本挖掘方法,用于基于Web数据提取专家信息。 我们建立了一个基本框架和针对该框架的特定模块,包括专家属性提取,数据清除和重复数据删除等。在专家属性提取模块中,我们使用基于触发词和规则的方法来自动调整模块。 另外,我们定义了一个公式来计算重复数据删除模块中记录之间的相似度。 最后,将专家属性矩阵转换为加权有向图,从而将专家推荐问题转化为加权有向图上的最长路径问题。
以下部分是:在第二部分,我们介绍文本挖掘方法和信息提取的相关工作。 在第3节中,描述了基本框架和该框架的所有模块。 在第4节中,我们介绍专家推荐模型的关键技术。 在第5节中,我们演示了实验步骤并显示了实验结果。在第6节中,我们得出了结论并介绍了我们的未来工作。.
- 相关作品
随着互联网的发展,产生了大量的信息。 我们很方便从搜索引擎中查找专家的信息。 但是,随着信息量的增加,搜索引擎将返回许多页面,因此,从非结构化文本中寻找有用的信息变得越来越困难。 因此,我们希望通过文本挖掘方法来提取专家的信息,该方法将自动从Internet提取专家的信息,并在经过数据清理和专家推荐模型处理后建立技术专家数据库。 因此,我们的方法涉及文本挖掘和信息提取。
-
- 文字挖掘方法
文本挖掘已经成为重要的研究领域,可以自动从不同的全文文档或Web内容中提取信息。 最近,研究人员提出了许多文本挖掘方法和应用程序。 这些文本挖掘方法可以分为四种类型:基于上下文的文本挖掘方法,基于语义的文本挖掘方法,基于情感分析的文本挖掘方法和基于内容的文本挖掘方法。
-
-
- 基于上下文的文本挖掘方法
-
基于上下文的文本挖掘方法旨在提取依赖于上下文信息的有价值的信息。 竹内等。 [10]提出了一种基于上下文信息的分析方法,并开发了一种从长文档中提取见解的方法。 通过计算每个上下文中关键字的表示值,他们可以确定包含许多高度代表性关键字的主题,并提取在不同上下文中具有不同代表性值的关键字。 Li等。 [11]提出了一种新的基于上下文的隐式特征提取方法。 该方法根据意见字和隐含特征上下文中产品特征之间的相似性来提取隐含特征。
-
-
- 基于语义的文本挖掘方法
-
基于语义的文本挖掘可提取文档之间的语义,以获得准确的文本挖掘结果。 Bin等。 [12]提出了一种基于语义的电子邮件聚类的新方法。 他们使用HowNet生成了电子邮件语义向量,然后可以通过建议的条件电子邮件相似度和相似度矩阵来测量向量相似度。 对于长文档和短文档群集,此方法是一个很好的解决方案。 杨等。 [13]介绍了一种基于语义的复制检测方法。 他们根据语义计算可疑文本与语料库中每个文本之间的相似度分数。 该方法检测从可疑文本中提取的最重要的语义特征,以及从语料库中提取的文本是否相同。
-
-
- 基于情感分析的文本挖掘方法
-
基于情感分析的文本挖掘方法从文本中提取观点,情感和情感。 情感分析是当前自然语言处理领域中非常重要的研究方向[14]。 平等。 [15]介绍了一种方法,该方法将基于词典的方法与基于相似度的方法相结合以提取情感词,然后利用语义规则和情感来获得短文本的情感极性。 这种方法易于实施,可以推广到其他中文短文本。 关等。 [16]分析了来自社交网络的用户意见情绪,并试图找到话题和关于这些话题的情绪。 他们用情感词典和一些其他规则提取了情感。 该方法可用于查找社交网络中最有趣的事件,其结果可用于高级营销。
-
-
- 基于内容的文本挖掘方法
-
基于内容的文本挖掘方法着重于从非结构化文本或Web内容中提取文本内容。 Hui等。 [17]提出了一种基于内容的排名模型,以优化微博的信息流。 该模型通过文本挖掘从微博内容中提取反映用户兴趣的特征,并结合他们的标签为他们构建兴趣模型,然后根据用户兴趣模型计算并排列用户信息流在其首页中的权重 帮助用户优先扫描他们最感兴趣的微博内容。
总而言之,四种类型的文本挖掘方法各有优缺点。 基于上下文的文本挖掘方法既简单又灵活,这种方法不关心文本的语义,而是关注单词的频率和位置。 基于语义的文本挖掘方法是一种复杂的挖掘方法,始终需要使用语义知识,这种方法着眼于单词的含义,但可以实现较高的准确性。 对于基于情感分析的文本挖掘方法,它依赖于一个庞大的情感知识数据库,该数据库很难建立。 基于内容的文本挖掘方法取决于文献的数量和准确性。 但是,大量准确的文献给研究人员带来了巨大的挑战。 因此,当处理来自Web内容的大量文本数据时,有效的文本挖掘方法必不可少。
-
- 信息提取
计算机分析非结构化文本数据的起点是使用信息提取。 信息提取是自然语言处理的一个领域,它涉及查找结构化信息,例如自由文本中的数据库记录[18]。 在本文中,Piskorski等人。 专注于如何从非结构化文本中提取个人属性。 当然,我们可以找到许多有关个人属性提取的相关研究,研究人员提出了许多提取方法。 目前,基于规则的方法和基于统计的方法是信息提取的两种主要方式。
基于规则的信息抽取是一个由学习和应用两个阶段组成的过程,包括规则的研究和使用规则进行目标信息抽取的应用。 Zhong等。 [19]提出了一种基于规则从文本中提取个人属性的方法。 他们分析了许多有关人的文本并制定了个人教育背景的规则,然后设计了相关算法,以基于规则从非结构化文本中提取个人教育背景。 张等。 [20]提出了一种基于触发词,词典和规则相结合的方法来实现个人属性的提取。 他们发现大多数属性在表达式中具有相似性,因此他们使用该方法提取个人属性。
基于统计的方法的准确性通常较低,但是对于此提取问题具有良好的可移植性。 董等。 [21]提出条件随机场可用于提取网页中教师的个人属性。 通过分割系统,可以将HTML文档划分为单词序列,以建立适当的特征模板并训练样本序列,最后使用CRF生成的特征函数模型标记测试序列并识别需要识别的信息。 被提取。 Kavila等。 [22]提出了一种基于统计方法的信息提取方法。 他们描述了一个框架,该框架可以从研究论文中提取算法,方法或技术,并对进入存储库的研究文档进行分类,并提取研究论文的缺点。
- 数据爬网和文本挖掘方法
在本文中,我们提出了一种文本挖掘方法,该方法将在本节中介绍。
-
- 基本框架
传统的数据挖掘假定数据已经是关系数据库的形式。 不幸的是,文本挖掘专注于自然语言文档,而不是结构化数据库。 因此,从非结构化或半结构化文本中发现有用的信息是文本挖掘方法的重要任务。 基于这些问题,我们提出了文本挖掘方法的基本框架。
图1显示了我们的文本挖掘方法的基本框架,包括专家属性提取,数据清除和重复数据删除,专家推荐模型。 专家属性提取模块将基于触发词和规则的方法与我们构建的触发词字典和规则集一起使用。 数据清理和重复数据删除模块解决了这些问题,因为某些记录包含错误的属性值,并且多个记录之间存在重复记录。 专家推荐模型是通过在清理和重复数据删除之后从数据库中一位专家的几条记录中进行记录挖掘来生成一条完整的记录。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235552],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。