学术社会网络:建模、分析、缩小和应用
摘要:
社会网络技术在学术界和工业界引起了极大的关注。学术社交网络的概念恰好在学术大数据的文本中创建,这是指由学术实体及其关系形成的复杂的学术网络。有大量的学术大数据处理方法来分析学术社交网络的丰富结构类型和相关信息。如今,可以轻松获得各种学术数据,这使我们更容易分析和研究学术社交网络。本研究调查了学术社交网络的背景,现状和趋势。我们首先阐述了学术社交网络的概念和相关的研究背景。其次,我们基于节点的类型和时效性来分析模型。第三,我们审查分析方法,包括相关指标,网络属性和可用的学术分析工具。此外,我们为学术社交网络梳理了一些关键的挖掘技术。最后,系统地回顾了代表性的研究,从三个层面来看,即行为者,关系和网络。此外,还介绍了一些学术社交网站。本文总结了当前的挑战和开展问题。
1.引言
在Web2.0的背景下,一个伟大的研究领域已经在医学和工业领域进行了研究,产生了大量的学术信息(Wu等,2014)。 学术投入和产出为研究科学的结构和演变创造了前所未有的机会(Fortunato等,2018)。 随着科学技术的迅速普及和发展,数据逐渐从传统的存储模式转变为数字化。 学术信息基本上以科学文献,技术报告,项目提案,论文和其他类型的资源的形式产生(Khan等,2016)。 此外,来自世界各地的学者和研究人员不仅可以制作大量的学术文献,还可以通过教育材料(Xia等,2017)(如专利和幻灯片)分享他们的研究成果。 学术大数据(SBD)的术语是由快速增长的学术资源产生的。
1.1.学术大数据
由于学术实体及其关系的快速发展,学术数据已达到“BigData”的“5V”特征,即大量,高速,多样,价值和真实(Wu等,2014),其中称为学术性大数据(SBD)。包括会议论文,期刊文章,书籍,专利,幻灯片和实验数据等(Williams等,2014)。 有效利用SBD不仅对学者理解科学发展和学术互动有重要意义,对政策制定者来说也更有利于解决资源共享问题,更有效地解决发展方向问题。因此,如何从数以百万计的SBD中挖掘出有价值的信息是一个迫切需要解决的问题。
SBD分析的目的是解决科学科学(Light等,2014)背后的学术问题。对SBD的深入分析不仅可以使研究人员更有效地利用现有资源,而且有助于学术界和工业界的发展。然而,对这种学术研究的系统性研究很充分。以前,由于现有的工具和技术不能满足SBD分析的要求,因此很难找到有效的学术信息。此外,高维度和大尺寸的SBD对数据分析提出了一定的挑战(Fan等,2014)。然而,随着相关分析技术的发展越来越受欢迎,我们现在可以充分利用这一有效的信息。例如,AMiner,Microsoft Academic Search(MAS),DBLP,Google Scholar(GS)和CiteSeerX等系统的库存和学术服务平台存储了数百万个数据关于作者,出版物,引文和其他相关信息(Arif,2015).SBD分析可以分为协作者搜索,研究管理,专家发现和统计系统(Khan等,2016)。
1.2.社会网络
社交网络分析是近年来的一种流行技术,在许多领域,社交媒体网络,运输网络(例如,交通控制),流行病学网络(例如,流行病的传播建模)和网络(例如,构建万维网结构)中越来越多地发挥作用。它不仅用于分析Twitter和Facebook等在线社交媒体应用,还用于提供科学研究领域的综合服务。社交网络(SNs)是在特定情况下相互关联的个人或组织的集合,如协作和社交。在SNs中,节点和边缘分别用于表示实体及其相互作用,以帮助我们分析和挖掘信息。对SNs的分析可以识别信息传播过程中形成的网络关系。
SNs的分析方法是研究SBD的有效方法。在学术网络中,研究人员通过各种学术活动建立关系(Fu等,2014)。目前,对SBD各实体之间不同通信模式的研究引起了研究者的极大兴趣(Luo and Hsu,2009)。 此外,数据分析方面的技术发展,以及SNs可视化软件中最近的发展,促进了这些关系的研究,包括动态显示(LuoandHsu,2009)。
1.3.学术数据的社会网络
科学学(SciSci)将科学描述为一个复杂的,自组织的和不断发展的学术信息网络(Fortunato等,2018)。 在SBD中,通过学术活动和信息形成的社交网络被称为Academic Social Networks(ASNs)。这种表达可以研究来自不同地理和时间尺度的ASNs,以表征新科学领域的模式并加速科学的潜力。有很多方法可以建立ASNs,共同作者是最正式的学术活动形式(Fu等,2014)。 通过研究引文网络,我们可以揭示研究人员在其职业生涯中的选择和交易,这也是SciSci的研究课题之一。此外,一些研究表明,良好关联的学术社交网络往往有更多延长(Lopes et al。,2011),因此他们必须为我们不断研究。
目前,有许多调查在许多领域使用SNs,例如,Anomaly Detection(Kaur和Singh,2016),社交媒体中的签名网络挖掘(Tang等,2016),手机社会网络(Hu等,2015),车辆社会网络(Rahim等,2017)和社会影响社会网络(Peng等,2018),但没有关于与SBD相关的SNs的概述。同时,对SBD进行了一些调查。Khan等人调查了学术数据的当前研究趋势,确定了学术数据平台发展面临的挑战,并将未来的研究方向映射到了大数据的生命周期。Xia等人从几个方面对大学数据进行了全面的回顾:学术数据管理,学术数据分析方法和代表性的研究问题。目前,还没有全面审查ASNs的研究。
在这项工作中,我们提出了一个流行的新兴ASNs领域的调查。据我们所知,本文是第一个使用SNs分析对SBD进行全面评估的论文。我们从四个方面系统地概括了ASNs中的主题:建模,分析,挖掘技术和应用。此外,我们还提供一些有用的ASN工具和热门网站。我们的目标是全面了解ASNs的研究现状,了解机遇和挑战的研究方向。
本文的框架图如图1所示。第二部分详细阐述了ASN的定义和性质。第三部分介绍了ASN的建模方法。 第4节详细阐述了ASNs的分析,第5节介绍了ASNs中的一些关键挖掘技术。第6节描述了一些有前景的研究应用和有用的ASNs站点。最后,第7节讨论了关键的开放性问题和具有挑战性的问题。
2.学术社会网络
在本节中,我们详细阐述了Academic Social Networks的概念,典型实体及其关系,以及可用的学术数据集。
2.1.定义
学术社交网络(ASN)是由大量实体(出版物,学者等)及其关系(引用,共同作者等)形成的复杂的异构网络(Tang et al。,2008; Wuetal。 ,2014)。学者们开展了大量的研究课题和数据挖掘任务。 以下是一些例子,作者排名(Amjad et al。,2015,2017),作者兴趣发现(Daud,2012),后起之秀(Daud et al。,2013,2015),学术推荐(枪支和 Rousseau,2014)和社区检测(Khan et al。,2017a)。 对ASN的关注导致许多ASN站点提供SBD收集和分析。例如,Microsoft Academic和Google Scholar提供纸质搜索,CiteULike专注于引用关系服务。 基于各种网站,我们可以轻松获取SBD信息。
2.2.学术个体和关系
图2提供了ASNs中的典型个体和关系。节点通常代表学术个体,包括作者、出版物、场所、机构和术语(摘自论文的内容、摘要或关键字)。不同类型的实体具有不同的属性或标签,可以帮助我们更丰富地分析它们。个体之间的链接通常表示关系,包括合作作者、引文、合作引文、书目连载和合作词。各种类型的关系可以形成不同的网络,为研究、交流和学术交流提供一系列的视角。合著者讨论了交流模式、参考书目、共引和共词关系,它们强调识别研究主题,而引文关系则更注重传递知识。
2.3.学术语义本体
语义出版是一种具有增强语义的期刊出版形式(Shotton,2009)。它丰富了Web和语义Web技术的表达形式和公开的知识内容。它还可以提高公共信息的可操作性、相关性和交互性,并最终实现智能化子流程。本体是共享接收系统的一种详细描述(Peroni和Shotton,2012年)。因此,研究者可以利用本体技术实现对文档对象及其知识内容的语义描述,进而进行丰富的研究工作。表1简单地描述了一些常用的本体。
2.4. 可用的学术数据集
目前,有许多搜索引擎和数字图书馆提供它们的数据集,以帮助研究人员研究ASN。学术数据重新整合了与任何类型的一般数据相匹配的学术文档。其中许多都是可自由下载的,如Aminer、美国物理学会(APS)、DBLP、Microsoft Academic Graph(MAG)、OpenAcademic GraphhandOpenResearchCorpus.Wellist表2中这些数据集的一些基本特征和可用URL。我们可以从书目数据库中获取这些实体,这些数据库包含有关出版物(例如作者、协会、页面、年份)、引用出版物(例如引用的参考文献、引文计数)的元数据。图2显示了这些实体的特征及其相关关系。
3.学术社交网络建模
学术社会网络可以被建构成一种非传统的声音结构。学者的学术社会行为可能会随着时间的推移而改变。在静态网络中,节点从不崩溃,边缘保持操作状态。学者们发现,静态网络可以导致稳定的高层协作(Rand等,2014年)。随着网络数据的不断增加,网络的结构变得更加复杂。因此,计算时间和复杂性同时增加。因此,Benson等人(2016)使用了基于子网络的graphlet,开发了一个更高阶连接模式的通用框架。大多数情况下,现实世界的网络是动态的。在动态网络中,节点或边可能会出现或消失,因此动态网络拓扑结构会随着时间而变化。动态网络被广泛使用,因为它们可以描述组成和相互作用(Rand等,2011年)。另一个重要的原因是它本身就是动态的。许多研究人员通过探索动态网络结构获得了显著的成果。研究发现,反复的积极互动可以促进个人之间和群体内的协作。然而,动态ASNs在建模中是困难的,因为需要描述拓扑结构。
不同类型的网络适用于不同关系的建模。根据网络中节点的不同,ASNs可以分为同质学术社会网络和异质学术社会网络。
3.1. 同质学术社会网络
同质ASNs是指节点表示相同实体的网络。例如,在图3中,图的中心是纸张关系的玩具模型的一个例子,它周围是从中提取的几个典型的ASNs。图3a是X和Y合著的论文A和论文E、Y和Z合著的论文C的合著网络。图3b是通过直接引文链接连接论文的引文网络。早先发表的论文被后来发表的论文引用,也就是说,箭头是从早先的论文中画出来的。图3c是玩具模型的共引网络,其中a和b由c和d共引,a和d由e共引。图3d是书目耦合网络。我们可以看到,C和D是书目耦合,因为它们都引用了A和B。图3e是一个共字网络,而B、C、E都属于机器学习领域。
合著网络。合著网络是应用最广泛的ASNs之一。在图3a的合著网络中,合著网络中的每个节点都是指作者。合著网络的边缘是指合著关系,学者们从多个角度研究合著网络。事实证明,协作继续影响研究实践和知识生产,在不同学科中日益流行(uddin等,2013年)。协作在几乎所有学科中越来越普遍。此外,随着信息技术、交通和通信的发展,科学家不再需要在物理上处于同一位置,科学合作可以跨越大学边界(Jones等人,2008年),甚至国家边界(Wilsdon等人,2011年)。学者们根据合作者网络研究合作行为,发现合作团队工作是一种新的研究模式。
共引网络。共引定义为两种出版物,在一篇文章中同时引用。共引网络是建立在文章引文关系的基础上的,由于两篇论文不能同时引文,所以很明显,共引网络是有向网络。学者从出版物中生成共引网络,从共引网络中研究学者的行为。白等人(2016)研究了共引网络,发现了异常的引用关系,事实上,一些学术社会关系可能不是通过共作者网络发现的,而是可以被共引网络发现的。共引分析是最常用的文献计量分析方法之一。当两个出版物经常被其他文章共同引用时,这两个参考文献可能有一些共同之处。共引分析作为一种先进的书目技术,常用于发现共引对的聚类,使学者对研究趋势有了新的认识。尽管共引分析被认为在显示学科结构方面优于其他文献计量方法,但仍然难以提供有关文献的研究主题的内容。
共词网络。共词网络分析已经开发出来解决这种分析问题(Leung等,2017)。关键词共现频率是指两个关键词同时出现的论文数。通过测量关键词共现链接的强度,共现分析揭示并可视化关键词之间的交互作用。由于关键词是用来描述研究文章核心的术语,因此共同词分析通常用于探索特定学科中研究主题和趋势的概念网络。然而,由于术语随时间的变化,共词分析也具有弱不稳定性。
3.2.异质学术社会网络
异质ASNs是指节点代表不同实体的网络。图4显示了异类网络工作的一个示例。在图4中,节点分别表示机构、作者、出版物和场所。所有这些实体都是一个网络中的节点,构成了这个异构网络。异构ASNs广泛用于分析不同学术实体之间的复杂社会关系。在目前的网络科学研究中,通常认为社会网络和信息网络是同质的,其中节点是同一实体类型的对象(如学者),链接是同一关系类型的关系(如合著)。这些研究产生了许多有趣的结果,如社区检测方法。但是,大多数ASNs都是异构的,其中节点和关系的类型不同。
论文作者网络。为了分析论文与学者之间的关系,构建了论文作者网络(孙、韩,2013)。为了给目标学者推荐合适的论文,构建了许多论文作者网络。一般来说,学者们从书目数据库中提取信息,构建论文作者网络。这些网络包含了不同的信息,包括文章、作者、共引等,通过对论文作者网络的分析,可以探索出显式和隐式引文关系。
书目耦合网络。书目耦合是一种广泛应用的方法,用于对科技论文进行分组。当两篇文章引用同一参考文献时
英语原文共 18 页
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。