英语原文共 6 页
基于朴素贝叶斯、KNN和SVM的Twitter文本人格分类
摘要:个性是人类行为的基础。个性会影响个人的互动和偏好。人们需要接受个性测试来发现他们的个性。社交媒体是一个用户向世界表达自己的地方。通过分析社交媒体用户的帖子,可以获得他们的个人信息。本实验采用文本分类法,根据Twitter用户写的文本预测个性。使用的语言是英语和印度尼西亚语。实现的分类方法有朴素贝叶斯、K最近邻和支持向量机。测试结果显示,朴素贝叶斯略优于其他方法。
关键词:机器学习;个性分类;社交媒体;文本分类
- 引言
个性是个体在处理各种情况时的特征和行为的组合。个性可以影响一个人在网站、书籍、音乐和电影等方面的选择[1]。此外,个性也会影响与他人和环境的互动。在员工招聘、职业咨询、关系咨询、健康咨询等方面,人格可以作为评估的依据。
一个人必须通过各种性格测试来了解自己的性格。人格测试可以是心理学家进行的自我描述报告、访谈或观察。这些传统方法成本高,不太实用。最近,通过网站[2]进行了一项在线问卷形式的人格测试。虽然这是非常实际的,但用户仍然必须在回答各种问题时采取行动。最近的一项研究表明,个性特征可以从他们写的文本中自动获得[3]。选择最常用的词可以描述那个人的个性。
社交媒体是用户向世界展示自己的地方。社交媒体账户是私人的,可以反映他们的个人生活。在社交媒体上发布、评论、更新状态等活动可以揭示个人信息。可以通过分析用户留下的文本来获取信息,在这种情况下就是用户的个性。
- 先前研究
五大人格特征是人格的五个领域或维度,用来描述人类人格[4]。这五个因素是开放性,自觉性,外向性,亲和性和神经质。五大人格模型是心理学中研究最多的人格模型。“五大”分布在不同的年龄、文化和地点。在访谈、自我描述和观察中也经常发现这种现象。
一项根据Facebook[5]上的特征预测性格的实验,使用的特征是LIWC (language Inquiry and Word Count)程序[6]中基于类别的语言英语单词、结构网络、活动记录等个人信息。使用WEKA (Waikato Environment for Knowledge Analysis)程序[7]进行分析,该程序内置M5规则和高斯过程两种算法。
采用朴素贝叶斯方法从[8]中确定用户的个性。用户写一些自我描述的文字,这些文字将被用来发现他们的个性,然后匹配他们在网上约会网站上找到一个伴侣。使用的语言是印尼语。使用的人格模型是四种性格。四个因素是乐观、易怒、忧郁和冷漠。
情感检测也可以通过文本[9]进行预测。K最近邻过去常用于判断文档中的情绪。这个实验用的是印尼语。文本文档是以在线新闻文章的形式出现的。基本情绪包括喜悦、愤怒、恐惧、悲伤、厌恶和惊讶。
之前对社交媒体Facebook上基于文本的五大人格的研究是在[10]和[11]中进行的。所使用的语料库是MyPersonality数据集[12]。这些实验使用WEKA对结果进行分析和预测。各种内置算法的使用精度在52%-61%之间。
在这个实验中,我们将尝试在前人研究的基础上提高准确性。此外,我们还讨论了如何从社交媒体Twitter用户的文本中构建一个有效的人格预测系统。
- 方法
图1显示了本研究的概述图。系统将从用户那里检索一组推文。然后将用户的文本预处理为矢量数据。分类过程将用户的文本分类为一个标记的数据集。结果表明,通过两个特征的组合,可以预测出五大特征、一级人格特征和二级人格特征。开发的系统是一个Web应用程序。使用的编程语言是Python,运用Scikit-Learn库。
-
- 数据采集
本实验使用MyPersonality数据集。MyPersonality Project是一个Facebook应用程序,它可以通过在线问卷来预测一个人的性格。数据集由来自250个用户的10,000个状态更新组成,这些状态更新已经标记为五大个性维度。然后稍微修改原始数据集。来自单个用户ID的所有帖子都附加到一个长字符串中,该字符串被认为是单个文档。最终数据集的形式是来自250个用户的250个文档。
印尼语文本分类使用相同的数据集,整个内容翻译成印尼语,因为印尼语个性数据集不可用。所用的假设是,尽管被翻译成另一种语言,但每个词的意思仍然准确。这种方法有局限性,因为存在误译的可能性,原因如下:词义不清,印尼语中没有对等词,或在不同语境中有不同含义的词。
用户文本来自Twitter用户的推文。系统将以推文(由用户直接发布)和转发推文(重新发布其他人的文本)的形式收集最后1000个文本。来自用户的推文集也被制作成单个文档/一个长字符串。
-
- 预处理文本
在文本分类中,文本数据将用向量空间模型[14]表示。预处理文本的步骤如下:
- 标记化:将句子转换为单个单词的集合。
- 词干:通过消除现有的附加项,将单词返回到基本形式(根单词),所用的词干算法是英语的波特词干分析器和印尼语的纳齐夫·安德里亚尼[15]。
- 过滤:删除停止词。停止词是一个普通的词,几乎没有意义,但在语法语言结构中是必需的。
- 加权:用(1)计算每个词的tf-idf。
-
减少数据集中的收集频率或实例总数。MyPersonality包含了plusmn;10000个独特的词。在这个实验分类中,特征/字的数量被限制为750个最经常出现在数据集中的字。限制字数是为了减少工作量和处理时间,提高效率,提高准确性。
- 分类过程
人格分类案例是多标签分类。这意味着一个人可以有多个人格特质,或者根本没有主导人格特质。本实验中使用的多标签方法是一种二进制相关性,它用独立的假设来转换二进制中的每个标签[16]。这个问题的解决方案是为每个标签创建一个分类器,并根据已转换的数据训练分类器。每个分类器都是一个二进制分类器,如果测试文档是标签的成员或不是,它将给出输出。
朴素贝叶斯是一种基于贝叶斯定理[17]的分类算法。多项式朴素贝叶斯(Naive Bayes, MNB)是一种用于求解文本文档分类的朴素贝叶斯变换。MNB使用单词出现次数或单词权重的多项分布作为分类特征。MNB方程如(2)所示。
k-最近邻(knn)是一种分类算法,它利用训练数据之间的距离函数来测试数据,并利用最近邻的数量来确定分类结果。实验中使用的距离函数是余弦相似度。余弦相似度是文献分类中广泛应用的一种函数,用来寻找文献之间的相似度[17]。KNN的得分函数如(3)所示。通过对K最近邻进行投票来确定文档类。最近邻是相似度值最高的kdocument。
支持向量机(SVM)是一种有监督的学习算法,用于分析用于分类的数据和识别模式[17]。SVM获取训练数据集并将其标记为类别的一部分,然后预测测试文档是否是现有类的成员。SVM模型将数据表示为空间中被线/超平面分割的点。优化超平面搜索函数,如(4)至(5)所示。在SVM中打分以找到测试文档类的使用(6)。
图2显示了一个字中使用的建模过程的示例。每个词在每个人格特征类别中都有一个概率值,用tf-idf加权法计算。然后,该值在各自的方法中用作权重或向量项。例如,开放性高的人经常使用的单词“Imagine”,在“Yes”类中出现的概率较高。然后每个方法都使用这个值进行预测。
每类成员在数据集中的分布是不平衡的。有一个性格类的人数/成员明显多于其他类。在确定测试数据是否是标签个性中的成员(默认值为0.5)时,需要为每个分类器决策调优阈值。最佳阈值的选择是从交叉验证测试中F分数最高的决策点开始的。fscore(9)是真阳性率的平均值,如(7)和真阴性率(8)所示。表1和表2显示了英语和印度尼西亚数据集中每个方法的每个分类器的最佳阈值。
每种方法的预测结果可能各不相同。为了避免结论的混淆,我们从现有的三种方法的结果中提出了一个组合的结果。综合结果采用三种方法的多数投票。例如,如果在一个标签上有两个或多个带有“是”预测的方法,那么最后的预测就是“是”。表3显示了组合方法的组合可能性。
- 结果和讨论
在这一节中,我们报告并讨论了分类算法在人格特征识别任务中的性能。使用10倍交叉验证进行测试。表4给出了英文数据集的准确性结果。表5报告了印度尼西亚数据集的准确性结果。在交叉验证测试中,三种方法中MNB的准确率最高,平均准确率为60%。SVM和KNN的表现类似。支持向量机方法的性能不如MNB方法,因为它很难将一类单词作为数据集来分离。KNN方法的性能也不如MNB方法。由于K的最优值难以确定,导致KNN方法精度较低的原因是K的总值至关重要,因为KNN的概率结果是从K个样本中计算出来的。这与MNB不同,MNB对现有特性使用纯概率计算。基于59%-60%的宏观平均分数,本实验无法提高准确率,仅相当于之前研究的最佳分数(61%)。
下一个场景是响应测试。这个测试旨在确定这个自动人格预测系统相对于传统人格预测的表现。目前最流行的人格预测测试是在线问卷测试。因此,我们将系统结果(图3)与IPIP五大因子标记问卷的IPIP 50个条目集预测结果[18]进行比较。系统将从用户的Twitter账户中检索文本数据,并使用三种方法和组合方法进行分类。然后用户完成问卷测试并报告结果。受访者有40人。被选中的受访者必须拥有一个Twitter账户,该账户的推文数至少为1000条。分类语言的选择是基于用户的主要语言。试验结果如表6所示。
结合应用的最终预测方法,得到了响应测试的最佳结果,准确率达65%。由于分类结果有了改进,组合方法能产生更好的准确度。如果其中一种方法分类失败,而其他两种方法的预测是正确的,将由其他两种方法覆盖。总体准确度不高,但可以说明文本个性自动识别可以替代问卷测试。
- 结论
从Twitter上的文字可以成功预测用户的性格。在使用的三种方法中,朴素贝叶斯算法略优于其他的算法。实验没有从以往的研究中提高准确性。与基于问卷的测试相比,该系统具有65%的准确率。
可以通过使用更准确的数据集来提高精确度,并使用原生印尼语进行印度尼西亚语分类(不翻译)来进一步改进。未来的研究还可以包括语义方法来考虑每个单词的含义。
参考文献
[1] I. Cantandir, I. Fernandez-Tobiaz, A. Belllogin, 'Relating personality types with user preferences in multiple entertainment domains,' EMPIRE 1st Workshop on Emotions and Personality in Personalized Services, 2013.
[2] L.R. Goldberg, J.A. Johnson, H.W. Eber, R. Hogan, M.C. Ashton, C.R. Cloninger, 'The International personality item pool and the future of public domain personality measures,' Journal of Research in Personality, 40(1), 84-96, 2006.
[3] F. Mairesse, M. Walker, M. Mehl, R. Moore, 'Using linguistic cues for the automatic recognition of personality in conversation and text,' Journal of Artificial Intelligence Research (JAIR). 30(1), 457–500, 2007.
[4] P.T. Costa, R.R. McCrae, 'Revised NEO personality inventory (NEO-PIR) and NEO five-factor inventory (NEO-FFI),' Psychological Assessment Resources, 1992.
[5] J. Golbeck, C. Robles, K.Turner, 'Predicting personality w
资料编号:[3908]
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。