中文分词的分析和研究外文翻译资料
2021-12-17 22:19:26
以中文分词为基础的汉语言情感分析,旨在研究并分析句子和段落的情感表达。以前的算法适应贝叶斯算法和重量算法并以此来完成分析部分,它们都不如某些实验结果准确,并且分析结果与事实在情感的强烈程度上存在很大差异。在本文中,提出了一种新的算法,是基于句子结构分析的结合权重算法。分词后,句子结构和主题词将被更进一步分析。根据结果,无关紧要的情绪句子或段落将在很大程度上被过滤,最后是单词的强烈程度将根据权重算法被计算和匹配。大量实验表明这种新算法可以大大提高情绪分析准确性。
I.介绍
中国有句老话说“要控制人们说什么比防止洪水更难“。这些简单的词语揭示了公众的意见重要性。在过去,在这种情况下沟通并不容易,舆论被描述为一种河。然而在现代社会,由于人们所说的十分重要所以被进一步描述为海洋。舆论显示出公众对一些政治事件和一些州长在某些特定场合的行为的看法和态度。它总结了公众的意见以及对公共现象和问题的态度。基于上面提到的前提,舆论分析的价值就体现出来了。一旦某些事情发生了,公众将急切地想知道真相的各个方面。无论支持与否,客观与否,欢迎与否,很多评论都随之而来了。总之,人们的多元化的态度对事件的发展有不可忽视的影响。结果就是,收集和舆论分析可以帮助个人,企业包括政府掌握人们的言论和方式思维。舆论分析的结果可以是整个社会的指南针。互联网是人们表达他们的态度最方便的媒体,所以为了更快更准确收集人们在互联网上的话,有必要瞄准一些主流论坛,因为它们包含大量日常生活中的详细事件数量并且如果这个话题非常热门或引人注目,那么这些事件的评论在一天内可达到100,000。因此,如果这些评论被仔细收集并通过情绪分析算法,那么人们的情绪和情绪的力度可以根据评论判断。本文介绍了一种方法论情绪分析。它使用分词词典和句子结构词典自动分析中文句子结构,并根据权重算法判断句子的态度。这个方法取代了以前的手动系统和那些只是用简单的统计方法来监控公众意见,这提高了分析汉语情感的效率。
II.中文分词的分析和研究
中文被列为最难学习的语言之一的原因是它虽然有一套语法中文原则和分词,但是替代方案句子结构不是那么实用,因为它们会随着句子适用的场合而改变。这个特征使词语分词和情感分析困难得多。因此,论文应用最先进的CAS(中国科学院)算法并修改一些缺点。首先,从词典中删除了一些罕用词。另外,为了方便主题词可以单独挑选出来判断个人态度。另外,断言词被添加到字典中以便用情感词分开他们。最后,这个方法将一些单词组合在一起形成新词。这种方法的优点是它可以明确地将整个结构分成几个部分根据他们的用法准确定义公众意见,这使得分析结果与真实相符舆论更准确。
第一步是将主题词分开。网络公众言论的特点是人们的语言被转换和记录在一个电子表格中而不是声音中。一方面,这个存在的表格为情感分析提供了物理支持,因为他们可以轻易的被缩短去做分析。然而,如果一个单词被记录在纪录表格里而不是声音里,那么这些话是否表达了说话者本身的态度是非常难以判断的。因此,最重要的事情是查明评论所表现出的态度或者情感是作者所发出的或者仅仅是被参考。例如,在一些句子里,如果词语像是“他说”或者“有些人曾经说过”出现,那么去决定这种情感是属于作者或者其他人这件事是非常困难的。在这种方法论里,存在一种主题词词典。
在分词把主题过滤之前,所有的句子都会被存进这个辞典。所以,这些无关的主题将会被清除以提高情感分析的精确度。除了主题词之外,断言词在这个方法论里也会被过滤。断言词的功能是在接下来的文段里引出态度词;然而断言词本身是缺少情感的。因此。他们对于情感分析所做的贡献是微小的。基于大量的资源,频繁使用的断言词将会被收集和安排管理,并且词典已经被建立用作为情感分析提供支持。
第三部分中需要被考虑的是副词。平常的副词是不会被讨论的因为他们都被收录在以前的字典里了。这篇文章所想要强调的是副词的结合体。它们中的一些是被基础副词和形容词性副词组成的并且这些单词总是有自己的特殊含义。例如,在中文中有一个词组叫做“不得不”,它在英文中表示无法拒绝去做某事。它被两种单独的词“不得”和“不”所组成。如果我们单独翻译,在英语中,“不得”意味着不能,“不”意味着不。两种消极的情感词使得整个句子的情感是消极的。然而,“不得不”是一个类似于副词的东西,并且它不能决定这个句子的意义,就比如“他不能说奥林匹克运动会不奇妙”和“他不能拒绝承认这次表演是完全失败的”。这就是说,这个句子的意思是取决于在“不得不”之后的情感词而不是“不得”和“不”这两个词。通过在词典中增加更多相似的词,这种方法论可以避免频繁得造成这种错误。
III。 句子结构的分析与研究
分词后,一个完整的句子分为几个不同的部分并且一些干扰性的单词已被过滤掉。根据以前的经验,情绪分析现在就可以处理。 然而,历史课也告诉我们,如果事情是仓促的继续进行,研究结果有时候会有很大的错误率,可达到百分之三十。 错误的原因是情绪分析之前缺乏句子结构。 实际上,不仅仅是中文而且在其他语言中,句子结构是确定真正句子结构的关键并解决潜在的问题的。 而且,专注于分析句子结构是改进的关键情绪分析的准确性。 据一些人说权威调查,以下句子结构对句子意义贡献最大。
A.复杂句的组合
1)具有协调关系的复杂句子,渐进式重复句子
这两种句子对句子的含义有着相同的贡献,可以看作是强化句子情感。至于协调的句子关系,形式总是像“A B”。两个下属句子A和B可以描述相同或两个有很多共同之处的内容,因此他们之间没有别的关系,如彼此对立等。因此,该方法结合了两个从属句子的情感定义了整句话的意义。至于渐进式复制品句子,结构就像“A A “,就是后半部分
通常会提供更详细的信息或表达比上半句更深刻的情感。结果就是,在分析包含这种句子的情感时,情感的两个部分可以加在一起,最终结果很容易达到。
B.修改复句
1)让步复杂的句子
让步复杂句子的结构可以被描述为“......一个......让步的词...... B ......”。这种句子是很特别的,因为无论句子的前半部分有多么强烈情绪,整个句子的情绪会受到让步的反对。对此,捕获让步词是分析的关键。分词和分类后,该句子将在让步词典中再次被过滤。一旦捕获了让步词,那么这句话之前的情绪将会颠倒过来,并且整个句子的情感将被直接的捕获。通过这种方式,如果出现了让步的话中段,前段的情感将被逆转。基于许多实验,这种方法将错误率保持在3%和5%之间 - -极其简化分析过程并改进算法的效率。
2)复杂句子的目的和复杂的句子的因果关系
目的的复杂句子和原因和目的效果通常表现为整个句子的某些部分和其他部分包括描述情感。从而,与让步复杂的句子不同,捕获连词后,句子的真实情感是出现在这些话之后。所以说,以前的部分应该被拒绝。虽然之前表达的是真实的情绪,会有很多表达态度的词加入句子中,他们对作者想表达的情感贡献很少。研究结果直接证明在连词之后捕捉情感词比分析句子中的所有单词更准确
3)妥协复杂的句子
妥协复句的情绪也是由下属后的判决连词确定。分类是没有意义的,如果我们只是将复杂句子作为一个新类别来分析妥协句子的情感,但对于一个段落,这种句子结构对情绪有显著影响,原因是在分析其他结构性句子中情绪强度可以通过计算数字来累加情感词。但妥协复杂句子,情感力量可以被情感词削弱,这意味着它不适合将情感词汇的重量加在一起,因为重量从正到负不等。所以在这个方法中,当分析妥协复杂的句子时情绪的力量会降低。
IV.情绪分析的研究与改进
中文分词算法为改进后的情感分析提供了极大的帮助和便利。下一步是为不同的情感词语分配权重并确定最终结果。 A.为情感词指定权重。几乎语言都会包含几个不同的词来描述一个事物或表达一种情感,并且在中文中也是如此。但是不同的词包含不同程度的情感,而且该方法的作用是根据情感程度为词语分配不同的权重。例如,“高兴”,“欢呼雀跃”,“手舞足蹈”,“欣喜若狂”相应地指的是“快乐”,“喜悦”,“欢乐”和“狂喜”。通常,狂喜表达最大的幸福,快乐是最轻微的幸福。结果,这四个单词被分配给权重 1, 3, 3和 5,以便在使用中区分它们。表达负面情绪的词也是相同的,唯一的区别是否定词的权重是负数。 B.权重的计算该方法适应改进的权重均值算法来计算权重,因为它完美地匹配情绪分析算法。公式如下(1)所示。
E:权重计算的最终结果; Np,Nn,相应地表示积极态度词的数量和消极态度词的数量; wp和wn相应地指的是积极态度词和消极态度词的权重。首先,在分析情感时,属于不同类型的单词数量会对最终结果产生很大影响。至于常规句,如果数量为负数态度词占了句子的一半以上,陈述的情绪可能是消极的,反之亦然。其次,情感词的强度程度会随着情感词数的增加而影响分析。在许多句子中,一个词所表达的情绪可以压倒许多词语所表达的态度,这种情况并不少见。在考虑这两个方面时,以前的公式可能是最有效的
准确的一个来计算重量和。五,其他改进除了以前的算法改进之外,本文的方法还附加了CAS的字典。由于该方法着重于从互联网论坛收集舆论,因此将最热门的网络词汇添加到语料库中,以便进行更全面,更彻底的分析。这种改进也通过搜狗输入法收集新词,因为它建立了一个每天更新最时尚单词的库。 VI。权重计算的结果通过图1,
这个中文句子情感分析的实现表明,在分析了从网上随机收集的一个句子后,系统显示了“支持”,“中立”和“反对”的饼图。本文采用权重计算方法,基于汉语分词算法和句子结构分析来分析句子的情感。实际上,该方法使用CAS的分割算法,过滤掉大量的干扰词并将最热门的词汇收集到库中,以提高效率和准确性。
随着全球化的快速发展,各种语言的各种评论和交流平台都在网上兴起。相应地,跨语言情感分析变得尤为重要。在本文中,我们描述了参与第六次中国意见分析评估任务的任务2。针对特定目标语言的缺陷训练语料库,本文提出了一种基于情感词典的跨语言情感导向的分类方法。借助翻译工具和中文培训语料库。具体方法如下:首先,Fisher准则用于识别基准词。考虑单词,单词和句子,单词和文档之间的相关性,以及否定单词对其的影响。不同的情感词,聚类通过改进的信息瓶颈算法完成。随后,将建立一个基于句子结构的中文情感词典。然后,通过参考否定词词典和程度副词词典来计算那些翻译文本的情感权重,进而可以识别出文本的趋势。评估结果证明所提出的方法是可行的。
随着网络技术的蓬勃发展,越来越多的人倾向于通过各种评论平台表达他们对热门事件,商品或服务的看法。对评论情绪倾向的研究和分析可以更好地理解人们是否对产品或服务感到满意,它可以帮助商人对他们的产品或服务进行调查,并在以后进行改进。由于网络媒体的全球快速发展,评论文本包含多语言,因此跨语言情感研究具有重要意义。近来,专家们越来越关注跨语言情感分析。国内外学者提出了许多策略,通过采用可比较的语料库,迭代学习,建模,翻译等方面作为考虑因素来解决这个问题。
Wan [1]使用英语语料库作为训练数据和未标记的中文数据进行共同训练,以研究跨语言的情感取向。 Abbasietal。 [2]提出了一种使用句子规范和句法特征的跨语言情感分类方法。 Boyd-Graber和Resnik [3]提供了一种多语言监督的LDA模型,基于多语言同义词集创建多语言Dirichlet分布,然后基于主题回归方法预测多语言文本的情感方向。 Su [4]给出了一种依赖于双语特征扩展的情感分类方法,可以在不损失情感分类准确性的情况下显著减少特征向量的维数,并且提高学习效率。 Guilinetal。 [5]提出了一个混合CLOA模型用于跨语言意见分析,融合自我训练模型和合作训练模型,并获得良好的结果。 Liu [6]提出了一种依赖主动学习的跨语言文本分类算法,可以有效提高分类器在目标语言中的适应性,最终获得良好的分类效果。 Ghorbel [7]提出了一种监督学习方式,通过在法国在线论坛中使用帖子来训练分类器,选择不同的分类特征以获得更好的跨语言情感分类结果。
参加第六届中国定向分析评估(COAE2014)任务2:基于文档水平的跨语言情感倾向分析,由于缺乏多语言平行或可比较的语料库,上述方法在分析多种语言的方向时不起作用。通过汉语翻译工具和训练语料库,本研究提出了基于领域特定情感词典的跨语言情感分析方法,并在COAE2014所有参与团队中取得了一定的成功。
考虑到领域知识对方向选择的巨大影响,将构建一个中文领域情感词典,通过翻译,对多种语言的分析最终转向对汉语文本的研究。然后,通过参考文献计算翻译文本的情感权重。否定词词典和程度副词词典,因此可以识别文本的方向。实验结果表明该策略是可行的。
基于句子结构的领域情绪词典构建
句子结构对句子的情感取向有确定的影响,尤其是带有否定词或厌恶词的句子,这会导致差异化或更差的情感取向。 显然,使用基于句子结构的领域情感词典可以提高准确性。 基于句型模式的域词典的构造如下:在候选词和基准词,句子,文档之间创建语义相关矩阵,然后使用信息瓶颈算法获得候选词的方向:正面,负面或中性。
The emotion analysis of Chinese language, basing on the foundation of Chinese words segmentation, aims to study and analyze the emotion that sentences and paragraphs express. Previous algorithm adapted Bayes Algorithm
资料编号:[4697]
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。