人工智能技术应用:情感分析概述

人工智能技术应用:情感分析概述,第1张

与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。

基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1

在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

话说两年前我一脸蒙圈地开始了自己文本挖掘的职业生涯,领导给我的第一个任务就是文本分类任务。小伙伴手把手教我怎么来做一个三分类任务,上手还挺快,正能量爆炸,原来这就自然语言处理,也没有那么复杂吗?无知者无畏。

自然语言处理博大精深,越到细节处越是难,一不小心就从入门到放弃了。一个好的新手任务是入门到深入的前提,而文本分类任务就是一个很不错的选择,保准给你打满鸡血,至于能不能坚持到最后?就暂时不是我们关心的问题。万事开头难,好的开头有好结尾的概率会高一点。不啰嗦,回归正题开始胡说八道。

分类大家都知道吧?我且大胆地尝试下个定义,把事物按某特性划分为几种类别。

生活处处是分类,前段时间上海风风火火地垃圾分类,就算一种!按照垃圾的材质/是否可回收分类。垃圾分类出来没多久,有聪明的小伙伴就说我们是不是可以搞一个垃圾分类的模型,商机无限,我感叹小伙伴这头脑该去做ceo啊,也没有太在意。不过没多久市面上就有各种垃圾分类应用涌现,感觉错过一个亿的商机。

上学的时候,对分类的认识是不够的,觉得搞这么多分类干啥,有啥用啊。那时候文小刚大佬组里的文章喜欢各种分类,奈何智商有限,每次都云里雾里,大佬的世界我不懂。后来做了文本分类任务,才渐渐去想想为什么要分类?我想最简单的,分类意味着对事物认知,可以定位到更细的类别,可以进行筛选;分得越细,说明我们研究的越清楚,最终 …(原谅我浅薄的认知,故事编不下去了)

知道了分类也理解了分类的重要,再谈文本分类就简单了。所谓文本分类,说句废话,就是对文本按照某种特性进行分类。比如情感分类,按照文本的情感极性进行分类;还有最近在聊天机器人中使用到的,情绪分类,把文本分为开心、愤怒、失望…balabala;垃圾文本分类,识别文本是否为垃圾… 还有一些有意思的分类任务,比如去检测一句话的性别偏向,文本是否口语化的 … 都是我脑补的,大家也可以想想有哪些有意思的文本分类任务

从应用的层面来说,做文本分类,你首先要知道你的目标是什么,要构建一个什么样的分类模型?最好是梳理一套明确的分类标准,这样我们就可以去获取数据。或用规则或用人肉,都是可行的。有了数据集合,就可以尝试各种分类模型,可繁可简,可骚可闷… (当然你最终会认识到,模型并不是越复杂越好,简简单单或许才是最好的!)

此处假设我们已经明确了要做的分类任务,也有了一部分数据集。那么我们就可以说道说道文本分类的方法了,从简单到高大上的都可以吹一吹(反正吹牛逼又不用上税,说错了最多被打脸!我脸厚不怕)。

大家玩垃圾邮件识别任务的时候,可能会学到朴素贝叶斯吧,简单来说通过判断每个词在垃圾邮件中出现的概率,最终判断出整个文本是否为垃圾邮件。这时候大家会被反复灌输贝叶斯公式,一听名字觉得高大上,很多同学可能被吓退,但是当你真的写出来并理解之,简单优美大方!(数学果然是不是我这种屌丝气质的人可以搞的。)

不过朴素贝叶斯方法也太简单了,要满足条件独立假设,表现往往一般。这时我们可以上其他常规武器了,比如决策树,决策树的算法逻辑非常有意思,符合人们做决断的逻辑!通过逐一判断特征是否满足某些条件,来对文本进行分类。

如果你觉得一棵树妥妥不足决断,就可以上集成方法。所谓集成方法,就是单兵作战不行,那我们就群殴啊,总有一种办法来干死你。集成方法可以分为两类,一类是bagging方法,就是分别用几颗树单独来做决策,然后把它们的结果组合起来,随机森林就是其中一种;另一类是boosting方法,大概是一棵树决策有误差,那我再用一颗树来学习误差,如果不行我再来…有没有想到某公子子孙孙无穷尽也,当然我们作为凡人…

其他常规算法还有SVM(校招面试算法工程师感觉不会SVM都不好意思说自己懂机器学习),逻辑回归, 感知机 …

常规武器说完,那开始高级武器吧——蛇精网络。不过先慢慢铺垫一下,从我开始准备找工作的时候,深度学习就已经复苏,开始大红大紫,到处都是蛇精网络,深度学习 当年nature还是science出了几篇使用蛇精网络做强联量的,感觉整个物理圈子都躁动了,不过大佬们还是比较理性的指出蛇精网络没发总结出基本的物理定律。我们不是大佬,只兴奋滴看到这次饭碗终于有着落了。

个人觉得文本分类最好用的蛇精网络算法是fasttetxt,模型简单效率,准确率也不错,是众屌丝的理想选择。模型可以快速训练和上线应用,分分钟报告领导任务已经完成,请做下一步指示。不过fasttext虽然好,有一个问题啊,你不好吹牛逼啊,到年终汇报,你和各位大佬说我用fasttext完成某某任务,你很大概率和升职加薪绝缘(开个玩笑)。

我们不仅要fasttext来兜底,我们还需要TextCNN(卷积来学习局部的n-gram特征)、RNN(文本就是序列)、迁移学习(虽然任务不一样,但是有共性,所以可以迁移。一般一个神经网络越浅层的网络越通用。预训练什么的也可以认为是在迁移,最近大红大紫的BERT、GPT)、主动学习(少样本的时候是一个不错的选择,当年我吹过牛逼,主动学习可以帮助我们自动标注出一些没有标注但是置信度高的数据,这一批数据会包含更多的数据,可以逐渐扩展模型的能力)

算法说多了容易飘,我们回到实际应用,那么有哪些文本的任务呢?其实前面已经说过了,再重复一下

当年一不小心入了文本分类的坑,刚开始沾沾自喜,觉得还挺好玩,后来分类任务越来越复杂,有点招架不住了。做人要低调

分类任务几个要注意的问题,你的数据不足的时候该怎么办?有几个选择使用简单模型、迁移学习,主动学习,文本数据增强(不过文本的增强没有效果好;有通过多语种翻译来获得文本增强的,挺好玩)。模型怎么选择?我们前面介绍了很多方法,最终使用什么模型呢?其实最终综合效果+资源,效果好可能耗资源,我们在实际应用的时候,对误差是有忍耐程度的,不一定要十全十美,千万不要强迫症。有聪明的小伙伴,理解数据能帮助我们更好地选择模型。其他问题还有但不限于类别数据分布不均、炼丹调参指南

文本分类唠叨到此,希望大家不要被误导。

https://blogcsdnnet/u014248127/article/details/80774668

关于情感分析文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断回答如下:

情感分析,文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断如下情感分析、文本相似性和语句推断都是中文自然语言处理中的常见任务,需要进行语句关系判断。

其中,分词是中文自然语言处理中的基础步骤,可以将句子切分成有意义的词语,为后续任务提供基础。

在情感分析任务中,需要对文本的情感进行分类,通常采用机器学习算法,对文本进行特征提取和分类。文本相似性任务是指比较两个文本之间的相似度,通常采用词向量模型进行特征提取和相似度计算。

语句推断任务是指给定前提和假设,判断假设是否可以从前提中推出,通常需要进行逻辑推理和语义理解。这些任务都需要进行语句关系判断,对中文自然语言处理具有重要意义。

资料扩展:

情感分析是指通过文本来挖掘人们对于产品、服务、组织、个人、事件等的观点、情感倾向、态度等。情感分析是随着互联网发展而产生的,早期主要用于对网上销售商品的用户评语的分析,

以便判断用户对其所购商品是“喜欢”还是“不喜欢”。后期随着自媒体的流行,情感分析技术更多地用于识别话题发起者、参与者的情感趋向,

从中判断或挖掘话题中的价值,由此来分析相关舆情。情感分析的应用十分广泛,其研究领域涉及自然语言处理、信息检索、机器学习、人工智能等。

领域依赖是指文本情感分析的模型对某一领域的文本数据非常有效,但是将其应用于其他领域的时候,会使得分类模型的性能严重下降。

描写情感的词语

心花怒放、含情脉脉、喜上眉梢、幸灾乐祸、心如刀割等。

1、心花怒放

解释:怒放:盛开。

心里高兴得象花儿盛开一样。

形容极其高兴。

出自:清·李宝嘉《文明小史》第六十回:“平中丞此时喜得心花怒放,连说:‘难为他了,难为他了。

译文:平中丞此时高兴得心花怒放,连说:“难为他了,难为他了。

2、含情脉脉

解释:饱含温情,默默地用眼神表达自己的感情。

常用以形容少女面对意中人稍带娇羞但又无限关切的表情。

出自:唐·李德裕《二芳丛赋》:“一则含情脉脉,如有思而不得,类西施之容冶,眼红罗之盛饰。

译文:一是含情脉脉,如有思而不得,像西施的游乐,眼睛红罗的装饰。

3、喜上眉梢

解释:喜悦的心情从眉眼上表现出来。

出自:清·文康《儿女英雄传》第23回:“思索良久,得了主意,不觉喜上眉梢。

译文:思考了很久,得到了主意,不由得喜上眉梢。

4、幸灾乐祸

解释:幸:高兴。

指人缺乏善意,在别人遇到灾祸时感到高兴。

出自:《左传·僖公十四年》:“背施无亲,幸灾不仁。

又《庄公二十年》:“今王子颓歌舞不倦,乐祸也。

译文:《左传·僖公十四年》:“背弃恩惠没有关系,幸灾乐祸就是不仁。

又《庄公二十年》:“现在王子沉迷于歌舞,幸灾乐祸的。

5、心如刀割

解释:内心痛苦得象刀割一样。

出自:元·秦简夫《赵礼让肥》第一折:“待着些粗粝,眼睁睁俺子母各天涯,想起来我心如刀割。

译文:等待着一些粗糙,眼睁睁俺母子各自天涯,想起来我心如刀割。

关于一些表示各种情感的词语

表示“赞扬、喜爱”情感的词语:欢喜、喜悦、雀跃

表示“憎恨、厌恶“情感的词语:讨厌、抵触、恨恶

一、欢喜

拼音[huān xǐ]

解释1快乐;高兴:满心~。

欢欢喜喜过春节。

她掩藏不住心中的~。

2喜欢;喜爱:他~打乒乓球。

他很~这个孩子。

近义词喜悦、怡悦、愿意、快活、欣忭、欢乐、欢娱、原意、快乐、忻悦、兴奋、欢欣、沸腾、高兴、乐意、得意、夷愉、欢悦、欢快、欢跃、欢畅、欣喜、痛快、欢腾、愉快、开心

反义词悲痛、伤感、悲哀、悲伤、沮丧、不快

二、喜悦

拼音[xǐ yuè]

解释愉快;高兴:~的心情。

近义词怡悦、欢乐、欢喜、愿意、快活、愉快、甜美、快乐、忻悦、兴奋、欢欣、高兴、愉悦、乐意、得意、雀跃、夷愉、欢快、欢跃、欣喜、痛快、欢腾、欣忭、开心

反义词忧愁、悲痛、痛苦、辛酸、悲哀、悲伤、哀痛、伤心

三、雀跃

拼音[què yuè]

解释像小鸟那样跳来跳去。

形容高兴:~欢呼。

近义词欢跃、喜悦、高兴、忻悦、欣喜、愉快、喜跃、欣忭、开心

四、讨厌

拼音[tǎo yàn]

解释1惹人厌烦:这人说话总是这么啰唆,真~!2事情难办令人心烦:这种病很~,目前还没办法彻底治好。

3厌恶;不喜欢:他~这地方春天的风沙。

近义词憎恶、厌倦、嫌恶、恨恶、抵触、厌恶、厌烦、憎恨、腻烦

反义词酷爱、喜欢、识相、迷恋、赏识、宠爱、喜好、可爱、羡慕、兴趣、爱好、喜爱、痴迷、欢迎

五、抵触

拼音[dǐ chù]

解释跟另一方有矛盾:~情绪。

相互~。

在个人利益和集体利益有~的时候,应该服从集体利益。

近义词冲撞、反感、矛盾、抵牾、讨厌、抵抗、冲突

反义词吻合、相符

第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。

英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。

但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。

中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。

第二步,就是识别一个句子是积极还是消极,是主观还是客观。

有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。

分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。

中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。

另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。

到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。

这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。

这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。

分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/771676.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-09
下一篇2023-07-09

发表评论

登录后才能评论

评论列表(0条)

    保存