情感分析器的研究方法

情感分析器的研究方法,第1张

监督学习

目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

基于规则/无监督学习

和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为05,明显不符合

2)s = SnowNLP(“ ”join(jiebaanalysetextrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于05,但实际为088,去掉“苏宁易购”则为06>

计算机软、硬件资源协调运行的程序系统,由一系列具有不同控制和管理功能的程序组成,它是直接运行在计算机硬件上的、最基本的系统软件,是系统软件的核心。操作系统是计算机发展中的产物,它的主要目的有两个:一是方便用户使用计算机,是用户和计算机的接口。比如用户键入一条简单的命令就能自动完成复杂的功能,这就是操作系统帮助的结果;二是统一管理计算机系统的全部资源,合理组织计算机工作流程,以便充分、合理地发挥计算机的效率。操作系统通常应包括下列五大功能模块:

(1)处理器管理:当多

感情是个复杂的东西,很难处理。

对于您说叙述的感情问题,我的建议是:

感情的事情,勉强不来,既然小明和小红分手肯定证明了双方直接按存在了某种不可能的因素,所以不要强求,让他们随心而去。

小芳如果喜欢小明,那她可以去追求、发展,因为爱情不是某个人的私有。如果不喜欢,而是为了帮朋友,那我劝她进到朋友的基本义务就可以了,千万别陷入别人的感情纠纷,因为如果他们和好了,你会有功;没和好,过全在她。所以,感情的事,适度干预是可以的,一旦过了就会适得其反。

小芳的正确做法是:应该分别问问小红和小明对他们之间爱情的真实想法,然后适度帮忙。帮不了,要学会知难而退。你并不是上帝,不是万能的,不能什么事情都尽善尽美。

祝好运 望采纳。

情感分析(Sentiment Analysis)

第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。

英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。

但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。

中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。

第二步,就是识别一个句子是积极还是消极,是主观还是客观。

有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。

分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。

中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。

另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。

到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。

这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。

这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。

分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。

接下来还可以对比不同产品的评价,并且可视化出来。如图。

这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。

中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。

总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。

爱意福瑞学情分析教育管理专家认为:针对一个高一的学生学情分析,应该采取如下方法:\x0d\学情分析主要包括学生学习起点状态的分析、学生潜在状态的分析两部分。\x0d\1学生起点状态的分析主要从三个维度展开:知识维度,指学生的认知基础;技能维度,指学生已有的学习能力;素质维度,指学生的学习态度、学习习惯、意志品质\x0d\2学生潜在状态的分析,主要指学生可能发生的状况与可能的发展。主要要说明学生已有的知识基础、认知结构,学生的情感和发展需要;\x0d\学生在知识与技能,过程与方法,情感、态度与价值观方面都能参与到什么程度,达到什么状态?\x0d\学生的学习习惯是怎样的,适宜于采用何种学习方法完成学习任务,探究式,合作式?\x0d\学生在课堂教学动态中,可能会生成哪些资源?如:“学生对某一问题可能会怎么反映”“教师应怎样应对”等等

本文可以学习到以下内容:

数据及源码地址: https://giteecom/myrensheng/data_analysis

小凡,用户对耳机商品的评论信息,你有没有什么好的办法分析一下?经理来向小凡请教问题。

嗯,小凡想了一会儿

我想到了两种分析方法:

经理听完,甚是欣慰,便让小凡着手分析用户的评论数据。

数据解释:

小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别积极1,消极0

一、window10+anaconda3的安装命令:

二、安装预训练模型应用工具 PaddleHub

可以看到,大约 60% 的用户给出好评

用户的评论内容多集中在配置、音质等主题上

这里使用百度飞浆的LAC分词模型

分析结束后,小凡总结出以下结论:

小凡将结论汇报给经理,和经理一起想出一个可行的方案解决目前存在的问题。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7907839.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存