如何利用hownet进行情感极性分析

如何利用hownet进行情感极性分析,第1张

情感分析(Sentiment Analysis)

第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。

英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。

但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。

中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。

第二步,就是识别一个句子是积极还是消极,是主观还是客观。

有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。

分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。

中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。

另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。

到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。

这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。

这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。

分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。

接下来还可以对比不同产品的评价,并且可视化出来。如图。

这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。

中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。

总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。

首先,明确大学生网络舆论引导需要把握的几个问题

 

1大学生网络舆论引导中的语言把握。网络语言不同于现实生活中的语言,有自己特有的一套语言方式;大学生比较能够接受的语言方式也有其特点。因此,在针对大学生的网络舆论引导中,应该使用符合大学生接受习惯的,同时具有网络语言特点的语言进行引导。网络语言往往简洁明了、直观具体,复杂的含义用简单符号组合就可以表达清楚,同时网络语言有适度放弃词汇本义、在使用中尽可能地对传统语言做出偏离的倾向,语言的表现力很强。这种特点是与网民中18~24岁的年轻人占绝大多数的情况是相适应的。大学生在语言接受习惯上,反感说教式、灌输式的交流,认同与他们平等交流的语言方式。因此在网络舆论引导上,使用的语言方式应该首先是契合网络语言特征的,否则会显得与普通网民的话语格格不入,在形式上就遭到大学生的反感;其次,网络舆论引导中,很忌讳直接将理论灌输、说教用在网络中,应该调整角度,以大学生网友的身份,用亲切交流、友好相处的语言方式潜移默化的网络舆论引导;有时平等而激烈的争辩、尖刻但在理的讽刺反而会赢得大家的好感,这也是网络传播带来的人文精神普及之后的结果。只有契合网络特点、符合大学生接受习惯的语言方式,才有可能获得成功,这是在开展大学生网络舆论引导中必须要把握好的。

2大学生网络舆论心理特点的把握。大学生网络舆论表达是自我认知、自我实现的需要,他们认同并接纳尊重大学生思想、情感、态度等的行为和意见。把握大学生网络舆论行为的心理特点,对于提高网络舆论引导的针对性和有效性是非常重要的。

3大学生网上与网下行为反差的把握。调查发现,有一定比例的大学生在网络上的性格、行为、思想表达,与他们的现实生活往往存在一定程度的不吻合,呈现出某种反差。比如,平时腼腆内向的大学生,有可能在网上表现得率直冲动,敢想敢说;网上表现出来的思想情感不一定会落实在现实生活和实际行动当中,等等。这样的反差的确对提高网络舆论引导的针对性和有效性带来一定的困难,但是也说明了大学生网络舆论的情绪、思想容纳弹性比现实生活中要高一些,这为针对大学生的网络舆论引导工作中时机和度的把握提供了一定的启发。

大学生网络舆论引导的主要方式

舆论引导需要针对不同类型的舆论形态有针对性。研究表明,舆论形态主要有讯息形态的舆论、观念形态的舆论、艺术形态的舆论以及作为舆论畸变的形态——流言等主要类型。网络舆论的主要类型与传统形态的舆论类型基本上没有太大差别。不同类型舆论的引导方式是不同的。针对讯息形态的舆论,由于其强度相对较弱,发展方向也不十分明确,此时的适时引导有效性较强。观念形态的舆论则不同,如果被接受,有可能进一步内化为舆论的深层结构——信念;为公众及时提供符合一般社会规范的参照系,或改变公众已有的参照系,是媒介影响观念形态舆论的主要方式。艺术形态的舆论带有较多的情感色彩,观念的表达是间接的,这种舆论形态对社会可能造成的威胁是“舆论共振”,即在一个短时期内,社会中相当多的公众将注意力集中在一两件作品上,只有一种几乎一致的评价能够流通,不同意见很难有立足之地。对于这种形态的主要引导方式是舆论分流,既发表流行的评价意见,又有意多发表一些其他评价意见,使得过于集中的舆论得以分流,形成正常的舆论不一律的自然状态,在此基础上逐渐使得主旋律评价意见居于主导地位。流言是没有确切来源的在公众中流传的消息,主要是由于信息供给不能满足需求造成的,流言如果任其发展下去后果严重。及时、充分满足信息需求,同时给予适当的引导,可以有效消除流言。

大学生网络舆论的引导方式主要有说服和议程设置等,这也是基于大学生网络舆论特点和舆论引导的一般原理得出的结论。说服是通过传递视听信息有意识地对接受者的行为施加影响,按信息发出者的要求使对象自愿地改变态度或行为。说服总是从对象的特点、需求出发的,具有较强的理性思辨色彩。大学生较高的文化素养、总体理性的网络舆论行为特点为说服方式的有效开展提供了良好基础。

议程设置是媒介传播研究中的一个重要概念。如果将媒介报道和其他内容总体上作为一种传播形势和氛围,那么在一个较长时期内,它们会无形中给公众议程带来某种观念或新的议题,它的影响是潜移默化的、强大的。大学生网络舆论引导中的议程设置,主要目的是形成多个网络舆论的兴奋点,在设置过程中慢慢引导网络舆论改变原有状态,朝着预期的方向发展。由于网络舆论参与性、互动性很强,议程设置有较大的自由度和可能性,但与此同时,由于网络舆论自由度较大,如果议程设置不当,造成在一定的网络空间的议程设置招致反感,网络使用者会转移空间网络舆论行为,使得议程设置的效果适得其反。因此,针对大学生网络舆论的引导,在使用议程设置方式时,一定要有时机和度的准确把握,用适当的方式,才能收到预期的效果。

另外,努力通过网内外的引导促进大学生实现网络虚拟性与现实生活真实性的统一,帮助大学生以负责任的态度参与网络舆论

针对大学生的网络舆论引导工作,除了在网上开展针对性的引导之外,通过规范上网方式、完善网络管理制度也是引导网络舆论健康良性发展的重要举措。对于大学生网络世界的管理、规范和约束,除了道德约束之外,制定完善的网站管理制度等,都是有效的约束制度。这些制度的完善,可以在一定程度上确保大学生网络虚拟性存在与现实生活真实性的统一,促使他们对自己的网络舆论行为负责,认真对待实际上已经成为现实生活一部分的网络世界。

促进大学生主体实现网络虚拟性与现实生活真实性的统一,还应该适当对大学生中存在的网上和网下的行为反差现象进行引导。保持网络虚拟性与现实生活真实性的统一,是锻造健康人格的需要,也是对自己对社会负责任的需要。

网络舆论引导是一个全新的课题。生活在网络环境影响之中的当代大学生,在拥有比前辈更多的资源条件和资讯选择空间的同时,也面临更加复杂的成长环境。面对大学生网络舆论的不断兴盛,在看到存在各种各样的问题的同时,也必须充分认识网络舆论环境对于大学生成长的有利影响,只有这样才能顺应发展趋势,以正确的态度对待大学生网络舆论行为,并以大学生可以接受的方式开展有效的网络舆论引导。

本文可以学习到以下内容:

数据及源码地址: https://giteecom/myrensheng/data_analysis

小凡,用户对耳机商品的评论信息,你有没有什么好的办法分析一下?经理来向小凡请教问题。

嗯,小凡想了一会儿

我想到了两种分析方法:

经理听完,甚是欣慰,便让小凡着手分析用户的评论数据。

数据解释:

小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别积极1,消极0

一、window10+anaconda3的安装命令:

二、安装预训练模型应用工具 PaddleHub

可以看到,大约 60% 的用户给出好评

用户的评论内容多集中在配置、音质等主题上

这里使用百度飞浆的LAC分词模型

分析结束后,小凡总结出以下结论:

小凡将结论汇报给经理,和经理一起想出一个可行的方案解决目前存在的问题。

http://minieastdaycom/bdmip/180414224336264html

在这篇文章中,主要介绍的内容有:

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

文本的预处理和分词。

如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。

注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量

通过countvocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。

注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,

1元组:"the"、"weather"、"is"、"sweet"。

2元组:"the weather"、"weather is"、"is sweet"。

在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。

sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。

词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下

其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。

注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。

d、计算tf-idf

所以,第一个句子的tf-idf特征向量为[0,1,129,129,0,1,0]

e、tf-idf的L2归一化

分析和研究人的情感是一个复杂的过程,需要结合多个因素和方法。以下是一些常见的方法和技巧:

观察非语言表达:情感通常通过非语言表达来展示,包括面部表情、姿势、手势、眼神等。观察这些非语言信号可以提供关于一个人情感状态的线索。

倾听和观察语言表达:人们在语言中常常流露出情感,包括词语的选择、语调、语速等。倾听和观察一个人的语言表达可以帮助你了解他们的情感体验。

提问和探索:与他人进行深入的对话,提出开放性的问题,探索他们的情感体验和内心感受。通过主动与他人交流,你可以更好地了解他们的情感世界。

了解背景和经历:一个人的情感体验通常受到他们的背景和经历的影响。了解一个人的背景故事、家庭环境、教育背景等,可以提供更多的背景信息来理解他们的情感。

使用情感分析工具:一些科学研究和心理学领域的专业人士使用情感分析工具来研究和测量情感。这些工具可能包括问卷调查、心理测量仪器、脑部扫描等,通过客观的数据来分析和研究情感。

学习心理学和情感科学知识:深入学习心理学和情感科学领域的知识可以提供更多的理论框架和研究成果,帮助你理解情感的本质和影响因素。

需要注意的是,分析和研究他人的情感是一项复杂的任务,需要综合考虑多个因素,并且要尊重他人的隐私和个人边界。在进行情感分析时,保持尊重、开放和理解的态度非常重要。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/1067709.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-12
下一篇2023-07-12

发表评论

登录后才能评论

评论列表(0条)

    保存