中文情感分析 的难点在哪

中文情感分析 的难点在哪,第1张

情感分析(Sentiment Analysis)

第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。

英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。

但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。

中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。

第二步,就是识别一个句子是积极还是消极,是主观还是客观。

有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。

分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。

中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。

另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。

到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。

这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。

这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。

分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。

接下来还可以对比不同产品的评价,并且可视化出来。如图。

这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。

中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。

总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。

据《麻省理工科技评论》(MITTechnologyReview)消息,本月初,中国科技巨头百度在一场持续的人工智能竞争中悄悄击败了微软和谷歌。具体来说,百度AI算法ERNIE在通用语言理解评估测试(GeneralLanguageUnderstandingEvaluation,GLUE)上领先其竞争对手。

GLUE是AI系统理解人类语言的良好标准。它由九种不同的测试组成,这些测试包括选择句子中的人员和组织的名称以及弄清楚“it”等代词在存在多个潜在先行词时的含义。因此,在GLUE上得分很高的语言模型可以处理各种阅读理解任务。在满分100分中,此前在GLUE测试的平均分为87。百度现在是第一个凭借其模型ERNIE获得超过90分的团队。

GLUE的公开排行榜在不断变化,另外一支团队很可能很快会超越百度。但值得注意的是,百度的成就说明了AI研究如何从众多贡献者中受益。百度的研究人员必须开发一种专门针对中文的技术来构建ERNIE(代表“知识增强的语义表示模型”)。碰巧的是,同样的技术也使它更好地理解英语。

在Transformer的双向编码器表示(BERT)于2018年末创建之前,自然语言模型并不是那么好。他们擅长预测句子中的下一个单词(因此非常适用于自动完成功能),但即使经过一小段时间,他们也无法承受任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。

但是BERT改变了这一点。先前的模型学会了仅通过考虑单词之前或之后出现的上下文来预测和解释单词的含义,而不能同时考虑两者。换句话说,它们是单向的。

相比之下,BERT一次考虑单词前后的上下文,使其双向。它使用称为“掩码”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它具有两倍的工作线索。例如,在“男子去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。___是您可以去的地方,也是可以购买牛奶的地方。

使用掩码是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI著名的GPT-2之类的模型可以撰写极具说服力的散文而又不偏离中心论题的部分原因。

百度研究人员开始开发自己的语言模型时,他们希望以掩码技术为基础。但是他们意识到他们需要进行调整以适应中文。在英语中,单词充当语义单元,这意味着完全脱离上下文的单词仍然包含含义。中文字符不能说相同。尽管某些字符确实具有内在含义,例如火、水或木,但大多数字符只有与其他人串在一起才可以。例如,根据匹配,字符灵可以表示聪明(机灵)或灵魂(灵魂)。一旦分开,专有名词中的字符(例如,波士顿或美国)就不是同一件事。

因此,研究人员在新版本的掩码上对ERNIE进行了培训,该掩码可隐藏字符串而不是单个字符。他们还训练了它以区分有意义的字符串和随机的字符串,从而可以相应地掩盖正确的字符组合。结果,ERNIE对单词如何用中文编码信息有了更深入的了解,并且在预测缺失片段方面更加准确。事实证明,这对于从文本文档进行翻译和信息检索等应用程序非常有用。

研究人员很快发现这种方法实际上实际上也适用于英语。英语中具有类似的单词字符串,这些单词表示的含义与其部分和的总和不同。无法通过将“HarryPotter”等专有名词和“chipofftheoldblock”之类的表达式分隔来有意义地解析它们包含的意思。

首先,明确大学生网络舆论引导需要把握的几个问题

 

1大学生网络舆论引导中的语言把握。网络语言不同于现实生活中的语言,有自己特有的一套语言方式;大学生比较能够接受的语言方式也有其特点。因此,在针对大学生的网络舆论引导中,应该使用符合大学生接受习惯的,同时具有网络语言特点的语言进行引导。网络语言往往简洁明了、直观具体,复杂的含义用简单符号组合就可以表达清楚,同时网络语言有适度放弃词汇本义、在使用中尽可能地对传统语言做出偏离的倾向,语言的表现力很强。这种特点是与网民中18~24岁的年轻人占绝大多数的情况是相适应的。大学生在语言接受习惯上,反感说教式、灌输式的交流,认同与他们平等交流的语言方式。因此在网络舆论引导上,使用的语言方式应该首先是契合网络语言特征的,否则会显得与普通网民的话语格格不入,在形式上就遭到大学生的反感;其次,网络舆论引导中,很忌讳直接将理论灌输、说教用在网络中,应该调整角度,以大学生网友的身份,用亲切交流、友好相处的语言方式潜移默化的网络舆论引导;有时平等而激烈的争辩、尖刻但在理的讽刺反而会赢得大家的好感,这也是网络传播带来的人文精神普及之后的结果。只有契合网络特点、符合大学生接受习惯的语言方式,才有可能获得成功,这是在开展大学生网络舆论引导中必须要把握好的。

2大学生网络舆论心理特点的把握。大学生网络舆论表达是自我认知、自我实现的需要,他们认同并接纳尊重大学生思想、情感、态度等的行为和意见。把握大学生网络舆论行为的心理特点,对于提高网络舆论引导的针对性和有效性是非常重要的。

3大学生网上与网下行为反差的把握。调查发现,有一定比例的大学生在网络上的性格、行为、思想表达,与他们的现实生活往往存在一定程度的不吻合,呈现出某种反差。比如,平时腼腆内向的大学生,有可能在网上表现得率直冲动,敢想敢说;网上表现出来的思想情感不一定会落实在现实生活和实际行动当中,等等。这样的反差的确对提高网络舆论引导的针对性和有效性带来一定的困难,但是也说明了大学生网络舆论的情绪、思想容纳弹性比现实生活中要高一些,这为针对大学生的网络舆论引导工作中时机和度的把握提供了一定的启发。

大学生网络舆论引导的主要方式

舆论引导需要针对不同类型的舆论形态有针对性。研究表明,舆论形态主要有讯息形态的舆论、观念形态的舆论、艺术形态的舆论以及作为舆论畸变的形态——流言等主要类型。网络舆论的主要类型与传统形态的舆论类型基本上没有太大差别。不同类型舆论的引导方式是不同的。针对讯息形态的舆论,由于其强度相对较弱,发展方向也不十分明确,此时的适时引导有效性较强。观念形态的舆论则不同,如果被接受,有可能进一步内化为舆论的深层结构——信念;为公众及时提供符合一般社会规范的参照系,或改变公众已有的参照系,是媒介影响观念形态舆论的主要方式。艺术形态的舆论带有较多的情感色彩,观念的表达是间接的,这种舆论形态对社会可能造成的威胁是“舆论共振”,即在一个短时期内,社会中相当多的公众将注意力集中在一两件作品上,只有一种几乎一致的评价能够流通,不同意见很难有立足之地。对于这种形态的主要引导方式是舆论分流,既发表流行的评价意见,又有意多发表一些其他评价意见,使得过于集中的舆论得以分流,形成正常的舆论不一律的自然状态,在此基础上逐渐使得主旋律评价意见居于主导地位。流言是没有确切来源的在公众中流传的消息,主要是由于信息供给不能满足需求造成的,流言如果任其发展下去后果严重。及时、充分满足信息需求,同时给予适当的引导,可以有效消除流言。

大学生网络舆论的引导方式主要有说服和议程设置等,这也是基于大学生网络舆论特点和舆论引导的一般原理得出的结论。说服是通过传递视听信息有意识地对接受者的行为施加影响,按信息发出者的要求使对象自愿地改变态度或行为。说服总是从对象的特点、需求出发的,具有较强的理性思辨色彩。大学生较高的文化素养、总体理性的网络舆论行为特点为说服方式的有效开展提供了良好基础。

议程设置是媒介传播研究中的一个重要概念。如果将媒介报道和其他内容总体上作为一种传播形势和氛围,那么在一个较长时期内,它们会无形中给公众议程带来某种观念或新的议题,它的影响是潜移默化的、强大的。大学生网络舆论引导中的议程设置,主要目的是形成多个网络舆论的兴奋点,在设置过程中慢慢引导网络舆论改变原有状态,朝着预期的方向发展。由于网络舆论参与性、互动性很强,议程设置有较大的自由度和可能性,但与此同时,由于网络舆论自由度较大,如果议程设置不当,造成在一定的网络空间的议程设置招致反感,网络使用者会转移空间网络舆论行为,使得议程设置的效果适得其反。因此,针对大学生网络舆论的引导,在使用议程设置方式时,一定要有时机和度的准确把握,用适当的方式,才能收到预期的效果。

另外,努力通过网内外的引导促进大学生实现网络虚拟性与现实生活真实性的统一,帮助大学生以负责任的态度参与网络舆论

针对大学生的网络舆论引导工作,除了在网上开展针对性的引导之外,通过规范上网方式、完善网络管理制度也是引导网络舆论健康良性发展的重要举措。对于大学生网络世界的管理、规范和约束,除了道德约束之外,制定完善的网站管理制度等,都是有效的约束制度。这些制度的完善,可以在一定程度上确保大学生网络虚拟性存在与现实生活真实性的统一,促使他们对自己的网络舆论行为负责,认真对待实际上已经成为现实生活一部分的网络世界。

促进大学生主体实现网络虚拟性与现实生活真实性的统一,还应该适当对大学生中存在的网上和网下的行为反差现象进行引导。保持网络虚拟性与现实生活真实性的统一,是锻造健康人格的需要,也是对自己对社会负责任的需要。

网络舆论引导是一个全新的课题。生活在网络环境影响之中的当代大学生,在拥有比前辈更多的资源条件和资讯选择空间的同时,也面临更加复杂的成长环境。面对大学生网络舆论的不断兴盛,在看到存在各种各样的问题的同时,也必须充分认识网络舆论环境对于大学生成长的有利影响,只有这样才能顺应发展趋势,以正确的态度对待大学生网络舆论行为,并以大学生可以接受的方式开展有效的网络舆论引导。

计算情感分析得分函数是预处理文本数据。

1、预处理文本数据,如去除停用词、标点符号等,进行分词和词性标注,将文本转化为计算机可处理的形式。

2、构建情感词典或使用现有的情感词典,将文本中的词语与情感词典进行匹配,计算文本中包含正面、负面和中性情感词汇的数量和权重。

3、根据算法模型,计算文本的情感极性得分,通常使用的是情感极性得分的加权平均值或者概率值。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3844509.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-18
下一篇2023-08-18

发表评论

登录后才能评论

评论列表(0条)

    保存