Python SnowNLP情感分析实践与优化总结

Python SnowNLP情感分析实践与优化总结,第1张

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为05,明显不符合

2)s = SnowNLP(“ ”join(jiebaanalysetextrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于05,但实际为088,去掉“苏宁易购”则为06>

微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了34%,达到091。

关键词: 情感分析, 长短期记忆网络, 用户情感倾向

Abstract:

Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 091, with an improvement of 34% over the best baseline method MF-CNN

关于情感分析文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断回答如下:

情感分析,文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断如下情感分析、文本相似性和语句推断都是中文自然语言处理中的常见任务,需要进行语句关系判断。

其中,分词是中文自然语言处理中的基础步骤,可以将句子切分成有意义的词语,为后续任务提供基础。

在情感分析任务中,需要对文本的情感进行分类,通常采用机器学习算法,对文本进行特征提取和分类。文本相似性任务是指比较两个文本之间的相似度,通常采用词向量模型进行特征提取和相似度计算。

语句推断任务是指给定前提和假设,判断假设是否可以从前提中推出,通常需要进行逻辑推理和语义理解。这些任务都需要进行语句关系判断,对中文自然语言处理具有重要意义。

资料扩展:

情感分析是指通过文本来挖掘人们对于产品、服务、组织、个人、事件等的观点、情感倾向、态度等。情感分析是随着互联网发展而产生的,早期主要用于对网上销售商品的用户评语的分析,

以便判断用户对其所购商品是“喜欢”还是“不喜欢”。后期随着自媒体的流行,情感分析技术更多地用于识别话题发起者、参与者的情感趋向,

从中判断或挖掘话题中的价值,由此来分析相关舆情。情感分析的应用十分广泛,其研究领域涉及自然语言处理、信息检索、机器学习、人工智能等。

领域依赖是指文本情感分析的模型对某一领域的文本数据非常有效,但是将其应用于其他领域的时候,会使得分类模型的性能严重下降。

一、舆情搜索

1人工搜索

(1)搜索引擎搜索:以百度搜索引擎为例,通过输入舆情关键词,然后进行自动检索,在此就不做过多介绍。但是对于一些搜索指令一定要掌握,如需搜索“爱奇艺舆情”,注意,一定要包含双引号,通过检索结果你会发现所有搜索结果都完整包含了“爱奇艺舆情”这个关键词。

(2)新闻门户网站站内搜索:原理和方法其实和搜索引擎相似,缺点就在于舆情搜索的范围比较窄,仅能获取到相应平台下发布的舆情信息。

(3)社交媒体搜索:比较常见的社交媒体搜索工具就是微信搜一搜以及微博搜索,同样也是通过关键词来进行搜索。以微博为例,电脑用户可以直接进入微博搜索主页,也可以通过微博顶部的搜索框进入。安装了微博手机客户端的朋友则可以通过点击发现->顶部搜索框进入移动搜索。

2技术搜索

即借助像识达科技这样的专业舆情监控平台,通过关键词和定向网站搜索法来满足用户搜索舆情的需求。和人工搜索的区别在于无需手动检索,时效性更强,与此同时搜索范围可覆盖全网。

二、舆情查看

1搜索工具查看:即根据搜索引擎、新闻门户网站、社交媒体的检索结果,然后根据平台的时间、栏目类别、内容类型进行查看。

2舆情监控平台查看:即根据专业舆情监控平台的监测结果,自定义选择时间段、平台、正负面、标题、关键词、事件等精准查看。

三、舆情处理

首先第一步是要洞悉和分析舆情,及时的发现网上与己相关的舆情信息,然后进行分析,以采取相应措施。其次是进行舆情跟踪,指的是要对舆情的热点主题、衍生话题等进行跟踪,以把握实时的舆情演变发展方向。第三,则是结合舆情统计分析结果及舆情传播情况,展开舆情引导和回应。最后就是对舆情工作进行总结,供后续舆情防范与处理提供经验教训。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/742077.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-08
下一篇2023-07-08

发表评论

登录后才能评论

评论列表(0条)

    保存