文本挖掘之中文情感分析2024年_知识

情感分析（Sentiment analysis，SA），又称倾向性分析、意见抽取（Opinion extraction）、意见挖掘（Opinion mining）、情感挖掘（Sentiment mining）、主观分析（Subjectivity analysis）

情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程

情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极观点的态度。这个态度或许是他或她的个人判断或是评估，也许是他当时的情感状态（就是说，作者在做出这个言论时的情绪状态），或是作者有意向的情感交流（就是作者想要读者所体验的情绪）

文本情感分析的应用非常广泛，如网络舆情风险分析，信息预测等。如通过Twitter用户情感预测股票走势，**票房、选举结果等，均是将公众情绪与社会事件对比，发现一致性，并用于预测

首先安装SnowNLP中文情感分析库：

SnowNLP（Simplified Chinese Text Processing），是一个python语言编写的类库，可以方便的处理中文文本内容，其开发受到了TextBlob的启发

In [1]:

数据载入

In [2]:

Out[2]:

数据预处理

In [3]:

In [4]:

Out[4]:

In [7]:

Out[7]:

将所有数据打分

In [9]:

Out[9]:

将分数合并会原表格

In [11]:

Out[11]:

计算指标

In [12]:

Out[12]:

In [13]:

Out[13]:

In [14]:

Out[14]:

基础结论：中位数比平均值高很多，说明有少量异常低的评分拉低了均值

In [16]:

Out[16]:

看分数分布情况，直方图最合适

In [17]:

Out[17]:

少量数据，柱状图也可以

In [18]:

Out[18]:

In [19]:

Out[19]:

In [20]:

以分数排序，查看打分准确率

In [22]:

Out[22]:

好评

In [23]:

Out[23]:

In [24]:

Out[24]:

差评

In [25]:

Out[25]:

In [26]:

Out[26]:

In [27]:

Out[27]:

In [28]:

Out[28]:

In [29]:

Out[29]:

In [30]:

Out[30]:

结论

准确率比瞎猜高，但达不到人工打分准确率

SnowNLP库的训练基准数据是基于电商销售产品训练的，对饭店留言数据的打分准确率一般

做情感分析最好用户自行实现（网站增加打分功能，用户自行打分）

在国外提出情感分析的概念是指意见挖掘。在国外提出情感分析的概念是指通过自然语言处理、文本挖掘、计算机语言学等技术手段，对文本中的情感信息进行分析和判断，以了解文本作者的情感倾向和态度。情感分析技术最初是应用于英语等欧美语言的研究中，后来随着中文信息处理技术的发展，也被广泛应用于中文文本分析领域。

课程地址: https://classcourseraorg/nlp/lecture/31

情感分析 （Sentiment analysis）又可以叫做

意见抽取 （Opinion extraction）

意见挖掘 （Opinion mining）

情感挖掘 （Sentiment mining）

主观分析 （Subjectivity analysis）等等。

引用的论文：

Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86

Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278

另外需注意，Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes，MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典：

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢？以IMDB影评为例

但是！我们不能用单纯的原始计数（raw counts）方法来进行打分，如下图

可以看出，这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为：

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果，分别来自于用户好评和差评的统计：

可以看到极性划分的还不错

</article>

</main>

转自csdn

近年来,微博已经成为全球最受欢迎的网络应用之一,微博的快速发展使其显示出了巨大的社会价值和商业价值,人们逐渐习惯在以微博为代表的社交网络上获取、交流信息与表达情感。文本情感倾向性分析主要关注以文本方式存在的信息中的情感倾向,当庞大的数据量使得它无法手动对它们进行分析时,情感分析就开始发挥作用了。情感分析在英文世界一直是一个被广泛研究的领域,而中文情感分析的研究仍处于起步阶段,大部分工作已通过尝试被证明是适用于英文的。首先,本文总结分析了文本倾向性分析的基本概念与算法模型,在此基础上,将心理学中的PAD情感模型引入,结合知网提供的语义相似度计算方法,提出了一种使用给定基础情感词汇与其对应PAD值计算词汇的PAD值的方法,并以此构建了一个基于PAD情感模型的情感词典。其次,本文将问题扩展到中文的文本倾向性分析研究中,提出了一种结合统计信息与语义信息的权重计算方法,通过该方法,在一定程度上消除特征歧义对于分类器的影响,使得特征的权重更贴合文本的语义,分类的效果更好。最后,本文综合中文微博文本分析研究现状,分析了现有的文本表示模型,结合机器学习中的支持向量机算法,提出了基于PAD情感语义特征的支持向量机分类方法。实验结果表明,基于支持向量机的分类算法的效果好于k最近邻节点算法的效果。同时,本文提出的基于PAD情感语义特征的支持向量机分类方法都能够取得比较实用的效果,并对普通的支持向量机方法效果有着显著的改进。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/3977748.html

文本挖掘之中文情感分析

发表评论

评论列表（0条）