情感分析(Sentiment analysis,SA),又称倾向性分析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主观分析(Subjectivity analysis)
情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程
情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)
文本情感分析的应用非常广泛,如网络舆情风险分析,信息预测等。如通过Twitter用户情感预测股票走势,**票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测
首先安装SnowNLP中文情感分析库:
SnowNLP(Simplified Chinese Text Processing),是一个python语言编写的类库,可以方便的处理中文文本内容,其开发受到了TextBlob的启发
In [1]:
数据载入
In [2]:
Out[2]:
数据预处理
In [3]:
In [4]:
Out[4]:
In [7]:
Out[7]:
将所有数据打分
In [9]:
Out[9]:
将分数合并会原表格
In [11]:
Out[11]:
计算指标
In [12]:
Out[12]:
In [13]:
Out[13]:
In [14]:
Out[14]:
基础结论:中位数比平均值高很多,说明有少量异常低的评分拉低了均值
In [16]:
Out[16]:
看分数分布情况,直方图最合适
In [17]:
Out[17]:
少量数据,柱状图也可以
In [18]:
Out[18]:
In [19]:
Out[19]:
In [20]:
以分数排序,查看打分准确率
In [22]:
Out[22]:
好评
In [23]:
Out[23]:
In [24]:
Out[24]:
差评
In [25]:
Out[25]:
In [26]:
Out[26]:
In [27]:
Out[27]:
In [28]:
Out[28]:
In [29]:
Out[29]:
In [30]:
Out[30]:
结论
准确率比瞎猜高,但达不到人工打分准确率
SnowNLP库的训练基准数据是基于电商销售产品训练的,对饭店留言数据的打分准确率一般
做情感分析最好用户自行实现(网站增加打分功能,用户自行打分)
在国外提出情感分析的概念是指意见挖掘。在国外提出情感分析的概念是指通过自然语言处理、文本挖掘、计算机语言学等技术手段,对文本中的情感信息进行分析和判断,以了解文本作者的情感倾向和态度。情感分析技术最初是应用于英语等欧美语言的研究中,后来随着中文信息处理技术的发展,也被广泛应用于中文文本分析领域。
<article>
课程地址: https://classcourseraorg/nlp/lecture/31
情感分析 (Sentiment analysis)又可以叫做
意见抽取 (Opinion extraction)
意见挖掘 (Opinion mining)
情感挖掘 (Sentiment mining)
主观分析 (Subjectivity analysis)等等。
引用的论文:
Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86
Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278
另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。
下面罗列了一些比较流行的词典:
当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例
但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图
可以看出,这些否定词同样可以作为单词极性的一个判断依据。
具体步骤为:
联合概率 / 独立的两个概率乘积
之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:
可以看到极性划分的还不错
</article>
</main>
转自csdn
近年来,微博已经成为全球最受欢迎的网络应用之一,微博的快速发展使其显示出了巨大的社会价值和商业价值,人们逐渐习惯在以微博为代表的社交网络上获取、交流信息与表达情感。文本情感倾向性分析主要关注以文本方式存在的信息中的情感倾向,当庞大的数据量使得它无法手动对它们进行分析时,情感分析就开始发挥作用了。情感分析在英文世界一直是一个被广泛研究的领域,而中文情感分析的研究仍处于起步阶段,大部分工作已通过尝试被证明是适用于英文的。 首先,本文总结分析了文本倾向性分析的基本概念与算法模型,在此基础上,将心理学中的PAD情感模型引入,结合知网提供的语义相似度计算方法,提出了一种使用给定基础情感词汇与其对应PAD值计算词汇的PAD值的方法,并以此构建了一个基于PAD情感模型的情感词典。其次,本文将问题扩展到中文的文本倾向性分析研究中,提出了一种结合统计信息与语义信息的权重计算方法,通过该方法,在一定程度上消除特征歧义对于分类器的影响,使得特征的权重更贴合文本的语义,分类的效果更好。最后,本文综合中文微博文本分析研究现状,分析了现有的文本表示模型,结合机器学习中的支持向量机算法,提出了基于PAD情感语义特征的支持向量机分类方法。 实验结果表明,基于支持向量机的分类算法的效果好于k最近邻节点算法的效果。同时,本文提出的基于PAD情感语义特征的支持向量机分类方法都能够取得比较实用的效果,并对普通的支持向量机方法效果有着显著的改进。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)