<article>
课程地址: https://classcourseraorg/nlp/lecture/31
情感分析 (Sentiment analysis)又可以叫做
意见抽取 (Opinion extraction)
意见挖掘 (Opinion mining)
情感挖掘 (Sentiment mining)
主观分析 (Subjectivity analysis)等等。
引用的论文:
Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86
Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278
另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。
下面罗列了一些比较流行的词典:
当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例
但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图
可以看出,这些否定词同样可以作为单词极性的一个判断依据。
具体步骤为:
联合概率 / 独立的两个概率乘积
之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:
可以看到极性划分的还不错
</article>
</main>
转自csdn
Xsimilarity情感词词典;英文关键词:;Xsimilarity,极性词典,中英文,情感词;中文关键词:;Xsimilarity、极性词典、中英文、;张词语、;数据格式:;TEXT;数据介绍:;该词典非常全面,包含:;对正(负)面情感词语统计结果;英文程度级别词语;英文负面评价词语;英文负面情感词语;英文正面评价词语;英文正面情感词语;英文主张词语;中
Xsimilarity 情感词 词典
英文关键词:
Xsimilarity,极性词典,中英文,情感词语,评价词语,主张词语,
中文关键词:
Xsimilarity、 极性词典、 中英文、
张词语、
数据格式:
TEXT
数据介绍:
该词典非常全面,包含:
对正(负)面情感词语统计结果
英文程度级别词语
英文负面评价词语
英文负面情感词语
英文正面评价词语
英文正面情感词语
英文主张词语
中文程度级别词语 情感词语、评价词语、主
中文程度级别词语 中文负面情感词语 中文正面评价词语 中文正面情感词语 中文主张词语 点此下载完整数据集
三亿文库3yuu456com包含各类专业文献、幼儿教育、小学教育、高等教育、专业论文、文学作品欣赏、应用写作文书、Xsimilarity 情感词 词典_数据挖掘_科研数据集87等内容。
情感分析(Sentiment analysis,SA),又称倾向性分析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主观分析(Subjectivity analysis)
情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程
情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)
文本情感分析的应用非常广泛,如网络舆情风险分析,信息预测等。如通过Twitter用户情感预测股票走势,**票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测
首先安装SnowNLP中文情感分析库:
SnowNLP(Simplified Chinese Text Processing),是一个python语言编写的类库,可以方便的处理中文文本内容,其开发受到了TextBlob的启发
In [1]:
数据载入
In [2]:
Out[2]:
数据预处理
In [3]:
In [4]:
Out[4]:
In [7]:
Out[7]:
将所有数据打分
In [9]:
Out[9]:
将分数合并会原表格
In [11]:
Out[11]:
计算指标
In [12]:
Out[12]:
In [13]:
Out[13]:
In [14]:
Out[14]:
基础结论:中位数比平均值高很多,说明有少量异常低的评分拉低了均值
In [16]:
Out[16]:
看分数分布情况,直方图最合适
In [17]:
Out[17]:
少量数据,柱状图也可以
In [18]:
Out[18]:
In [19]:
Out[19]:
In [20]:
以分数排序,查看打分准确率
In [22]:
Out[22]:
好评
In [23]:
Out[23]:
In [24]:
Out[24]:
差评
In [25]:
Out[25]:
In [26]:
Out[26]:
In [27]:
Out[27]:
In [28]:
Out[28]:
In [29]:
Out[29]:
In [30]:
Out[30]:
结论
准确率比瞎猜高,但达不到人工打分准确率
SnowNLP库的训练基准数据是基于电商销售产品训练的,对饭店留言数据的打分准确率一般
做情感分析最好用户自行实现(网站增加打分功能,用户自行打分)
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)