斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”

斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”,第1张

<article>

课程地址: https://classcourseraorg/nlp/lecture/31

情感分析 (Sentiment analysis)又可以叫做

意见抽取 (Opinion extraction)

意见挖掘 (Opinion mining)

情感挖掘 (Sentiment mining)

主观分析 (Subjectivity analysis)等等。

引用的论文:

Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86

Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278

另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典:

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例

但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图

可以看出,这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为:

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:

可以看到极性划分的还不错

</article>

</main>

转自csdn

Xsimilarity情感词词典;英文关键词:;Xsimilarity,极性词典,中英文,情感词;中文关键词:;Xsimilarity、极性词典、中英文、;张词语、;数据格式:;TEXT;数据介绍:;该词典非常全面,包含:;对正(负)面情感词语统计结果;英文程度级别词语;英文负面评价词语;英文负面情感词语;英文正面评价词语;英文正面情感词语;英文主张词语;中

Xsimilarity 情感词 词典

英文关键词:

Xsimilarity,极性词典,中英文,情感词语,评价词语,主张词语,

中文关键词:

Xsimilarity、 极性词典、 中英文、

张词语、

数据格式:

TEXT

数据介绍:

该词典非常全面,包含:

对正(负)面情感词语统计结果

英文程度级别词语

英文负面评价词语

英文负面情感词语

英文正面评价词语

英文正面情感词语

英文主张词语

中文程度级别词语 情感词语、评价词语、主

中文程度级别词语 中文负面情感词语 中文正面评价词语 中文正面情感词语 中文主张词语 点此下载完整数据集

三亿文库3yuu456com包含各类专业文献、幼儿教育、小学教育、高等教育、专业论文、文学作品欣赏、应用写作文书、Xsimilarity 情感词 词典_数据挖掘_科研数据集87等内容。

情感分析(Sentiment analysis,SA),又称倾向性分析、意见抽取(Opinion extraction)、意见挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主观分析(Subjectivity analysis)

情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程

情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)

文本情感分析的应用非常广泛,如网络舆情风险分析,信息预测等。如通过Twitter用户情感预测股票走势,**票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测

首先安装SnowNLP中文情感分析库:

SnowNLP(Simplified Chinese Text Processing),是一个python语言编写的类库,可以方便的处理中文文本内容,其开发受到了TextBlob的启发

In [1]:

数据载入

In [2]:

Out[2]:

数据预处理

In [3]:

In [4]:

Out[4]:

In [7]:

Out[7]:

将所有数据打分

In [9]:

Out[9]:

将分数合并会原表格

In [11]:

Out[11]:

计算指标

In [12]:

Out[12]:

In [13]:

Out[13]:

In [14]:

Out[14]:

基础结论:中位数比平均值高很多,说明有少量异常低的评分拉低了均值

In [16]:

Out[16]:

看分数分布情况,直方图最合适

In [17]:

Out[17]:

少量数据,柱状图也可以

In [18]:

Out[18]:

In [19]:

Out[19]:

In [20]:

以分数排序,查看打分准确率

In [22]:

Out[22]:

好评

In [23]:

Out[23]:

In [24]:

Out[24]:

差评

In [25]:

Out[25]:

In [26]:

Out[26]:

In [27]:

Out[27]:

In [28]:

Out[28]:

In [29]:

Out[29]:

In [30]:

Out[30]:

结论

准确率比瞎猜高,但达不到人工打分准确率

SnowNLP库的训练基准数据是基于电商销售产品训练的,对饭店留言数据的打分准确率一般

做情感分析最好用户自行实现(网站增加打分功能,用户自行打分)

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7854929.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存