数据挖掘，情感分析，深度学习具体步骤是？2024年_知识

有两大类，一类是主观性：主观、客观、中性；一类是情感倾向：褒义、贬义、中性。

文本分析的话，主要是对词、句子中观点的挖掘。

你所说的机器学习法，现在基本用于对**观点的打分系统吧。基本上就是利用分类计数，对文档中存在的情感进行分类的。

就我个人理解而言，我认为机器学习法只是情感文本分析的方法论之一，至于数据挖掘，也是通过对文档的数据收取，进行情感分析的。也是对情感文本分析的方法论之一。

所以，情感分析是主体的话，文本分类、机器学习、数据挖掘都是方式方法。这些方法可以共同应用在一个情感分析中，也可以分别独立存在。

目前英文类的文本情感分析比较多，中文类的相对少一点，你要做这方面的研究路漫漫其修远啊。嘿嘿。

以下以语义特征为例：

机器学习基于语义特征的情感分析

基于语义特征的情感分析先人已有研究，可以通过情感词典匹配来做，但是应用机器学习在这方面会使精确度更高些。

以本人参与的一个项目为主，总结下相关技术点。

背景是：分析用户评论感情色彩是积极还是消极，即是褒还是贬。

具体步骤为：

1有监督的人工给文本标注类标签。如有5000条评论数据，我们给其中的1000条标为积极的，再选1000条标为消极的，积极和消极就是所谓的类标签。

2选择特征。从积极的评论数据中按词来选择积极的所有特征。同理，从消极的评论数据中按词来选择消极的所有特征。如“这款游戏非常好玩”->”这款”->“游戏”->”非常”->”好玩”，分为四个特征词，也可以采用双词搭配，“这个游戏”和“非常好玩”作为特征。

3特征降维，减少特征的数量。如上“这个游戏非常好玩”中的“这个游戏”没有必要作为特征，因为“好玩”或“非常好玩”已经决定了评论是积极的。

4将语料文本变成使用特征表示。

5统计所有特征出现的次数，并按倒序排序。

6从以上结果中选出排序最靠前的一些特征作为最终的评判特征。

7使用训练数据根据特征训练分类算法，得到分类器。

8用测试数据检测分类器的准确度。

我们将数据分为两部分：开发集、测试集。用开发集的数据训练分类算法得到分类器；再用分类器对测试集里的数据进行分类，给出分类预测得到的标签；对比分类标签和人工标注得到的标签的差异，计算出准确度。

Python 有良好的程序包可以进行情感分类，那就是Python 自然语言处理包，Natural Language Toolkit ，简称NLTK 。NLTK 当然不只是处理情感分析，NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。

欢迎分享，转载请注明来源：浪漫分享网

数据挖掘，情感分析，深度学习具体步骤是？