本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型的情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。
使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。
数据属性如下表所示
加载我们之前通过主题词典提取出来的主题句。
数据属性如下表所示
用户评论分词
jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。
批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。
批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。
依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。
用户评论向量化
TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。
数据集合划分
按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。
我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。
模型加载
通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。
我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。
通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。
Stacking 堆栈模型训练
集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。
开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。
评测结果收集。
结果分析
将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。
样例测试
通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。
加载民宿主题数据。
模型预测
将情感分析模型推理的结果写入 DataFrame 中进行聚合。
单主题聚合分析
挑选一个主题进行主题情感分析。
对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。
单主题情感极性可视化
我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。
对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。
答案:A,C,D,E
情感结果评估主要是考评受训者在心理上对培训项目所灌输的内容的认可程度,多用于关于企业文化、职业心态等精神层面的培训。对受训者情感结果的评价主要涉及的维度和指标包括:①创造性;②责任意识;③学习成长;④沟通协调能力。
所谓情感是指人们对外界刺激作肯定或否定的心理反应。这种“肯定或否定的心理反应”其实是一种对某种事物的态度。或者说,情感是态度的一种成分――态度的情感成分。例如,一个消费者声称“我喜欢‘海尔’产品”,就是在表达关于产品的情感性整体评价。这种整体评价可能是在缺乏关于产品的认知信息或没有形成关于产品的信念条件下发展起来的一种模糊的、大概的感觉,也可能是对产品各属性评价后的整体印象。例如,“日本汽车用起来不保险”的评价,隐含着对产品某些方面的负面情感反应。这种负面情感与关于产品其他属性的情感相结合,将决定消费者对于该产品的整体反应。
每个人都会体验到各种各样的情感,可是人的情感品质有很大差异,一般表现在以下几方面:
1、情感的倾向性。情感的倾向性主要是指人的情感指向什么。基于情感基础上的产品认同,会使用消费者在选择商品时具有明确的倾向性。哈佛商学院杰拉尔德(GeraldZaltman)教授的实证研究表明,95%的消费者对产品或品牌的认知存在于他们的潜意识里。许多消费者在谈到如何在多个竞争品牌、以及价格、质量比较中做出理性的购买决策时,都会滔滔不绝,但是调查结果却显示,消费者的思想和理念往往和他们的实际行为相矛盾,对于这些消费者的跟踪观察显示,在实际购物时,他们通常看都不会看一眼所选品牌的竞争品牌或者替代品。
2、情感的深刻性。情感的深刻性是指情感在思想行动中表现的程度深浅而言的。能深入地渗透到消费者生活各方面的情感,才是深刻的消费者情感。对某个品牌的高忠诚度会让顾客在生活的各方面表现出对这个品牌的喜爱。
3、情感的稳定性。情感的稳定性是指情感的稳固程度和变化情况。应当注意的是:(1)消费者的情感反应会随着情境的改变而改变。消费者对产品的评价是在特定的情境中做出的,因此,特定消费者对于某个产品的情感反应会随情境的改变而改变。例如,一个消费者准备考试而需要熬夜时,会对含咖啡的饮料产生一种积极的情感反应,而在该消费者想在晚上喝点东西又不至于睡不着觉时会引起负面的情感反应。(2)情感评价受个体特征影响。由于独特的动机、个性、过去经历、参照群体和身体状况,不同个体可能会对同一信念做出不同评价。(3)相同的文化背景的人可能作出相似的情感评价。尽管存在个体差异,但在某一特定文化之内大多数人对与文化价值观紧密联系的信念会做出相似的反应。
4、情感的效能性。情感的效能性指的是情感在人的实践活动中发挥作用的程度。情感效能高的消费者,任何情感都会成为购买行为的动力。相反的,情感效能低的消费者,虽然他们也常常有一些情感的体验,有时也似乎很强烈,但是他们往往只停留在“体验”上,而缺乏具体行动。
帮您打造感官品牌形象,欢迎勾搭!我的微信:finjoe
想要在孩子中体现情感,那么我们就必须要先拥有情感,比如喜怒哀乐。
喜,喜形于色,这个就必须看场合体现,和孩子一起玩的时候,开心的话,就把你的开心表现出来。笑脸相迎,天真无邪。
怒,孩子做错事的话,你要先对他进行怒气,这样的话,他才会畏惧。但是,事后一定要安慰他受伤的小心灵。
哀,遇到什么不顺心的事,或者不能接受的事,表现出现哭泣,难受,孩子可以看出来。
乐,乐的话你就可以根据平时的情况,遇到快乐的情形就乐一乐。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)