130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用

130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用,第1张

本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。

使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。

数据属性如下表所示

加载我们之前通过主题词典提取出来的主题句。

数据属性如下表所示

用户评论分词

jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。

批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。

依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。

用户评论向量化

TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。

数据集合划分

按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。

我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。

模型加载

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。

我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。

通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。

Stacking 堆栈模型训练

集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。

开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。

评测结果收集。

结果分析

将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。

样例测试

通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。

加载民宿主题数据。

模型预测

将情感分析模型推理的结果写入 DataFrame 中进行聚合。

单主题聚合分析

挑选一个主题进行主题情感分析。

对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。

单主题情感极性可视化

我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。

对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。

很多情侣甚至夫妻在一起很久都有可能会保留自己的一些秘密不想让另一半知道,不过有时候隐藏的太多容易造成误会。那么你的秘密会对另一半坦白吗通过以下情感测试快来看看吧:

情感测试题:(你的秘密会对另一半坦白吗)

有路人拿一张千元大钞想要跟你换零钞,此时你会

A、不理他直接走开

B、先看看皮包里有没有

C、小事一桩换给他

D、请他去便利商店换

情感测试题答案解析:(你的秘密会对另一半坦白吗)

A、坦白指数75%:

一般情况下你是不会对另一半坦白自己的秘密的,但是恐惧生坦白,只有那种害怕的情况或对方告诉你说:‘你再不说实话我就跟你分手’的时候你才会不得已把情况一五一十的坦白告诉对方,所以你坦白的前提一定是要受到有一些恐惧或有一些威胁,你害怕了才行。

B、坦白指数:20%

对于另一半,你的秘密是不会全盘托出的,因为你觉得有些事是不能说的,因为说了会有麻烦或节外生枝或说了另一半也不懂,那干脆就不要让他知道免得很麻烦还要去跟另一半解释,好像要跟他上一堂课一样,所以不坦白是因为你觉得隐瞒有理!

C、坦白指数95%

你是一个喜欢分享自己秘密的人,你觉得既然是夫妻既然是另一半就应该对对方坦白,没有什么事情不能讲的。我的好与坏你都得接受,这是你对另一半的想法,所以你们之间是没有秘密的。

D、坦白指数:50分%

坦白指数在中间位置的你一般都是在不得已的情况下才会跟另一半坦白自己秘密。而且一定要是铁证如山被抓到了你才会坦白,否则能隐瞒就尽量隐瞒,因为你觉得不该知道的还是不要让另一半知道比较好。

你好!你真的很辛苦,居然打了那么多字= =我不一定能帮到你但还是尽量说一些自己的想法

其实每一个的精神状态都与几方面有关,生活现状,过去背景,与突然刺激。

每一个问题其实我们都需要看两面,就像你说的你们觉得她爱慕虚荣,其实她都知道,但是她在这方面就是有这种自信,认为她能钓得到金龟婿!这点信心真的不是常人能有的!

我先说过去背景吧,这点很简单,就像你说的过去穷怕了,其实不知道楼主有没有经历过,一个人穷的时候真的很可怕的,所以她的母亲,父亲,亲戚可能整天谈论的都是金龟婿,从小的耳目渲染下,她的观念就形成了!这很可怕,因为这种念头是扎根在她血肉里的!我希望楼主,如果真的关心她的话就去告诉她,在法律上夫妻结婚后财产是对分的,你看那么多百万富翁为什么人到中年都没结婚?因为他们比一些穷人更抠更自私!不结婚就是不想把钱白白的送给另一半,这种人金钱至上,最多让贫穷的你坐进宝马,但绝不可能把别墅的钥匙交给你!

然后是突然刺激,我认为这是间接影响到生活现状的因素。几次的恋爱失败,也许成了你们朋友间的风轻云淡的笑谈,但是对于她!还是有很大刺激的!因为她突然发现,现实里,朋友的观点里,她从小立志的观念居然是错误的!而且更加痛苦的就是她真的相信了,真的投入感情了!其实恋爱中最伤人的就是感情上的伤害!所以你们真认为是她的朋友的话,还是要多去关怀她!多多包容她的一些无理。

最后就是生活现状,她的工资只有几千,其实也不错了,她以前做的最多的是抬头向上看,看那些几千万几千万的人,可是后来她无奈的发现那些几千万根本不是她能够仰望的,她很痛苦。但是她又不肯往前看,往下看,看那些比她苦难却品质高尚的人,她不敢,也不允许自己这样做!因为这就像是在看自己的过去!她自以为没有退路,除了眼前的千万富翁就是身后的悬崖!其实她错了!但是她觉得自己的观念已经太久太久了,这辈子不可能更改了,所以她会迷茫,精神恍惚,她认为没有人能理解她。

作为朋友其实楼主你对她真的很好,会打长长的字来求助,但是按你所说的她可能不会是一个好朋友合适的人选。她从小就有很明确的目标,她只知道一往直前地冲,因为一旦不往前冲她就不知道怎么过,所以她不一定是个坏人,但是她“缺心眼”,不太会体谅别人,所以身边也不太会聚集一些能长久理解她的人,她的心声可能不能够完完全全对外倾诉,她会抑郁,感觉无处发泄。

最后,她的情绪一定要发出来,任何人憋即在身体里都会出病的,因果循环下皮肤也会变得差,神采也无。你们其实可以带她一起去唱歌,鼓励她唱些热闹的歌,让她爱上唱歌,以后郁闷的时候可以让她一个人来唱歌,发泄情绪!也可以生日时候送些别有心意的小玩意,比如学校时代一起吃的棒棒糖,买一大捆,插成一个圆圆的球总之要让她感觉温暖,让她“往下看”看看自己得到了什么,一群关心她的朋友,几千块的稳定工作,一定要让她看到她本来就有的幸福!

说了那么多还是希望能帮助到你的朋友吧!~其实这个世上除了严重的精神病状态,我以为初期的轻微根本不能算病,根本不要给她沉重地贴上精神病的标签!还是要带给她快乐!我坚信,这是能把她带回“这个世界”的最好方法!

祝你们的生活都能幸福快乐!O(∩_∩)O~

成都街头在最后一班地铁停运后出现一位**姐,她身穿汉服非常亮眼,还给路过的人空气拥抱并送上小礼品,她说希望给跟她一样深夜未归努力向上的人一份小惊喜,希望2021年大家都可以开开心心,事业顺利。女孩的行为真的很感动,不知道你是否感受过一个人在深夜的街头走,周围热热闹闹,灯红酒绿,但是唯独自己是一位异乡人,真的会一秒落泪,**姐的出现真的非常暖心,可以给人莫大的鼓励。很多人其实所在的地方并不是自己的家乡,像北京,上海,深圳,成都这种城市比较发达的地区每个人都太渺小了,你走在路上就是穿的奇装异服可能都不会引起注意,没有人在意你,都行色匆匆,为了生活不停的奔波。还记得当初在外打工的时候,晚上下班去等公交车,人实在太多了,等了一辆又一辆,忽然就很没有信心不想在等下去了,然后自己背着包走在路上,那一刻眼泪在打转,如果这个时候有一位**姐出现在我的面前给我一个空气拥抱,还给我一份小零食,我一定觉得她是上天派来的仙女,无数的美好的词汇都无法形容那个时候的感觉,有多暖心呢?就是大冬天一下暖到心底的感觉。每位打工人都十分的不容易,加班到深夜真的太普遍了,有时候可能连自己都不知道到底是为了什么在奋斗,在坚持,人生不也就这样嘛。直到后来我们才明白原来奋斗的那几年是我们人生中最辉煌的几年,等你失去工作的时候才知道原来是这么的无聊。大城市更需要一些温暖,很多人说大城市没有人情味儿,每个人都不会付出自己的真心,真心朋友可能只有自己的家乡。当**姐身穿红衣而来的时候带来的震撼就更加的显著,她虽然只是给了一个空气拥抱和零食,但是就像是黑夜里面的一盏明灯照亮了一个人的人生,会让得到的人永远心里充满正能量。温暖其实可以很简单,真的希望每个人能向**姐那样给大家带来温暖,只要人人都献出一点温暖,我想我们的世界将不会出现负能量,每个人都积极向上,认真的生活,那样的生活才是真正的快乐。**姐的行为带动着积极向上,希望每个人在2021年能够开心快乐。

在辽宁盘锦的一个公园内,一名女子穿着和服在公园内拍照被路人围劝,如果当时我在场,我也可能会是指责她的一方。因为了解历史的人都知道日本在历史上曾经侵略过我们国家,特别是在东北的土地上他们做出过很多骇人听闻的事情。所以在公共场穿和服我是接受不了,并且一定会上前去劝阻的。

随着我们国家的发展和开放,我们对国外的一些文化也是包容的状态。也有很多人喜欢日本的文化,就像很多的外国人喜欢我们的中国文化是一样的。和服就是日本的传统服饰,是日本的传统文化。所以我们可以去喜欢它,这种做法是很正常的,没有任何不妥当的地方。

但是在历史上,我们在中日战争中遭受过很大的重创,所以很多人都对日本的一些东西非常的敏感。特别是在公共场合穿着日本服饰,这会让很多中国人在情感上是无法接受的。

虽然说我们都应该明白穿衣自由,文化自由,但是对于一个在战争中受到了巨大伤害的国家来说,中国人民在情感上还是很难接受。这些路人看着这个女孩穿着和服在公园内拍照,一定会觉得心里不舒服,所以才会上前去劝阻。

换做是我,我也会上前和女孩讲道理。我们尊重她喜欢日本服饰的爱好,但是作为一个中国人,应该尊重历史,了解历史,更不应该去做伤害中国人情感的事情。所以这个女孩不应该和这些路人们争吵,应该意识到自己的行为有些不妥当,尽快的离开公园。

这个时代是允许我们表达观点和做自己喜欢的事情。这个女孩穿和服,和这些劝阻她的路人们都有自己不同的立场,所以谁也没有错。不过我还是觉得这个女孩穿和服到公共场合的做法不太对。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/789531.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-09
下一篇2023-07-09

发表评论

登录后才能评论

评论列表(0条)

    保存