130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用

130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用,第1张

本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。

使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。

数据属性如下表所示

加载我们之前通过主题词典提取出来的主题句。

数据属性如下表所示

用户评论分词

jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。

批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。

依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。

用户评论向量化

TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。

数据集合划分

按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。

我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。

模型加载

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。

我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。

通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。

Stacking 堆栈模型训练

集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。

开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。

评测结果收集。

结果分析

将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。

样例测试

通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。

加载民宿主题数据。

模型预测

将情感分析模型推理的结果写入 DataFrame 中进行聚合。

单主题聚合分析

挑选一个主题进行主题情感分析。

对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。

单主题情感极性可视化

我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。

对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。

  感受古典的爱情

  内容摘要:如今的语文教学中已无法回避“爱情”这个词语,如果能引导学生正确解读,去领悟,去发现这一玫瑰色的最美的乐章,对学生形成健康的爱情观和培养健全的人格是有益的。

  关键词:古诗 爱情 探讨 情感体验

  近日,听了大众工业学校韦琴老师的一堂内容丰富,教法新颖的探索课。韦老师在讲授过程中大胆挑战爱情这个敏感的话题,通过让学生自由探讨有关的爱情诗歌,引导他们面对不同的感情和爱恋,如何去领悟真爱。这也是在学习古代诗词中关于爱情篇章的一次非常有意义的探索。这是否也意味着对于语文二期课改,我们应投入不一样的元素呢?由此我从本篇《迢迢牵牛星》谈起。

  “迢迢牵牛星,皎皎河汉女。纤纤擢素手,札札弄机杼。终日不成章,泣涕零如雨。河汉清且浅,相去复几许?盈盈一水间,脉脉不得语。”

  这是《古诗十九首》中的一首经典的爱情诗。读来令人感慨不已,虽然它是个神话故事,可是那何尝不是世间的百态人生呢?那浅浅的天河,定然不甚宽广。可是那隔着河的牛郎织女,却不能骑着牛儿来往。咫尺之间,却无法倾诉衷肠,只能无言凝望。唯一可做的只能用一年来守望一日的相聚。若是无法相见是因为隔了万水千山,那么这种悲伤总还有个理由来消释,但是明明近在咫尺却如远在天边,这种无奈才更加令人刻骨铭心。牛郎与织女惟有把爱深埋在心底,用无尽的泪水诉说着天上的悲情。

  泰戈尔说:“世界上最远的距离/不是我就站在你的面前/你却不知道我爱你/ 而是/ 明知道/彼此相爱/ 却不能在一起”。在牛郎与织女的眼中,那浅浅的天河,却要用两人的一生去渡过了。世间还有这样的苍凉么?

  我们一直感动着牛郎织女的爱情悲剧,但是如果换位思考一下,二人虽然历经重重磨难,但始终不离不弃,也正是这样的坚贞感动了王母,打破了神仙和凡人不能相爱的定论,争取到一年一次的相聚。谁能说这样的爱情不具有积极的意义呢?汉乐府《孔雀东南飞》中刘兰芝焦仲卿为追求自由的婚姻而双双殉情,他们的死是对世俗礼仪的抗争,更是对忠贞爱情的捍卫。爱情是生活的多层面反映,对一首诗歌的别样理解,也是让学生不拘泥于爱情本身,而是从中透视社会,更全面的了解自身的心理素质,更深刻的理解爱情的价值的一种非常有益的探讨。

  翻开开启我国现实主义之先河的《诗经》,其首篇便是一曲爱情咏叹调。“窈窕淑女,君子好逑”,“求之不得,寤寐思服”,“琴瑟友之”,“钟鼓乐之”,这些诗句极细腻地展示了青年男子追求爱情的心理和为了得到爱情的淳朴可爱的行为。汉乐府《上邪》中“上邪,我欲与君相知,长命无绝衰。山无棱,江水为竭,冬雷震震,夏雨雪,天地和,乃敢与君绝!”青年女子对爱情的誓言为天地所动容。唐时李商隐的“身无彩凤双飞翼,心有灵犀一点通。”表达了青年恋人之间至上的爱情境界,不用言语却可以自由沟通。 宋时柳永的“衣带渐宽终不悔,为伊消得人憔悴”,李清照的“此情无计可消除,才下眉头,却上心头”都是表达了对爱情的相思之苦。

  当然透过秦观的《鹊桥仙》,可以看出这位士大夫全新的爱情观念。“两情若是久长时,又岂在朝朝暮暮”,他一反常人都渴求的耳鬓厮磨,长相厮守的心态。苏轼的《水调歌头》也有诠释不同的爱情观,“人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。”讲述了积极的人生追求。可见,诗人们用他们特殊的方式表达不同的爱情观和对情感不同的理解。

  爱情真是人间的一个难以破解的谜:有的人谈“问世间情为何物,直教人生死相许”,有的人说“曾经沧海难为水,除却巫山不是云”,有的人说“人面不知何处去,桃花依旧笑春风”。翻阅爱情经卷,品味爱情百味,就连以豪放坦荡著称的苏东坡居士也有首《江城子》,写尽了伉俪之间生死不渝的人间真情。

  “十年生死两茫茫,不思量,自难忘。千里孤魂,无处话凄凉。纵使相逢应不识,尘满面,鬓如霜。夜来幽梦忽还乡,小轩窗,正梳妆。相顾无言,惟有泪千行。料得年年肠断处,明月夜,短松冈。”

  每次品读东坡追忆亡妻的这首词,总是肝肠寸断,潸然泪下。十年后的某夜忽然梦到妻子正在小轩窗前梳妆,此情此景历历在目,可是只能幽明相隔,“相顾无言,惟有泪千行”似乎在倾诉生离死别后的无限哀痛,后三句设想亡妻长眠于地下的孤独与哀伤,实际上两心相通,生者对死者的思念更是惓惓不已。李清照是南宋女词人,她的许多诗词秀丽中而略带几分悲凉,泪水漫溢词头诗尾,《武陵春》就是这类风格的代表作。

  “风住尘香花已尽,日晚倦梳头。物是人非事事休,欲语泪先流。

  闻说双溪春尚好,夜拟泛轻舟。只恐双溪诈艋舟,载不走许多愁。”

  李清照的丈夫赵明诚因避乱江南而死,到如今,时光流逝,景物依旧,可是亲人早已不在,忆往日夫妻恩爱,想日后孤单凄凉,欲哭无泪,欲语无言,如此心情,怎么不发出物是人非事事休,欲语泪先流的感慨呢?尽管作者想寄情双溪春水,以解惆怅,但那满腹忧愁,区区一叶扁舟,怎么能装得下?李清照的伤心泪不同于多情女的相思泪,多情女泪洒为情人,待到相遇之日,还可化悲为喜,了却相思之苦。而李清照是为亡夫流泪,就是等到天荒地老,也不可能再见到丈夫,这番泪水,人世间的相思泪怎么能与之相提并论?可见,引导学生品读诗歌中的爱情篇章,使学生徜徉在情感的历程中,留下一次难忘的爱情体验,并从中到一次人文主义的熏陶,也为解读更复杂的人生打下基础。

  爱情是人间最美妙的永恒的话题,也是文学创作长盛不衰的主旋律,离开了爱情,许多文学作品就会黯然失色。对爱情题材的诗歌注意引导学生品读,带领他们了解不同时代的作品所揭示的爱的真谛。因此,在解读爱情题材的作品时,我们透过情感的分析,可以引导学生接受更深刻的人文主义教育,最终形成健康的人格。作为人类灵魂的工程师,教师肩负着塑造人的神圣使命。我们要尊重学生的人格尊严,创设一种民主的教学氛围,去引导学生探讨包括爱情在内的人生和社会问题。提高学生的道德修养,审美情趣和文化品位,并使之最终发展健康个性,拥有健康心理,形成健康人格。

刘过 唐多令

芦叶满汀洲,寒沙带浅流。

二十年重过南楼。

柳下系船犹未稳,能几日,又中秋。

黄鹤断矶头,故人曾到否?

旧江山浑是新愁。

欲买桂花同载酒,终不似,少年游。

这首词也是词人在宋宁宗嘉泰四年(1204)西下漫游途中之作。前人有云:"武昌系与敌分争之地,重过能无今昔之感?"(《蓼园词选》)可见词中的今昔之感是和作者的爱国思想联系在一起的。

此词上半阕以简洁的笔致勾勒出清丽的秋景,烘托气氛,笼罩全篇。"柳下系船犹未稳"三句就季节与时间落笔,又象征国家与个人均已进入中秋时分,晚景无多。

下半阕借景抒情,流露出感慨时事,抒写出今昔之感和怀才不遇的思想感情。"旧日江山浑是新愁"一句,是全词的主旨。李攀龙云:"追忆故人不在,遂举目有江上之感,词意何等凄怆!又云:'系舟未稳','旧江山都是新愁',读之使人下泪。"(《草堂诗余隽》)

刘过的爱国词篇,深得稼轩的神髓,多为豪爽奔放、淋漓痛快之作。但这首《唐多令》却写得温婉含蓄,别具一格。此词一出,"楚中歌者竞唱之。"(《词苑丛谈》引《山房笔丛》语)南宋爱国词人刘辰翁在临安失陷之后,曾次此词之韵达七首之多,可见此词影响之大。

据《麻省理工科技评论》(MITTechnologyReview)消息,本月初,中国科技巨头百度在一场持续的人工智能竞争中悄悄击败了微软和谷歌。具体来说,百度AI算法ERNIE在通用语言理解评估测试(GeneralLanguageUnderstandingEvaluation,GLUE)上领先其竞争对手。

GLUE是AI系统理解人类语言的良好标准。它由九种不同的测试组成,这些测试包括选择句子中的人员和组织的名称以及弄清楚“it”等代词在存在多个潜在先行词时的含义。因此,在GLUE上得分很高的语言模型可以处理各种阅读理解任务。在满分100分中,此前在GLUE测试的平均分为87。百度现在是第一个凭借其模型ERNIE获得超过90分的团队。

GLUE的公开排行榜在不断变化,另外一支团队很可能很快会超越百度。但值得注意的是,百度的成就说明了AI研究如何从众多贡献者中受益。百度的研究人员必须开发一种专门针对中文的技术来构建ERNIE(代表“知识增强的语义表示模型”)。碰巧的是,同样的技术也使它更好地理解英语。

在Transformer的双向编码器表示(BERT)于2018年末创建之前,自然语言模型并不是那么好。他们擅长预测句子中的下一个单词(因此非常适用于自动完成功能),但即使经过一小段时间,他们也无法承受任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。

但是BERT改变了这一点。先前的模型学会了仅通过考虑单词之前或之后出现的上下文来预测和解释单词的含义,而不能同时考虑两者。换句话说,它们是单向的。

相比之下,BERT一次考虑单词前后的上下文,使其双向。它使用称为“掩码”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它具有两倍的工作线索。例如,在“男子去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。___是您可以去的地方,也是可以购买牛奶的地方。

使用掩码是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI著名的GPT-2之类的模型可以撰写极具说服力的散文而又不偏离中心论题的部分原因。

百度研究人员开始开发自己的语言模型时,他们希望以掩码技术为基础。但是他们意识到他们需要进行调整以适应中文。在英语中,单词充当语义单元,这意味着完全脱离上下文的单词仍然包含含义。中文字符不能说相同。尽管某些字符确实具有内在含义,例如火、水或木,但大多数字符只有与其他人串在一起才可以。例如,根据匹配,字符灵可以表示聪明(机灵)或灵魂(灵魂)。一旦分开,专有名词中的字符(例如,波士顿或美国)就不是同一件事。

因此,研究人员在新版本的掩码上对ERNIE进行了培训,该掩码可隐藏字符串而不是单个字符。他们还训练了它以区分有意义的字符串和随机的字符串,从而可以相应地掩盖正确的字符组合。结果,ERNIE对单词如何用中文编码信息有了更深入的了解,并且在预测缺失片段方面更加准确。事实证明,这对于从文本文档进行翻译和信息检索等应用程序非常有用。

研究人员很快发现这种方法实际上实际上也适用于英语。英语中具有类似的单词字符串,这些单词表示的含义与其部分和的总和不同。无法通过将“HarryPotter”等专有名词和“chipofftheoldblock”之类的表达式分隔来有意义地解析它们包含的意思。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7501398.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-06
下一篇2023-09-06

发表评论

登录后才能评论

评论列表(0条)

    保存