分析和研究人的情感是一个复杂的过程,需要结合多个因素和方法。以下是一些常见的方法和技巧:
观察非语言表达:情感通常通过非语言表达来展示,包括面部表情、姿势、手势、眼神等。观察这些非语言信号可以提供关于一个人情感状态的线索。
倾听和观察语言表达:人们在语言中常常流露出情感,包括词语的选择、语调、语速等。倾听和观察一个人的语言表达可以帮助你了解他们的情感体验。
提问和探索:与他人进行深入的对话,提出开放性的问题,探索他们的情感体验和内心感受。通过主动与他人交流,你可以更好地了解他们的情感世界。
了解背景和经历:一个人的情感体验通常受到他们的背景和经历的影响。了解一个人的背景故事、家庭环境、教育背景等,可以提供更多的背景信息来理解他们的情感。
使用情感分析工具:一些科学研究和心理学领域的专业人士使用情感分析工具来研究和测量情感。这些工具可能包括问卷调查、心理测量仪器、脑部扫描等,通过客观的数据来分析和研究情感。
学习心理学和情感科学知识:深入学习心理学和情感科学领域的知识可以提供更多的理论框架和研究成果,帮助你理解情感的本质和影响因素。
需要注意的是,分析和研究他人的情感是一项复杂的任务,需要综合考虑多个因素,并且要尊重他人的隐私和个人边界。在进行情感分析时,保持尊重、开放和理解的态度非常重要。
http://minieastdaycom/bdmip/180414224336264html
在这篇文章中,主要介绍的内容有:
1、将单词转换为特征向量
2、TF-IDF计算单词关联度
文本的预处理和分词。
如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。
一、将单词转换为特征向量
词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:
1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。
2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。
注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。
下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量
通过countvocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。
注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,
1元组:"the"、"weather"、"is"、"sweet"。
2元组:"the weather"、"weather is"、"is sweet"。
在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。
sklearn通过CountVecorizer构建2元组
二、TF-IDF计算单词关联度
在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。
词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率
其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下
其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。
通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf
可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。
注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式
通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:
下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子
1、计算原始词频
a、单词所对应的下标
b、计算第三句话的原始词频tf(t,d)
c、计算逆文档频率idf(t,d)
注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。
d、计算tf-idf
所以,第一个句子的tf-idf特征向量为[0,1,129,129,0,1,0]
e、tf-idf的L2归一化
产品网络情绪分析使用的工具有:社交媒体分析工具、
自然语言处理工具、情绪检测工具、数据可视化工具等。
1、社交媒体分析工具:例如Hootsuite、Brandwatch、Sprout Social等工具可以帮助企业从社交媒体上收集大量用户评论、反馈,从而进行情绪分析。
2、自然语言处理工具:例如Google Natural Language API、IBM Watson、Python NLP库等工具可以利用机器学习和语料库对文本进行分词、情感分析等操作。
3、情绪检测工具:例如Clarabridge、MeaningCloud等工具可以帮助企业分析和评估用户的情绪反应,以识别其对该产品的态度和对其的满意度。
4、数据可视化工具:例如Tableau、Power BI、Google Data Studio等工具可以将情绪分析数据以图表和可视化图像的形式呈现,以帮助企业更好地理解和分析数据。
进行产品网络情绪分析需要综合运用多种工具和技术,以收集、分析、评估和呈现相应的数据和分析结果。通过数据分析,企业可以更好地洞察产品市场,提升产品质量和用户满意度,实现可持续的发展。
利益相关:8年情感咨询从业者
面临失去前任之后,我知道你很难受和迷茫,也很困惑,不知道要怎么办,于是希望找到一个靠谱的咨询师/团队来修复感情。
如果你想要走出失恋的关系困境,想要修复和前任的关系。我希望可以用我的从业经验帮助你,根据我们的经验,第一步是,应该要先想办法让自己平静下来,去探索“自己是为了什么而修复感情”,感知自己内心的需求。
是因为这个人值得?是因为我需要成长?是因为我要崩溃了我需要求助?还是为了自己逃避痛苦,找回一份在自己掌控范围内的安全感?
你要看清这段感情是否值得修复,如果你觉得有必要,接着再找有效不坑人的关系修复辅导服务。
重要提醒:千万不要因为现在失去了挚爱,感觉很痛苦,然后就找咨询机构然后问这个人值不值得挽留,有没有办法修复和他的关系。
因为如果你去问挽回机构这个问题,几乎所有机构都会这样说:你一定要修复啦!而且有90%,甚至百分百可以挽回。
你心里的感受,他们不关心,他们只关心能不能从你身上赚钱。
截图里这种不分青红皂白张口就和你说“每一段感情都可以修复的”,会误导求助者认为「都是可以修复成功的」。还有“你这样的想法显得稚嫩”这种打压式话术,打压咨询者的自尊,意图通过这种方式树立自己的权威形象,可能会让许多求助者像是抓住了救命稻草,以为只要交了钱,就什么样的关系都可以完成修复!
甚至不惜借钱去获得这种“服务”,最后人财两空,双倍难过。
作为一名已经完成上千次婚恋关系修复的爱情教练,我想和正处于分手焦虑和难过中朋友说一声:
放下对结果的控制和执着,更多地关注自己,关注自己可以控制的那部分,才能最高效地修复自己的关系。
一、什么样的关系修复成功率高,同时值得挽回?
分手原因虽然林林总总,但归纳起来是下面两个大类
1、现实原因
2、相处原因
1、如果你因为现实原因而分手
这意味着不是你们之间的关系破裂,而是你或者他被现实压垮了,出于对现实的的无力和焦虑而分开,这种情况属于挽回难度比较高,值得程度比较低。
举几个例子:
①将要长时间异地
挽回难度:★★★
值得程度:★★
大多数异地恋分手两大原因不外乎以下两点:
1、脆弱的时候找不到人,孤独感无处安放;
2、其中一方的不安全感导致双方都很焦虑。
异地恋很难去经营和维系,而且由于两人之间很难创造见面的互动,所以修复难度非常高。除非可以确认在关系完成修复之后,彼此能以一个相对稳定的频率见面,并且能做到对彼此的完全信任,有能力处理自己的不安全感和焦虑, 而这需要练习和学习情绪管理能力。
所以在接异地关系修复咨询求助的时候,我都会问两个问题:
1、“有结束目前异地状态的计划吗?”
2、“有没有提升自己情绪管理能力的意愿?”
如果其中一个回答是否,我都会劝其放弃。
②对未来人生的计划和方向不同
修复难度:★★★★★
值得程度:★★★★★
这种情况,就不是修复难度的问题,而是值不值得的问题,比如:
前任想要留在某个城市,而自己想留在另一个城市。 前任想要毕业工作,自己想要考研深造。 前任想要结婚生子,自己想要实现事业理想。 前任想要丁克,自己想要孩子。 前任不想要进入婚姻,自己想要结婚生子。
在人生规划问题上,我既是生命教练,同时又是爱情咨询师,所以我很清楚目标与爱情二者对我们人生今后的影响有多重大。
求助者很容易在这类型的问题上陷入迷茫,一方面担心自己人生的路走错了,一方面又在承受着失恋的痛苦和煎熬。
这种情绪容易驱使我们因为害怕失去,而去做错误的选择,去做一个导致自己今后人生乱糟糟的糟糕选择,然后迁怒前任,最后损失了爱情损失了人生中的宝贵时间,这次是三倍的不爽。
所以遇到这类问题时,一个好的生命教练,会像一面镜子一样帮助你去看清你生命中,最渴望和需要的东西是什么,优秀的咨询教练甚至能帮助你激活爱的能量,并从中收获两全其美,爱情人生双丰收。
爱的能力,能给人信心
③门不当户不对,经济实力原因或父母强烈反对
修复难度:★★★
值得程度:★★
门不当户不对,经济实力原因或父母强烈反对而分手的情况也是比较难处理的现实问题。
有时候因为这些现实问题,两个人之间没有什么沟通,就很决定分手了,这其实就不大值得做修复了。
一来缺乏沟通,说明双方都没有解决现实问题和化解双方矛盾的能力,二来彼此的关系,可以轻而易举就被外部因素打败的话,说明双方都不够独立,独立性不够强。
但如果提分手的人是你,然后你后悔了,想要挽留对方,那还是可以努力修复以下的,因为这是你自己的觉悟,想要尽力抢救一下,也是你想要让自己更强大,渴望自己可以通过修复这段关系,去提升自己的解决冲突能力,还有在原生家庭中的独立能力,让自己变得更好,更独立。
毕竟有时候,我们需要经历过失去,才会明白我们自己内心真正想要的是什么,要允许自己,让自己有再次选择的机会如果你是这种情况,可能下面这个我修复的案例可以给你一些启发。
④犯原则性错误
修复难度:★★★★★
值得程度:★★
如果对方犯了原则性错误,导致你们关系破裂,你想进行修复,还是要看值不值得。
如果双方的家庭、感情、孩子、财产等的羁绊和牵涉面比较深和广的话。这是有修复价值的,一般来说也可以修复得很好。
但如果是你犯了原则性错误所以想要修复,这时最重要的就是先要修复伤害,然后才能挽修复关系
还有很多的原则性错误会给家庭和关系带来极其严重的伤害,比如:对你和家庭中其他成员的严重家暴、赌、毒、故意对孩子/老人造成各类型严重的心理和身体的创伤等等。
如果你的对象已经这样做了,我劝你不要有幻想,不要圣母心,以为自己能拯救对方,以此想要挽救和对方的关系。
让对方学会承担自己行为的后果,就是这时候你爱他最好的方式。
古语有云:人非圣贤,孰能无过。
我们很少会因为发一次誓或者做个承诺就会变了个人,成了”圣贤“,不然全世界都是圣贤,全世界都没有家暴和家庭悲剧了。
有时,允许别人犯错,才能更好地接纳自己,接纳自己的不完美。
如果你不幸正处于这种情况,下面我做过的这个个案或许能给到你一些启发:
2、如果你因为相处的原因而分手
相处不合造成分手,很多时候是由于原生家庭影响造成的三观不合,比如生活习惯,饮食习惯,潜意识中的安全感等等的因素,造成了双方出现争吵冲突和误解。大部分人会把问题聚焦在冲突和争吵本身,以为道个歉什么的就完事了,但其中的本质根源问题是沟通问题。
沟通能力,涉及我们通常所说的情商不成熟,导致双方在一起时不舒适,感觉累,出现冷暴力,甚至出现“权力斗争”,比如家里的马桶盖,究竟是要掀开还是闭着呢
不懂得如何沟通情感,不懂得用正确的表达方式去表达自己的感受,不懂得走进自己和对方的内心去爱彼此,才是感情走向破裂的根源!
比如:
①两个人的沟通总是在事情上讨论,甚至会因为观点不同而彼此打压
②双方不擅长冲突后怎么做沟通,采取回避状态,积累了很多怨念
③觉得自己一直在付出,但是对方并没感受到,导致对方觉得你不爱他
④经常性向对方抱怨,发脾气,提出让对方改的要求,两个人经常表达很累
⑤一说感情话题,对方很多时候都是沉默,自己总是焦虑,没有安全感
⑥说伤害对方的话或者做了伤害对方的事,双方都觉得很委屈
⑦因为沟通不顺畅,导致负面印象的误会产生
⑧总是有意无意想逼他结婚
如果我们因为不懂得爱而导致彼此分开,这真是人生中最吃亏的悲剧。
幸好,这种问题的修复难度在我看来是最低的,也是最值得进行修复的类型。
往往一旦完成修复,两个人之间的关系往往就可以走上甜蜜的大道上。
修复难度:★
值得程度:★★★★★
为什么最值得修复?
因为如果你这次没学会怎么去爱对方,那么这时遇到下一个男朋友、女朋友,你就会马上顿悟了?
如果我们不会游泳,就算换100个游泳池也还是不会啊。
现在离婚率这么高,你有足够的能力和信心,去确定未来那个要跟你结婚,养育孩子,共度余生的人是爱你的,同时也是你爱的人吗?
这一次的分手只是在提醒你:你过去和对方相处的方式,爱他的方式,并不是对方想要的方式,否则对方就不会和你分开。
所以你需要学会让对方感受到真正的爱。
所以值得修复的意思是,你可以抓住这次补救的机会,让自己学会去真正的爱。
为什么说修复难度很低?
因为没让对方感受到爱的这个主要核心因素,跟我们自己有关,也就是可控的。
只要学会如何真正爱对方,用让大家都舒服的方式表达,让对方感受到你的爱,便可以让对方回头。
更重要的是,你学会了,不吃亏啊。
当你身边的人都能在你的影响之下持续成长的时候,那你肯定已经是人见人爱车见车载的万人迷了,前任可能比你还有紧张,开始天天盘算着怎么和你复合呢。
学会真正的爱,掌握爱的能力,不仅会疗愈自己,让我们充满力量,还会让对方主动靠近你,主动挽留你。
我跟踪辅导过上千个修复个案,其中多大数百段关系需要我进行长期跟踪,而其中几乎都是前任主动挽留,有98%的情侣在复合半年内都没有再吵过架。
二、如果你在为要不要修复和前任的关系而纠结的话,我现在送你一个价值百元的关系修复测试题!
让我现在帮你你进入一个四维思考方式,也就是从未来去看现在的你,这可以帮助你更好地决定要不要去修复和对方的关系,保证简单高效!
1、现在的你,只是在想念他,还是想念生活中他的存在?
2、这段关系如果挽回成功?你们在一起之后,和以前会有变化吗?
3、当你分开的时候,你感觉到或学到了什么?这个答案是让你更想亲近他,还是让你有点害怕?
4、你能想象没有他的生活吗?
第一感觉往往总是对的!
可以先用你的第一感觉写下来你的答案,我来帮你分析 。
三、怎么分辨真实有效感情修复服务/机构?
相关团队机构或者个人有没有执业证书?对应专业的”受训经历“?对于机构来说的话,有没有在营业范围内的营业执照等等我就不展开说了,因为这是基本功啊。
如果连这些最基本的东西都没有的话,那就更别谈能力和咨询伦理,分分钟就是个诈骗了!
关于识别诈骗:如何看待上海警方抓69名情感挽回大师?情感挽回大师真的可以挽救失恋吗?
接下来我重点讲讲四个很可能你会被忽略甚至被诈骗,又跟挽回服务是否专业等你最关心的情报息息相关的细节!
1、合同是否有可退款协议
靠谱程度:★★★★★
无论对方吹得多么天花乱坠,跟你说90%、100%能挽回,甚至一周能挽回等等,如果都没落实到纸上,那只能说明你对他很信任,但是他对你并没有那么信任。
而公平合理的退款协议,是建立在咨询者福祉的基础上的。
情感行业虽然比心理行业要新,但是我觉得咨询就应该遵守相应的咨询伦理,而咨询伦理第一守则是:以咨询者的福祉为第一位。
就算是心理咨询,如果咨询者来了一段时间还是没有起色,那应该想到的是自己能力不够,帮咨询者考虑转介绍或者建议咨询者自行寻找第二家。
而且另一方面,公平合理的退款协议,不仅有助于我们咨询师的专业能力和态度,也有助于提升咨询行业的水平和口碑。
2、合同是否有保密协议
靠谱程度:★★★★
保密协议考验咨询师是否专业的标准之一,因为这也是咨询者福祉第一位的表现。
曾经有一些找过别的咨询机构的求助者找我吐过苦水,他说他被骗了,但是也不敢去投诉和退款,因为他很担心那些机构去找他的前女友报料。
如果没有保密协议!那不是一个合格的咨询师和咨询机构!!!
3、是否有电话咨询并且出专业清晰的分析报告?
这是考验咨询师的业务流程是否专业的标准!
在正式首次咨询评估时,要根据咨询者的现状和分手原因,找出核心原因,并且为咨询者做出挽回或者修复关系的长期计划和短期目标。
我看很多人喜欢用文字来咨询,其实文字咨询并没有多大效果。
因为当事人的视角是相对局限的, 你认为分手的原因可能并不是真实原因。我在做电话咨询的时候就很容易发现这一点,很多咨询者刚开始是带着要自己认为很重要的原因而来,但是在看清整段关系的全盘之后,豁然开朗,找到了跟原来的原因完全不同的真相。
很多同行做情感咨询 ,没有可以进行深度内心的生命教练对话能力或者心理咨询能力,仅凭文字信息,只是基于事情层面去工作,那只是在仅含有4%信息的冰山表面做工作,是创造不了任何可能性的。
所以电话咨询是相对很好的方式,双方表达和接收都是畅通的,这样才有助于咨询师真正感受到你的沟通方式,从而挖掘到你背后的情感模式。
很多时候我跟咨询者打完一通电话,我就很能明白ta前任的感受。从而能给出非常针对性非常核心的辅导策略。
很多时候你以为的分手原因,甚至对方提出的分手原因,其实都不一定是真实的,真实的原因都在感受当中。所以咨询的方式最起码也要用电话来进行的。
如果一个咨询师/挽回机构没法跟你进行电话或者面对面咨询,那就是不专业的。
4、合同上的价格与服务是否透明
靠谱程度:★★★★
接到求助者最多的反馈就是被“销售型”情感机构中途恶意加价。服务到一半就说这项服务需要加钱,或者说难度太大,需要升级服务。
这种机构就是在开始的时候以极低的价格诱导你付费,当你以为捡到大便宜时,殊不知这是一种销售套路,后续还有更多的费用等着你支付。
其中最常见的就是推荐你付费第三方介入(双向服务),就是要通过另一个人去劝前任。这种服务收费昂贵(超过五位数),效果与收费不成正比。我曾经有一名客户,来找我之前在其他的机构花费超过五万升级双向服务,结果就是从还能联系变成全部****被拉黑。
你想一想:突然有一个陌生人打电话给你,劝你跟前任复合,且不说电话你会不会接,就算接了,你还能跟他聊下去?
用第三方去施加压力,本身只会对挽回有害无利!
为什么无用?
可以看这个答案:情感机构挽回恋情采取双向对接的方式靠谱吗对方会不会有所察觉更加排斥
5、是否有完整的挽回案例?
靠谱程度:★★★★★
知乎上有大量的挽回理论,我相信你也看过不少,都好几万字起。理论讲一下谁都可以讲,你看一天两天,改一下名词,你也可以组装出自己的理论,写出一篇洋洋洒洒的几千字理论文。
请问你实际是怎么做的?
客户向你埋单,无论什么样的客户,都在套自己的理论。
如果没有成功,那就是客户的问题。
如果成功了,那就是自己的牛掰。
有个伟人说过,是骡子是马,溜出来便知道。
所以!!!实践出真知啊!
实际上有没有完整的辅导个案可以分享?
完整个案(隐藏咨询者信息)不仅是证实你的理论是否有用,而且也是考验一个咨询师的咨询流程/操守是否正规有效,最后咨询者的反馈是不是有对求助者产生正向积极效果,这都是能拿出来阳光底下看的。
如果没有完整进度的个案辅导,只有咨询者的好评反馈截图,那基本可以判断这是个营销型咨询师。
如果你想要寻求情感帮助的话?
那我一定要自荐晋美情感哈!
我在2019年写过一本书《真爱之道:通往内心的亲密关系》,帮助过很多人走进一段段舒服走心的感情。
在2020年,我提出了全新的「用爱挽回」理念,用爱情之道去挽回前任。这也是区别于挽回机构千篇一律的技巧套路,比如断联、看资料、发朋友圈、拖时间的挽回术。
我们是通过教练式辅导去一步步激活求助者身上爱的能力,个性化打通被辅导者在情感能力爱人能力的局限,就像打游戏一样,每一步的成长都帮助被辅导者更有效掌握爱与被爱的能力,我们共同创造出最适合你的挽回方案,让对方一步步因爱而复合。
这对于咨询师的要求很高,咨询师必须懂得如何爱别人,才能激活别人身上的爱。
让中国爱情教育上一个里程碑是我的人生使命,而晋美情感的愿景从一开始就是要做成用户认同、行业认同和国家认同的大满贯情感品牌。
我以前在合同上被坑过,所以我深知都不能辜负每一个相信我的人。
所以我在帮助别人挽回的时候,就打破咨询行业规则,在合同上明文写清了“可退款协议”。
当有“退款原则”时,我们的服务就会有压力,因为当服务不好的时候,客户就会选择退款。这样会更加促进咨询师服务的提升。
我一直坚信,做出口碑后,客户会自动来找你的。我的一部分客户是通过之前的客户推荐,没有什么推荐费或朋友优惠价这样的利益捆绑着。
另一方面,我发现很多人挽回到一半就不想挽回,或者当初选择挽回就是冲动型。而当你不想挽回的时候,想放弃,但市面上的挽回机构、导师基本都是不可退费的,只要你交钱,就退不了。
这位先生是挽回成功后,又续费。后来感情稳固后不再需要我们的服务,所以选择提前结束服务,我也按照合同退一部分钱给他。
所以我无比自信地推荐你来找晋美爱的教育中心,安全有效放心。
本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型的情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。
使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。
数据属性如下表所示
加载我们之前通过主题词典提取出来的主题句。
数据属性如下表所示
用户评论分词
jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。
批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。
批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。
依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。
用户评论向量化
TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。
数据集合划分
按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。
我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。
模型加载
通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。
我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。
通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。
Stacking 堆栈模型训练
集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。
开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。
评测结果收集。
结果分析
将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。
样例测试
通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。
加载民宿主题数据。
模型预测
将情感分析模型推理的结果写入 DataFrame 中进行聚合。
单主题聚合分析
挑选一个主题进行主题情感分析。
对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。
单主题情感极性可视化
我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。
对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)