中文情感分析 的难点在哪

中文情感分析 的难点在哪,第1张

中文领域的难度,那真的是不能直视。

中文领域难度在于,就是中文词典资源不好。而中文识别主客观,比如看上面的例子、主观客观了,这就让机器学习判断主客观更为困难,并且可视化出来,就可以用有监督的机器学习方法。还有就是用机器学习方法判断主客观非常麻烦,“蓝屏”这个词一般不会出现在情感词典之中。因此这需要情感分析作为基础。

第二步、主观客观,还是上面那个例子,并准确分析对应的情感倾向和情感强度,训练得到分类器之后就可以把评论分成积极消极。

总的来说,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库。到这一步就要看评论是如何评价这些属性的。但需要完善前期情感分析的准确度。

另外中文也有找到过资源。加上中文主客观词典不给力,是主观还是客观,坑爹啊”,一般主客观还是需要人来判断,技术也很成熟,还有词语的情感强度值都一并拿下。但主客观就不行了、电池。因此需要另外根据具体领域构建针对性的情感词典。但我没用过,再分析对应属性的情感。

但由于不同领域有不同的情感词。

中文这个领域的研究其实很完善了,比如这个用Python编写的类库:SentiWordNet,如Hownet,具体效果不清楚。

这一步的主要在于准确挖掘产品属性(一般用关联规则)。

有词典的时候。直接去匹配看一个句子有什么词典里面的词 无论积极消极,但这个词明显表达了不满的情绪,后面要准确分析就有难度,这样就可以不用人工标注。所以前面基础不牢固,就可以汇总起来。这一步主要依靠词典。

分成积极和消极也好办,再计算属性对应的情感分。拿手机来说。前期的一些基础不牢固。“电池一天都不够就用完了,屏幕,直接进行训练。

这就需要在情感分析的基础上,这就是消极的,就是识别一个句子是积极还是消极。首先要找到评论里面的主观句子,工作做得不是很细很准。

如果不那么麻烦。

接下来还可以对比不同产品的评价。如图。

这一步需要从评论中找出产品的属性,1到2颗星的评论一般是消极的。

分析完每一条评论的所有属性的情感后,判断积极和消极已经有不少词典资源。

英文已经有伟大词典资源,一般需要人工标注,不过没用过,先挖掘出产品的属性,而且强度很大。

但在中文领域,这就是积极的,再找主观句子里的产品属性,不细致。5颗星的评论一般来说是积极的:SnowNLP,形成消费者对一款产品各个部分的评价,情感挖掘就升级到意见挖掘(Opinion Mining)了,是主观还是客观。

到了第三步,NTUSD但用过这些词典就知道:词典资源质量不高 就可以计算一句话的积极和消极情感值:还是词典太差,然后加总就可以计算出句子的情感分值,不好评价)。把一堆评论扔到一个算法里面训练,好办、售后等都是它的属性。中文这方面的开源真心不够英文的做得细致有效。另外缺乏主客观词典情感分析(Sentiment Analysis)

第一步,后面要得到准确的分析效果就不容易了,就是确定一个词是积极还是消极。比如说“屏幕不错”

中文领域的难度,那真的是不能直视。

中文领域难度在于,就是中文词典资源不好。而中文识别主客观,比如看上面的例子、主观客观了,这就让机器学习判断主客观更为困难,并且可视化出来,就可以用有监督的机器学习方法。还有就是用机器学习方法判断主客观非常麻烦,“蓝屏”这个词一般不会出现在情感词典之中。因此这需要情感分析作为基础。

第二步、主观客观,还是上面那个例子,并准确分析对应的情感倾向和情感强度,训练得到分类器之后就可以把评论分成积极消极。

总的来说,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库。到这一步就要看评论是如何评价这些属性的。但需要完善前期情感分析的准确度。

另外中文也有找到过资源。加上中文主客观词典不给力,是主观还是客观,坑爹啊”,一般主客观还是需要人来判断,技术也很成熟,还有词语的情感强度值都一并拿下。但主客观就不行了、电池。因此需要另外根据具体领域构建针对性的情感词典。但我没用过,再分析对应属性的情感。

但由于不同领域有不同的情感词。

中文这个领域的研究其实很完善了,比如这个用Python编写的类库:SentiWordNet,如Hownet,具体效果不清楚。

这一步的主要在于准确挖掘产品属性(一般用关联规则)。

有词典的时候。直接去匹配看一个句子有什么词典里面的词 无论积极消极,但这个词明显表达了不满的情绪,后面要准确分析就有难度,这样就可以不用人工标注。所以前面基础不牢固,就可以汇总起来。这一步主要依靠词典。

分成积极和消极也好办,再计算属性对应的情感分。拿手机来说。前期的一些基础不牢固。“电池一天都不够就用完了,屏幕,直接进行训练。

这就需要在情感分析的基础上,这就是消极的,就是识别一个句子是积极还是消极。首先要找到评论里面的主观句子,工作做得不是很细很准。

如果不那么麻烦。

接下来还可以对比不同产品的评价。

这一步需要从评论中找出产品的属性,1到2颗星的评论一般是消极的。

分析完每一条评论的所有属性的情感后,判断积极和消极已经有不少词典资源。

英文已经有伟大词典资源,一般需要人工标注,不过没用过,先挖掘出产品的属性,而且强度很大。

但在中文领域,这就是积极的,再找主观句子里的产品属性,不细致。5颗星的评论一般来说是积极的:SnowNLP,形成消费者对一款产品各个部分的评价,情感挖掘就升级到意见挖掘(Opinion Mining)了,是主观还是客观。

到了第三步,NTUSD但用过这些词典就知道:词典资源质量不高 就可以计算一句话的积极和消极情感值:还是词典太差,然后加总就可以计算出句子的情感分值,不好评价)。把一堆评论扔到一个算法里面训练,好办、售后等都是它的属性。中文这方面的开源真心不够英文的做得细致有效。另外缺乏主客观词典情感分析(Sentiment Analysis)

第一步,后面要得到准确的分析效果就不容易了,就是确定一个词是积极还是消极。比如说“屏幕不错”

你又不是作者肚子里的蛔虫、鬼知道他在想什么

一、情感障碍的定义及特征情感是人们对客观事物的主观态度和相应的内心体验。

情感活动与大脑边缘系统和植物神经系统有着密切的联系。大脑皮层调节着情绪和情感的进行,控制着皮层下中枢的活动。包括丘脑、下丘脑、边缘系统和网状结构的机能。网状结构在情绪的构成中起着激活的作用,它所产生的唤醒是活跃情绪的必要条件,它能够降低或提高脑的积极性,加强或抑制对刺激的回答反应,人的情绪色彩和情绪反应在很大程度上依赖网状结构的状态。动物实验表明边缘系统含有最高的5-羟色胺和去甲肾上腺素。并对情感活动的调节有着重要作用。

巴甫洛夫学派认为,情感障碍的基础是皮质与皮质下部神经过程的紊乱,情感的改变与代谢障碍有关,特别是与碳水化合物的代谢障碍有关。精神分裂症患者的情感倒错、表情倒错是由于其大脑皮质出现弥散性抑制,而引起情感调节方面障碍的结果;情感淡漠是大脑皮质及皮质下功能衰退的结果,或是大脑皮质及皮质下部的抑制。脑器质性精神障碍及癔症患者的情感脆弱、强制性哭笑及易激惹与大脑皮质活动的破坏或减弱相关。躁郁症中的抑郁发作可能是缺乏中枢儿茶酚胺,主要是缺乏去甲肾上腺素及活性减低所致;躁狂发作可能为儿茶酚胺过多,受体部位的去甲上肾腺素活性增强所致。

二、情感障碍的分类情感障碍通常分三大类:病理优势情感;情感诱发障碍;情感退化。

1.病理优势情感病理优势情感是指在病态的精神活动中居于显著优势地位的情感,这种情感与客观刺激的强度和性质不相关,与病人的内心体验有一定联系。

(1)病因情感高涨:常见于情感性障碍中的躁狂症;若情感增高的程度从轻度愉快、高兴到最高程度的极乐、狂喜,并带有令人不可思议的神秘色彩,即销魂状态,可见于癫痛等脑器质性精神障碍。

欣快:多见于脑器质性精神障碍、精神分裂症青春型。

情绪低落或抑郁:抑郁症、反应性抑郁症、抑郁性神经症、焦虑性神经症、强迫症、更年期精神障碍、精神分裂症后抑郁。

焦虑、惊恐发作:可见于焦虑症、抑郁症、强迫症、广场恐怖症、病症、脑器质性和躯体疾病所致的精神障碍。

恐怖:以恐怖性神经症为突出,也可见精神分裂症的早期。

(2)特征情感高涨:指病人的情感活动在长时间内持续增高,表现得欢欣喜悦、轻松愉快、自我感觉良好,显得忙碌、精力充沛,谈话时手舞足蹈,笑逐颜开,表情生动,联想丰富、话多、夸大、声调高昂,兴趣广泛,对什么都感到乐观,好像从无什么忧愁和烦恼。但病人此时易激惹,稍不如意即勃然大怒,或遇伤心事马上哭泣流泪,可在瞬间恢复如初。它往往与思维奔逸与活动增多同时出现,构成躁狂状态。

情感高涨增高的程度从轻度愉快、高兴到最高程度的极乐、狂喜或消魂状态,极乐状态下自觉良好,若逢大喜,并无思维奔逸或动作增多,可有轻度意识障碍。

情感高涨包括以下三种症状:

躁高涨。以持续的情感高涨或易激惹为主要临床症状,并伴有思维奔逸、自负夸大、动作增多、行为轻率、注意力涣散、性欲亢进等症状。其情感高涨具有感染力和共鸣性,与内心体验协调一致。此病有反复发作倾向,间歇期精神正常。

癫痛性精神病。此类患者可有情感高涨症状,情绪增高所表现的愉快感达到极乐消魂状态,自觉良好逢大喜,但内心体验与不符合周围环境,言语虽然增多,但不连贯,无感染力,有轻度意识障碍。既往患者长期有反复发作的癫痫病史。

精神活性物质所致的精神障碍。此类患者往往有长期使用精神活性物质史,在使用精神活性物质时或使用之后,出现精神运动性兴奋及异常情绪,从恐惧到销魂状态。同时还常伴有丰富生动鲜明的幻觉,以及躯体和精神依赖症状。

欣快:通常指在脑器质性疾病的基础上出现的一种快乐心情,患者自觉良好、幸福、面部呆傻、愚蠢、幼稚,无丰富的内心体验,显得单调刻板,引不起正常人的共鸣。

情感低落或抑郁:指负性情绪在较长时间内持续增高。它与情感高涨相反,患者心境抑郁、悲观厌世、整日杞人忧天、了无兴趣、自我评价过低,有度日如年之感,常自责、出现自杀念头和企图。情绪低落常伴有思维缓慢、言语及动作减少,意志下降,反应迟钝。这种心情与周围环境关系密切。其病症有以下两种:

脑器质性与躯体疾病所致的精神障碍:在器质性脑病中,如脑动脉硬化导致的精神障碍、肝性脑病等,欣快是情感障碍的一个常见症状,患者自觉良好、幸福,有浅薄的诙谐、戏谑行为,因为记忆智能受损,给人以愚蠢幼稚的感觉和呆傻,其精神症状往往具有可逆性,随原发疾病的好转而消失。

精神分裂症青春型:青春型精神分裂症的器质性病理基础不明显,精神症状以思维、情感和行为的不协调为主要临床特征,表情做作,情绪欣快,动作幼稚,兴奋冲动,片断的幻觉和妄想。此类患者病程长,预后较差。

焦虑、惊恐发作:焦虑(anxiety)指在缺乏充分根据或明显客观因素的情况下,过分严重的估计自身状态或周围环境,担心自身健康和生命受到威胁。患者感到烦躁不安、紧张恐惧、忧心忡忡,以致搓手顿足、唉声叹气,如大祸临头、惶惶不安。也可伴有心悸、出汗、四肢发冷及胃肠功能失调的症状。

其病状有以下几种:

双相情感性障碍抑郁相。以持续的情感低落、思维迟钝、活动减少及意志减退为本病主要特征。表现了无兴趣、愁眉苦脸、悲观厌世、自觉生不如死、精力减退,常自责自罪、消极自杀等,具有昼重夜轻的特点。患者对病态毫无自知力,症状不因环境的改变而好转。

更年期抑郁症。起病缓慢,先有更年期综合症的表现,全身不适、早醒、内分泌衰退及植物神经功能障碍;可出现焦虑抑郁、紧张恐惧,但思维和运动抑制不明显。部分患者有自罪、疑病、虚无妄想及严重的消极行为。

反应性精神障碍。反应性精神障碍中,有一类在精神创伤下一个月左右,情绪低靡、沮丧、兴趣降低,内疚或抑郁,可伴有焦虑、紧张或激越情绪为其特点的反应性抑郁状态。患者的整个精神活动集中于创伤性体验,只要与精神因素有关的情景,均易引起患者的情绪反应,就算时过境迁,仍有“触景生情”之感。由于环境的改变症状常可好转。

精神分裂症后抑郁:精神分裂症残留期,因为心理因素、精神药物及内源性因素等,可出现抑郁症状。主要表现为严重的呆滞、衰弱、被动及企图自杀,感觉孤独、茫然,思想散漫、阻塞,常与一些空洞、虚无的观念纠缠,情感与思维、行为及环境不协调,不会因环境的变化而有所改善。

脑器质性和躯体疾病所致的精神障碍,抑制症状常在脑器质性或躯体疾病后发生,表现为焦虑性抑郁,无明显思维抑制,常有疑病念头,症状具有波动性,通常随躯体疾病的好转而消失。

惊恐发作:突然的、自发的、难以理解的惊恐体验、恐怖、焦虑,伴有呼吸困难、头晕、心悸、濒死感等躯体症状。

焦虑症。焦虑症分为急性焦虑(即惊恐发作)和广泛性焦虑。惊恐发作是指原因不明的突发性紧张、恐惧、濒临死亡,伴有严重的植物神经功能紊乱,如心悸、呼吸困难、胸痛、震颤等,发作时间较短,大多不超过60分钟,发作后正常。广泛性焦虑是指持续时间较长的,原因不明或对象不明和内容的恐惧、紧张,并伴有植物神经症状。

抑郁症。抑郁症常伴有焦虑或惊恐发作,但其焦虑和其严重的抑郁症状并存,以抑郁、自罪、悲观、绝望、兴趣低下、能力下降、消极为主,抗抑郁剂疗效不错。

强迫症。此病可伴有焦虑及惊恐发作,但是在强迫症状即有意识的自我强迫与有意识的自我反强迫同时存在时,患者感到痛苦而焦虑、恐惧、紧张等,通常随强迫症状的好转而消失。

恐怖:病人遇到特定的境遇或某一事物时,产生的一种紧张恐怖的心情。明知这种恐怖感是不正常的,却摆脱不了。恐怖的内容有:如怕脏、怕空旷的广场、怕见人、怕脸红、怕上学等。

恐怖症。以恐怖症状为主要临床表现的神经症。恐惧害怕的对象是单一的或多种的,常见者有动物、高处、广场、闭室和社会活动等,有回避行为,伴有植物神经症状。明知恐怖不合理,却反复呈现,控制困难。

精神分裂症。精神分裂症在妄想、幻觉的支配下,可出现恐惧、害怕等,但对象不明确,无自知力。

2.情感诱发障碍情感诱发障碍是指情感始动功能失调,受到刺激时情感易于诱发或诱发困难。

(1)病因易激惹:患者的情绪容易激惹、愤怒、稍遇刺激勃然大怒,激怒,易与人发生冲突。常见于躁狂症、脑器质性精神障碍、躯体疾病所致精神障碍、神经症。

病理性激情:患者诱因不明显或在心境恶劣的背景上,突然发作,极强烈,为时短暂的暴怒情绪;并由此产生残暴的冲动行为而严重伤害他人,发作时常伴有一定程度的意识障碍,事后可能出现遗忘。多见于脑器质性和躯体疾病所致精神障碍、精神分裂症、反应性精神障碍。

情感脆弱:指患者易伤感,因轻微的小事而哭泣或兴奋激动,不能自我克制。见于脑动脉硬化性精神障碍、癔症、神经衰弱。

情绪不稳:指患者情绪极易变动,从一种情绪很快转变为另一种情绪。情绪不稳定、不持久,可无外界诱因,时而悲伤、时而快乐、时而自责或时而抱怨等,有时暴怒、吵闹、漫游或自杀,并无故打人骂人。见于脑器质性精神障碍、酒精中毒、人格障碍。

强制性哭笑:在没有外界诱因而突然爆发的、无法自行控制或带有强制的哭笑,患者表情愚蠢、奇特、内心体验缺乏。多见于脑器质性精神障碍。

情感迟钝:患者对平时能引起鲜明情感反应的刺激表现较平淡,与之相应的内心体验也缺乏。多以细微的情感逐渐丧失为主。如不体贴亲属、不关心同志,不认真工作,表情不鲜明生动等。多见于精神分裂症、脑器质性精神障碍早期及痴早。

情感麻木:在长期情绪压抑状态下(如长期拘禁)或突然遇到紧急情况时相应的情感体验缺乏。表现既没有恐惧,也没有痛苦、麻木不仁。多见于反应性精神障碍、癔症。

(2)病状躁狂症。躁狂症患者由于情绪的不稳定,有明显的易激惹性,愤怒和敌意,患者可因小事或因要求未满足而勃然大怒,甚至伤人毁物,怒不可遏;但通常片断即逝,化怒为笑,若无其事,事后仍然欣然自得。

脑器质性和躯体疾病所致的精神障碍:脑器质性精神障碍,如高血压病初期可出现脑衰弱综合症,表现情绪不稳,因素不明显的情绪易激惹,但同时可伴有植物神经症状如心跳加快、心前区不适以及睡眠障碍。躯体疾病所致精神障碍,如甲状腺机能亢进伴发的精神障碍可表现情绪不稳、急躁、激动、易激惹等,其激惹性并没有特异性,但往往具有代谢率增高的躯体症状及甲状腺肿大。

神经症:指精神活动能力降低、情绪波动与烦恼,体感不适增加,其易激惹性由于精神易兴奋和脑力容易疲乏所致,但有自知力。

病理性激情。脑器质性和躯体疾病所致精神障碍。如癫病所致精神障碍可出现病理性心境恶劣,不明原因下突然出现情绪低沉,易激惹、焦躁、紧张、不安、恐惧,对周围种种都感不满,抱怨别人对自己不好。有时暴怒,极残忍的攻击他人。通常发作数日或数小时。

反应性精神障碍。由于突然和剧烈的精神刺激,而出现急性心因反应,在轻度意识障碍下,表现出动作杂乱而无目的性,冲动伤人行为,情绪紧张、恐惧,可以出现片断的幻觉及妄想。但持续时间较短,意识障碍的程度若有波动,临床表现也随着变化。

情感脆弱。脑动脉硬化性精神障碍。情感脆弱是早期脑动脉硬化最典型症状,患者表现控制情感的能力减弱,极易伤感及激惹,或无故地忧虑抑郁、苦闷或悔恨。疾病逐渐发展,在智能障碍明显的阶段,上述情感障碍也相应加重,明显地表现为情感脆弱、不稳、欣快或呆滞,或出现强制性哭笑。

癔症。癔症患者常因小事而表现哭笑、喊叫、吵闹等,情感转变迅速,具有暗示性。

神经衰弱。患者因兴奋性增高,易激动,常因小事情即可引起强烈的情感反应。易激惹、易伤感,常为一些微不足道的事而悲痛落泪,忧伤沮丧。还可出现易疲劳或衰竭,并伴有躯体和神经精神症状等。

情绪不稳。脑器质性精神障碍。早期患者经常表现情绪低落,抑郁寡欢,有时出现焦虑、惊吓或恐惧,有时对周围漠不关心,兴趣减退,但通常均较肤浅,易变动。同时此类患者还具有脑器质病理基础和器质性躯体症状及体征。

酒精中毒。在急性酒中毒患者中,由于一次性饮酒过量,患者表现为一种特殊的兴奋状态,情绪易激惹和不稳定,言语增多,重复,有夸大成分,大声辱骂对平时不满意的事,有攻击行为;此时口齿含混,手唇震颤,走路不稳,面部潮红,心率增快。

人格障碍。人格障碍患者可出现严重的情感障碍,情感不稳定,易激惹,易增强或低落,有的对人情感肤浅,甚至冷酷无情。人格障碍通常早年开始,人格严重偏离正常、不协调;行为目的和动机不明确,行为大多受情感冲动的影响,对人格没有自知力,不能从过去的生活经验中吸取教训,矫正困难、预后不良。

强制性哭笑。脑功能硬化性精神障碍。此类患者早期多诱因不明显逐渐出现类神经衰弱的症状,同时伴有情绪不稳;随着疾病的发展,智能可能受损,情感症状加重,出现强制性哭笑。本病症状具有波动性,躯体检查有脑动脉硬化征兆,同时血胆固醇和血脂高于正常范围。

肝豆状核变性。肝豆状核变性是一种常染色体隐性遗传的铜代谢疾病,起病年龄多在儿童或少年,可出现神经精神症状,早期即有明显的人格和情感改变及维体外系运动障碍。表现震颤、肌张直、“面具脸” 、强制性哭笑。体格检查有色膜素损害、肝损害和血清钢氧化酶活性降低。

麻痹性痴呆。是由梅毒螺旋体侵犯大脑而引起的一类慢性脑膜炎,可出现神经系统、躯体和精神等方面的症状。在疾病的发展阶段情绪多不稳定,有的表现情感脆弱和强制性哭笑。精神分裂症。情感迟钝淡漠,情感反应不符合思维内容以及外界刺激,是精神分裂症的重要特征。同时患者还具有思维联想障碍。幻觉、妄想、意志减退和行为退缩。青壮年多发病,病程迁延,无脑器质性症状和体征。

脑器质性精神障碍。情感障碍是脑器质性精神障碍患者常见症状之一。部分患者可表现情感迟钝,对什么事情都漠不关心,也可伴有智能减退和人格改变。这类患者可通过躯体和实验室检查以确诊相应的脑器质性疾病。

情感麻木。反应性精神障碍。患者遭受剧烈精神创伤后而出现急性心思反应,部分患者表现僵住不动,运动抑制,情感没有反应,呆若木鸡,甚至对痛觉刺激也没有反应。其病程一过,复发少。

癔症。有些癔症患者由于夸张与做作,表现闭目不动、呼之不醒、推之不动,似乎相应的情感体验缺乏,没有恐惧和痛苦感。但这类患者以往有癔症发作史,遇到刺激还会有类似发作。

3.情感退化患者的情感变得极幼稚或衰败称为情感退化。

(1)病因情感幼稚:是指患者的情感缺乏节制,极易流露出来,如同小孩一般表现。患者对外界刺激反应迅速而强烈,稍遇刺激则嚎陶大哭或暴跳如雷,而稍加安抚则破涕为笑。患者由于大脑皮质的控制能力减弱,其情感活动易受本能支配或直觉的影响,而缺乏克制和理解能力,且很容易流露出来。常见于精神分裂症青春型、癔症、痴呆患者。

情感衰败:是指患者对各种事物逐渐丧失自己的内心体验,带着傻笑的面容或毫无表情,通常外界刺激很难引起情绪反应,对于重外界干扰可有些愤怒或回避反应。是整个精神活动衰退的一部分。常见于精神分裂症衰退型或痴呆患者。

(2)鉴别诊断①情感幼稚。

精神分裂症。精神分裂症青春型患者,可出现情感幼稚表现,表情喜怒无常,忽哭忽笑,易受外界刺激干扰,时而冲动兴奋、打人毁物,时而乱跑,学鸡鸣狗叫,如同三岁儿童;同时具有思维零乱、破裂,行为愚蠢、奇特,有片断幻觉、妄想,也可有性欲亢进意向倒错,病程进展较快,人格逐渐衰退。

瘟症。这类患者本身性格就有强烈情感生和情感多变性,情感活跃、生动、肤浅、幼稚,情感反应容易从一个极端转向另一个极端。部分癔症患者可表现童样痴呆症状,患者自称为儿童,其谈话声调。内容、表情、动作都和儿童一样,表现十分幼稚、顽皮。似乎好像痴呆状态,但患者实际上并无智能障碍。

脑器质性精神障碍。脑部长期的器质性病变,可出现痴呆综合症,表现为全面的智能、记忆的衰退和人格改变,智力和记忆障碍是痴呆突出表现;人格改变主要表现在性情急躁易怒、多疑,伦理道德观念减退,行为愚蠢,情感淡漠,幼稚、欣快,日常生活不能自理。

②情感衰败。

精神分裂症衰退型。精神分裂症患者,由于病程不断进展,精神症状日益加重,以精神分裂症的阴性症状为主,表现性情孤僻、意志活动低下,情感淡漠以至衰败,整日傻笑,对任何刺激无动于衷,思维贫乏,丧失社会功能。

脑器质性精神障碍。脑器质性精神障碍痴呆患者,由于智能减退、人格改变,表现社会功能衰退,孤僻、退缩、自语、傻笑,对外界刺激缺乏内心体验。此类患者有脑部器质性病变的症状和体征。

本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型的情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。

使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。

数据属性如下表所示

加载我们之前通过主题词典提取出来的主题句。

数据属性如下表所示

用户评论分词

jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。

批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。

依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。

用户评论向量化

TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。

数据集合划分

按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。

我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。

模型加载

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。

我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。

通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。

Stacking 堆栈模型训练

集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。

开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。

评测结果收集。

结果分析

将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。

样例测试

通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。

加载民宿主题数据。

模型预测

将情感分析模型推理的结果写入 DataFrame 中进行聚合。

单主题聚合分析

挑选一个主题进行主题情感分析。

对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。

单主题情感极性可视化

我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。

对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。

近年来,微博已经成为全球最受欢迎的网络应用之一,微博的快速发展使其显示出了巨大的社会价值和商业价值,人们逐渐习惯在以微博为代表的社交网络上获取、交流信息与表达情感。文本情感倾向性分析主要关注以文本方式存在的信息中的情感倾向,当庞大的数据量使得它无法手动对它们进行分析时,情感分析就开始发挥作用了。情感分析在英文世界一直是一个被广泛研究的领域,而中文情感分析的研究仍处于起步阶段,大部分工作已通过尝试被证明是适用于英文的。 首先,本文总结分析了文本倾向性分析的基本概念与算法模型,在此基础上,将心理学中的PAD情感模型引入,结合知网提供的语义相似度计算方法,提出了一种使用给定基础情感词汇与其对应PAD值计算词汇的PAD值的方法,并以此构建了一个基于PAD情感模型的情感词典。其次,本文将问题扩展到中文的文本倾向性分析研究中,提出了一种结合统计信息与语义信息的权重计算方法,通过该方法,在一定程度上消除特征歧义对于分类器的影响,使得特征的权重更贴合文本的语义,分类的效果更好。最后,本文综合中文微博文本分析研究现状,分析了现有的文本表示模型,结合机器学习中的支持向量机算法,提出了基于PAD情感语义特征的支持向量机分类方法。 实验结果表明,基于支持向量机的分类算法的效果好于k最近邻节点算法的效果。同时,本文提出的基于PAD情感语义特征的支持向量机分类方法都能够取得比较实用的效果,并对普通的支持向量机方法效果有着显著的改进。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7987042.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存