培根的散文“论爱情”(Of Love)是一篇深入探讨人类情感的文章,以简洁、精炼的语言表达了作者对爱情的看法。在这篇文章中,培根以一种独特的方式揭示了爱情的本质及其对人类的影响。
首先,培根将爱情与人生舞台联系起来,认为在舞台上,“恋爱”可以提供喜剧和悲剧的素材。这是一种形象的表达,意味着爱情在人类生活中扮演了重要的角色。培根将爱情视为一种戏剧性的力量,可以带来欢乐,也可以带来痛苦。
其次,培根指出,爱情在人类生活中常常导致祸患。他把爱情描述成一位女神,有时是迷惑人的,有时是复仇的,这反映出爱情的力量和双重性。这种描述强调了爱情的强烈情感色彩,以及它如何影响人们的行动和决定。
然后,培根提到了一些伟人,他们没有被爱情所迷惑。他认为伟大的人和重要的事情能够抵抗这种柔弱之情。这种观点表达了一种理性看待爱情的态度,即尽管爱情具有强大的力量,但我们应该控制自己的情感,而不是被它们控制。
最后,培根对过度的爱情追求进行了批判。他认为,过度的追求爱情会降低人的价值。在爱情中,人们常常使用浮夸的言辞,而在其他场合,同样的言辞只会让人耻笑。这表明,培根认为爱情不应该凌驾于其他人类价值之上。
总的来说,培根的散文“论爱情”是一篇对爱情深入探讨的文章。它展示了爱情的力量和危险,同时也提供了理性看待爱情的态度。通过这篇文章,我们可以更好地理解爱情在人类生活中的位置,以及如何以一种理智和成熟的方式处理这种强烈的情感。
1、大数据情感分析是指利用大数据技术和自然语言处理技术,对海量的文本数据进行分析和挖掘,从中提取出文本中所包含的情感信息,
2、情感分析的主要目的是通过计算机技术和语言学知识,帮助人们更好地理解和分析大量的文本数据,并从中挖掘出有用的信息。
<article>
课程地址: https://classcourseraorg/nlp/lecture/31
情感分析 (Sentiment analysis)又可以叫做
意见抽取 (Opinion extraction)
意见挖掘 (Opinion mining)
情感挖掘 (Sentiment mining)
主观分析 (Subjectivity analysis)等等。
引用的论文:
Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86
Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278
另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。
下面罗列了一些比较流行的词典:
当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例
但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图
可以看出,这些否定词同样可以作为单词极性的一个判断依据。
具体步骤为:
联合概率 / 独立的两个概率乘积
之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:
可以看到极性划分的还不错
</article>
</main>
转自csdn
Python 有良好的程序包可以进行情感分类,那就是Python 自然语言处理包,Natural Language Toolkit ,简称NLTK 。NLTK 当然不只是处理情感分析,NLTK 有着整套自然语言处理的工具,从分词到实体识别,从情感分类到句法分析,完整而丰富,功能强大。
阮籍式的深情 离骚式的表述
——《记念刘和珍君》艺术特点
吴礼明
在我的感觉中,鲁迅先生的《记念刘和珍君》真是一篇至文。在同是纪念进步青年或革命者这一点上,我以为它的艺术成就远远超出了后来所写的《为了忘却的记念》。
本文不打算搞对比分析,只想就《记念刘和珍君》作些艺术上的探究;但我又以为这些探究在很大程度上是该文所独有或比较突出的。我想在艺术上有以下三点颇值得深究:
一、在创作原动上,他善于摄取“现代社会的魂灵”,他深感世态炎凉,窥熟于“世人的真面目”,尤其对那“宁蜷伏堕落而恶进攻”的国民精神深感愤怒。(人教社教参)他的写作就是以所谓世态人情为着眼点来看取社会与人生,摄取其“魂灵”给人以惊心动魄的警示。作者是浸润于中西文明的知识种子,他深感时代进步对于中国社会特殊的作用;在文明与野蛮的残酷较量中,他尤感文明的无力和孱弱,而野蛮是多么的凶残与下劣,特别是那些自甘堕落、为虎作伥的阴暗“动物”们的所作所为!他除了用笔于“始终微笑着”、“从容转辗”“干练坚决”的刘和珍与杨德群们,展示中国女性的勇毅和温和,“虽压抑至数千年,而终于没有消亡的明证”的形象;还着眼于罪恶的段政府,下劣的无耻文人,以及那些庸人与“闲人”,文中虽没有勾画他们的“尊容”,但强烈的比照与暗示使那些在阴暗潮湿里的阴暗物们显得多么的丑陋!这种比照与暗示极具有战斗性与鼓动性,可以说这是该文不同于一般悼文的地方。
二、在创作的立场与原则上,有一点通常被人忽视了,就是那个在《故乡》中就已经显露的人道主义思想和现实主义的怀抱与民族之爱。我们知道作者有生计流离之忧,但他又有着中国历代正直的知识分子所具有的可贵品质,尤其是杜甫以来的关怀政治现实与民族前途的人们身上所具有的。在意识的层面上,“我”更多的是传达出一种“叹息肠内热”的文化—政治情绪,因而读来颇能撼动人心。作者为何对“三·一八”惨案如此地表示出自己极大的愤慨呢?这不外于戮杀烈士或青年使他感到极点的悲愤。“惨象,已使我目不忍视;流言,尤使我耳不忍闻。我还有什么话可说呢?我懂得衰亡民族之所以默无声息的缘由了。沉默呵,沉默呵!不在沉默中爆发,就在沉默中消亡。”他仍然是从进化论的角度,坚信未来必胜于现在,而青年代表未来,知识就是文明与未来的标记。他将议论提高到民族存亡的高度,足以见出他的制高的峻拔与浑厚,从中我们不难看出他对民族生存与发展的强烈的期待。而这些都厚寄于传承文明与进步知识的人们身上。他对知识分子的责任感与道义感的苛求程度是如此的强烈!因此,正如到见一枚硬币的另一面,我们对作者为什么尤痛斥无耻文人的阴险论调就不难理解了。
三、应当说,在本文中,鲁迅的思想情感是深刻而复杂的。鲁迅从不掩盖自己思想的复杂性,他长于解剖自己,甚至于无情,其精神尤感人与可贵。他一再强调“有写一点东西的必要”,却又感觉到“我还有什么话可说呢”,“但是,我还有要说的话”,“呜呼,我说不出话,……”他想说的,有必要说的太多,但现实的黑暗又使他出离地愤怒。刘和珍是他的学生,是他的学识热烈的求知者,他回忆起当初订阅《莽原》的情形,从这一点感觉有些写作的必要,“但我现在却觉得有些踌躇了,我应该对她奉献我的悲哀与尊敬”,而不仅仅是这一点点的所谓的感激。他说,她不是“苟活到现在的我”的学生,而是为了中国而死的中国的青年。但他又说,“造化常常为庸人设计,以时间的流逝,来洗涤旧迹,仅使留下淡红的血色和微漠的悲哀。”在说到这次惨案所引起的反响和意义时,他沉痛地说:“时间永是流逝,街市依旧太平,有限的几个生命,在中国是不算什么的……至于此外的深的意义,我总觉得很寥寥……”然而在文章的结尾,他又说:“我目睹中国女子的办事……而终于没有消亡的明证了。倘要寻求这一次死伤对于将来的意义,意义就在此罢。”“苟活在淡红的血色中,又会依稀地看见微茫的希望……”这些几乎矛盾的语言,并非是作者逻辑上的失误,而是充分地表达出了作者的无言的苦痛、愤怒、悲哀与告祭的心情。同时在措辞闪烁与词锋隐显之中,又分明地让人感受到社会与生存环境的凶残所达到的非人间的程度。应当说,作者还有许多想表达的,要表达的,但他徘徊于“两间”,纠缠于生死,沉耽于过去、现在与将来,而他思绪纷乱,也实在不能完全地沉静于他的心去作冷静的理性思索,于是他只好将这些“奉献于逝者的灵前”,奉献给广大的读者。我们看到的是一颗被各种外力作用而已破碎的心灵!总之,是这样,还有什么其他的言辞呢?
关于这一点,我以为我们还可以有必要引申出三点作展开地陈述:
应当看到,在文章中,作者没有把自己摆在为师的位置上,他严剖自己,而对逝者表示出了极大的尊重。对于记念,他没有浮泛,更没有旁观,而是用他的心与情,悲愤与炽爱去深味惨案前前后后的以及更多的、更深广的东西。他的思想与情感渗入其中,他用他所能感受到的形诸笔墨,让人看到一个真正思想者的心灵的苦痛与挣扎的具体情状。他是真实的,感人的。这篇文章给人一个强烈的印象就是文章中浓烈的抒情性大于其单纯的文字表述。其中的原因就在于作者的浓烈的情感,悲愤的控诉,严厉的斥责都聚集在那议论大于叙述的篇章结构里。他的议论与抒情都是感性与理性交织着的产物,在最具有浓缩性与广延性上,又获得了无限的诗性。歌德说:“感情愈和理性结合,就愈高贵,到了极境,就出现了诗,出现了哲学。”(《致玛利亚包洛芙娜公爵夫人书》)这就是他行文的很突出的特点:一个真正思想者真诚地袒露着他的思想。“他直抒胸臆,将自己的满腔的悲痛与义愤,用烈火般的言辞喷射出来,形成诗意汹涌的感情波涛,并结情为理,化为深刻的哲理韵味和汪洋恣肆的风格,他指着反动派的鼻子怒斥:‘中外的杀人者居然昂起头来,不知个个脸上有血污……’”(王献永《鲁迅杂文艺术论》)此其一。
其二,有一点也是常常被人忽视或误解的,就是“欲吐还吞,欲吞不得,吞而复吐的具体的痛苦的情状与深情叙说”。行文说“我也早觉得有写一点东西的必要了,这虽然于死者毫不相干,但在生者,却大抵只能如此而已。”而接下来的却是“可是,我实在无话可说。”在于无话可说处,作者说“忘却的救主快要降临了罢,我正有写一点东西的必要了。”“我们还在这样的世上活着;我也早觉得有写一点东西的必要了。”但后面又出现了“我还有什么可说呢?我懂结尾得衰亡民族之所以默无声息的缘由了。”而接下来的又是“但是,我还有要说的话”,而却以“呜呼,我说不出话,但以此记念刘和珍君”作结。对此,目前教学参考书不能给予满意的解释,而只能就事论事,显得很支离破碎。而有一种论说则是从“重复”性语句出发,认为鲁迅是用还原那荒诞而重复的历史来“还丑恶以丑恶,还荒谬以荒谬,让所有的真相裸裎”。(梁卫星:《重复与鲁迅》,北大在线2002-08-16)它“在说与不说之间,鲁迅陷入了深刻的苦痛之中”,但它的解释显然是过于想当然了。如果我们对鲁迅研究魏晋时代的情况多一些了解,那么,便比较容易地理解这种“欲吐还吞,欲吞不得,吞而复吐”的具体的痛苦的情状。有兴趣的人可以仔细地聆听阮籍的古琴《酒狂》,也许会有深刻的体会的。(或许开头是欢快的率真,但往后可能就是痛苦的跋踬)
同时,其三,该文还存在着《离骚》式的表述结构。在《离骚》中,屈原天上人间,上下求索,其现实主义地对祖国与民族的爱深融于其中,尤其是最终升天临行之际那深情的回眸,简直让人涕零如雨。古人评论《离骚》时认为它没有章节,思之所至,悲戚啼苦,时断时续,天上地下,旷怨求索,一唱三叹,这正是作者内在深情在行文情节上的本质反映。在本文中,作者发情于死,但念在生前,“于死者寄生者之情,求生者之道”,作者屏弃了那些虚而不实的冥间想象式的虚无安慰,他始终把死者与性命相联于残酷、恶劣的历史与现实,并与中国的未来紧紧相系。(王献永《鲁迅杂文艺术论》)鲁迅写作本文,说得非常明白,“刘和珍是我的学生”,但她“不是‘苟活到现在的我’的学生,是为了中国而死的中国的青年”。鲁迅以含悲之笔,以一个“亲族、师友、爱人的心”去“深味”这浓黑的非人间的悲凉和微漠的悲哀与淡红的血色,他感受到了中国女子的“从容”“微笑”与“伟大”,他的心由此震动,他写道:“真的猛士,敢于直面惨淡的人生,敢于正视淋漓的鲜血。这是怎样的哀痛者与幸福者?”作者的感情实在是悲哀与愤怒之至,他认为三月十八日是“民国历史是最黑暗的一天”,因为他“只觉得所住的并非人间。四十多个青年的血,洋溢在我的周围,使我艰于呼吸视听,那里还有什么言语”,他几次表示该“写点东西了”但一直没有下笔。在他看来,凶残的当局,下劣的流言家便是罪恶的制造者与掩盖者,罪恶不止,则青年所流的血便无从止息。正因为如此,他要“深味这非人间的浓黑的悲凉,以我最大的哀痛显示于非人间,使它们快意于我的苦痛,就将这作为后死者菲薄的祭品,奉献于逝者的灵前。”这种深味与哀痛真是难以言状,所以作者很难完整的叙述完有关刘和珍的详细的情节,而只能忍含深痛的,时断时续的。有时他只能说“我说不出话来”而显出秋雨般的夜哭;有时他甚至太激动,而作枯蕉似的悲哀与惨荷式的愤怒了。
于细微处见真情
——《记念刘和珍君》细节描写赏析
河南省新乡市长垣县凯杰中学 江宗斌
《纪念刘和珍君》通篇燃烧着悲与愤的火焰——悲爱国青年之惨死,而愤杀人者及其帮凶的残暴无耻。如何将这两种情感最充分地传达出来,并拨动读者的心弦,应该是鲁迅先生构思本文时着重考虑的问题。我以为有两处细节描写为这团火焰的剧烈燃烧起了添柴加油的作用,足以烛照出先生的匠心。
一处是“反复细节”在“三”“四”“五”部分中,一向惜墨如金的鲁迅先生居然四次用几近雷同的笔法写道:“但她却常常微笑着,态度很温和”、“也还是始终微笑着,态度很温和”、“况且始终微笑着的和蔼的刘和珍君”、“始终微笑的和蔼的刘和珍君确是死掉了”。“微笑、温和、和蔼”的刘和珍君何以是暴徒?更何至于无端在府门前喋血呢?作者精心设计的这个反复细节如同**特写镜头在读者的脑海里缓慢地滚动放映,感情密度大,冲击力强,将悲愤之情最大限度地传递出来。倘缺少了这一处反复细节,艺术表现力势必削减大半。
另一处是“再现细节”在“五”中作者极尽细腻刻画之能事,生动而又细致入微地再现了三位女性的死状。文章不厌其细地说“(子弹)从背部入,斜穿心肺,已是致命的创伤”,“(张静淑)想扶起她,中了四弹,其一是手枪”,“(杨德群)又想去扶起她,也被击,弹从左肩入,穿胸偏右出,也立仆”,“一个兵在她头部及胸部猛击两棍,于是死掉了”,其中加点词语读来真如先生是现场的目击者,刽子手杀人的全过程乃至每一个动作,先生都根据后来的尸检再现得毫发毕现,精确之至。当然也可以避免麻烦,只用简笔,三言两语一笔代过,但那样又如何能突出杀人者的残暴,如何能强烈地激起读者情感的波澜呢?此一处”再现细节”虽是”血淋淋的残酷”,但却将作者心中的万丈怒火熊熊地点燃起来,炙烤着读者的心灵和情感,令人如梗在喉,忍不住拍案而起,横眉冷对直斥杀人者。
以上两处细节描写,绝非偶然而为之,显然是鲁迅先生独抒机杼精思傅会的结晶。尤令人赞叹不已的是作者虽有如此高超的妙手点染,却了无斧凿痕迹,正可谓“天然去雕饰,清水出芙蓉”,非大家莫能为也。
《记念刘和珍君》语言赏析
曹保顺
一、谴词用语鲜明生动
文章一开始,程君问“可曾为刘和珍写了一点什么没有”,勾起了“我”对烈士的悲痛的怀念,再次感到“有写一点东西的必要”——“也早觉得”,其中“也”字是针对程君的请求而言,说明写作此文,不仅仅因程君的请求,更主要的是出自“我”本身的意愿:“早”字则进一步说明,要写文章纪念的愿望由来已久,不只是由程君请求才引起的。第一节里还有这样一段文字:“我只觉得所住的并非人间。四十多个青年的血,洋溢在我的周围,使我艰于呼吸视听,那里还能有什么言语?”鲜血“洋溢”在自己的“周围”,以至“艰于呼吸视听”,这都是可以感觉到的,这样,就不仅把青年流血之多,自己郁闷、悲痛之深形象地表现了出来,而且把“非人间”的令人窒息的特点,活生生地具体化了。在第七段揭露当局者“凶残”,抨击流言家“下劣”,称颂中国女性临难“从容”,用词十分精当、简洁,说明作者在遣词用语上的锤炼功夫,也反映了作者精湛的文字修养。
二、巧妙运用修辞手法
本文巧妙地运用了比喻、反语、对比、反衬等修辞手法。如作者在表达对于徒手请愿的看法时写道:“人类的血战前行的历史,正如煤的形成,当时用大量的木材,结果却只是一小块,但请愿是不在其中的,更何况是徒手。”鲁迅用一个浅近的比喻,便具体、形象地阐明了一个深奥的抽象的道理,这个比喻很浅近、很生动,读者易于理解,易于接受,具有很强的说服力。第五段中“伟绩”、“武功”等词,用反语揭露中外反动派“屠戮妇婴”、“惩创学生”的罪恶行径。文章用“庸人”与“真的猛士”对比。庸人惯用忘却的方法,对人世间的悲哀与不平作淡化处理,作者批判了这种庸人的生活哲学,肯定了敢于直面惨淡的人生和正视淋漓鲜血的真的猛士的现实主义精神。
为了使记叙起伏跌宕,文章运用了对比和反衬的手法。如第五段记叙刘和珍、张静淑、杨德群前仆后继、殒身不恤的场景时,就通过对比和反衬,将一个杀害徒手请愿学生的惊心动魄的场面,栩栩如生地展现在读者面前。
三、叙议抒情和谐统一
《记念刘和珍君》一文记叙、议论、抒情三者交错结合,达到有机的和谐的统一,使文章具有强烈的感染力和高度的说服力。如第五段,先记叙了刘和珍等遇难的情景,描绘了爱国青年英勇斗争的形象,揭露了反动派的凶残。接着写出“始终微笑的和蔼的刘和珍君确是死掉了……”这一句。这是在记叙之后,作者悲极愤极的感情的总的抒发,强有力地表达了作者对反动派的憎恨,对死难烈士的悲痛。而在记叙和抒情中又交叉着议论,增强了对反动派凶残下劣揭露的深刻性。本文每一段几乎都是熔记叙、议论、抒情于一炉,它不仅增强了文章思想的深度与力度,而且使作者爱憎分明的感情色彩表现得更加淋漓尽致了。
例说《纪念刘和珍君》的修辞效果
陈立宏 李正兵
《纪念刘和珍君》这篇记念性散文,不仅寄托着作者对死难青年的沉痛哀悼,而且燃烧着作者对凶残当局的强烈抨击。作品中作者的这两种悲愤的情感,主要是对通过以下几种修辞手法表达出来的:
一、运用反语,揭露敌人的反动罪行。用反语来讽刺和揭露敌人的罪行,是鲁迅先生在他的作品中常用的一种战斗方法。本文就多次运用了这种修辞手法。如文章开头以“中华民国”来纪年,实际上表明了作者对段褀瑞执政府的极大愤慨和讽刺。既然是“中华民国”,就应是中国人民的政府。可这样的政府,竟然公然开枪射击请愿的学生,制造震惊中外的“三·一八”惨案,可见这样的政府根本就不是人民的政府,而是屠杀人民的伪政府。讽刺之余,作者以犀利的笔调,一针见血的揭露了反动政府的罪行。又如在六部分中,作者说到:“时间永是流驶,街市依旧太平。”众所周知,“太平”本义是指社会秩序稳定,人民安居乐业。在这里显然是指反动政府的高压政策所造成的“万马齐喑”的现状和可悲的局面。“太平”一词的运用,可见蕴涵了作者多少愤怒与不平,同时又饱含作者多少辛酸与无奈。
二、通过对比,展现猛士的勇毅形象。本文中,作者拿两种人与刘和珍这样的猛士进行了对比,从中彰显猛士的勇毅和干练。如第二部分中,作者拿“庸人”与“猛士”进行了对比。“庸人”之所以“庸”,在于他们对“淋漓的鲜血”,虽有哀痛和不满,却不能“直面”和“正视”。因此,随着时间的流驶,庸人们早已忘却哀痛,继续维持着“这似人非人的世界”。“真的猛士”却能面对黑暗的现实,不怕流血牺牲,勇敢地站起来反抗,企图打破这黑暗的铁笼子,赢得全国人民的自由和解放。从两种人对待现实的的不同态度中,读者从中可以窥见猛士的高大人格。又如第五部分中,作者拿“反动军阀”和“猛士”进行了对比。“反动军阀”看似强横,然而它却要依靠八国联军,与它们共同勾结,才能镇压学生的徒手请愿。请愿的学生都是手无寸铁的文弱书生,然而当她们面临危难时,却能在枪林弹雨中互相救助。鲜明的对比之中,勇士大无畏的形象再次展示了出来。
三、借助反复,强化作者的悲愤情感。鲁迅先生作文时,向来惜墨如金,可在本文中,他多处运用反复的修辞手法,从中深化自己的情感。如开头的第一部分中“我觉得有写一点东西的必要了”的这句话,在文中就运用了三次。第一次是承接程君的请求而言的。刘和珍不仅是作者的学生,更是作者志同道合的战友。现在她“为了中国而死了”,作者自然觉得该“写一点东西”来表达自己的哀思的悼念;第二句是针对这“似人非人的世界”而言的,作者要“写一点东西”是为了让人们清醒地知道,“所住的并非人间”,使这似人非人的世界早日到尽头,这才是对烈士最好的纪念;第三句是针对“忘却的救世主快要降临”而言的,即针对“庸人”们而言的。作者要提醒人们,不要忘记烈士的鲜血。可见,这三句话虽然在字面几乎完全相同,但在反复的运用中,意义却在逐层加深,强烈地表达了作者的悲愤情感。倘缺少了反复这一手法,艺术表现力势必削减大半。
与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。
随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。
那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)
以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。
情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。
1 篇章级情感分析
篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。
对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。
例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。
不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。
在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。
2 句子级情感分析
与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。
既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。
但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。
所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。
总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。
句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。
3 属性级情感分析
上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。
为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:
关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。
做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。
具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。
情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。
当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。
但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。
另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。
基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。
第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。
除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。
最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。
构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。
尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。
我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。
首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1
在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。
第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。
当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。
采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。
除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。
随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:
情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)