情感分析(Sentiment Analysis),又称观点挖掘,是对带有情感色彩的主观性文本进行分析、处理和提取,系统地识别、量化和研究情感状态和主观信息的过程。情感分析作为自然语言处理(Natural Language Processing,NLP)领域中的一个子领域,是文本分类的一个分支,而自然语言处理又是人工智能的一个重要子领域。情感分析也与我们的生活息息相关,在我们身边有着很多情感分析的应用,例如在2020年突如其来的疫情持续期间,舆情管理就与应用大数据和人工智能进行情感分析密不可分。
同时今天3月15日,正值每年的国际消费者权益日(World Consumer Rights Day),目的在于扩大消费者权益保护的宣传,在国际范围内更好地保护消费者权益。广大消费者都会对购买过的商品进行评论来表达对商品品质的看法,那么对这些商品评论进行情感分析就可以很直接地了解到人们对商品的判断。
情感分析主要有两种研究方法:基于情感词典以及基于机器学习的研究方法,本文则利用Scratch逐步实现了基于词典的情感分析。学习本课程除了需要掌握基本的Scratch基础外,还需要对Scratch的语句结构有更加深入的理解,且需要更高的逻辑思维能力。
情绪、情感是人们对于某种事物是否符合人的需要和欲望而产生的心理体验,它没有过多的观念思考和认识过程,因而通常被人们理解为是非理性的表现形式。
情绪与情感是两个密切相关的概念。《简明牛津英语词典》从心理学的角度把情绪定义为:“情绪是一种不同于认知或意志上的情感或感情。”显然,当我们运用情绪概念时,它总有一个含义是指个人的、主观的情感。就人脑的活动而言,情绪、情感是同一物质过程的心理形式,是同一件事情的两个侧面或两个着眼点。从这个意义上说,人们往往不加区分的,在同等意义上使用情绪、情感两个概念。
可是,这两个概念仍然有着彼此之间不可置换的内容。
英国哲学家G赖尔指出:“情绪被说成是意识流中的涌浪,有情绪的人,无法避免直接流露出情绪,而对于外在的目击者来说,情绪因此必然是隐秘的。情绪不是发生在公开的物理世界中的事件,而是一些发生在你的或我的秘密的心理世界中的事件。”[1]这是因为,情绪(emotion)是人对客观事物的态度的体验。与认识活动不同,情绪具有独特的主观体验形式(如喜、怒、悲、惧等感受色彩)、外部表现形式(如面部表情),以及独特的生理基础(如皮层下等部位的特定活动)。美国心理学家伊扎德(CIzard)认为,为情绪下定义必须考虑生理基础、表情行为和主观体验等三方面的参数。情绪与有机体的需要相联系,在种族发生上具有明显的生物学适应价值;情绪又是有机体在社会环境中特别是在人际交往中发展起来的,从而又具有很强的社会性。因此,人既具有生物学意义上的情绪体验(如疼痛引起的不愉快情绪),又具有社会文化意义上的高级情绪或社会情操(如道德感、审美感)。情绪影响着人的心理生活的各个方面,而且贯穿着人的一切交往行为。
情感(feeling)一词包括一个“感”字,有感觉、感受之意;还包括一个“情”字,有区别于感觉的感情之解。可见,情感作为一个感情性反映的范畴,着重于表达情绪过程的感受方面,即情绪过程的主观体验方面。美国心理学家普里布拉姆(KPribram)提出,人的体验和感受对正在进行着的认识过程起评价和监督的作用。如果说,情绪侧重于表明情感的过程,侧重于表明情感过程的外部表现及其可测量的方面,那么,情感往往在描述人的高级社会性的活动时加以使用。
情绪与情感都是外部环境刺激与内在生理状况相互复合的过程。从主体系统来说,它们包含三个相互关联的组成成分:神经活动、面部--姿势活动、主观内在体验。并有两个重要的辅助系统:网状激活系统,它放大或减弱情绪;内脏系统,它为情绪、情感准备了场所并维持着它的活动。情绪、情感的一般过程通常是同认知系统和行为行动系统一起按整合的方式起作用,人的具体行为的发生则依赖于三者间的平衡。应当指出,情绪、情感并非是人的单纯心理的体验形式,它的激活与发动,与社会因素密切关联。不同人格的情绪、情感差异,归根到底,是由社会环境造成的。影响情绪、情感产生的社会因素是多方面的,如社会氛围、文化传统、习俗风尚、宗教信仰、政治态度、人际关系、生活条件等。因而,我们应当更多地从社会生活的角度来考察人的情绪、情感问题。
关于情绪--情感的非理性辨认问题,学者之间存在着一定的分歧。多数人对情绪--情感归属于非理性因素不持疑义。但也有人认为,情绪--情感不可完全划归为非理性因素,唯有基于无条件反射的本能的反应,从而产生愉快、愤怒、燥动、拒绝、接受、欲求等种种表现,方可称为非理性。还有人认为,任何一种类型的情感,既不是纯非理性,也不是纯理性,而是理性与非理性的统一。依笔者之浅见,正确辨认此问题之前需要搞清楚两个问题:第一,抽象因素的分析与具体因素的活动应有着两种不同的理解视角。就人的精神系统现实的具体活动而言,任何系统内的要素、因素都是理性与非理性交互作用的统一。我们不可以说,此时此刻人的感情是完全理性的,也不可以说,此时此刻人的感情完全是非理性的。既然如此,又为什么要在理论研究中区分出理性因素和非理性因素呢?我以为,理论的抽象不可缺少知性的分析阶段,即,对对象性的规定确认一定的概念区间,以便使认识达到相对稳定的清晰的状态。就因素本身的定性而言,情绪--情感属于非理性因素,因为它是一种心理体验,没有过多的观念思考和认知过程,与人的生理机制和人的心理机制有关,没有丝毫理性逻辑的成分。就因素的活动而言,它离不开人的认知因素的介入,因为现实人的精神系统是不可在特定的时空条件下,被机械地肢解为某一要素或因素片段的运动,精神系统的活动是极为复杂的,又是系统交感、相互作用的。第二,就是在具体的现实生活中,人的情感有时表现为高级的思维性情感,如审美感、道德感、正义感、崇高感等,也不可把它完全表述为理性情感。尽管这些情感的内容掺杂着理性因素的成分,但其表现形式仍然是非理性的。情感的表现与理性的认知表现毕竟不同。
情绪——情感的非理性特征突出表现为:一是紊乱性。情绪--情感的紊乱是由能量水平极高或极低的行为而引起的。情绪涉及到我们如何感觉和如何向预期的情境去行动。预期可能是积极的,也可能是消极的。如果主体的愿望受阻时,就会出现愤怒或恐惧的情绪,心理学家认为,这种情绪状态必定包含有一种能量水平的变化。兴奋代表一个高的能量水平,抑郁则代表一个低的能量水平。应当指出,情绪--情感的紊乱性不是由于情绪的功能所造成的。因为当能量水平还没有达到情绪状态时,也能发现这种紊乱现象。二是波动性。人的情绪--情感总是处在不断变化的状态中,时而低沉,时而冲动,时而平和,时而暴烈。情绪的波动性主要来自情绪在人的精神系统中充当着最直接的本能反射功能,它是外部刺激所引起的最初的心理感受形式。受纳于人的感官,又通过感官来传递、“消化”和反射外部刺激信号。情绪总是随着外部刺激信号变化而波动,所以,我们在准确的分析和把握主体情绪--情感状态参数时,难度是很大的。三是突发性。由于情绪的变化受外部环镜的影响,故情绪的发动是难以预测的。另外,情绪过程是心理体验过程,一个人可以在同一时间内兼容着几种不同的甚至相反的情绪形式,由于外显的情绪形式总是掩盖着心灵深处所包容的多种方向矢量的情绪内容。一旦该形式被潜在的某种形式所置换时(这种置换往往可在瞬间完成),对于任何他人的记忆来说,这种变化乃是突发性的。经济学家很少关注人的情绪、情感与市场的关系,不少人持有如此的偏见:从情感的角度研究市场主体行为“不过是‘人格化’的方法,这是败坏政治经济学的毒物。实际上,如果我们要在内心的情感的意义上来了解,我们就人格化。在其他科学里,这种人格化是占星学、炼金术、活力论。就是说,占星家、炼金术士、活力论者用他的感觉、意志、智慧、理性--总之,用他的理想的模型--描写自己,而不用观察到的运动,并且向为什么它们这样地动,而不是像天文学家、化学家和生物学家后来所问的那样仅仅问他们怎样地动以及动了多少。”[2]显然,理论家们对经济学方法的理解似乎只限于市场运动的过程描述及其量化方面,至于市场行为主体的自深因素对市场的影响则是微不足道的。
但是,也有少数理论家对情感与市场有着浓厚的兴趣。被法国著名经济学家保罗阿尔布称为“感情经济学”的研究者--莫里斯奥巴迪亚,就曾撰写《不花钱的经济学--关系经济学导论》著作。[3]就理论研究的范式而言,马克斯韦伯似乎更为重视情感与市场行为、情感因素与经济学家研究方法之间的关系。
在韦伯看来,经济学家的研究对象不是一种机械体或有机体,而是人类。这些经济行为人,既是主观的又是受环境支配的。他们的情感、动机、痛苦、快乐等都是主观的,而他们与别人的交易则是受环境支配的。经济研究要了解他们的真实活动,除了测量市场活动本身或者它的结果以外,研究者必须“设身处地”,去研究行为活动主体在特定时空条件下的精神因素,尤其是情感因素。在自然科学里,人们只问“怎样”、“什么”、“多少”这些问题,可是,在经济科学里重要的是了解“为什么”这一问题,因为我们所需要的是了解那发生作用的动机,了解为什么人们那样行动的理由。人们求购商品的行动,在商品多的时侯不如在商品少的时侯那样急切,因为它符合于我们自己在同样情况下情感变化的经验。如果我们要真正了解为什么人们那样行动的理由,所必须研究的正是这种情感的作用。经济学应建立在对人的情感作用分析的基础上。这是一种经济学家必备的“历史意识”:要着手研究,只有造成一种心像,不仅显示人们怎样行动,而且显示他们在所选择的特殊情况下为什么这样行动。只有这种“历史的意识”,方能解释市场行为者的经济行为,不仅是过去的行为,而且是在和他自己不同的情况下的行为。我们不可能把自己放在一个机械或者有机体的地位,来了解为什么那样的行动,因为它缺乏像我们自己的情感。韦伯如此重视人的情感因素,原因在于他把人的基本行为取向划分为四种类型:目的理性(purposively rational)行为、价值理性(value rational)行为、情感性的(affectional)行为、传统型的(traditional)行为。[4]所谓情感性的行为是指行为在某种感情状态的波动下发动的。位于有意识行为与无意识行为的边界中。在韦伯看来,情感性的行为和传统型的行为不过是理念型的一种解释图式,旨在说明:透过理性类型的应用,需要测算出非理性的偏离程度,以达成对社会的最佳分析。
美国经济学家乔治考托瑙,[5]致力于对市场消费行为的研究,他受格式塔心理学行为模式,尤其是库尔特莱温解释的行为模式的影响,提出了“消费者感情指标”这一理论。他认为,市场行为作为生活空间的功能,他是由人格和环境的相互作用决定的(C=F(P,S))。在他看来,市场购买行为不仅取决于经济形势、可使用的资金和购买者的财力,而且取决于他的心理情绪、他对形势的感情,这些构成了经济人格的特点。这种感情(乐观主义或悲观主义)是大部分人都有的,它影响着人们的购物、储蓄或投资的决策。为了获取消费者的期望,用韦尔纳利德的话说也就是“对未来事物的带有情感色彩的主观观念”,考托瑙根据汇集技术制定了消费者的感情指标。他是在大量的市场调查的基础上完成的。其调查表共设8个项目,每个项目后面都有一个问题,要回答:“为什么?”调查要求被询问者指出:他是否认为一年来自己的情况已有所改善,是否认为明年乃至5年后自己的情况将会发生进一步好转,是否认为当下购买某商品是适时的。对调查结果的计算,考托瑙尽可能将情感的消费态度算术符号化,如用(++;或=+;或-+)表示消费者的乐观情绪,用(+-;=-;甚至--)表示悲观情绪,用(+=;==)表示谨慎态度。百分率是根据答案的总数计算的,因此有助于更好地从市场调查对象所处的形势中来了解他的消费个性。有材料表明,人们在10年中所作的统计似乎已证实了这样一种想法:这些情感指标的主观取向支配着具体的市场行为,只要在时间上6个月至1年,就能作出预测:在1973至1974年间和1978至1980年间,早在汽车销售量下跌以前,消费者的感情指标就已出现了下跌。正如下图考托瑙1981年制定的消费者的感情指标所表明的那样,消费者的感情指标的变化是和美国30年来出现的经济衰退一致的。因此,有些经济学家认为,考托瑙的感情指标的图式可以作为表示市场商业周期中出现变化的报警器。
类似于马克斯韦伯、考托瑙的有价值的观点还可以引述一些,如西蒙的现代决策理论中“直觉与情感”的论述,梅奥的“社会人假设”理论中的“情绪”概念,道格拉斯麦葛瑞哥的“理性人和情绪人”的论述等等,笔者在此不在一一赘述。下面就情绪--情感与市场行为者的关系、情绪——情感在市场运行过程中的作用以及当前我国初级市场发育时期情绪——情感影响力的评估等问题展开进一步的讨论。
1.情绪——情感与市场行为者的关系
这个问题涉及到市场的人性问题,也是行为的情绪方面的特性问题。经济学家、哲学家休谟,在《人性论》第二卷“论情感”中曾深刻地揭示了经济行为者为什么不断追随财富积累的人性原因。他说:“财富的本质就在于获得生活中的快乐和舒适的能力。这种能力的本质在于它的发挥的概然性,在于它使我们借一种真的或假的推理去预期那种快乐的真正存在。这种快乐的预期本身就是一种很大的快乐;这种快乐的原因既然是我们享有的,并因而是与我们有关系的某种所有物或财产,所以我们在这里就清楚地看到前面体系的所有各个部分(指人性的心灵知觉中情绪情感的诸表现形式--引者注)都极为精确而明晰地在我们面前展现出来了。”[6]休谟实际上已明白地指出人类追逐财富的原因之一恰恰在于人性中存在着不可泯灭的情绪、情感因素的作用。
情绪——情感成分从市场行为者的角度来说,乃是行为人对态度对象的感受、体验和心情,是对象引起的主体在感情上的反应。厂商对生产某一产品项目的选择、投资者对某一投资对象的定位、营销者对某一商品牌号的推广、消费者持有某一消费品的观念等等,都离不开他们各自对对象存在的一种情感的态度。在市场上,各种媒体所传播的广告作用,实际上就是给予消费者、投资者、营销者对某商品或某项目的感受和心情上的导向。态度对象刺激了主体,使人们获得情感体验:喜好或厌恶、尊敬或蔑视、热爱或仇恨、同情或冷漠等等。它是人们市场决策的一个首要组成部分,也会激励市场行为者的各种动机和兴趣。情绪--情感成分表明市场行为者对市场运作客体的喜欢或厌恶有着一定的强度和方向。如果情感是反映一种积极的感觉,就可能导致消费者、投资者、营销者的良好反应,而若反映的是一种消极的感情,则于生产商会产生十分不利的影响。因此,了解市场行为者的情绪(既有个体情绪又有群体情绪),将会为市场的运作目标和趋势的测定,提供十分重要的意义。
在市场上,我们很难区分出两类人:一类似乎是“理性人”,是能运用逻辑推理,信息完备、善于准确计算,能够推演出纯粹客观的结论的人。另一类是“情绪人”(emotional person),是缺少理智、感情冲动、蔑视事实,而且具有高度偏见的人。事实上,任何一个市场行为者都不可能绝对地把自身划分为“理性人”或“情绪人。”有人说,人的理性信念完全可以消除人的情感因素,当你在作出市场决策时,只要你奉守如此原则:“让我们不要把个人因素带进问题里去”,“让我们只考虑事实吧”,“让我们冷静下来,客观的考虑这个问题”。那么,你就能消除心理上的恐惧、意愿、焦虑、敌意和侵犯等等因素对自身思想和行为的影响。
但是,这种作法受到了心理学和行为科学理论的挑战。
研究者们认为,人的行为,不管他是在思想、在分析、在推理,还是在与他人作交易、从事商务谈判,总免不了要受到情绪--情感因素的影响。心理学家麦独孤指出,所有有目的的行为都是由人的复杂情感来决定的。达菲对此作出进一步解释:所有的行为都是有动机的,没有动机就没有行动,而情绪就代表着极端的动机--能量。美国学者PT扬(Yang PT)指出:人的行为不可能离开人的感情,当有机体趋向于行动时,就有一个积极的中枢感情过程在工作。感情过程的作用是产生动机并影响行为。人的行为发生实际上遵循着如此原理:一是刺激引起感情和感觉。二是感情的唤醒使有机体接近或离开刺激。三是感情过程导致动机。四是动机的强度与感情的各个方面有关(如持续性、强度、频率和新鲜性)。五是感情过程靠影响选择而发挥着调节作用。六是从积极感情的激活到消极感情的激活的组织模式是广范围的神经行为模式本身所遵循的最终原则。
从消费行为学角度来分析,情绪--情感是消费者对某一对象商品所持有的评价与行为倾向,是个人行为的心理准备状态。如果消费者能从购买某种商品中得到一定需要的满足,对该商品评价较高,有一种积极购买的行为倾向,这就是消费者对商品的消费情感,商品就是情感的对象。情感作为个人行为的心理准备状态是一种内在的心理动力,激活着个人采取与之相适应的行为,作用于对象。行为学家费希宾曾提出多属性态度--情感模式,明晰地揭示了情感与行为的内在关系。见下图:
注:—— 影响-------- 反馈
在费希宾看来,消费者对商品的情感(态度),是以对此种商品的信念为基础,又有消费者进行各种行为的意向有关,而消费者的各个意向也与其对应的行为有关系。反过来,消费者的行为反馈于消费者的信念,而且一旦形成对商品的一种情感(态度),又将作用于新的信念的形成。 费希宾还进一步对消费者的情感(态度)提出了如下公式:
N
Ab=∑WiBib
i=1
其中:Ab=消费者对特定牌号b的情感(态度)
Wi=消费者认为该牌号所具有属性i的重要程度
Bib=消费者对牌号b的属性i所持有的评价性信念
N=消费者选择某一特定牌号所考虑的重要属性的数目
费希宾模式告示我们:人的情绪反应,虽然有时处于不自觉状态,但是却对人的行为极有关联。人的外显行为离不开个人的意向作用,而个人意向又直接受消费者情感(态度)的驱动。没有情感的存在,便没有人的消费行为。
需要指出的是,情感对人的市场行为支配作用,并不是“独来独往”,不受任何理性约束和控制的。费希宾的模式,一方面强调了人的情感因素对外显行为的影响,另一方面,他并没有把感情因素视为行为驱动的最终因素,人的情感态度还要取决于信念的支配。信念往往以目的、动机的形式贯穿在人们的实践活动中,并与情感、意志相结合,形成一种稳定的观念意识支配人们的行动。众所周知,人的信念说到底,不过是人们对理性认识和实践行为的正确性的内在确信。理性不可等同于信念,但理性在信念中有着很重要的地位。强调理性不能取消行为决策的感情因素,并不等于理性对感情因素没有制控功能。实际上,市场行为者还是能够通过掌握市场的理性逻辑来调控人的情绪和情感,从而达到对行为的制控作用。这种过程是发现情感的存在和减轻理性决策途径中情绪障碍的过程,也是变消极情感为积极情感的转换过程。在证券交易所,政府有责任通过交易的理性原则来调控交易者波动起伏的不健康的交易情绪,从而保持积极的投资情绪以便产生规范的交易行为。通常说来,市场运作的规范机制要求所有参与市场竞争或从事消费行为的人尽可能的压制或弱化的情绪有:敌对的情绪、对抗的情绪、阻抗的情绪、反竞争的情绪、蔑视的情绪、不合作情绪、不忠实的情绪、背信弃义的的情绪等。此外,还有与心理有关的情绪力量:如狠恶、自私、不成熟和不合理性的行为等等。
2.情绪--情感在市场运行过程中的作用
其一,情绪--情感可以影响和调节市场的认知过程。
市场信息总是通过市场行为者的知觉和记忆来进行选择和加工的。情绪--情感是一种监测机构,随时都在注意着信息的流动。它能促进或阻止市场行为的发生、市场运作的过程。这是因为情绪--情感体验所构成的恒常心理或当下的心理环境,都对市场的信息加工起组织与协调作用。按照情绪--情感的适应性而言,它协助市场行为者选择信息与环境相适应,并驾驭行为去改变环境。当投资者在各种条件已基本成熟时,他的良好心情有可能带来良好的投资心态。良好的心情与良好的外部形象相配合,使他人对投资方的信任度大大增加,缩短由于陌生感而带来的心理距离,有助于合作意识的强化。在项目决策时,往往能达到思路开阔,思维敏捷、决策果断的效果。当投资者心情处于极度恐惧、郁闷和低沉时,它的投资心态往往是十分糟糕的。有可能在投资谈判时,对细支末节问题过于钻牛角尖,人为制造障碍,甚至导致谈判的中断,不利于项目的成功。当然,思路阻塞、操作迟缓的反效果就很明显。“恐惧”一词在此仅指对亏损的恐惧,假如投资者过分担心投资额的回报率,那么,亏损的恐惧感往往影响投资者的行情分析和理智判断,结果,往往是“当断不断,反为祸乱”。
当投资者心情处于过分冲动并达到激情状态时,往往易出现反常态思维或反常态行为。一方面,激情有助于冲破思维惰性,拓宽投资意向的空间和压缩投资决策的时间,有助于在较短的时间内调动一切参与市场投资的积极因素,排除投资环境和投资条件中某些障碍,持久而炽热的激情甚至能激发足够的能量去完成预期投资工程。另一方面,冲动的情绪也极易带来决策的不冷静、计算上的粗糙、操作上的失误和风险系数加大。
其二,情绪--情感可以协调市场交往和人际关系,提高经济人的工作效率。在市场经济中,人与人的关系、物质与精神的关系是极为复杂和多样的。而情绪--情感,在人们的市场活动中又经常处于极为敏感的前沿地位,情绪因素对于协调人与物、人与人的关系,有着很重要的心理作用。众所周知,市场行为者总是带着一定情绪与其他经济人进行交往的。情绪是主体的基本生存状态,没有情绪的主体间交往是不存在的。主体的情绪正是通过对其交往效果的影响而间接地影响着自身参与市场竞争的能力。从心理学的角度而言,交往首先是语言交际的存在,然而,情绪对于交往的作用一点不亚于语言。它们相辅相成,缺一不可。情绪--情感总是通过表情的中介作用来达到人们彼此之间的相互了解和彼此沟通的效果。它可以为经济人建立相互协作的感情纽带,并及时传递着彼此知晓的市场信息。还可以为经济人去辨认当下所处的不十分明确的市场环境和交易人的态度。人们也常说,情绪--情感是“润滑剂”,做生意讲究“一回生、二回熟”就是这个道理。对于厂商来说,注意从情绪--情感方面协调企业与职工、职工与职工之间的人际关系,有助于生产效率的提高。在企业里,情绪——情感就是职工作为人所得到的满足程度的一个函数。满足程度越高,职工情绪就越高,情绪越高,生产效率就越高。职工的满足度依存于两个因素:一是职工个人情况,即职工由于其个人历史、家庭生活和社会生活所形成的个人态度和情绪;二是作业环境情况,即职工通过与自己共处作业环境中同伴和上级的接触而形成的情感氛围、人际关系的影响。一位称职的现代企业管理者,应当具备两种技能:技术——经济的技能和人际关系的技能。前者是企业效率逻辑,后者是满足职工感情逻辑。学会情绪--情感逻辑的技巧,可以在正式组织的经济需求同非正式组织的社会需求之间保持平衡。平衡在一定条件下是取得高效率的关键。职工通过社会机构来取得别人的承认、安全感和满足感,从而自愿为实现企业目标而合作。学会情绪--情感逻辑的技巧,就使缩短厂商的最大化目标与企业职工最大化目标之间的视角距离成为可能。
其三,情绪——情感对市场行为者的认知动力、价值取向、对象性选择有着重要的影响。首先,情绪——情感可以通过放大或弱化主体的需要来影响场行为者的认知动力。经济人的活动总是受自身的需要所驱使,然而,人的需要总是在一定情绪状态中产生和变化的。在情绪中产生和变化的需要不可避免地要受到当时情绪的影响。九十年代的中国大陆,股票热、债券热、房地产热、土地批租热、期货热、外汇热等等,一个接着一个,在众多的投资者中,有人一年内改换了几种投资形式,其需要形式的改变与波动身起伏的市场投资情绪的影响密切相关。现代心理学研究表明,当主体在某种需要的驱使下去从事某一对象的认识活动时,如果其需
近年来,微博已经成为全球最受欢迎的网络应用之一,微博的快速发展使其显示出了巨大的社会价值和商业价值,人们逐渐习惯在以微博为代表的社交网络上获取、交流信息与表达情感。文本情感倾向性分析主要关注以文本方式存在的信息中的情感倾向,当庞大的数据量使得它无法手动对它们进行分析时,情感分析就开始发挥作用了。情感分析在英文世界一直是一个被广泛研究的领域,而中文情感分析的研究仍处于起步阶段,大部分工作已通过尝试被证明是适用于英文的。 首先,本文总结分析了文本倾向性分析的基本概念与算法模型,在此基础上,将心理学中的PAD情感模型引入,结合知网提供的语义相似度计算方法,提出了一种使用给定基础情感词汇与其对应PAD值计算词汇的PAD值的方法,并以此构建了一个基于PAD情感模型的情感词典。其次,本文将问题扩展到中文的文本倾向性分析研究中,提出了一种结合统计信息与语义信息的权重计算方法,通过该方法,在一定程度上消除特征歧义对于分类器的影响,使得特征的权重更贴合文本的语义,分类的效果更好。最后,本文综合中文微博文本分析研究现状,分析了现有的文本表示模型,结合机器学习中的支持向量机算法,提出了基于PAD情感语义特征的支持向量机分类方法。 实验结果表明,基于支持向量机的分类算法的效果好于k最近邻节点算法的效果。同时,本文提出的基于PAD情感语义特征的支持向量机分类方法都能够取得比较实用的效果,并对普通的支持向量机方法效果有着显著的改进。
语言有三种主要的 功能(用法) :
① 信息(逻辑) 性的:旨在表达信息,这是 推理 时主要关注的语言功能;
② 表达 性的:没有表达信息的目的,但有的也有信息内容,如态度或信念;
③ 指令 性的:旨在引导或命令,可能有信息要素;
此外不甚普遍的还有:
④ 礼节性 语言:结合了表达和其他功能,如“你好”;
⑤ 述行 语言:这类语词在被言说或写出时,就已履行了它所宣称的功能(“所言即所为”),如“祝贺你……”“我接受你的建议……”“我答应你……”。
上述语言的不同用法是通过不同的 语法形式 达到的。语言的语法形式本质上有四种: 陈述句 、 感叹句 、 祈使句 或 疑问句 。但是 功能和形式之间没有严格的联系 ,反问句也可以断定前提,疑问句也可以表达态度(“你什么意思?”),陈述句也能起到指令功能(“要迟到了。”)。这是由语言的不精确性与其用法的多变性导致的。因此,要确定一个句子的真正功能, 语境 起到至关重要的作用。
在信息性的语言功能中,应当区分 句子所构成的事实 和 关于说话者的事实 。除了可能为真的陈述本身外,句子同时也是做出断言的人持有该 信念 的证据。
多种语言功能的结合在某些情况下并不合适,其中的冲突甚至会产生令人不安的争议。
对语言的灵活性保持敏感,辨别给定情境中语言的不同功用,都是逻辑分析的必要先行步骤。
用于传达 信念 的语词可能是中立和精确的,但却可能会(纯粹偶然地或精心设计地)影响听者的情绪。通常由某些语词引起的负面态度导致了 委婉语 的出现及其对相应传统语词的替代,即以温和的词汇表达冷峻的现实。
涉及人类生殖和排泄的医学词汇是中立且无侮辱意味的,但它们的粗话同义词却使人不快。因为此类脏话有明显区别于其 字面意义 、让人无法接受的 情感意义 。
带情感色彩的语言在某些情境中是合适的(如诗歌),但在其他场合则非常不适当(如调查问卷)。情感语言将削弱报道的客观性,产生偏见色彩。然而,有时候避免某些情感内容几乎是不可能的。在逻辑上,我们一般追求的是尽可能没有被情感意义 扭曲 的语言,即中立性的语言。
防御语言诡计的最好方式就是理清我们所面对语言的真正 用法 ,防备那些用语言颠倒黑白的人。
论争 可能是关于 信念 的或关于 态度 的,分别是事实上的和情感上的 歧见 。这二者的不确定性及其可能带来的混淆,可能因为论争中所使用语言有大相径庭的情感意义而起。许多情况下,对事件或可能结果之态度上的论争源于对相关事实信念上的歧见。
解决论争非常重要的一点即 明确论争的真正问题所在 ,若在于事实则需客观地确定它们,若在于情感则仅就事实达成一致不足以解决。只有确认论争的真正本质,明确论争双方所用语言的不同功能后才可能解决歧见。
论争可分为三种:
① 明显的实质论争 :论争双方的歧见可能在态度上,也可能在信念上;
② 纯粹的言辞之争 :所用的词项可能有多个意思(即它们可能是 含混的 ),不存在实质的歧见,通过统一对某些词汇或短语的理解就能解决;
(然而如果在形而上的层面考量“声音”,似乎也可认为是信念的实质论争,下述两种对“声音”的理解实际上是不同的信念,类似的还有“自由意志”;而且“理解”本身就可包含关于词项的事实:“红是红”和“红是绿”是哪种论争?)
③ 表面上是言辞的但实际上是实质的 :这种论争更为复杂,其中包括对词项用法的误解,但将言辞的误解澄清之后,仍然存在超出语词含义的歧见。
对有露骨性活动镜头的影片是否应该作为“色情作品”来处理?J认为它的露骨使它成了邪恶的色情作品;K则坚持,考虑到其细腻的情感和美学价值,它是真正的艺术而非色情作品。
如果在交流中面对论争,我们必须首先追问其中是否存在可以通过澄清多种意义而消除的 含混性 。如果有,我们必须追问是否消除这一问题就能解决论争。如果能,该论争就是纯粹言辞上的。如果不能,该论争就是以纯粹言辞论争面貌出现的实质论争。
定义总是对 符号 (如“椅子”一词)而非对象(如椅子本身)的定义,只有符号具有定义能够说明的意义。
被定义的符号称为 被定义项 (definiendum);用来说明被定义项的符号或符号串称为 定义项 (definiens),它不是被定义项的意义而是与被定义项意义相同的符号或一组符号。
基于被使用的方式(主要功能),定义可分为五种:①规定定义,②词典定义,③精确定义,④理论定义,⑤说服定义。有的定义具有不止一种功能,如规定与说服合并、词典与精确合并等,语境在此也很关键。
规定定义 (stipulative definition),又称 名义 (nominal)定义,是将意义 指派 给某符号的定义,或规定老的词项在新的语境中的意义的定义。例如,将10²¹命名为泽它,10²⁴命名为尧它。
规定定义 既非真也非假 。被定义项在此前不具有那种意义,这种意义是定义的结果而非定义所断定的事实,因此其定义过程不能被看做被定义项与定义项具有 相同 意义的陈述或报道。规定定义应被视为 以被定义项意指定义项 的建议、方案、请求或指令,因而可能被拒绝,在这种意义下它是 指令性 的而非信息性的。
引入规定定义的主要目的是方便、保密、使表达更为经济。
科学中,有些规定定义的引入是为了避免熟悉词项之情感牵连对研究者的干扰,例如,在现代心理学中,斯皮尔曼的“g因子”旨在传达与“智力”相同的描述意义,但不具有它的任何情感意义。引入引人注目的新词项也可以给研究增添兴致和情趣,如以“黑洞”替换“引力完全崩溃的星体”,(默里·盖尔曼)以“夸克”命名一种亚原子粒子。皮尔士将自己的哲学称为实用主义(pragmatism),声称这个词丑陋得没有人愿意盗用它。
词典定义 (lexical definition)是报告被定义项已经具有的意义的定义,目的是解释词项的固定用法或消除歧义。由于活语言的变动性,词典定义可能真实或虚假地描述了实际用法,因而 或真或假 。例如,"bird(鸟)"意指有羽毛的温血脊椎动物的定义为真,而指两足哺乳动物的定义为假。语词使用中的错误就是对这些词的用法的错误报道。
词典定义的被定义项的确有一个先在的和独立的意义,这与规定定义有重要不同。定义是规定定义或是词典定义与被定义项是否指称某个“真实的”或存在的事物无关。
词汇的用法是 统计问题 ,不可避免地要服从统计变化。定义报道的意义仅仅是被某些学术贵族接受但可能过时的意义。词典定义不能忽视某种语言的大量使用者对词项的使用方式。词典编纂者眼中的词语的“最好”用法,是由符合这一用法的杰出作家或说者的数量衡量的。好的词典应指明“陈旧(过时)的”和“口头(俚语)的”词项意义。
精确定义 (precising definition)是用于消除歧义或模糊性的定义。如果一个词项具有多个不同意义,且在特定语境中要表述的意义并不清楚,那么这个词项在该语境中是 歧义的 。如果存在临界状况(词项意义的边缘地带),但不能确定词项是否适用该状况,那么该词项是 模糊的 , 所有 词项都有一定程度的模糊性。一个词项或短语可以既是歧义的又是模糊的,如“诽谤”和“言论自由”。
科学中度量单位的模糊性是一个严重的问题,其精确化,如以“光在299792458分之一秒内穿过的距离”代替“地球的一极到赤道距离的一千万分之一”和一根铂铱合金制金属条上的一对印痕作为“米”的定义,以及“马力”的精确定义,是极为重要的。对商业而言,术语的精确定义对厂商确认生产标准是有必要的。法律条文也是如此,立法机关常为新法律做一个称作“定义”的前言部分。
精确定义不同于规定定义之处在于被定义项不是新词语,其用法虽模糊却是固定的。因此,精确定义的制定者必须尽可能 保持 固定用法,使已经为人所知的词项更加精确;同时,为减少被定义项的模糊性,必须 超出 这一固定用法,具体的超出方式可能完全是 规定定义 的问题(如“米”的精确定义,此单位原本不具有这一意义)。法律界在提供规定定义以超出固定用法后,通常还会为引入的限制条件给出理由。
在科学和哲学中,定义通常是某些理论的摘要或概括。
理论定义 (theoretical definition)是旨在追求对相关理论的全面把握,既能容纳老发现又能容纳新发现,同时还能对整个系统保持一个完全明确和一致说明的定义。例如,“行星”最初定义为在环绕太阳的轨道上运行的天体,但随着许多大于木星、形状奇特的天体被发现环绕太阳运行,有必要为适应相关理论而修正“行星”的定义;哲学方面,柏拉图的“正义”、斯宾诺莎的“自由”与“束缚”的定义并非旨在审查词的使用或排除模棱两可,而是描述的需要。
理论定义是我们对某领域全面了解的产物。“权利”、“民主”等词的理论定义的需求是非常迫切的。
说服定义 (persuasive definition)是旨在通过影响态度或激发情感以解决争论的定义,其中具有明显的情感语言的操作意图。
定义表明词项的 意义 (meaning),词项的意义又有不同的含义(sense)。含义的不同表明了定义的分类和理解不仅能基于其用法(见34)达到,还能通过定义的 结构 即建立方式达到。
普遍词项(类词项) 是可以运用于多个对象的类(class)的词项,如“行星”。普遍词项的 外延 由它正确适用的对象构成, 外延意义(指谓意义) 是构成词项外延的对象的汇集。普遍词项的 内涵 是其指谓的所有对象且 仅 那些对象共有的属性集, 内涵意义 设定了决定任一对象是否属于该词项外延的标准。定义对普遍词项的处理方式有以上两种,它们各有利弊。
每个普遍词项都既有一个内涵意义又有一个外延意义,内涵 决定 其外延,但外延 不决定 其内涵,如“等边三角形”和“等角三角形”。词项可能内涵不同而外延相同,但不可能外延不同而内涵相同。为词项的内涵添加性质时,称其内涵 增加 了。同时,其外延的变化是 非递增 的。也就是说,如果外延变化,那么它们将沿着内涵的反向变化。
有些词项的外延是 空的 ,其所指属性的对象不存在,如神话中的怪物。“上帝”一词存在内涵,因而不是无意义的,但不能得出:一个具有内涵的词项,其内涵一定指谓一个存在物。 意义 与 所指 (referent)是不同的,许多有内涵的词项都不存在所指,没有外延,但它们却是很有价值的。
指称性定义 ,即指认或描述被定义的词项所指称的对象,采用的方法是指出被定义的术语的外延,其中最明显的方法是指出词项所指称的对象。该方法非常有效,却有严重的局限。
完全列举出一个类中的所有对象通常是不可能的,即使能,由此得出的外延定义也不能使它与另一个指谓同样对象的词项区分开来,因为内涵不同的词项可以有相同的外延。指称性定义常被限制在对所指对象的部分列举,使得普遍词项的意义仍非常不确定。我们可能将元素分组后列举组名来克服这一问题,即通过 子类 定义以做到完全列举,但这并未充分地刻画词项意义。
任何给定对象都具有许多性质而被包括在许多普遍词项的外延中,因而通过部分列举不能在具有不同外延的词项之间做出区分。
指称性定义还可以通过指着被定义的对象来定义,称为 实指定义 或 示范定义 ,如在提出“X这个词意指这个”时伴随着用手指指向X这一物体的姿势。实指定义除前面提到的局限性外,也有自身的特殊局限性:姿势受到地域的局限,且有不可避免的歧义。这种歧义有时可通过给定义项增加描述性短语而解决,其结果称为 准实指定义 ,但这假设了人们对所附加短语的事先理解,使实指定义的宗旨难以达到。实指定义被某些人视为“基本”或“原初”定义,意即我们最初都是凭借这种方式理解词项意义的。但事实上我们对语言的最初学习是通过观察和模仿而非定义。此外,所有实指定义都 无法 定义没有外延的词项。
显然, 内涵是定义真正的关键 。
“内涵(intention)”一词有时被“含意(connotation)”取代,内涵定义(intentional definition)即connotative definition。但日常英语中connotation指其全部意义,除信息性意义外还包括情感上的意义和描述性意义,这二者并非我们关注的。
内涵有三种不同含义。 主观内涵 是某人认为词项指谓对象所具有的属性集,因人而异,对同一个人也因时而异,无法达到定义的目的,是私人解释而非公共意义。 客观内涵 是词项外延的所有对象共有的属性 全集 ,但没有人能具有对属性的全知,因而客观内涵不是我们所追求的公共意义的解释。
词项之所以具有稳定的意义,是因为我们同意在决定对象是否属于某词项外延时使用同样的标准,这种标准通过规约确定,称为 规约内涵 ,它既不是主观的也不是客观的。就定义之目的而言,这是内涵最重要的含义,它既是公共的,也不为使用它而要求全知。实际上,“内涵”一词通常指规约内涵。
用内涵定义语词的常用方法有如下几种。
同义定义 是提供另一个意义已经被理解的词(称为同义词),且它与被定义的词具有相同的意义。人们学习外语词汇要依赖同义定义。它容易、方便且实用,但有很大局限性。很多词汇没有真正的同义词,因而同义定义常不够完全精确并引人误解,语言之间的 翻译 通常无法忠于原本,意大利谚语“ 翻译者就是篡改者 ”就基于这种认识。更严重的局限是:当寻求定义的词表示的概念完全是外来的和令人费解的,那么其任何简单的同义词都将像它一样令人费解,因此同义词在寻求理论定义或精确定义时不可能满足要求。
操作定义 是通过把被定义项与一组可描述的动作或操作联系在一起来解释语词的内涵,就是指这个词项被正确地运用到某个给定场合,当且仅当在那个场合中特有的操作行为会产生特有结果。操作定义中仅仅涉及公共的可重复的操作。长度、空间、时间、感觉和心灵(通过行为或心理学的观察)等可采用这种定义方式。
属加种差定义 是适用范围最广、最常用的词项定义方法,是对普遍词项的内涵最重要的一种使用,详见36。
属性通常具有复杂性和可分析性,可用于定义 类 。具有多个元素的类可将其元素分为 子类 ;其中的类是 属 ,而子类是 种 ,属和种在逻辑学中是 相对 术语,区别于生物学中的严格术语。给定属的所有元素都有某些共同特征,而其种(子类)的所有元素都有更进一步的、不为任何其他子类的元素所共享的共同属性,使不同的种区分开来,这种属性称为 种差 。
属加种差定义包含两步:①找出包括被定义种的 属 ;②找出将被定义种的元素与该属其他所有种的元素区分开来的 种差 。例:“质数”是仅能为它自己或1整除(种差)的大于1的自然数(属)。
属加种差定义非常有用,但有两种局限性。首先,这种方法仅适用于暗含复杂属性的词汇,而不适用于简单得 不可再分析 的属性,但这种属性是否存在尚无定论。其次,表达“大全(universal)”性质的词汇不能如此定义,如存在、本体、存在物、客体、物质和性质等指称形而上学的最终范畴的词汇,大全类(universal class)是最高的类,或称 最高的属 。但从实际运用角度看这些局限性不很重要。
对属加种差定义的评价,特别是用于词典定义时,运用的五条规则如下。
定义应当揭示种的本质属性 。客观内涵中的部分性质不宜作为定义,定义应表明被定义项的规约内涵。规约内涵不必是事物的形状、质地等内部特征,而可能与事物的起源(斯特拉迪瓦里小提琴)、用法(鞋子)或与其他事物的关系(参议员)有关。不能排他性地定义词汇。
定义不能循环 。定义中不能包含被定义项本身、被定义项的同义词或反义词。若人们可以理解同义词或反义词,则只需使用同义定义而无需使用属加种差定义;若不能理解,则定义不能达到解释的目的。
定义既不能过宽又不能过窄 。这一规则容易理解但难以做到,但若完全遵守第一条规则则本规则也得到遵守,因为词项的规约内涵既不过宽也不过窄。
定义不能用歧义的、晦涩的或比喻的语言来表述 。晦涩是相对的,但把晦涩语言用在非技术性定义问题上,用更加不清的东西解释未知事物,往往徒劳无功;比喻性语言能表达对被定义项的“情感”,但不能给出清楚解释。
定义在可以用肯定定义的地方就不应当用否定定义 。定义需指出被定义项有的属性而不是没有的属性,但有的词项本质上的意义是否定的,此时要求否定定义:首先肯定地提出属,再通过排除属中所有其他的种而给出那个种的否定特征。有时肯定定义与否定定义同样有用,但前者可能更好地揭示种的本质属性。
内涵性定义,尤其是属加种差定义,能帮助消除歧义性、减少模糊性、给出理论的解释,甚至影响态度,通常还被用来增加或丰富其接收者的词汇量。就大多数目的来说,内涵定义在很大程度上优于外延定义,而内涵定义中属加种差定义通常最有效力也最有助益。
豆瓣网文本评论的情感分析论文多。因为豆瓣网是一个内容丰富的文化社区,用户在这里可以发表对**、书籍、音乐等内容的评论和评分,这些评论数据对情感分析研究来说是非常有价值的。在学术界和工业界,已经有很多研究者和公司使用豆瓣网的评论数据进行情感分析研究和应用开发。这些研究涵盖了各种情感分析算法和技术,如基于词典的情感分析、基于机器学习的情感分析、基于深度学习的情感分析等。同时,也有很多论文对豆瓣网评论数据进行了情感分析,这些论文主要关注情感分析算法的优化和应用场景的拓展。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)