情感分析之TF-IDF算法

情感分析之TF-IDF算法,第1张

http://minieastdaycom/bdmip/180414224336264html

在这篇文章中,主要介绍的内容有:

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

文本的预处理和分词。

如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。

注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量

通过countvocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。

注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,

1元组:"the"、"weather"、"is"、"sweet"。

2元组:"the weather"、"weather is"、"is sweet"。

在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。

sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。

词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下

其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。

注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。

d、计算tf-idf

所以,第一个句子的tf-idf特征向量为[0,1,129,129,0,1,0]

e、tf-idf的L2归一化

人的情感复杂多样,可以从不同的观察角度进行分类。由于情感的核心内容是价值,人的情感主要应该根据它所反映的价值关系的运动与变化的不同特点进行分类。

1、根据价值的正负变化方向的不同,情感可分为

正向情感与负向情感。正向情感是人对正向价值

的增加或负向价值的减少所产生的情感,如愉快

、信任、感激、庆幸等;负向情感是人对正向价

值的减少或负向价值的增加所产生的情感,如痛

苦、鄙视、仇恨、嫉妒等。

2、根据价值的强度和持续时间的不同,情感可分

为心境、热情与激情。心境是指强度较低但持续

时间较长的情感,它是一种微弱、平静而持久的

情感,如绵绵柔情、闷闷不乐、耿耿于怀等;热

情是指强度较高但持续时间较短的情感,它是一

种强有力、稳定而深厚的情感,如兴高采烈、欢

欣鼓舞、孜孜不倦等;激情是指强度很高但持续

时间很短的情感,它是一种猛烈、迅速爆发、短

暂的情感,如狂喜、愤怒、恐惧、绝望等。

3、根据价值的主导变量的不同,情感可分为欲望

、情绪与感情。当主导变量是人的品质特性时候

,人对事物所产生的情感就是欲望;当主导变量

是环境的品质特性时,人对事物所产生的情感就

就是情绪;当主导变量是事物的品质特性时,人

对事物所产生的情感就是感情。

4、根据价值主体的类型的不同,情感可分为个人

情感、集体情感和社会情感。个人情感是指个人

对事物所产生的情感;集体情感是指集体成员对

事物所产生的合成情感,阶级情感是一种典型的

集体情感;社会情感是指社会成员对事物所产生

的合成情感,民族情感是一种典型的社会情感。

5、根据事物基本价值类型的不同,情感可分为真

假感、善恶感和美丑感三种。真假感是人对思维

性事物(如知识、思维方式等)所产生的情感;

善恶感是人对行为性事物(如行为、行为规范等

)所产生的情感;美丑感是人对生理性事物(如

生活资料、生产资料等)所产生的情感。

6、根据价值的目标指向的不同,情感可分为对物

情感、对人情感、对己情感和对特殊事物情感等

四大类。对物情感包括喜欢、厌烦等;对人情感

包括仇恨、嫉妒、爱戴等;对己情感包括自卑感

、自豪感等。

7、根据价值的作用时期的不同,情感可分为追朔

性情感、现实性情感和期望性情感。追朔性情感

是指人对过去事物的情感,包括遗憾、庆幸、怀

念等;现实性情感是指人对现实事物的情感;期

望性情感是指人对未来事物的情感,包括自信、

信任、绝望、期待等。

8、根据价值的动态变化的特点,可分为确定性情

感、概率性情感。确定性情感是指人对价值确定

性事物的情感;概率性情感是指人对价值不确定

性事物的情感,包括迷茫感、神秘感等。

9、根据价值的层次的不同,情感可分为温饱类、

安全与健康类、人尊与自尊类和自我实现类情感

四大类。温饱类情感包括酸、甜、苦、辣、热、

冷、饿、渴、疼、痒、闷等;安全与健康类情感

包括舒适感、安逸感、快活感、恐惧感、担心感

、不安感等;人尊与自尊类情感包括自信感、

自爱感、自豪感、尊佩感、友善感、思念感、自

责感、孤独感、受骗感和受辱感等;自我实现类

情感包括抱负感、使命感、成就感、超越感、失

落感、受挫感、沉沦感等。

关于决策树算法,我打算分两篇来讲,一篇讲思想原理,另一篇直接撸码来分析算法。本篇为原理篇。

通过阅读这篇文章,你可以学到:

1、决策树的本质

2、决策树的构造过程

3、决策树的优化方向

决策树根据使用目的分为:分类树和回归树,其本质上是一样的。本文只讲分类树。

决策树,根据名字来解释就是,使用树型结构来模拟决策。

用图形表示就是下面这样。

其中椭圆形代表:特征或属性。长方形代表:类别结果。

面对一堆数据(含有特征和类别),决策树就是根据这些特征(椭圆形)来给数据归类(长方形)

例如,信用贷款问题,我根据《神奇动物在哪里》的剧情给银行造了个决策树模型,如下图:

然而,决定是否贷款可以根据很多特征,然麻鸡银行选择了:(1)是否房产价值>100w;(2)是否有其他值钱的抵押物;(3)月收入>10k;(4)是否结婚;这四个特征,来决定是否给予贷款。

先不管是否合理,但可以肯定的是,决策树做了特征选择工作,即选择出类别区分度高的特征。

由此可见, 决策树其实是一种特征选择方法。 (特征选择有多种,决策树属于嵌入型特征选择,以后或许会讲到,先给个图)即选择区分度高的特征子集。

那么, 从特征选择角度来看决策树,决策树就是嵌入型特征选择技术

同时,决策树也是机器学习中经典分类器算法,通过决策路径,最终能确定实例属于哪一类别。

那么, 从分类器角度来看决策树,决策树就是树型结构的分类模型

从人工智能知识表示法角度来看,决策树类似于if-then的产生式表示法。

那么, 从知识表示角度来看决策树,决策树就是if-then规则的集合

由上面的例子可知,麻鸡银行通过决策树模型来决定给哪些人贷款,这样决定贷款的流程就是固定的,而不由人的主观情感来决定。

那么, 从使用者角度来看决策树,决策树就是规范流程的方法

最后我们再来看看决策树的本质是什么已经不重要了。

决策树好像是一种思想,而通过应用在分类任务中从而成就了“决策树算法”。

下面内容还是继续讲解用于分类的“决策树算法”。

前面讲了决策树是一种 特征选择技术

既然决策树就是一种特征选择的方法,那么经典决策树算法其实就是使用了不同的特征选择方案。

如:

(1)ID3:使用信息增益作为特征选择

(2)C45:使用信息增益率作为特征选择

(3)CART:使用GINI系数作为特征选择

具体选择的方法网上一大把,在这里我提供几个链接,不细讲。

但,不仅仅如此。

决策树作为嵌入型特征选择技术结合了特征选择和分类算法,根据特征选择如何生成分类模型也是决策树的一部分。

其生成过程基本如下:

根据这三个步骤,可以确定决策树由:(1)特征选择;(2)生成方法;(3)剪枝,组成。

决策树中学习算法与特征选择的关系如下图所示:

原始特征集合T:就是包含收集到的原始数据所有的特征,例如:麻瓜银行收集到与是否具有偿还能力的所有特征,如:是否结婚、是否拥有100w的房产、是否拥有汽车、是否有小孩、月收入是否>10k等等。

中间的虚线框就是特征选择过程,例如:ID3使用信息增益、C45使用信息增益率、CART使用GINI系数。

其中评价指标(如:信息增益)就是对特征的要求,特征需要满足这种条件(一般是某个阈值),才能被选择,而这一选择过程嵌入在学习算法中,最终被选择的特征子集也归到学习算法中去。

这就是抽象的决策树生成过程,不论哪种算法都是将这一抽象过程的具体化。

其具体算法我将留在下一篇文章来讲解。

而决策树的剪枝,其实用得不是很多,因为很多情况下随机森林能解决决策树带来的过拟合问题,因此在这里也不讲了。

决策树的优化主要也是围绕决策树生成过程的三个步骤来进行优化的。

树型结构,可想而知,算法效率决定于树的深度,优化这方面主要从特征选择方向上优化。

提高分类性能是最重要的优化目标,其主要也是特征选择。

面对过拟合问题,一般使用剪枝来优化,如:李国和基于决策树生成及剪枝的数据集优化及其应用。

同时,决策树有很多不足,如:多值偏向、计算效率低下、对数据空缺较为敏感等,这方面的优化也有很多,大部分也是特征选择方向,如:陈沛玲使用粗糙集进行特征降维。

由此,决策树的优化方向大多都是特征选择方向,像ID3、C45、CART都是基于特征选择进行优化。

参考文献

统计学习方法-李航

特征选择方法综述-李郅琴

决策树分类算法优化研究_陈沛玲

基于决策树生成及剪枝的数据集优化及其应用-李国和

刚读了《思考,快与慢》,可以作为心理学角度的阐述,书上讲了情感(或者直觉)和理性之间的差异和影响,比如乐观主义的影响,各种启发法和偏见,回归效应等等。不在这里搬文字了。

简单的说,情感是会影响理性判断和决策的。最简单的例子,如锚定效应,人在做决策时看到的数字,会引导人的答案往这个数字倾斜。一个人回答幸福指数前的情绪,会影响他对这个问题的回答。

心理学上有躯体标记假说(the somatic marker hypothesis,Antonio Damasio, 1994, 1998),认为人哪怕在做看起来是「理性」的决策时,也依旧需要用到情感和感觉。当一个人评价某个物体或者某个经历时,他实际上是在联想这个物体或经历可能带来的后果所给他的感受,依赖于这些「感性」的感受和情绪,人才能做出「理性」的决定。

希望能帮到您奥

否则,尽管这份论文基于严谨坚实的学术研究基础上,您也很可能忽视它。起码,沃顿商学院运营和信息管理学教授马利斯·施韦泽(Maurice Schweitzer)如此认为。 在一份近期与卡内基梅隆大学弗朗西斯卡·吉诺(Francesca Gino)共同撰写的论文中,他指出情绪不但会影响人们对建议的接受程度,而且即便当前情绪与建议或提建议的人没有直接关系时,情绪仍然能产生影响。 “我们集中研究偶发情绪,即由先前某种经验引起的,但又与当下情况无关的情绪,”两位作者在这篇题为《愤怒或愉悦让我们视而不见:情绪如何影响你采纳建议》(Blinded by Anger or Feeling the Love: How Emotions Influence Advice Taking)论文中写道。“我们发现人们处在偶发性感激状态下的,比处在情感中立状态下,更愿意信赖他人并更能采纳意见;而处于情感中立状态下又比偶发愤怒状态,更愿意信赖他人并更能采纳意见。” 施韦泽和吉诺的研究结果对所有商业行为都有指导意义。尽管很少人这样讲,但与律师、会计师、投资银行家、顾问,以及外部销售代表之间的关系,实际上都可归纳为采纳意见。甚至公司内部沟通通常也可归纳为提出和采纳意见两部分。当某项目小组为公司首席执行官准备一份带有建议的报告,实际上这个小组的成员也是在给首席执行官提建议。内部审计师建议公司首席财务官如何折旧某批存货,这也是建议。 某种情况下,施韦泽和吉诺的结论显而易见。当然,人们的情绪会对心情产生影响。绝大多数人时常会陷入自己心绪中,并感到压力或忧郁,并影响到对外界的整体表现。例如,亲友过世,会让人感觉—无论工作、在家还是游玩—整个世界都是晦暗的。 即便如此,直到最近,经济分析师们仍坚信,当谈到真金白银时,人们会摈除掉情绪的影响。“古典经济学的前提是,人是理性的,市场会纠正所有错误,”施韦泽说道。 一位投资经理可能因为球赛打赌输掉而感到懊恼,于是会对分析师推荐的某支股票低估。另一位投资经理可能因为孩子降生而兴高采烈,而高估股票价值。 施韦泽和吉诺的研究表明,情感可以系统性地扭曲人们对外界建议的接受程度,从而影响到他们的理智。如果所有人都犯类似的错误,那么就颠覆了古典经济学的完美推理。“我直觉判断,人们往往会根据个人感受作出复杂的决策,”施韦泽说。“如果我问你这样的复杂问题,例如‘我们该不该雇佣这个人,或该不该买那座房子’你一定会在心里对比很多因素,并且进行复杂的对比。所以我们通常就会简化到一个问题:我们对应聘者或房子的感受。我们做上述行动的结果就是,会要面对由情感产生的犯错可能性。” “估计体重”试验 听起来有道理,但是如何证明呢施韦泽和吉诺设计了一套实验方法—听起来就很复杂—来控制被测试对象的感情,然后向他们提出建议,测量他们的反应。第一套实验,他们找来大学生,要求被测对象对于肯定不清楚的问题发表意见。这套案例测试中,测试人员向被测大学生展示别人的照片,要求估计照片中人员的体重。然后,测试者安排被测人员观看一段可能引发某种情绪的录像片段。一些被测人员安排观看会引起愤怒感的录像片段,**《保镖》中男人受到不公正待遇的片段。另一些观看能引起感激之情的片段,比如某人从其同事那里得到了意料之外的帮助。剩下的被测对象则看了一段中性的**片段,《国家地理》频道有关澳大利亚大堡礁的片段。 施韦泽和吉诺分别分析了录像片段如何引发被测人员的不同情感。因为被测大学生与录像片段没有实际联系,研究者将被测大学生的情感反应定性为偶发性的,而非整体性的。如果你看过电视连续剧《黑道家族》之后,对配偶产生愤怒情感,那是一种偶发性情感。如果你的配偶掴了一耳光,你因此而生对方的气,这就是一种整体性情感。 观看完录像之后,被测学生书面形式记录下自己所看录像并谈谈自己的感受,然后再来重新估计一下早先中看到人物的体重。这回,测试人员将给出一个体重估值,并告知被测人员这是另外一名被测人员给出的体重估值。被测对象并不知道,测试人员向每位被测对象提供的体重估值都是一样的。测试人员提供的体重估值,实际上就是一种建议,对被测人员帮助很大,但不会误导被测人员。“情感控制很大程度上影响到被测人员给出的最终估值,”两位学者指出。 “经历偶发感激事件的被测人员,相比处于情感中性状态的被测人员,更看重建议,”两位学者这样写道。“经历偶发愤怒时间的被测人员,相对中性状态下被测人员,更看轻建议。即便实验中被测人员产生的情感与测试要求的判断任务没有直接关系,但是我们发现,情感很大程度上左右了被测人员建议采纳态度。” 施韦泽和吉诺还希望探求信任感在情感和建议之间互动过程中,扮演的角色。两位学者设计出第二轮实验,很大程度上与第一轮实验是一样的。但是,这次在要求被测学生给出第二次体重预估值之前,测试人员要求学生给提供比照估值的匿名建议者的信任度打分。被测学生被告知这些匿名建议者不过是先前参加测试的人员。 得出的结果与第一轮一样的。愤怒的人对建议者的信任度最低,而心怀感激的人信任度最高。 与行为实验室情况相对的是,在现实世界中,可以找到各种各样的类似情况。例如,同事之间经常会产生怨气,有时候是有合理理由的,如错过工作时限,而有时候就没有合理理由,如只因同事笑声显得很傻。有时候,人们会因为情绪不佳,而受到批评并且无视别人好的建议。 “如果我生自己老婆的气,而减少对你的信任度并更少采纳你的建议,这明显是非理智的,”施韦泽说道。“我老婆把我的车给撞了,与你没关系。但是,我生你的气,是因为你取消我们上次会面,而现在我们又要相互沟通。需要通过可控、纯净的实验,将理智因素与非理智因素区分开。(本项调查中)没有提及,但我坚信这一点,如果你让我生气了,我肯定会对你的建议另有看法。” 情商的重要性 施韦泽说那些具备他所讲“高情商”素质的人员,可能已经自发地实践着他和吉诺的发现。 “情商是一种认识情绪、理解情绪运作机制,乃至操控或改变情绪的能力。如果我具备很高的情商,我就知道和老板反应问题的时机。对于刚刚经历一程糟糕航班,并丢失了行李的新合作伙伴,我知道这时候他肯定听不进去我的建议,于是我此刻不会开口。我可能会将合作伙伴带到特殊的餐厅请一顿或者给他们买赛车的票,这样我就可以扭转他们的情感状态,让他们对我感激从而愿意听取我的意见。” 有经验的谈判家通常也具备很强的这方面能力,他们会通过巧妙的方式来施加自己的影响力。例如,他们可能会对大家都能感觉到的过失致歉,即便无人要求。或当谈判进入到十分紧张的阶段下,暂停些许时间,给谈判对手买些饮料和小东西。 “任何能让人们产生感激感的东西都有帮助,”施瓦泽说。“有些人会谈开始前会组织祈祷。”如果谈判参与者信仰宗教,此举可以让他们感受更亲切。当然,如果对方不信仰宗教,此举可能会惹恼他们。教授谈判学的施瓦泽指出,所有这些策略要求使用者巧妙且敏感。“沃伦·巴菲特谈话时,有时候会借我们生活在好年代和好国家作为开篇话题。此举会在听众中引发感激情感,并影响听众对他接下来所讲内容的接受程度。” 施瓦泽看到自己和吉诺观察到的现象,在商务沟通各方各面不断上演着。例如,推销人员带着客户去看球赛,此举有别于公开奉承,只是要在客户内心中营造一种感激感。药品推销员给医生带午餐,也是同理。“这样的做法会不会有负面影响”他问道。“是会有的。如果言行表现不真诚,人们不会相信。假如我想创造一种感激之情,而行动有些过分。如销售代表送过多的礼品。”过度的营造气氛,往往会适得其反,引起对方的反感和愤怒。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7690156.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存