一种自然语言处理技术,用于分析文本中的情感倾向和情感强度。它通过对文本中的词语、短语、句子等进行情感分析,将其归类为积极、消极或中性情感,并计算出情感强度值。情感内核可以应用于情感分析、舆情监测、产品评价等领域。
监督学习
目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。
基于规则/无监督学习
和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。
跨领域情感分析
跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN
情感分析的粒度是指定义情感极性的颗粒度大小,即从哪里开始分析情感。它可以分为句子级情感分析和实体级情感分析。
句子级情感分析是基于单个句子进行分析,通过分析文本中的每一个句子来确定该句子的情感倾向,进而判断整段文本的情感趋势,粒度相对较粗。
实体级情感分析是基于文本中的每一个实体进行情感分析,可以识别句子中对实体的情感色彩,例如对人物、组织、产品等进行情感评价。粒度相对较细。
不同的应用场景和需求,需要精细的情感分析,因此不同的应用和目标,其情感分析的粒度也应该有所区别和调整。
怎样通过句法分析分析句子情感算法例子?现阶段主要的情感分析方法主要有两类:
基于词典的方法
基于机器学习的方法
基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。
基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)