7 第五章语义 第一节语义性质 1 语义是人的思维活动和情感活动的结果,语义是语言的意义是语言形式的内容。在语言里,语素、词、 词组、句子等各级单位都有意义它们的意义都是语义。 2 语义包含理性意义即思想和非理性意义即情感两个方面。 3 语言形式类型:语汇、语法 4 词汇意义:由语汇形式表达的语义。语法意义:由语法形式表达的语义。 5 语言形式所表达的意义有一般与个别、稳定与临时的分别。在通常情况下都能够存在的意义有一般的、 稳定的,在特定的上下文、特定的交际场合中或特定的知识背景下才能出现的意义是个别的临时的。 6 语言意义(语义) :一般的稳定的意义是语言形式本身所表达的意义。 7 语境意义:个别的临时的意义这是语言在特定的交际场合和知识背景等语境因素作用下所表达的意义。 8 语言学中语义研究:一般而言是以语义为研究对象的语义学研究。 9 语义性质概括性、模糊性和民族性 第二节词义结构 1 词:音义结合的语言单位,词义是指词的语音形式所表达的内容。词的意义包括词汇意义和语法意义。 2 词义是人们对一定对象的概括反映,但这种反映在揭示事物本质的程度上有深有浅。 3 词义分理性意义与非理性意义。 4 词的理性意义分类通俗意义、科学意义。通俗意义即人们对事物所具有的一组非本质特征的反映。科学 意义即人们对事物本质特征的反映。 5 词的非理性意义分感情色彩、语体色彩、形象色彩。 6 词的形象色彩:由词内部的组成成分所吸引的对事物视觉形象或听觉形象的联想。 7 义素:语音学中一个音位可以进一步分解为若干个区别特征,现代语言学中把义项进一步分析为一束更 小的语义构成成分的集合,这种由分析义项得到的词义的语义特征叫做义素(语义成分、语义原子) 8 义素分析的基本方法:对比法。 9 义素分析步骤:3 个①确定对比的范围②比较词义的异同③整理和描写。 10 义素分析结果整理应从两方面着手:1 加进某些符号来表示分析结果。2 如果某对义素具有非此即彼的 对立关系,应只取其中一个义素,并在前面加上正负号来表示这对义素,而不必吧两个对立的义素都列出 来。 11 义素在语义研究语法研究中的作用: 1 义素分析可以清楚简洁地说明词义的结构,便于比较词义之间的异同,便于揭示近义词、反义词 等词义的关系,有利于词义研究、学习和掌握。 2 有助于说明词语组合的语义限制条件。 3 可以使语义的描写形式化,这种形式化的语义知识便于用计算机来处理因而对包括机器翻译、人 机对话等在内的自然语言的计算机处理有重要意义。 第三节词义的聚合 1 相关性:词义所反映的客观对象并不是孤立存在的而是同周围的其他客观对象互相联系,互相存在的。 2 相似性:不同客观对象可能具有某些相同或相近的特征,通过这些特征它们之间可以建立起某种联系。 4 语义场:词义有一定的系统性。一个词的意义(义项)同邻近的其他词义可以建立起各种关联,从而处 于互相依存、互相规定、互相制约的关系之中。场(field)此概念是从物理学中借过来的,它原指一个范 围,在这个范围中某些物质相互关联相互作用。语义场是指若干具有共同的类属义素的词语(义项)构成 的聚合体,类属义素是指反映事物所属类别的语义特征。 5 语义场的特点 1 最重要系统性, (系统性也程度有差别)2 层次性 6 语义场对词义研究和语言间语义对应关系的研究的意义: 1 它以系统的观念来看待词汇意义,而不是孤立的研究单个的词义变化,它从词义的相互关联中去 探讨词义的内涵及其发展演变 2 可以为义素提供一个分析的基础。 3 为词义体系的建立提供了一种可供选择的理论和途径。 4 为认识不同语言之间的语义对应关系提供了一种可以利用的手段和框架。 第四节语义 1 句子是形式和意义的统一体。语言形式所表达的意义分两类 1 语言意义(即由语言形式本身所表达的意 义)2 语境意义(即在特定语境下产生的意义) 2 句子语言意义可根据表达形式的不同分三部分 1 词汇意义、2 关系意义、3 语气意义 3 词语之间的关系意义可分为语法关系意义和语义关系意义。 4 语法结构关系: 词语在一定的语法结构中形成的相互关系。 (而由这种关系所赋予的意义即语法关系意义) 比如主谓结构关系所赋予的意义是陈述。动宾是涉及。偏正是修饰或限定。并列是平等。再比如:改良品 种这个线性序列存在着两种不同语法关系意义 1 是偏正结构赋予的修饰限定。2 是动宾赋予的涉及。 5 语义结构关系:词语在组合中产生的语义上的关系,它是一定的现实关系的概括和反映。 (有这种结构赋 予的意义就是语义关系意义) 6 语气意义:人们平常在使用句子进行交流时吧,总抱有一定目的, (或向他人述说一件事情,或向他人提 问,或想要求他人做某件事情,或是要抒发某种情感, )反映说话人使用句子的目的和说话人情绪的意义即 语气意义! 7 语义之间的关系意义包括语法关系意义和语义关系意义,它们分别由语法结构关系和语义结构关系所赋 予。句子中语法结构关系是语法学的研究对象。 8 句子语义结构: 1 述谓结构:从语义结构上看,一个句子包括情态和命题两部分。情态部分包括时态、语态、语气等 方面的意义,情态以外的部分便是命题。一个命题在语义结构上可以进一步分析为一个述谓结构,一个述 谓结构由一个谓词和若干个变元组成。A 在一个句子中谓词是处于支配地位的核心成分(一个谓述结构可 以由多少个变元以及可以有何种性质的变元都是由谓词的语义规定的)B 根据谓词和变元间的不同语义关 系可以把变元分为若干个类型,这种类型即语义角色。 2 述谓结构类型:1 简单~~2 复合~~3 从属~~4 降级~~ A 简单述谓结构:有的述谓结构由一个谓词和若干个变元构成,其中所有变元都只是名词性成分而不 是述谓结构。 B 从属述谓结构:有的述谓结构中的变元本身也是一个述谓结构这种充当其他谓词变元的谓述结构。 C 降级谓述结构:谓述结构的变元可以带有修饰或限定的成分,以表示变元某些方面的特征,充当这 类成分的述谓结构。 D 复合述谓结构:有的述谓结构由两个或两个以上相对独立的述谓结构按照一定的语义关系复合而成 的。 9 语义指向:句子的语义结构还包括语义指向的内容。句子中某个成分在语义指向哪儿。或者说同哪个或 哪些成分发生语义联系即此成分的语义指向。 10 句义之间的两种重要关系:蕴含、预设。 11 语义学研究的蕴涵关系:即就话语本身所表达的意义而言的蕴含关系,这种蕴含关系通常可以从句子本 身的意义推知而不必依赖特殊的背景知识。 12 预设: 它与蕴含一样也是就话语本身而言的也是有句义甲就必有句义乙但蕴含包含在句子的断言范围内, 是句子的基本信息;而预设不在句子范围之内,是句子的背景信息。 13 歧义:即同一形式的语言符号序列可能表达不同的意义现象。 14 歧义分类:1 词汇歧义 2 组合歧义(又分语法结构歧义和语义结构歧义) 第六章文字 1 字符:即文字符号,是文字的最基本单位,也就是直接跟某种语言单位相联系的符号吧,如汉字的“字” 和拼音文字的字母。 2 文字字符分类:意符、音符、记号 3 字符分类:单纯字符和复合字符 4 文字类型:词语文字、语素文字、音节文字、音位文字(辅音音位文字、全音音位文字) 5 文字与语言的关系:文字是语言的书写符号系统,文字是在语言的基础上产生的,是记录语言的工具, 而不是语言本身。(文字与语言有密切关系,但文字不等于语言,在文字和语言间不能划等号。 6 语言对文字的影响 1 文字是书写语言的符号系统,是在语言的基础上产生的,因此,应该说文字的特点和语 言的特点是有一定联系的,特别是选择什么样的语言单位作为字符代表的对象跟不同语言固有的特点是有 一定联系的。汉字在语音上代表一个音节,这跟汉字产生初期汉语的词语绝大多数是单音节的特点显然是 分不开的。 2 文字的类型会影响语言之间的相互影响,因为在现代汉语社会里语言之间的影响主要是 通过书面语进行的,文字类型相同会促进这种影响,而文字类型不同会在不同程度上阻碍这种影响,文字 对语言的的影响是有限的,无限夸大文字对语言的影响是没有根据的。 3 现在说的文字的种种神奇作用,归根结底都是语言本身,包括口语和书面语的作用,并 不是作为语言的书写符号系统的文字的作用,是混淆文字和语言,特别是混淆文字和书面语的结果。 7 世界最古老的三种文字:苏美尔文字、古埃及文字、中国甲骨文字。 8 汉字起源和演变:汉字的起源可以说还是一个没有完全弄清楚的问题。从原始文字发展到成熟的文字, 需要一个相当长的过程,所以汉字的起源应该远远早于距今三四千年左右的商代后期。 汉字文字学传统上把单纯字符称为独体字。汉字是除了苏美尔楔形文字和古埃及文字以外影响最大,并且 是唯一到今天还在继续使用的自源文字。 9 文字创制:在此即现代社会里为没有文字的语言创制文字特别是政府或语言学家为还没有文字的民族创 制文字。 (我国从 20 世纪 50 年代起为侗苗
新闻情感分析它是新闻内容评论及转发的情感分析的集合,因为每一起舆情事件的信息类型都是由原贴、转发以及评论构成。
那么当网络上有与己相关的舆情事件发生,或想要关注的舆情事件发生时,我们应该如何掌握其情感倾向或各情绪的占比情况,以评估事态影响,采取针对性的应对措施呢?
新闻情感分析解决方法
在这里以新闻情感分析工具-识微商情为例,看其如何助力新闻情感分析工作开展:
1舆情数据收集:可根据用户需求,自动对全网的舆情数据进行采集,释放人力,关注信息一目了然。
2语义分析:这就包括原贴、转发以及评论,用户也可以自定义筛选某一信息类型。通过监测关于某一个特定主题的正负面中立意见,可自动识别文本中各种情感是如何表达的,然后通过内置的告警通知,向舆情接收者发出通知(用户可自定义舆情预警接收方式,如微信、短信、邮件、客户端、人工客服等)。
3全面综合分析:除新闻情感分析之外,还能实时追踪已订阅主题的发展变化趋势,分析舆情事件在各生命周期阶段的热点话题,挖掘舆情事件在演化过程中的传播网站、传播媒体、关键传播节点以及传播溯源、同步生成可视化的分析图表和报告等,便于对网络舆情事件的发展变化趋势做出有效的预测,为舆情应对、引导以及工作总结提供助力。
关于情感分析文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断回答如下:
情感分析,文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断如下情感分析、文本相似性和语句推断都是中文自然语言处理中的常见任务,需要进行语句关系判断。
其中,分词是中文自然语言处理中的基础步骤,可以将句子切分成有意义的词语,为后续任务提供基础。
在情感分析任务中,需要对文本的情感进行分类,通常采用机器学习算法,对文本进行特征提取和分类。文本相似性任务是指比较两个文本之间的相似度,通常采用词向量模型进行特征提取和相似度计算。
语句推断任务是指给定前提和假设,判断假设是否可以从前提中推出,通常需要进行逻辑推理和语义理解。这些任务都需要进行语句关系判断,对中文自然语言处理具有重要意义。
资料扩展:
情感分析是指通过文本来挖掘人们对于产品、服务、组织、个人、事件等的观点、情感倾向、态度等。情感分析是随着互联网发展而产生的,早期主要用于对网上销售商品的用户评语的分析,
以便判断用户对其所购商品是“喜欢”还是“不喜欢”。后期随着自媒体的流行,情感分析技术更多地用于识别话题发起者、参与者的情感趋向,
从中判断或挖掘话题中的价值,由此来分析相关舆情。情感分析的应用十分广泛,其研究领域涉及自然语言处理、信息检索、机器学习、人工智能等。
领域依赖是指文本情感分析的模型对某一领域的文本数据非常有效,但是将其应用于其他领域的时候,会使得分类模型的性能严重下降。
1、朴素贝叶斯公式:
2、 API: from sklearnnaive_bayes import MultinomialNB
3、 注意事项: 一个完整的文本不能直接拿来训练,所以在训练之前,我们需要将自己的语句分词,构建词向量,所以我们这里需要先进行分词处理,这里我选择的是结巴分词。
从上面预测结果看,预测的三个结果均与真实值一致,模型评估结果值为:10 很高!
语义网是网络时代的高级智能产物,其应用广泛,有着美好未来。下面将介绍主要应用技术与研究趋势。
经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎。
自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达),Alex HAS a brain (属性表达),and Alex IS the father of Alice,Lilly,and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。
关于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。
已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。
企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。
从企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样,基于XML的数据库承载了太多的期望,让我们拭目以待。
语义API是随着语义网的发展而发展的,这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的Hacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹),输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。
可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue,ThumbStrips,Cooliris与BlueOrganizer等。
语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。
语义网的高级阶段使得图书馆,售订票系统,客户管理系统,决策系统均能发挥很好的效果。譬如要出去旅行,只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统,那么很快相应的国内景点,最佳旅游方案与注意事项,提示以及旅行社的评价均能很快速得准备在浏览器页面上。
语义网终会把网络的高级阶段应用到世界的每一个角落,每个人均有自己的网络IP一样的身份证明个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力,网络社会更有秩序、更和谐。
监督学习
目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。
基于规则/无监督学习
和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。
跨领域情感分析
跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN
情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的**评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。
目前研究主要集中于情感词的正面负面分类,标注语料,情感词的提取等。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)