与世长眠和与世长辞的区别

与世长眠和与世长辞的区别,第1张

与世长眠和与世长辞的区别是语义不同、情感含义不同。

1、语义不同:与世长眠是指人去世或在梦中去世,形容人安详的离开人世,与世长辞是指离开人世、告别人世,形容人对生命有所领悟,主动放弃人世。

2、情感含义不同:与世长眠带有平静、安详、无痛苦的情感,用于描述老人或逝去的人离世,与世长辞侧重于表达离别、遗憾、不舍等情感,用于描述早逝的人或因某种原因不得不离开人世的人。

NLP 是什么?

NLP 是计算机科学领域与 人工智能 领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成:自然语言理解和自然语言生成。

自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。

自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。

NLP 技术基于大数据、知识图谱、 机器学习 、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event ):在特定时间、特定地点发生的事情。主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。

1 词干提取

什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。

2 词形还原

什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题,即词语在句中的语义,词语对相邻语句的语义等。

3 词向量化什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为100。

4 词性标注

什么是词性标注?简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐?命名实体消岐是对句子中的提到的实体识别的过程。例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。   

7 情感分析

什么是情感分析?情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析?语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意,相似性与相关性是不同的。

9语言识别

什么是语言识别?语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要?文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤:

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中,所有句子第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达, 一般值具有某种意义,无法再拆分的符号。在英文自然语言处理中,Tokens通常是单独的词,因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词,例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义,单停止词是频率非常多的词。 为了减少我们要处理的词汇量,从而降低后续程序的复杂度,需要清除停止词。

Named Entity

Named Entity 一般是名词短语,又来指代某些特定对象、人、或地点 可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前,必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据,我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法,它自2013年以来就一直存在。但除了作为词嵌入的方法之外,它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点:

使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标;

使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了BERT模型,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构: 由于模型的构成元素Transformer已经解析过,就不多说了,BERT模型的结构如下图最左:

对比OpenAI GPT(Generative pre-trained transformer),BERT是双向的Transformer block连接;就像单向rnn和双向rnn的区别,直觉上来讲效果会好一些。

优点: BERT是截至2018年10月的最新state of the art模型,通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。

缺点: MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)

BERT火得一塌糊涂不是没有原因的:

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文;

11个NLP任务的精度大幅提升足以震惊整个深度学习领域;

无私的开源了多种语言的源码和模型,具有非常高的商业价值。

迁移学习又一次胜利,而且这次是在NLP领域的大胜,狂胜。

BERT算法还有很大的优化空间,例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力,而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成,论文中说的训练需要在64块TPU芯片上训练4天完成,而一块TPU的速度约是目前主流GPU的7-8倍。

  所谓语义学即探索、研究语言意义的学科。“产品语义学”这一概念的提出,是借用语言学的一个名词,它产生的理论基础,来源于符号学理论。工业设计史上关于产品语义的研究始于20世纪60年代,主要就是针对当时现代主义对于“功能”的过于夸大和对于形式过分的漠视,导致工业产品粗糙、冷漠、僵硬。在1983年,Krippendorf和Butter教授正式提出“产品语义学”的概念,并定义为“产品语义学是研究人造物的形态在使用情境中的象征特性,并将此运用于设计中”;1984年,Kriplpendorf对产品语义学下了进一步的定义,他以为产品不仅要具备物理性能,还应该能够向使用者揭示或暗示出如何操纵使用,同时产品应该具有象征意义,能够构成人们生活当中的象征环境。

随着我国的经济发展,逐渐有人关注或者研究该学科的理论以及应用,形态语义学的作用逐渐体现。通过文献的比较,却发现目前国内有关形态语义的研究存在一些问题,主要体现在:一是几乎所有研究都局限于工业产品,解决的是产品内在功能与外在形态的匹配问题。二是关于形态语义的应用研究,均不约而同地强调设计要考虑材料、色彩、情感等几个方面,但是很少有研究能解决为什么的问题。比如为什么采用这个色彩而不是其他的色彩为什么形态中的线条是这样,而不是其他形式究竟有多少选择,其规律又是如何因此,本文试图单纯分析形态语义学的研究范围和要素,并以此构成形态语义学的理论框架体系。

一、研究体系主体应回归到人造物

设计形态语义就是指产品的形态语义,这种理解是片面的。产品语义学的定义是针对工业产品设计给出的,因此目前几乎所有国内的研究都仅限于工业产品,并认为该学科的背景是当时现代主义对于“功能”的过分夸大和对于“形式”过分的漠视,他们据此推论本学科解决的问题是产品的操作性问题,形态语义就是产品语义。

但本文认为:产品形态语义的研究对象应该是不仅包括工业产品,还应包括雕塑等其他任何与人造物有关的形体。在形态语义处在工设计届萌芽的同时,与此并行还有一大批雕塑家早就有意无意地在创作过程中探索情感与形态的关系,如:史蒂芬·德斯坦勒、罗伯特·安纳森、路易丝·布尔乔、萨塞亚等以及更早的一些艺术家。他们的工作是脱离工业产品而进行的,此时在他们手中形态已经作为表达某种情感的载体,也就是形态语义这个概念早就被物化了。这充分说明了形态语义是完全可以脱离产品这一主体,而产品形态语义学只是形态语义学在工业设计中的应用。

形态是事物的内在本质的外部表现,作为符号的一种,是实体的外部几何形状、色彩构成、材料组合。形态语义是人们观察、认识该形态所产生的认识,以及被激发情感上的认识。该形态既可以是产品,也可以是雕塑;既可以是人为加工过的物品,也可以是自然天然的物质。形态语义学不仅可以用在工业设计,也可以用在其他任何涉及形态的地方。因此,形态语义学不是起源于工业产品造型设计,而是起源于更早的其他领域。

二、研究体系应具有广泛性和深入性

简而言之,形态语义就是借助语言中“语义”“语构”“语境”的概念,来表达形态的含义,形态语义中的“语构”就是人造物中的材料、色彩、构成、线条、形态等等。“语境”就是情感与文化。

符号论学者苏珊·朗格把符号分为文字语言的逻辑系统和非文字语言的情感符号系统两种。以她的观点剖析,形态语义是情感符号形式的一种:形态是属于文字语言的逻辑符号系统。语义属于非文字语言的情感符号系统,是建立在形态的基础上的人的认识和反应,是对客观事物的认知。形态语义的系统性、科学性、规律性就是形态语义学研究的范畴。这导致形态语义的研究分成两个发展方向:广泛性和深入性。只有同时具有广泛性和深入性的形态语义学研究体系才是完整的。

在此,本文给它们定义:所谓“广泛性”是在形态语义学以建立各种形态与语义的对应关系,它是以穷尽形态的各种认知结果为目标。所谓“探入性”是在形态语义中研究形态与语义是如何对应的,它是以分析形态与语义的对应关系的准确性为目标。

形态语义深入性的实质就是该语义设计需能准确表达该形态所包含的多个不同情感内容,以及设计者所希望的情感能准确地赋予该设计形态。其结果取决于形态设计者语义编码的科学性和形态解读者解码的规律性,而这两方面研究结论必须通过大量分析才能完成,是建立在形态语义广泛的研究基础上的。因此要实现形态语义的广泛性,就必须先实现形态语义的深入性。

通过对不同形态的特征的分析,建立各种形态与语义之间的联系,形成完整的体系框架,才能实现对形态语义规律的完全把握。这是一个非常庞大且十分有意义的工作,词库里的语言十分丰富,与之对应的语义也是十分丰富的,只有把这部分内容丰富完善起来,才能构成形态语义学的研究体系。

三、形态语义研究的深入性

要较完美实现形态设计的目标,必须掌握形态语义的解码规律,遵循形态设计的编码规则。鉴于形态语义与文字语义的相似性,通常借用文字语义分析的方法,以实现形态语言含义的分析,步骤上依次分为:形态的文字语义分析、形态的语构分析、形态的语境分析等三个过程。

首先,形态的文字语义分析的目的为了准确把握形态语义的内涵,消除形态表达上的含糊不清。可以借助字典等工具的解释,实现对形态概念的文字语言分析和形态语言分析,从而较全面、准确、合理地把握形态语义分析的目标。如桌子,在现代汉语词典的解释是:家具;上有平面;下有支柱,在上面放东西或者做事情。

其次,在前面文字语义分析的基础上,借鉴文字语义语法、句法构成规律,在形态语义找出类似文字语构的特征要素,用文字语构的方法对形态进行语构分析。如桌子这一形态,在以上语义分析中的各个要素是十分严谨的,是缺一不可的:一是它必须是家具。例如钳工台虽然像桌子,但是它通常不属于家具,我们一般不称钳工台为桌子。二是上有平面,下有支柱。显然,否则我们称它为箱子、支架。三是在上面放东西或者做事情。

形态的语构分析在表述上是有十分缜密的逻辑和先后关系,具有明显的文字的逻辑符号特征,因此语构分析部分属于文字语言的逻辑系统部分。

什么是语言意义,语用意义

语境语境言语环境或使用语言环境简称,指使用语言进行交际环境,叫交际场 语境字面意义看,语言环境现已经些非语言素纳入语境范畴,由语境产狭义广义两含义狭义语境专指语言交际,语言单位音位、语素、词、短语、句与言语作品——语所现或处环境广义语境指所要考察事件(非语言)所现环境我称前者语境或,称者语境 总说,语境既包括语言素,作品文或说前言语等,包括非语言素交际间、点、场合、代、交际象及社、文化背景、自环境、语体环境等本文言语交际角度谈语境影响作用,所引用广义语境即语境 二、语境言语交际影响 语境影响着言语交际行言语表达言语接受两面看,语境言语交际作用主要表现——制约解释两种功能 言语交际环境由表达者、接受者、(旁听者)交际客观环境组言语表达面说,语境限定、制约著表达者言语内容使用语言形式,表达者运用适合语境语言,才能达预期交际目言语接受面说,语境语言形式语言接受者都解释作用,语境能使语言形式与某特定意义联系起,语言形式意义语境明确;接受者语放置特定语境解码,才能较准确握表达者含义本文主要探讨语境言语交际制约功能解释功能 三、语境言语表达制约功能 作表达者主要任务使接受者能准确理解交际所使用语言表达式意思,获佳交际效,表达者必须选择符合语境语言表达式交际程,表达者能选择符合语境语言表达式表达某种特定含义,使表达更恰、体 言说,山,唱歌、见,说、句百说说都表达者要适应特定语言环境问题说,具体语境言语表达制约功能 ()同句,表达同含义 雨句,字面看,反映种客观存自现象看外边滴著雨,说声:雨,能自言自语或者告诉种客观事实;外边晾着衣服,句提醒自或者收衣服;孩要,句则提醒孩带雨具 (二)同,表达同意思 倾相恋,男撒娇说我恨死我死表达同意思;真真坏同表达男喜赞美 (三)残缺,表达完整意思 言语交际,根据言语经济原则,根据者所共知背景情况省略些,言语交际,些句残缺,并妨碍表达者圆满表达自思想,接受者能获完整信息,原于语境提供潜信息 :兰州公共汽车,乘客买车票说两兰,显两兰种残缺省略语言形式,售票员都能理解说所要表达意思:我要买两张兰州汽车票 (四)说意思,表达另意思 交际,候,说表面陈述意思,实际要表达另意思要结合交际场合背景知识,理解表达者真要表达意思 :《红楼梦》第三十四段情节描写:,贾宝玉林黛玉发口角,贾宝玉千万向林黛玉道歉两,凤姐拉贾母看戏,碰见薛宝钗贾宝玉说意奚落薛宝钗,黛玉非意,并问:宝姐姐,听两戏宝钗笑道:我看李逵骂宋江,赔宝玉便笑道:姐姐博古通今,都知道,连戏名字知道,说串,叫《负荆请罪》宝钗笑道:原叫《负荆请罪》博古通今,才知道‘负荆请罪’,我知道‘负荆请罪’句没说完,宝玉黛玉二病,听,早脸羞红 四、语境言语理解解释功能 言语交际,仅需要表达者握表达要义,适合语境,且需要接受者语放置特定语境解码,联系表达者特定语境,才能达较交际效 语境言语理解解释功能主要表现能排除任何语言歧义现象语境理论告诉我:任何句都能突现或孤立存,总定间、场合、目、式等其条件所说,要歧义语进入具体语境,歧义自排除,言语理解更容易 歧义现象产原致:字词义、句结构歧义、语境歧义 ()义字词定语境意义单 义词、义字汉语普遍存,字、词种含义,要放定语句能辨其意义,特定语境才能明确其具体意思词语 比,背著包袱离家包袱歧义仅靠其所句消除句理解背著包东西离家;说带着思想负担离家,词语包袱歧义并没消除,借助特定语境才能确定其真含义 (二)句结构歧义语境消失 例快乐始快乐两种词性,理解

为什么说语言符号的形式和意义之间没有本质联系

言符号的任意性是指语言符号的音义联系并非是本质的,必然的,而是由社会成员共同约定的,一种意义为什么要用这个声音形式,而不用那种声音形式,这中间没有什么道理可言,完全是偶然的、任意的。语言符号和客观事物之间没有必然联系。

诗歌自身的语言形式在今天还有什么重要意义

弗洛斯特说:诗是翻译所丢失的那部分。于是,许多人便就此说诗是不可译的。我想从另外的角度理解这位美国桂冠诗人的话。我以为,诗歌作为语言的艺术,直译者只能将诗的内容传达出来,原文中作为诗的那些语言自身的微妙之处便被丢失了。正如唐诗、宋词被解释为白话文后,便失去了诗的魅力。

如何理解语言符号是形式和意义的统一体

7 第五章语义 第一节语义性质 1 语义是人的思维活动和情感活动的结果,语义是语言的意义是语言形式的内容。在语言里,语素、词、 词组、句子等各级单位都有意义它们的意义都是语义。 2 语义包含理性意义即思想和非理性意义即情感两个方面。 3 语言形式类型:语汇、语法 4 词汇意义:由语汇形式表达的语义。语法意义:由语法形式表达的语义。 5 语言形式所表达的意义有一般与个别、稳定与临时的分别。在通常情况下都能够存在的意义有一般的、 稳定的,在特定的上下文、特定的交际场合中或特定的知识背景下才能出现的意义是个别的临时的。 6 语言意义(语义) :一般的稳定的意义是语言形式本身所表达的意义。 7 语境意义:个别的临时的意义这是语言在特定的交际场合和知识背景等语境因素作用下所表达的意义。 8 语言学中语义研究:一般而言是以语义为研究对象的语义学研究。 9 语义性质概括性、模糊性和民族性 第二节词义结构 1 词:音义结合的语言单位,词义是指词的语音形式所表达的内容。词的意义包括词汇意义和语法意义。 2 词义是人们对一定对象的概括反映,但这种反映在揭示事物本质的程度上有深有浅。 3 词义分理性意义与非理性意义。 4 词的理性意义分类通俗意义、科学意义。通俗意义即人们对事物所具有的一组非本质特征的反映。科学 意义即人们对事物本质特征的反映。 5 词的非理性意义分感 彩、语体色彩、形象色彩。 6 词的形象色彩:由词内部的组成成分所吸引的对事物视觉形象或听觉形象的联想。 7 义素:语音学中一个音位可以进一步分解为若干个区别特征,现代语言学中把义项进一步分析为一束更 小的语义构成成分的 ,这种由分析义项得到的词义的语义特征叫做义素(语义成分、语义原子) 8 义素分析的基本方法:对比法。 9 义素分析步骤:3 个①确定对比的范围②比较词义的异同③整理和描写。 10 义素分析结果整理应从两方面着手:1 加进某些符号来表示分析结果。2 如果某对义素具有非此即彼的 对立关系,应只取其中一个义素,并在前面加上正负号来表示这对义素,而不必吧两个对立的义素都列出 来。 11 义素在语义研究语法研究中的作用: 1 义素分析可以清楚简洁地说明词义的结构,便于比较词义之间的异同,便于揭示近义词、反义词 等词义的关系,有利于词义研究、学习和掌握。 2 有助于说明词语组合的语义限制条件。 3 可以使语义的描写形式化,这种形式化的语义知识便于用计算机来处理因而对包括机器翻译、人 机对话等在内的自然语言的计算机处理有重要意义。 第三节词义的聚合 1 相关性:词义所反映的客观对象并不是孤立存在的而是同周围的其他客观对象互相联系,互相存在的。 2 相似性:不同客观对象可能具有某些相同或相近的特征,通过这些特征它们之间可以建立起某种联系。 4 语义场:词义有一定的系统性。一个词的意义(义项)同邻近的其他词义可以建立起各种关联,从而处 于互相依存、互相规定、互相制约的关系之中。场(field)此概念是从物理学中借过来的,它原指一个范 围,在这个范围中某些物质相互关联相互作用。语义场是指若干具有共同的类属义素的词语(义项)构成 的聚合体,类属义素是指反映事物所属类别的语义特征。 5 语义场的特点 1 最重要系统性, (系统性也程度有差别)2 层次性 6 语义场对词义研究和语言间语义对应关系的研究的意义: 1 它以系统的观念来看待词汇意义,而不是孤立的研究单个的词义变化,它从词义的相互关联中去 探讨词义的内涵及其发展演变 2 可以为义素提供一个分析的基础。 3 为词义体系的建立提供了一种可供选择的理论和

用词语的形式概括语言的作用

先解释词语的意思。有修辞的先说是什么修辞,再分析作用。 比喻:可以使语言形象化,可以把人或事物描写的梦为具体形象;可以把深奥的道理说得浅显易懂;可以很好的揭示事物的本质;可以鲜明的表达作者的情感和立场。 借代:利用客观事物之间的种种关系巧妙的构成语言上的艺术,可以突出事物的特征,引起人的联想,增强语言上的艺术,使语言生动活泼,富于变化。 比拟:色彩鲜明,描绘形象,表意丰富。 夸张:可以抒发感情,揭示事物的特征和本质,还可以启发读者的想象力,增强语言的生动性。 排比:内容集中,增强气势,节奏鲜明,利于抒情,条理清晰,说服力强。 设问:提请注意,引人思考,有针对性和启发性。 反问:加强语气,抒发强烈的感情,增强文章的说服力和感染力。 反复:在说理性文章中(包括议论文和说理性散文),起强调作用,在抒情写景的文章中,其增强感染力的作用。 反语:利用隐蔽的形式,含蓄曲折的表达激动的感情,特别适宜嘲弄和讽刺。 对比:使事物的特征更加突出鲜明,起强调作用。 在具体文章中还要进行具体的分析,要结合语境的文章的主题,有的作用不能全部都答上。 老大,我可是一个字一个字的打上去的,这是什么精神~~

绘画语言的意义

绘画语言是通过色彩、线条、光色或组成一件作品所有的其他因素之间相互作用而产生出来的。绘画语言是有机的形式体现,它是构成绘画艺术中多种可视因素的构成。就绘画而言,它是一种在长乘宽的二维平面上利用形、色、肌理或者说利用点、线、面或黑、白、灰等色彩、肌理等手段来传达人类或艺术家对精神文明的追求。在符合它自身规律的前提下,用什么样的表达,怎样表达和表达什么都是值得探索和尝试的,没必要用既有的定式或种类来界定。绘画是人类艺术追求的其中一种方式,那它自身就有其独特的语言和表达技巧,单就绘画而言,不同的表现题材和不同的工具材料都有其自身的特殊规律、表现语言和表现方式。只要是符合绘画本体的艺术规律的任何题材、任何表现语言、任何表达形式都是可取;只要对人类的精神文胆起到积极向上的推动作用,只要符合人类追求的审美理想,任何绘画语言方式都应该探索,都应该允许和发扬。从这个意义上讲,艺术家个人的角度、个人的独特风格面貌都是最可贵的。

语言的定义

语言是思维工具和交际工具。它同思维有密切的联系,是思维的载体和物质外壳和表现形式。语言是符号系统,是以语音为物质外壳,以语义为意义内容的,音义结合的词汇建筑材料和语法组织规律的体系。语言是一种社会现象,是人类最重要的交际工具,是进行思维和传递信息的工具,是人类保存认识成果的载体。语言具有稳固性和民族性。

语言是人类的创造,只有人类有真正的语言。许多动物也能够发出声音来表示自己的感情或者在群体中传递信息但是这都只是一些固定的程式, 不能随机变化。只有人类才会把无意义的语音按照各种方式组合起来,成为有意义的语素,再把为数众多的语素按照各种方式组合成话语,用无穷变化的形式来表示变化无穷的意义。

人类创造了语言之后又创造了文字。文字是语言的视觉形式。文字突破了口语所受空间和时间的限制,能够发挥更大的作用。

语言和文字是人类自己创造的,可是在语言文字的神奇作用面前,人们又把它当做神物崇拜起来。他们用语言来祝福,用语言来诅咒。他们选用吉利的字眼做自己的名字,做城市的名字,做器物和店铺的名字。他们甚至相信一个人的名字跟人身祸福相连,因而名字要避讳。皇帝的名字、长官的名字、祖宗和长辈的名字不能叫,一般人也都在“名”之外取一个“号”,彼此不称名而称号。在后世,认为这是礼貌;在远古,这是人身保护。现代各地口语里也常常有些词语起源于避讳;不久以前,很多行业有各自的避讳字眼。从前有些人家,因为小孩儿不懂得避讳,在堂屋里贴一张纸条“童言无忌”,意思是小孩儿说的话不算数。

凡有人类的地方就会有语言。世界上到底有多少种语言呢?据德国出版的《语言学及语言交际工具问题手册》说,现在世界上查明的有5651种语言(当然,这个数字还在增加中)。其中4郸00种左右得到人们的承认,成为具有独立意义的语言。其余有500种语言为人们所研究。另外,约有1400多种还没有被人们承认是独立的语言,或者是正在衰亡的语言。如澳大利亚有二百五十种语言仅被4万多人使用,而这些澳大利亚土著民族还不得不使用英语,长期以来,这些语种便渐趋衰亡。在美国同样也有很多正在衰亡的语言。如北美印第安人有170种语言,其中许多种语言如今只有一小部分人用它们来交谈。他们的子孙已不了解自己祖宗的语言,而习惯于用英语了。

与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。

基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1

在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7728024.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存