自然语言处理基础知识2024年_知识

NLP 是什么？

NLP 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成：自然语言理解和自然语言生成。

自然语言理解方向，主要目标是帮助机器更好理解人的语言，包括基础的词法、句法等语义理解，以及需求、篇章、情感层面的高层理解。

自然语言生成方向，主要目标是帮助机器生成人能够理解的语言，比如文本生成、自动文摘等。

NLP 技术基于大数据、知识图谱、机器学习、语言学等技术和资源，并可以形成机器翻译、深度问答、对话系统的具体应用系统，进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性，成为人工智能最先应用的行业之一，而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分，正在快速进入金融领域，并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event )：在特定时间、特定地点发生的事情。主题(Topic)：也称为话题，指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject)：涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是，国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点：也可称为热点主题。热点和主题的概念比较接近，但有所区别。

1 词干提取

什么是词干提取？词干提取是将词语去除变化或衍生形式，转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干，哪怕词干并非词典的词目。

2 词形还原

什么是词形还原？词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题，即词语在句中的语义，词语对相邻语句的语义等。

3 词向量化什么是词向量化？词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用，因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化，一个词语或者一段短语可以用一个定维的向量表示，例如向量的长度可以为100。

4 词性标注

什么是词性标注？简单来说，词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐？命名实体消岐是对句子中的提到的实体识别的过程。例如，对句子“Apple earned a revenue of 200 Billion USD in 2016”，命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说，命名实体要求有一个实体知识库，能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名，机构名，日期，地名，时间等类别的任务。

7 情感分析

什么是情感分析？情感分析是一种广泛的主观分析，它使用自然语言处理技术来识别客户评论的语义情感，语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析？语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意，相似性与相关性是不同的。

9语言识别

什么是语言识别？语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要？文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点，并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取，包括美食、酒店、汽车、景点等，可帮助商家进行产品分析，辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一个单词的首字母一般是大写，有的单词也会全部字母都大写用于表示强调和区分风格，这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达，一般值具有某种意义，无法再拆分的符号。在英文自然语言处理中，Tokens通常是单独的词，因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词，例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义，单停止词是频率非常多的词。为了减少我们要处理的词汇量，从而降低后续程序的复杂度，需要清除停止词。

Named Entity

Named Entity 一般是名词短语，又来指代某些特定对象、人、或地点可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前，必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据，我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点：

使用了Transformer作为算法的主要框架，Trabsformer能更彻底的捕捉语句中的双向关系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标；

使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，并且Google开源了BERT模型，用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构：由于模型的构成元素Transformer已经解析过，就不多说了，BERT模型的结构如下图最左：

对比OpenAI GPT(Generative pre-trained transformer)，BERT是双向的Transformer block连接；就像单向rnn和双向rnn的区别，直觉上来讲效果会好一些。

优点： BERT是截至2018年10月的最新state of the art模型，通过预训练和精调横扫了11项NLP任务，这首先就是最大的优点了。而且它还用的是Transformer，也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型，它捕捉到的是真正意义上的bidirectional context信息。

缺点： MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）

BERT火得一塌糊涂不是没有原因的：

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向，并再一次炒火了《Attention is All you Need》这篇论文；

11个NLP任务的精度大幅提升足以震惊整个深度学习领域；

无私的开源了多种语言的源码和模型，具有非常高的商业价值。

迁移学习又一次胜利，而且这次是在NLP领域的大胜，狂胜。

BERT算法还有很大的优化空间，例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力，而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成，论文中说的训练需要在64块TPU芯片上训练4天完成，而一块TPU的速度约是目前主流GPU的7-8倍。

1 对文言文的认识从内容情感分析

“作者在文言文中的观点态度”是指作者的思想主张，以及作者对文中人、事、理的看法评价，是作者的感情态度在文中的反映，带有强烈的主观色彩。

“分析概括作者在文言文中的观点态度”，就是把作者在文中或直露、或含蓄、或集中、或分散的观点态度分析、推理、概括出来。高中文言文主要考查传记类文章，因此必须了解所写人物的品质和功德，注意文中作者的简评性文字，如“孝甚”“刚直”等，注意记叙文中议论性的句子以及议论文中表达作者观点的句子等。

作者在文章中表述自己的观点态度一般有以下两种形式：间接表达――可能借叙述人物、事件时选用的有褒贬色彩的词语来表现作者的情感倾向，也可能借助文中的一个人物说出来，还可能借转述别人的评论来表达自己的意见。直接表达――通过议论性文字中的中心论点、分论点，记叙性文字中的议论抒情句，说明性文字中的评述性语言来表现。

如《史记》中的文章结尾常有“太史公曰”等评价性语言。 “分析概括作者在文言文中的观点态度”常见的命题角度主要有两种：（1）依据文章有关材料，分析作者的基本观点态度。

（2）分析文章的有关内容，推理、概括作者的观点态度。考查时多与“归纳内容要点，概括中心意思”合并在一起，以选择题的形式考查。

二、答题方法做这类题一定要整体阅读原文，根据具体语境分析文章中心和观点态度。具体说来，有以下几种方法： 1借“题”解“文”。

文言文中用来命题的句子，往往是文中的关键语句，试题中对文章分析概括的文字，一般也涉及文章的主要内容。在整体阅读的基础上，借“题”解“文”是了解文章大意的一个重要技巧，通过“倒读法”，可以巧妙寻找到解题的钥匙。

2筛选法。弄清选项中的“观点态度”所指的具体对象、文句范围，就是要看选项中列举的作者观点态度是针对哪一个人物、哪一件事的，议论性文字体现在哪里。

再将选项列出的“观点态度”与文中筛选出的相应的“观点态度”加以比较，得出正确选项。 3概括评价法。

作者在文中的观点是通过对人物、事件的记叙、议论评价来表现的，因此就要从人物的言行、事件的叙述中，概括评价作者的观点态度，将这种评价与选项中的评价比较辨析，选出符合题干要求的选项。 4抓题眼法。

认真审视题干，抓题干中的关键信息，明确要求，仔细比对，综合分析，从而找出正确答案。

2 怎样分析文言文

先把整个文章的意思大概了解一下，然后文言文中经常出现的一些字你要刻意去记一下，初中的文言文一般不会太难，特别重要的一点：不管你知道不知道文言文的意思，你都要把它背下来，因为虽然你初一不能理解，但你以后会理解的，文言文是靠积累的~~我初中时很多文言文也是不理解意思，慢慢就好了，我初中时所有的文言文全部都背会了，学文言文很重要，以后你上高中就知道了，高考时文言文阅读是拉开学生分数的一个大题，加油，慢慢来`~学文言文不能急，____07年高考考生留（已考上大学）。

3 对文言文的认识从内容情感分析

（2）分析文章的有关内容，推理、概括作者的观点态度。考查时多与“归纳内容要点，概括中心意思”合并在一起，以选择题的形式考查。

二、答题方法做这类题一定要整体阅读原文，根据具体语境分析文章中心和观点态度。具体说来，有以下几种方法： 1借“题”解“文”。

再将选项列出的“观点态度”与文中筛选出的相应的“观点态度”加以比较，得出正确选项。 3概括评价法。

认真审视题干，抓题干中的关键信息，明确要求，仔细比对，综合分析，从而找出正确答案。

4 怎样分析诗歌的思想感情

纵观以上的答案，不是太复杂就是太概括

我今年刚高考完，我觉得平时总结一些专业用语非常重要

因为很多时候在鉴赏时，如果不知道一些专业用语都会觉得词不达意

以下就是我总结的一些专业用语，我觉得很有用

以后遇见就去套，一般都会对上，熟练了自己就会有感觉了

思想感情：

1忧国伤时：

揭露统治者的昏庸无道

反映离乱的痛苦

同情人民的疾苦

2建功报国

建功报国的渴望

报国无门的悲伤

山河沦丧的痛苦

年华易逝，壮志难酬的悲叹

3思乡怀人

羁旅思愁

思念亲友

边关思乡

闺中怀人

4生活杂感

寄情山水，田园的悠闲

昔盛今衰的感慨

青春易逝的伤感

仕途失意的苦闷

告慰平生的喜悦

百度文心一言是一款基于人工智能技术的短文本情感分析产品，它能够针对输入的短文本，分析出其中蕴含的情感，并给出相应的情感标签和分值。文心一言可以帮助用户更好地理解和处理短文本信息，并为企业提供情感分析类的数据支持，促进决策的准确性和效率。

一、更加准确的情感分析。文心一言不仅能够高度自适应，精准分析自然语言，还能够识别语境，抓住写作的情感、倾向以及沟通目的。采用更先进的算法和技术，让情感识别更为准确可信，提升应用的实用价值。

二、更丰富的应用场景

我期望文心一言能够应用于更广泛的场景，包括但不限于社交媒体、舆情监测、新闻报道、广告营销、客户服务等领域。例如，可以结合社交媒体的实时数据，实现更全面的舆情监测和反馈。还可以为广告商提供更精准的广告投放策略，提高广告投放的效果和ROI。期望文心一言可以通过与其他工具和产品的结合，为更多行业解决情感分析及管理问题。

三、更完善的应用支持

百度文心不停完善产品本身和其应用生态，进一步提高用户体验和应用效果。具体来说，文心一言需要提供更加丰富、灵活的情感分析API，同时为开发者提供更完善的文档和技术支持。

此外，还需要不断完善产品的用户界面和易用性，方便非技术人员使用。根据用户反馈，及时更新算法、修复漏洞，优化集成流程，达到更好的用户体验。

在不断变化的市场环境下，情感分析类技术正在逐渐成为企业决策的重要组成部分。文心一言作为其中的佼佼者之一，必将不懈努力，积极应对市场变化，以先进的技术为基础，为用户和企业提供更加优质的情感分析服务

情感分析（Sentiment Analysis），又称观点挖掘，是对带有情感色彩的主观性文本进行分析、处理和提取，系统地识别、量化和研究情感状态和主观信息的过程。情感分析作为自然语言处理（Natural Language Processing，NLP）领域中的一个子领域，是文本分类的一个分支，而自然语言处理又是人工智能的一个重要子领域。情感分析也与我们的生活息息相关，在我们身边有着很多情感分析的应用，例如在2020年突如其来的疫情持续期间，舆情管理就与应用大数据和人工智能进行情感分析密不可分。

同时今天3月15日，正值每年的国际消费者权益日（World Consumer Rights Day），目的在于扩大消费者权益保护的宣传，在国际范围内更好地保护消费者权益。广大消费者都会对购买过的商品进行评论来表达对商品品质的看法，那么对这些商品评论进行情感分析就可以很直接地了解到人们对商品的判断。

情感分析主要有两种研究方法：基于情感词典以及基于机器学习的研究方法，本文则利用Scratch逐步实现了基于词典的情感分析。学习本课程除了需要掌握基本的Scratch基础外，还需要对Scratch的语句结构有更加深入的理解，且需要更高的逻辑思维能力。

与其他的人工智能技术相比，情感分析(Sentiment Analysis)显得有些特殊，因为其他的领域都是根据客观的数据来进行分析和预测，但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容，给情感分析提供了所需的数据基础。时至今日，情感识别已经在多个领域被广泛的应用。例如在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力。在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

目前，绝大多数的人工智能开放平台都具备情感分析的能力，如图所示是玻森中文语义开放平台的情感分析功能演示，可以看出除了通用领域的情感分析外，还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢？从自然语言处理技术的角度来看，情感分析的任务是从评论的文本中提取出评论的实体，以及评论者对该实体所表达的情感倾向，自然语言所有的核心技术问题，例如：词汇语义，指代消解，此役小气，信息抽取，语义分析等都会在情感分析中用到。因此，情感分析被认为是一个自然语言处理的子任务，我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示：(e,a,s,h,t)

以图为例，e是指某餐厅，a为该餐厅的性价比属性，s是对该餐厅的性价比表示了褒义的评价，h为发表评论者本人，t是19年7月27日。所以这条评论的情感分析可以表示为五元组（某餐厅，性价比，正向褒义，评论者，19年7月27日）。

情感分析根据处理文本颗粒度的不同，大致可以分为三个级别的任务，分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感，例如一篇书评，或者对某一个热点时事新闻发表的评论，只要待分析的文本超过了一句话的范畴，即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设，那就是全篇章所表达的观点仅针对一个单独的实体e，且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体，不对篇章中包含的具体实体和实体属性进行研究，使得篇章级的情感分析在实际应用中比较局限，无法对一段文本中的多个实体进行单独分析，对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是：“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价，但如果是：“我觉得这款手机拍照功能很不错，但信号不是很好”这样的句子，在同一个评论中出现了褒义词又出现了贬义词，篇章级的分析是无法分辨出来的，只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者，例如在商品评论的情感分析中，可以默认评论的对象是被评论的商品，评论的观点持有者也是评论者本人。当然，这个也需要看被评论的商品具体是什么东西，如果是亲子旅游这样的旅游服务，那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中，篇章级的情感分析无法满足我们对于评价更细致，如果需要对评论进行更精确，更细致的分析，我们需要拆分篇章中的每一句话，这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似，句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感，虽然颗粒度到了句子层级，但是句子级分析与篇章级存在同样的前提假设是，那就是一个句子只表达了一个观点和一种情感，并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点，句子级的分析是无法分辨的。好在现实生活中，绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的，那么进行句子级的情感分析意义何在呢？关于这个问题，需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中，根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句，例如：“我喜欢这款新手机。”就是一个主观句，表达了说话人内心的情感或观点，而：“这个APP昨天更新了新功能。”则是一个客观句，陈述的是一个客观事实性信息，并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句，可以帮助我们过滤掉一部分不含情感的句子，让数据处理更有效率。

但是在实操过程中，我们会发现这样的分类方法似乎并不是特别准确，因为一个主观句也可能没有表达任何的情感信息，知识表达了期望或者猜测，例如：“我觉得他现在已经在回家的路上了。”这句话是一个主观句，表达了说话人的猜测，但是并没有表达出任何的情感。而客观句也有可能包含情感信息，表明说话者并不希望这个事实发生，例如：“昨天刚买的新车就被人刮花了。”这句话是一个客观句，但结合常识我们会发现，这句话中其实是包含了说话人的负面情感。

所以，仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求，我们需要的是对句子是否含有情感信息进行分类，如果一个句子直接表达或隐含了情感信息，则认为这个句子是含有情感观点的，对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法，这种方法需要大量的人工标注数据，基于句子特征来对句子进行分类。

总之，我们可以将句子级的情感分析分成两步，第一步是判断待分析的句子是否含有观点信息，第二步则是针对这些含有观点信息的句子进行情感分析，发现其中情感的倾向性，判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似，依然是可以采用监督学习或根据情感词词典的方法来处理，我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言，颗粒度更加细分，但同样只能判断整体的情感，忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点，例如：“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子，我们不能将其简单的归类为褒义或贬义的情感，而是需要更进一步的细化颗粒度，对评价实体的属性进行抽取，并将属性与相关实体之间进行关联，这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析，都无法确切的知道评价者喜欢和不喜欢的具体是什么东西，同时也无法区分对某一个被评价实体的A属性持褒义倾向，对B属性却持贬义倾向的情况。但在实际的语言表达中，一个句子中可能包含了多个不同情感倾向的观点，例如：“我喜欢这家餐厅的装修风格，但菜的味道却很一般。”类似于这样的句子，很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化，我们需要从文本中发现或抽取评价的对象主体信息，并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感，这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性，包括评价者以及评价时间，目标是挖掘与发现评论在实体及其属性上的观点信息，使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看，属性级的情感分析可以分为以下6个步骤：

关于文本中的实体抽取和指代消解问题，我们已经在知识图谱的相关章节中做了介绍，这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务，人们做了大量的研究并提出了很多分类的方法，这些方法大致可以分为基于词典和基于机器学习两种，下面我们进行详细的讲解。

做情感分析离不开情感词，情感词是承载情感信息最基本的单元，除了基本的词之外，一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法，主要是基于一个包含了已标注的情感词和短语的词典，在这个词典中包括了情感词的情感倾向以及情感强度，一般将褒义的情感标注为正数，贬义的情感标注为负数。

具体的步骤如图所示，首先将待分析的文本先进行分词，并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配，并根据词典标注的情感分对文本进行加法计算，最终的计算结果如果为正则是褒义情感，如果为负则是贬义情感，如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心，情感词标注数据的好坏直接决定了情感分类的结果，在这方面可以直接采用已有的开源情感词典，例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典，知网（Hownet）情感词典，台湾大学简体中文情感极性词典（NTSUSD），snownlp框架的词典等，同时还可以使用哈工大整理的同义词词林拓展词典作为辅助，通过这个词典可以找到情感词的同义词，拓展情感词典的范围。

当然，我们也可以根据业务的需要来自己训练情感词典，目前主流的情感词词典有三种构建方法：人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值，最简单的方法是将所有的褒义情感词赋值为+1，贬义的情感词赋值为-1，最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求，在实际的语言表达中，存在着非常多的表达方式可以改变情感的强度，最典型的就是程度副词。程度副词分为两种，一种是可以加强情感词原本的情感，这种称之为情感加强词，例如“很好”相较于“好”的情感程度会更强烈，“非常好”又比“很好”更强。另外一种是情感减弱词，例如“没那么好”虽然也是褒义倾向，但情感强度相较于“好”会弱很多。如果出现了增强词，则需要在原来的赋值基础上增加情感得分，如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词，否定词的出现一般会改变情感词原本的情感倾向，变为相反的情感，例如“不好”就是在“好”前面加上了否定词“不”，使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数，即如果“好”的情感倾向是+1，那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感，例如“太好”是一个比“好”褒义倾向更强的词，如果“好”的值为+1，那么“太好”可以赋值为+3，加上否定词的“不太好”变成-3则显然有点过于贬义了，将其赋值为-1或者-05可能更合适。

基于这种情况，我们可以对否定词也添加上程度的赋值而不是简单的取相反数，对于表达强烈否定的词例如“不那么”赋值为±4，当遇到与褒义词的组合时褒义词则取负数，与贬义词的组合则取正数，例如贬义词“难听”的赋值是-3，加上否定词变成“不那么难听”的情感得分就会是（-3+4=1）。

第三种需要注意的情况是条件词，如果一个条件词出现在句子中，则这个句子很可能不适合用来做情感分析，例如“如果我明天可以去旅行，那么我一定会非常开心。”，在这句话中有明显的褒义情感词，但是因为存在条件词“如果”，使得这个句子的并没有表达观点持有者的真实情感，而是一种假设。

除了条件句之外，还有一种语言表达也是需要在数据预处理阶段进行排除的，那就是疑问句。例如“这个餐厅真的有你说的那么好吗？”，虽然句子中出现了很强烈的褒义情感词“那么好”，但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词，例如“……吗？”或者“……么？”，但是也有的疑问句会省略掉结尾词，直接使用标点符号“？”，例如“你今天是不是不开心？”，这个句子中含有否定词和褒义词组成的“不开心”，但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词，典型词是“但是”，出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反，例如：“我上次在这家酒店的住宿体验非常好，但是这次却让我很失望。”在这个转折句中，转折词之前的“非常好”是一个很强的褒义词，但真实的情感表达却是转折词之后的“很失望”，最终应该将其分类为贬义情感。当然，也存在出现了转折词，但语句本身的情感并没有发生改变的情况，例如“你这次考试比上次有了很大的进步，但是我觉得你可以做得更好”，这里的转折词没有转折含义，而是一种递进含义。在实际操作中，我们所以需要先判断转折句真实的情感表达到底是哪个，才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情，除了上述需要注意的问题外，还存在精准度不高，新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性，例如一个句子可能出现了情感词，但并没有表达情感。或者一个句子不含任何情感词，但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题，例如“精明”这个词可以作为褒义词夸奖他人，也可以作为贬义词批评他人。

尽管目前存在诸多问题，但基于字典的情感分析方法也有着不可取代的优势，那就是这种分析方法通用性较强，大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感，对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法，例如逻辑回归、朴素贝叶斯、KNN等，这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤，第一步是根据训练数据构建算法模型，第二步是将测试数据输入到算法模型中输出对应的结果，接下来做具体的讲解。

首先，我们需要准备一些训练用的文本数据，并人工给这些数据做好情感分类的标注，通常的做法下，如果是褒义和贬义的两分类，则褒义标注为1，贬义标注为0，如果是褒义、贬义和中性三分类，则褒义标注为1，中性标注为0，贬义标注为-1

在这一环节中如果用纯人工方法来进行标注，可能会因为个人主观因素对标注的结果造成一定影响，为了避免人的因素带来的影响，也为了提高标注的效率，有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中，商品的评论除了文本数据之外通常还会带有一个5星的等级评分，我们可以根据用户的5星评分作为标注依据，如果是1-2星则标注为贬义，如果是3星标注为中性，4-5星标注为褒义。又比如在社区领域中，很多社区会对帖子有赞和踩的功能，这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词，并进行数据的预处理，前文已经对分词有了很多的介绍，这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词，这里特别说一下，如果是对情感进行分类，可以参考情感词典进行标注，也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的，还需要标注出特定领域的词，例如做商品评价的情感分析，需要标注出商品名称，品类名称，属性名称等。第四步根据分词统计词频构建词袋模型，形成特征词矩阵，如表所示。在这一步可以根据业务需要给每个特征词赋予权重，并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法，将特征词矩阵作为输入数据，得到最终的分类模型。

当训练好分类模型之后，就可以对测试集进行分类了，具体的流程与建模流程类似，先对测试的文本数据进行分词并做数据预处理，然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵，并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类，得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处，第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域，需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注，而人对于情感的理解带有主观性，如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法，也有一些学者将两者结合起来使用，弥补两种方法的缺点，比单独采用一种方法的分类效果要更好，另外，也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析，相信在未来，情感分析会应用在更多的产品中，帮助我们更好的理解用户需求，提升用户使用智能产品的体验。

随着深度神经网络等算法的应用，情感分析的研究方向已经有了非常大的进展，但依然存在着一些难题是目前尚未解决的，在实操过程中需特别注意以下几种类型数据：

情绪轮在用户体验设计上被广泛的应用，很多情感化设计都是基于情绪轮进行的。但是在人工智能领域，将情绪进行多分类比情感分析的三分类任务要难得多，目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别，而且不同的类别之间又可能具有相似性，一个情绪词在不同的语境下有可能表达的是不同的情绪类别，算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳，因为情绪是非常主观性的，不同的人对不同的文本可能产生不同的理解，这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

首先，明确大学生网络舆论引导需要把握的几个问题

1大学生网络舆论引导中的语言把握。网络语言不同于现实生活中的语言，有自己特有的一套语言方式；大学生比较能够接受的语言方式也有其特点。因此，在针对大学生的网络舆论引导中，应该使用符合大学生接受习惯的，同时具有网络语言特点的语言进行引导。网络语言往往简洁明了、直观具体，复杂的含义用简单符号组合就可以表达清楚，同时网络语言有适度放弃词汇本义、在使用中尽可能地对传统语言做出偏离的倾向，语言的表现力很强。这种特点是与网民中18～24岁的年轻人占绝大多数的情况是相适应的。大学生在语言接受习惯上，反感说教式、灌输式的交流，认同与他们平等交流的语言方式。因此在网络舆论引导上，使用的语言方式应该首先是契合网络语言特征的，否则会显得与普通网民的话语格格不入，在形式上就遭到大学生的反感；其次，网络舆论引导中，很忌讳直接将理论灌输、说教用在网络中，应该调整角度，以大学生网友的身份，用亲切交流、友好相处的语言方式潜移默化的网络舆论引导；有时平等而激烈的争辩、尖刻但在理的讽刺反而会赢得大家的好感，这也是网络传播带来的人文精神普及之后的结果。只有契合网络特点、符合大学生接受习惯的语言方式，才有可能获得成功，这是在开展大学生网络舆论引导中必须要把握好的。

2大学生网络舆论心理特点的把握。大学生网络舆论表达是自我认知、自我实现的需要，他们认同并接纳尊重大学生思想、情感、态度等的行为和意见。把握大学生网络舆论行为的心理特点，对于提高网络舆论引导的针对性和有效性是非常重要的。

3大学生网上与网下行为反差的把握。调查发现，有一定比例的大学生在网络上的性格、行为、思想表达，与他们的现实生活往往存在一定程度的不吻合，呈现出某种反差。比如，平时腼腆内向的大学生，有可能在网上表现得率直冲动，敢想敢说；网上表现出来的思想情感不一定会落实在现实生活和实际行动当中，等等。这样的反差的确对提高网络舆论引导的针对性和有效性带来一定的困难，但是也说明了大学生网络舆论的情绪、思想容纳弹性比现实生活中要高一些，这为针对大学生的网络舆论引导工作中时机和度的把握提供了一定的启发。

大学生网络舆论引导的主要方式

舆论引导需要针对不同类型的舆论形态有针对性。研究表明，舆论形态主要有讯息形态的舆论、观念形态的舆论、艺术形态的舆论以及作为舆论畸变的形态——流言等主要类型。网络舆论的主要类型与传统形态的舆论类型基本上没有太大差别。不同类型舆论的引导方式是不同的。针对讯息形态的舆论，由于其强度相对较弱，发展方向也不十分明确，此时的适时引导有效性较强。观念形态的舆论则不同，如果被接受，有可能进一步内化为舆论的深层结构——信念；为公众及时提供符合一般社会规范的参照系，或改变公众已有的参照系，是媒介影响观念形态舆论的主要方式。艺术形态的舆论带有较多的情感色彩，观念的表达是间接的，这种舆论形态对社会可能造成的威胁是“舆论共振”，即在一个短时期内，社会中相当多的公众将注意力集中在一两件作品上，只有一种几乎一致的评价能够流通，不同意见很难有立足之地。对于这种形态的主要引导方式是舆论分流，既发表流行的评价意见，又有意多发表一些其他评价意见，使得过于集中的舆论得以分流，形成正常的舆论不一律的自然状态，在此基础上逐渐使得主旋律评价意见居于主导地位。流言是没有确切来源的在公众中流传的消息，主要是由于信息供给不能满足需求造成的，流言如果任其发展下去后果严重。及时、充分满足信息需求，同时给予适当的引导，可以有效消除流言。

大学生网络舆论的引导方式主要有说服和议程设置等，这也是基于大学生网络舆论特点和舆论引导的一般原理得出的结论。说服是通过传递视听信息有意识地对接受者的行为施加影响，按信息发出者的要求使对象自愿地改变态度或行为。说服总是从对象的特点、需求出发的，具有较强的理性思辨色彩。大学生较高的文化素养、总体理性的网络舆论行为特点为说服方式的有效开展提供了良好基础。

议程设置是媒介传播研究中的一个重要概念。如果将媒介报道和其他内容总体上作为一种传播形势和氛围，那么在一个较长时期内，它们会无形中给公众议程带来某种观念或新的议题，它的影响是潜移默化的、强大的。大学生网络舆论引导中的议程设置，主要目的是形成多个网络舆论的兴奋点，在设置过程中慢慢引导网络舆论改变原有状态，朝着预期的方向发展。由于网络舆论参与性、互动性很强，议程设置有较大的自由度和可能性，但与此同时，由于网络舆论自由度较大，如果议程设置不当，造成在一定的网络空间的议程设置招致反感，网络使用者会转移空间网络舆论行为，使得议程设置的效果适得其反。因此，针对大学生网络舆论的引导，在使用议程设置方式时，一定要有时机和度的准确把握，用适当的方式，才能收到预期的效果。

另外，努力通过网内外的引导促进大学生实现网络虚拟性与现实生活真实性的统一，帮助大学生以负责任的态度参与网络舆论

针对大学生的网络舆论引导工作，除了在网上开展针对性的引导之外，通过规范上网方式、完善网络管理制度也是引导网络舆论健康良性发展的重要举措。对于大学生网络世界的管理、规范和约束，除了道德约束之外，制定完善的网站管理制度等，都是有效的约束制度。这些制度的完善，可以在一定程度上确保大学生网络虚拟性存在与现实生活真实性的统一，促使他们对自己的网络舆论行为负责，认真对待实际上已经成为现实生活一部分的网络世界。

促进大学生主体实现网络虚拟性与现实生活真实性的统一，还应该适当对大学生中存在的网上和网下的行为反差现象进行引导。保持网络虚拟性与现实生活真实性的统一，是锻造健康人格的需要，也是对自己对社会负责任的需要。

网络舆论引导是一个全新的课题。生活在网络环境影响之中的当代大学生，在拥有比前辈更多的资源条件和资讯选择空间的同时，也面临更加复杂的成长环境。面对大学生网络舆论的不断兴盛，在看到存在各种各样的问题的同时，也必须充分认识网络舆论环境对于大学生成长的有利影响，只有这样才能顺应发展趋势，以正确的态度对待大学生网络舆论行为，并以大学生可以接受的方式开展有效的网络舆论引导。

欢迎分享，转载请注明来源：浪漫分享网

原文地址: https://hunlipic.com/qinggan/732690.html

自然语言处理基础知识

发表评论

评论列表（0条）