自然语言处理_一般处理流程_知识

一、一般处理流程

语料获取 -> 文本预处理 -> 特征工程 -> 特征选择

1、语料获取

即需要处理的数据及用于模型训练的语料。

数据源可能来自网上爬取、资料积累、语料转换、OCR转换等，格式可能比较混乱。需要将url、时间、符号等无意义内容去除，留下质量相对较高的非结构化数据。

2、文本预处理

将含杂质、无序、不标准的自然语言文本转化为规则、易处理、标准的结构化文本。

①处理标点符号

可通过正则判定、现有工具(zhon包)等方式筛选清理标点符号。

②分词

将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列的过程。

一般看来英文较容易可通过空格符号分词，中文相对复杂，参考结巴分词、盘古分词、Ansj等工具。

常见的分词算法有：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法，每种方法下面对应许多具体的算法。

③词性标注

为自然语言文本中的每个词汇赋予一个词性的过程，如名词、动词、副词等。可以把每个单词（和它周围的一些额外的单词用于上下文）输入预先训练的词性分类模型。

常用隐马尔科夫模型、N 元模型、决策树

④stop word

英文中含大量 a、the、and，中文含大量的、是、了、啊，这些语气词、助词没有明显的实际意义，反而容易造成识别偏差，可适当进行过滤。

⑤词形还原

偏向于英文中，单数/复数，主动/被动，现在进行时/过去时/将来时等，还原为原型。

⑥统计词频

因为一些频率过高/过低的词是无效的，对模型帮助很小，还会被当做噪声，做个词频统计用于停用词表。

⑦给单词赋予id

给每一个单词一个id，用于构建词典，并将原来的句子替换成id的表现形式

⑧依存句法分析

通过分析句子中词与词之间的依存关系，从而捕捉到词语的句法结构信息(如主谓、动宾、定中等结构关系)，并使用树状结构来表示句子的句法结构信息(如主谓宾、定状补等)。

3、特征工程

做完语料预处理之后，接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。

如果要计算我们至少需要把中文分词的字符串转换成数字，确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。

①词向量

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。

②词袋模型

即不考虑词语原本在句子中的顺序，直接将每一个词语或者符号统一放置在一个集合（如 list），然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式，TF-IDF 是词袋模型的一个经典用法。

常用的表示模型有：词袋模型（Bag of Word, BOW），比如：TF-IDF 算法；词向量，比如 one-hot 算法、word2vec 算法等。

4、特征选择

在文本挖掘相关问题中，特征工程也是必不可少的。在一个实际问题中，构造好的特征向量，是要选择合适的、表达能力强的特征。

举个自然语言处理中的例子来说，我们想衡量like这个词的极性（正向情感还是负向情感）。我们可以预先挑选一些正向情感的词，比如good。然后我们算like跟good的PMI，用到点互信息PMI这个指标来衡量两个事物之间的相关性。

特征选择是一个很有挑战的过程，更多的依赖于经验和专业知识，并且有很多现成的算法来进行特征的选择。目前，常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。

5、模型训练

在特征向量选择好了以后，接下来要做的事情是根据应用需求来训练模型，我们使用不同的模型，传统的有监督和无监督等机器学习模型，如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型；深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在分类、聚类、神经序列、情感分析等应用中都会用到。

当选择好模型后，则进行模型训练，其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好，但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时，也要防止出现梯度消失和梯度爆炸问题。

6、模型评估

在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。模型的评价指标主要有：错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。

7、投产上线

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型 pickle 持久化，提供对外服务。

三、NLP应用方向

1、命名实体识别

指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、时间日期等。

传统机器学习算法主要有HMM和CRF，深度学习常用QRNN、LSTM，当前主流的是基于bert的NER。

2、情感分析

文本情感分析和观点挖掘（Sentiment Analysis)，又称意见挖掘(Opinion Mining)是自然语言处理领域的一个重要研究方向。简单而言，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

情感分析技术可以分为两类，一类是基于机器学习的方法，通过大量有标注、无标注的主观语料，使用统计机器学习算法，通过提取特征，进行文本情感分析。另一类是基于情感词典的方法，根据情感词典所提供的词的情感极性（正向、负向），从而进行不同粒度的（词语、短语、属性、句子、篇章）下的文本情感分析。

3、文章标签

文章标签是利用机器学习算法，对文章进行文字和语义的分析后，提取出若干个重要的词或者短语(关键短语)。关键短语是NLP基础的算法模块，有了关键短语，能为后续的搜索、推荐等更高级的应用提供有力的抓手。

适用场景：1、个性化推荐：通过对文章的标签计算，结合用户画像，精准的对用户进行个性化推荐；2、话题聚合：根据文章计算的标签，聚合相同标签的文章，便于用户对同一话题的文章进行全方位的信息阅读；3、搜索：使用中心词可以对query进行相似度计算、聚类、改写等，可以用于搜索相关性计算。

4、案件串并

①信息抽取

运用实体抽取、关系抽取，从案情中抽取关键信息，如从警情中可以抽取报警人项目、报警人电话、案发地址等信息

②实体对齐

相同的实体在不同的案情中会有不同的表述，会给串并带来困难。可针对地址、人名、组织名进行对齐处理。

③文本聚类

对于关键片段类信息，无法像实体那样对齐，需要借助文本聚类技术进行关联。

④构建图谱

将信息抽取结果存入图谱。每个警情id对应一个节点，实体、属性、关键片段作为节点，对齐的实体、同一类的文本存为同一个节点。

除了来自于从警情中抽取的信息，还可以将其他警务系统中存在的结构化数据导入（如来自户籍信息的人物关系），从而丰富图谱。

⑤图谱检索

完成以上工作，即完成了案件串并的必要基础建设，接下来通过图谱的查询功能自动完成案件的串并。首先需要设定串并的条件，案件串并的条件在警务实战中已有很多的积累，如“具有相似的作案手段”，又如“相似作案手段，嫌疑人有共同联系人”，只需要将这些条件用图谱查询语言表达出来。

1、大数据情感分析是指利用大数据技术和自然语言处理技术，对海量的文本数据进行分析和挖掘，从中提取出文本中所包含的情感信息，

2、情感分析的主要目的是通过计算机技术和语言学知识，帮助人们更好地理解和分析大量的文本数据，并从中挖掘出有用的信息。

那么，如何利用好教材去设置情感目标，来引起学生的共鸣呢？这需要教师在备课时，充分深化教材中显性和隐性的情感目标，并将这些目标具体化。有的教材，课文中直接体现了一些关爱他人、热爱劳动、关心集体、欣赏别人等等比较显性的情感因素，教师在备课时，很容易就将这些目标体现在教学活动中。但是还有很多教材，初看并没有可利用的情感目标，这时就需要教师深入挖掘，另辟途径，寓情感教育于知识目标中，实现两者的完美统一。推荐人：崔静梅江苏省常熟市教育局教研室潘志琴如何利用好教材去设置情感目标，来引起学生的共鸣呢？这需要教师在备课时，充分深化教材中显性和隐性的情感目标，并将这些目标具体化。有的教材，课文中直接体现了一些关爱他人、热爱劳动、关心集体、欣赏别人等等比较显性的情感因素，教师在备课时，很容易就将这些目标体现在教学活动中。但是还有很多教材，初看并没有可利用的情感目标，这时就需要教师深入挖掘，另辟途径，寓情感教育于知识目标中，实现两者的完美统一。一、挖掘教材中可引申的情感因素一些教材里面似乎没有可以引申的情感因素，但是教师只要多观察、多思考，不但能拓展出可利用的情感因素，还能通过这些情感因素帮助学生掌握教材，激发学生的学习兴趣。案例1：《牛津小学英语》5A Unit 1 The first day at school这一单元的语篇，主要介绍了学校的一幢新大楼和里面的设施。在介绍耐，利用了本单元的主干句型：Is there a---in the--- Yes,there is／Nothere isn'tAre there anyin the Yes,there are．/No, there aren't．初看教材，这个单元就是学习there be句型的一般疑问句。很多教师反映，这样的课上起来很枯燥、单调，很难从中找到适合的情感因素。我在上这个单元时，正好是汶川地震灾后，在教学设计时，我将情感目标设置为：通过两处不同的开学场景，珍惜现在的学校生活，不和别人攀比。在巩固句型时，我通过多媒体展现了汶川地震灾区的一个学校简陋的校舍，请同学们思考：你看到这样的学校，他们和我们一样，也开学了，你想了解什么？你有什么要问的问题吗？学生们从他们关心的校舍到书本、学习用品甚至是身上的衣服，提出了一个又一个问题。接着我让他们看其他，观察里面的设施，来回答问题： Are there any classrooms/music rooms/---in the school Are there any new school bags Are there any new clothes 分析这节课的学习气氛很热烈，我想是同掌们心中那份对灾区的牵挂，才激起大家这么高的热情。他们的提问很好地结合了本单元的重点句型，在了解灾区同龄学生学习情况的同时，也为后一单元的学习做好了铺垫。因为第二单元的学习是关于There is/are一．，There isn' t/aren't一·句型的，对于自己的学校和灾区的学校，同学们已经非常了解，描述熟悉的场景，同学们当然有话可说了。二、将情意活动从课内延伸到课外教材内容中有许多显性的情意目标，在教材处理过程中，学生已经深切地感受到了。在巩固拓展环节，如果教师的活动能从课内延伸到课外，从书本练习延伸到学生的生活实际，那学生的参与热情会更高。案例2： 4A Unit 7 It's late这一课，内容是Mike早上起床晚了，没时间吃早饭。通过Mike和奶奶之间的对话，学习句型：What time do you go to school I…at…．在课文学习过程中，同学们都了解了要按时作息，合理安排时间、珍惜时间的道理。在拓展环节，我设计了这样一个活动：结合书上D部分的内容，调查一下周边同学双休日的作息时间并做好记录。因为双休日大家的时间安排各不相同，教室里一下子热闹了起来，同学们你言我语，对话活动又活跃起来。分析在本课教学过程中，同学们一直围绕话题What time do you…？去了解Mike和同伴们的作息时间，如果在巩固环节继续安排这个任务，同学们多少会失去兴趣，因为他们每天的作息时间大同小异。而双休日的作息时间同学们却各不相同。根据大家的调查，我们看到了有些同学时间安排合理，兼顾了学习和娱乐；而有些同学的时间都消磨在床上和电视机、电脑前了。通过比较，大家知道了如何过有意义的双休日。这样的设计不仅有效地运用了句型，更了解了全班同学双休日的情况，更重要的是教师利用集体点评，还做了一次双休活动的引导。三、在教学活动中创设真实的情感活动通过活动，让学生产生真实的情感体验，因为只有真实的情感体验才能触动学生的心灵，才能在他们的脑海中留下深刻印象。同时，由于活动贴近学生生活，学生有相同的生活经历，所以有话可说。案例3： SA Unit 3 At a music lesson这一课，主要是学习What can you do I can…这个句型。对于五年级学生来说，这个句型比较简单，所以每次操练，学生都能积极参与，但是，回答问题时基本是围绕运动类单词和学习类单词展开，内容几乎是重复的，很难听到精彩的发言。针对这样的教学内容，我对学习任务进行了改变。在课堂巩固环节，坞学生分成四组，为每组布置了如野营、班队活动、运动会和爱心义卖等不同住务。因为这些活动都是学生参与过并且感兴趣的话题，学生通过讨论不仅会表达自己的思考，还会提供新的信息。这样的情感目标设计，目的是让学生知道自己是团队中重要的一部分，通过活动了解合作的重要性。

新闻情感分析它是新闻内容评论及转发的情感分析的集合，因为每一起舆情事件的信息类型都是由原贴、转发以及评论构成。

那么当网络上有与己相关的舆情事件发生，或想要关注的舆情事件发生时，我们应该如何掌握其情感倾向或各情绪的占比情况，以评估事态影响，采取针对性的应对措施呢？

新闻情感分析解决方法

在这里以新闻情感分析工具-识微商情为例，看其如何助力新闻情感分析工作开展：

1舆情数据收集：可根据用户需求，自动对全网的舆情数据进行采集，释放人力，关注信息一目了然。

2语义分析：这就包括原贴、转发以及评论，用户也可以自定义筛选某一信息类型。通过监测关于某一个特定主题的正负面中立意见，可自动识别文本中各种情感是如何表达的，然后通过内置的告警通知，向舆情接收者发出通知（用户可自定义舆情预警接收方式，如微信、短信、邮件、客户端、人工客服等）。

3全面综合分析：除新闻情感分析之外，还能实时追踪已订阅主题的发展变化趋势，分析舆情事件在各生命周期阶段的热点话题，挖掘舆情事件在演化过程中的传播网站、传播媒体、关键传播节点以及传播溯源、同步生成可视化的分析图表和报告等，便于对网络舆情事件的发展变化趋势做出有效的预测，为舆情应对、引导以及工作总结提供助力。

与其他的人工智能技术相比，情感分析(Sentiment Analysis)显得有些特殊，因为其他的领域都是根据客观的数据来进行分析和预测，但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容，给情感分析提供了所需的数据基础。时至今日，情感识别已经在多个领域被广泛的应用。例如在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力。在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

目前，绝大多数的人工智能开放平台都具备情感分析的能力，如图所示是玻森中文语义开放平台的情感分析功能演示，可以看出除了通用领域的情感分析外，还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢？从自然语言处理技术的角度来看，情感分析的任务是从评论的文本中提取出评论的实体，以及评论者对该实体所表达的情感倾向，自然语言所有的核心技术问题，例如：词汇语义，指代消解，此役小气，信息抽取，语义分析等都会在情感分析中用到。因此，情感分析被认为是一个自然语言处理的子任务，我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示：(e,a,s,h,t)

以图为例，e是指某餐厅，a为该餐厅的性价比属性，s是对该餐厅的性价比表示了褒义的评价，h为发表评论者本人，t是19年7月27日。所以这条评论的情感分析可以表示为五元组（某餐厅，性价比，正向褒义，评论者，19年7月27日）。

情感分析根据处理文本颗粒度的不同，大致可以分为三个级别的任务，分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感，例如一篇书评，或者对某一个热点时事新闻发表的评论，只要待分析的文本超过了一句话的范畴，即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设，那就是全篇章所表达的观点仅针对一个单独的实体e，且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体，不对篇章中包含的具体实体和实体属性进行研究，使得篇章级的情感分析在实际应用中比较局限，无法对一段文本中的多个实体进行单独分析，对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是：“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价，但如果是：“我觉得这款手机拍照功能很不错，但信号不是很好”这样的句子，在同一个评论中出现了褒义词又出现了贬义词，篇章级的分析是无法分辨出来的，只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者，例如在商品评论的情感分析中，可以默认评论的对象是被评论的商品，评论的观点持有者也是评论者本人。当然，这个也需要看被评论的商品具体是什么东西，如果是亲子旅游这样的旅游服务，那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中，篇章级的情感分析无法满足我们对于评价更细致，如果需要对评论进行更精确，更细致的分析，我们需要拆分篇章中的每一句话，这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似，句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感，虽然颗粒度到了句子层级，但是句子级分析与篇章级存在同样的前提假设是，那就是一个句子只表达了一个观点和一种情感，并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点，句子级的分析是无法分辨的。好在现实生活中，绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的，那么进行句子级的情感分析意义何在呢？关于这个问题，需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中，根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句，例如：“我喜欢这款新手机。”就是一个主观句，表达了说话人内心的情感或观点，而：“这个APP昨天更新了新功能。”则是一个客观句，陈述的是一个客观事实性信息，并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句，可以帮助我们过滤掉一部分不含情感的句子，让数据处理更有效率。

但是在实操过程中，我们会发现这样的分类方法似乎并不是特别准确，因为一个主观句也可能没有表达任何的情感信息，知识表达了期望或者猜测，例如：“我觉得他现在已经在回家的路上了。”这句话是一个主观句，表达了说话人的猜测，但是并没有表达出任何的情感。而客观句也有可能包含情感信息，表明说话者并不希望这个事实发生，例如：“昨天刚买的新车就被人刮花了。”这句话是一个客观句，但结合常识我们会发现，这句话中其实是包含了说话人的负面情感。

所以，仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求，我们需要的是对句子是否含有情感信息进行分类，如果一个句子直接表达或隐含了情感信息，则认为这个句子是含有情感观点的，对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法，这种方法需要大量的人工标注数据，基于句子特征来对句子进行分类。

总之，我们可以将句子级的情感分析分成两步，第一步是判断待分析的句子是否含有观点信息，第二步则是针对这些含有观点信息的句子进行情感分析，发现其中情感的倾向性，判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似，依然是可以采用监督学习或根据情感词词典的方法来处理，我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言，颗粒度更加细分，但同样只能判断整体的情感，忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点，例如：“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子，我们不能将其简单的归类为褒义或贬义的情感，而是需要更进一步的细化颗粒度，对评价实体的属性进行抽取，并将属性与相关实体之间进行关联，这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析，都无法确切的知道评价者喜欢和不喜欢的具体是什么东西，同时也无法区分对某一个被评价实体的A属性持褒义倾向，对B属性却持贬义倾向的情况。但在实际的语言表达中，一个句子中可能包含了多个不同情感倾向的观点，例如：“我喜欢这家餐厅的装修风格，但菜的味道却很一般。”类似于这样的句子，很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化，我们需要从文本中发现或抽取评价的对象主体信息，并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感，这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性，包括评价者以及评价时间，目标是挖掘与发现评论在实体及其属性上的观点信息，使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看，属性级的情感分析可以分为以下6个步骤：

关于文本中的实体抽取和指代消解问题，我们已经在知识图谱的相关章节中做了介绍，这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务，人们做了大量的研究并提出了很多分类的方法，这些方法大致可以分为基于词典和基于机器学习两种，下面我们进行详细的讲解。

做情感分析离不开情感词，情感词是承载情感信息最基本的单元，除了基本的词之外，一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法，主要是基于一个包含了已标注的情感词和短语的词典，在这个词典中包括了情感词的情感倾向以及情感强度，一般将褒义的情感标注为正数，贬义的情感标注为负数。

具体的步骤如图所示，首先将待分析的文本先进行分词，并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配，并根据词典标注的情感分对文本进行加法计算，最终的计算结果如果为正则是褒义情感，如果为负则是贬义情感，如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心，情感词标注数据的好坏直接决定了情感分类的结果，在这方面可以直接采用已有的开源情感词典，例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典，知网（Hownet）情感词典，台湾大学简体中文情感极性词典（NTSUSD），snownlp框架的词典等，同时还可以使用哈工大整理的同义词词林拓展词典作为辅助，通过这个词典可以找到情感词的同义词，拓展情感词典的范围。

当然，我们也可以根据业务的需要来自己训练情感词典，目前主流的情感词词典有三种构建方法：人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值，最简单的方法是将所有的褒义情感词赋值为+1，贬义的情感词赋值为-1，最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求，在实际的语言表达中，存在着非常多的表达方式可以改变情感的强度，最典型的就是程度副词。程度副词分为两种，一种是可以加强情感词原本的情感，这种称之为情感加强词，例如“很好”相较于“好”的情感程度会更强烈，“非常好”又比“很好”更强。另外一种是情感减弱词，例如“没那么好”虽然也是褒义倾向，但情感强度相较于“好”会弱很多。如果出现了增强词，则需要在原来的赋值基础上增加情感得分，如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词，否定词的出现一般会改变情感词原本的情感倾向，变为相反的情感，例如“不好”就是在“好”前面加上了否定词“不”，使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数，即如果“好”的情感倾向是+1，那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感，例如“太好”是一个比“好”褒义倾向更强的词，如果“好”的值为+1，那么“太好”可以赋值为+3，加上否定词的“不太好”变成-3则显然有点过于贬义了，将其赋值为-1或者-05可能更合适。

基于这种情况，我们可以对否定词也添加上程度的赋值而不是简单的取相反数，对于表达强烈否定的词例如“不那么”赋值为±4，当遇到与褒义词的组合时褒义词则取负数，与贬义词的组合则取正数，例如贬义词“难听”的赋值是-3，加上否定词变成“不那么难听”的情感得分就会是（-3+4=1）。

第三种需要注意的情况是条件词，如果一个条件词出现在句子中，则这个句子很可能不适合用来做情感分析，例如“如果我明天可以去旅行，那么我一定会非常开心。”，在这句话中有明显的褒义情感词，但是因为存在条件词“如果”，使得这个句子的并没有表达观点持有者的真实情感，而是一种假设。

除了条件句之外，还有一种语言表达也是需要在数据预处理阶段进行排除的，那就是疑问句。例如“这个餐厅真的有你说的那么好吗？”，虽然句子中出现了很强烈的褒义情感词“那么好”，但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词，例如“……吗？”或者“……么？”，但是也有的疑问句会省略掉结尾词，直接使用标点符号“？”，例如“你今天是不是不开心？”，这个句子中含有否定词和褒义词组成的“不开心”，但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词，典型词是“但是”，出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反，例如：“我上次在这家酒店的住宿体验非常好，但是这次却让我很失望。”在这个转折句中，转折词之前的“非常好”是一个很强的褒义词，但真实的情感表达却是转折词之后的“很失望”，最终应该将其分类为贬义情感。当然，也存在出现了转折词，但语句本身的情感并没有发生改变的情况，例如“你这次考试比上次有了很大的进步，但是我觉得你可以做得更好”，这里的转折词没有转折含义，而是一种递进含义。在实际操作中，我们所以需要先判断转折句真实的情感表达到底是哪个，才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情，除了上述需要注意的问题外，还存在精准度不高，新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性，例如一个句子可能出现了情感词，但并没有表达情感。或者一个句子不含任何情感词，但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题，例如“精明”这个词可以作为褒义词夸奖他人，也可以作为贬义词批评他人。

尽管目前存在诸多问题，但基于字典的情感分析方法也有着不可取代的优势，那就是这种分析方法通用性较强，大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感，对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法，例如逻辑回归、朴素贝叶斯、KNN等，这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤，第一步是根据训练数据构建算法模型，第二步是将测试数据输入到算法模型中输出对应的结果，接下来做具体的讲解。

首先，我们需要准备一些训练用的文本数据，并人工给这些数据做好情感分类的标注，通常的做法下，如果是褒义和贬义的两分类，则褒义标注为1，贬义标注为0，如果是褒义、贬义和中性三分类，则褒义标注为1，中性标注为0，贬义标注为-1

在这一环节中如果用纯人工方法来进行标注，可能会因为个人主观因素对标注的结果造成一定影响，为了避免人的因素带来的影响，也为了提高标注的效率，有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中，商品的评论除了文本数据之外通常还会带有一个5星的等级评分，我们可以根据用户的5星评分作为标注依据，如果是1-2星则标注为贬义，如果是3星标注为中性，4-5星标注为褒义。又比如在社区领域中，很多社区会对帖子有赞和踩的功能，这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词，并进行数据的预处理，前文已经对分词有了很多的介绍，这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词，这里特别说一下，如果是对情感进行分类，可以参考情感词典进行标注，也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的，还需要标注出特定领域的词，例如做商品评价的情感分析，需要标注出商品名称，品类名称，属性名称等。第四步根据分词统计词频构建词袋模型，形成特征词矩阵，如表所示。在这一步可以根据业务需要给每个特征词赋予权重，并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法，将特征词矩阵作为输入数据，得到最终的分类模型。

当训练好分类模型之后，就可以对测试集进行分类了，具体的流程与建模流程类似，先对测试的文本数据进行分词并做数据预处理，然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵，并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类，得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处，第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域，需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注，而人对于情感的理解带有主观性，如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法，也有一些学者将两者结合起来使用，弥补两种方法的缺点，比单独采用一种方法的分类效果要更好，另外，也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析，相信在未来，情感分析会应用在更多的产品中，帮助我们更好的理解用户需求，提升用户使用智能产品的体验。

随着深度神经网络等算法的应用，情感分析的研究方向已经有了非常大的进展，但依然存在着一些难题是目前尚未解决的，在实操过程中需特别注意以下几种类型数据：

情绪轮在用户体验设计上被广泛的应用，很多情感化设计都是基于情绪轮进行的。但是在人工智能领域，将情绪进行多分类比情感分析的三分类任务要难得多，目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别，而且不同的类别之间又可能具有相似性，一个情绪词在不同的语境下有可能表达的是不同的情绪类别，算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳，因为情绪是非常主观性的，不同的人对不同的文本可能产生不同的理解，这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

通常来说，舆情分析系统的主要功能作用分为两大部分，一是舆情数据收据，二是舆情数据分析，以识微商情为例：

一、收集舆情数据

收集所有主流新闻、社交、视频等网站和App、博客、论坛等的公开提及。以企业为例，根据需求，通过关键词来设定监测主题，一般是监测品牌声誉、营销活动、竞争对手、行业动态、某个事件这几个方面。

二、舆情数据分析

1重点统计

重点统计提供了监测主题下一些重要数据的一个概览，比如相关信息总量、负面信息量、热门传播内容等，这样可以对于当前的情况有一个基本的了解。

2时间趋势

时间趋势，有些工具也可能叫发展趋势、舆情态势，指某个监测主题在某一段时间内的网络信息发展趋势。网络信息瞬息万变，趋势也是跟随着实时变化的。通过设定的关键词得到趋势数据后，可以直观的了解监测主题的整体舆情发展情况是上升还是下降，总结舆情传播的路径和特征，评估舆情发展阶段、预测未来趋势。

3情感分析

情感分析，也称为意见挖掘或情感AI，指分析在线文章以确定它们所承载的情感基调的过程。该过程背后的科学基于自然语言处理和机器学习的算法，将文章分类为正面、中性、负面。情感分析有助于找出发帖者对某个话题的态度。情绪分析会展现舆情整体情绪倾向，对网络上新闻媒体、网民的总态度进行正面、负面、中性（或非敏感、敏感）划分。如果监测的品牌、产品或服务的负面评价突然激增，则表明舆情危机可能正在酝酿中。

4话题分析

话题分析，指监测主题下被被多数表达的话题内容，可能是某个事件的关键事实、也可能是主流的观点。通过话题分析，可以把握事件声量倾向性、关键词、主要观点，以及其在媒体渠道的传播情况，话题分析模块中，一般从媒体报道和网民言论两方面进行分析，概括总结不同身份视角下的不同舆论声音，全面了解舆情聚焦方向。若媒体报道和网民言论趋同，也可合并划分。

5媒体类型

媒体类型，指信息传播媒介类型。通过媒体类型分析，可以了解到监测主题下的关注者、参与者、传播者主要分布在哪些渠道及每个渠道的传播趋势。通过对媒体类型的筛选，还可以了解到各个渠道上的情感倾向、话题倾向等多个维度数据。以此为依据，可以选择适合的渠道开展公关或者营销活动。

6属地分析

属地即IP归属地属地。6月27日，国家互联网信息办公室发布《互联网用户账号信息管理规定》，自2022年8月1日起施行。《规定》提出，在互联网用户账号信息页面展示合理范围内的互联网用户账号的互联网协议（IP）地址归属地信息，便于公众为公共利益实施监督。属地分析将呈现信息的地域分布，进一步了解不同地域间网民对监测主体的关注热度、分析关注人群的地域特征。

7热门网站

热门网站，即根据监测主题下产生信息较多的网站。通过对信息的分布渠道进行分析，了解舆情分布的平台情况，传播什么样的内容。企业可以结合媒体类型，为之后的活动传播渠道规划提供参考。

8热门文章

热门文章，即监测主题下获得较多传播的内容。一般从文章标题、信息来源、内容概要进行聚合分析，加入传播时间及转发量等方面考量，展现舆情传播中的热门内容。通过热门文章，方便快速了解监测期内舆情的重点事件或媒体的发文侧重点。

9热词分析

热词分析，即监测主题下被频繁使用的词组分析。通过热词分析，可以了解被舆论重点关注的事件关键信息、主流态度/观点等。

10信息类型

信息类型，即人群发布内容的类型，一般分为原贴、转发和评论。通过分析发文类型的占比情况、随时间各类型信息变化趋势，可以了解到人群对于事件的参与度，在舆情传播中的不同作用。一般评论较多的代表此事有更大的争议性，原贴、转帖占比更大的的代表人们更希望此事得到传播。

您好。您说的是情感文本分析吗？如果是的话，我觉得情感计算的分类有两大类，一类是主观性：主观、客观、中性；一类是情感倾向：褒义、贬义、中性。

文本分析的话，主要是对词、句子中观点的挖掘。

你所说的机器学习法，现在基本用于对**观点的打分系统吧。基本上就是利用分类计数，对文档中存在的情感进行分类的。

就我个人理解而言，我认为机器学习法只是情感文本分析的方法论之一，至于数据挖掘，也是通过对文档的数据收取，进行情感分析的。也是对情感文本分析的方法论之一。

所以，情感分析是主体的话，文本分类、机器学习、数据挖掘都是方式方法。这些方法可以共同应用在一个情感分析中，也可以分别独立存在。

目前英文类的文本情感分析比较多，中文类的相对少一点，你要做这方面的研究路漫漫其修远啊。嘿嘿。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/4278550.html

自然语言处理_一般处理流程

发表评论

评论列表（0条）