自然语言处理_一般处理流程2024年_知识

一、一般处理流程

语料获取 -> 文本预处理 -> 特征工程 -> 特征选择

1、语料获取

即需要处理的数据及用于模型训练的语料。

数据源可能来自网上爬取、资料积累、语料转换、OCR转换等，格式可能比较混乱。需要将url、时间、符号等无意义内容去除，留下质量相对较高的非结构化数据。

2、文本预处理

将含杂质、无序、不标准的自然语言文本转化为规则、易处理、标准的结构化文本。

①处理标点符号

可通过正则判定、现有工具(zhon包)等方式筛选清理标点符号。

②分词

将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列的过程。

一般看来英文较容易可通过空格符号分词，中文相对复杂，参考结巴分词、盘古分词、Ansj等工具。

常见的分词算法有：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法，每种方法下面对应许多具体的算法。

③词性标注

为自然语言文本中的每个词汇赋予一个词性的过程，如名词、动词、副词等。可以把每个单词（和它周围的一些额外的单词用于上下文）输入预先训练的词性分类模型。

常用隐马尔科夫模型、N 元模型、决策树

④stop word

英文中含大量 a、the、and，中文含大量的、是、了、啊，这些语气词、助词没有明显的实际意义，反而容易造成识别偏差，可适当进行过滤。

⑤词形还原

偏向于英文中，单数/复数，主动/被动，现在进行时/过去时/将来时等，还原为原型。

⑥统计词频

因为一些频率过高/过低的词是无效的，对模型帮助很小，还会被当做噪声，做个词频统计用于停用词表。

⑦给单词赋予id

给每一个单词一个id，用于构建词典，并将原来的句子替换成id的表现形式

⑧依存句法分析

通过分析句子中词与词之间的依存关系，从而捕捉到词语的句法结构信息(如主谓、动宾、定中等结构关系)，并使用树状结构来表示句子的句法结构信息(如主谓宾、定状补等)。

3、特征工程

做完语料预处理之后，接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。

如果要计算我们至少需要把中文分词的字符串转换成数字，确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。

①词向量

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。

②词袋模型

即不考虑词语原本在句子中的顺序，直接将每一个词语或者符号统一放置在一个集合（如 list），然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式，TF-IDF 是词袋模型的一个经典用法。

常用的表示模型有：词袋模型（Bag of Word, BOW），比如：TF-IDF 算法；词向量，比如 one-hot 算法、word2vec 算法等。

4、特征选择

在文本挖掘相关问题中，特征工程也是必不可少的。在一个实际问题中，构造好的特征向量，是要选择合适的、表达能力强的特征。

举个自然语言处理中的例子来说，我们想衡量like这个词的极性（正向情感还是负向情感）。我们可以预先挑选一些正向情感的词，比如good。然后我们算like跟good的PMI，用到点互信息PMI这个指标来衡量两个事物之间的相关性。

特征选择是一个很有挑战的过程，更多的依赖于经验和专业知识，并且有很多现成的算法来进行特征的选择。目前，常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。

5、模型训练

在特征向量选择好了以后，接下来要做的事情是根据应用需求来训练模型，我们使用不同的模型，传统的有监督和无监督等机器学习模型，如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型；深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在分类、聚类、神经序列、情感分析等应用中都会用到。

当选择好模型后，则进行模型训练，其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好，但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时，也要防止出现梯度消失和梯度爆炸问题。

6、模型评估

在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。模型的评价指标主要有：错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。

7、投产上线

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型 pickle 持久化，提供对外服务。

三、NLP应用方向

1、命名实体识别

指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、时间日期等。

传统机器学习算法主要有HMM和CRF，深度学习常用QRNN、LSTM，当前主流的是基于bert的NER。

2、情感分析

文本情感分析和观点挖掘（Sentiment Analysis)，又称意见挖掘(Opinion Mining)是自然语言处理领域的一个重要研究方向。简单而言，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

情感分析技术可以分为两类，一类是基于机器学习的方法，通过大量有标注、无标注的主观语料，使用统计机器学习算法，通过提取特征，进行文本情感分析。另一类是基于情感词典的方法，根据情感词典所提供的词的情感极性（正向、负向），从而进行不同粒度的（词语、短语、属性、句子、篇章）下的文本情感分析。

3、文章标签

文章标签是利用机器学习算法，对文章进行文字和语义的分析后，提取出若干个重要的词或者短语(关键短语)。关键短语是NLP基础的算法模块，有了关键短语，能为后续的搜索、推荐等更高级的应用提供有力的抓手。

适用场景：1、个性化推荐：通过对文章的标签计算，结合用户画像，精准的对用户进行个性化推荐；2、话题聚合：根据文章计算的标签，聚合相同标签的文章，便于用户对同一话题的文章进行全方位的信息阅读；3、搜索：使用中心词可以对query进行相似度计算、聚类、改写等，可以用于搜索相关性计算。

4、案件串并

①信息抽取

运用实体抽取、关系抽取，从案情中抽取关键信息，如从警情中可以抽取报警人项目、报警人电话、案发地址等信息

②实体对齐

相同的实体在不同的案情中会有不同的表述，会给串并带来困难。可针对地址、人名、组织名进行对齐处理。

③文本聚类

对于关键片段类信息，无法像实体那样对齐，需要借助文本聚类技术进行关联。

④构建图谱

将信息抽取结果存入图谱。每个警情id对应一个节点，实体、属性、关键片段作为节点，对齐的实体、同一类的文本存为同一个节点。

除了来自于从警情中抽取的信息，还可以将其他警务系统中存在的结构化数据导入（如来自户籍信息的人物关系），从而丰富图谱。

⑤图谱检索

完成以上工作，即完成了案件串并的必要基础建设，接下来通过图谱的查询功能自动完成案件的串并。首先需要设定串并的条件，案件串并的条件在警务实战中已有很多的积累，如“具有相似的作案手段”，又如“相似作案手段，嫌疑人有共同联系人”，只需要将这些条件用图谱查询语言表达出来。

豆瓣网文本评论的情感分析论文多。因为豆瓣网是一个内容丰富的文化社区，用户在这里可以发表对**、书籍、音乐等内容的评论和评分，这些评论数据对情感分析研究来说是非常有价值的。在学术界和工业界，已经有很多研究者和公司使用豆瓣网的评论数据进行情感分析研究和应用开发。这些研究涵盖了各种情感分析算法和技术，如基于词典的情感分析、基于机器学习的情感分析、基于深度学习的情感分析等。同时，也有很多论文对豆瓣网评论数据进行了情感分析，这些论文主要关注情感分析算法的优化和应用场景的拓展。

1、数据预处理：将原始文本数据进行清洗、分词、去除停用词等预处理操作，得到文本的词袋表示。

2、特征提取：对于每个属性，从词袋中提取出与该属性相关的特征词，例如“价格”、“质量”等。

3、聚类或主题建模：使用聚类或主题建模方法对文本进行无监督学习，将文本按照不同的主题或簇进行分组，从而实现属性级分类，对于聚类方法，可以使用K-means、DBSCAN等算法。对于主题模型，可以使用LDA等算法。

4、情感分析：对于每个属性，计算该属性下文本的情感得分，可以使用情感词典或者情感分类器等方法进行情感分析。

文本情感分析根据文本大小可以划分为单词，句子级和篇章级，根据不同的分析目的，可以分为主客观分析(作者对客观事物的分析)和主观分析(作者自己的体验);根据处理方法的可以分为基于词典的情感分析和基于机器学习(SVM方法，神经网络和朴素贝叶斯方法)的情感分析;根据是否有人工参与，可以分为非监督和监督分类方法，区别在于是否需要人工情感标记。算法，主要的改进是通过依赖分析，围绕情感词，进行情感倾向性分析。

情感分析也被称为意见挖掘。情感分类涉及多个领域，如自然语音处理，人工智能，自动文本分类，文本挖掘，心理学等。它主要用来判别自然语言文字表达的观点，喜好以及感受和态度等相关的信息。

感情是指:对于外界刺激所产生的喜怒哀乐等心理反应

情感是态度这一整体中的一部分，它与态度中的内向感受、意向具有协调一致性，是态度在生理上一种较复杂而又稳定的生理评价和体验。情感包括道德感和价值感两个方面，具体表现为爱情、幸福、仇恨、厌恶、美感等等。

本次实验将继续加载两个数据，一个是已经标注好的用户评论数据，另外一个是用户评价主题句，通过标注过的用户评论数据研究不同粒度的用户评价处理对深度情感分析模型的性能的影响，并比较字符级模型在用户评价情感极性推理上的差异。

使用 Pandas 加载已经标注好的在线用户评论情感数据表格，并查看数据维度和前 5 行数据。

加载民宿评论数据，并打印第一行。

数据属性如下表所示

用户评论分词

jieba 分词器预热，第一次使用需要加载字典和缓存，通过结果看出返回的是分词的列表。

批量对用户评价进行分词，并打印第一行数据，处理过程需要一些时间。

将用户评论处理成字符级别，为字符级模型提供训练集，并打印第一行数据，此预处理速度远远快于分词速度。

TextCNN 使用的卷积神经网络是一个典型的空间上的深度神经网络，基于卷积神经网络的情感分析具有优秀的特征抽取能力，能显著降低情感分类中人工抽取特征的难度。这类方法又根据文本嵌入粒度的不同可以分为字符级嵌入和词嵌入两种，一种是以分词后的词为情感分析粒度，另一种为字符级粒度的情感分析粒度，最后一层将包含全文潜在信息的最终编码送入 Sigmoid 做情感强度计算，即可对用户评论进行情感极性推理，是目前在文本分类经常使用的模型。

词级别模型训练

按照训练集 8 成和测试集 2 成的比例对数据集进行划分。

词级 TextCNN 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量，并对指标收集，包含：模型的训练时间、accuracy_score 表示被正确预测的样本占总样本的比例、f1_score 值表示精确率与召回率的调和平均数和模型标签。

对训练的模型进行加载，并打印网络结构。

设置固定划分数据集，划分比例为 02 即训练集是测试集的 4 倍量。

字符级别模型训练

字符级 TextCNN 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对字符级 TextCNN 的预测结果进行收集。

GRU 属于 RNN（recurrent neural networks，循环神经网络)，是 LSTM 最流行的一个变体，比 LSTM 模型要简单，GRU 的门控单元减少了一个，GRU 与 LSTM 一样都是旨在解决标准 RNN 中出现的梯度消失问题，GRU 比 LSTM 在减少了计算量的条件下，做到了精度与 LSTM 持平，是目前在文本分类经常使用的模型。

我们使用函数定义的方式进行 GRU 模型的初始化。

对训练的模型进行加载，并打印网络结构。

词级别模型训练

词级 GRU 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对训练的模型进行加载，并打印网络结构。

字符级别模型训练

将处理好的用户评论数据进行字符级处理即可输入字符级 GRU 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对字符级 GRU 的测试集预测性能进行记录。

模型性能分析

通过控制参数变量的方式进行，并使用同样的数据集合观察性能指数测试结果。字符级能使用较小的字符级词典对语料的覆盖度更高，字符级预处理在测试集上的表现基本接近词级模型，并从耗时来看字符级都是最少的。TextCNN 架构总体高于 GRU 的准确度和综合值，并且训练时间相对较短。字符级语言建模的思想来自于信号处理，使用语言最小的文字单元去模拟复杂的语义关系，因为我们相信模型可以捕捉到这些语法和单词语义信息，在后续我们继续使用这种方式。

对用户评论数据预处理

对用户评论进行字符向量化。

情感极性推理

使用训练好的字符级 TextCNN 对用户评论进行情感预测，需要一些时间，请耐心等待。

使用训练好的字符级 GRU 对用户评论进行情感预测，需要一些时间，请耐心等待。

情感极性推理结果可视化

将两种字符级神经网络情感极性推理模型的结果取出来。

对全量的用户评论分别使用两个模型进行情感极性预测，并进行可视化，我们发现两种模型在全量的用户评论上的表现基本一致，字符级 TextCNN 在用户两极情感极性上表现更好。

怎样通过句法分析分析句子情感算法例子？现阶段主要的情感分析方法主要有两类：

基于词典的方法

基于机器学习的方法

基于词典的方法主要通过制定一系列的情感词典和规则，对文本进行段落拆借、句法分析，计算情感值，最后通过情感值来作为文本的情感倾向依据。

基于机器学习的方法大多将这个问题转化为一个分类问题来看待，对于情感极性的判断，将目标情感分类2类：正、负。对训练文本进行人工标标注，然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7939179.html

自然语言处理_一般处理流程

发表评论

评论列表（0条）