自然语言处理_一般处理流程2024年_知识

一、一般处理流程

语料获取 -> 文本预处理 -> 特征工程 -> 特征选择

1、语料获取

即需要处理的数据及用于模型训练的语料。

数据源可能来自网上爬取、资料积累、语料转换、OCR转换等，格式可能比较混乱。需要将url、时间、符号等无意义内容去除，留下质量相对较高的非结构化数据。

2、文本预处理

将含杂质、无序、不标准的自然语言文本转化为规则、易处理、标准的结构化文本。

①处理标点符号

可通过正则判定、现有工具(zhon包)等方式筛选清理标点符号。

②分词

将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列的过程。

一般看来英文较容易可通过空格符号分词，中文相对复杂，参考结巴分词、盘古分词、Ansj等工具。

常见的分词算法有：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法，每种方法下面对应许多具体的算法。

③词性标注

为自然语言文本中的每个词汇赋予一个词性的过程，如名词、动词、副词等。可以把每个单词（和它周围的一些额外的单词用于上下文）输入预先训练的词性分类模型。

常用隐马尔科夫模型、N 元模型、决策树

④stop word

英文中含大量 a、the、and，中文含大量的、是、了、啊，这些语气词、助词没有明显的实际意义，反而容易造成识别偏差，可适当进行过滤。

⑤词形还原

偏向于英文中，单数/复数，主动/被动，现在进行时/过去时/将来时等，还原为原型。

⑥统计词频

因为一些频率过高/过低的词是无效的，对模型帮助很小，还会被当做噪声，做个词频统计用于停用词表。

⑦给单词赋予id

给每一个单词一个id，用于构建词典，并将原来的句子替换成id的表现形式

⑧依存句法分析

通过分析句子中词与词之间的依存关系，从而捕捉到词语的句法结构信息(如主谓、动宾、定中等结构关系)，并使用树状结构来表示句子的句法结构信息(如主谓宾、定状补等)。

3、特征工程

做完语料预处理之后，接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。

如果要计算我们至少需要把中文分词的字符串转换成数字，确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。

①词向量

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot，这种方法把每个词表示为一个很长的向量。

②词袋模型

即不考虑词语原本在句子中的顺序，直接将每一个词语或者符号统一放置在一个集合（如 list），然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式，TF-IDF 是词袋模型的一个经典用法。

常用的表示模型有：词袋模型（Bag of Word, BOW），比如：TF-IDF 算法；词向量，比如 one-hot 算法、word2vec 算法等。

4、特征选择

在文本挖掘相关问题中，特征工程也是必不可少的。在一个实际问题中，构造好的特征向量，是要选择合适的、表达能力强的特征。

举个自然语言处理中的例子来说，我们想衡量like这个词的极性（正向情感还是负向情感）。我们可以预先挑选一些正向情感的词，比如good。然后我们算like跟good的PMI，用到点互信息PMI这个指标来衡量两个事物之间的相关性。

特征选择是一个很有挑战的过程，更多的依赖于经验和专业知识，并且有很多现成的算法来进行特征的选择。目前，常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。

5、模型训练

在特征向量选择好了以后，接下来要做的事情是根据应用需求来训练模型，我们使用不同的模型，传统的有监督和无监督等机器学习模型，如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型；深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在分类、聚类、神经序列、情感分析等应用中都会用到。

当选择好模型后，则进行模型训练，其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好，但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时，也要防止出现梯度消失和梯度爆炸问题。

6、模型评估

在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。模型的评价指标主要有：错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。

7、投产上线

模型的投产上线方式主要有两种：一种是线下训练模型，然后将模型进行线上部署提供服务；另一种是在线训练模型，在线训练完成后将模型 pickle 持久化，提供对外服务。

三、NLP应用方向

1、命名实体识别

指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、时间日期等。

传统机器学习算法主要有HMM和CRF，深度学习常用QRNN、LSTM，当前主流的是基于bert的NER。

2、情感分析

文本情感分析和观点挖掘（Sentiment Analysis)，又称意见挖掘(Opinion Mining)是自然语言处理领域的一个重要研究方向。简单而言，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

情感分析技术可以分为两类，一类是基于机器学习的方法，通过大量有标注、无标注的主观语料，使用统计机器学习算法，通过提取特征，进行文本情感分析。另一类是基于情感词典的方法，根据情感词典所提供的词的情感极性（正向、负向），从而进行不同粒度的（词语、短语、属性、句子、篇章）下的文本情感分析。

3、文章标签

文章标签是利用机器学习算法，对文章进行文字和语义的分析后，提取出若干个重要的词或者短语(关键短语)。关键短语是NLP基础的算法模块，有了关键短语，能为后续的搜索、推荐等更高级的应用提供有力的抓手。

适用场景：1、个性化推荐：通过对文章的标签计算，结合用户画像，精准的对用户进行个性化推荐；2、话题聚合：根据文章计算的标签，聚合相同标签的文章，便于用户对同一话题的文章进行全方位的信息阅读；3、搜索：使用中心词可以对query进行相似度计算、聚类、改写等，可以用于搜索相关性计算。

4、案件串并

①信息抽取

运用实体抽取、关系抽取，从案情中抽取关键信息，如从警情中可以抽取报警人项目、报警人电话、案发地址等信息

②实体对齐

相同的实体在不同的案情中会有不同的表述，会给串并带来困难。可针对地址、人名、组织名进行对齐处理。

③文本聚类

对于关键片段类信息，无法像实体那样对齐，需要借助文本聚类技术进行关联。

④构建图谱

将信息抽取结果存入图谱。每个警情id对应一个节点，实体、属性、关键片段作为节点，对齐的实体、同一类的文本存为同一个节点。

除了来自于从警情中抽取的信息，还可以将其他警务系统中存在的结构化数据导入（如来自户籍信息的人物关系），从而丰富图谱。

⑤图谱检索

完成以上工作，即完成了案件串并的必要基础建设，接下来通过图谱的查询功能自动完成案件的串并。首先需要设定串并的条件，案件串并的条件在警务实战中已有很多的积累，如“具有相似的作案手段”，又如“相似作案手段，嫌疑人有共同联系人”，只需要将这些条件用图谱查询语言表达出来。

工智能计算机科支企图解智能实质并产种新能类智能相似式做反应智能机器该领域研究包括机器、语言识别、图像识别、自语言处理专家系统等。

人工智能（Artificial_Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

说起人工智能我们大家都很熟悉，各种人工智能概念，AI概念层不出穷，仔细想来无外乎智能音箱、智能打印机、智能售卖机等等诸如此类似乎没多少“智能”，和我们脑海中的“AI印象”，如：终结者、机器人、阿尔法狗、自动驾驶等技术大相径庭。

目前，普遍认为人工智能的研究始于1956年达特茅斯会议，早期人工智能研究中，如何定义人工智能是个喋喋不休的问题，但基调始终是：像人一样决策、像人一样行动、理性的决策、理性的行动等研究方向。

答案：陈舒虎原型是指一个中国企业家，在创业时面临的种种困难和挑战，也代表了中国民营企业创业发展的历程。

解释：陈舒虎是中国华为公司的创始人之一，他在创业初期面临了诸多困难和挑战，如缺乏资金、技术和市场等，但他仍然坚定地相信自己的创业理念，并积极寻找合作伙伴，最终成功地将华为从一个小公司发展成为全球领先的通信设备供应商之一。陈舒虎的创业历程代表了中国民营企业在改革开放后的发展历程，也展示了中国企业家的创业精神和决心。

拓展：陈舒虎的创业经历不仅是一个企业家的成功故事，也代表了中国企业家在全球化背景下面临的种种挑战和机遇。中国民营企业在全球化进程中面临着日益激烈的竞争和国际市场的规范化要求，需要不断提升自身的技术和管理水平，以适应全球市场的需求。同时，中国企业家也面临着国内市场的变革和政策环境的调整，需要不断创新和改变，以适应国内市场的需求。因此，陈舒虎的创业经历是一个值得借鉴的案例，可以为中国企业家提供启示和借鉴。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/1114712.html

自然语言处理_一般处理流程

发表评论

评论列表（0条）