对于自然语言处理问题,哪种神经网络模型结构更适合?()。2024年_知识

自然语言处理（NLP）是一种涉及文本和语言的计算机应用技术，随着深度学习的发展，神经网络模型在NLP领域中得到了广泛的应用。根据不同的NLP任务和数据集，可以选择不同的神经网络模型结构。但是，基于目前的研究和应用经验，可以总结出一些适用于NLP问题的神经网络模型结构。

循环神经网络（RNN）：RNN是一种经典的神经网络模型结构，可以处理序列化输入的数据，例如文本、音频和视频等。在NLP领域，RNN被广泛应用于自然语言生成、文本分类、情感分析、机器翻译等任务，主要优势在于能够处理动态变化的输入序列和长距离依赖关系。

长短时记忆网络（LSTM）：LSTM是RNN的一种变体，能够有效地解决RNN训练过程中的梯度消失和梯度爆炸问题。LSTM在NLP领域中被广泛应用于自然语言生成、机器翻译、情感分析等任务，主要优势在于能够处理长距离依赖关系和动态变化的输入序列。

卷积神经网络（CNN）：CNN是一种广泛应用于图像处理领域的神经网络模型结构，可以提取图像中的特征信息。在NLP领域，CNN被应用于文本分类、情感分析等任务，主要优势在于能够提取局部和全局的特征信息。

注意力机制（Attention）：注意力机制是一种神经网络模型结构，能够在处理序列化输入时，将重点放在与当前任务相关的部分上。在NLP领域，注意力机制被广泛应用于机器翻译、自然语言生成等任务，主要优势在于能够有效处理长距离依赖关系和对输入序列中重要信息的聚焦。

总之，在NLP领域，不同的神经网络模型结构有其各自的优点和适用范围，需要根据具体任务的要求和数据集的特点进行选择。同时，还需要考虑模型的训练效率和计算复杂度等因素，以便充分利用计算资源和提高模型性能。

自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。

自然语言处理（Natural Language Processing，简称 NLP）是计算机科学、人工智能和语言学的交叉学科，旨在让计算机能理解和生成人类语言。它是计算机程序能够读懂、理解和生成人类语言的技术。

自然语言处理涵盖了语音识别、语音合成、自然语言理解、机器翻译、文本分类和情感分析等多个方面。

语音识别技术使计算机能够识别语音并将其转换为文本，在智能语音助手、智能音箱、智能家居控制等场景中有广泛应用。语音合成技术则使计算机能够生成语音，在语音助手、智能家居、汽车导航系统等场景中有广泛应用。

自然语言理解技术使计算机能够理解人类语言的语义，在问答系统、智能客服、搜索引擎、智能家居等场景中有广泛应用。

机器翻译技术使计算机能够自动翻译文本和语音，在移动应用、网站和跨境电商中广泛应用。

文本分类和情感分析技术使计算机能够自动分类和分析文本中的情感，在新闻聚合、社交媒体监测、客户反馈分析等场景中有广泛应用。这些技术的应用可以帮助企业更好地了解客户需求和市场趋势，提高市场营销和客户服务的效率和质量。

自然语言处理技术的发展也会带来一些挑战和问题，比如数据隐私和安全问题、道德和伦理问题等。在未来，自然语言处理技术将在更多领域得到广泛应用，改变我们的生活和工作方式。

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的jieba处理库

为单词序列分配概率的模型就叫做语言模型。

通俗来说， 语言模型就是这样一个模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。或者说语言模型能预测单词序列的下一个词是什么。

n-gram Language Models

N-gram模型是一种典型的统计语言模型（Language Model，LM），统计语言模型是一个基于概率的判别模型统计语言模型把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V，对于一个由 V 中的词构成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn，统计语言模型赋予这个序列一个概率P(S)，来衡量S 符合自然语言的语法和语义规则的置信度。用一句简单的话说，统计语言模型就是计算一个句子的概率大小的这种模型。

n-gram模型可以减轻单词序列没有在训练集中出现过而引起的问题，即数据稀疏问题

n-gram模型问题

对于n-gram模型的问题，这两页ppt说的很明白

N-gram模型基于这样一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3)Bi-Gram所满足的假设是马尔科夫假设。

一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分别用公式表示如下：

Bi-Gram:　　P(T)=p(w1|begin) p(w2|w1) p(w3|w2)p(wn|wn-1)

Tri-Gram:　　P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)p(wn|wn-1,wn-2)

注意上面概率的计算方法：P(w1|begin)=以w1为开头的所有句子/句子总数；p(w2|w1)=w1,w2同时出现的次数/w1出现的次数。以此类推。

对于其中每项的计算举个例子：

由上可见Bi-Gram计算公式中的begin一般都是加个<s>标签。

N-gram存在的问题：

举一个小数量的例子进行辅助说明：假设我们有一个语料库（注意语料库），如下：

老鼠真讨厌，老鼠真丑，你爱老婆，我讨厌老鼠。

想要预测“我爱老”这一句话的下一个字。我们分别通过 bigram 和 trigram 进行预测。

1）通过 bigram，便是要对 P(w|老)进行计算，经统计，“老鼠”出现了3次，“老婆”出现了1次，通过最大似然估计可以求得P（鼠|老）=075，P（婆|老）=025，因此我们通过 bigram 预测出的整句话为: 我爱老鼠。

2）通过 trigram，便是要对便是要对 P(w|爱老)进行计算，经统计，仅“爱老婆”出现了1次，通过最大似然估计可以求得 P（婆|爱老）=1，因此我们通过trigram 预测出的整句话为: 我爱老婆。显然这种方式预测出的结果更加合理。

问题一：随着 n 的提升，我们拥有了更多的前置信息量，可以更加准确地预测下一个词。但这也带来了一个问题，当N过大时很容易出现这样的状况：某些n-gram从未出现过，导致很多预测概率结果为0， 这就是稀疏问题。 实际使用中往往仅使用 bigram 或 trigram 。（这个问题可以通过平滑来缓解参考： https://mpweixinqqcom/s/NvwB9H71JUivFyL_Or_ENA ）

问题二：同时由于上个稀疏问题还导致N-gram无法获得上下文的长时依赖。

问题三：n-gram 基于频次进行统计，没有足够的泛化能力。

n-gram总结：统计语言模型就是计算一个句子的概率值大小，整句的概率就是各个词出现概率的乘积，概率值越大表明该句子越合理。N-gram是典型的统计语言模型，它做出了一种假设，当前词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。它其中存在很多问题，再求每一个词出现的概率时，随着N的提升，能够拥有更多的前置信息量，可以使得当前词的预测更加准确，但是当N过大时会出现稀疏问题，导致很多词的概率值为0，为解决这一问题，因此常用的为bigram 或 trigram，这就导致N-gram无法获得上文的长时依赖。另一方面N-gram 只是基于频次进行统计，没有足够的泛化能力。

神经网络语言模型

2003年 Bengio 提出，神经网络语言模型( neural network language model, NNLM)的思想是提出词向量的概念，代替 ngram 使用离散变量(高维)，采用连续变量(具有一定维度的实数向量)来进行单词的分布式表示，解决了维度爆炸的问题，同时通过词向量可获取词之间的相似性。

结合下图可知它所建立的语言模型的任务是根据窗口大小内的上文来预测下一个词，因此从另一个角度看它就是一个使用神经网络编码的n-gram模型。

它是一个最简单的神经网络，仅由四层构成，输入层、嵌入层、隐藏层、输出层。（从另一个角度看它就是一个使用神经网络编码的n-gram模型）

输入是单词序列的index序列，例如单词‘这’在字典（大小为∣V∣）中的index是10，单词‘是’的 index 是23，‘测’的 index 是65，则句子“这是测试”通过‘这是测’预测‘试’，窗口大小内上文词的index序列就是 10, 23, 65。嵌入层（Embedding）是一个大小为∣V∣×K的矩阵（注意：K的大小是自己设定的，这个矩阵相当于随机初始化的词向量，会在bp中进行更新，神经网络训练完成之后这一部分就是词向量），从中取出第10、23、65行向量拼成3×K的矩阵就是Embedding层的输出了。隐层接受拼接后的Embedding层输出作为输入，以tanh为激活函数，最后送入带softmax的输出层，输出概率,优化的目标是使得待预测词其所对应的softmax值最大。

缺点：因为这是通过前馈神经网络来训练语言模型，缺点显而易见就是其中的参数过多计算量较大，同时softmax那部分计算量也过大。另一方面NNLM直观上看就是使用神经网络编码的 n-gram 模型，也无法解决长期依赖的问题。

RNNLM

它是通过RNN及其变种网络来训练语言模型，任务是通过上文来预测下一个词，它相比于NNLM的优势在于所使用的为RNN，RNN在处理序列数据方面具有天然优势， RNN 网络打破了上下文窗口的限制，使用隐藏层的状态概括历史全部语境信息，对比 NNLM 可以捕获更长的依赖，在实验中取得了更好的效果。RNNLM 超参数少，通用性更强；但由于 RNN 存在梯度弥散问题，使得其很难捕获更长距离的依赖信息。

Word2vec中的CBOW 以及skip-gram，其中CBOW是通过窗口大小内的上下文预测中心词，而skip-gram恰恰相反，是通过输入的中心词预测窗口大小内的上下文。

Glove 是属于统计语言模型，通过统计学知识来训练词向量

ELMO 通过使用多层双向的LSTM（一般都是使用两层）来训练语言模型，任务是利用上下文来预测当前词，上文信息通过正向的LSTM获得，下文信息通过反向的LSTM获得，这种双向是一种弱双向性，因此获得的不是真正的上下文信息。

GPT是通过Transformer来训练语言模型，它所训练的语言模型是单向的，通过上文来预测下一个单词

BERT通过Transformer来训练MLM这种真正意义上的双向的语言模型，它所训练的语言模型是根据上下文来预测当前词。

以上部分的详细介绍在NLP之预训练篇中有讲到

语言模型的评判指标

具体参考： https://blogcsdnnet/index20001/article/details/78884646

Perplexity可以认为是average branch factor（平均分支系数），即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90，可以直观地理解为，在模型生成一句话时下一个词有90个合理选择，可选词数越少，我们大致认为模型越准确。这样也能解释，为什么PPL越小，模型越好。

一般用困惑度Perplexity（PPL）衡量语言模型的好坏，困惑度越小则模型生成一句话时下一个词的可选择性越少，句子越确定则语言模型越好。

简单介绍

Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

背景

由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过onehot向量准确地体现出来。

word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表⽰成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。

word2vec模型

word2vec⼯具包含了两个模型，即跳字模型（skip-gram）和连续词袋模型（continuous bag of words，CBOW）。word2vec的input/output都是将单词作为one-hot向量来表示，我们可以把word2vec认为是词的无监督学习的降维过程。

MaxEnt 模型（最大熵模型）：可以使用任意的复杂相关特征，在性能上最大熵分类器超过了 Byaes 分类器。但是，作为一种分类器模型，这两种方法有一个共同的缺点：每个词都是单独进行分类的，标记（隐状态）之间的关系无法得到充分利用，具有马尔可夫链的 HMM 模型可以建立标记之间的马尔可夫关联性，这是最大熵模型所没有的。

最大熵模型的优点：首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决统计模型中参数平滑的问题。

最大熵模型的不足：首先，最大熵统计模型中二值化特征只是记录特征的出现是否，而文本分类需要知道特征的强度，因此，它在分类方法中不是最优的;其次，由于算法收敛的速度较慢，所以导致最大熵统计模型它的计算代价较大，时空开销大;再次，数据稀疏问题比较严重。

CRF(conditional random field) 模型（条件随机场模型）：首先，CRF 在给定了观察序列的情况下，对整个的序列的联合概率有一个统一的指数模型。一个比较吸引人的特性是其为一个凸优化问题。其次，条件随机场模型相比改进的隐马尔可夫模型可以更好更多的利用待识别文本中所提供的上下文信息以得更好的实验结果。并且有测试结果表明：在采用相同特征集合的条件下，条件随机域模型较其他概率模型有更好的性能表现。

CRF 可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。经常被用于序列标注，其中包括词性标注，分词，命名实体识别等领域。

建一个条件随机场，我们首先要定义一个特征函数集，每个特征函数都以整个句子s，当前位置i，位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重，然后针对每一个标注序列l，对所有的特征函数加权求和，必要的话，可以把求和的值转化为一个概率值。

CRF 具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，使得模型能够获取的信息非常丰富。

CRF 模型的不足：首先，通过对基于 CRF 的结合多种特征的方法识别英语命名实体的分析，发现在使用 CRF 方法的过程中，特征的选择和优化是影响结果的关键因素，特征选择问题的好与坏，直接决定了系统性能的高低。其次，训练模型的时间比 MaxEnt 更长，且获得的模型很大，在一般的 PC 机上无法运行。

潜在语义分析(Latent Semantic Analysis，LSA)模型

在潜在语义分析(LSA)模型首先给出了这样一个 ‘‘分布式假设” :一个单词的属性是由它所处的环境刻画的。这也就意味着如果两个单词在含义上比较接近，那么它们也会出现在相似的文本中，也就是说具有相似的上下文。

LSA模型在构建好了单词-文档矩阵之后，出于以下几种可能的原因，我们会使用奇异值分解(Singular Value Decomposition，SVD) 的方法来寻找该矩阵的一个低阶近似。

概率潜在语义分析(Probability Latent Semantic Analysis ，PLSA)模型

概率潜在语义分析(PLSA)模型其实是为了克服潜在语义分析(LSA)模型存在的一些缺点而被提出的。LSA 的一个根本问题在于，尽管我们可以把 U k 和 V k 的每一列都看成是一个话题，但是由于每一列的值都可以看成是几乎没有限制的实数值，因此我们无法去进一步解释这些值到底是什么意思，也更无法从概率的角度来理解这个模型。

PLSA模型则通过一个生成模型来为LSA赋予了概率意义上的解释。该模型假设，每一篇文档都包含一系列可能的潜在话题，文档中的每一个单词都不是凭空产生的，而是在这些潜在的话题的指引下通过一定的概率生成的。

在 PLSA 模型里面，话题其实是一种单词上的概率分布，每一个话题都代表着一个不同的单词上的概率分布，而每个文档又可以看成是话题上的概率分布。每篇文档就是通过这样一个两层的概率分布生成的，这也正是PLSA 提出的生成模型的核心思想。

PLSA 通过下面这个式子对d和 w 的联合分布进行了建模:

该模型中的 z 的数量是需要事先给定的一个超参数。需要注意的是，上面这个式子里面给出了 P (w, d ) 的两种表达方式，在前一个式子里， d 和 w 都是在给定 z 的前提下通过条件概率生成出来的，它们的生成方式是相似的，因此是 ‘‘对称’’ 的;在后一个式子里，首先给定 d ，然后根据 P ( z | d ) 生成可能的话题 z ，然后再根据 P (w| z ) 生成可能的单词 w，由于在这个式子里面单词和文档的生成并不相似，所以是 ‘‘非对称’’ 的。

上图给出了 PLSA 模型中非对称形式的 Plate Notation表示法。其中d表示一篇文档，z 表示由文档生成的一个话题，w 表示由话题生成的一个单词。在这个模型中， d和w 是已经观测到的变量，而z是未知的变量(代表潜在的话题)。

容易发现，对于一个新的文档而言，我们无法得知它对应的 P ( d ) 究竟是什么，因此尽管 PLSA 模型在给定的文档上是一个生成模型，它却无法生成新的未知的文档。该模型的另外的一个问题在于，随着文档数量的增加， P ( z | d ) 的参数也会随着线性增加，这就导致无论有多少训练数据，都容易导致模型的过拟合问题。这两点成为了限制 PLSA 模型被更加广泛使用的两大缺陷。

潜在狄利克雷分配(Latent Dirichlet Analysis ， LDA)模型

为了解决 PLSA 模型中出现的过拟合问题，潜在狄利克雷分配(LDA)模型被 Blei 等人提出，这个模型也成为了主题模型这个研究领域内应用最为广泛的模型。LDA就是在PLSA的基础上加层贝叶斯框架，即LDA就是PLSA的贝叶斯版本（正因为LDA被贝叶斯化了，所以才需要考虑历史先验知识，才加的两个先验参数）。

从上一节我们可以看到，在 PLSA 这个模型里，对于一个未知的新文档 d ，我们对于 P ( d ) 一无所知，而这个其实是不符合人的经验的。或者说，它没有去使用本来可以用到的信息，而这部分信息就是 LDA 中所谓的先验信息。

具体来说，在 LDA 中，首先每一个文档都被看成跟有限个给定话题中的每一个存在着或多或少的关联性，而这种关联性则是用话题上的概率分布来刻画的，这一点与 PLSA 其实是一致的。

但是在 LDA 模型中，每个文档关于话题的概率分布都被赋予了一个先验分布，这个先验一般是用稀疏形式的狄利克雷分布表示的。这种稀疏形式的狄利克雷先验可以看成是编码了人类的这样一种先验知识:一般而言，一篇文章的主题更有可能是集中于少数几个话题上，而很少说在单独一篇文章内同时在很多话题上都有所涉猎并且没有明显的重点。

此外，LDA 模型还对一个话题在所有单词上的概率分布也赋予了一个稀疏形式的狄利克雷先验，它的直观解释也是类似的:在一个单独的话题中，多数情况是少部分(跟这个话题高度相关的)词出现的频率会很高，而其他的词出现的频率则明显较低。这样两种先验使得 LDA 模型能够比 PLSA 更好地刻画文档-话题-单词这三者的关系。

事实上，从 PLSA 的结果上来看，它实际上相当于把 LDA 模型中的先验分布转变为均匀分布，然后对所要求的参数求最大后验估计(在先验是均匀分布的前提下，这也等价于求参数的最大似然估计) ，而这也正反映出了一个较为合理的先验对于建模是非常重要的。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

中文分词根据实现原理和特点，主要分为以下2个类别：

（1）基于词典分词算法

也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。

基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构，比如采用TRIE索引树、哈希索引等。

（2）基于统计的机器学习算法

这类目前常用的是算法是HMM、CRF（条件随机场）、SVM、深度学习等算法，比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

随着深度学习的兴起，也出现了 基于神经网络的分词器 ，例如有人员尝试使用双向LSTM+CRF实现分词器， 其本质上是序列标注 ，所以有通用性，命名实体识别等都可以使用该模型，据报道其分词器字符准确率可高达975%。算法框架的思路与论文《Neural Architectures for Named Entity Recognition》类似，利用该框架可以实现中文分词，如下图所示：

首先对语料进行字符嵌入，将得到的特征输入给双向LSTM，然后加一个CRF就得到标注结果。

目前中文分词难点主要有三个：

1、分词标准 ：比如人名，在哈工大的标准中姓和名是分开的，但在Hanlp中是合在一起的。这需要根据不同的需求制定不同的分词标准。

2、歧义 ：对同一个待切分字符串存在多个分词结果。

歧义又分为组合型歧义、交集型歧义和真歧义三种类型。

一般在搜索引擎中，构建索引时和查询时会使用不同的分词算法。常用的方案是，在索引的时候使用细粒度的分词以保证召回，在查询的时候使用粗粒度的分词以保证精度。

3、新词 ：也称未被词典收录的词，该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

典型的文本分类过程可以分为三个步骤：

1 文本表示（Text Representation）

这一过程的目的是把文本表示成分类器能够处理的形式。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特征选择。常见的特征选择方法有文档频率、信息增益、互信息、期望交叉熵等等。为了降低分类过程中的计算量，常常还需要进行降维处理，比如LSI。

2 分类器构建（Classifier Construction）

这一步骤的目的是选择或设计构建分类器的方法。不同的方法有各自的优缺点和适用条件，要根据问题的特点来选择一个分类器。我们会在后面专门讲述常用的方法。选定方法之后，在训练集上为每个类别构建分类器，然后把分类器应用于测试集上，得到分类结果。

3 效果评估（Classifier Evaluation）

在分类过程完成之后，需要对分类效果进行评估。评估过程应用于测试集（而不是训练集）上的文本分类结果，常用的评估标准由IR领域继承而来，包括查全率、查准率、F1值等等。

1 Rocchio方法

每一类确定一个中心点（centroid），计算待分类的文档与各类代表元间的距离，并作为判定是否属于该类的判据。Rocchio方法的特点是容易实现，效率高。缺点是受文本集分布的影响，比如计算出的中心点可能落在相应的类别之外。

2 朴素贝叶斯（naïve bayes）方法

将概率论模型应用于文档自动分类，是一种简单有效的分类方法。使用贝叶斯公式，通过先验概率和类别的条件概率来估计文档对某一类别的后验概率，以此实现对此文档所属类别的判断。

3 K近邻(K-Nearest Neightbers, KNN)方法

从训练集中找出与待分类文档最近的k个邻居（文档），根据这k个邻居的类别来决定待分类文档的类别。KNN方法的优点是不需要特征选取和训练，很容易处理类别数目多的情况，缺点之一是空间复杂度高。KNN方法得到的分类器是非线性分类器。

4 支持向量机（SVM）方法

对于某个类别，找出一个分类面，使得这个类别的正例和反例落在这个分类面的两侧，而且这个分类面满足：到最近的正例和反例的距离相等，而且是所有分类面中与正例（或反例）距离最大的一个分类面。SVM方法的优点是使用很少的训练集，计算量小；缺点是太依赖于分类面附近的正例和反例的位置，具有较大的偏执。

文本聚类过程可以分为3个步骤：

1 文本表示（Text Representation）

把文档表示成聚类算法可以处理的形式。所采用的技术请参见文本分类部分。

2 聚类算法选择或设计（Clustering Algorithms）

算法的选择，往往伴随着相似度计算方法的选择。在文本挖掘中，最常用的相似度计算方法是余弦相似度。聚类算法有很多种，但是没有一个通用的算法可以解决所有的聚类问题。因此，需要认真研究要解决的问题的特点，以选择合适的算法。后面会有对各种文本聚类算法的介绍。

3 聚类评估（Clustering Evaluation）

选择人工已经分好类或者做好标记的文档集合作为测试集合，聚类结束后，将聚类结果与已有的人工分类结果进行比较。常用评测指标也是查全率、查准率及F1值。

1．层次聚类方法

层次聚类可以分为两种：凝聚（agglomerative）层次聚类和划分（divisive）层次聚类。凝聚方法把每个文本作为一个初始簇，经过不断的合并过程，最后成为一个簇。划分方法的过程正好与之相反。层次聚类可以得到层次化的聚类结果，但是计算复杂度比较高，不能处理大量的文档。

2．划分方法

k-means算法是最常见的划分方法。给定簇的个数k，选定k个文本分别作为k个初始簇，将其他的文本加入最近的簇中，并更新簇的中心点，然后再根据新的中心点对文本重新划分；当簇不再变化时或经过一定次数的迭代之后，算法停止。k-means算法复杂度低，而且容易实现，但是对例外和噪声文本比较敏感。另外一个问题是，没有一个好的办法确定k的取值。

3．基于密度的方法

为了发现任意形状的聚类结果，提出了基于密度的方法。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。常见的基于密度的方法有DBSCAN, OPTICS, DENCLUE等等。

4．神经网络方法

神经网络方法将每个簇描述为一个标本，标本作为聚类的"原型"，不一定对应一个特定的数据,根据某些距离度量，新的对象被分配到与其最相似的簇中。比较著名的神经网络聚类算法有:竞争学习（competitive learing）和自组织特征映射（self-organizing map）[Kohonen, 1990]。神经网络的聚类方法需要较长的处理时间和复杂的数据复杂性，所以不适用于大型数据的聚类。

一、引言

对于电商企业来说，搜索功能是其重中之重。这是买家进行购买的最便捷有效的途径。因此我们的搜索引擎也是公司最重要的产品。而搜索的关键是什么呢，自然是能够在第一时间明确用户的意图并给出与之相匹配的商品结果。所以怎么才能更好的理解用户，怎么能够在最快的时间内给到用户想要的结果，这便是我们在搜索实践中一直探讨优化的方向与目标。本文基于这一个月的进展做一个词向量在召回中的运用分析。

二、什么是词向量

在聊 Word2vec 之前，先聊聊 NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先就要从最基础的词语开始。

举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)。

one-hot 是可认为是最为简单的词向量，但存在维度灾难和语义鸿沟等问题；通过构建共现矩阵并利用 SVD 求解构建词向量，则计算复杂度高；而早期词向量的研究通常来源于语言模型，比如 NNLM 和 RNNLM，其主要目的是语言模型，而词向量只是一个副产物。

如上图的NNLM模型（2003年推出），它是为了计算某个句子出现的概率，我们可以加入相应的先验知识，用贝叶斯公式表示则是

将输入语料进行分词，并向量化(随机初始化成为一个N维的向量)，然后将他们拼接起来作为输入，经过神经网络计算后预测出下个词是目标词的概率，通过反向传播优化模型参数后，我们不但得到了一个能够预测句子出现概率的模型，也得到了一份 词向量，相同上下文语境的词有相似语义，词与词之间的关联得到了极大的提升。 而由此引申出了 Word2vec、FastText，在此类词向量中，虽然其本质仍然是语言模型，但是它的目标并不是语言模型本身，而是词向量，其所作的一系列优化，都是为了更快更好的得到词向量。GloVe 则是基于全局语料库、并结合上下文语境构建词向量，结合了 LSA 和 Word2vec 的优点。（当然词向量模型远不止这些，其他模型和衍生场景这里不展开阐述，可以作为后续的专题进行分析）

如上图是我使用fasttext对天龙八部小说训练出的词向量模型，可以明显看出其中的人物集团之间的关系，这便是词向量之间的语义聚合效果，它的出现对于NLP后续的任务效果（如文本分类、NER、翻译等）都带来了极大的提升。

三、词向量在召回模型中的运用

随着平台用户体量和商品SKU的不断扩大，用户对于搜索场景的依赖也越来越大，提升召回率便是其中重要的一环，对此我们设计了一套方案，即利用词向量构建query语义表征，考虑到对未登录词的兼容性，这里使用了fasttext进行了词向量的训练。通过相似度计算和query热度加权推测无结果query的候选query集合，利用faiss进行在线实时高速计算，结合产品的优化实现对无结果query的再次召回，线上再结合多臂机的选择策略进一步提升容错和纠错能力。

我们分析整理了平台历史所有的query语料数据，结合商品描述信息使用迭代和半人工的方式优化了自有词库，在特征处理过程中，针对中英文分别做了处理，如英文增加了编辑距离纠错，中文由于短文本信息较少使用了单字进行切割等，针对性的进行了文本处理，相应的归一化了词分布，提升了部分模型训练效果。

训练参数如下：

query候选集预测结果部分如下，可以看到在没有做其他优化的前提下已经产生了一定的效果，后续我们还可以加入更多的策略进行融合进一步满足业务的场景：

四、未来的想象空间

针对平台业务及搜索场景，NLP还会有很多的结合点。

比如：

1对query做分类预测，我们可以预测每个query词的类目意图，品牌意图等，减少关键词搜索的歧义影响。

2搭建我们自己的NER命名实体模型，引导搜索的方向及准度

3针对海外市场，如何更好的利用国内积累下的搜索源数据，通过机器翻译的方式打通语言的壁垒

4作为个性化排序模型中的语义特征搭建完善个性化模型

5为运营及市场做用户热度挖掘及监控等

NLP作为人工智能技术的掌上明珠，虽然还处于刚起步和不断完善的阶段，但是只要合理运用好并能搭配其他策略进行完善，相信还有很多的价值等待我们去挖掘。

句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系。句法分析不是一个自然语言处理任务的最终目标，但它往往是实现最终目标的关键环节。

句法分析分为句法结构分析和依存关系分析两种。以获取整个句子的句法结构为目的的称为完全句法分析，而以获得局部成分为目的的语法分析称为局部分析，依存关系分析简称依存分析。

一般而言，句法分析的任务有三个：

判断输出的字符串是否属于某种语言

消除输入句子中词法和结构等方面的歧义

分析输入句子的内部结构，如成分构成、上下文关系等。

第二三个任务一般是句法分析的主要任务。

一般来说，构造一个句法分析器需要考虑两部分工作：一部分是语法的形式化表示和词条信息描述问题，形式化的语法规则构成了规则库，词条信息等由词典或同义词表等提供，规则库与词典或同义词表构成了句法分析的知识库；另一部分就是基于知识库的解析算法了。

语法形式化属于句法理论研究的范畴，目前在自然语言处理中广泛使用的是上下文无关文法（CFG）和基于约束的文法，后者又称合一文法。

简单的讲，句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。

基于规则的句法结构分析方法的基本思路是，由人工组织语法规则，建立语法知识库，通过条件约束和检查来实现句法结构歧义的消除。

根据句法分析树形成方向的区别，人们通常将这些方法划分为三种类型：自顶向下的分析方法，自底向上的分析方法和两者相结合的分析方法。自顶向下分析算法实现的是规则推导的过程，分析树从根结点开始不断生长，最后形成分析句子的叶结点。而自底向上分析算法的实现过程恰好想法，它是从句子符号串开始，执行不断规约的过程，最后形成根节点。

基于规则的语法结构分析可以利用手工编写的规则分析出输入句子所有可能的句法结构；对于特定领域和目的，利用有针对性的规则能够较好的处理句子中的部分歧义和一些超语法（extra-grammatical）现象。

但对于一个中等长度的输入句子来说，要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的，而且就算分析出来了，也难以实现有效的消歧，并选择出最有可能的分析结果；手工编写的规则带有一定的主观性，还需要考虑到泛化，在面对复杂语境时正确率难以保证；手工编写规则本身就是一件大工作量的复杂劳动，而且编写的规则领域有密切的相关性，不利于句法分析系统向其他领域移植。

基于规则的句法分析算法能够成功的处理程序设计语言的编译，而对于自然语言的处理却始终难以摆脱困境，是因为程序设计语言中使用的知识严格限制的上下文无关文法的子类，但自然语言处理系统中所使用的形式化描述方法远远超过了上下文无关文法的表达能力；而且人们在使用程序设计语言的时候，一切表达方式都必须服从机器的要求，是一个人服从机器的过程，这个过程是从语言的无限集到有限集的映射过程，而在自然语言处理中则恰恰相反，自然语言处理实现的是机器追踪和服从人的语言，从语言的有限集到无限集推演的过程。

完全语法分析

基于PCFG的基本分析方法

基于概率上下文无关文法的短语结构分析方法，可以说是目前最成功的语法驱动的统计句法分析方法，可以认为是规则方法与统计方法的结合。

PCFG是CFG的扩展，举个例子：

PCFG

当然，同一个符号不同生成式的概率之和为1。NP是名词短语、VP是动词短语、PP是介词短语。

基于PCFG的句法分析模型，满足以下三个条件：

位置不变性：子树的概率不依赖于该子树所管辖的单词在句子中的位置

上下文无关性：子树的概率不依赖于子树控制范围以外的单词

祖先无关性：子树的概率不依赖于推导出子树的祖先节点

根据上述文法，『He met Jenny with flowers』有两种可能的语法结构：

而且我们可以通过将树中的所有概率相乘，得到两棵子树的整体概率，从中选择概率更大的子树作为最佳结构。

与HMM类似，PCFG也有三个基本问题：

给定一个句子W＝w1w2…wn和文法G，如何快速计算概率P(W|G)

给定一个句子W＝w1w2…wn和文法G，如何选择该句子的最佳结构？即选择句法结构树t使其具有最大概率

给定PCFG G和句子W＝w1w2…wn，如何调节G的概率参数，使句子的概率最大

首先是第一个问题，HMM中我们用的是前向算法和后向算法来计算观察序列O概率，相似的，这里我们用的是内向算法和外向算法来计算P(W|G) 。

首先我们定义内向变量αij(A)，与前向变量相似但又有不同，αij(A)即非终结符A推导出W中字串wiw(i+1)…wj的概率。那P(W|G)自然就等于α1n(S)了，S是起始符号，计算的就是由起始符号S推导出整个句子W=w1w2…wn的概率。

所以只要有αij(A)的递归公式就能计算出P(W|G)，递归公式如下：

根据定义，αii(A)自然就等同于符号A输出wi的概率；而αij(A)的计算思路是，这个子串wiw(i+1)…wj可以被切成两部分处理，前一部分wiw(i+1)…wk由非终结符号B生成，后一部分wkw(k+1)…wj由非终结符号C生成，而BC由A生成。这样将概率依次相乘，即可将一个大问题划分为两个小问题处理，两个小问题又可以进一步划分直到不能划分为止，然后递归回来得到结果。

这里给一张内向变量计算方法示意图：

这个问题也可以用外向算法来解决。

首先定义外向变量，βij(A)是，初始符号S在推导出语句W=w1w2…wn的过程中，产生符号串w1w2…w(i-1)Aw(j+1)…wn的概率（隐含着A会生成wiw(i+1)…wj）。也就是说βij(A)是S推导出除了以A节点为根节点的子树以外的其他部分的概率。

《统计自然语言处理（第二版）》这本书里讲错了，这里我给出我自己的理解，书里给的算法步骤如下：

很明显的错误，初始化都把结果初始化了，那这个算法还算什么，直接等于1就完了呗。

这是作者对外向变量定义理解模糊的问题，上面给了外向变量的定义，里面有一句话『隐含着A会生成wiw(i+1)…wj』，那问题在于，A会生成wiw(i+1)…wj，这到底算是条件还是推论。

看这个算法的初始化的意思，说β1n(A)，在A=S的时候，为1，不等于S为0，意思是什么？意思就是『隐含着A会生成wiw(i+1)…wj』这句话是条件，β1n(S)已经隐含了S生成W＝w1w2…wn了，所谓的w1w2…w(i-1)Aw(j+1)…wn也就不存在了，只剩下一个S->S了，所以概率自然为1。

但是在第三步这个地方，作者理解成什么意思了呢？作者又把『隐含着A会生成wiw(i+1)…wj』这句话当成推论了，认为在β1n(S)，里S会生成W＝w1w2…wn是推论，那真是就正好了，要求的结果就是S生成W＝w1w2…wn，这不就结束了吗，结果就导致了这个算法第一步初始化都把结果初始化了。

那我的理解是什么呢，通过这个公式计算出来的β1n(S)，确实是正确的，意义实际上也是包含了『隐含着A会生成wiw(i+1)…wj』这句话是推论，但是右侧式子里由于不断递归而产生的β1n(S)，是把『隐含着A会生成wiw(i+1)…wj』这句话当条件的，所以计算上没有问题。

我倾向于为第三步中的β1n(S)加一个星号，以表明意义的不同。

书中还给了个外向变量的计算方法示意图，我觉得也是莫名其妙：

他说βij(A)是这两种情况的概率和，这我们知道j比i大，那这图里这个k既比i小又比j大，这不是搞笑吗。只能说图上这俩C就不是一个C，k也不是一个k。

那我为什么会理解成一个呢，除了字母相同，他前面还这么讲『必定运用了形如B->AC或者B->CA的规则』、『运用B->AC或者B->CA两种规则的情况』，这明显就是给人以顺序交换的误解。

另外，还在内向变量的使用上前后不一，可以说这本书里对外向算法的讲解是非常失败的。而且对外向算法的计算仍然需要用到内向算法的递归，那真的直接用内向算法就好了，外向算法还要多定义变量。

然后是第二个问题，选择句子的最佳结构，也即给定一个句子W＝w1w2…wn和文法G，

选定拥有最大概率的语法结构树。这一问题与HMM中类似，仍然采用动态规划的思想去解决。最后利用CYK算法去生成拥有最大概率的语法结构树。

第三个问题是给定PCFG G和句子W＝w1w2…wn，如何调节G的概率参数，使句子的概率最大，与HMM相对的，PCFG这里采用的算法名叫内外向算法。与前后向算法相同，也属于一种EM算法，其基本思想是，首先给G的产生式随机地赋予一个概率值（满足归一化条件），得到文法G0，然后根据G0和训练数据，可以计算出每条规则使用次数的期望值，用期望值进行最大似然估计，得到语法G的新参数值，新的语法记作G1，然后循环执行该过程，G的参数概率将收敛于最大似然估计值。

PCFG只是一种特殊的上下文无关文法模型，根据PCFG的模型和句子，具体去对句子做语法分析，生成语法结构树，靠的是还是CYK算法。CYK算法是一个用来判定任意给定的字符串W是否属于一个上下文无关文法的算法。

基于PCFG的句法分析模型存在有许多问题，比如因为PCFG没有对词汇进行建模，所以存在对词汇信息不敏感的问题。因此人们提出了词汇化的短语结构分析器，有效的提升了基于PCFG的句法分析器的能力。

而且，我们上面也提到了PCFG的三个独立性假设，这也导致了规则之间缺乏结构依赖关系（就像HMM的三个假设也不完全合理一样），而在自然语言中，生成每个非终结符的概率往往是与其上下文结构有关系的，所以有人提出了一种细化非终结符的方法，为每个非终结符标注上其父节点的句法标记信息。

D Klein提出了带有隐含标记的上下文无关文法（PCFG with latent annotations，PCFG-LA），使得非终结符的细化过程可以自动进行，并且在使用EM算法优化时，为避免到达局部最优，对其进行了改进，提出了一种层次化的『分裂-合并』策略，以期获取一个准确并且紧凑的PCFG-LA模型。基于PCFG-LA的Berkeley Parser作为非词汇化句法分析器的代表，无论是性能表现还是运行速度，都是目前开源的短语结构分析器中最好的。其语法树如下图：

普通句法树与PCFG-LA句法树对照实例

这个x就是隐含标记，xi的取值范围一般是人为设定的，一般取1~16之间的整数。而且PCFG-LA也类似于HMM模型，原始非终结符对应HMM模型中的观察输出，而隐含标记对应HMM模型中的隐含状态。

浅层语法分析（局部语法分析）

由于完全语法分析要确定句子所包含的全部句法信息，并确定句子中各成分之间的关系，这是一项十分苦难的任务。到目前为止，句法分析器的各方面都难以达到令人满意的程度，为了降低问题的复杂度，同时获得一定的句法结构信息，浅层句法分析应运而生。

浅层语法分析只要求识别句子中的某些结构相对简单的独立成为，例如非递归的名词短语、动词短语等，这些被识别出来的结构通常称为语块（chunk）。

浅层句法分析将句法分析分解为两个主要子任务，一个是语块的识别和分析，另一个是语块之间的依附关系分析。其中，语块的识别和分析是主要任务。在某种程度上说，浅层句法分析使句法分析的任务得到了简化，同时也有利于句法分析系统在大规模真实文本处理系统中迅速得到应用。

基本名词短语（base NP）是语块中的一个重要类别，它指的是简单的、非嵌套的名词短语，不含有其他子项短语，并且base NP之间结构上是独立的。示例如下：

base NP识别就是从句子中识别出所有的base NP，根据这种理解，一个句子中的成分和简单的分为baseNP和非base NP两类，那么base NP识别就成了一个分类问题。

base NP的表示方法有两种，一种是括号分隔法，一种是IOB标注法。括号分隔法就是将base NP用方括号界定边界，内部的是base NP，外部的不属于base NP。IOB标注法中，字母B表示base NP的开端，I表示当前词语在base NP内，O表示词语位于base NP之外。

基于SVM的base NP识别方法

由于base NP识别是多值分类问题，而基础SVM算法解决的是二值分类问题，所以一般可以采用配对策略（pairwise method）和一比其余策略（one vs other method）。

SVM一般要从上下文的词、词性、base NP标志中提取特征来完成判断。一般使用的词语窗口的长度为5（当前词及其前后各两个词）时识别的效果最好。

基于WINNOW的base NP识别方法

WINNOW是解决二分问题的错误驱动的机器学习方法，该方法能从大量不相关的特征中快速学习。

WINNOW的稀疏网络（SNoW）学习结构是一种多类分类器，专门用于处理特征识别领域的大规模学习任务。WINNOW算法具有处理高维度独立特征空间的能力，而在自然语言处理中的特征向量恰好具有这种特点，因此WINNOW算法也常用于词性标注、拼写错误检查和文本分类等等。

简单WINNOW的基本思想是，已知特征向量和参数向量和实数阈值θ，先将参数向量均初始化为1，将训练样本代入，求特征向量和参数向量的内积，将其与θ比较，如果大于θ，则判定为正例，小于θ则判定为反例，将结果与正确答案作比较，依据结果来改变权值。

如果将正例估计成了反例，那么对于原来值为1的x，把它的权值扩大。如果将反例估计成了正例，那么对于原来值为1的x，把它的权值缩小。然后重新估计重新更改权重，直到训练完成。

这其实让我想到了LR算法，因为LR算法也是特征向量与参数向量的内积，最后将其送到Sigmoid函数中去拿到判定结果，然后大于05的为正例，小于05的为反例，实际上只要反过来，Sigmod函数输出05时候的输入就是WINNOW算法里的那个实数阈值θ。但是区别在于WINNOW算法只判定大小，不判定概率，而LR利用Sigmoid函数给出了概率。LR利用这给出的概率，通过使训练集的生成概率最大化来调整参数，而WINNOW则是直接朴素的错误情况来增大或缩小相关参数。目测LR因为使用了梯度下降，它的收敛速度要快于WINNOW，而WINNOW的优势则在于可以处理大量特征。

基于CRF的base NP识别方法

基于CRF的base NP识别方法拥有与SVM方法几乎一样的效果，优于基于WINNOW的识别方法、基于MEMM的识别方法和感知机方法，而且基于CRF的base NP识别方法在运行速度上较其他方法具有明显优势。

依存语法理论

在自然语言处理中，我们有时不需要或者不仅仅需要整个句子的短语结构树，而且要知道句子中词与词之间的依存关系。用词与词之间的依存关系来描述语言结构的框架成为依存语法，又称从属关系语法。利用依存语法进行句法分析也是自然语言理解的重要手段之一。

有人认为，一切结构语法现象可以概括为关联、组合和转位这三大核心。句法关联建立起词与词之间的从属关系，这种从属关系由支配词和从属词联结而成，谓语中的动词是句子的中心并支配别的成分，它本身不受其他任何成分支配。

依存语法的本质是一种结构语法，它主要研究以谓词为中心而构句时由深层语义结构映现为表层语法结构的状况及条件，谓词与体词之间的同现关系，并据此划分谓词的词类。

常用的依存于法结构图示有三种：

计算机语言学家J Robinson提出了依存语法的四条公理：

一个句子只有一个独立的成分

句子的其他成分都从属于某一成分

任何一个成分都不能依存于两个或两个以上的成分

如果成分A直接从属于成分B，而成分C在句子中位于A和B之间，那么，成分C或者属于成分A，或者从属于B，或者从属于A和B之间的某一成分。

这四条公理相当于对依存图和依存树的形式约束：单一父节点、连通、无环和可投射，由此来保证句子的依存分析结果是一棵有根的树结构。

这里提一下可投射，如果单词之间的依存弧画出来没有任何的交叉，就是可投射的（参考上面的两个有向图）。

为了便于理解，我国学者提出了依存结构树应满足的5个条件：

单纯结点条件：只有终结点，没有非终结点

单一父结点条件：除根节点没有父结点外，所有的结点都只有一个父结点

独根结点条件：一个依存树只能有一个根结点，它支配其他结点

非交条件：依存树的树枝不能彼此相交

互斥条件：从上到下的支配关系和从左到右的前于关系之间是相互排斥的，如果两个结点之间存在着支配关系，它们就不能存在于前于关系

这五个条件是有交集的，但它们完全从依存表达的空间结构出发，比四条公理更直观更实用。

Gaifman 1965年给出了依存语法的形式化表示，证明了依存语法与上下文无关文法没有什么不同

类似于上下文无关文法的语言形式对被分析的语言的投射性进行了限制，很难直接处理包含非投射现象的自由语序的语言。20世纪90年代发展起来了约束语法和相应的基于约束满足的依存分析方法，可以处理此类非投射性语言问题。

基于约束满足的分析方法建立在约束依存语法之上，将依存句法分析看做可以用约束满足问题来描述的有限构造问题。

约束依存语法用一系列形式化、描述性的约束将不符合约束的依存分析去掉，直到留下一棵合法的依存树。

生成式依存分析方法、判别式依存分析方法和确定性依存分析方法是数据驱动的统计依存分析中具有代表性的三种方法。

生成性依存分析方法

生成式依存分析方法采用联合概率模型生成一系列依存语法树并赋予其概率分值，然后采用相关算法找到概率打分最高的分析结果作为最后输出。

生成式依存分析模型使用起来比较方便，它的参数训练时只在训练集中寻找相关成分的计数，计算出先验概率。但是，生成式方法采用联合概率模型，再进行概率乘积分解时做了近似性假设和估计，而且，由于采用全局搜索，算法的复杂度较高，因此效率较低，但此类算法在准确率上有一定优势。但是类似于CYK算法的推理方法使得此类模型不易处理非投射性问题。

判别式依存分析方法

判别式依存分析方法采用条件概率模型，避开了联合概率模型所要求的独立性假设（考虑判别模型CRF舍弃了生成模型HMM的独立性假设），训练过程即寻找使目标函数（训练样本生成概率）最大的参数θ（类似Logistic回归和CRF）。

判别式方法不仅在推理时进行穷尽搜索，而且在训练算法上也具有全局最优性，需要在训练实例上重复句法分析过程来迭代参数，训练过程也是推理过程，训练和分析的时间复杂度一致。

确定性依存方法

确定性依存分析方法以特定的方向逐次取一个待分析的词，为每次输入的词产生一个单一的分析结果，直至序列的最后一个词。

这类算法在每一步的分析中都要根据当前分析状态做出决策（如判断其是否与前一个词发生依存关系），因此，这种方法又称决策式分析方法。

通过一个确定的分析动作序列来得到一个唯一的句法表达，即依存图（有时可能会有回溯和修补），这是确定性句法分析方法的基本思想。

短语结构与依存结构之间的关系

短语结构树可以被一一对应地转换成依存关系树，反之则不然。因为一棵依存关系树可能会对应多棵短语结构树。

罗素悖论：由所有不包含自身的集合构成的集合

例子：理发师称只给那些不给自己理发的人理发。

基于集合论，理发师无论给自己理发还是不给自己理发都是矛盾的。

因此集合论不是完备的。 即使后面冯罗伊德等科学家提出了各种假定条件。

由于上述的原因，集合率无法很好的描述自然语言，科学家发现通过概率模型可以更好的描述自然语言。

深度学习来处理自然语言属于概率模型

证明最小点位于坐标轴上

h = f+c|x|

由于在x = 0处不可导

h-left'(0)h-right'(0) = (f'+c)(f'-c)

那么如果c>|f'(0)|可得，h在0处左右导数异号

0是最值。

那么在损失函数加入L1正则化后，可以得到某些维度容易为0，从而得到稀疏解

几乎所有的最优化手段，都将适用凸优化算法来解决

P(A|B) = P(A and B) / P(B)

if A and B 独立

=》P(A and B| C) = P(A|C)P(B|C)

也可以推出

=>A(A|B and C) = P(A|C) (B交C不为空)

抛9次硬币，硬币出现正面的概率是05，出现k次的概率分布如下如

服从正态分布

x的平均值

E = xp(x) +

x相对于期望的偏离

var = (x-E(x))^2

conv = (x - E(x))(m - E(m))

描述x,m是否有同分布

按理协方差为0，并不代表x和m没有关系

例如下图

如果点的分布对称的分布，会得到协方差为0，但是其实他们是有关系的。

把每个相关的概率累加，得到联合概率

P(x1=m1,x2=m2) = n!P1 m1/m1!P2 m2/m2!

T(n) = (n-1)!

T(x)用一条曲线逼近n!，进而可以求得非整数的阶乘

由二项式分布推出

P = T(a+b)x (a-1)(1-x) (b-1)/(T(a)T(b))

则正态分布

y为0时，不考虑y‘。y为1时，y'越接近1，越小，越靠近0，越大

把D最小化，迫使y'逼近y

对于一个句子，有若干单词组成。例如

C1: The dog laughs

C2: He laughs

那么计算P(C1) = P(The, Dog, laughs)的概率和P(C2) = P(He, laughs)的概率。

根据历史文本的统计学习。

可以得到P(C1)<<P(C2)

P('I love the game') = P('I')P('love')P('the')P('game')

其中P(<work>) = 频率/总单词数

计算一篇文章是积极的还是消极的。

P(y|x) = sigmod(wx)

x是文章内每个单词的频率

y表示积极和消极情感

其中P(xk|x1, x2,xk-1) = frequence(x1, x2 ,, xk)/frequence(x1, x2xk-1)

2-gram模型例子

把多个gram的模型进行线性整合

P(y|x1, x2, xn) = P(y)P(x1, x2, xn|y) / P(x1, x2, xn)

y代表是否是垃圾邮件

x代表单词

广州市长寿路 -》广州市长|寿路

广州市长寿路 -》广州市|长寿路

匹配词袋：广州市，广州市长，长寿路

使用最大匹配发，第二个分词更优

通过统计P(A|B)，得出各个option的概率，取最大的概率，则为最后的分词

word => [0, 0 , 1, 0]

word => [0, 1, 0, 1, 0, ]

可以解决词相似性问题

计算附近词的频率

word => [0, 3, 0, 1, 0, ]

w是附近词的one-hot encoding

score是词的one-hot encoding

最后一层通过softmax，取拟合文本

最终中间层则为词向量

输入为词one-hot encoding

输出为附近此的one-hot encoding

最后通过softmax预测附近词

最后中间层则为结果词向量

混合模型是一种统计模型，问题中包含若干个子问题，每个子问题是一个概率分布，那么总问题就是若干个子问题的组合，也就是若干个子分部的组合，这样就形成了混合模型。

有红黑两种硬币，把它们放在盒子里，从盒子里随机抽取一个硬币并投币，抽到红色的概率是p，红色硬币正面的概率是q，黑色硬币正面的概率是m，假设我们没办法看到抽取出的硬币的颜色，只能看到最终是正面或者反面的结果，例如HTTHTTTTHHH (H:正面 T: 反面)。需要估计p,q,m三个参数。

此时可以计算出

通过EM算法迭代如下：

随机p q m

迭代以下过程：

计算上面table

p = (aC(正)+cC(反))/total

q = aC(正)/(aC正+cC正)

m = bC(正)/(bC正 + dC正)

假设有上述数据，需要用混合模型来逼近，通过分析，红色和蓝色数据分别为高斯正态分布，N(u, v)

此时可以得到如下表

p = pN红x/(pN红x+(1-p)N蓝x)

u = pN红x/n

v = pN红(x-u)^2/n

词性转换概率

词性到单词的转换概率

通过EM递归算法，训练以上参数，得到隐马尔可夫模型

PLSA主题模型

只统计词的频率，不计算词的相对位置

计算文档和单词频率的矩阵

进行奇异矩阵分解

得到A矩阵的压缩U，U中的k则为k个主题

通过分析，LSA得到的主题是跟现实无法关联，它只是一个量，而没有明显的意义。

PLSA为了解决此问题，引入概率模型，先确定主题个数

然后通过构建Doc->topic的概率table，和topic->word的概率table。

然后通过EM模型，得到这两个table的所有概率值。

进而得到文档的主题表示

PLSA的缺陷是，对于预测未知的doc，无法计算此文档的相关概率。随着doc数量的增加，PLSA模型的参数会线性增加，从而会造成过拟合。

LDA通过引入先验概率来克服PLSA的问题。

类似于编译原理的上下文无法句法分析，一颗语法树

通过对CFG引入概率参数

有了概率，可以计算每颗语法树的极大似然概率，并取最大概率的树为最终输出

上一个状态中间层的输出作为下一隐层的输入

类似于HMM的2-gram模型。t状态受到t-1时刻输出的影响，受t-k的输出的k越大，影响越小

由于RNN几乎只受到上一时刻的影响，而忽略了久远信息的影响。从而造成了一定的局限性。

LSTM通过引入长短记忆方法，来维持长记忆的信息。

通过训练核内的sigmod函数，使得LSTM可以根据不同的句子，有条件的保留和过滤历史信息，从而达到长记忆的功能。

GRU是LSTM的简化版，它只需要处理两个sigmod函数的训练，而LSTM需要三个sigmod函数的训练，减少了训练的参数，加快了训练的速度，但也损失了一部分模型的复杂，在处理较复杂问题时，没有LSTM那么好。

auto-encoder-decoder的特点是输出的单元数是固定的。对于一般自然语言处理，例如机器翻译，输入的单元个数跟输出单元的个数并不是一一对应的，此时就需要动态的生成输出单元。Seq2Seq通过动态的输出结束符，代表是否输出完成，达到可以动态的根据输入输出不同的单元个数。

seq2seq的缺点是，所有的输入序列都转化为单一的单元c，导致很多信息都将消失，对于不同的输出yi，它可能依赖的输入xj有可能不一样，此时通过加入注意力模型，通过对xi进行softmax处理，并加入到y权重的训练中，可以让不同的y，有不同的x对它进行影响

softmax的输入为输入单元x，和上一个输出单元y，联合产生softmax的权重，进而对不同的序列，对于同一个x，会有不同的注意力到输出

q = Wq(x)

k = Wk(x)

v = Wv(x)

x为词向量

通过训练，得到权重w，从而学习到这一层的softmax注意力参数

R是前一次encoder的输出

通过增加w的数量，产生多个z，并进行堆叠，通过前馈网络，最后产生z

在使用self attention处理句子时，是没有考虑单词在句子中的位置信息的。为了让模型可以加入考虑单词的位置信息，加入了位置编码的向量

计算如下：

pos为单词在句子中的位置

i为词向量的位置

d为句子的长度

位置编码加上词向量形成tranformer的输入

加入了归一化和残差网络

最终通过softmax，输出每个单词的概率，并最终输出单词

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/839691.html

对于自然语言处理问题,哪种神经网络模型结构更适合?()。

发表评论

评论列表（0条）