05-ELMoBERTGPT-NLP预训练模型2024年_知识

这里可以参考CSDN上的文章-BERT原理和实践： https://blogcsdnnet/jiaowoshouzi/article/category/9060488

在解释BERT，ELMO这些预训练模型之前，我们先看一下很久之前的计算机是如何读懂文字的？

每个字都有自己的独特的编码。但是这样是有弊端的，字和字之间的关联关系是无法得知的，比如计算机无法知道dog和cat都是动物，它反而会觉得bag和dog是比较相近的。

所以后来就有了Word Class，将一系列的词进行分类然后让一类词语和一类词语之间更有关联，但是这样的方法太过于粗糙，比如dog，cat，bird是一类，看不出哺乳动物鸟类的区别。

在这个基础之上，我们有了Word Embedding，Word Embedding我们可以想象成是一种soft的word class，每个词都用向量来表示，它的向量维度可能表示这个词汇的某种意思，如图中dog，cat，rabbit的距离相比其他更近。那么word embendding是如何训练出来的，是根据每个词汇的上下文所训练的。

每个句子都有bank的词汇，四个bank是不同的token，但是同样的type。（注：token-词例， type-词型， class-词类 or token是出现的总次数(还有种理解是token是具有一定的句法语义且独立的最小文本成分。 )，type是出现的不同事物的个数。）

对于典型的Word Embedding认为，每个词type有一个embedding，所以就算是不同的token只要是一样的type那么word embedding就是一样的，语义也就是一样的。

而事实上并非如此，1,2句bank指的是银行，3,4为水库。所以我们希望让机器给不同意思的token而且type还一致，给予不同的embedding。在这个问题上，之前的做法是从字典中去查找这个词包含几种意思，但是这样的做法显然跟不上现实中词语的一些隐含的含义。比如bank有银行的意思，与money一起是银行的意思，而与blood一起却是血库的意思。

所以我们想让机器今天进一步做到每一个word token都可以有自己的embedding(之前是每个type有一个embedding或者有固定的一个或多个embedding)，那么怎么知道一个word应该有怎样的embedding呢？我们可以取决于该词的上下文，上下文越相近的token它们就会越相近的embedding。比如之前提到的bank，下面两个句子它们的word token的embedding可能是相近的，而和上面的word token的embedding是相远的。

所以我们想使用一种能够基于上下文的Contextual word Embedding来解决一词多义的问题。

这里使用ELMO可以做到这件事情，即每个word token拥有不同的word embedding。(右上角动物是芝麻街(美国公共广播协会（PBS）制作播出的儿童教育电视节目)里的角色)。

它是基于RNN的预训练模型，它只需要搜集大量语料(句子)且不需要做任何标注，就可以训练这个基于RNN的语言模型，预测下一个token是什么，学习完了之后就得到了上下文的embedding。因为我们可以将RNN的隐藏层中的某一节点拿出来(图中橙蓝色节点)，它就是输入当前结点的词汇的word embedding。

从当计算识别到<BOS>，模型训练开始。首先输入"潮水"，然后当作输入输出"退了"，退了当做输入输出"就"。

假设当前要得到”退了”这个词的上下文embedding，首先，因为前边的RNN只考虑到了前文而没有考虑到后文，所以这里就使用了同前文一样的反向的RNN。然后，它从句尾开始进行，比如给它喂”知道”，它就要预测”就”，给它喂”就”，它就要预测”退了”。这时候就不仅考虑每个词汇的前文，还会考虑每个词的后文。最后将正向和逆向得到的两个不同的上下文embedding(因为方向不同训练结果也不一样)拼接起来。

现在我们训练的程度都会越来越深度，当层数增加，这样就会产生Deep的RNN，因为很多层，而且每一层都会产生上下文Embedding，那么我们到底应该使用哪一层？每一层这种深度LSTM中的每个层都可以生成潜在表示(方框处)。同一个词在不同的层上会产生不同的Embedding，那么我们应该使用哪一层呢？ELMo的策略是每一层得到的上下文embedding都要。

在上下文embedding的训练模型中，每个词输入进去都会有一个embedding输出来。但是在ELMo中，每个词汇输入进去，都会得到不止一个embedding，因为每层的RNN都会给到一个embedding，ELMo将它们统统加起来一起使用。

以图中为例，这里假设ELMo有两层RNN，这里是将α1(**，第一层得到的embedding)和α2(绿色，第二层得到embedding)加起来得到蓝色的embedding，并做为接下来要进行不同任务的输入。

但是这里存在一些问题，α1和α2是学习得到的，而且它是根据当前要进行的任务(如QA，POS of tagging )，然后根据接下来要进行的这些任务一起被学习出来。所以就导致不同任务导向下的α1和α2也不一样。

ELMo的论文中提到，在不同任务下(SRL,Coref,SNLI,SQuAD,SST-5)。蓝色的上下文embedding在经过token(这里为没有经过上下文的embedding)，LSTM1，LSTM2后，它在不同阶段需要的weight也不一样。

BERT相当于是Transformer的Encoder部分，它只需要搜集大量的语料去从中学习而不经过标注(不需要label)，就可以将Encoder训练完成。如果之前要训练Encoder，我们需要通过一些任务来驱动学习(如机器翻译)。

BERT就是句子给进去，每个句子给一个embedding。

这里可以回忆下，Transformer的Enoder中有self-attention layer，就是给进去一个sequence，输出也得到一个sequence。

虽然图中使用是用词作为单元进行输入，但是在使用BERT进行中文的训练时，字会是一个更好的选择。比如，我们在给BERT进行输入时，用one-hot给词进行编码，但是词在中文中数量庞大，会导致维度过高。但是，字的话相对会少很多，特别是中文(大约几千个，可以穷举)。这样以字为单位进行输入会占很大优势。

共有两种方法，一种是Mask LM遮盖语言模型，另一种是Next Sentence Prediction下一句预测。

下面用上图的例子来理解BERT是怎么样来进行填空的：

1）这里假设在所有句子中的词汇的第2个位置上设置一个<MASK>；

2）接下来把所有的词汇输入BERT，然后每个输入的token都会得到一个embedding；

3）接下来将设置为<MASK>的embedding输入到Linear Multi-class Classifier中中，要求它预测被<MASK>的词汇是哪个词汇？

但是这个Linear Multi-class Classifier它仅仅是一个线性分类器，所以它的能力十分弱，这也就需要在之前的BERT模型中需要将它的层数等参数设计的相当好，然后得到非常出色的representation，便于线性分类器去训练。

那么我们怎么知道最后得到的embedding是什么样的呢？如果两个<MASK>下的词汇(输入时设置的<MASK>和最后预测的<MASK>)都放回原来的位置而且没有违和感(就是语句还算通顺)，那它们就有类似的embedding(比如退下和落下)。

如图中，给定两个句子1)醒醒吧和 2)你没有妹妹。其中特殊符号[SEP]是告诉BERT两个句子的分隔点在哪里。

特殊符号[CLS]一般放在句子的开头，它用来告诉BERT从这开始分类任务，[CLS]输入BERT后得到embedding然后通过Linear Binary Classifier得出结果说明：经过BERT预测后现在我们要预测的两个句子是接在一起 or 不应该被接在一起。

这里可能会有疑问，为什么不将[CLS]放在句尾，等BERT训练完两个句子再输出结果？

对于上图中的任务，BERT现在要做的事情就是给定两个句子，让BERT输出结果这两个句子是不是应该接在一起？

所以在语料库的大量句子中，我们是知道哪些句子是可以接在一起的，所以也需要我们告诉BERT哪些句子是接在一起的。

Linear Binary Classifier和BERT是一起被训练的，通过预测下一句这个任务，我们就可以把将BERT部分的最优参数训练出来。

现在我们知道了任务一和任务二，在原论文中两种任务是要同时进行的，这样才能将BERT的性能发挥到最佳。

现在我们知道了BERT要做什么事情，那么我们要如何去使用它？共有四种方法。论文中是将BERT模型和接下来你要进行的任务结合在一起做训练。

第一种，假设当前任务是Input一个sentence，out一个class，举例来说输入一句话来判断分类。

训练流程：1）将做要分类的句子丢给BERT；

2）需要在句子开始加上分类的特殊符号，这个特殊符号经过BERT输出的embedding经过线性分类器，输出结果为当前的句子属于的类别是真还是假。BERT和Linear Classifier的参数一起进行学习；

3）这里的Linear Classifier是Trained from Scratch是白手起家从头开始，即它的参数随机初始化设置，然后开始训练；

4）而BERT则是加上Fine-tune微调策略(一种迁移学习方式)，例如Generative Pre-trained Transformer(OpenAI GPT生成型预训练变换器)(Radford等，2018)，引入了最小的任务特定参数，并通过简单地微调预训练参数在下游任务中进行训练。

这里不得不提一下迁移学习中的Fine-tune，这里可以参考csdn的一篇文章： https://blogcsdnnet/u013841196/article/details/80919857

( https://arxivorg/abs/180512471 )

第二种，假设当前任务是input一个sentence，输出这个句子中的每个词汇属于正例还是负例。举例现在的任务是slot filling填槽任务(填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过程)（另一种解释是从大规模的语料库中抽取给定实体（query）的被明确定义的属性（slot types）的值（slot fillers））(槽可以理解为实体已明确定义的属性)，输入的句子是 arrive Taipei on November 2nd输出的槽是other dest on time time

训练流程：

1）将句子输入BERT，句子中的每个词汇都会映射出一个embedding；

2）每个词汇的embedding输入Linear Classifier，输出结果；

3）Linear Classifier 白手起家和Bert微调的方式一起去做学习。

第三种，假设当前任务是input输入两个句子，输出class。举例现在要进行自然语言预测，让机器根据premise前提，预测这个hypothesis假设是True还是False还是unknown不知道。实际上，我们可以把这个任务当成三分类问题。

训练过程：

1）在一个sentence前设置特殊符号[CLS]，然后在要输入的两个sentence中间设置[SEP]分隔符号；

2）将两个sentence连同特殊符号一起输入到BERT中；

3）将[CLS]输入BERT后得到的embedding，再把它输入linear Classifier中，得到class。

如图所示，假设gravity的token序号是17，即，我们现在有一个问题通过QA Model后得到的s=17，e=17，那么答案就是为gravity；

同理，假设within a cloud的序号顺序是77到79，即到 ,我们现在有一个问题通过QA Model后得到的s=77，e=79，那么答案就是为within a cloud。

https://arxivorg/abs/190505950

https://openreviewnet/pdfid=SJzSgnRcKX

这张图显示了BERT从0-24层的层数在针对不同的NLP任务上的表现。

https://d4mucfpksywvcloudfrontnet/better-language-models/language_models_are_unsupervised_multitask_learnerspdf

而所谓的GPT,它其实就是Transformer的Decoder。

我们简单的描述下GPT的训练过程：这里我们input<BOS>这个token和潮水，想要GPT预测输出“退了”这个词汇。

1）首先输入[BOS]（begin of sentence）和潮水，通过Word Embedding再乘上matrix W变成a 1到a 4，然后把它们丢进self-attention 层中，这时候每一个input都分别乘上3个不同的matrix产生3个不同的vector，分别把它们命名为q，k，v。

q代表的是query (to match others用来去匹配其它的向量)

k代表的是key (to be matched用来去被query匹配的向量)

v代表的是value(information to be extracted用来被抽取的信息的向量)

2）现在要做的工作就是用每个query q 去对每个 key k做attention（吃2个向量，输出就是告诉你这2个向量有多么匹配或者可以说输入两个向量输出一个分数\alpha（而怎么去吃2个向量output一个分数，有很多不同的做法））。这里要预测潮水的下一个词，所以乘，乘上 , 乘上再经过soft-max分别得到到。

3)我们用和每一个v相乘，和相乘加上和相乘。以此类推并相加，最终得到。

4)然后经过很多层的self-attention，预测得到”退了”这个词汇。

同理，现在要预测”退了”的下一个词汇，按照前面的流程可以得到，然后经过很多层的self-attention层，得到”就”这个词汇。

GPT的神奇之处在于它可以在完全没有训练数据的情况下，就可以做到阅读理解，摘要，翻译。折线图中显示了它在参数量上升的情况下，F1的值的效果。

1Transformer的问题：

word Embedding 无上下文

监督数据太少

解决方法：

Contextual Word Embedding

2ELMo( E mbeddings from L anguages Mo del)

- 多层双向的LSTM的NNLM

- RNN-based language models(trained from lots of sentences)

ELMo的问题：

Contextual Word Embedding作为特征

不适合特定任务

3OpenAI GPT的改进

根据任务Fine-Tuning

使用Transformer替代RNN/LSTM

OpenAI GPT的问题：

单向信息流的问题

Pretraining(1)和Fine-Tuning(2)不匹配

解决办法：

Masked LM

NSP Multi-task Learning

Encoder again

Tips：

- 使用中文模型

- max_seq_length可以小一点，提高效率

- 内存不够，需要调整train_batch_size

- 有足够多的领域数据，可以尝试Pretraining

热门技术一：强化学习

毫不夸张地说，2019年人工智能的现状就是强化学习回归的一年。简单介绍一下强化学习，它是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。其实强化学习已经发展了几十年了，并不算什么新技术。在2016年，AlphaGo击败李世石之后，强化学习融合了深度学习技术大放异彩，成为这两年最热门的技术之一。

在过去的几个月里，围绕强化学习开展的工作越来越多，这些工作重新唤起了学术界对强化学习的信念。在过去，人们曾经认为强化学习效率低下，过于简单，无法解决复杂的问题，甚至连游戏的问题也不能解决。而现在，强化学习最大的应用场景反倒是游戏了。

热门技术二：自然语言处理

自2018年底以来，人们的注意力已经从过去的词嵌入转移到预训练语言模型，这是自然语言处理从计算机视觉中借鉴来的一种技术。自Google BERT 、ELMo 和ulmfit等系统在2018年底推出以来，自然语言处理一直风头正茂。但今年的聚光灯被OpenAI的 GPT-2给“夺走了”，它的表现引发了人们对自然语言处理系统的道德使用的大讨论。目前，自然语言处理的应用场景比较广泛，像是机器翻译、打击垃圾邮件、信息提取、文本情感分析、自动问答以及个性化推荐等等。

热门技术三：计算机视觉技术

对人工智能来说，创造虚假但又逼真的人物和物体的图像，已经不再是前沿领域了。从 2014年生成对抗网络的引入到 2019年NVDIA开源的StyleGAN，都在对此进行证明。2019年，人工智能创造的艺术品甚至脱离了过去几年的假设性讨论，成为了今天博物馆装置和拍卖的一部分。

计算机视觉还被应用于一些具有重大商业和社会意义的领域，包括自动驾驶车辆和医学。但是，人工智能算法在这些领域中的应用自然是缓慢的，因为它们直接与人类生活直接互动。至少到目前为止，这些系统还不是完全自主的，它们的目的在于支持和增强人类操作员的能力。

NLP 是什么？

NLP 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成：自然语言理解和自然语言生成。

自然语言理解方向，主要目标是帮助机器更好理解人的语言，包括基础的词法、句法等语义理解，以及需求、篇章、情感层面的高层理解。

自然语言生成方向，主要目标是帮助机器生成人能够理解的语言，比如文本生成、自动文摘等。

NLP 技术基于大数据、知识图谱、机器学习、语言学等技术和资源，并可以形成机器翻译、深度问答、对话系统的具体应用系统，进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性，成为人工智能最先应用的行业之一，而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分，正在快速进入金融领域，并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event )：在特定时间、特定地点发生的事情。主题(Topic)：也称为话题，指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject)：涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是，国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点：也可称为热点主题。热点和主题的概念比较接近，但有所区别。

1 词干提取

什么是词干提取？词干提取是将词语去除变化或衍生形式，转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干，哪怕词干并非词典的词目。

2 词形还原

什么是词形还原？词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题，即词语在句中的语义，词语对相邻语句的语义等。

3 词向量化什么是词向量化？词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用，因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化，一个词语或者一段短语可以用一个定维的向量表示，例如向量的长度可以为100。

4 词性标注

什么是词性标注？简单来说，词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐？命名实体消岐是对句子中的提到的实体识别的过程。例如，对句子“Apple earned a revenue of 200 Billion USD in 2016”，命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说，命名实体要求有一个实体知识库，能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名，机构名，日期，地名，时间等类别的任务。

7 情感分析

什么是情感分析？情感分析是一种广泛的主观分析，它使用自然语言处理技术来识别客户评论的语义情感，语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析？语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意，相似性与相关性是不同的。

9语言识别

什么是语言识别？语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要？文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点，并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取，包括美食、酒店、汽车、景点等，可帮助商家进行产品分析，辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一个单词的首字母一般是大写，有的单词也会全部字母都大写用于表示强调和区分风格，这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达，一般值具有某种意义，无法再拆分的符号。在英文自然语言处理中，Tokens通常是单独的词，因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词，例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义，单停止词是频率非常多的词。为了减少我们要处理的词汇量，从而降低后续程序的复杂度，需要清除停止词。

Named Entity

Named Entity 一般是名词短语，又来指代某些特定对象、人、或地点可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前，必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据，我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点：

使用了Transformer作为算法的主要框架，Trabsformer能更彻底的捕捉语句中的双向关系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标；

使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，并且Google开源了BERT模型，用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构：由于模型的构成元素Transformer已经解析过，就不多说了，BERT模型的结构如下图最左：

对比OpenAI GPT(Generative pre-trained transformer)，BERT是双向的Transformer block连接；就像单向rnn和双向rnn的区别，直觉上来讲效果会好一些。

优点： BERT是截至2018年10月的最新state of the art模型，通过预训练和精调横扫了11项NLP任务，这首先就是最大的优点了。而且它还用的是Transformer，也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型，它捕捉到的是真正意义上的bidirectional context信息。

缺点： MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）

BERT火得一塌糊涂不是没有原因的：

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向，并再一次炒火了《Attention is All you Need》这篇论文；

11个NLP任务的精度大幅提升足以震惊整个深度学习领域；

无私的开源了多种语言的源码和模型，具有非常高的商业价值。

迁移学习又一次胜利，而且这次是在NLP领域的大胜，狂胜。

BERT算法还有很大的优化空间，例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力，而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成，论文中说的训练需要在64块TPU芯片上训练4天完成，而一块TPU的速度约是目前主流GPU的7-8倍。

欢迎分享，转载请注明来源：浪漫分享网

原文地址: https://hunlipic.com/qinggan/7820615.html

05-ELMoBERTGPT-NLP预训练模型

发表评论

评论列表（0条）