BERT - 论文解读2024年_知识

BERT: Pre-training of Deep Bidirectional Transformers for

Language Understanding

○ 将预训练语言模型应用在下游任务中，一般有两种策略：

作者认为影响当前预训练语言模型的 瓶颈是——“模型是单向的” 。如 GPT 选择从左到右的架构，这使得每个 token 只能注意到它前面的 token，这对 sentence 级的任务影响还是次要的，但对于 token 级的任务来说影响就很巨大。例如问答任务，从两个方向结合上下文是至关重要的。

BERT 通过使用受完形填空任务启发的 Mask Language Model （MLM）缓解了先前模型的单向性约束问题。MLM 随机 mask 掉一些输入文本中的 token，然后根据剩下的上下文预测 masked 的 token。除了 Mask Language Model，作者还提出了 Next Sequence Predict 任务，来联合训练文本对表示。

论文中BERT的改进如下：

预训练前的一般语言表征有着悠久历史，本节我们简要回顾一下最广泛使用的方法。

21 基于特征的无监督方法 ：

几十年来，学习广泛适用的词汇表征一直是一个活跃的研究领域，包括非神经系统、神经系统方法。预训练的词嵌入是现代NLP系统的一个组成部分，与从头学习的嵌入相比，它提供了显著的改进（Turian等人，2010）。为了预先训练单词嵌入向量，已经使用了从左到右的语言建模目标（Mnih和Hinton，2009），以及在左右上下文中区分正确单词和错误单词的目标（Mikolov等人，2013）。

这些方法已被推广到更粗糙的粒度，例如句子嵌入（Kiros等人，2015；Logeswaran和Lee，2018）或段落嵌入（Le和Mikolov，2014）。为了训练句子表征，之前的工作已经使用了目标对候选下一个句子进行排序（Jernite等人，2017；Logeswaran和Lee，2018），根据前一个句子的表征从左到右生成下一个句子单词（Kiros等人，2015），或去噪自动编码器衍生的目标（Hill等人，2016）。

ELMo 及其前身（Peters等人，20172018a）从不同的维度概括了传统的单词嵌入研究。它们通过从左到右和从右到左的语言模型中提取上下文敏感的特征。每个标记的上下文表示是从左到右和从右到左表示的串联。在将上下文单词嵌入与现有任务特定架构相结合时，ELMo推进了几个主要NLP基准（Peters等人，2018a）的最新技术，包括问答（Rajpurkar等人，2016年）、情感分析（Socher等人，2013年）和命名实体识别（Tjong Kim-Sang和De Meulder，2003年）。Melamud等人（2016年）提出通过一项任务来学习语境表征，即使用 LSTM 从左右语境中预测单个单词。与ELMo类似，他们的模型是基于特征的，而不是深度双向的。Fedus等人（2018）表明，完形填空任务可以用来提高文本生成模型的 稳健性 。

22 无监督微调方法：

与 基于特征feature-based 的方法一样，第一种方法只在未标记文本中预先训练单词嵌入参数的情况下才朝这个方向工作。最近，产生上下文标记表示的句子或文档编码器已经从未标记的文本和文本中预训练出来针对受监督的下游任务进行了 微调fine-tuned 。

这些方法的 优点是 ，很少有参数需要从头学习。至少部分由于这一优势，OpenAI GPT在GLUE基准测试的许多句子级任务上取得了之前的最新成果。从左到右的语言建模和自动编码器目标已用于此类模型的预训练。

注解：BERT的整体预训练和微调程序。除了输出层之外，在预训练和微调中使用相同的体系结构。相同的预训练模型参数用于初始化不同下游任务的模型。在微调过程中，所有参数都会微调。

23 基于监督数据的迁移学习：

也有研究表明，在大数据集的监督任务中，如自然语言推理和机器翻译可以有效地进行转换。计算机视觉研究也证明了 从大型预训练模型中进行迁移学习的重要性 ，其中一个有效的方法是对使用ImageNet预训练模型进行微调。

本节将介绍BERT及其详细实现。在我们的框架中有两个步骤：预训练和微调。

BERT的一个显著特点是其跨不同任务的统一体系结构 。预训练的体系结构和最终的下游体系结构之间的差异最小。

BERT 的模型架构是 一种多层的双向 transformer encoder ，BERT 在实现上与 transformer encoder 几乎完全相同。

定义：transformer block 的个数为 L ; hidden 大小为 H; self-attentions head 的个数为 A 作者主要展示了两种规模的 BERT 模型：

在这项工作中，我们将层数（即Transformer blocks）表示为L，隐藏大小表示为H，自我注意头的数量表示为A。我们主要报告两种型号的结果：

为了进行比较，选择BERT-base与OpenAI GPT具有相同的模型大小。然而，关键的是， BERT Transformer使用双向自注意力机制self-attention ，而 GPT Transformer使用受限自注意力机制constrained self-attention ，其中每个标记只能关注其左侧的上下文。

为了使 BERT 能处理大量不同的下游任务，作者将模型的输入设计成可以输入单个句子或句子对，这两种输入被建模成同一个 token 序列。作者使用了有 30000 个 token 的 vocabulary 词嵌入。

31 Pre-training BERT :

我们不使用传统的从左到右或从右到左的语言模型来预训练BERT。相反，我们使用本节所述的两个无监督任务对BERT进行预训练。这一步如图1的左半部分所示。

Task #1: Masked LM

标准的语言模型只能实现从左到右或从右到左的训练，不能实现真正的双向训练，这是因为双向的条件是每个单词能直接“看到自己”，并且模型可以在多层上下文中轻松的预测出目标词。

为了能够实现双向的深度预训练，作者选择 随机 mask 掉一些比例的 token ，然后预测这些被 masked 的 token，在这种设置下，被 masked 的 token 的隐向量表示被输出到词汇表的 softmax 上，这就与标准语言模型设置相同。作者将 这个过程称为“Masked LM”，也被称为“完形填空” 。

○ Masked LM 预训练任务的缺点 ：

在于由于 [MASK] 标记不会出现在微调阶段，这就造成了预训练和微调阶段的不一致。为了解决该问题，作者提出了 一种折中的方案 ：

○ BERT 的 mask策略：

Task #2: Next Sentence Prediction (NSP)

很多下游任务都是基于对两句话之间的关系的理解，语言模型不能直接捕获这种信息。为了训练模型理解这种句间关系，作者 设计了 next sentence prediction 的二分类任务 。具体来说，就是选择两个句子作为一个训练样本，有 50% 的概率是下一句关系，有 50% 的概率是随机选择的句子对， 预测将 [CLS] 的最终隐状态 C 输入 sigmoid 实现 。

○ Pre-training data ：

作者选用了BooksCorpus (800M words) 和 English Wikipedia (2,500M words) 作为预训练的语料库，作者只选取了 Wikipedia 中的文本段落，忽略了表格、标题等。为了获取长的连续文本序列，作者选用了 BIllion Word Benchmark 这样的文档级语料库，而非打乱的句子级语料库。

32 Fine-tuning BERT ：

因为 transformer 中的 self-attention 机制适用于很多下游任务，所以可以直接对模型进行微调。对于涉及文本对的任务，一般的做法是独立 encode 文本对，然后再应用双向的 cross attention 进行交互。Bert 使用 self-attention 机制统一了这两个阶段，该机制直接能够实现两个串联句子的交叉编码。

对于不同的任务，只需要简单地将特定于该任务的输入输出插入到 Bert 中，然后进行 end2end 的fine-tuning。

与预训练相比，微调相对便宜。从完全相同的预训练模型开始，本文中的所有结果最多可以在单个云TPU上复制1小时，或在GPU上复制几个小时。

在本节中，我们将介绍11个NLP任务的BERT微调结果。

41 GLUE：

GLUE (General Language Understanding Evaluation) 是多个 NLP 任务的集合。作者设置 batch size 为 32；训练 3 个 epochs；在验证集上从（5e-5, 4e-5, 3e-5, 2e-5）中选择最优的学习率。结果如下：

结果见表1。 BERT-base和BERT-large在所有任务上都比所有系统表现出色，与现有技术相比，平均准确率分别提高了45%和70% 。请注意，除了注意掩蔽，BERT-base和OpenAI GPT在模型架构方面几乎相同。

对于最大和最广泛报道的GLUE任务MNLI，BERT获得了46%的绝对准确率提高。在官方的GLUE排行榜10中，BERT-lagle获得805分，而OpenAI GPT在撰写本文之日获得728分。我们发现BERT-large在所有任务中都显著优于BERT-base，尤其是那些训练数据很少的任务。

42 SQuAD v11 :

斯坦福问答数据集（SQuAD v11）收集了10万对众包问答对。给出一个问题和一段维基百科中包含答案的文章，任务是预测文章中的答案文本。

如图1所示，在问答任务中，我们将输入的问题和段落表示为单个压缩序列，问题使用A嵌入，段落使用B嵌入。在微调过程，我们只引入一个起始向量S和一个端向量E。单词i作为答案范围开始的概率计算为Ti和S之间的点积，然后是段落中所有单词的softmax：

答案范围结束时使用类似公式。候选人从位置 i 到位置 j 的得分定义为：S·Ti + E·Tj ,最大得分跨度为 j≥ i 被用作预测。训练目标是正确起始位置和结束位置的对数概率之和。我们微调了3个阶段，学习率为5e-5，批量大小为32。

表2显示了顶级排行榜条目以及顶级发布系统的结果。SQuAD排行榜的前几名没有最新的公共系统描述，并且允许在训练系统时使用任何公共数据。因此，在我们的系统中使用适度的数据扩充，首先在TriviaQA上进行微调，然后再对团队进行微调。

我们表现最好的系统在ensembling方面的表现优于排名第一的系统，在ensembling方面的表现优于排名第一的系统+15 F1，在单一系统方面的表现优于排名第一的系统+13 F1得分。事实上，我们的单BERT模型在F1成绩方面优于顶级合奏系统。如果没有TriviaQA微调数据，我们只会损失01-04 F1，仍然远远超过所有现有系统。

其他实验：略

在本节中，我们对BERT的许多方面进行了消融实验，以便更好地了解它们的相对重要性。其他消融研究见附录C。

51 预训练任务的效果 ：

○ 进行了如下消融测试：

○ 结果如下：

52 模型大小的影响 ：

○ 结果如下：

作者证明了 ：如果模型经过充分的预训练，即使模型尺寸扩展到很大，也能极大改进训练数据规模较小的下游任务。

53 将 Bert 应用于 Feature-based 的方法 ：

○ feature-based 的方法是从预训练模型中提取固定的特征，不对具体任务进行微调 。

○ 这样的方法也有一定的优点 ：

作者进行了如下实验：在 CoNLL-2003 数据集上完成 NER 任务，不使用 CRF 输出，而是从一到多个层中提取出激活值，输入到 2 层 768 维的 BiLSTM 中，再直接分类。结果如下：

结果说明：无论是否进行微调，Bert 模型都是有效的。

个人认为 Bert 的意义在于：

由于语言模型的迁移学习，最近的经验改进表明，丰富的、无监督的预训练是许多语言理解系统的一个组成部分。特别是，这些结果使得即使是低资源任务也能从深层单向体系结构中受益。我们的主要贡献是将这些发现进一步推广到深层双向体系结构中，使相同的预训练模型能够成功地处理广泛的NLP任务。

BERT不可以做翻译任务，因为翻译任务是NLP生成式任务，BERT目前是不可以做的。

BERT主要可以做的任务有下面几种：

1 文本分类任务，比如情感分类

2 序列标注任务，比如分词实体识别词性标注

3 句子关系判断，比如QA，自然语言推理

歌名：放生

演唱：范逸臣

词：武雄

曲：梁可耀

地点是城市某个角落

时间在午夜时刻

无聊的人常在这里出没

交换一种寂寞

我静静坐在你的身后

你似乎只想沉默

我猜我们的爱情已到尽头

无话可说

比争吵更折磨

不如就分手

放我一个人生活

请你双手不要再紧握

一个人我至少干净俐落

沦落就沦落

爱闯祸就闯祸

我也放你一个人生活

你知道就算继续结果还是没结果

又何苦还要继续迁就

我静静坐在你的身后

你似乎只想沉默

我猜我们的爱情已到尽头

无话可说

比争吵更折磨

不如就分手

放我一个人生活

请你双手不要再紧握

一个人我至少干净俐落

沦落就沦落

爱闯祸就闯祸

我也放你一个人生活

你知道就算继续结果还是没结果

就彼此放生留下活口

爱的时候

说过的承诺

爱过以后

就不要强求

从此分手

不必再回头

各自生活

曾经孤单加上孤单是爱火

燃烧过你和我

如今沉默加上沉默更沉默

再没有什么舍不得

放我一个人生活

请你双手不要再紧握

一个人我至少干净俐落

沦落就沦落

爱闯祸就闯祸

我也放你一个人生活

你知道就算继续结果还是没结果

就彼此放生留下活口

扩展资料

《放生》是由武雄作词，“阿Bert”梁可耀作曲，范逸臣演唱的首歌曲，收录于范逸臣2006年发行的专辑《不说出的温柔》中。

范逸臣，本名范佑臣，阿美族语名林纳斯，阿美族原住民。台湾歌手、演员。

参考资料

-范逸臣

失恋必听的51首歌：《手放开》李圣杰、《想自由》林宥嘉、《退后》周杰伦、《我们怎么了》SHE、《简简单单》林俊杰、《你不在》王力宏、《孤单北半球》欧得洋、《翅膀》林俊杰、《独唱情歌》TANK&SHE、《突然好想你》五月天。

周武彪——《爱你所以放开你》、阿龙正罡——《那一次我真的爱过你》、初百军——《悄悄为你流过眼泪》、顾建华——《爱你今生到永远》、《528天前》——林剑衡、周新诚——《十三月的雪花》、陈淘——《爱难永恒》、《随风缘》——温兆伦、《当我孤独的时候还可以抱着你》——郑源、《你就是我想要的人》——老猫、《发现》——路绮欧。

《我最爱的人》——阿华、《其实我很在乎你》——王袁、《不要再说你还爱我》——谈欣、《原谅我一次》——欢子、《谁是谁的谁》——艾丽莎、《爱走了心碎了》——雷龙、《唱歌给谁听》——韩晶、《放弃我是你的错》——陆萍、《我真的受伤了》 ——张学友、《一个人的精彩》——萧亚轩、《断点》—— 张敬轩、《分手快乐》—— 梁静茹。

《十年》—— 陈奕迅、《美丽心情》——本多RURU、《孟婆汤》 ——游鸿明、《成全》 ——刘若英、《比我幸福》—— 陈晓东、《失恋万岁》 ——苏慧伦莫文蔚、《十万个对不起》——田跃君、《寂寞才说爱》——刘可、《留不住你的温柔》——李泽坚、《分手在那个秋天》——浩瀚、《念念不忘的情人》——陈明真、《香烟爱上火柴》——张政、《爱情里没有谁对谁错》——郑源、《我不愿错过》——高一首、《最爱的人也伤我最深》——Fire、《爱你今生到永远》——顾建华、《感动天感动地》——宇桐非

《别在伤口撒盐》——张惠妹，《别在伤口撒盐》是张惠妹演唱的歌曲。收录在张惠妹1999年发行的第五张个人专辑《我可以抱你吗？爱人》，由邬裕康作词，郭子作曲。《别在伤口洒盐》由曲风优美的郭子作曲；用字犀利的邬裕康填词，传达新世纪的恋爱价值观，A-MEI个性化的演唱方式，很能贴近现代都会男女的心情。同时，也是中视强档花剧--「君子兰花」的主题曲。

《最熟悉的陌生人》——萧亚轩，《最熟悉的陌生人》是华语流行乐女歌手萧亚轩演唱的一首中慢板抒情歌，这首歌由姚谦填词，小柯谱曲，收录于萧亚轩1999年11月17日发行的首张《萧亚轩》同名专辑中，亦是专辑的主打歌之一。

《柠檬草的味道》——蔡依林，《柠檬草的味道》是蔡依林演唱歌曲，由李焯雄填词，李偲菘编曲，收录在蔡依林2004年发行专辑《城堡》中。该曲于2004年2月27日播出。

阿Bert 歌手类型：华语男歌手英文名：阿Bert 所属地区：香港专辑数：1张专辑名：自作自乐 II

这次介绍的音乐人虽然不是来自北京，但如果你是生于芝麻街，或许老早就将他界定为「黄种人」；你可以笑他的名字，但一看就知他在外国浸过咸水，用广东话中最通俗的「阿」字配上需要卷舌头的Bert音，等闲之辈也不能顺畅地读出，不知多少DJ和MC都曾经中招。

阿Bert与生俱来的武器就是一双钢琴手；他拥有的钢琴「沙纸」足以可当studio里的隔音绵，什么九级、十级或是比赛冠军，看来自小已是习武之人。高超的琴技除了促使旋律起伏有致之外，亦为自己争取到很多编曲机会。另外，大家如果看到一位务实青年专注那八十八键之间又带有几分俊朗出没在一些商场show和音乐会当中，这副好身手一定是他。

其实以他的钢琴造诣大可以帮贝多芬延续第十交响曲，偏偏他第一首出版歌Fiona薛凯琪的<有只雀仔>，「大桥」就是一般学琴半年多就可弹奏的<London Bridge is falling down/有只雀仔跌落水>。有点讽刺，但又是用最简单的方程式杀死听众感观的经典例子，再配合Wyman的歌词，在那年头<有只雀仔>变成Fiona的深情之作，亦给人认同Fiona不只懂得写信给偶像，原来也可以收起幼嫩、成熟地驾驭歌曲。

近来为传奇网络歌手-霖的project日夜赶工的阿Bert，在其Blog里用上「一榜两歌创举!未试过…」做Caption，先有Charles应昌佑的<尾指>，小品式的感动、正中要害的歌词从第一句心领神会，「应该不算差…」有着浓烈的写照味；纵然没有四台联手做势劲播，但总有独具慧眼者支持。另外亦有本年度女新人Rannes文恩澄的<娱人娱己>，作为主打歌亦得到广告商的青睐，当你低头吃那「炷」粉丝时，可有边吃边哼起这首歌。同时间plug紧自己的作品，兴奋之情溢于言表。以他的资优，再配合其不断求进之心，距离他现在拜师学艺的老师Ted Lo一样成为知名音乐人，应该不远矣；估计那时他应该在blog写上「一榜两歌碎料! So easy…」。

上世纪60年代流行摇滚乐队Monkees的老歌<i wanna be free>在影片中几度响起，“我想要自由，像那天际飞翔的青鸟……”的旋律十分贴合“哥哥”部分的青葱剧情，

dancing on the moon

主唱：the Fabulous Echoes

作曲：Miller，Ed E \Carroll,Bert

填词：Miller，Ed E \Carroll,Bert

Pussy-Willows Cat-Tails

主唱：Gordon Lightfoot

作曲：Gordon Lightfoot

填词：Gordon Lightfoot

片中“哥哥”死前作的歌曲《Echoes of the Rainbow》也令“哥哥”的早夭充满伤感，另外一首卢冠廷作曲、罗启锐填词、李治廷主唱的主题曲《岁月轻狂》更获得29届香港**金像奖最佳原创**歌曲。

主题曲《岁月轻狂》由导演罗启锐亲自填词、著名音乐人卢冠廷作曲，李治廷演唱。十分好听。入围金像奖最佳主题曲提名

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7487923.html

BERT - 论文解读

发表评论

评论列表（0条）