比较句子相似度方法2024年_知识

许多NLP应用需要计算两段短文之间的相似性。例如，搜索引擎需要建模，估计一份文本与提问问题之间的关联度，其中涉及到的并不只是看文字是否有重叠。与之相似的，类似 Quora 之类的问答网站也有这项需求，他们需要判断某一问题是否之前已出现过。要判断这类的文本相似性，首先要对两个短文本进行 embedding ，然后计算二者之间的余弦相似度（cosine similarity）。尽管 word2vec 和 GloVe 等词嵌入已经成为寻找单词间语义相似度的标准方法，但是对于句子嵌入应如何倍计算仍存在不同的声音。接下来，我们将回顾一下几种最常用的方法，并比较它们之间的性能。

我们将在两个被广泛使用的数据集上测试所有相似度计算方法，同时还与人类的判断作对比。两个数据集分别是：

下面的表格是STS数据集中的几个例子。可以看到，两句话之间的语义关系通常非常微小。例如第四个例子

通过判断，两句话之间“非常不相似”，尽管它们的句法结构相同，并且其中的词嵌入也类似。

有很多方法可以计算两个句子之间的意思相似度。在这里，我们看一下最常见的那些。

估计两句子间语义相似度最简单的方法就是求句子中所有单词词嵌入的平均值，然后计算两句子词嵌入之间的余弦相似性。很显然，这种简单的基准方法会带来很多变数。我们将研究，如果忽略终止词并用TF-IDF计算平均权重会带来怎样的影响。

替代上述基准方法的其中一种有趣方法就是词移距离（Word Mover’s Distance）。词移距离使用两文本间的词嵌入，测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离。

从语义上来讲，求一句话中词嵌入的平均值似乎给与不相关的单词太多权重了。而Smooth Inverse Frequency试着用两种方法解决这一问题：

最后，SIF使一些不重要的词语的权重下降，例如but、just等，同时保留对语义贡献较大的信息。

上述两种方法都有两个重要的特征。首先，作为简单的词袋方法，它们并不考虑单词的顺序。其次，它们使用的词嵌入是在一种无监督方法中学习到的。这两种特点都有潜在的威胁。由于不同的词语顺序会有不同的意思（例如 the dog bites the man 和 the man bites the dog ），我们想让句子的嵌入对这一变化有所反馈。另外，监督训练可以更直接地帮助句子嵌入学习到句意。

于是就出现了预训练编码器。预训练的句子编码器的目的是充当 word2vec 和 GloVe 的作用，但是对于句子嵌入来说：它们生成的嵌入可以用在多种应用中，例如文本分类、近似文本检测等等。一般来说，编码器在许多监督和非监督的任务中训练，目的就是能尽量多地获取通用语义信息。目前已经有好几款这样的编码器了，我们以 InferSent 和谷歌语句编码器为例。

InferSent 是由Facebook研发的预训练编码器，它是一个拥有最大池化的 BiLSTM ，在 SNLI 数据集上训练，该数据集含有57万英语句子对，所有句子都属于三个类别的其中一种：推导关系、矛盾关系、中立关系。

为了与Facebook竞争，谷歌也推出了自己的语句编码器，它有两种形式：

基于变换的模型的结果更好，但是在书写的时候，只有基于DAN的编码器可用。与InferSent不同，谷歌的橘子编码器是在监督数据和非监督数据上共同训练的。

我们在 SICK 和 STS数据集上测试了上述所有方法，得出句子对之间的相似度，并与人类判断相比较。

尽管他们很简洁，在平均词嵌入之间求余弦相似性的基准方法表现得非常好。但是，前提仍要满足一些条件：

基于我们的结果，好像没有什么使用词移距离的必要了，因为上述方法表现得已经很好了。只有在STS-TEST上，而且只有在有停止词列表的情况下，词移距离才能和简单基准方法一较高下。

SIF是在测试中表现最稳定的方法。在SICK数据集上，它的表现和简单基准方法差不多，但是在STS数据集上明显超过了它们。注意，在带有word2vec词嵌入的SIF和带有GloVe词嵌入的SIF之间有一些差别，这种差别很显著，它显示了SIF的加权和去除常用元素后减少的非信息噪音。

预训练编码器的情况比较复杂。但是我们的结果显示编码器还不能完全利用训练的成果。谷歌的句子编码器看起来要比InferSent好一些，但是皮尔森相关系数的结果与SIF的差别不大。

而斯皮尔曼相关系数的效果更直接。这也许表明，谷歌的句子编码器更能了解到句子的正确顺序，但是无法分辨其中的差别。

语句相似度是一个复杂现象，一句话的含义并不仅仅取决于当中的词语，而且还依赖于它们的组合方式。正如开头我们举的那个例子（harp和keyboard），语义相似度有好几种维度，句子可能在其中一种维度上相似，而在其他维度上有差异。目前的句子嵌入方法也只做到了表面。通常我们在皮尔森相关系数（Pearson correlation）上进行测试，除了有些情况下斯皮尔曼相关系数（Spearman correlation）会有不一样的结果。

所以，如果你想计算句子相似度，你会选择哪种方法呢？我们的建议如下：

GitHub地址

模型

Google Research(Universal Sentence Encoder): https://wwwdazhuanlancom/2019/11/21/5dd5876d6a9da/

监督学习的常见应用如下：

1、图像识别和分类：监督学习可以用于图像识别和分类任务。例如，通过标记了不同类别的图像数据，可以训练模型来自动识别和分类图像中的目标物体，如人脸识别、物体检测、图像分类等。

2、文本分类和情感分析：监督学习可以应用于文本分类任务，如垃圾邮件过滤、情感分析、文档分类等。通过对已标记的文本数据进行训练，模型可以自动将新的文本数据分类为不同的类别或进行情感分析，如判断文本是积极还是消极的情感。

3、自然语言处理（NLP）：监督学习在自然语言处理领域也有广泛应用。例如，将监督学习应用于机器翻译、命名实体识别（NER）、问答系统、文本摘要、语言相似度等任务，通过对已标记的文本进行训练，可以让模型学习到语言的语义和语法规则。

4、预测和回归分析：监督学习可以用于预测和回归分析。例如，通过历史销售数据训练模型，可以预测未来的销售量；通过过去的股票数据训练模型，可以预测股票价格的走势。监督学习也可以用于回归问题，如房价预测、气温预测等。

5、推荐系统：监督学习在推荐系统中有着广泛的应用。通过将用户的历史行为和偏好作为已标记的数据，可以训练推荐模型，从而预测用户的兴趣和喜好，并向用户推荐个性化的内容、产品或服务。

6、医疗诊断和预测：监督学习在医疗领域中有着广泛的应用。例如，在医学影像诊断中，通过标记了疾病或异常的图像数据，可以训练模型来帮助医生自动识别和诊断病变。此外，监督学习还可以用于疾病预测，通过医学数据的训练，模型可以预测患者是否有可能患上某种疾病，帮助医生进行早期干预和预防。

7、金融风控和欺诈检测：监督学习在金融领域中也有广泛应用。例如，可以使用监督学习来建立信用评分模型，预测用户的信用风险，用于贷款审核和风险控制。此外，监督学习还可以应用于欺诈检测，通过历史交易和行为数据的训练，模型可以识别出潜在的欺诈行为。

8、股票市场预测：监督学习可以应用于股票市场预测任务。通过历史的股票市场数据进行训练，模型可以预测股票价格的涨跌趋势，帮助投资者做出决策。

9、交通预测和智能交通系统：监督学习可以用于交通预测和智能交通系统中。通过历史的交通数据训练模型，可以预测道路流量、车辆拥堵情况等，进而提供交通优化方案和预警信息。

10、视频分析和动作识别：监督学习可以应用于视频分析和动作识别任务。通过标记了不同动作的视频数据进行训练，模型可以自动识别和分类视频中的动作，如行人识别、运动员动作识别等。

监督学习是机器学习中的一种常见方法，它可以通过在给定输入和对应输出之间进行训练，从而使模型能够根据新的输入样本预测或分类输出。监督学习在各个领域中都有广泛的应用。实际上监督学习还有很多其他的应用，随着数据的不断增长和模型的不断进步，监督学习在各个领域的应用潜力将会不断扩大和深化。

监督学习的注意事项

1、数据质量：监督学习的性能直接受数据质量的影响。确保训练数据的准确性和完整性是非常重要的。数据质量问题可能导致模型训练出现偏差或过拟合等问题，从而影响到模型的泛化能力。

2、样本不平衡：若某个类别的样本数量相对较少，或者不同类别的样本分布不均衡，会导致模型倾向于预测大多数样本所属的类别，而对于少数类别的预测性能较差。在这种情况下，可以采用一些技巧，如采样策略、类别权重调整等来处理样本不平衡问题。

3、特征选择和处理：选取合适的特征对监督学习的性能至关重要。需要注意特征的相关性、重要性和可解释性。此外，对于不同的特征类型，可能需要进行适当的预处理，如归一化、缺失值处理、特征编码等。

4、模型选择和调参：选择合适的监督学习模型对于任务的成功非常重要。不同的模型适用于不同的数据和问题。在进行模型选择时，需要考虑模型的复杂度、可解释性和计算开销等因素。同时，模型也需要进行适当的调参，以优化其性能。参数调优可以通过交叉验证、网格搜索等方法来实现。

5、过拟合和欠拟合：过拟合和欠拟合是监督学习中常见的问题。过拟合指模型在训练集上表现良好，但在未见过的数据上表现较差，这是因为模型过于复杂，过度拟合了训练数据的噪声。欠拟合则指模型在训练集和测试集上都没有达到理想的性能，通常是因为模型过于简单，无法捕捉数据中的复杂关系。需要通过合适的模型选择、调参和数据增强等方法来解决这些问题。

6、验证和评估指标：对模型进行验证和评估是必要的。划分数据集为训练集、验证集和测试集，用训练集训练模型，用验证集调优模型，最后用测试集评估模型的泛化能力。选择合适的评估指标来衡量模型的性能，如准确度、精确度、召回率、F1 值等，根据具体任务的需求进行选择。

7、持续监督和模型更新：监督学习是一个持续的过程。随着时间推移，数据可能发生变化，模型可能需要进行更新和重新训练，以适应新的数据分布和任务需求。定期监督模型的性能，并根据需要进行模型更新是非常重要的。

整理了各类场景应用中AI算法

一、图像CV

内容安全，目标检测，图像识别，智能视觉生产，图像搜索，图像分割，物体检测，图像分类，图像标签，名人识别，概念识别，场景识别，物体识别，场景分析，智能相册，内容推荐，图库管理，网红人物识别，明星人物识别，图像搜索，商品搜索，版权搜索，通用搜索，车牌识别，垃圾分类，车辆检测，菜品识别，车型识别，犬类识别，实例分割，风格迁移，智能填充，智能识图，拍照搜商品，精准广告投放，电商导购，图像分析，图像理解，图像处理，图像质量评估，场景识别，物体识别，场所识别，图像自训练平台，图像分类，目标检测，图像分割，关键点检测，图像生成，场景文字识别，度量学习，图像识别，图像比对，图像分类使用手册，图像分类API文档目标检测使用手册，目标检测API文档Logo检测使用手册，Logo检测API文档，通用搜索，车牌识别，垃圾分类，车辆检测，车型识别，犬类识别，实例分割，风格迁移，智能填充，车牌识别，相册聚类，场景与物体识别，无限天空，图像识别引擎，**识别，暴力图像识别，工业轮胎智能检测，肋骨骨折识别，显微识别，图像处理，广告识别，人脸算法，人体算法，图像识别，图像增强，OCR，图像处理，ZoomAI，智能贴图，智能制作，质量评价，图像识别，智能鉴黄，图像识别，实时手写识别，唇语识别，通用文字识别，手写文字识别，图像技术，图像识别，图像审核，图像搜索，图像增强，图像特效，车辆分析，图像生成，绘画机器人独家，动漫化身独家，像素风独家，超清人像独家，图像融合，换脸技术，神奇变脸，图像风格化，证件照生成，线稿图像识别，宝宝检测，图像分类，圉像深度估计，天空分割，食物分割，猫狗脸技术，食物识别独家，图像美学评分，车辆分析，车型识别，车型识别（含指导价），车型识别（含配置参数），车标识别，人脸识别（活体），车牌识别，表情识别，安全帽识别，计算机影像，计算机视觉，聚焦光学字符识别、人脸识别、质检、感知、理解、交互，图像视频分析，Logo检测，内容审核，智能批改，笔记评估，思维导图评估，物体检测，物体识别。

二、人脸、体态、眼瞳、声音、指纹

人脸分割人脸识别，无，人体分析HAS，识别人的年龄，性别，穿着信息，客流统计分析，智能客服，热点区域分析，人体检测，人脸口罩识别，人脸对比，人脸搜索，人脸检测与属性分析，人脸活体检测，人体关键点检测，行人重识别，细粒度人像分割，人像分割，人脸解析，3D人体姿态估计，人脸融合，人脸识别，换脸甄别，人脸支付，人脸核身，人像变换，人脸试妆，人脸融合，人体分析，手势识别，人脸验证与检索，人脸比对，人脸比对sensetime，人脸水印照比对，静默活体检测，静默活体检测sensetime，人脸检测和属性分析，人脸特征分析tuputech，配合式活体检测，人脸安防，计算机视觉，智能应用服务，人脸查询人脸分析人脸统计名单库管理人脸布控，人脸应用，人体应用，人体查询，车辆查询车辆分析车辆统计车辆布控车辆名单库管理，车辆应用，人脸图像识别人体图像识别车辆图像识别，图像识别，图像比对，人脸比对，人体检测，人脸口罩识别，人脸对比，人脸搜索，人脸检测与属性分析，人脸活体检测，人体关键点检测，行人重识别，细粒度人像分割，人像分割，人脸解析，3D人体姿态估计，人脸融合，人脸识别，人脸检测，人脸比对，人脸搜索，人脸关键点，稠密关键点，人脸属性，情绪识别，颜值评分，视线估计，皮肤分析，3D人脸重建，面部特征分析人体识别，人体检测，人体关键点，人体抠像，人体属性，手势识别人像处理，美颜美型，人脸融合，滤镜，声纹识别支付，语音合成，语音合成，声纹识别，语音唤醒，人脸识别引擎，摄像头人脸识别，人脸检测，身份识别，人脸识别，人脸属性，人体识别，声纹识别，衣服检索及聚类，语音分析，声纹识别，说话人归档，人脸和人体识别，人脸检测，手势识别，人脸与人体识别，人脸识别云服务，人脸识别私有化，人脸离线识别SDK，人脸实名认证，人像特效，人体分析，人脸技不，皮肤分析独家，头部分割，宏观人脸分析，人脸关键点检测，微观人脸分析独家，头发分析独家，五官分割，头发分割人体技术，人体外轮廓点检测独家，精细化人像抠图，人体框检测，肢体关键点检测，人像分割，服饰识别，手势识别，皮肤分割，人脸，说话人识别，人脸检测识别，人脸1：1比对，人脸检测，AI人脸/人形车辆，大数据人像防伪，QoS保障，CDN，表情识别，举手动作识别，人脸检测，网络切片，边缘计算，人脸分析，人脸检测，人脸搜索，人体分析，手势识别，着装检测，人脸识别，行为检测，人脸识别，人形检测，行为分析，人脸检测，人脸跟踪，人脸比对，人脸查找，人脸属性分析，活体检测，声音指纹，声纹识别。

三、视频

视频分割、视频处理、视频理解、智能视觉、多媒体，视频内容分析，人体动作监控，视频分类，智能交通，人/动物轨迹分析，目标计数，目标跟踪，视频编辑-，精彩片段提取，新闻视频拆分，视频摘要，视频封面，视频拆条，视频标签-，视频推荐，视频搜索，视频指纹-，数字版权管理，广告识别，视频快速审核，视频版权，视频查重，视频换脸，车辆解析，体育视频摘要，视频内容分析，颜色识别，货架商品检测，时尚搭配，危险动作识别，无，无，视频，视频换脸，车辆解析，体育视频摘要，视频内容分析，颜色识别，货架商品检测，时尚搭配，危险动作识别，菜品识别，视频识别引擎，结肠息肉检测，胃镜评估系统，视频标签，场景识别，客流分析，手势识别，视频技术，短视频标签，视觉看点识别，动态封面图自动生成，智能剪辑，新闻拆条，智能插帧，视频技术，多模态媒资检索公测中，媒体内容分析，媒体内容审核，视频生成，视频动作识别，

四、ocr文字识别

手写识别，票据识别，通用文档，通用卡证，保险智能理赔，财税报销电子化，证照电子化审批，票据类文字识别，行业类文字识别，证件类文字识别，通用类文字识别，通用文字识别，驾驶证识别，身份证识别，增值税发票识别，行驶证识别，营业执照识别，银行卡识别，增值税发票核验，营业执照核验，智能扫码，行业文档识别，汽车相关识别，票据单据识别，卡证文字识别，通用文字识别，手写文字识别，印刷文字识别，银行卡识别，名片识别，身份证识别intsig，营业执照识别intsig，增值税发票识别intsig，拍照速算识别，公式识别，指尖文字识别，驾驶证识别JD，行驶证识别JD，车牌识别JD，身份证识别，增值税发票识别，营业执照识别，火车票识别，出租车发票识别，印刷文字识别（多语种），印刷文字识别（多语种）intsig内容审核，色情内容过滤，政治人物检查，暴恐敏感信息过滤，广告过滤，OCR自定义模板使用手册，OCR自定义模板API文档，通用文字识别，驾驶证识别，身份证识别，增值税发票识别，行驶证识别，营业执照识别，银行卡识别，身份证识别，驾驶证识别，行驶证识别，银行卡识别，通用文字识别，自定义模板文字识别，文字识别引擎，身份证识别，文字识别，通用文字识别，身份证识别，名片识别，光学字符识别服务，通用文字识别，手写体文字识别，表格识别，整题识别（含公式），购物小票识别，身份证识别，名片识别，自定义模板文字识别，文字识别，通用文字识别，银行卡识别，身份证识别，字幕识别，网络识别，游戏直播关键字识别，新闻标题识别，OCR文字识别，通用场景文字识别，卡证文字识别，财务票据文字识别，医疗票据文字识别，汽车场景文字识别，教育场景文字识别，其他场景文字识别，iOCR自定义模板文字识别，通用类OCR，通用文本识别(中英)通用文本识别(多语言)通用表格识别，证照类OCR，身份证社保卡户口本护照名片银行卡结婚证离婚证房产证不动产证，车辆相关OCR，行驶证驾驶证车辆合格证车辆登记证，公司商铺类OCR，商户小票税务登记证开户许可证营业执照组织机构代码证，票据类OCR，增值税发票增值税卷票火车票飞机行程单出租车发票购车发票智能技术，票据机器人证照机器人文本配置机器人表格配置机器人框选配置机器人，文字识别，行驶证识别，驾驶证识别，表单识别器，通用文本，财务票据识别，机构文档识别，个人证件识别，车辆相关识别，通用表格，印章识别，财报识别，合同比对，识别文字识别，签名比对，OCR识别，教育OCR，印刷识别，手写识别，表格识别，公式识别，试卷拆录

五、自然语言NPL

文本相似度，文本摘要，文本纠错，中心词提取，文本信息抽取，智能文本分类，命名实体，词性标注，多语言分词，NLP基础服务，地址标准化，商品评价解析智能短信解析，机器阅读理解，金融研报信息识别，法律案件抽取，行业问答推理，行业知识图谱构建，文本实体关系抽取，搜索推荐，知识问答，短文本相似度，文本实体抽取，情感倾向分析，兴趣画像匹配，文本分类-多标签，文本分类-单标签，定制自然语言处理，语言生成，语言理解，自然语言处理基础，文本摘要，数据转文字，文本生成，智能问答系统，内容推荐，评价分析，文本分类，对话理解，意图理解，情感分析，观点抽取，中文分词，短文本相似度，关键词提取，词向量，命名实体，识别依存，句法分析，情感分析，评论观点抽取，短文本相似度，机器翻译，词法分析，词义相似度，词向量，句法分析，文本分类，短语挖掘，闲聊，文本流畅度，同义词，聚类，语言模型填空，新闻热词生成，机器阅读理解，商品信息抽取，词法分析，情感分析，关键词提取，用户评论分析，资讯热点挖掘，AIUI人机交互，文本纠错，词法分析，依存句法分析，语义角色标注，语义依存分析（依存树），语义依存分析（依存图），情感分析，关键词提取，NLP能力生产平台，NLP基础技术，中文词法分析-LAC，词向量—Word2vec，语言模型—Language_model，NLP核心技术，情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答，信息检索、新闻推荐、智能客服，情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答，机器问答、自然语言推断、情感分析和文档排序，NLP系统应用，问答系统对话系统智能客服，用户消费习惯理解热点话题分析舆情监控，自然语言处理，文本分类使用手册，文本分类API文档，情感分析，评论观点抽取，短文本相似度，机器翻译，词法分析，词义相似度，词向量，句法分析，文本分类，短语挖掘，闲聊，文本流畅度，同义词，聚类，语言模型填空，新闻热词生成，机器阅读理解，商品信息抽取智能创作，智能写作，搭配短文，种草标题，卖点标题，社交电商营销文案，自然语言处理能力，基础文本分析，分词、词性分析技术，词向量表示，依存句法分析，DNN语言模型，语义解析技术，意图成分识别，情感分析，对话情绪识别，文本相似度检测，文本解析和抽取技术，智能信息抽取，阅读理解，智能标签，NLG，自动摘要，自动写文章，语言处理基础技术，文本审核，情感分析，机器翻译，智能聊天，自然语言，基于标题的视频标签，台词看点识别，意图识别，词法分析，相关词，舆情分析，流量预测，标签技术，自然语言处理，语义对话，自然语言处理，车型信息提取，关键词提取，语义理解，语义相似度，意图解析，中文词向量，表示依存，句法分析，上下文理解，词法分析，意图分析，情绪计算，视觉情感，语音情感，情感分析，沉浸式阅读器，语言理解，文本分析，自然语言处理，在线语音识别，自然语言理解火速上线中，情感判别，语义角色标注，依存句法分析，词性标注，实体识别，中文分词，分词，

6、知识图谱

知识图谱，药学知识图谱，智能分诊，腾讯知识图谱，无，药学知识图谱，智能分诊，知识理解，知识图谱Schema，图数据库BGraph，知识图谱，语言与知识，语言处理基础技术，语言处理应用技术，知识理解，文本审核，智能对话定制平台，智能文档分析平台，智能创作平台，知识图谱，实体链接，意图图谱，识别实体，逻辑推理，知识挖掘，知识卡片

7、对话问答机器人

智能问答机器人，智能语音助手，智能对话质检，智能话务机器人，无，电话机器人，NeuHub助力京东智能客服升级，腾讯云小微，智能硬件AI语音助手，对话机器人，无，问答系统对话系统智能客服，Replika对话技术，客服机器人，智能问答，智能场景，个性化回复，多轮交互，情绪识别，智能客服，金融虚拟客服，电话质检，AI语音交互机器人，中移云客服·智能AI外呼，人机对话精准语义分析

8、翻译

协同翻译工具平台，电商内容多语言工具，文档翻译，专业版翻译引擎，通用版翻译引擎，无，机器翻译，无，机器翻译，音视频字幕平台，机器翻译，机器翻译niutrans，文本翻译，语音翻译，拍照翻译，机器翻译，机器翻译，文本翻译，语音翻译，通用翻译，自然语言翻译服务，文本翻译，翻译，语音翻译，实时语音翻译，文档翻译(开发版，机器翻译，文本翻译，语音翻译，拍照翻译，机器翻译实时长语音转写，录音文件长语音转写，翻译工具，机器翻译火速上线中

9、声音

便携智能语音一体机，语音合成声音定制，语音合成，一句话识别，实时语音识别录音文件识别，客服电话，语音录入，语音指令，语音对话，语音识别，科学研究，安防监控，声音分类，语音合成，语音识别，实时语音转写，定制语音合成，定制语音识别，语音合成，语音合成声音定制，离线语音合成，短语音识别，录音文件识别，声纹识别，离线语音识别，实时语音识别，呼叫中心短语音识别，呼叫中心录音文件识别，呼叫中心实时语音识别，语音识别，语音合成，声纹识别，语音识别，语音听写，语音转写，实时语音转写，语音唤醒，离线命令词识别，离线语音听写，语音合成，在线语音合成，离线语音合成，语音分析，语音评测，性别年龄识别，声纹识别，歌曲识别，AI客服平台能力中间件，语音识别，语音交互技术，语音合成，语音合成声音定制，离线语音合成，短语音识别，录音文件识别，声纹识别，离线语音识别，实时语音识别，呼叫中心短语音识别，呼叫中心录音文件识别，呼叫中心实时语音识别，远场语音识别，语音识别，一句话识别，实时语音识别，录音文件识别，语音合成，实时语音识别，长语音识别，语音识别，语音合成，波束形成，声源定位，去混响，降噪，回声消除，分布式拾音，语音识别，语音唤醒，语音合成，声纹识别，智能语音服务，语音合成，短语音识别，实时语音识别，语音理解与交互，离线唤醒词识别，语音识别，一句话识别，实时语音识别，录音文件识别，电话语音识别，语音唤醒，离线语音识别，离线命令词识别，远场语音识别，语音合成，通用语音合成，个性化语音合成，语音技术，短语音识别，实时语音识别，音频文件转写，在线语音合成，离线语音合成，语音自训练平台，语音交互，语音合成，语音识别，一句话识别，实时短语音识别，语音合成，语音唤醒，本地语音合成，语音翻译，语音转文本，短语音听写，长语音转写，实时语音转写，语音内容审核，会议超极本，语音交互技术，语音识别，语义理解，语音合成，音频转写，音视频类产品，语音通知/验证码，订单小号，拨打验证，点击拨号，数据语音，统一认证，语音会议，企业视频彩铃，语音识别，语音文件转录，实时语音识别，一句话语音识别，语音合成，通用语音合成，个性化语音合成，语音评测，通用语音评测，中英文造句评测，在线语音识别，语音识别，语音唤醒，语音合成，语音合成，语音识别，语音听写，语音转写，短语音转写(同步)，语音识别，语音情感识别

十、数据挖掘AI硬件

算法类型：包括二分类、多分类和回归，精准营销，表格数据预测，销量预测，交通流量预测，时序预测，大数据，无，机器学习使用手册，机器学习API文档，大数据处理，大数据传输，数据工厂，大数据分析，数据仓库，数据采集与标注，数据采集服务，数据标注服务，AI开发平台，全功能AI开发平台BML，零门槛AI开发平台EasyDL，AI硬件与平台，GPU云服务器，机器人平台，度目视频分析盒子，度目AI镜头模组，度目人脸应用套件，度目人脸抓拍机，人脸识别摄像机，昆仑AI加速卡，智能预测，购车指数，数据科学虚拟机，平台效率，云与AI，抗DDoS，天盾，网站漏洞扫描，网页防篡改，入侵检测防护，弹性云服务器，对象存储服务，云专线（CDA，AI计算机平台—360net深度学习基础模型，AI算法训练适配主流AI框架

十一、其他

内容审核，智能鉴黄，特定人物识别，通用审核，文本智能审核，广告检测，Logo检测，商品理解，拍照购，商品搜索，通用商品识别，疫情物资识别，酒标识别，细分市场划分，品牌竞争力分析，老品升级，新品定制，商品竞争力分析，商品销量预测，商品营销，用户评论占比预测，商品命名实体识别，商品颜色识别，强化学习，智能地图引擎，内容审核，智能鉴黄，特定人物识别，通用审核，文本智能审核，广告检测，Logo检测商品理解，拍照购，商品搜索，通用商品识别，疫情物资识别，酒标识别，细分市场划分，品牌竞争力分析，老品升级，新品定制，商品竞争力分析，商品销量预测，商品营销，用户评论占比预测，商品命名实体识别，商品颜色识别，个性化与推荐系统，推荐系统，舆情分析，舆情标签，智慧教育，智能语音评测，拍照搜题，题目识别切分，整页拍搜批改，作文批改，学业大数据平台，文档校审系统，会议同传系统，文档翻译系统，视频翻译系统，教育学习，口语评测，朗读听书，增强现实，3D肢体关键点SDK，美颜滤镜SDK，短视频SDK，基础服务，私有云部署，多模态交互，多模态情感分析，多模态意图解析，多模态融合，多模态语义，内容审查器，Microsoft基因组学，医学人工智能开放平台，数据查验接口，身份验证（公安简项），银行卡验证，发票查验，设备接入服务Web/H5直播消息设备托管异常巡检电话提醒，音视频，视频监控服务云广播服务云存储云录制，司乘体验，智能地图引擎，消息类产品，视频短信，短信通知/验证码，企业挂机彩信，来去电身份提示，企业固话彩印，模板闪信，异网短信，内容生产，试卷拆录解决方案，教学管理，教学质量评估解决方案，教学异常行为监测，授课质量分析解决方案，路况识别，人车检测，视觉SLAM，高精地图，免费SDK，智能诊后随访管理，用药管家，智能预问诊，智能导诊，智能自诊，智能问药，智能问答，裁判文书近义词计算，法条推荐，案由预测，

文本分类问题与其它分类问题没有本质上的区别，其方法可以归结为根据待分类数据的某些特征来进行匹配，当然完全的匹配是不太可能的，因此必须（根据某种评价标准）选择最优的匹配结果，从而完成分类。后来人们意识到，究竟依据什么特征来判断文本应当隶属的类别这个问题，就连人类自己都不太回答得清楚，有太多所谓“只可意会，不能言传”的东西在里面。人类的判断大多依据经验以及直觉，因此自然而然的会有人想到何让机器像人类一样自己来通过对大量同类文档的观察来自己总结经验，作为今后分类的依据。这便是统计学习方法的基本思想。

统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料（称为训练集，注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多），计算机从这些文档中挖掘出一些能够有效分类的规则，这个过程被形象的称为训练，而总结出的规则集合常常被称为分类器。训练完成之后，需要对计算机从来没有见过的文档进行分类时，便使用这些分类器来进行。这些训练集包括sogou文本分类分类测试数据、中文文本分类分类语料库，包含Arts、Literature等类别的语料文本、可用于聚类的英文文本数据集、网易分类文本分类文本数据、tc-corpus-train(语料库训练集，适用于文本分类分类中的训练)、2002年中文网页分类训练集CCT2002-v11等。

现如今，统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础（相比之下，知识工程方法中专家的主观因素居多），存在明确的评价标准，以及实际表现良好。统计分类算法

将样本数据成功转化为向量表示之后，计算机才算开始真正意义上的“学习”过程。常用的分类算法为：

决策树，Rocchio，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，kNN，遗传算法，最大熵，Generalized Instance Set等。在这里只挑几个最具代表性的算法侃一侃。

Rocchio算法

Rocchio算法应该算是人们思考文本分类问题时最先能想到，也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值（例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值，再把“裁判”取个平均值，依次做下去），可以得到一个新的向量，形象的称之为“质心”，质心就成了这个类别最具代表性的向量表示。再有新文档需要判断的时候，比较新文档和质心有多么相像（八股点说，判断他们之间的距离）就可以确定新文档属不属于这个类。稍微改进一点的Rocchio算法不仅考虑属于这个类别的文档（称为正样本），也考虑不属于这个类别的文档数据（称为负样本），计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法做了两个很致命的假设，使得它的性能出奇的差。一是它认为一个类别的文档仅仅聚集在一个质心的周围，实际情况往往不是如此（这样的数据称为线性不可分的）；二是它假设训练数据是绝对正确的，因为它没有任何定量衡量样本是否含有噪声的机制，因而也就对错误数据毫无抵抗力。

不过Rocchio产生的分类器很直观，很容易被人类理解，算法也简单，还是有一定的利用价值的，常常被用来做科研中比较不同算法优劣的基线系统（Base Line）。

朴素贝叶斯算法

贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数（词频信息）来粗略估计，因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时，在训练阶段的主要任务就是估计这些值。

朴素贝叶斯算法的公式并不是只有一个。

首先对于每一个样本中的元素要计算先验概率。其次要计算一个样本对于每个分类的概率，概率最大的分类将被采纳。所以

P(w|C)=元素w在分类为C的样本中出现次数/数据整理后的样本中元素的总数(式2)

这其中就蕴含着朴素贝叶斯算法最大的两个缺陷。

首先，P(d| Ci)之所以能展开成（式1）的连乘积形式，就是假设一篇文章中的各个词之间是彼此独立的，其中一个词的出现丝毫不受另一个词的影响（回忆一下概率论中变量彼此独立的概念就可以知道），但这显然不对，即使不是语言学专家的我们也知道，词语之间有明显的所谓“共现”关系，在不同主题的文章中，可能共现的次数或频率有变化，但彼此间绝对谈不上独立。

其二，使用某个词在某个类别训练文档中出现的次数来估计P(wi|Ci)时，只在训练样本数量非常多的情况下才比较准确（考虑扔硬币的问题，得通过大量观察才能基本得出正反面出现的概率都是二分之一的结论，观察次数太少时很可能得到错误的答案），而需要大量样本的要求不仅给前期人工分类的工作带来更高要求（从而成本上升），在后期由计算机处理的时候也对存储和计算资源提出了更高的要求。

但是稍有常识的技术人员都会了解，数据挖掘中占用大量时间的部分是数据整理。在数据整理阶段，可以根据词汇的情况生成字典，删除冗余没有意义的词汇，对于单字和重要的词组分开计算等等。

这样可以避免朴素贝叶斯算法的一些问题。其实真正的问题还是存在于算法对于信息熵的计算方式。

朴素贝叶斯算法在很多情况下，通过专业人员的优化，可以取得极为良好的识别效果。最为人熟悉的两家跨国软件公司在目前仍采用朴素贝叶斯算法作为有些软件自然语言处理的工具算法。

kNN算法

最近邻算法（kNN）：在给定新文档后，计算新文档特征向量和训练文档集中各个文档的向量的相似度，得到K篇与该新文档距离最近最相似的文档，根据这K篇文档所属的类别判定新文档所属的类别（注意这也意味着kNN算法根本没有真正意义上的“训练”阶段）。这种判断方法很好的克服了Rocchio算法中无法处理线性不可分问题的缺陷，也很适用于分类标准随时会产生变化的需求（只要删除旧训练文档，添加新训练文档，就改变了分类的准则）。

kNN唯一的也可以说最致命的缺点就是判断一篇新文档的类别时，需要把它与现存的所有训练文档全都比较一遍，这个计算代价并不是每个系统都能够承受的（比如我将要构建的一个文本分类系统，上万个类，每个类即便只有20个训练样本，为了判断一个新文档的类别，也要做20万次的向量比较！）。一些基于kNN的改良方法比如Generalized Instance Set就在试图解决这个问题。

kNN也有另一个缺点，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。 SVM(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。

SVM 方法有很坚实的理论基础，SVM 训练的本质是解决一个二次规划问题（Quadruple Programming，指目标函数为二次函数，约束条件为线性约束的最优化问题），得到的是全局最优解，这使它有着其他统计学习技术难以比拟的优越性。 SVM分类器的文本分类效果很好，是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换，能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导，难以针对具体问题选择最佳的核函数；另外SVM 训练速度极大地受到训练集规模的影响，计算开销比较大，针对SVM 的训练速度问题，研究者提出了很多改进方法，包括Chunking 方法、Osuna算法、SMO 算法和交互SVM 等。SVM分类器的优点在于通用性较好，且分类精度高、分类速度快、分类速度与训练样本个数无关，在查准和查全率方面都略优于kNN及朴素贝叶斯方法。

NLP 是什么？

NLP 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成：自然语言理解和自然语言生成。

自然语言理解方向，主要目标是帮助机器更好理解人的语言，包括基础的词法、句法等语义理解，以及需求、篇章、情感层面的高层理解。

自然语言生成方向，主要目标是帮助机器生成人能够理解的语言，比如文本生成、自动文摘等。

NLP 技术基于大数据、知识图谱、机器学习、语言学等技术和资源，并可以形成机器翻译、深度问答、对话系统的具体应用系统，进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性，成为人工智能最先应用的行业之一，而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分，正在快速进入金融领域，并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event )：在特定时间、特定地点发生的事情。主题(Topic)：也称为话题，指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject)：涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是，国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点：也可称为热点主题。热点和主题的概念比较接近，但有所区别。

1 词干提取

什么是词干提取？词干提取是将词语去除变化或衍生形式，转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干，哪怕词干并非词典的词目。

2 词形还原

什么是词形还原？词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题，即词语在句中的语义，词语对相邻语句的语义等。

3 词向量化什么是词向量化？词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用，因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化，一个词语或者一段短语可以用一个定维的向量表示，例如向量的长度可以为100。

4 词性标注

什么是词性标注？简单来说，词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐？命名实体消岐是对句子中的提到的实体识别的过程。例如，对句子“Apple earned a revenue of 200 Billion USD in 2016”，命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说，命名实体要求有一个实体知识库，能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名，机构名，日期，地名，时间等类别的任务。

7 情感分析

什么是情感分析？情感分析是一种广泛的主观分析，它使用自然语言处理技术来识别客户评论的语义情感，语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析？语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意，相似性与相关性是不同的。

9语言识别

什么是语言识别？语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要？文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点，并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取，包括美食、酒店、汽车、景点等，可帮助商家进行产品分析，辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类，分词等很多功能，国外使用者居多，类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一个单词的首字母一般是大写，有的单词也会全部字母都大写用于表示强调和区分风格，这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达，一般值具有某种意义，无法再拆分的符号。在英文自然语言处理中，Tokens通常是单独的词，因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词，例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义，单停止词是频率非常多的词。为了减少我们要处理的词汇量，从而降低后续程序的复杂度，需要清除停止词。

Named Entity

Named Entity 一般是名词短语，又来指代某些特定对象、人、或地点可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前，必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据，我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法，它自2013年以来就一直存在。但除了作为词嵌入的方法之外，它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点：

使用了Transformer作为算法的主要框架，Trabsformer能更彻底的捕捉语句中的双向关系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标；

使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，并且Google开源了BERT模型，用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构：由于模型的构成元素Transformer已经解析过，就不多说了，BERT模型的结构如下图最左：

对比OpenAI GPT(Generative pre-trained transformer)，BERT是双向的Transformer block连接；就像单向rnn和双向rnn的区别，直觉上来讲效果会好一些。

优点： BERT是截至2018年10月的最新state of the art模型，通过预训练和精调横扫了11项NLP任务，这首先就是最大的优点了。而且它还用的是Transformer，也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型，它捕捉到的是真正意义上的bidirectional context信息。

缺点： MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）

BERT火得一塌糊涂不是没有原因的：

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向，并再一次炒火了《Attention is All you Need》这篇论文；

11个NLP任务的精度大幅提升足以震惊整个深度学习领域；

无私的开源了多种语言的源码和模型，具有非常高的商业价值。

迁移学习又一次胜利，而且这次是在NLP领域的大胜，狂胜。

BERT算法还有很大的优化空间，例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力，而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成，论文中说的训练需要在64块TPU芯片上训练4天完成，而一块TPU的速度约是目前主流GPU的7-8倍。

一、原始落后的VSM

网上搜索关键词“短文本相似度”，出来的结果基本上都是以BOW（Bag of words）的VSM方案，大致流程如下：

分词 —> 提取关键词 —> 计算tf或if-idf，以向量的形式替换原文本 —> 文本相似度的问题转变为计算向量相似度

一开始这样的一个思路，很清晰明了，而且网上相应的资料也很多，然后就开搞吧。

1、把所有短文本去掉标点符号，用jieba分词分好词，去除停用词，得到分好的文本；

2、按一定规则抽取特征词汇，作为后期向量的每一维；

3、用sklearn库中的原生方法CountVectorizer、TfidfVectorizer等得到矩阵；

4、每个短文本计算对应得到的向量，采用K-Means聚类的方法进行非监督学习。

文本分类的大致思路基本上就如上所述，具体的细节调整就视实际情况而定。然而，想法是美好的，现实是残酷的，全部分好词的文本，抽取的特征词较多，即向量的维度较大，且向量是稀疏的，在使用K-Means时，会出现有个别cluster下的文本数量特别大；

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/7537215.html

比较句子相似度方法

发表评论

评论列表（0条）