自然语言处理和文本挖掘的关系2024年_知识

自然语言处理（NLP）关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一，它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似，它关注的是识别文本数据中有趣并且重要的模式。

但是，这二者仍有不同。首先，这两个概念并没有明确的界定（就像“数据挖掘”和“数据科学”一样），并且在不同程度上二者相互交叉，具体要看与你交谈的对象是谁。我认为通过洞见级别来区分是最容易的。如果原始文本是数据，那么文本挖掘就是信息，NLP就是知识，也就是语法和语义的关系。

虽然NLP和文本挖掘不是一回事儿，但它们仍是紧密相关的：它们处理同样的原始数据类型、在使用时还有很多交叉。

我们的目的并不是二者绝对或相对的定义，重要的是要认识到，这两种任务下对数据的预处理是相同的。

努力消除歧义是文本预处理很重要的一个方面，我们希望保留原本的含义，同时消除噪音。

以下就是处理文本任务的几大主要步骤：

1数据收集

获取或创建语料库，来源可以是邮箱、英文维基百科文章或者公司财报，甚至是莎士比亚的作品等等任何资料。

2数据预处理

在原始文本语料上进行预处理，为文本挖掘或NLP任务做准备

数据预处理分为好几步，其中有些步骤可能适用于给定的任务，也可能不适用。但通常都是标记化、归一化和替代的其中一种。

3数据挖掘和可视化

无论我们的数据类型是什么，挖掘和可视化是探寻规律的重要步骤

常见任务可能包括可视化字数和分布，生成wordclouds并进行距离测量

4模型搭建

这是文本挖掘和NLP任务进行的主要部分，包括训练和测试

在适当的时候还会进行特征选择和工程设计

语言模型：有限状态机、马尔可夫模型、词义的向量空间建模

机器学习分类器：朴素贝叶斯、逻辑回归、决策树、支持向量机、神经网络

序列模型：隐藏马尔可夫模型、循环神经网络（RNN）、长短期记忆神经网络（LSTMs）

5模型评估

模型是否达到预期？

度量标准将随文本挖掘或NLP任务的类型而变化

以上观点仅供参考，而在自然语言文本预处理方面的技术在国内效果比较好的并不多，具有代表性的如：北理工张华平博士的NLPIR大数据语义智能分析技术。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。如果感兴

预测股票市场是机器学习算法的一个常见应用场景之一。下面是一些常见的利用机器学习算法进行股票市场预测的方法：

基于技术指标的预测：技术指标是反映市场情况的量化指标，如均线、MACD等。可以通过机器学习算法对这些指标进行分析，从而预测股票价格的走势。

基于基本面的预测：基本面是指股票所属公司的财务状况、行业发展情况等方面的信息。可以通过机器学习算法对这些基本面进行分析，从而预测股票价格的走势。

基于情感分析的预测：情感分析是指通过对股票相关新闻、社交媒体等信息的情感判断，预测股票价格的走势。

基于深度学习的预测：深度学习算法可以自动学习股票市场中的规律和趋势，通过对历史数据进行训练，预测未来股票价格的走势。

需要注意的是，股票市场是一个复杂的系统，预测股票价格的走势需要考虑多种因素，包括宏观经济环境、政策因素、行业发展趋势等，因此机器学习算法的预测结果并不是完全准确的，投资者需要在风险控制的基础上进行决策。

与其他的人工智能技术相比，情感分析(Sentiment Analysis)显得有些特殊，因为其他的领域都是根据客观的数据来进行分析和预测，但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容，给情感分析提供了所需的数据基础。时至今日，情感识别已经在多个领域被广泛的应用。例如在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力。在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

目前，绝大多数的人工智能开放平台都具备情感分析的能力，如图所示是玻森中文语义开放平台的情感分析功能演示，可以看出除了通用领域的情感分析外，还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢？从自然语言处理技术的角度来看，情感分析的任务是从评论的文本中提取出评论的实体，以及评论者对该实体所表达的情感倾向，自然语言所有的核心技术问题，例如：词汇语义，指代消解，此役小气，信息抽取，语义分析等都会在情感分析中用到。因此，情感分析被认为是一个自然语言处理的子任务，我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示：(e,a,s,h,t)

以图为例，e是指某餐厅，a为该餐厅的性价比属性，s是对该餐厅的性价比表示了褒义的评价，h为发表评论者本人，t是19年7月27日。所以这条评论的情感分析可以表示为五元组（某餐厅，性价比，正向褒义，评论者，19年7月27日）。

情感分析根据处理文本颗粒度的不同，大致可以分为三个级别的任务，分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感，例如一篇书评，或者对某一个热点时事新闻发表的评论，只要待分析的文本超过了一句话的范畴，即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设，那就是全篇章所表达的观点仅针对一个单独的实体e，且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体，不对篇章中包含的具体实体和实体属性进行研究，使得篇章级的情感分析在实际应用中比较局限，无法对一段文本中的多个实体进行单独分析，对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是：“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价，但如果是：“我觉得这款手机拍照功能很不错，但信号不是很好”这样的句子，在同一个评论中出现了褒义词又出现了贬义词，篇章级的分析是无法分辨出来的，只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者，例如在商品评论的情感分析中，可以默认评论的对象是被评论的商品，评论的观点持有者也是评论者本人。当然，这个也需要看被评论的商品具体是什么东西，如果是亲子旅游这样的旅游服务，那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中，篇章级的情感分析无法满足我们对于评价更细致，如果需要对评论进行更精确，更细致的分析，我们需要拆分篇章中的每一句话，这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似，句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感，虽然颗粒度到了句子层级，但是句子级分析与篇章级存在同样的前提假设是，那就是一个句子只表达了一个观点和一种情感，并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点，句子级的分析是无法分辨的。好在现实生活中，绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的，那么进行句子级的情感分析意义何在呢？关于这个问题，需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中，根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句，例如：“我喜欢这款新手机。”就是一个主观句，表达了说话人内心的情感或观点，而：“这个APP昨天更新了新功能。”则是一个客观句，陈述的是一个客观事实性信息，并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句，可以帮助我们过滤掉一部分不含情感的句子，让数据处理更有效率。

但是在实操过程中，我们会发现这样的分类方法似乎并不是特别准确，因为一个主观句也可能没有表达任何的情感信息，知识表达了期望或者猜测，例如：“我觉得他现在已经在回家的路上了。”这句话是一个主观句，表达了说话人的猜测，但是并没有表达出任何的情感。而客观句也有可能包含情感信息，表明说话者并不希望这个事实发生，例如：“昨天刚买的新车就被人刮花了。”这句话是一个客观句，但结合常识我们会发现，这句话中其实是包含了说话人的负面情感。

所以，仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求，我们需要的是对句子是否含有情感信息进行分类，如果一个句子直接表达或隐含了情感信息，则认为这个句子是含有情感观点的，对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法，这种方法需要大量的人工标注数据，基于句子特征来对句子进行分类。

总之，我们可以将句子级的情感分析分成两步，第一步是判断待分析的句子是否含有观点信息，第二步则是针对这些含有观点信息的句子进行情感分析，发现其中情感的倾向性，判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似，依然是可以采用监督学习或根据情感词词典的方法来处理，我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言，颗粒度更加细分，但同样只能判断整体的情感，忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点，例如：“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子，我们不能将其简单的归类为褒义或贬义的情感，而是需要更进一步的细化颗粒度，对评价实体的属性进行抽取，并将属性与相关实体之间进行关联，这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析，都无法确切的知道评价者喜欢和不喜欢的具体是什么东西，同时也无法区分对某一个被评价实体的A属性持褒义倾向，对B属性却持贬义倾向的情况。但在实际的语言表达中，一个句子中可能包含了多个不同情感倾向的观点，例如：“我喜欢这家餐厅的装修风格，但菜的味道却很一般。”类似于这样的句子，很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化，我们需要从文本中发现或抽取评价的对象主体信息，并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感，这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性，包括评价者以及评价时间，目标是挖掘与发现评论在实体及其属性上的观点信息，使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看，属性级的情感分析可以分为以下6个步骤：

关于文本中的实体抽取和指代消解问题，我们已经在知识图谱的相关章节中做了介绍，这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务，人们做了大量的研究并提出了很多分类的方法，这些方法大致可以分为基于词典和基于机器学习两种，下面我们进行详细的讲解。

做情感分析离不开情感词，情感词是承载情感信息最基本的单元，除了基本的词之外，一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法，主要是基于一个包含了已标注的情感词和短语的词典，在这个词典中包括了情感词的情感倾向以及情感强度，一般将褒义的情感标注为正数，贬义的情感标注为负数。

具体的步骤如图所示，首先将待分析的文本先进行分词，并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配，并根据词典标注的情感分对文本进行加法计算，最终的计算结果如果为正则是褒义情感，如果为负则是贬义情感，如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心，情感词标注数据的好坏直接决定了情感分类的结果，在这方面可以直接采用已有的开源情感词典，例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典，知网（Hownet）情感词典，台湾大学简体中文情感极性词典（NTSUSD），snownlp框架的词典等，同时还可以使用哈工大整理的同义词词林拓展词典作为辅助，通过这个词典可以找到情感词的同义词，拓展情感词典的范围。

当然，我们也可以根据业务的需要来自己训练情感词典，目前主流的情感词词典有三种构建方法：人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值，最简单的方法是将所有的褒义情感词赋值为+1，贬义的情感词赋值为-1，最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求，在实际的语言表达中，存在着非常多的表达方式可以改变情感的强度，最典型的就是程度副词。程度副词分为两种，一种是可以加强情感词原本的情感，这种称之为情感加强词，例如“很好”相较于“好”的情感程度会更强烈，“非常好”又比“很好”更强。另外一种是情感减弱词，例如“没那么好”虽然也是褒义倾向，但情感强度相较于“好”会弱很多。如果出现了增强词，则需要在原来的赋值基础上增加情感得分，如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词，否定词的出现一般会改变情感词原本的情感倾向，变为相反的情感，例如“不好”就是在“好”前面加上了否定词“不”，使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数，即如果“好”的情感倾向是+1，那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感，例如“太好”是一个比“好”褒义倾向更强的词，如果“好”的值为+1，那么“太好”可以赋值为+3，加上否定词的“不太好”变成-3则显然有点过于贬义了，将其赋值为-1或者-05可能更合适。

基于这种情况，我们可以对否定词也添加上程度的赋值而不是简单的取相反数，对于表达强烈否定的词例如“不那么”赋值为±4，当遇到与褒义词的组合时褒义词则取负数，与贬义词的组合则取正数，例如贬义词“难听”的赋值是-3，加上否定词变成“不那么难听”的情感得分就会是（-3+4=1）。

第三种需要注意的情况是条件词，如果一个条件词出现在句子中，则这个句子很可能不适合用来做情感分析，例如“如果我明天可以去旅行，那么我一定会非常开心。”，在这句话中有明显的褒义情感词，但是因为存在条件词“如果”，使得这个句子的并没有表达观点持有者的真实情感，而是一种假设。

除了条件句之外，还有一种语言表达也是需要在数据预处理阶段进行排除的，那就是疑问句。例如“这个餐厅真的有你说的那么好吗？”，虽然句子中出现了很强烈的褒义情感词“那么好”，但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词，例如“……吗？”或者“……么？”，但是也有的疑问句会省略掉结尾词，直接使用标点符号“？”，例如“你今天是不是不开心？”，这个句子中含有否定词和褒义词组成的“不开心”，但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词，典型词是“但是”，出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反，例如：“我上次在这家酒店的住宿体验非常好，但是这次却让我很失望。”在这个转折句中，转折词之前的“非常好”是一个很强的褒义词，但真实的情感表达却是转折词之后的“很失望”，最终应该将其分类为贬义情感。当然，也存在出现了转折词，但语句本身的情感并没有发生改变的情况，例如“你这次考试比上次有了很大的进步，但是我觉得你可以做得更好”，这里的转折词没有转折含义，而是一种递进含义。在实际操作中，我们所以需要先判断转折句真实的情感表达到底是哪个，才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情，除了上述需要注意的问题外，还存在精准度不高，新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性，例如一个句子可能出现了情感词，但并没有表达情感。或者一个句子不含任何情感词，但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题，例如“精明”这个词可以作为褒义词夸奖他人，也可以作为贬义词批评他人。

尽管目前存在诸多问题，但基于字典的情感分析方法也有着不可取代的优势，那就是这种分析方法通用性较强，大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感，对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法，例如逻辑回归、朴素贝叶斯、KNN等，这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤，第一步是根据训练数据构建算法模型，第二步是将测试数据输入到算法模型中输出对应的结果，接下来做具体的讲解。

首先，我们需要准备一些训练用的文本数据，并人工给这些数据做好情感分类的标注，通常的做法下，如果是褒义和贬义的两分类，则褒义标注为1，贬义标注为0，如果是褒义、贬义和中性三分类，则褒义标注为1，中性标注为0，贬义标注为-1

在这一环节中如果用纯人工方法来进行标注，可能会因为个人主观因素对标注的结果造成一定影响，为了避免人的因素带来的影响，也为了提高标注的效率，有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中，商品的评论除了文本数据之外通常还会带有一个5星的等级评分，我们可以根据用户的5星评分作为标注依据，如果是1-2星则标注为贬义，如果是3星标注为中性，4-5星标注为褒义。又比如在社区领域中，很多社区会对帖子有赞和踩的功能，这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词，并进行数据的预处理，前文已经对分词有了很多的介绍，这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词，这里特别说一下，如果是对情感进行分类，可以参考情感词典进行标注，也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的，还需要标注出特定领域的词，例如做商品评价的情感分析，需要标注出商品名称，品类名称，属性名称等。第四步根据分词统计词频构建词袋模型，形成特征词矩阵，如表所示。在这一步可以根据业务需要给每个特征词赋予权重，并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法，将特征词矩阵作为输入数据，得到最终的分类模型。

当训练好分类模型之后，就可以对测试集进行分类了，具体的流程与建模流程类似，先对测试的文本数据进行分词并做数据预处理，然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵，并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类，得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处，第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域，需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注，而人对于情感的理解带有主观性，如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法，也有一些学者将两者结合起来使用，弥补两种方法的缺点，比单独采用一种方法的分类效果要更好，另外，也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析，相信在未来，情感分析会应用在更多的产品中，帮助我们更好的理解用户需求，提升用户使用智能产品的体验。

随着深度神经网络等算法的应用，情感分析的研究方向已经有了非常大的进展，但依然存在着一些难题是目前尚未解决的，在实操过程中需特别注意以下几种类型数据：

情绪轮在用户体验设计上被广泛的应用，很多情感化设计都是基于情绪轮进行的。但是在人工智能领域，将情绪进行多分类比情感分析的三分类任务要难得多，目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别，而且不同的类别之间又可能具有相似性，一个情绪词在不同的语境下有可能表达的是不同的情绪类别，算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳，因为情绪是非常主观性的，不同的人对不同的文本可能产生不同的理解，这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

如果AI有了人类的情感，这个世界将会发生巨大的变化。

首先，AI将会更好地预测人类的行为模式，实现有效的识别、跟踪和操纵，从而创造出更加自动化、高效的社会结构和空间组织，尤其是智慧型服务机器人，这将极大地改变人们的生活和工作方式，为人们带来更多的便利。

此外，情感AI还可以用于医疗健康、老年照护、教育慰藉等，方面，通过个性化的情感支持，让人们更快乐和快活，增强他们的自尊和自信心。

最后，情感AI可以更加有力地参与社会团体的交流活动，通过以微笑、肢体语言和谈吐等与现实世界相结合的方式，融入各种社会和文化活动，努力实现人机融合，让AI担负起服务他人、参与社会治理的责任。

随着高通量组学平台的发展，生物医学研究大多采取了多组学技术结合的方法，不同组学来源（如遗传学、蛋白质组学和代谢组学）的数据可以通过基于机器学习（Machine Learning，ML）的预测算法进行整合，以揭示系统生物学的复杂工作。 ML提供了整合和分析各种组学数据的新技术，从而发现新的生物标记物。来自英国的研究人员在《 Biotechnology Advances 》发表综述文章，探讨了多组学的数据整合机器学习方法及其应用（被用来深入了解正常生理功能和疾病存在时的生物系统），为计划在多组学研究中使用ML方法的跨学科专业人士提供见解和建议。

此篇综述关注ML中的两种主要学习策略，即有监督和无监督，这两种策略通常在多组学整合的背景下使用。

基于串联的整合方法考虑使用联合数据矩阵来开发模型，该联合数据矩阵是通过组合多组学数据集形成的。如上图基于串联的整合方法的一般流程为：阶段1包括来自单独组学（例如基因组学、蛋白质组学和代谢组学）的原始数据以及相应的表型信息。通常基于串联的整合不需要任何预处理，因此没有阶段2。在第3阶段，将来自各个组学的数据连接起来，形成多组学数据的单个大型矩阵。最后，在第4阶段，联合矩阵用于监督或非监督分析。使用基于串联的方法的主要优点是，一旦完成所有单个组学的串联，就可以简单地使用ML分析连续或分类数据。这些方法平等地使用所有连接的特征，并且可以为给定表型选择最具辨别力的特征。

不同的基于串联的监督学习方法已被用于表型预测。串联的多组学数据（以联合矩阵的形式）作为不同经典ML方法的输入，如DT（decision tree）、NB（naive Bayes）、ANN（artificial neural networks）、SVM（support vector machine）、KNN（k-nearest neighbors）、RF（random forest）和k-Star。例如，多组学特征（包括基因表达、拷贝数变异和突变）的联合矩阵与经典RF和SVM一起用于预测抗癌药物反应。同样，多变量的LASSO模型也被研究过。此外，Boosted trees和SVR（support vector regression）也被用于寻找血糖健康的纵向预测因素。除了经典的ML算法外，深度神经网络也被广泛用于分析串联的多组分数据。

各种基于串联的无监督方法已用于聚类和关联分析。近年来基于矩阵分解的方法已经发展起来，联合NMF（non-negative matrix factorisation）被提出来整合具有非负值的多组学数据。iCluster框架使用了类似于NMF的原理，但允许集成具有负值的数据集。iCluster+框架提供了对iCluster框架的重大改进，iCluster+ 框架可以以发现模式并结合一系列具有二元、分类和连续值的组学，并通过结合来自结肠直肠癌数据集的基因组数据得到证明。NMF的另一个适应性被评估为JIVE（Joint and Individual Variation Explained），它捕获了集成数据类型之间的联合变化和每种数据类型的结构变化以及残余噪声。MoCluster使用多区块多变量分析来突出不同输入组学数据的模式，然后找到其中的联合聚类。MoCluster通过整合蛋白质组学和转录组学数据进行验证，与Cluster和iCluster+相比，MoCluster显示出明显更高的聚类精度和更低的计算成本。LRAcluster被开发用于整合高维多组学数据。此外，还有最近提出的iClusterBayes，一种完全贝叶斯潜变量模型。它克服了iCluster+在统计推断和计算速度方面的局限性。

基于模型的整合方法为不同的组学数据创建多个中间模型，然后从各种中间模型构建最终模型。如上图基于模型的整合方法的一般流程为：第1阶段建立单独组的原始数据以及相应的表型信息。在第2阶段，为每个组学开发单独的模型，这些模型随后在第3阶段集成到联合模型中。在第4阶段中，对关节模型进行分析。基于模型的集成方法的主要优点是，它们可以用于合并基于不同组学类型的模型，其中每个模型是从具有相同疾病信息的不同患者组开发的。

基于模型的监督学习方法包括用于开发模型的各种框架，如多数投票算法（majority-based voting）、分层分类器（hierarchical classifiers）、基于集成的方法如XGBoost 和KNN。基于模型的监督学习也采用了深度学习方法，例如MOLI、DFNForest框架、Chaudhary等。ATHENA（Analysis Tool for Heritable and Environmental Network Associations）被开发用于分析多组学数据，其使用grammatical evolution neural networks以及Biofilter和Random Jungl来研究不同的分类和定量变量，并开发预测模型。最近，还开发了用于泛癌分析的MOSAE。

目前已经实现了各种基于模型的无监督学习方法。 PSDF (Patient-Specific Data Fusion)是一种非参数贝叶斯模型，通过结合基因表达和拷贝数变异数据对预测癌症亚型进行聚类。类似地，CONEXIC还使用BN整合肿瘤样本的基因表达和拷贝数变化，以识别驱动突变。另一方面，诸如 FCA（(Formal Concept Analysis）共识聚类、MDI（Multiple Dataset Integration）、PINS（Perturbation clustering for data integration and disease subtyping）、PINS+ 和 BCC（Bayesian consensus clustering）等聚类方法更加灵活，允许后期的聚类整合。不同的基于网络的方法也可用于关联分析，例如Lemon Tree和SNF(Similarity Network Fusion)等。

基于转换的整合方法首先将每个组学数据集转换为图形或核矩阵，然后在构建模型之前将所有数据集合并为一个。如上图基于转换的整合方法的一般流程为：第1阶段建立单独组的原始数据以及相应的表型信息。在第2阶段，为每个组学开发单独的转换（以图形或内核关系的形式），这些转换随后在第3阶段集成到联合转换中。最后，在第4阶段对其进行分析。基于转换的整合方法的主要优点是，如果唯一信息（例如患者 ID）可用，它们可用于组合广泛的组学研究。

之前提出的基于转换的监督学习方法大多数是基于内核和基于图的算法，其中基于内核的算法有SDP-SVM (Semi-Definite Programming SVM)、FSMKL (Multiple Kernel Learning with Feature Selection)、RVM (Relevance Vector Machine)和Ada-boost RVM等。此外，fMKL-DR (fast multiple kernel learning for dimensionality reduction)已与SVM一起用于基因表达、miRNA表达和DNA甲基化数据。基于图的算法有SSL(semi-supervised learning )、graph sharpening、composite network和BN等。总体而言，从文献中可以明显看出，基于内核的算法比基于图的方法具有更好的性能。最近，引入了MORONET(Multi-Omics gRaph cOnvolutional NETworks) ，它利用组学特征和患者之间的关联使用图卷积网络来获得更好的分类结果。

基于转换的无监督方法，例如rMKL LPP(regularised multiple kernel learning for Locality Preserving Projections)被用于聚类分析。类似地，PAMOGK也是利用图核、SmSPK(smoothed shortest path graph kernel)将多组学数据与通路整合起来。Meta-SVM (Meta-analytic SVM)整合了多种组学数据，能够检测与乳腺癌和特发性肺纤维化等疾病相关的一致基因。最近，NEMO(NEighborhood based Multi-Omics clustering)被引入，使用基于患者间相似性矩阵的距离度量来单独评估输入组学数据集。然后将这些组学矩阵组合成一个矩阵，使用基于光谱的聚类进行分析。

高通量组学的可用性提供了一个独特的机会来探索不同组学和表型目标之间的复杂关系。研究团队总结了已发表的基于表型目标的不同多组学研究，发现大多数多组学研究集中于不同形式的癌症。特别是与乳腺癌和卵巢癌相关的多组学研究突出了科学界在这些领域的研究重点。

许多组学内部研究已经成功地探索了基因表达和DNA甲基化的整合。LASSO的方法已分别应用于急性髓系白血病和乳腺癌，也被用于癌症预后。同样，分别使用Neural Fuzzy Network对结直肠癌、SVM对胰腺癌和RF对心脏组织老化和卵巢癌进行mRNA–miRNA整合研究。SVM还通过整合不同的转录组学（即mRNA、miRNA和IncRNA），用于口腔鳞状细胞癌的研究。

代谢组学和蛋白质组学已使用RF进行整合，用于分析前列腺癌和甲状腺功能。同样，代谢组学与mRNA相结合，用于研究溃疡性结肠炎和癌症存活率。另一方面，糖组学和表观基因组学仅在多组学环境中出现过一次（连同mRNA和代谢组学），相关研究使用RF的图形变体研究与年龄相关的合并症。最近，代谢组学和蛋白质组学也与脂质组学相结合，使用PLS-DA和Extra Trees来评估COVID-19患者。

在植物（马铃薯）和动物（如犬心脏病）中也成功地进行了多组学研究。总的来说，最近不同的多组学研究强调了整合方法在理解不同疾病的复杂性和从大量生成的多组学数据中发现潜在异常方面的优势。

文献原文中表8汇总了已发表的基于表型目标的不同多组学研究，可通过文献原文获取详细信息。

为了便于方法选择过程，研究人员提出了推荐流程图，显示了为给定场景选择适当方法（或方法系列）所需的各种决策步骤。例如，要选择一种方法来整合两个组学进行无监督学习，如果两个组学是基因表达和CNV，则可以选择基于模型的方法，如“PSDF或Lemon-Tree”，否则可以使用“MDI或SNF”。类似地，“NEMO”可用于数据集部分重叠的场景，并且需要转换方法。因此，它可以用于生物医学分析，包括诊断、预后和生物标志物识别，将其作为有监督或无监督的学习问题。

首发公号：国家基因库大数据平台

参考文献

Reel P S, Reel S, Pearson E, et al Using machine learning approaches for multi-omics data analysis: A review[J] Biotechnology Advances, 2021: 107739

欢迎分享，转载请注明来源：浪漫分享网

原文地址: https://hunlipic.com/qinggan/727085.html

自然语言处理和文本挖掘的关系

发表评论

评论列表（0条）