如何建立一个合理的机器学习系统2024年_知识

Programming Libraries 编程库资源

我是一个“学习要敢于冒险和尝试”观念的倡导者。这是我学习编程的方式，我相信很多人也是这样学习程序设计的。先了解你的能力极限，然后去拓展你的能力。如果你了解如何编程，可以将编程经验很快借鉴到深入学习机器学习上。在你实现一个实际的产品系统之前，你必须遵循一些规则、学习相关数学知识。

找到一个库并且仔细阅读相关文档，根据教程，开始尝试实现一些东西。下面列出的是开源的机器学习库中最好的几种。我认为，并不是他们中的每一种都适合用在你的系统中，但是他们是你学习、探索和实验的好材料。

你可以从一个由你熟悉的语言编写的库开始学习，然后再去学习其他功能强大的库。如果你是一个优秀的程序员，你会知道怎样从一种语言，简单合理地迁移到另一种语言。语言的逻辑都是相同的，只是语法和API稍有不同。

R Project for Statistical Computing：这是一个开发环境，采用一种近似于Lisp的脚本语言。在这个库中，所有你想要的与统计相关的功能都通过R语言提供，包括一些复杂的图标。CRAN(你可以认为是机器学弟的第三方包)中的机器学习目录下的代码，是由统计技术方法和其他相关领域中的****编写的。如果你想做实验，或是快速拓展知识，R语言都是必须学习的。但它可能不是你学习的第一站。

WEKA：这是一个数据挖掘工作平台，为用户提供数一系列据挖掘全过程的API、命令行和图形化用户接口。你可以准备数据、可视化、建立分类、进行回归分析、建立聚类模型，同时可以通过第三方插件执行其他算法。

Mahout是Hadoop中为机器学习提供的一个很好的JAVA框架，你可以自行学习。如果你是机器学习和大数据学习的新手，那么坚持学习WEKA，并且全心全意地学习一个库。

Scikit Learn:这是用Python编写的，基于NumPy和SciPy的机器学习库。如果你是一个Python或者Ruby语言程序员，这是适合你用的。这个库很用户接口友好，功能强大，并且配有详细的文档说明。如果你想试试别的库，你可以选择Orange。

Octave:如果你很熟悉MatLab，或者你是寻求改变的NumPy程序员，你可以考虑 Octave。这是一个数值计算环境，与MatLab像是，借助Octave你可以很方便地解决线性和非线性问题，比如机器学习算法底层涉及的问题。如果你有工程背景，那么你可以由此入手。

BigML:可能你并不想进行编程工作。你完全可以不通过代码，来使用 WEKA那样的工具。你通过使用BigMLS的服务来进行更加深入的工作。BigML通过Web页面，提供了机器学习的接口，因此你可以通过浏览器来建立模型。

补充：

NLTK NLTK is a leading platform for building Python programs to work with human language data It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoningLingPipe: 是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类（Top Classification）、命名实体识别（Named Entity Recognition）、词性标注（Part-of Speech Tagging）、句题检测（Sentence Detection）、查询拼写检查（Query Spell Checking）、兴趣短语检测（Interseting Phrase Detection）、聚类（Clustering）、字符语言建模（Character Language Modeling）、医学文献下载/解析/索引（MEDLINE Download, Parsing and Indexing）、数据库文本挖掘（Database Text Mining）、中文分词（Chinese Word Segmentation）、情感分析（Sentiment Analysis）、语言辨别（Language Identification）等API。

挑选出一个平台，并且在你实际学习机器学习的时候使用它。不要纸上谈兵，要去实践！

Video Courses视频课程

很多人都是通过视频资源开始接触机器学习的。我在YouTube和VideoLectures上看了很多于机器学习相关的视频资源。这样做的问题是，你可能只是观看视频而并不实际去做。我的建议是，你在观看视频的时候，应该多记笔记，及时后来你会抛弃你的笔记。同时，我建议你将学到的东西付诸实践。

坦白讲，我没有看见特别合适初学者的视频资源。视频资源都需要你掌握一定的线性代数、概率论等知识。Andrew Ng在斯坦福的讲解可能是最适合初学者的，下面是我推荐的一些视频资源。

Stanford Machine Learning斯坦福的机器学习课程：可以在Coursera上观看，这门课是由 Andrew Ng讲解的。只要注册，你可以随时观看所有的课程视频，从Stanford CS229 course下载讲义和笔记。这门课包括了家庭作业和小测试，课程主要讲解了线性代数的知识，使用Octave库。

Caltech Learning from Data加利福尼亚理工学院的数据分析课程：你可以在edX上学习这门课程，课程是由Yaser Abu-Mostafa讲解的。所有的课程视频和资料都在加利福尼亚理工学院的网站上。与斯坦福的课程类似，你可以根据自己的情况安排学习进度，完成家庭作业和小论文。它与斯坦福的课程主题相似，关注更多的细节和数学知识。对于初学者来说，家庭作业可能稍有难度。

Machine Learning Category on VideoLecturesNet网站中的机器学习目录：这是个很容易令人眼花缭乱的资源库。你可以找出比较感兴趣的资源，并且深入学习。不要纠结于不适合你的视频，或者对于感兴趣的内容你可以做笔记。我自己会一直重复深入学习一些问题，同时发现新的话题进行学习。此外，在这个网站上你可以发现是这个领域的大师是什么样的。

“Getting In Shape For The Sport Of Data Science” – 由Jeremy Howard讲授：这是与机器学习竞赛者的对话，他们是一些实践中的R语言用户。这是非常珍贵的资源，因为很少有人会讨论研究一个问题的完整过程和究竟怎样做。我曾经幻想过在网上找到一个TV秀，记录机器学习竞赛的全过程。这就是我开始学习机器学习的经历！

Overview Papers综述论文

如果你并不习惯阅读科研论文，你会发现论文的语言非常晦涩难懂。一篇论文就像是一本教科书的片段，但是论文会介绍一个实验或者是领域中其他的前沿知识。然而，如果你准备从阅读论文开始学习机器学习的话，你还是可以找到一些很有意思的文章的。

The Discipline of Machine Learning机器学习中的规则：这是由Tom Mitchell编著的白皮书，其中定义了机器学习的规则。Mitchell在说服CMU总裁为一个百年内都存在的问题建立一个独立的机器学习部门时，也用到了这本书中的观点。

A Few Useful Things to Know about Machine Learning：这是一篇很好的论文，因为它以详细的算法为基础，又提出了一些很重要的问题，比如：选择特征的一般化，模型简化等。

我只是列出了两篇重要的论文，因为阅读论文会让你陷入困境。

Beginner Machine Learning Books给机器学习初学者的书

关于机器学习的书有很多，但是几乎没有为初学者量身定做的。什么样的人才是初学者呢？最有可能的情况是，你从另外一个完全不同的领域比如：计算机科学、程序设计或者是统计学，来到机器学习领域。那么，大部分的书籍要求你有一定的线性代数和概率论的基础。

但是，还有一些书通过讲解最少的算法来鼓励程序员学习机器学习，书中会介绍一些可以使用工具、编程函数库来让程序员尝试。其中最有代表性的书是：《Programming Collective Intelligence》，《Machine Learning for Hackers》，《Hackersand Data Mining: Practical Machine Learning Tools and Techniques》（Python版, R版, 以及Java版）。如果感到迷惑的话，你可以选择其中一本开始学习。

Programming Collective Intelligence: Building Smart Web 20 Applications：这本书是为程序员写的。书中简略介绍相关理论，重点以程序为例，介绍web中的实际问题和解决办法。你可以买来这本书，阅读，并且做一些练习。

Machine Learning for Hackers （中文版：机器学习:实用案例解析）：我建议你在阅读了《Programming Collective Intelligence》一书之后，再阅读这本书。这本书中也提供了很多实践练习，但是涉及更多的数据分析，并且使用R语言。我个人很喜欢这本书！

Machine Learning: An Algorithmic Perspective：这本书是《Programming Collective Intelligence》的高级版本。它们目的相同（让程序员开始了解机器学习），但是这本书包括一些数学知识，参考样例和phython程序片段。如果你有兴趣的话，我建议你在看完《Programming Collective Intelligence》之后来阅读这本书。

数据挖掘：实用机器学习工具与技术（英文版·第3版）：我自己是从这本书开始了解机器学习的，那时是2000年这本书还是第一版。我那时是Java程序员，这本书和WEKA库为我的学习和实践提供了一个很好的环境。我通过这样的平台和一些插件，实现我的算法，并且真正开始实践机器学习和数据挖掘的过程。我强烈推荐这本书，和这样的学习过程。

Machine Learning（中文版：计算机科学丛书:机器学习）：这是一本很老的书，包括了一些规则和很多参考资料。这是一本教科书，为每个算法提供了相关讲解。

有一些人认为那些经典的机器学习教科书很了不起。我也赞同，那些书的确非常好。但是，我认为，对于初学者来说，这些书可能并不合适。

Further Reading 继续阅读

在写这篇文章时，我认真思考了相关问题，同时也参考了其他人推荐的资料，以确保我没有遗漏任何重要参考资料。为了确保文章的完整性，下面也列出了一些网上流行的，可以供初学者使用的材料。

A List of Data Science and Machine Learning Resources:这是一份仔细整理的列表。你可以花一些时间，点击链接，仔细阅读作者的建议。值得一读！

What are some good resources for learning about machine learning Why：这个问题的第一个答案令人吃惊。每次我阅读这篇文章的时候，都会做好笔记，并且插入新的书签。答案中对我最有启发的部分是机器学习课程列表，以及相应的课程笔记和问答网站。

Overwhelmed by Machine Learning: is there an ML101 book：这是StackOverflow上的问题。并且提供了一系列机器学习推荐书籍。Jeff Moser提供的第一个答案是很有用的，其中有课程视频和讲座的链接。

情感分析自从2002年由Bo Pang提出之后，获得了很大程度的研究的，特别是在在线评论的情感倾向性分析上获得了很大的发展，目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上，但是由于深层情感分析必然涉及到语义的分析，以及文本中情感转移现象的经常出现，所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库，虽然Bo Pang实验用的**评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集，但是并没有公认的标准加以确认。

目前研究主要集中于情感词的正面负面分类，标注语料，情感词的提取等。

自然语言处理（NLP）在旅游领域具有广泛的应用，其中之一是情感分析。情感分析是指通过计算机程序来识别文本中的情感倾向，分析人们对旅游目的地、酒店、餐厅、交通工具等的评价。这种技术可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好，改善服务质量和提高客户满意度。

一个典型的旅游情感分析应用是在线评论分析。在线评论是消费者对旅游目的地、酒店、餐厅等的反馈，通过使用 NLP 技术，旅游公司和酒店等机构可以分析这些评论，了解消费者对服务质量、位置、价格、餐饮等的看法。这些信息可以帮助他们改善服务质量、提高客户满意度。

另一个应用是社交媒体情感分析。社交媒体是消费者展示旅游经历的主要渠道，通过使用 NLP 技术，旅游公司和酒店等机构可以分析消费者在社交媒体上发布的文本、和视频，了解消费者对旅游目的地、酒店、餐厅等的感受。这些信息可以帮助他们改善服务质量、提高客户满意度、扩大品牌知名度。

此外，NLP还可以用于预测未来趋势，通过分析历史数据来预测旅游需求、价格趋势等，进而帮助旅游公司和酒店等机构调量、提高客户满意度。

NLP技术还可以用于语音识别和语音合成，在旅游领域中应用于语音导航、语音查询等场景。例如，旅游公司可以开发一款语音导航应用，让游客在旅游中使用语音命令来获取信息和导航。

总之，NLP在旅游领域有着广泛的应用，它可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好，改善服务质量和提高客户满意度。通过使用NLP技术，旅游行业可以更好地了解客户，并提供更好的服务和体验。

微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了34%,达到091。

关键词: 情感分析, 长短期记忆网络, 用户情感倾向

Abstract:

Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 091, with an improvement of 34% over the best baseline method MF-CNN

1、初步筛选：对于短视频情感分析样本库，首先需要进行初步的筛选，选取与研究主题相关的样本，滤除噪声数据和不相关的数据。

2、设计标注体系：根据研究目的，设计情感分析的标注体系，通常包括情感类别（如积极、消极、中性等）、情感极性（如正向、负向等）和情感强度（如强烈、一般、微弱等）等多个方面。

3、标注样本：按照标注体系，对样本进行标注。标注可以通过手工标注和自动标注两种方式进行。手工标注需要人工逐条查看样本，并对其进行情感分类和极性判断等标注操作。自动标注可以使用情感分析算法，对样本进行自动分类和标注。

4、标注质量检查：对标注好的样本进行质量检查，确保标注的准确性和一致性。可以使用多位标注员进行标注，然后比对标注结果，发现并解决标注中的错误和不一致性。

5、数据集整合：将标注好的样本整合成数据集，进行数据清洗和数据预处理等操作，以便后续的情感分析研究和应用。

与其他的人工智能技术相比，情感分析(Sentiment Analysis)显得有些特殊，因为其他的领域都是根据客观的数据来进行分析和预测，但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容，给情感分析提供了所需的数据基础。时至今日，情感识别已经在多个领域被广泛的应用。例如在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力。在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

目前，绝大多数的人工智能开放平台都具备情感分析的能力，如图所示是玻森中文语义开放平台的情感分析功能演示，可以看出除了通用领域的情感分析外，还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢？从自然语言处理技术的角度来看，情感分析的任务是从评论的文本中提取出评论的实体，以及评论者对该实体所表达的情感倾向，自然语言所有的核心技术问题，例如：词汇语义，指代消解，此役小气，信息抽取，语义分析等都会在情感分析中用到。因此，情感分析被认为是一个自然语言处理的子任务，我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示：(e,a,s,h,t)

以图为例，e是指某餐厅，a为该餐厅的性价比属性，s是对该餐厅的性价比表示了褒义的评价，h为发表评论者本人，t是19年7月27日。所以这条评论的情感分析可以表示为五元组（某餐厅，性价比，正向褒义，评论者，19年7月27日）。

情感分析根据处理文本颗粒度的不同，大致可以分为三个级别的任务，分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感，例如一篇书评，或者对某一个热点时事新闻发表的评论，只要待分析的文本超过了一句话的范畴，即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设，那就是全篇章所表达的观点仅针对一个单独的实体e，且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体，不对篇章中包含的具体实体和实体属性进行研究，使得篇章级的情感分析在实际应用中比较局限，无法对一段文本中的多个实体进行单独分析，对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是：“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价，但如果是：“我觉得这款手机拍照功能很不错，但信号不是很好”这样的句子，在同一个评论中出现了褒义词又出现了贬义词，篇章级的分析是无法分辨出来的，只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者，例如在商品评论的情感分析中，可以默认评论的对象是被评论的商品，评论的观点持有者也是评论者本人。当然，这个也需要看被评论的商品具体是什么东西，如果是亲子旅游这样的旅游服务，那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中，篇章级的情感分析无法满足我们对于评价更细致，如果需要对评论进行更精确，更细致的分析，我们需要拆分篇章中的每一句话，这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似，句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感，虽然颗粒度到了句子层级，但是句子级分析与篇章级存在同样的前提假设是，那就是一个句子只表达了一个观点和一种情感，并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点，句子级的分析是无法分辨的。好在现实生活中，绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的，那么进行句子级的情感分析意义何在呢？关于这个问题，需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中，根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句，例如：“我喜欢这款新手机。”就是一个主观句，表达了说话人内心的情感或观点，而：“这个APP昨天更新了新功能。”则是一个客观句，陈述的是一个客观事实性信息，并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句，可以帮助我们过滤掉一部分不含情感的句子，让数据处理更有效率。

但是在实操过程中，我们会发现这样的分类方法似乎并不是特别准确，因为一个主观句也可能没有表达任何的情感信息，知识表达了期望或者猜测，例如：“我觉得他现在已经在回家的路上了。”这句话是一个主观句，表达了说话人的猜测，但是并没有表达出任何的情感。而客观句也有可能包含情感信息，表明说话者并不希望这个事实发生，例如：“昨天刚买的新车就被人刮花了。”这句话是一个客观句，但结合常识我们会发现，这句话中其实是包含了说话人的负面情感。

所以，仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求，我们需要的是对句子是否含有情感信息进行分类，如果一个句子直接表达或隐含了情感信息，则认为这个句子是含有情感观点的，对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法，这种方法需要大量的人工标注数据，基于句子特征来对句子进行分类。

总之，我们可以将句子级的情感分析分成两步，第一步是判断待分析的句子是否含有观点信息，第二步则是针对这些含有观点信息的句子进行情感分析，发现其中情感的倾向性，判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似，依然是可以采用监督学习或根据情感词词典的方法来处理，我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言，颗粒度更加细分，但同样只能判断整体的情感，忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点，例如：“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子，我们不能将其简单的归类为褒义或贬义的情感，而是需要更进一步的细化颗粒度，对评价实体的属性进行抽取，并将属性与相关实体之间进行关联，这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析，都无法确切的知道评价者喜欢和不喜欢的具体是什么东西，同时也无法区分对某一个被评价实体的A属性持褒义倾向，对B属性却持贬义倾向的情况。但在实际的语言表达中，一个句子中可能包含了多个不同情感倾向的观点，例如：“我喜欢这家餐厅的装修风格，但菜的味道却很一般。”类似于这样的句子，很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化，我们需要从文本中发现或抽取评价的对象主体信息，并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感，这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性，包括评价者以及评价时间，目标是挖掘与发现评论在实体及其属性上的观点信息，使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看，属性级的情感分析可以分为以下6个步骤：

关于文本中的实体抽取和指代消解问题，我们已经在知识图谱的相关章节中做了介绍，这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务，人们做了大量的研究并提出了很多分类的方法，这些方法大致可以分为基于词典和基于机器学习两种，下面我们进行详细的讲解。

做情感分析离不开情感词，情感词是承载情感信息最基本的单元，除了基本的词之外，一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法，主要是基于一个包含了已标注的情感词和短语的词典，在这个词典中包括了情感词的情感倾向以及情感强度，一般将褒义的情感标注为正数，贬义的情感标注为负数。

具体的步骤如图所示，首先将待分析的文本先进行分词，并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配，并根据词典标注的情感分对文本进行加法计算，最终的计算结果如果为正则是褒义情感，如果为负则是贬义情感，如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心，情感词标注数据的好坏直接决定了情感分类的结果，在这方面可以直接采用已有的开源情感词典，例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典，知网（Hownet）情感词典，台湾大学简体中文情感极性词典（NTSUSD），snownlp框架的词典等，同时还可以使用哈工大整理的同义词词林拓展词典作为辅助，通过这个词典可以找到情感词的同义词，拓展情感词典的范围。

当然，我们也可以根据业务的需要来自己训练情感词典，目前主流的情感词词典有三种构建方法：人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值，最简单的方法是将所有的褒义情感词赋值为+1，贬义的情感词赋值为-1，最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求，在实际的语言表达中，存在着非常多的表达方式可以改变情感的强度，最典型的就是程度副词。程度副词分为两种，一种是可以加强情感词原本的情感，这种称之为情感加强词，例如“很好”相较于“好”的情感程度会更强烈，“非常好”又比“很好”更强。另外一种是情感减弱词，例如“没那么好”虽然也是褒义倾向，但情感强度相较于“好”会弱很多。如果出现了增强词，则需要在原来的赋值基础上增加情感得分，如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词，否定词的出现一般会改变情感词原本的情感倾向，变为相反的情感，例如“不好”就是在“好”前面加上了否定词“不”，使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数，即如果“好”的情感倾向是+1，那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感，例如“太好”是一个比“好”褒义倾向更强的词，如果“好”的值为+1，那么“太好”可以赋值为+3，加上否定词的“不太好”变成-3则显然有点过于贬义了，将其赋值为-1或者-05可能更合适。

基于这种情况，我们可以对否定词也添加上程度的赋值而不是简单的取相反数，对于表达强烈否定的词例如“不那么”赋值为±4，当遇到与褒义词的组合时褒义词则取负数，与贬义词的组合则取正数，例如贬义词“难听”的赋值是-3，加上否定词变成“不那么难听”的情感得分就会是（-3+4=1）。

第三种需要注意的情况是条件词，如果一个条件词出现在句子中，则这个句子很可能不适合用来做情感分析，例如“如果我明天可以去旅行，那么我一定会非常开心。”，在这句话中有明显的褒义情感词，但是因为存在条件词“如果”，使得这个句子的并没有表达观点持有者的真实情感，而是一种假设。

除了条件句之外，还有一种语言表达也是需要在数据预处理阶段进行排除的，那就是疑问句。例如“这个餐厅真的有你说的那么好吗？”，虽然句子中出现了很强烈的褒义情感词“那么好”，但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词，例如“……吗？”或者“……么？”，但是也有的疑问句会省略掉结尾词，直接使用标点符号“？”，例如“你今天是不是不开心？”，这个句子中含有否定词和褒义词组成的“不开心”，但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词，典型词是“但是”，出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反，例如：“我上次在这家酒店的住宿体验非常好，但是这次却让我很失望。”在这个转折句中，转折词之前的“非常好”是一个很强的褒义词，但真实的情感表达却是转折词之后的“很失望”，最终应该将其分类为贬义情感。当然，也存在出现了转折词，但语句本身的情感并没有发生改变的情况，例如“你这次考试比上次有了很大的进步，但是我觉得你可以做得更好”，这里的转折词没有转折含义，而是一种递进含义。在实际操作中，我们所以需要先判断转折句真实的情感表达到底是哪个，才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情，除了上述需要注意的问题外，还存在精准度不高，新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性，例如一个句子可能出现了情感词，但并没有表达情感。或者一个句子不含任何情感词，但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题，例如“精明”这个词可以作为褒义词夸奖他人，也可以作为贬义词批评他人。

尽管目前存在诸多问题，但基于字典的情感分析方法也有着不可取代的优势，那就是这种分析方法通用性较强，大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感，对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法，例如逻辑回归、朴素贝叶斯、KNN等，这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤，第一步是根据训练数据构建算法模型，第二步是将测试数据输入到算法模型中输出对应的结果，接下来做具体的讲解。

首先，我们需要准备一些训练用的文本数据，并人工给这些数据做好情感分类的标注，通常的做法下，如果是褒义和贬义的两分类，则褒义标注为1，贬义标注为0，如果是褒义、贬义和中性三分类，则褒义标注为1，中性标注为0，贬义标注为-1

在这一环节中如果用纯人工方法来进行标注，可能会因为个人主观因素对标注的结果造成一定影响，为了避免人的因素带来的影响，也为了提高标注的效率，有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中，商品的评论除了文本数据之外通常还会带有一个5星的等级评分，我们可以根据用户的5星评分作为标注依据，如果是1-2星则标注为贬义，如果是3星标注为中性，4-5星标注为褒义。又比如在社区领域中，很多社区会对帖子有赞和踩的功能，这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词，并进行数据的预处理，前文已经对分词有了很多的介绍，这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词，这里特别说一下，如果是对情感进行分类，可以参考情感词典进行标注，也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的，还需要标注出特定领域的词，例如做商品评价的情感分析，需要标注出商品名称，品类名称，属性名称等。第四步根据分词统计词频构建词袋模型，形成特征词矩阵，如表所示。在这一步可以根据业务需要给每个特征词赋予权重，并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法，将特征词矩阵作为输入数据，得到最终的分类模型。

当训练好分类模型之后，就可以对测试集进行分类了，具体的流程与建模流程类似，先对测试的文本数据进行分词并做数据预处理，然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵，并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类，得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处，第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域，需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注，而人对于情感的理解带有主观性，如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法，也有一些学者将两者结合起来使用，弥补两种方法的缺点，比单独采用一种方法的分类效果要更好，另外，也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析，相信在未来，情感分析会应用在更多的产品中，帮助我们更好的理解用户需求，提升用户使用智能产品的体验。

随着深度神经网络等算法的应用，情感分析的研究方向已经有了非常大的进展，但依然存在着一些难题是目前尚未解决的，在实操过程中需特别注意以下几种类型数据：

情绪轮在用户体验设计上被广泛的应用，很多情感化设计都是基于情绪轮进行的。但是在人工智能领域，将情绪进行多分类比情感分析的三分类任务要难得多，目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别，而且不同的类别之间又可能具有相似性，一个情绪词在不同的语境下有可能表达的是不同的情绪类别，算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳，因为情绪是非常主观性的，不同的人对不同的文本可能产生不同的理解，这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/828003.html

如何建立一个合理的机器学习系统

发表评论

评论列表（0条）