斯坦福大学自然语言处理第七课“情感分析（Sentiment Analysis）”2024年_知识

课程地址: https://classcourseraorg/nlp/lecture/31

情感分析 （Sentiment analysis）又可以叫做

意见抽取 （Opinion extraction）

意见挖掘 （Opinion mining）

情感挖掘 （Sentiment mining）

主观分析 （Subjectivity analysis）等等。

引用的论文：

Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86

Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278

另外需注意，Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes，MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典：

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢？以IMDB影评为例

但是！我们不能用单纯的原始计数（raw counts）方法来进行打分，如下图

可以看出，这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为：

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果，分别来自于用户好评和差评的统计：

可以看到极性划分的还不错

</article>

</main>

转自csdn

情感分析（Sentiment Analysis）

第一步，就是确定一个词是积极还是消极，是主观还是客观。这一步主要依靠词典。

英文已经有伟大词典资源：SentiWordNet 无论积极消极、主观客观，还有词语的情感强度值都一并拿下。

但在中文领域，判断积极和消极已经有不少词典资源，如Hownet，NTUSD但用过这些词典就知道，效果实在是不咋滴（最近还发现了大连理工发布的情感词汇本体库，不过没用过，不好评价）。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观，那真的是不能直视。

中文领域难度在于：词典资源质量不高，不细致。另外缺乏主客观词典。

第二步，就是识别一个句子是积极还是消极，是主观还是客观。

有词典的时候，好办。直接去匹配看一个句子有什么词典里面的词，然后加总就可以计算出句子的情感分值。

但由于不同领域有不同的情感词，比如看上面的例子，“蓝屏”这个词一般不会出现在情感词典之中，但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。

如果不那么麻烦，就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练，训练得到分类器之后就可以把评论分成积极消极、主观客观了。

分成积极和消极也好办，还是上面那个例子。5颗星的评论一般来说是积极的，1到2颗星的评论一般是消极的，这样就可以不用人工标注，直接进行训练。但主客观就不行了，一般主客观还是需要人来判断。加上中文主客观词典不给力，这就让机器学习判断主客观更为困难。

中文领域的难度：还是词典太差。还有就是用机器学习方法判断主客观非常麻烦，一般需要人工标注。

另外中文也有找到过资源，比如这个用Python编写的类库：SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过，具体效果不清楚。

到了第三步，情感挖掘就升级到意见挖掘（Opinion Mining）了。

这一步需要从评论中找出产品的属性。拿手机来说，屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”，这就是积极的。“电池一天都不够就用完了，坑爹啊”，这就是消极的，而且强度很大。

这就需要在情感分析的基础上，先挖掘出产品的属性，再分析对应属性的情感。

分析完每一条评论的所有属性的情感后，就可以汇总起来，形成消费者对一款产品各个部分的评价。

接下来还可以对比不同产品的评价，并且可视化出来。如图。

这一步的主要在于准确挖掘产品属性（一般用关联规则），并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子，再找主观句子里的产品属性，再计算属性对应的情感分。所以前面基础不牢固，后面要准确分析就有难度。

中文这个领域的研究其实很完善了，技术也很成熟。但需要完善前期情感分析的准确度。

总的来说，就是中文词典资源不好，工作做得不是很细很准。前期的一些基础不牢固，后面要得到准确的分析效果就不容易了。

自然语言处理（NLP）在旅游领域具有广泛的应用，其中之一是情感分析。情感分析是指通过计算机程序来识别文本中的情感倾向，分析人们对旅游目的地、酒店、餐厅、交通工具等的评价。这种技术可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好，改善服务质量和提高客户满意度。

一个典型的旅游情感分析应用是在线评论分析。在线评论是消费者对旅游目的地、酒店、餐厅等的反馈，通过使用 NLP 技术，旅游公司和酒店等机构可以分析这些评论，了解消费者对服务质量、位置、价格、餐饮等的看法。这些信息可以帮助他们改善服务质量、提高客户满意度。

另一个应用是社交媒体情感分析。社交媒体是消费者展示旅游经历的主要渠道，通过使用 NLP 技术，旅游公司和酒店等机构可以分析消费者在社交媒体上发布的文本、和视频，了解消费者对旅游目的地、酒店、餐厅等的感受。这些信息可以帮助他们改善服务质量、提高客户满意度、扩大品牌知名度。

此外，NLP还可以用于预测未来趋势，通过分析历史数据来预测旅游需求、价格趋势等，进而帮助旅游公司和酒店等机构调量、提高客户满意度。

NLP技术还可以用于语音识别和语音合成，在旅游领域中应用于语音导航、语音查询等场景。例如，旅游公司可以开发一款语音导航应用，让游客在旅游中使用语音命令来获取信息和导航。

总之，NLP在旅游领域有着广泛的应用，它可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好，改善服务质量和提高客户满意度。通过使用NLP技术，旅游行业可以更好地了解客户，并提供更好的服务和体验。

目前常见的分析方法有：

1高频词分析（有专门的软件，如ROST）；

2情感分析（多用于对旅游目的地形象分析）；

3满意度分析（最近看的一篇文章用KANO模型结合文本做的分析）

4共词分析（例如分析多篇文章的关键词，使用共词矩阵，社会网络分析等）

4时空分析（游客路径和时空共现等等，这里面也有很多分析用到的是照片的分析）

注意：文本处理起来很繁琐，特别是有些意义相近的词，全都要进行清洗。

本文可以学习到以下内容：

数据及源码地址： https://giteecom/myrensheng/data_analysis

小凡，用户对耳机商品的评论信息，你有没有什么好的办法分析一下？经理来向小凡请教问题。

嗯，小凡想了一会儿

我想到了两种分析方法：

经理听完，甚是欣慰，便让小凡着手分析用户的评论数据。

数据解释：

小凡使用百度飞浆（paddlepaddle）模型库中的情感分析模型，将评论数据（content）转化为情感类别积极1，消极0

一、window10+anaconda3的安装命令：

二、安装预训练模型应用工具 PaddleHub

可以看到，大约 60% 的用户给出好评

用户的评论内容多集中在配置、音质等主题上

这里使用百度飞浆的LAC分词模型

分析结束后，小凡总结出以下结论：

小凡将结论汇报给经理，和经理一起想出一个可行的方案解决目前存在的问题。

监督学习

目前，基于监督学习的情感分析仍然是主流，除了（Li et al,2009）基于非负矩阵三分解（Non-negative Matrix Tri-factorization），（Abbasi et al,2008）基于遗传算法（Genetic Algorithm）的情感分析之外，使用的最多的监督学习算法是朴素贝叶斯，k最近邻（k-Nearest Neighbor，k-NN），最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

基于规则/无监督学习

和基于监督学习的情感分析相比，基于规则和无监督学习方面的研究不是很多。除了（Turney,2002）之外，（朱嫣岚 et al,2002）利用HowNet对中文词语语义的进行了情感倾向计算。（娄德成 et al,2006）利用句法结构和依存关系对中文句子语义进行了情感分析，（Hiroshi et al,2004）通过改造一个基于规则的机器翻译器实现日文短语级情感分析，（Zagibalov et al,2008）在（Turney,2002）的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域，目前在这方面的研究不是很多，主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系，或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于（Blitzer et al,2007）将结构对应学习（Structural Correspondence Learning，SCL）引入跨领域情感分析，SCL是一种应用范围很广的跨领域文本分析算法，SCL的目的是将训练集上的特征尽量对应到测试集中。（Tan et al,2009）将SCL引入了中文跨领域情感分析中。（Tan2 et al,2009）提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。（Wu et al,2009）将基于EM的思想将图排序（Graph Ranking）算法应用到跨领域的情感分析中，图排序算法可以认为是一种迭代的k-NN

与其他的人工智能技术相比，情感分析(Sentiment Analysis)显得有些特殊，因为其他的领域都是根据客观的数据来进行分析和预测，但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点，这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容，给情感分析提供了所需的数据基础。时至今日，情感识别已经在多个领域被广泛的应用。例如在商品零售领域，用户的评价对于零售商和生产商都是非常重要的反馈信息，通过对海量用户的评价进行情感分析，可以量化用户对产品及其竞品的褒贬程度，从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域，通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面，利用情感分析可以快速了解社会对企业的评价，为企业的战略规划提供决策依据，提升企业在市场中的竞争力。在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，为行情交易提供辅助依据。

目前，绝大多数的人工智能开放平台都具备情感分析的能力，如图所示是玻森中文语义开放平台的情感分析功能演示，可以看出除了通用领域的情感分析外，还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢？从自然语言处理技术的角度来看，情感分析的任务是从评论的文本中提取出评论的实体，以及评论者对该实体所表达的情感倾向，自然语言所有的核心技术问题，例如：词汇语义，指代消解，此役小气，信息抽取，语义分析等都会在情感分析中用到。因此，情感分析被认为是一个自然语言处理的子任务，我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示：(e,a,s,h,t)

以图为例，e是指某餐厅，a为该餐厅的性价比属性，s是对该餐厅的性价比表示了褒义的评价，h为发表评论者本人，t是19年7月27日。所以这条评论的情感分析可以表示为五元组（某餐厅，性价比，正向褒义，评论者，19年7月27日）。

情感分析根据处理文本颗粒度的不同，大致可以分为三个级别的任务，分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感，例如一篇书评，或者对某一个热点时事新闻发表的评论，只要待分析的文本超过了一句话的范畴，即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设，那就是全篇章所表达的观点仅针对一个单独的实体e，且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体，不对篇章中包含的具体实体和实体属性进行研究，使得篇章级的情感分析在实际应用中比较局限，无法对一段文本中的多个实体进行单独分析，对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是：“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价，但如果是：“我觉得这款手机拍照功能很不错，但信号不是很好”这样的句子，在同一个评论中出现了褒义词又出现了贬义词，篇章级的分析是无法分辨出来的，只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者，例如在商品评论的情感分析中，可以默认评论的对象是被评论的商品，评论的观点持有者也是评论者本人。当然，这个也需要看被评论的商品具体是什么东西，如果是亲子旅游这样的旅游服务，那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中，篇章级的情感分析无法满足我们对于评价更细致，如果需要对评论进行更精确，更细致的分析，我们需要拆分篇章中的每一句话，这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似，句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感，虽然颗粒度到了句子层级，但是句子级分析与篇章级存在同样的前提假设是，那就是一个句子只表达了一个观点和一种情感，并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点，句子级的分析是无法分辨的。好在现实生活中，绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的，那么进行句子级的情感分析意义何在呢？关于这个问题，需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中，根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句，例如：“我喜欢这款新手机。”就是一个主观句，表达了说话人内心的情感或观点，而：“这个APP昨天更新了新功能。”则是一个客观句，陈述的是一个客观事实性信息，并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句，可以帮助我们过滤掉一部分不含情感的句子，让数据处理更有效率。

但是在实操过程中，我们会发现这样的分类方法似乎并不是特别准确，因为一个主观句也可能没有表达任何的情感信息，知识表达了期望或者猜测，例如：“我觉得他现在已经在回家的路上了。”这句话是一个主观句，表达了说话人的猜测，但是并没有表达出任何的情感。而客观句也有可能包含情感信息，表明说话者并不希望这个事实发生，例如：“昨天刚买的新车就被人刮花了。”这句话是一个客观句，但结合常识我们会发现，这句话中其实是包含了说话人的负面情感。

所以，仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求，我们需要的是对句子是否含有情感信息进行分类，如果一个句子直接表达或隐含了情感信息，则认为这个句子是含有情感观点的，对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法，这种方法需要大量的人工标注数据，基于句子特征来对句子进行分类。

总之，我们可以将句子级的情感分析分成两步，第一步是判断待分析的句子是否含有观点信息，第二步则是针对这些含有观点信息的句子进行情感分析，发现其中情感的倾向性，判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似，依然是可以采用监督学习或根据情感词词典的方法来处理，我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言，颗粒度更加细分，但同样只能判断整体的情感，忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点，例如：“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子，我们不能将其简单的归类为褒义或贬义的情感，而是需要更进一步的细化颗粒度，对评价实体的属性进行抽取，并将属性与相关实体之间进行关联，这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析，都无法确切的知道评价者喜欢和不喜欢的具体是什么东西，同时也无法区分对某一个被评价实体的A属性持褒义倾向，对B属性却持贬义倾向的情况。但在实际的语言表达中，一个句子中可能包含了多个不同情感倾向的观点，例如：“我喜欢这家餐厅的装修风格，但菜的味道却很一般。”类似于这样的句子，很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化，我们需要从文本中发现或抽取评价的对象主体信息，并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感，这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性，包括评价者以及评价时间，目标是挖掘与发现评论在实体及其属性上的观点信息，使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看，属性级的情感分析可以分为以下6个步骤：

关于文本中的实体抽取和指代消解问题，我们已经在知识图谱的相关章节中做了介绍，这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务，人们做了大量的研究并提出了很多分类的方法，这些方法大致可以分为基于词典和基于机器学习两种，下面我们进行详细的讲解。

做情感分析离不开情感词，情感词是承载情感信息最基本的单元，除了基本的词之外，一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法，主要是基于一个包含了已标注的情感词和短语的词典，在这个词典中包括了情感词的情感倾向以及情感强度，一般将褒义的情感标注为正数，贬义的情感标注为负数。

具体的步骤如图所示，首先将待分析的文本先进行分词，并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配，并根据词典标注的情感分对文本进行加法计算，最终的计算结果如果为正则是褒义情感，如果为负则是贬义情感，如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心，情感词标注数据的好坏直接决定了情感分类的结果，在这方面可以直接采用已有的开源情感词典，例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典，知网（Hownet）情感词典，台湾大学简体中文情感极性词典（NTSUSD），snownlp框架的词典等，同时还可以使用哈工大整理的同义词词林拓展词典作为辅助，通过这个词典可以找到情感词的同义词，拓展情感词典的范围。

当然，我们也可以根据业务的需要来自己训练情感词典，目前主流的情感词词典有三种构建方法：人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值，最简单的方法是将所有的褒义情感词赋值为+1，贬义的情感词赋值为-1，最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求，在实际的语言表达中，存在着非常多的表达方式可以改变情感的强度，最典型的就是程度副词。程度副词分为两种，一种是可以加强情感词原本的情感，这种称之为情感加强词，例如“很好”相较于“好”的情感程度会更强烈，“非常好”又比“很好”更强。另外一种是情感减弱词，例如“没那么好”虽然也是褒义倾向，但情感强度相较于“好”会弱很多。如果出现了增强词，则需要在原来的赋值基础上增加情感得分，如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词，否定词的出现一般会改变情感词原本的情感倾向，变为相反的情感，例如“不好”就是在“好”前面加上了否定词“不”，使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数，即如果“好”的情感倾向是+1，那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感，例如“太好”是一个比“好”褒义倾向更强的词，如果“好”的值为+1，那么“太好”可以赋值为+3，加上否定词的“不太好”变成-3则显然有点过于贬义了，将其赋值为-1或者-05可能更合适。

基于这种情况，我们可以对否定词也添加上程度的赋值而不是简单的取相反数，对于表达强烈否定的词例如“不那么”赋值为±4，当遇到与褒义词的组合时褒义词则取负数，与贬义词的组合则取正数，例如贬义词“难听”的赋值是-3，加上否定词变成“不那么难听”的情感得分就会是（-3+4=1）。

第三种需要注意的情况是条件词，如果一个条件词出现在句子中，则这个句子很可能不适合用来做情感分析，例如“如果我明天可以去旅行，那么我一定会非常开心。”，在这句话中有明显的褒义情感词，但是因为存在条件词“如果”，使得这个句子的并没有表达观点持有者的真实情感，而是一种假设。

除了条件句之外，还有一种语言表达也是需要在数据预处理阶段进行排除的，那就是疑问句。例如“这个餐厅真的有你说的那么好吗？”，虽然句子中出现了很强烈的褒义情感词“那么好”，但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词，例如“……吗？”或者“……么？”，但是也有的疑问句会省略掉结尾词，直接使用标点符号“？”，例如“你今天是不是不开心？”，这个句子中含有否定词和褒义词组成的“不开心”，但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词，典型词是“但是”，出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反，例如：“我上次在这家酒店的住宿体验非常好，但是这次却让我很失望。”在这个转折句中，转折词之前的“非常好”是一个很强的褒义词，但真实的情感表达却是转折词之后的“很失望”，最终应该将其分类为贬义情感。当然，也存在出现了转折词，但语句本身的情感并没有发生改变的情况，例如“你这次考试比上次有了很大的进步，但是我觉得你可以做得更好”，这里的转折词没有转折含义，而是一种递进含义。在实际操作中，我们所以需要先判断转折句真实的情感表达到底是哪个，才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情，除了上述需要注意的问题外，还存在精准度不高，新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性，例如一个句子可能出现了情感词，但并没有表达情感。或者一个句子不含任何情感词，但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题，例如“精明”这个词可以作为褒义词夸奖他人，也可以作为贬义词批评他人。

尽管目前存在诸多问题，但基于字典的情感分析方法也有着不可取代的优势，那就是这种分析方法通用性较强，大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感，对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法，例如逻辑回归、朴素贝叶斯、KNN等，这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤，第一步是根据训练数据构建算法模型，第二步是将测试数据输入到算法模型中输出对应的结果，接下来做具体的讲解。

首先，我们需要准备一些训练用的文本数据，并人工给这些数据做好情感分类的标注，通常的做法下，如果是褒义和贬义的两分类，则褒义标注为1，贬义标注为0，如果是褒义、贬义和中性三分类，则褒义标注为1，中性标注为0，贬义标注为-1

在这一环节中如果用纯人工方法来进行标注，可能会因为个人主观因素对标注的结果造成一定影响，为了避免人的因素带来的影响，也为了提高标注的效率，有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中，商品的评论除了文本数据之外通常还会带有一个5星的等级评分，我们可以根据用户的5星评分作为标注依据，如果是1-2星则标注为贬义，如果是3星标注为中性，4-5星标注为褒义。又比如在社区领域中，很多社区会对帖子有赞和踩的功能，这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词，并进行数据的预处理，前文已经对分词有了很多的介绍，这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词，这里特别说一下，如果是对情感进行分类，可以参考情感词典进行标注，也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的，还需要标注出特定领域的词，例如做商品评价的情感分析，需要标注出商品名称，品类名称，属性名称等。第四步根据分词统计词频构建词袋模型，形成特征词矩阵，如表所示。在这一步可以根据业务需要给每个特征词赋予权重，并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法，将特征词矩阵作为输入数据，得到最终的分类模型。

当训练好分类模型之后，就可以对测试集进行分类了，具体的流程与建模流程类似，先对测试的文本数据进行分词并做数据预处理，然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵，并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类，得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处，第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域，需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注，而人对于情感的理解带有主观性，如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法，也有一些学者将两者结合起来使用，弥补两种方法的缺点，比单独采用一种方法的分类效果要更好，另外，也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析，相信在未来，情感分析会应用在更多的产品中，帮助我们更好的理解用户需求，提升用户使用智能产品的体验。

随着深度神经网络等算法的应用，情感分析的研究方向已经有了非常大的进展，但依然存在着一些难题是目前尚未解决的，在实操过程中需特别注意以下几种类型数据：

情绪轮在用户体验设计上被广泛的应用，很多情感化设计都是基于情绪轮进行的。但是在人工智能领域，将情绪进行多分类比情感分析的三分类任务要难得多，目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别，而且不同的类别之间又可能具有相似性，一个情绪词在不同的语境下有可能表达的是不同的情绪类别，算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳，因为情绪是非常主观性的，不同的人对不同的文本可能产生不同的理解，这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

作为用户研究常用的方法范式，质性研究为我们的提供了挖掘用户需求、发现产品痛点、评估用户体验的可能。不管是可用性测试、任务分析，还是开放式问卷，都带有质性研究的属性。

基于这些问题，本篇以网易某产品app中一个页面的可用性测试为例，介绍用研中Atlasti这款质性研究工具的使用技巧和业务用途，让大家了解如何通过工具的使用来更有效地发现产品中的痛点和潜在的用户需求。

我们日常中接触到的信息资料，大多以质性资料（亦即定性资料）的形式存储，诸如文本、多媒体材料等举不胜数。可以说，质性资料中包含着丰富的信息，也蕴含着极高的价值。以用户研究来说，质性资料的获得的形式、获取渠道丰富而可观：

得到这些资料并完成预处理后，我们就会开始质性分析的分析过程，狭义上的质性研究也是从这里开始的。

一般来说，对质性资料的处理要经过开放式编码、轴心式编码、选择式编码这样一个循序渐进的过程，从最初简单的编码到编码簇与编码关联的建立，再到核心编码的确认。通过逐步深入、逐步凝练的过程，我们就可以从最初的原始资料中获得质性结论，最后则是结论的报表或可视化展现。

然而长久以来，质性研究的热度似乎始终低于量化研究，即使是在学术领域，质性研究也只得到了一小部分学者的青睐。究其原因，我们认为或许是因为这些：

质性研究的资料分析过程对任何人来说都是一件令人头疼的事——资料庞杂、程序繁琐、耗费时力，所以工具的选用对于质性研究来说就变得非常有必要，这既让我们的工作更便捷，也让我们的研究结果更可靠。

目前较为成熟、常用的质性研究工具也有不少，本篇以Atlasti 75版本为例，首先会介绍Atlasti 75的基本情况，然后通过一个用研可用性测试案例说明如何通过Atlasti对资料进行挖掘。

以2016年初我们进行的一项针对网易某产品App的可用性测试为例，出于案例说明简易性的需要，我们选择了此次可用性测试的一部分即针对该app投资理财页面的局部可用性测试进行介绍。

此次可用性测试中，我们重点考察了2部分，第一部分是用户对App页面信息结构认知的心理模型，第二部分是用户对页面内不同区块间信息架构差异的感知。

在用户筛选方面，我们依据产品的业务特征、产品使用场景特征等，选择了理财、支付、支付+理财以及游戏支付用户共4类。

此前的用户研究工作中我们已发现，用户在移动端选择互联网理财产品的心理模型是先了解所有理财产品类别，再确定目标理财产品类别，最后在已确定的类别中选择具体的理财产品。所以，针对该页面的可用性测试中，我们依据该行为模型设计了一些列任务要求用户完成，希望从中发现我们产品中存在的一些可用性问题。

作为质性研究常用工具之一，Atlasti最初是在大约1990年，由德国学术研究者出于研究需要而开发的一款质性资料分析工具。目前该工具已升级到75版本，最新的第8代也即将到来。自从问世以来，Atlasti已经逐渐在语言学、心理学、计算机等多个领域的学术研究中被广泛使用。

外观上，Atlasti 75版本与一般图形界面工具并无太大差异，也包括菜单栏、工具栏、工作区域等控件。值得关注的是Atlasti 75中的几个重要快捷功能区域，了解这些区域对其使用和后面的案例介绍非常有必要，所以这里先做一下简要的介绍：

当我们完成资料的搜集后，一般需要对资料做一个简单地整理，这个过程是通过“文档管理器”完成的——通过要点击Atlasti第一个快捷管理器的“P-Doc”按钮进入。

在文档管理器中可以看到，Atlasti支持的质性材料类型非常丰富，文本（txt、doc、pdf等）、富媒体材料（音频、视频、）、谷歌地图文件等。当然，用研中经常使用的开放式问卷（excel文件）也可以直接导入到Atlasti中。如下图所示，本篇所用案例仅涉及doc、txt、这3种材料，共计7个文件。

对文档的管理除了重命名、编写备忘录等最基本的操作之外，最重要的是对文档进行分组——在Atlasti中叫做“ 文档家族管理 ”。如下图界面区域的左侧，是本篇所用案例中依据用户类型、性别两个指标建立的6个“文档家族”（Documents familiy）。

文档分组（建立文档家族）让我们了解到这次研究项目的整体情况，例如如此次用户研究项目共涉及4种类型的用户。同时，后续还可以以此为基础，比较质性分析结果在不同组间的差异，让我们的结论更深入、具体，例如理财用户和支付用户对界面架构感知的差异——这一点是本篇后面分析环节的一个重点。

按照质性分析流程，获得文档并进行初步管理后，就可以开始分析过程了，而质性分析通常又是从资料的编码开始的。由于在用研中获得的质性资料形式是各种各样的，下面介绍的文档编码分析也会依据资料类型的不同展开详述。

开放式问卷也是用研中经常见到的一种资料收集方式，其独特性在于开放式问卷中不仅包含开放式问题，也包含各种定量数据如性别、收入水平、教育水平等。

但在处理开放式问卷方面，Atlasti还有一个突出优势，就是它不仅能够解读开放式问题的答案，而且能够依据定量指标建立分组（类似于在文档管理器中“新建文档家族”），让我们更深入地解读开放式问题的答案在不同分组之间的差异。

通过上述操作完成所有资料的编码后，我们可以在Atlasti的“编码管理器”中查看所有编码，如下图所示，本篇案例中我们一共获得了13个一级编码。

如上图所示，我们发现在本次测试的app中，理财产品的现有分类方式导致用户无法直观了解到所有理财产品的类别这一问题最为突出（走下角红色字体），而对应的用户期望（潜在的解决办法）中“直接提供一个理财产品排列的子导航条”也最为突出。另外，点击该编码会弹出一个新的对话框，对话框中列出了该编码对应的原始文本资料，让我们可以快速回查原始记录。

编码云只能让我们了解到问题点的状况，为了进一步了解每个问题的详情，例如该问题产品的结果等等，我们还需要为每个编码建立语义网络。建立网络视图的基本步骤如下：

通过语义网络分析我们发现，“理财产品分类不容易看全”这一问题导致了“用户认为理财产品的选择很麻烦”和“直接跳过靠后的理财产品”这两个问题。同时，我们还看到伴随这一问题出现了2个用户的期望，包括“用户希望直接给出一个理财分析的子导航条”和“按照一个直观、易习得的方式排列理财产品”。

如图所示，我们在可用性测试中发现的一个问题，可能对应着不止一个解决办法，那么该如何决定那种解决办法更为用户所期许呢？这一问题既是用户研究需要回答的问题，也是产品优化所必需的答案。这里我们就需要使用Atlasti的分析功能来回答这个问题了。

通过共现列表我们发现，对于“理财产品分类不容易看全”这一问题，用户更偏向的是“直接提供一个理财产品排列的子导航条”这一解决方式。

通过编码共现分析，我们回答了每个问题对应的用户期望或解决办法中应该选择哪个的问题。但是我们还注意到，由于此次可用性测试涉及4种不同类型的用户，其中“理财”和“理财+支付”用户都具有理财经验，而“支付”和“游戏支付”用户则不具有理财经验；换句话说，此次可用性测试涉及理财老用户和理财新用户，他们在可用性测试任务中遇到的问题是否有所差异？

接下来，我们将通过编码-文档共现分析来对这一问题的答案进行挖掘，而完成这一分析的前提便是之前提到的“文档家族”。

通过上述一系列的分析过程，我们了解到了测试产品中尚存在的一些问题、问题的优先级、问题表现在不同用户群体间的差异，以及一些潜在的解决办法。

本篇以网易某产品app的特定页面的可用性测试为例，介绍了如何通过Atlasti 75这款工具的使用，在大量的质性资料中发掘有价值的结论。不可忽略的是，工具的使用是根据项目需求决定的，特定的项目目的决定了我们要使用怎样的工具。本篇中的Atlasti也只是质性资料分析工具中的一种，它有自己的优势，也存在不足。下表列举了以Rost CM6为代表的文本分析工具和以Atlasti为代表的执行分析工具之间的差异，或许可以作为工具选择的一些参考。

在用研工作中，以Rost CM6为代表的工具适用于个案量大、单个案内容体量小的文本资料，这类工具可以有效地完成文本资料的分词、语义网络、情感分析等工作。以Atlasti为代表的工具，则适用于体量有限、材料形式多样但有着高挖掘深度和精度的各类质性资料。

欢迎分享，转载请注明来源：浪漫分享网

原文地址: https://hunlipic.com/qinggan/735394.html

斯坦福大学自然语言处理第七课“情感分析（Sentiment Analysis）”

发表评论

评论列表（0条）