大数据舆情情感分析,如何提取情感并使用什么样的工具

大数据舆情情感分析,如何提取情感并使用什么样的工具,第1张

未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。

认知、情感与意志是人类三种基本意识形式,虽然,人们对于人类的认知过程的研究,已经取得了很大的成就,目前的电脑已经能够很好地代替人脑进行各种抽象思维、逻辑推理和数学运算,但是对于人类的情感过程和意志过程的研究,却举步维艰。迄今为止,机器人除了能够机械性地模拟和很粗略地识别一些人类的简单表情以外,再也无法前进一步,情感成了人脑与电脑之间无法逾越的鸿沟,制造一台拥有人类情感的机器人似乎是一个永远无法实现的梦想。其实不然,情感只是人类一种特殊的意识形式,只要揭开了情感的哲学本质,了解情感的核心内容,就能够建立情感的数学模型,就能够对情感进行科学分析和精确计算。

1、数据预处理:将原始文本数据进行清洗、分词、去除停用词等预处理操作,得到文本的词袋表示。

2、特征提取:对于每个属性,从词袋中提取出与该属性相关的特征词,例如“价格”、“质量”等。

3、聚类或主题建模:使用聚类或主题建模方法对文本进行无监督学习,将文本按照不同的主题或簇进行分组,从而实现属性级分类,对于聚类方法,可以使用K-means、DBSCAN等算法。对于主题模型,可以使用LDA等算法。

4、情感分析:对于每个属性,计算该属性下文本的情感得分,可以使用情感词典或者情感分类器等方法进行情感分析。

近年来,微博已经成为全球最受欢迎的网络应用之一,微博的快速发展使其显示出了巨大的社会价值和商业价值,人们逐渐习惯在以微博为代表的社交网络上获取、交流信息与表达情感。文本情感倾向性分析主要关注以文本方式存在的信息中的情感倾向,当庞大的数据量使得它无法手动对它们进行分析时,情感分析就开始发挥作用了。情感分析在英文世界一直是一个被广泛研究的领域,而中文情感分析的研究仍处于起步阶段,大部分工作已通过尝试被证明是适用于英文的。 首先,本文总结分析了文本倾向性分析的基本概念与算法模型,在此基础上,将心理学中的PAD情感模型引入,结合知网提供的语义相似度计算方法,提出了一种使用给定基础情感词汇与其对应PAD值计算词汇的PAD值的方法,并以此构建了一个基于PAD情感模型的情感词典。其次,本文将问题扩展到中文的文本倾向性分析研究中,提出了一种结合统计信息与语义信息的权重计算方法,通过该方法,在一定程度上消除特征歧义对于分类器的影响,使得特征的权重更贴合文本的语义,分类的效果更好。最后,本文综合中文微博文本分析研究现状,分析了现有的文本表示模型,结合机器学习中的支持向量机算法,提出了基于PAD情感语义特征的支持向量机分类方法。 实验结果表明,基于支持向量机的分类算法的效果好于k最近邻节点算法的效果。同时,本文提出的基于PAD情感语义特征的支持向量机分类方法都能够取得比较实用的效果,并对普通的支持向量机方法效果有着显著的改进。

LSA的正确读法是“LS-A”,表示潜在语义分析(Latent Semantic Analysis),是一种基于线性代数方法的文本分析技术。

LSA模型可以将大量文本数据转化为矩阵形式,便于进一步计算和分析,并且可以处理词义相似但表述不同的情况。

LSA模型的核心思想是将文本中的单词映射到一个高维向量空间中,并通过计算向量之间的相似性来刻画文本之间的关系。LSA通常用于自然语言处理领域中的文本分类、信息检索、文档摘要等任务,可以有效地提高这些任务的准确性和效率。

LSA模型的实现过程包括构建文档-词项矩阵、对矩阵进行奇异值分解计算、选择主题个数进行降维和计算相似度等步骤。LSA模型具有较好的稀疏性和高效性,在处理大规模文本数据时表现优异。

然而,LSA模型也存在一些问题,如对于词语的多义性和歧义性处理不足、无法考虑上下文信息等。因此,近年来更加复杂的基于深度学习的文本分析方法也逐渐得到应用,但LSA模型的基本思想和相关技术仍具有重要的研究价值。

LSA模型中的关键步骤是矩阵分解和主题提取。在矩阵分解过程中,LSA使用奇异值分解(SVD)算法对文档-词项矩阵进行分解,得到三个矩阵,分别代表文档、词项以及主题。在主题提取阶段,LSA将矩阵进行降维处理,保留与主题相关的重要信息。通过这些步骤,LSA模型可以对文本进行向量表示,并计算向量之间的相似性,从而实现文本分类、信息检索等任务。

LSA模型的应用范围非常广泛,其中最为典型的就是文本分类和信息检索。在文本分类方面,LSA模型可以将文本数据转化为向量形式,并使用机器学习算法进行分类,例如朴素贝叶斯分类器、支持向量机等。在信息检索方面,LSA模型通常使用余弦相似度计算查询向量和文档向量之间的相似度,从而找到最匹配的文档。

除了文本分类和信息检索外,LSA模型还可以应用于文档摘要、情感分析等领域。在文档摘要方面,LSA模型可以提取文档中的关键主题,并根据主题的重要程度对文档进行摘要;在情感分析方面,LSA模型可以通过分析大量文本数据中的情感词汇和语义关系等信息,自动生成情感分类器。

总之,LSA模型是一种基于线性代数方法的文本分析技术,可以对文本进行矩阵化表示,实现文本分类、信息检索、文档摘要、情感分析等多种任务。虽然该模型也存在一些问题,但其核心思想和技术仍具有很高的研究价值。

监督学习

目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

基于规则/无监督学习

和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN

先说大数据时代舆情数量庞大,来源众多,网站信源也很多。舆情情感分析单纯依靠人工数据难以量化,工程量大,借助舆情分析平台是不错的选择。

西盈舆情分析系统可以实现以下功能:

1、可以做到对舆情信息的分类研判(包括舆情的热点、负面、地域等)、及时预警、科学的分析(时间节点分析、图表分析、报告分析等)以及辅助建立预警机制,提供科学的决策依据。企业购买舆情监测系统已经是常态了,很多舆情危机的出现都会读直接影响企业的形象、经济利益、产品的推广等等。

2、内置数据模型知识库(数据分析方法库),由若干成熟的模型(数据算法)(维稳、治安、环保、交通运输、医疗、教育、卫生等)的代码和技术文档构成,并能够进行模型的拼接,引入和相互无缝引用。

3、实时显示分析引擎领域、属性、项目、日志、入库和统计图表信息,异常情况系统发出警示。实时显示目前系统运行详细日志,包括任务运行时间、文本处理时间、入库情况、知识库匹配情况、引擎数据库状态等。

本文可以学习到以下内容:

数据及源码地址: https://giteecom/myrensheng/data_analysis

小凡,用户对耳机商品的评论信息,你有没有什么好的办法分析一下?经理来向小凡请教问题。

嗯,小凡想了一会儿

我想到了两种分析方法:

经理听完,甚是欣慰,便让小凡着手分析用户的评论数据。

数据解释:

小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别积极1,消极0

一、window10+anaconda3的安装命令:

二、安装预训练模型应用工具 PaddleHub

可以看到,大约 60% 的用户给出好评

用户的评论内容多集中在配置、音质等主题上

这里使用百度飞浆的LAC分词模型

分析结束后,小凡总结出以下结论:

小凡将结论汇报给经理,和经理一起想出一个可行的方案解决目前存在的问题。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/938447.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-11
下一篇2023-07-11

发表评论

登录后才能评论

评论列表(0条)

    保存