数据可视化的优点

数据可视化的优点,第1张

数据可视化的优点:

1加强商业信息传递效率

人眼通过视觉和图像比文本和数字更容易吸收和掌握信息。尽管如此,为高级管理人员编制的大多数商业智能报告通常都填充有静态表格和图表,这些表格和图表无法为查看它的人提供生动的信息。相比之下,数据可视化使用户能够接收有关运营和业务条件的大量信息。数据可视化允许决策者查看多维数据集之间的连接,并通过使用热图,地理图和其他丰富的图形表示提供解释数据的新方法。

2快速访问相关业务见解

通过数据可视化,业务组织可以提高他们在需要时查找所需信息的能力,并且比其他公司更高效地完成这些工作。根据最近进行的一项研究,使用可视化数据发现工具的组织,业务经理比仅依靠托管报告和仪表板的人更及时找到信息的可能性高28%。此外,使用可视化数据发现产品的公司中, 48%的商业智能用户能够在没有IT员工帮助的情况下找到所需信息。

3更好地理解运营和业务活动

数据可视化的一个重要优势,是它使用户能够更有效地查看在操作条件和业务性能之间发生的连接。在当今竞争激烈的商业环境中,在数据中找到这些相关性从未如此重要。例如,通过提供业务和运营动态的多角度视图,数据可视化允许高级领导团队了解,最近远程客户呼叫中心的首次联系解决率如何?从而显着影响客户满意度。

4快速识别最新趋势

在这个时代,公司能够收集的有关客户和市场状况的数据,可以为企业领导者提供对新收入和商业机会的洞察力–他们可以从大量的数据中发现机会。使用数据可视化,决策者能够更快地掌握跨多个数据集的客户行为和市场条件的变化。

5准确的客户情感分析

利用数据可视化,公司可以更深入地了解客户情绪和其他数据,从而揭示他们向客户推出新服务的新机遇。这些有用的见解使企业能够采取新的商机,以保持领先于竞争对手。

扩展资料:

数据可视化技术包含以下几个基本概念:

①数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;

②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;

③数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;

④数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

参考资料:

-数据可视化(数据视觉表现形式的科技研究)

本次实验将加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据进行基于集成模型的情感极性模型训练,然后利用模型对主题句进行情感极性推理,最后通过数据聚合可视化得出主题情感极性。

使用 Pandas 加载在线数据表格,并查看数据维度和前 5 行数据。

数据属性如下表所示

加载我们之前通过主题词典提取出来的主题句。

数据属性如下表所示

用户评论分词

jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,需要一些时间,并打印第一行情感极性训练集的分词结果。

批量对用户评价主题句进行分词,并打印第一句用户主题句分词结果。

依据统计学模型假设,假设用户评论中的词语之间相互独立,用户评价中的每一个词语都是一个特征,我们直接使用 TF-IDF 对用户评价提取特征,并对提取特征后的用户评价输入分类模型进行分类,将类别输出为积极的概率作为用户极性映射即可。

用户评论向量化

TF-IDF 是一种用于信息检索与数据挖掘的常用加权技术,当某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,比较适合对用户评论中的关键词进行量化。

数据集合划分

按照训练集 8 成和测试集 2 成的比例对数据集进行划分,并检查划分之后的数据集数量。

我们在系列实验的开始使用朴素贝叶斯模型来训练情感分析模型,下面我们新增逻辑回归模型作为对比模型。逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法,在线性回归的基础上,套用了一个 sigmod 函数,这个函数将线性结果映射到一个概率区间,并且通常以 05 分界线,这就使得数据的分类结果都趋向于在 0 和 1 两端,将用户评论进行向量化之后也可以用此方式预测用户情感。本实验直接对标注过的用户情感数据进行训练,并验证单一模型和集成模型在情感分析性能上的差异。

模型加载

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,利用常用的分类模型评价指标对训练好的模型进行模型评价,accuracy_score 评价被正确预测的样本占总样本的比例,Precision 是衡量模型精确率的指标,它是指模型识别出的文档数与识别的文档总数的比率,衡量的是模型的查准率。Recall 召回率也称为敏感度,它是指模型识别出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率,表示正样本在被正确划分样本中所占的比例,f1_score 值是精确率与召回率的调和平均数,是一个综合性的指数。

我们分别对不同模型使用相同的数据集进行训练和测试,以此来比较单模型之间的差异,并打印模型运行时间供大家参考,批量处理不同的模型需要一些时间进行计算,清耐心等待。

通过求得的指标进行模型评价,我们发现使用相同的数据进行模型训练,朴素贝叶斯模型和逻辑回归模型性能基本持平,相差很微弱,逻辑回归稍稍占一些优势。

Stacking 堆栈模型训练

集成学习是地结合来自两个或多个基本机器学习算法的优势,学习如何最好地结合来自多个性能良好的机器学习模型的预测结果,并作出比集成中的任何一个模型更好的预测。主要分为 Bagging, Boosting 和 Stacking,Stacking 堆栈模型是集成机器学习模型的一种,具体是将训练好的所有基模型对整个训练集进行预测,然后将每个模型输出的预测结果合并为新的特征,并加以训练。主要能降低模型的过拟合风险,提高模型的准确度。

开始对两个模型进行集成训练,训练的时间要比单一模型时间久一些,清耐心等待。

评测结果收集。

结果分析

将结果存入 Dataframe 进行结果分析,lr 表示逻辑回归,nb 表示朴素贝叶斯,model_stacking 将两个单模型集成后的模型。从结果来看集成模型准确度和 f1 值都是最高的,结合两个模型的优势,整体预测性能更好,鲁棒性更好。

样例测试

通过测试样例发现,分类器对正常的积极和消极判断比较好。但是当我们改变语义信息,情感模型则不能进行识别,模型鲁棒性较差。作为早期的文本分类模型,我们使用 TFIDF 的特征提取方式并不能很好的解决语义问题,自然语言是带有语序和语义的关联,其词语之间的关联关系影响整句话的情感极性,后续我们继续试验深度情感分析模型研究解决此类问题。

加载民宿主题数据。

模型预测

将情感分析模型推理的结果写入 DataFrame 中进行聚合。

单主题聚合分析

挑选一个主题进行主题情感分析。

对民宿“设施”进行描述统计,此次我们使用主题词典的出来的用户关于民宿“设施”主体的讨论条数为 4628 条,平均用户情感极性为 040 表示为整体呈现不满意的情况,有超过一半的关于“设施”的民宿评论中表现用户不满意的情况,重庆民宿需要在“设施”进行改善,以此提高用户满意度。

单主题情感极性可视化

我们开始进行“设置”主题下的用户主题情感进行可视化,首先加载画图模块。

对“设施”主题下的用户情感极性进行可视化,我们利用集成模型对主题句进行情感极性预测,如下所示。

在情感分析、词云分析、词频分析和聚类分析中,可以通过文本分析技术实现的是:

1 情感分析:通过对文本进行情感分类,判断其中表达的情绪或情感倾向,如正面、负面或中性情感。

2 词云分析:通过对文本中词语的频率进行统计和可视化,生成词云图,以展示文本中重要或常见的关键词。

3 词频分析:通过计算文本中不同词语的出现频率,确定其在文本中的重要性或热度,并展示出现频率较高的词语。

4 聚类分析:通过将文本按照其相似性进行分组或聚类,将具有相似主题、内容或特征的文本归为一类,以揭示文本数据的结构和相关性。

这些技术都是通过对文本进行分析和处理,提取出文本的特征或信息,并进行进一步的处理和可视化,以帮助理解文本的含义、趋势或关联性。

情感分析可以细分成几个点:

1 主客观

2 观点句提取(评价对象--情感词)

3 情感极性判断

看看你要做的到底是哪个方面?

其中2是难度比较大的,特别是评价对象的提取。

都可以转化为分类问题,2可以参考一下淘宝的。

情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的**评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。

目前研究主要集中于情感词的正面负面分类,标注语料,情感词的提取等。

情感分析(又称为观点挖掘或感情AI)是指使用自然语言处理、文本分析、计算语言学和生物特征识别来系统地识别、提取、量化和研究情感状态和主观信息。情感分析广泛应用于分析客户的心声,如评论和调查回复,在线和社交媒体,以及从市场营销到客户服务再到临床医学的保健材料。

情感分析的一个基本任务是在文档、句子或特征/方面级别对给定文本的极性进行分类,判断在文档、句子或实体特征/方面中表达的意见是积极的、消极的还是中性的。高级的“超越极性”情感分类着眼于诸如“愤怒”、“悲伤”和“快乐”等情绪状态。

进行情感分析的先驱包括“一般询问者”(General Inquirer),它提供了量化文本模式的线索,另外,还提供了基于对人的言语行为进行分析来检查一个人的心理状态的心理学研究。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7678089.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-07
下一篇2023-09-07

发表评论

登录后才能评论

评论列表(0条)

    保存