情感分析 词云分析 词频分析 聚类分析中可以通过文本分析技术实现的是?

情感分析 词云分析 词频分析 聚类分析中可以通过文本分析技术实现的是?,第1张

情感分析、词云分析、词频分析和聚类分析中,可以通过文本分析技术实现的是:

1 情感分析:通过对文本进行情感分类,判断其中表达的情绪或情感倾向,如正面、负面或中性情感。

2 词云分析:通过对文本中词语的频率进行统计和可视化,生成词云图,以展示文本中重要或常见的关键词。

3 词频分析:通过计算文本中不同词语的出现频率,确定其在文本中的重要性或热度,并展示出现频率较高的词语。

4 聚类分析:通过将文本按照其相似性进行分组或聚类,将具有相似主题、内容或特征的文本归为一类,以揭示文本数据的结构和相关性。

这些技术都是通过对文本进行分析和处理,提取出文本的特征或信息,并进行进一步的处理和可视化,以帮助理解文本的含义、趋势或关联性。

本次实验将继续加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据研究不同粒度的用户评价处理对深度情感分析模型的性能的影响,并比较字符级模型在用户评价情感极性推理上的差异。

使用 Pandas 加载已经标注好的在线用户评论情感数据表格,并查看数据维度和前 5 行数据。

加载民宿评论数据,并打印第一行。

数据属性如下表所示

用户评论分词

jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,并打印第一行数据,处理过程需要一些时间。

将用户评论处理成字符级别,为字符级模型提供训练集,并打印第一行数据,此预处理速度远远快于分词速度。

TextCNN 使用的卷积神经网络是一个典型的空间上的深度神经网络,基于卷积神经网络的情感分析具有优秀的特征抽取能力,能显著降低情感分类中人工抽取特征的难度。这类方法又根据文本嵌入粒度的不同可以分为字符级嵌入和词嵌入两种,一种是以分词后的词为情感分析粒度,另一种为字符级粒度的情感分析粒度,最后一层将包含全文潜在信息的最终编码送入 Sigmoid 做情感强度计算,即可对用户评论进行情感极性推理,是目前在文本分类经常使用的模型。

词级别模型训练

按照训练集 8 成和测试集 2 成的比例对数据集进行划分。

词级 TextCNN 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,并对指标收集,包含:模型的训练时间、accuracy_score 表示被正确预测的样本占总样本的比例、f1_score 值表示精确率与召回率的调和平均数和模型标签。

对训练的模型进行加载,并打印网络结构。

设置固定划分数据集,划分比例为 02 即训练集是测试集的 4 倍量。

字符级别模型训练

字符级 TextCNN 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对字符级 TextCNN 的预测结果进行收集。

GRU 属于 RNN(recurrent neural networks,循环神经网络),是 LSTM 最流行的一个变体,比 LSTM 模型要简单,GRU 的门控单元减少了一个,GRU 与 LSTM 一样都是旨在解决标准 RNN 中出现的梯度消失问题,GRU 比 LSTM 在减少了计算量的条件下,做到了精度与 LSTM 持平,是目前在文本分类经常使用的模型。

我们使用函数定义的方式进行 GRU 模型的初始化。

对训练的模型进行加载,并打印网络结构。

词级别模型训练

词级 GRU 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对训练的模型进行加载,并打印网络结构。

字符级别模型训练

将处理好的用户评论数据进行字符级处理即可输入字符级 GRU 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对字符级 GRU 的测试集预测性能进行记录。

模型性能分析

通过控制参数变量的方式进行,并使用同样的数据集合观察性能指数测试结果。字符级能使用较小的字符级词典对语料的覆盖度更高,字符级预处理在测试集上的表现基本接近词级模型,并从耗时来看字符级都是最少的。TextCNN 架构总体高于 GRU 的准确度和综合值,并且训练时间相对较短。字符级语言建模的思想来自于信号处理,使用语言最小的文字单元去模拟复杂的语义关系,因为我们相信模型可以捕捉到这些语法和单词语义信息,在后续我们继续使用这种方式。

对用户评论数据预处理

对用户评论进行字符向量化。

情感极性推理

使用训练好的字符级 TextCNN 对用户评论进行情感预测,需要一些时间,请耐心等待。

使用训练好的字符级 GRU 对用户评论进行情感预测,需要一些时间,请耐心等待。

情感极性推理结果可视化

将两种字符级神经网络情感极性推理模型的结果取出来。

对全量的用户评论分别使用两个模型进行情感极性预测,并进行可视化,我们发现两种模型在全量的用户评论上的表现基本一致,字符级 TextCNN 在用户两极情感极性上表现更好。

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为05,明显不符合

2)s = SnowNLP(“ ”join(jiebaanalysetextrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于05,但实际为088,去掉“苏宁易购”则为06>

很多人并不了解情感分析师到底是个怎样的职业,包括,某些自称是情感分析师的人。感情,是人类思维中最复杂的领域。因为感情没有标准,也难分对与错,只有爱与不爱。所以,很多只做对事的人,也有可能被所爱之人厌烦离弃;而有些常做错事的人,也照样有可能让人爱得难分难舍。

正是基于感情的复杂性,是不可能三言两语说得清的。所以,我的分析流程与绝大多数的情感分析师不同。对于首次咨询,我要求咨询者必须提供五千字以上的情况综述。综述包括个人成长经历、求学经历、工作经历、恋爱经历、家庭背景、直系亲属关系、婚恋对象情况、完整的感情发展过程、双方的原话对话记录、以及两性生活等各方面的信息。

有人可能觉得,这简直是查户口嘛。这么说还真没错,我所想要了解的信息,可能比户籍警所要了解的还细致。也为此婉拒过不少懒得写、或者写不了情况综述的咨询者。原因有三:

一、我个人认为,若一个遭遇感情难题的人,连写五千字的耐心都没有,那么,我很难相信TA在感情问题的对待上,有足够的意志和决心;又或是连写五千字的能力都没有的人,那么,我很难相信TA在相互交流的过程中,有足够的感悟力和理解力。

二、之所以先看写的,而不是去听说的,是因为,如果听,只能听一遍,我还未必记得住;而看文字,可以看几遍、甚至十几遍。这个世界上,在脑袋上画几个圈就能想出绝妙主意的人,就只有动画片里的一休。开国大将粟裕是我军百战百胜的战神,在指挥淮海战役时曾七天七夜未合眼。他在干什么?——看战报、看地图。从某种意义上讲,战争,就是两方指挥官的心理博弈,只有掌握详细和精准的战场信息,准确的分析出对战方的真实意图,自己才能做出最正确的应对。不仅是战场如此,无论在商场、职场、还是情场,概莫如此。

有足够的信息量支撑,才叫分析、推理;没有信息量支撑,那不叫分析,而是猜测、臆想。

三、感情里的很多细节需要换位思考,是要以当事人的性别、性格、思维、行事方式去思考问题。感情中的问题,其实不是事的问题,而是人的问题。只有先了解人,才有资格讨论事。

可能不少人看过我在知乎上的答复,对于公开咨询的,我并不会追问详情,答复都是从大众角度给出的。而私密分析不同,需要从感情双方的个体角度,分析具体到个人的性格、思维以及心理,而不是泛泛的男性心理、女性心理。

我常说一句话:没有任何一种方法可以解决百家问题,哪怕,是相同的问题。因为每段感情里,双方的性格对位都是不同的。什么是性格对位呢?打个俗气的比方。比如,诸葛亮的空城计,就只能由他用在司马懿身上。因为诸葛亮知道司马懿多疑,而司马懿知道诸葛亮多谋,如此,空城计才能有效。倘若是司马懿对着张飞用空城计会是什么结果?——城必破。因为以张飞鲁莽的性格,他才不管你城中有多少兵,先攻了再说。这,就是性格对位。

感情中亦是如此,在别种性格的人那里是解决问题的好方法,但未必到我们这里同样有效。

有些人以为情感分析师是份很轻松的工作,只要凭经验就能张口即来为咨询者提供建议。我不知道别人轻不轻松,我只知道自己的工作没那么轻松。经常会收到咨询者上万字的情况综述,还有少则几千、多则几万条微信、QQ等对话记录。单只是完整的看一遍,有的就需要花四五个小时,再加上思考分析的时间,往往合计是个小时以上。

读到这里,估计有不少人会感叹:你的情感分析,为何如此麻烦。

是的,很麻烦。连我本人都觉得麻烦。但真正的情感分析,原本就是个很费脑力的工作。

如果我们对自己过去所经历的事都没有一个清晰的认知,那么,我们有何资本谈掌控未来?如果我们不能转变原有的那种使自己陷入问题之中的思维,那么,我们凭什么能获得与之前不一样的结果?

我也不愿意给自己找麻烦,但深知,作为情感分析师,就需要对自己的分析负责,因为,给咨询者的每一个建议,都有可能改变其一生的感情生活轨迹。更有甚者,是生与死。

一定会有人觉得这是危言耸听。我说一个真实的事件:有一个刚入行不久的心理咨询师,在某论坛讲述自己遇到的心理咨询个案,一个女孩为情所伤,向他寻求帮助,在咨询的过程中女孩就有透露自己想要轻生的念头。这位年轻的咨询师天天安慰她,但数日之后,女孩还是选择了离开这个世界。事后还有警察登门做调查,因为女孩最后几个通话记录里有他的电话号码。然后他给警察看了与该女孩QQ里的咨询对话记录。自然,他并没有嫌疑。但他还是为此感到痛心与难过。

有人留言安慰这个年轻的咨询师:“你好心帮她,已经很尽力了,她一心求死,这不是你的责任。”

看这位咨询师的叙述,能从其行文中感觉出他是个很善良的人,所以他才会为女孩的离世深感痛心。这样一位好心人,我自然不会发言增加他的自责心理。但今天在自己的文章中,我想说是:单有好心是不行的。正是因为这位年轻咨询师的好心,断送了女孩最后的求生机会。

该女孩在结束生命之前,还肯找心理咨询师寻求心理疏导,说明她去意不绝,说明她也想摆脱这种轻生的想法。这求生与求死,就在一念之间。当一个咨询师,连咨询者的真实心理都摸不清,单只是积极安慰有何用?若是说不到当事人的心里,那么说再多正确的话、再多有理的话,也统统都是废话!一个咨询师若不能懂得咨询者的心理,那么,早早劝其求助资深咨询师,便是对咨询者最大的负责。

在我书中的序言里有一句话:作为一名情感咨询师,如果无法做到与咨询者感同身受,那便是不合适这个职业的。

关于情感分析文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断回答如下:

情感分析,文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断如下情感分析、文本相似性和语句推断都是中文自然语言处理中的常见任务,需要进行语句关系判断。

其中,分词是中文自然语言处理中的基础步骤,可以将句子切分成有意义的词语,为后续任务提供基础。

在情感分析任务中,需要对文本的情感进行分类,通常采用机器学习算法,对文本进行特征提取和分类。文本相似性任务是指比较两个文本之间的相似度,通常采用词向量模型进行特征提取和相似度计算。

语句推断任务是指给定前提和假设,判断假设是否可以从前提中推出,通常需要进行逻辑推理和语义理解。这些任务都需要进行语句关系判断,对中文自然语言处理具有重要意义。

资料扩展:

情感分析是指通过文本来挖掘人们对于产品、服务、组织、个人、事件等的观点、情感倾向、态度等。情感分析是随着互联网发展而产生的,早期主要用于对网上销售商品的用户评语的分析,

以便判断用户对其所购商品是“喜欢”还是“不喜欢”。后期随着自媒体的流行,情感分析技术更多地用于识别话题发起者、参与者的情感趋向,

从中判断或挖掘话题中的价值,由此来分析相关舆情。情感分析的应用十分广泛,其研究领域涉及自然语言处理、信息检索、机器学习、人工智能等。

领域依赖是指文本情感分析的模型对某一领域的文本数据非常有效,但是将其应用于其他领域的时候,会使得分类模型的性能严重下降。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/767194.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-09
下一篇2023-07-09

发表评论

登录后才能评论

评论列表(0条)

    保存