大数据舆情情感分析,如何提取情感并使用什么样的工具?

大数据舆情情感分析,如何提取情感并使用什么样的工具?,第1张

这是计算机世界的一个尚未开发的前沿:将各种人类情感转化成实实在在的数据。

起源

虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al, 2002)基于监督学习(supervised learning)方法对**评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。Pang et al, 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用**评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。在此之后的大部分都是基于(Pang et al, 2002)的研究。而相对来说,(Turney et al,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了

豆瓣网文本评论的情感分析论文多。因为豆瓣网是一个内容丰富的文化社区,用户在这里可以发表对**、书籍、音乐等内容的评论和评分,这些评论数据对情感分析研究来说是非常有价值的。在学术界和工业界,已经有很多研究者和公司使用豆瓣网的评论数据进行情感分析研究和应用开发。这些研究涵盖了各种情感分析算法和技术,如基于词典的情感分析、基于机器学习的情感分析、基于深度学习的情感分析等。同时,也有很多论文对豆瓣网评论数据进行了情感分析,这些论文主要关注情感分析算法的优化和应用场景的拓展。

既然你已经学到了数据分析,那么基本的语法应该大都知道了吧。

这无非就是筛选数据的问题,先搞清楚什么是“无意义的评论”,它满足什么条件,再遍历评论,如果满足这个“无意义”的条件,那么就删除掉就是了。

百度文心一言是一款基于人工智能技术的短文本情感分析产品,它能够针对输入的短文本,分析出其中蕴含的情感,并给出相应的情感标签和分值。文心一言可以帮助用户更好地理解和处理短文本信息,并为企业提供情感分析类的数据支持,促进决策的准确性和效率。

一、更加准确的情感分析。文心一言不仅能够高度自适应,精准分析自然语言,还能够识别语境,抓住写作的情感、倾向以及沟通目的。采用更先进的算法和技术,让情感识别更为准确可信,提升应用的实用价值。

二、更丰富的应用场景

我期望文心一言能够应用于更广泛的场景,包括但不限于社交媒体、舆情监测、新闻报道、广告营销、客户服务等领域。例如,可以结合社交媒体的实时数据,实现更全面的舆情监测和反馈。还可以为广告商提供更精准的广告投放策略,提高广告投放的效果和ROI。期望文心一言可以通过与其他工具和产品的结合,为更多行业解决情感分析及管理问题。

三、更完善的应用支持

百度文心不停完善产品本身和其应用生态,进一步提高用户体验和应用效果。具体来说,文心一言需要提供更加丰富、灵活的情感分析API,同时为开发者提供更完善的文档和技术支持。

此外,还需要不断完善产品的用户界面和易用性,方便非技术人员使用。根据用户反馈,及时更新算法、修复漏洞,优化集成流程,达到更好的用户体验。

在不断变化的市场环境下,情感分析类技术正在逐渐成为企业决策的重要组成部分。文心一言作为其中的佼佼者之一,必将不懈努力,积极应对市场变化,以先进的技术为基础,为用户和企业提供更加优质的情感分析服务

文本分析其实是一个比较广义的术语,涵盖收集、提取、分析等等各种过程,所以它的用途蛮多的。就拿我所在的公司来说,在科研立项这个场景中,由于之前积累完成的项目多达上千个,每次要做新的科研项目的时候,就得跟之前所有的项目比对查重,防止重复立项,浪费经费。这个工作之前全是靠人力,基本上要一个人花两天时间,后来我司就跟竹间智能合作,用文本分析技术帮忙建立了一套系统,可以针对文档进行智能问答、知识推理、文本审 核、文本比对、文本查重等,能做很多事儿,而以后要启动新项目,只需要上传相关文档,等个十来秒看查重结果就行。

监督学习

目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

基于规则/无监督学习

和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/720386.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-08
下一篇2023-07-08

发表评论

登录后才能评论

评论列表(0条)

    保存