会计会用到文本情感分析吗

会计会用到文本情感分析吗,第1张

是会用到的。在财务与会计领域具有很高的研究价值,因而文本分析(TextualAnalysis)技术正在异军突起,形成一个新的研究领域。所谓文本分析,是指以文本数据为信息来源,运用特定的技术挖掘文本的情绪、可读性、相似度等文本特征,并利用这些特征进行实证研究的技术。然而,早期的自动文本分析技术很不成熟,人工编码的研究方法又不适用于大样本研究,因此,传统的财务与会计研究在相当长的时间内,仍主要局限于利用结构化数据进行研究,文本分析研究并不多见。

情感分析的粒度是指定义情感极性的颗粒度大小,即从哪里开始分析情感。它可以分为句子级情感分析和实体级情感分析。

句子级情感分析是基于单个句子进行分析,通过分析文本中的每一个句子来确定该句子的情感倾向,进而判断整段文本的情感趋势,粒度相对较粗。

实体级情感分析是基于文本中的每一个实体进行情感分析,可以识别句子中对实体的情感色彩,例如对人物、组织、产品等进行情感评价。粒度相对较细。

不同的应用场景和需求,需要精细的情感分析,因此不同的应用和目标,其情感分析的粒度也应该有所区别和调整。

文本分析其实是一个比较广义的术语,涵盖收集、提取、分析等等各种过程,所以它的用途蛮多的。就拿我所在的公司来说,在科研立项这个场景中,由于之前积累完成的项目多达上千个,每次要做新的科研项目的时候,就得跟之前所有的项目比对查重,防止重复立项,浪费经费。这个工作之前全是靠人力,基本上要一个人花两天时间,后来我司就跟竹间智能合作,用文本分析技术帮忙建立了一套系统,可以针对文档进行智能问答、知识推理、文本审 核、文本比对、文本查重等,能做很多事儿,而以后要启动新项目,只需要上传相关文档,等个十来秒看查重结果就行。

<article>

课程地址: https://classcourseraorg/nlp/lecture/31

情感分析 (Sentiment analysis)又可以叫做

意见抽取 (Opinion extraction)

意见挖掘 (Opinion mining)

情感挖掘 (Sentiment mining)

主观分析 (Subjectivity analysis)等等。

引用的论文:

Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86

Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278

另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典:

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例

但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图

可以看出,这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为:

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:

可以看到极性划分的还不错

</article>

</main>

转自csdn

由于语料缺乏,前期若使用到情感分析,建议暂时使用SnowNLP(此模块主要使用淘宝评论语料)做情感挖掘,但不仅仅为单纯调用,需要优化,下面是一些实践思考:

可在此基础上优化,比如文本需要特别处理,除了平常的去停用词外,还可以需要对输入的文本结合词性等进行处理。

下面是一些常识:

一)无情感的词语(如去停用词,去掉语气词,无词性标签的词语)

二)对于文本过长,则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显:

以"发布了头条文章: 《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显 "为例子, 显然该文本为“积极”文本。

1)s = SnowNLP("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")

得分为05,明显不符合

2)s = SnowNLP(“ ”join(jiebaanalysetextrank("发布了头条文章:《5分钟11亿!京东双11场景化产品消费增长明显》 5分钟11亿!京东双11场景化产品消费增长明显")))

而对于文本特别长的,则可以先抽取摘要,再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本,机器学习在语料覆盖上不够,特征上工程处理不当会减分,也没考虑语义等。

为何要考虑语义层面:

以“ 苏宁易购,是谁给你们下架OV的勇气” 中的“ 下架”其实才是中心词(为表达愤怒的文本),但“ 勇气 ”为下架的宾语(其为积极的文本),此句应该结果小于05,但实际为088,去掉“苏宁易购”则为06>

情感分类是与情绪情感有关问题的归类;情感分析是对情感情绪问题的见解与认识。

《计算机科学》 2010年07期

情感分析与认知 李维杰

摘要:分析了情感分析的3个主要步骤,包括文本情感获取与表达、文本情感分类与计算以及文本情感分析的应用。情感分析得到的结论主要是对相关观点的摘要、对相关事件态度的预测或者统计等,但这些结论都没有发挥文本情感在认知中的作用。为了将情感分析应用于认知科学,提出了情感由情感信号和情感实体组成的观点。情感信号主要是指情感的一些形式载体,比如心跳加速、脸红等这些人体内外的某些表现,表达情感的文字、、声音等这类媒体。情感实体主要是指人类对情感形成的一种共识,比如爱、恨、憎恶、高兴、羞愧、嫉妒、内疚、恐惧、焦虑等与人的意识相关联的部分。同时提出了在人工智能中利用情感信息的设想。这对于模拟情感对认知的影响具有一定的意义。

--------粘贴内容,其他未知,抱歉。

  文本分析是将非结构化文本数据转换为有意义的数据进行分析的过程,以度量客户意见、产品评论、反馈,提供搜索工具、情感分析和实体建模,以支持基于事实的决策制定。文本分析使用了许多语言、统计和机器学习技术。文本分析包括从非结构化数据中检索信息,以及对输入文本进行结构化以得出模式和趋势,并对输出数据进行评估和解释的过程。它还包括词汇分析、分类、聚类、模式识别、标签、注释、信息提取、链接和关联分析、可视化和预测分析

  分析从数以百万计的不同的文件和格式的文本数据中,决定出关键字、主题、类别、语义、标签。文本分析这个术语大致等同于文本挖掘。

  文本分析软件解决方案提供工具、服务器、基于分析算法的应用程序、数据挖掘和提取工具,用于将非结构化数据转换为有意义的数据进行分析。输出(提取的实体、事实、关系)通常存储在关系、XML和其他数据仓库应用程序中,以便由其他工具(如商业智能工具或大数据分析或预测分析工具)进行分析。

  大数据分析、数据挖掘和文本分析以及统计数据为业务用户提供了通过发现结构化和非结构化数据中的模式和关系来创建智能预测的功能。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3990837.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-20
下一篇2023-08-20

发表评论

登录后才能评论

评论列表(0条)

    保存