NLP在旅游情感分析的应用?

NLP在旅游情感分析的应用?,第1张

<article>

课程地址: https://classcourseraorg/nlp/lecture/31

情感分析 (Sentiment analysis)又可以叫做

意见抽取 (Opinion extraction)

意见挖掘 (Opinion mining)

情感挖掘 (Sentiment mining)

主观分析 (Subjectivity analysis)等等。

引用的论文:

Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan 2002 Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP-2002, 79—86

Bo Pang and Lillian Lee 2004 A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts ACL, 271-278

另外需注意,Binarized (Boolean feature) Multinomial Naïve Bayes不同于Multivariate Bernoulli Naïve Bayes,MBNB在文本情感分析上的效果并不好。另外课中也提到可以用交叉验证的方式进行训练验证。

下面罗列了一些比较流行的词典:

当我们拿到一个词我们如何判断他在每个类别中出现的概率呢?以IMDB影评为例

但是!我们不能用单纯的原始计数(raw counts)方法来进行打分,如下图

可以看出,这些否定词同样可以作为单词极性的一个判断依据。

具体步骤为:

联合概率 / 独立的两个概率乘积

之后我们可以看一下统计结果,分别来自于用户好评和差评的统计:

可以看到极性划分的还不错

</article>

</main>

转自csdn

关于情感分析文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断回答如下:

情感分析,文本相似性和语句推断等都属于常见中文分词应用中的语句关系判断如下情感分析、文本相似性和语句推断都是中文自然语言处理中的常见任务,需要进行语句关系判断。

其中,分词是中文自然语言处理中的基础步骤,可以将句子切分成有意义的词语,为后续任务提供基础。

在情感分析任务中,需要对文本的情感进行分类,通常采用机器学习算法,对文本进行特征提取和分类。文本相似性任务是指比较两个文本之间的相似度,通常采用词向量模型进行特征提取和相似度计算。

语句推断任务是指给定前提和假设,判断假设是否可以从前提中推出,通常需要进行逻辑推理和语义理解。这些任务都需要进行语句关系判断,对中文自然语言处理具有重要意义。

资料扩展:

情感分析是指通过文本来挖掘人们对于产品、服务、组织、个人、事件等的观点、情感倾向、态度等。情感分析是随着互联网发展而产生的,早期主要用于对网上销售商品的用户评语的分析,

以便判断用户对其所购商品是“喜欢”还是“不喜欢”。后期随着自媒体的流行,情感分析技术更多地用于识别话题发起者、参与者的情感趋向,

从中判断或挖掘话题中的价值,由此来分析相关舆情。情感分析的应用十分广泛,其研究领域涉及自然语言处理、信息检索、机器学习、人工智能等。

领域依赖是指文本情感分析的模型对某一领域的文本数据非常有效,但是将其应用于其他领域的时候,会使得分类模型的性能严重下降。

归一化比较简单,因为得出的特征向量之和不一定是1,所以要将特征向量分别除以这几个向量之和,重新得出的数就是权重向量。比如:你得到的特征向量为(0

0

0

),它们的和是0,并不是1,所以要对其进行归一化处理。分别用0/0

;

0/0

;

0/0

。然后四舍五入,最后得出的数为(0

0

0),这些数值的和为1,所以叫归一化处理。

1术语文档矩阵(ATermDocumentMatrix):是一个需要进一步分析的结果集。例如,购买了产品的客户A的购买频率如何,与未购买产品客户B有何区别。我们需要对术语进行排序,以便基于它们的信号强度建模。这些术语的存在和频率可以用数字显示在建模数据集,并直接并入最佳预测模型。这种“语义评分卡”是传统评分卡辅以非结构化信息(按属性将数据进行分类,并分配权重)。可进行复杂的数据运算,以确定哪些属于信号最强、哪些特定术语应进行组合以从原文中识别出较大的概念。

2命名实体识别(NamedEntityExtraction,NEE):基于自然语言处理,借鉴了计算机科学、人工智能和语言学等学科,可以确定哪些部分可能代表如人、地点、组织、职称、产品、货币金额、百分比、日期和事件等实体。NEE算法为每个标识的实体生成一个分数,该分数表明识别正确的概率。我们可以视情况设定一个阈值,来达到我们的目的。

3文档主题生成模型(LatentDirichletAllocation,LDA):主要用于监测客户行为变化,它可以发现数据的相似性以便进行分类和分组。LDA使用统计算法从非结构化数据抽取主题、概念和其他含义,它不理解语法或者人类语言,而只是寻找模式。任何数量、类型非结构化的、半结构化和结构化源数据都可以应用LDA监测模式来进行分析。

这种技术通常用于营销分析,针对提供存款、取款和购买行为的客户提取原型。如:银行可借助分析发现一些消费者虽然时常出差,但是忠诚度很高,这些客户往往会与客服代表沟通由于出差而错过还款的事由,并避免滞纳金。这样的分析可以帮助银行了解如何重视客户、降低客户流失率、提高客户忠诚度。再如:LDA分析还可以快速、方便地应用和更新消费者相关信息,可以判断消费者的最新行为是否与他们的历史行为一致,如果消费者有不同寻常的事情发生,或者行为与他们现有的文件不一致,系统可以发出警示。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/7571685.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-09-06
下一篇2023-09-06

发表评论

登录后才能评论

评论列表(0条)

    保存