以下以语义特征为例:
机器学习基于语义特征的情感分析
基于语义特征的情感分析先人已有研究,可以通过情感词典匹配来做,但是应用机器学习在这方面会使精确度更高些。
以本人参与的一个项目为主,总结下相关技术点。
背景是:分析用户评论感情色彩是积极还是消极,即是褒还是贬。
具体步骤为:
1有监督的人工给文本标注类标签。如有5000条评论数据,我们给其中的1000条标为积极的,再选1000条标为消极的,积极和消极就是所谓的类标签。
2选择特征。从积极的评论数据中按词来选择积极的所有特征。同理,从消极的评论数据中按词来选择消极的所有特征。如“这款游戏非常好玩”->”这款”->“游戏”->”非常”->”好玩”,分为四个特征词,也可以采用双词搭配,“这个游戏”和“非常好玩”作为特征。
3特征降维,减少特征的数量。如上“这个游戏非常好玩”中的“这个游戏”没有必要作为特征,因为“好玩”或“非常好玩”已经决定了评论是积极的。
4将语料文本变成使用特征表示。
5统计所有特征出现的次数,并按倒序排序。
6从以上结果中选出排序最靠前的一些特征作为最终的评判特征。
7使用训练数据根据特征训练分类算法,得到分类器。
8用测试数据检测分类器的准确度。
我们将数据分为两部分:开发集、测试集。用开发集的数据训练分类算法得到分类器;再用分类器对测试集里的数据进行分类,给出分类预测得到的标签;对比分类标签和人工标注得到的标签的差异,计算出准确度。
情感需要分析吗?
当然要。情感既然能控制人的行为,那么必然会产生各式各样的行为结果。或对或错,或好或坏。问题的关键就在于,人往往却无法确定受情感支配的行为是否是可选择的唯一途径。那么,在大脑产生情感思维活动后,形成一种潜在的模式前,能否找到一个正确的处理方法呢?这就是为什么要进行情感分析的原因了。
情感的范畴很宽泛,爱情,亲情,友情等。本分析师才疏学浅,不能面面俱到。也就是地说:只针对,剖析一部分人群困惑,迷茫的情感问题。目的只有一个:通过分析,剖析问题,找出原因,提供建议,希望能对痛苦,迷茫,犹豫,徘徊,挣扎在情感漩涡中的朋友们有所帮助。
情感分析师不是万能的。只是一根火柴的作用,点亮心灯。至于路怎么走,全靠自己了。
人工智能产品的定义较为广泛,智能硬件、机器人、芯片、语音助手等都可以叫做人工智能产品。本文讨论的人工智能产品主要是指在互联网产品中运用人工智能技术。
互联网产品主要着手与解决用户的痛点,对于C端产品来说,痛点就是指的个人想解决而无法解决的问题,如个人想要美化自己的照片,但是他不会复杂的PS软件,于是美图秀秀就可以解决这个痛点。从KANO模型中,就是满足用户的基本需求与期望需求。
人工智能产品(在互联网产品中运用人工智能技术)则是要满足用户的兴奋需求。如将情感分析运用到电商的产品评论中,用户则可以通过可视化的数据展示来大致对产品有个全面、直观的了解,而不再需要自己一页一页的翻看评论内容。
互联网产品主要关注点在于用户需求、流程设计、交互设计、商业模式等。着眼于用户需求,设计满足用户需求的产品,通过合理的流程设计、交互设计达到产品目标,进而实现商业目标。典型的思路是发现用户需求——>设计满足用户需求的产品——>迭代完善、产品运营——>商业变现。
人工智能产品关注点在于模型的构建,它不再是对于布局、交互的推敲,而是通过选择合适的数据,构建合适的模型,最终呈现出来的是好的效果。什么是好的效果呢?这就需要引入评测指标。互联网的评测指标有我们熟知的留存率、转化率、日活跃等,那么人工智能的产品主要是通过一些统计指标来描述,以情感分析为例,把情感分析看成一个分类问题,则可以使用P、R、A、F值来描述。
1)查准率(Precision):P值,衡量某类分类中识别正确的比例,如情感分析中,有10条被分类为“正向”,其中8条是分类正确的(由人工审核),那么P=8/10=80%
2)查全率(Recall):R值,又叫查全率,又叫召回度,指的是某类被被正确分类的比例,同样以情感分析为例,100条数据中有10条是正向的,机器分类后,这10条中有7条被分类为正向,则R=7/10=70%
3)F值,因为P值和R值通常是两个相互矛盾的指标,即一个越高另一个越低,F则是两者综合考虑的指标,不考虑调节P、R权重的情况下,F=2PR/(P+R)
4)精确度(Accuracy):这个最好理解,就是被准确分类的比例,也就是正确率。如100条数据,90条是被正确分类的,则A=90/100=90%。
以上指标越高,说明模型效果越好。
我们从上面内容可以知道,人工智能产品设计关注:数据——>模型——>效果评估。
现在我们以情感分析为例子说明产品设计的过程。
1)数据:
数据的选择对最终模型的结果有直接影响,情感分析,根据不同的目的,选择的数据也不同。如将情感分析运用于**票房预测,则一些更新及时、内容丰富的数据源,如微博,是比较好的选择。如果是应用于商品的评价,如电子产品,很多评测内容是无法在短短几句话内描述清楚的,这时候微博不是个好的选择,选择论坛上更新较慢、但是详细的内容就比较适合。
如果能在产品的早期就有引入人工智能的打算,则可以在产品中事先做好数据采集。
2)模型:
在选择模型中,产品需要了解不同的模型的优缺点,进而选择更加合适的模型。在情感分析中,NB、SVM、N-gram都是常用的模型,其中SVM效果最好(这是已有的结论),如果是其他的智能产品,可能需要算法团队进行实验,给出测试数据,进而选择合适的模型。
3)效果评估:
效果评估在上文中已经描述得比较清楚,具体指标不再赘述。
4)产品呈现:
最后这一步,是将结果展示给用户。在情感分析中,我们可以选择雷达图、词云、情感趋势图来展示结果。取决于产品属性,如电商产品评论挖掘,可以使用词云;
如舆论分析,可以使用情感趋势图。
人工智能产品的设计要关注:数据、模型、评判、呈现。
可以用
,这个是情感计算工具,提供了自定义词表,领域情感词表导入、基础情感词表、情感计算、分段情感计算、正面情感、负面情感、中性情感分类计算、汇总、细粒度情感值、异常文本识别、情感分类排行。1,我觉得你操之过急。第一次见面就说关系能不能改变啊,放手之类的,女人嫁老公也是要挑选的,第一次谁敢就凭你的一腔热血就跟了你啊~还有放手这类电视剧语言以后就不要使用了,怪矫情的,没准她正拿着你的短信笑话你呢
2,作为一个男人,大气才是你的唯一标准。钱不是衡量你是否优秀的准则,我很喜欢一个词就是陋室王侯,30岁的你也说投资失败,证明你也个有能力的人,有经历的人,我希望你不要在钱上过于纠结,该付的就付的,女人看你的钱也很正常,谁不想嫁个有钱人呢~你要理解
3,对于女人要看淡。天涯何处无芳草,你的那个她也就25,6岁吧,如果更老你大可放心,女人不比男人,年龄越大越尴尬,你想他都这么大了,还没和对象,还要相亲,不是看不起别人,就是别人看不起他吗,这样的眼长上天的要他干嘛;如果更小,你也就随意处处,按照你的描述,她是个很在意钱财的人,你想这么小出来相亲,不为爱不问情,就看钱,目的这么明确,她若真心跟你也就算了,她还就直接拒绝了你,以后跟了你,你也有的苦吃,长痛不如短痛,不如现在就看淡的好。
4,至于那句谢谢你,我想他是有点感动了,但这不能说明什么的,一时的感动和一生的相伴能对等吗?
5关于继续追求,看了上面的话,你还是喜欢她的话,我认为你们可以从朋友做起,你也别发什么短信,我们可以做盆友吗之类的,你就有空约他出来吃个饭,大伙出来玩时叫下她什么,以朋友的方式关怀下之类,显得绅士有礼,关怀细致就可以了,就是日久生情战略,应为你们一见钟情基本不可能了,你要是可以感动她,让她觉的你可以托付基本还可以的吧。但是要多久时间,就不知到了,你年龄也不小了,你看这办,是在不行,就放弃吧。
嗯,就这样,祝你爱情顺利!
微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了34%,达到091。
关键词: 情感分析, 长短期记忆网络, 用户情感倾向
Abstract:
Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 091, with an improvement of 34% over the best baseline method MF-CNN
这是计算机世界的一个尚未开发的前沿:将各种人类情感转化成实实在在的数据。
起源
虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al, 2002)基于监督学习(supervised learning)方法对**评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。Pang et al, 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用**评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。在此之后的大部分都是基于(Pang et al, 2002)的研究。而相对来说,(Turney et al,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)