第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。
英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。
但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。
中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。
第二步,就是识别一个句子是积极还是消极,是主观还是客观。
有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。
但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。
如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。
分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。
中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。
另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。
到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。
这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。
这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。
分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。
接下来还可以对比不同产品的评价,并且可视化出来。如图。
这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。
中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。
总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。
AI配对则是基于数据分析的门当户对,任重而道远在于信息的搭配。相干软件足以经过先行企划的提到历史观及性格的踏看,选料有相似思想意识的人匹配酒食征逐。经过AI推而广之配对的可能性,这小半值得终将。根据年华或年薪等格木展开寻找的结果不行有限,AI的交配有何不可突破固定准绳的限定,以兴味、思想意识为基础送交更多的选取。而感兴趣、思想意识等在婚姻中自我也很重要。从这星星点点的话,秉赋很好的现实意义兄液。在贯彻上,透过用户输入的消息、浏览轨迹、操作履历等额数,能可比轻松地奋斗以成。换句话说,技术根本没有什么问题。在本国基本证明了AI交友、AI婚配到最后都是流量配对。Soul、探探、陌陌等酬应软件根据诸如此类大用户的商海,不过成功般配到末了的可能性太低,低到都逊色大街办大婶的媒妁之言。这些软件如今基本都是主播风靡,拉你去看主播,去刷赠物,即使如此怎么约都出不来。广场上高光的都是通统的最好块头女性,胸大《dh06crklpddcn/article/490561html》
《dh06fcmdfhzcn/article/205473html》
《dh06hf718cn/article/298415html》
《dh06xjddlwcn/article/268534html》
《dh06vtzllpzcn/article/157498html》
《dh06recmxoscn/article/805647html》
《dh06neapmecn/article/275180html》
《dh06pbbtlwqcn/article/916238html》
《dh06tellqgfcn/article/530127html》
如何鉴别一家情感咨询机构是否靠谱,向大家推荐几条参考依据。
一:看机构规模、营业执照
一个成熟靠谱的情感救助机构,首先必须具备相应的营业执照,还要观察机构是否拥有公司以及网站实名备案。
二:看专家导师水平
服务用户导师的水平直接决定了挽回爱情的成功率高低,普通咨询机构的导师缺乏实战操作经验,上来就让学员交钱,却不提供任何分析服务。
三:社会监督与媒体监督
一家企业、机构好不好,都不是靠自吹自擂出来的。好的情感咨询机构必须时刻受到社会和媒体的监督。
监督学习
目前,基于监督学习的情感分析仍然是主流,除了(Li et al,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。
基于规则/无监督学习
和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。
跨领域情感分析
跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al,2009)将SCL引入了中文跨领域情感分析中。(Tan2 et al,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的k-NN
情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的**评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。
目前研究主要集中于情感词的正面负面分类,标注语料,情感词的提取等。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)