般都会采用机器学习的算法,要求有训练数据和测试数据。处理训练数据得到一个model,使用它来处理测试数据,得出每个测试样例的结果。这里有几个细节需要注意:测试数据和训练数据尽量要是同一个主题,不要相差太远,不然会降低训练处的model的适用效果;训练数据中正例和负例的比例要尽可能平衡。
主要的处理过程为:文本预处理,文本分词和提取特征,训练model,应用至测试数据并调整参数以提高效果,效果评测。
情感分析(Sentiment Analysis)
第一步,就是确定一个词是积极还是消极,是主观还是客观。这一步主要依靠词典。
英文已经有伟大词典资源:SentiWordNet 无论积极消极、主观客观,还有词语的情感强度值都一并拿下。
但在中文领域,判断积极和消极已经有不少词典资源,如Hownet,NTUSD但用过这些词典就知道,效果实在是不咋滴(最近还发现了大连理工发布的情感词汇本体库,不过没用过,不好评价)。中文这方面的开源真心不够英文的做得细致有效。而中文识别主客观,那真的是不能直视。
中文领域难度在于:词典资源质量不高,不细致。另外缺乏主客观词典。
第二步,就是识别一个句子是积极还是消极,是主观还是客观。
有词典的时候,好办。直接去匹配看一个句子有什么词典里面的词,然后加总就可以计算出句子的情感分值。
但由于不同领域有不同的情感词,比如看上面的例子,“蓝屏”这个词一般不会出现在情感词典之中,但这个词明显表达了不满的情绪。因此需要另外根据具体领域构建针对性的情感词典。
如果不那么麻烦,就可以用有监督的机器学习方法。把一堆评论扔到一个算法里面训练,训练得到分类器之后就可以把评论分成积极消极、主观客观了。
分成积极和消极也好办,还是上面那个例子。5颗星的评论一般来说是积极的,1到2颗星的评论一般是消极的,这样就可以不用人工标注,直接进行训练。但主客观就不行了,一般主客观还是需要人来判断。加上中文主客观词典不给力,这就让机器学习判断主客观更为困难。
中文领域的难度:还是词典太差。还有就是用机器学习方法判断主客观非常麻烦,一般需要人工标注。
另外中文也有找到过资源,比如这个用Python编写的类库:SnowNLP 就可以计算一句话的积极和消极情感值。但我没用过,具体效果不清楚。
到了第三步,情感挖掘就升级到意见挖掘(Opinion Mining)了。
这一步需要从评论中找出产品的属性。拿手机来说,屏幕、电池、售后等都是它的属性。到这一步就要看评论是如何评价这些属性的。比如说“屏幕不错”,这就是积极的。“电池一天都不够就用完了,坑爹啊”,这就是消极的,而且强度很大。
这就需要在情感分析的基础上,先挖掘出产品的属性,再分析对应属性的情感。
分析完每一条评论的所有属性的情感后,就可以汇总起来,形成消费者对一款产品各个部分的评价。
接下来还可以对比不同产品的评价,并且可视化出来。如图。
这一步的主要在于准确挖掘产品属性(一般用关联规则),并准确分析对应的情感倾向和情感强度。因此这需要情感分析作为基础。首先要找到评论里面的主观句子,再找主观句子里的产品属性,再计算属性对应的情感分。所以前面基础不牢固,后面要准确分析就有难度。
中文这个领域的研究其实很完善了,技术也很成熟。但需要完善前期情感分析的准确度。
总的来说,就是中文词典资源不好,工作做得不是很细很准。前期的一些基础不牢固,后面要得到准确的分析效果就不容易了。
通过可爱又具故事性的贴图,Line让用户掏出了越来越多的钱。这个日本即时通讯软件,把表情包当做IP运营、变现,并最终取得了成功。
今年7月14日,日本聊天应用Line在纽约证券交易所挂牌上市。此次IPO,Line共计融资13亿美元,市场估值过70亿美元,成为继阿里巴巴首次公开募股后,全球规模最大的科技IPO。
与中国的微信、韩国的Kakao Talk一样,Line的主要收入有三部分:通讯、内容、广告。然而除此之外,他还依靠表情贴纸业务,围绕表情经济,去年共计收入达268亿美元。
有数据显示,在Line每10条发送的消息中,就有一条是表情贴纸。在超级IP成为新风口的当下,围绕着表情包这个爆款,Line是如何让用户心甘情愿掏钱的,这是所有人关心的话题。
表情包是个轻IP,吸粉能力却很重量级
Line在即时通讯软件中起步较晚,2011年6月才正式推向市场,中文名为“连我”。对于大多数国人来说,第一次认识Line,则是靠那个带热了啤酒+炸鸡的2013年大热韩剧《来自星星的你》,剧中千颂伊和都教授的日常联络工具恰恰就是这个Line。尽管它拥有韩流血统,但其年收入的70%来自日本,且将近一半的日本人已经成为Line的用户。
在日本用户看来,Line真正吸引他们的,并非在开通数据流量或连接wifi条件下,可随时随地文字和语音交互的工具性用途,而是应用里面无表情的布朗熊和全能百变的可妮兔。
这其实只是在用户交流中经常用到的表情包功能,相对于自成故事体系的动漫、文学IP来说,仅仅一个原创表情只能算是轻IP。但在Line的运作下,它却成为了一个产业链。
产业链的源头是用户付费下载表情包。布朗熊和可妮兔是由Line官方设计的可爱又特色鲜明的聊天表情图,吸引用户为此付费,与朋友聊天时互发表情贴图。在2015年,仅表情贴图的销售额就占了Line年收入的四分之一,而且月费购买贴图或游戏的用户数量十分稳定,维持在800万人左右。
在过去的通常解读中,对于这一表情包付费的状况,大多会用一句话概括——日本二次元用户有为原创动漫付费的习惯,表情包付费只是小儿科。
仅仅如此?一个事实是,有表情的产品,确实很容易火爆。在Line之前的通讯时代,1995年的日本市场上,运营商NTT曾推出了带有不同表情符号的传呼机,深得年轻人喜爱,这款传呼机此后获得将近40%的市场份额。而到了Line时代,因2011年3月发生了引发福岛核电站泄漏的东日本大地震,因此当年6月才问世的Line借着日本的电信系统基础设施受损严重、很多地方通讯服务中断的机缘,受到日本用户热捧,短短数月即用了有400万用户。但真正的爆发点则是在2011年10月,由于“贴图”功能的加入,两日间便为Line带来了100万用户。
表情包的吸粉能量由此可见一斑,哪怕是付费体验。
卖萌造就刚需,典型亚洲性格传播
注册用户超4亿的Line,如今月度活跃用户约为218亿,其中三分之二来自日本、台湾地区、泰国和印尼。与此同时,Line的用户平均每天发送的包括收费和免费的表情包达到398亿个,占到总共用户聊天内容数据的9%。
造成表情包数据传播如此高企的一个根源在于Line为自己表情包贴上的独特标签——萌贱。尤其是在卖萌文化盛行的日本,Line苦心推出的布朗熊、可妮兔、馒头人等系列表情包可谓“老少通吃”。这样的状况,同样出现在了Line用户高度覆盖的台湾地区、泰国和印尼。
对于表情包的流行,微信表情团队的工作人员就认为:“亚洲国家的社会文化偏保守传统,平时看起来都一本正经,但内心其实很狂野,表情包就是很好的表达情绪的方式。”但在Line看来,这种情绪表达画像还显然不够贴切,更准确来说,在整个亚洲文化圈里,表达情绪最好的方式是通过卖萌且有点贱的样子来呈现,这样才能既狂野,又不失含蓄。尤其是对于平日里习惯端着、压抑和隐藏情感的日本人来说。反之,性格更加外露和激烈的韩国人,就不太热衷于Line。
最能表达这种意味的一个例子应该是 Line 的其中一个标志性卡通角色“Moon”,他在寻找一份新工作的时候跌入了人生的低谷。在银行存款变为零之后,Moon 把自己的家里弄得凌乱不堪,然后通过观看一些色情内容打发时间,甚至尝试和一只蟑螂交朋友。
这本也是以卖萌为重要标签的二次元文化从日本发源并壮大的所在。但如何才能让用户心甘情愿付费呢?仅用日本用户对每套表情包约12元人民币的消费并不介意的说法,显然不足以解释。
IP、迭代和成本,付费的秘密所在
只要稍微观察下Line的表情包,就不难发现一个特点,即除了它自造的一批萌系表情IP外,无论是三丽鸥的 Hello Kitty、懒蛋蛋等日本国民动漫形象,还是迪士尼的《疯狂动物城》、《超能陆战队》,又或者是《海贼王》、《银魂》、《进击的巨人》等当下热门日漫,都能在Line上找到相应的主题贴图。
在知识产权保护严密的日本,这样的超级IP表情包不仅仅具有吸粉的强大功效,同时也能有效地确保独占性下,用户为了更好地使用自己的热爱形象去交流,而心甘情愿的掏腰包付费。
当然,为了让用户能够更好的紧贴潮流,只要一个形象热门,Line就会立刻引入进来,最快的满足用户们的表情需求,这其中恰恰体现除了快速迭代的思维。
你需要的所有表情这里都有卖,而且第一时间送达。这就是Line的表情包销售逻辑。即使没有知识产权保护背书,强IP下制造出来的流行文化,在极其丰富的表情库和快速迭代的流行元素,亦形成了一种“不二家”的效应。
这相对于国内如微信、陌陌的表情包策略有极大的不同,尽管也有如哆啦a梦、忍者神龟等超级IP授权的表情包,但大多只是为了配合上映的大**而进行的商业推广式发布,不可能选择付费模式。
而且微信官方在表情布局上一直缺席,虽然之前有零星的表情开发,但直到2015年5月份才组建表情部门,7月份发布微信表情开放平台,这使得已经运营多年的微信上,整体表情包的数量太过稀少,可供用户的选择面也太低,大多数用户早已习惯使用各种免费、自传播的表情包来表达自己的情感。用户的使用习惯难以逆转,这才是国内即时通讯应用难以复制付费表情路线的关键所在。
据《2015年中国社交应用用户行为研究报告》显示,国内主流社交应用的“站内买商品”等活动提及率仅为266%。而即使是微信与陌陌,表情收入仅分别占各自总收入的84%与188%,原弱于Line。
同时,2013年末,似颜绘表情定制服务正式面世,而与之相关的应用表情me也在2014年正式上线。这款应用的具体规则在于用户拍摄头像,然后凭借前者DIY多种可在微信、QQ上直接运用的表情包。而区别于这种性化表情定制的模式,已聚集了400多个表情创作者、1200多个国内表情形象、20000个左右的国外表情形象的萌岛平台,则将希望寄托在企业,以期通过企业级定制表情包并引发用户自传播,而形成广告营销效果而盈利。但目前看来,这两种模式均未能形成真正的用户引爆,距离收益更加遥远。
付费真相是,12元不是关键,而在于用户获得自己所需时,需要花费的寻找同等水准的免费表情所花费的成本(包括时间成本),高于12元时,用户就会选择付费。
Line成功的达成了这一目标,但这并不是它表情库真正的成功所在。
超级IP实体化,衍生链条才是主战场
Line拥有着丰富的表情库,但最为著名的还是Line friends这一组合形象。按照官方介绍,这一组合主要成员包括大叔、可妮兔、馒头人、布朗熊、詹姆斯、莎利、杰茜卡等7位成员,依托彼此组合成的世界体系。
在表情包中一战成名后,Line并不满足于让这些轻IP仅仅充当一个表情。必须要让超级IP实体化,为此,Line为其开发了一系列的漫画、动画、周边及线下体验店。
日本女性插画家、漫画家kanahei,作为Line上最受欢迎的表情贴图画家中的一员,就是这种衍生体验的受益者,除了每年有可能从至少一个高人气数字贴图系列中获得约3680万日元的收益外,她创作的表情角色,在2016年初,还被游戏开发商United做成了一款名叫《kanahei的萝卜》的手游。
这仅仅是Line各种表情IP实体化的一个小碎片。仅仅在中国,Line friends这一组合不仅在天猫上有印有组合形象的公仔、手机壳、本本、小钱包等产品的周边产品,而且还在上海、大连开设了风格不同的咖啡馆、化妆品店。而在全球,Line friends主题商店共有44家,产品横跨生活、文具、玩具、配饰、时尚、电子产品、医药还有图书等,拥有超过400 个品类7000 款商品。
除此之外,Line还计划开设Line 主题乐园,顾客可以在以Line Friends故事为背景的主题乐园内心情玩耍,浏览景点,欣赏展品,品尝美食,包括多媒体互动、展览、零售、娱乐设备(3D **院)等。在个别城市的政府支持下,Line friends 还将在室外主题公园中融合酒店等不同业务。
这其实是一个Line版的迪士尼式IP衍生产业链打造模式,目前,IP形象付费下载和相关衍生产品收益,已经占据了Line总收入的四成,且衍生品收益也隐然接近占总收入22%的付费下载水准。而这样的IP实体化消费,也将让已经进入营收瓶颈阶段的Line表情包迎来产业增值的“第二战场”。
一个以萌贱表情这样的轻IP,深度吸粉和崛起粉丝经济红利的大蓝海正在展开,一点不弱于漫威式强大故事宇宙下的强IP粉丝体系。
类似这样的表情包衍生产业链,在中国也有所萌芽。根据微信官方公布的数据,2015年11月份,“长草颜文字日常”相关表情发送超过1亿次。虽然发送量惊人,但很遗憾的是,微信表情商店上,长草颜文字的五套表情包均不收费。
尽管是表情使用免费,但已经初具超级IP范式的长草颜文字亦开始探索衍生品和实体化的路线图,其与部分品牌商家合作,将长草颜文字原创形象与线下品牌相结合,为其定制文化创意形象。依据原创形象,还衍生了许多的文化创意产品,涉及到文化家居用品,公仔手办等。甚至,还与湖南卫视的相关娱乐节目达成合作,长期为其提供各种系列表情,配合提升节目的娱乐和趣味性。
与之相似的还有另一国内热门表情包“吾皇万睡”,其也在逐步探索成为漫画、手机主题以及文化创意周边产品的盈利模式。但这些探索,目前都还仅仅处在“小打小闹”的地步。
反之,一个“意外”的文创IP却在中国崛起,早前也通过“卖萌”的方式,让部分文物通过动图走红网络、亦成为社交网络上广泛传播表情包的故宫博物院,就借势以“萌”为设计理念推出了宫廷娃娃、朝珠耳机、皇帝折扇、花翎伞等8683种北京故宫文创产品,且故宫的文创产品销售额也从2013年的6亿元增长到2015年的近10亿元。
而坐拥庞大社交网络的腾讯,亦在这一契机下,于今年7月6日和故宫博物院联合宣布建立合作伙伴关系,以“NEXT IDEA腾讯创新大赛”为平台,以故宫博物院经典IP形象或相关传统文化内容为原型,围绕“表情设计”和“游戏创意”两项赛事开展合作,探索传统文化IP的活化实践。
很显然,这个中国表情包IP之路,将于Line模式同而不同,让表情包这个轻IP,从传统文化层面厚重起来,形成一个完全差异化的“表情体验”……
NLP 是什么?
NLP 是计算机科学领域与 人工智能 领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成:自然语言理解和自然语言生成。
自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。
自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。
NLP 技术基于大数据、知识图谱、 机器学习 、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。
NLP在金融方面
金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。
事件(Event ):在特定时间、特定地点发生的事情。主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。
1 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。
2 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题,即词语在句中的语义,词语对相邻语句的语义等。
3 词向量化什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为100。
4 词性标注
什么是词性标注?简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。
5 命名实体消歧
什么是命名实体消岐?命名实体消岐是对句子中的提到的实体识别的过程。例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。
6 命名实体识别
体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。
7 情感分析
什么是情感分析?情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。
8 语义文本相似度
什么是语义文本相似度分析?语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意,相似性与相关性是不同的。
9语言识别
什么是语言识别?语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。
10 文本摘要
什么是文本摘要?文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。
11评论观点抽取
自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。
11DNN 语言模型
语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。
12依存句法分析
利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。
1、NLTK
一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的 jieba 处理库
2、文本处理流程
大致将文本处理流程分为以下几个步骤:
Normalization
Tokenization
Stop words
Part-of-speech Tagging
Named Entity Recognition
Stemming and Lemmatization
下面是各个流程的具体介绍
Normalization
第一步通常要做就是Normalization。在英文中,所有句子第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。
Tokenization
Token是"符号"的高级表达, 一般值具有某种意义,无法再拆分的符号。在英文自然语言处理中,Tokens通常是单独的词,因此Tokenization就是将每个句子拆分为一系列的词。
Stop Word
Stop Word 是无含义的词,例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义,单停止词是频率非常多的词。 为了减少我们要处理的词汇量,从而降低后续程序的复杂度,需要清除停止词。
Named Entity
Named Entity 一般是名词短语,又来指代某些特定对象、人、或地点 可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前,必须先进行 Tokenization 并进行 PoS Tagging。
Stemming and Lemmatization
为了进一步简化文本数据,我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。
3、Word2vec
Word2vec是一种有效创建词嵌入的方法,它自2013年以来就一直存在。但除了作为词嵌入的方法之外,它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。
### 四、NLP前沿研究方向与算法
1、MultiBERT
2、XLNet
3、bert 模型
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点:
使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;
使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标;
使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了BERT模型,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。
BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
模型结构: 由于模型的构成元素Transformer已经解析过,就不多说了,BERT模型的结构如下图最左:
对比OpenAI GPT(Generative pre-trained transformer),BERT是双向的Transformer block连接;就像单向rnn和双向rnn的区别,直觉上来讲效果会好一些。
优点: BERT是截至2018年10月的最新state of the art模型,通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
缺点: MLM预训练时的mask问题
[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现
每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)
BERT火得一塌糊涂不是没有原因的:
使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文;
11个NLP任务的精度大幅提升足以震惊整个深度学习领域;
无私的开源了多种语言的源码和模型,具有非常高的商业价值。
迁移学习又一次胜利,而且这次是在NLP领域的大胜,狂胜。
BERT算法还有很大的优化空间,例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力,而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成,论文中说的训练需要在64块TPU芯片上训练4天完成,而一块TPU的速度约是目前主流GPU的7-8倍。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)