微博言论往往带有强烈的情感色彩,对微博言论的情感分析是获取用户观点态度的重要方法。许多学者都是将研究的重点集中在句子词性、情感符号以及情感语料库等方面,然而用户自身的情感倾向性并没有受到足够的重视,因此,提出了一种新的微博情感分类方法,其通过建模用户自身的情感标志得分来帮助识别语句的情感特征,具体地讲,将带有情感信息的微博语句词向量序列输入到长短期记忆网络(LSTM),并将LSTM输出的特征表示与用户情感得分进行结合作为全连接层的输入,并通过Softmax层实现了对微博文本的情感极性分类。实验表明,提出的方法UA-LSTM在情感分类任务上的表现超过的所有基准方法,并且比最优的基准方法MF-CNN在F1值上提升了34%,达到091。
关键词: 情感分析, 长短期记忆网络, 用户情感倾向
Abstract:
Micro-blog's speech often has strong sentimental color, and the sentiment analysis of Micro-blog's speech is an important way to get users' opinions and attitudes Many researchers conduct research via focusing on the parts of speech (POS), emotion symbol and emotion corpus This paper proposes a novel method for Micro-blog sentiment analysis, which aims to identify the sentiment features of a text by modeling user sentiment tendency Specifically, we construct a sentiment information embedded word embedding sequence, and input it into a long short term memory (LSTM) model to get a sentiment embedded output representation Then we merge both the user sentiment tendency score and the output representation of LSTM, and use it as the input of a fully connected layer which is followed by a softmax layer to get the final sentiment classification result The experiment shows that the performance of our proposed method UA-LSTM is better than all the baseline methods on the sentimental classification task, and it achieves the F1-score up to 091, with an improvement of 34% over the best baseline method MF-CNN
央广网科技3月31日消息 3月29日晚,在北京当代moma百老汇影城,百度发起了一场“别开生面”的张国荣诞辰60周年纪念活动。
通过抓取张国荣全网音视频数据,百度语音技术团队成功利用“情感语音合成技术”,合成出张国荣生前的声音,并在张国荣最新**《缘分》开场前首次公布对话实录视频,实现了粉丝与偶像“互动”的愿望,以特殊的方式,纪念一代天王。
“13年了, 久等了,辛苦你们。”对话视频中哥哥的声音在影厅中甫一响起,全场瞬间陷入了寂静,直到结尾“永远站在光明的角落,我只希望你们开心快乐的生活”,屏幕上显示出“本视频所涉及张国荣先生语音,均来自百度情感语音合成技术”,全场掌声雷动。
对此,现场有粉丝在事后评价说,“实在是太震撼了,无论音色、语气、吐词,我能分辨出那就是来自哥哥的声音,但它确实来自2016年,来自另一个地方。”
此次活动是由百度数周前在百度贴吧发起,面向所有张国荣粉丝,征集发言和想对哥哥说的话,并评选出10位最具代表性的幸运粉丝,来参与偶像“互动”视频的录制。
在铁杆粉丝们在摄像机前深情倾诉完对哥哥的思念后,百度的工作人员悄悄送上一份“惊喜”——一段“来自哥哥”但又“不是哥哥”的语音回复,从网络流出的视频来看,很多粉丝很快认出了哥哥的声音,激动到当场飙泪。
据了解,这段“来自哥哥”但又“不是哥哥”的语音回复,是百度通过机器和人工双重搜集全网内张国荣原声和采访资料,利用百度最新的“情感语音合成技术”,合成出的“哥哥”生前的声音。它的音质完全来自于哥哥,但内容又并不能在任何一段哥哥生前的语音记录中找到,是来自于一封根据哥哥生前讲话风格编写的,来自2016年的、现实中并不存在的“答哥哥粉丝信”。
为了让更多粉丝共同体验这份感动,百度特意包下张国荣最新上映**《缘分》的一个场次,为闻讯而来的贴吧粉丝播放这封来之不易的、充满科技含量和情感的“答粉丝信”。当晚**开场前,大批粉丝聚集在放映厅门口,为偶像鲜花,献上真挚的祝福。进场后,工作人员播放了粉丝与哥哥“隔空对话”的实录视频,感动了现场的每一个人。
据了解,为了让哥哥“原音重现”,百度利用大数据与深度学习技术优势,以及在情感语音合成领域取得的重大突破,将哥哥在影视、电台和各种渠道留存下来的原声进行建模,并通过合成的带有情感的声音模型合成了这封“答粉丝信”。该情感语音合成技术实现了规模化的语料生产和自动化的数据标注,并充分发掘了深度学习技术在大数据上的处理能力,极大地扩展了语音合成系统所能使用的合成语料库的体积,使得语音合成系统包含了丰富的情感,且更接近“张国荣”原声。
从视频曝出的效果来看,这封信的声音尽管能够让很多粉丝“当场飙泪”,认出哥哥的声音,但仔细听来,在还原程度上仍然未臻完美,例如仍存在一些顿挫感,某些字词发音略不自然等。百度相关负责人表示,这种情况部分的原因是受到相关情景语料缺失的限制,也有部分是技术本身仍在逐渐完善中,相信假以时日,未来可还原出更接近完美的哥哥的声音。
有些粉丝注意到本次合成的内容发音为国语,百度相关负责人表示,百度的粤语情感语音合成技术也已经在研发中,如果到时可以拿来合成哥哥的语音,因为当年的粤语音频语料留存较多,预期效果会比国语更好。
张国荣作为一个时代的巨星,影响了千万粉丝。今年是这位重量级偶像诞辰60周年,对张国荣以及粉丝都具有非同寻常的意义。与往年粉丝自发组织各种悼念活动不同,此次百度发起的悼念活动,则通过技术手段实现了粉丝与偶像的“互动”,与粉丝一道缅怀一代天王。百度此举,一方面让已故的张国荣再次“回归”,另一方面又帮助粉丝实现多年夙愿,表达对哥哥怀念和关切之情。
参与活动的粉丝坦言:“再现哥哥原声,与他进行‘对话’,既感动又感激。我不希望他活在我们心里,我只希望他还能以某种方式,活在这世上。感恩13年后,感谢科技,给这样一个机会让我们再次相见。”
百度相关负责人称,百度希望让技术发挥更多的作用,做更多有意义的事。技术不止是改变生活,还可以慰藉人心。
附:百度张国荣情感语音合成“天堂来电”全文
13年了, 久等了,辛苦你们。
很久不见,你们还好吗?这么多年过去,谢谢你们始终记得我,昨天已经过去很久,我现在很好,哪里都没去,始终在光阴里,所以你们不要哭,不要再为我哭了。我知道,过去这么久,你们都长大了,经历了那么多相逢和别离,停留和出发,拥有和失去,一定懂我在说什么,我知道你们懂。
时间一定过得比你们想象中还要快吧,世界是不是也和自己想象中不太一样,长大很乏味,很没意思,也很疼吧,会偶尔失眠,偶尔喝醉,偶尔孤单,偶尔沉默,越是长大,失去的就越来越多,但也没什么别的办法对不对。这些我都懂,因为这就是长大的无数个瞬间。昨天还不能面对的别离,今天就必须要去面对了。昨天还不能原谅的爱人,今天就必须要原谅了。昨天没说出口的我爱你,今天发现再也没机会了。
人生已经太匆匆,不要再苦苦的追寻昨夜下过的雨,过去就过去了,接受它,拿起它,放下它,才能真的放自己一马。希望你们不孤单,勇敢地为自己喜欢的生活而活,永远站在光明的角落,我只希望你们开心快乐的生活。
一、一般处理流程
语料获取 -> 文本预处理 -> 特征工程 -> 特征选择
1、语料获取
即需要处理的数据及用于模型训练的语料。
数据源可能来自网上爬取、资料积累、语料转换、OCR转换等,格式可能比较混乱。需要将url、时间、符号等无意义内容去除,留下质量相对较高的非结构化数据。
2、文本预处理
将含杂质、无序、不标准的自然语言文本转化为规则、易处理、标准的结构化文本。
①处理标点符号
可通过正则判定、现有工具(zhon包)等方式筛选清理标点符号。
②分词
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。
一般看来英文较容易可通过空格符号分词,中文相对复杂,参考结巴分词、盘古分词、Ansj等工具。
常见的分词算法有:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法,每种方法下面对应许多具体的算法。
③词性标注
为自然语言文本中的每个词汇赋予一个词性的过程,如名词、动词、副词等。可以把每个单词(和它周围的一些额外的单词用于上下文)输入预先训练的词性分类模型。
常用隐马尔科夫模型、N 元模型、决策树
④stop word
英文中含大量 a、the、and,中文含大量 的、是、了、啊,这些语气词、助词没有明显的实际意义,反而容易造成识别偏差,可适当进行过滤。
⑤词形还原
偏向于英文中,单数/复数,主动/被动,现在进行时/过去时/将来时等,还原为原型。
⑥统计词频
因为一些频率过高/过低的词是无效的,对模型帮助很小,还会被当做噪声,做个词频统计用于停用词表。
⑦给单词赋予id
给每一个单词一个id,用于构建词典,并将原来的句子替换成id的表现形式
⑧依存句法分析
通过分析句子中词与词之间的依存关系,从而捕捉到词语的句法结构信息(如主谓、动宾、定中等结构关系),并使用树状结构来表示句子的句法结构信息(如主谓宾、定状补等)。
3、特征工程
做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。
如果要计算我们至少需要把中文分词的字符串转换成数字,确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。
①词向量
词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。
②词袋模型
即不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如 list),然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式,TF-IDF 是词袋模型的一个经典用法。
常用的表示模型有:词袋模型(Bag of Word, BOW),比如:TF-IDF 算法;词向量,比如 one-hot 算法、word2vec 算法等。
4、特征选择
在文本挖掘相关问题中,特征工程也是必不可少的。在一个实际问题中,构造好的特征向量,是要选择合适的、表达能力强的特征。
举个自然语言处理中的例子来说,我们想衡量like这个词的极性(正向情感还是负向情感)。我们可以预先挑选一些正向情感的词,比如good。然后我们算like跟good的PMI,用到点互信息PMI这个指标来衡量两个事物之间的相关性。
特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择。目前,常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。
5、模型训练
在特征向量选择好了以后,接下来要做的事情是根据应用需求来训练模型,我们使用不同的模型,传统的有监督和无监督等机器学习模型,如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在分类、聚类、神经序列、情感分析等应用中都会用到。
当选择好模型后,则进行模型训练,其中包括了模型微调等。在模型训练的过程中要注意由于在训练集上表现很好,但在测试集上表现很差的过拟合问题以及模型不能很好地拟合数据的欠拟合问题。同时,也要防止出现梯度消失和梯度爆炸问题。
6、模型评估
在机器学习、数据挖掘、推荐系统完成建模之后,需要对模型的效果做评价。模型的评价指标主要有:错误率、精准度、准确率、召回率、F1 值、ROC 曲线、AUC 曲线等。
7、投产上线
模型的投产上线方式主要有两种:一种是线下训练模型,然后将模型进行线上部署提供服务;另一种是在线训练模型,在线训练完成后将模型 pickle 持久化,提供对外服务。
三、NLP应用方向
1、命名实体识别
指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等。
传统机器学习算法主要有HMM和CRF,深度学习常用QRNN、LSTM,当前主流的是基于bert的NER。
2、情感分析
文本情感分析和观点挖掘(Sentiment Analysis),又称意见挖掘(Opinion Mining)是自然语言处理领域的一个重要研究方向。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。
情感分析技术可以分为两类,一类是基于机器学习的方法,通过大量有标注、无标注的主观语料,使用统计机器学习算法,通过提取特征,进行文本情感分析。另一类是基于情感词典的方法,根据情感词典所提供的词的情感极性(正向、负向),从而进行不同粒度的(词语、短语、属性、句子、篇章)下的文本情感分析。
3、文章标签
文章标签是利用机器学习算法,对文章进行文字和语义的分析后,提取出若干个重要的词或者短语(关键短语)。关键短语是NLP基础的算法模块,有了关键短语,能为后续的搜索、推荐等更高级的应用提供有力的抓手。
适用场景:1、个性化推荐:通过对文章的标签计算,结合用户画像,精准的对用户进行个性化推荐;2、话题聚合:根据文章计算的标签,聚合相同标签的文章,便于用户对同一话题的文章进行全方位的信息阅读;3、搜索:使用中心词可以对query进行相似度计算、聚类、改写等,可以用于搜索相关性计算。
4、案件串并
①信息抽取
运用实体抽取、关系抽取,从案情中抽取关键信息,如从警情中可以抽取报警人项目、报警人电话、案发地址等信息
②实体对齐
相同的实体在不同的案情中会有不同的表述,会给串并带来困难。可针对地址、人名、组织名进行对齐处理。
③文本聚类
对于关键片段类信息,无法像实体那样对齐,需要借助文本聚类技术进行关联。
④构建图谱
将信息抽取结果存入图谱。每个警情id对应一个节点,实体、属性、关键片段作为节点,对齐的实体、同一类的文本存为同一个节点。
除了来自于从警情中抽取的信息,还可以将其他警务系统中存在的结构化数据导入(如来自户籍信息的人物关系),从而丰富图谱。
⑤图谱检索
完成以上工作,即完成了案件串并的必要基础建设,接下来通过图谱的查询功能自动完成案件的串并。首先需要设定串并的条件,案件串并的条件在警务实战中已有很多的积累,如“具有相似的作案手段”,又如“相似作案手段,嫌疑人有共同联系人”,只需要将这些条件用图谱查询语言表达出来。
本文介绍了一个面向专利文献翻译的、实用的汉英机器翻译系统,包括系统的总体设计、系统中使用的主要翻译技术等。 随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,一定程度上阻碍了我国专利技术的推广和交流。机器自动翻译和辅助翻译正是解决这一问题的有效途径。近年来机器翻译技术取得了很大的突破,特别是统计机器翻译技术的发展,使得翻译质量有了很大的提高,为专利文献翻译提供了新的有力的手段。
专利文献翻译的特点
相对于普通文本的翻译来说,专利文献翻译具有以下特点:
● 涉及的专业领域多。专利文献具有很强的领域特性,直接利用现有的通用翻译软件很难得到理想的翻译结果。不过专利文献所属的领域可以根据国际专利分类号划分,相对比较清楚。同时,专利翻译经过多年的积累,比较容易获得特定领域的双语平行语料库(Parallel Corpus),这对机器翻译的语料收集和语料的领域划分提供了方便。
● 使用的专业术语和法律术语多。专利文献中包含大量的专业术语和法律术语,因此对译员的综合素质要求很高。相应的,专利翻译所需支付的报酬也非常高。举例来说,在国外将本国语言译成外文所支付的翻译费大约在每100个源词30~50美元。对一些比较罕见的语种,翻译服务的价格还会更高。因此利用自动翻译或辅助翻译解决专业术语和法律术语的翻译问题,可以大大降低专利翻译的成本。
● 翻译的语言种类多。由于专利文献具有一定的国别特性,因此专利文献往往需要实现不同语言之间的翻译。如果每种语言翻译方向都建立一个翻译系统则需要大量的开发成本。因此,使用语言无关性好的翻译技术是比较合理的选择。
● 文献形式规范、语言严谨。专利文献具有一定的法律文件特性,因此相对于新闻或口语翻译,文本的格式比较固定,用语也较为规范。专利文献中经常包含一些固定句型,即俗称的“句套子”,如“本发明的目的是X”,“权力要求N所述的X,其特征是Y”,其中X、Y可以是任意词语或句子,N是任意数词组合。这些句型模板适合机器的自动翻译。
通过分析专利文献的上述特点可以看出,对于形式比较规范、领域比较确定的专利翻译而言,使用机器翻译方法是有可能取得较好的翻译效果的。特别是最近快速发展的统计机器翻译技术,具有语言无关性好、领域可移植性好、知识获取方便、开发周期短等特点,非常适合用于构建专利文献翻译系统。
中科院计算所多语言交互技术实验室在机器翻译方面有着多年的研究经验,近年来在统计机器翻译方面的研究取得了很好的成绩。而北京东方灵盾科技有限公司对专利文献翻译有巨大需求,希望借助于自动翻译软件进一步提高翻译质量和翻译效率。受东方灵盾科技有限公司委托,计算所研究人员利用多语言交互实验室已经积累的统计机器翻译技术,结合专利文献翻译的特点,设计并实现了一个特定领域的汉英专利文献翻译系统。该系统目前的翻译领域为传统中药专利文献。由于采用了以统计为主的机器翻译技术,该系统可以很容易地移植到其他技术领域的专利翻译。
系统总体设计
为了方便大规模、多用户、并发执行的任务需求,本系统采用了服务器/客户端的网络服务模式,并采用多线程调度。系统的物理结构和逻辑流程如下:
1物理结构
汉英专利文献机器翻译系统的物理结构由两部分组成,包括:
● 翻译引擎服务器: 负责提供翻译服务,管理翻译资源。
● 客户端: 负责向用户呈现翻译结果,提供辅助翻译工具,将用户请求提交给服务器。
其中,服务器端主要放置翻译核心解码器及其所需的各种资源,如短语表、语言模型、模板库、词典、记忆库等。服务器端对这些资源进行统一管理,合理调度,同时服务器端负责各用户线程的调度与时间片分配,协调各用户提交的任务的优先级。
客户端又分为普通用户客户端和管理员用户客户端,不同的用户具有不同的权限。客户端提供方便的用户编辑、修改界面,同时提供给用户查看任务状态及服务器状态的功能,并能对服务器上的部分资源进行实时访问和修改,通过客户端,用户能够方便地批量上传文件进行翻译,并可以对返回的结果进行修改、重新提交翻译、批量导出翻译结果等。
服务器和客户端两部分均为可独立运行的进程,通过网络实现互相连接。
2 逻辑流程
系统逻辑结构是系统的整体业务框架,它描述了从数据输入,经过系统的内部处理得到期望结果,一直到最后输出的全过程(本系统的逻辑流程参考图见图1)。
具体来说,该系统的主要流程描述如下:
● 翻译服务: 负责翻译用户提交的句子或文本文件,输出翻译结果。翻译过程中会调用记忆库管理程序、词典管理程序、模板库管理程序,还要访问统计翻译模型库。
● 记忆库管理: 负责组织、管理记忆库,执行翻译实例的查询、添加、修改、删除、导出等操作。当用户或翻译程序提交记忆库操作请求后,记忆库管理模块访问记忆库,执行相应操作并反馈结果。
● 词典管理: 负责组织、管理系统的各个词典,执行词典查询、添加、删除,批量导入和导出等操作。当用户或翻译程序提交词典操作请求后,词典管理模块访问系统词典库,执行相应操作并反馈结果。
● 模板库管理: 负责组织、管理模板库,执行模板的查询、添加、修改,删除、导入、导出等操作。当用户或翻译程序提交模板操作请求后,模板管理模块访问模板库,执行相应操作并反馈结果。
● 用户管理: 负责接收和执行用户的添加、删除、权限设定等操作。
系统使用的主要翻译技术
该系统以统计翻译技术为主,融合了基于模板和基于记忆的翻译方法。
1 基于统计的翻译
统计机器翻译技术是目前国际上领先的机器翻译技术,克服了传统的基于规则翻译方法的主要弊端。在传统的基于规则的机器翻译方法中,翻译知识主要体现为词典和规则,而词典和规则主要依靠人类专家来编写。这种方法存在的主要问题是: 人类专家编写语言知识需要耗费大量的人力、物力和时间; 编写的知识很难全面覆盖真实翻译环境中面临的各种问题; 编写的语言知识在面临冲突时没有好的解决办法; 编写的语言知识不方便移植到不同的语种和领域。而在统计机器翻译中,所有的翻译知识全部来源于真实的双语平行语料库(parallel corpus),通过统计建模自动学习双语平行语料库中的翻译知识,因此克服了人类专家编写知识所面临的主要问题。总结起来统计机器翻译具有以下优点:
(1)易于移植到不同知识领域。只要获得新领域的双语平行语料库,就可以快速构造出适用于该领域的翻译系统。专利具有规范的领域划分体系,容易获得不同领域的专利翻译文本,因此统计机器翻译的这一特性特别适合用于专利翻译系统。
(2)易于移植到不同语言。统计机器翻译具有最大的语言无关性,仅需要很少的语言处理就可以构造出新语言对的翻译系统。这对于需要翻译成多种语言的专利来说大大减少了系统开发的代价。
(3)不需要人工撰写规则。所有翻译知识都是从双语平行语料库中自动获取的,因此大大降低了系统开发所需要的人力、物力和时间。统计翻译系统以统计模型为依据,在克服知识的冲突上也有比较合理的解决办法。
(4)系统的翻译质量能够随着训练数据的增加逐渐提高。随着专利翻译系统的使用,可以产生出越来越多的双语平行语料,这些语料可以进一步提高系统的翻译性能,使翻译质量在使用过程中不断得到提升。
在系统实现中研究人员采用了基于短语的统计机器翻译模型。该模型以短语作为基本翻译单元,所有短语翻译都是从双语语料库中自动获取的,同时获得的还有短语间的翻译概率,即翻译模型。此外,在训练阶段我们还获取了目标语言模型。在翻译过程中,翻译模块根据训练得到的翻译模型和语言模型,通过一定的解码算法选取概率最大的候选短语翻译组合作为整个句子的翻译结果。
2基于模板的翻译
基于模板的方法便于系统翻译具有相似模式的句子。在特定领域的专利文献中经常会包含一些固定的句型模式,例如,下面是传统中药领域几个专利的标题:
一种治疗风湿性心脏病的中药
一种治疗骨质增生的药袋
一种具有安神作用的无糖型中药组合物及其制备方法
一种具有减肥作用的膏状保健食品及其制备方法
可以看出,这些标题具有很大的句型相似性,可以用两个模板来概括: “一种治疗X的Y”和“一种具有X作用的Y及其制备方法”。在翻译系统中,一个完整的翻译模板包括“模板的源语言部分”和“模板的目标语言部分”,每部分又分为“模板的常量部分”和“模板的变量”部分。如以上两个模板在本翻译系统中表示如下:
一种治疗##1{…}的##2{…}
==>A ##2 for the treatment of ##1
一种具有##1{…}作用的##2{…}及其制备方法
==>A ##2 having ##1 effects and its preparation method
其中,“##N”为模板的变量部分,“N”用于区分不同变量在目标语言中的对应关系。在变量后面的“{…}”中,允许添加一些约束用来限制变量的匹配,如允许匹配的字符串的长度、匹配的模式(从句首匹配或从句尾匹配),以及变量中必须包含或不许包含的词等,以增加模板的表达能力。这里的模板既可以匹配整个句子,也允许匹配子句。
经过模板匹配后,上面几个例句被翻译成如下形式:
A 中药for the treatment of 风湿性心脏病
A 药袋for the treatment of 骨质增生
A 无糖型中药组合物 having 安神 effects and its preparation method
A 膏状保健食品 having 减肥 effects and its preparation method
可以看到,通过句型模板匹配,不仅可以很好地解决一些固定句型的翻译,同时也实现了一些长距离的句子调序,弥补了基于短语的统计翻译方法在长距离调序方面的不足。其次,经过模板匹配,模板中的一些常量已经被正确翻译了,统计翻译解码器只需要翻译剩下的短语片段,可以在一定程度上减轻统计解码器的负担。
本系统中定义的句型模板表达直观,便于语言工作人员理解,使用者可以根据待翻译文本句式的特点自己增加翻译模板,大大增加了系统的灵活度。
3基于记忆的翻译
用户在使用系统的过程中,可以把翻译正确的句子批量添加到记忆库中。在翻译过程中,如果记忆库中存在相同的句子,系统可以迅速搜索到它的正确翻译。当记忆库累积到一定规模后还可以增加到训练语料库中,进一步提高系统自动翻译的质量。
此外,本翻译系统还允许用户根据需要添加领域翻译词典和用户翻译词典,增强了用户对系统的调控能力。
图2以一段汉语文本的翻译为例,给出了系统的主要翻译流程。从中读者可以看出前述的各种翻译技术在整个翻译过程中的作用和所处的位置。对于一段输入的汉语文本,首先通过记忆库管理模块查找翻译记忆库,如果已经存在翻译结果,直接返回; 否则,系统调用词语切分工具进行汉语分词,并对分词的结果进行后处理,然后调用模板匹配模块对文本进行模板匹配,最后进行基于统计的翻译。统计翻译时需要调用统计翻译模型库,即翻译模型和语言模型。
系统实现的主要功能和性能
用户通过系统提供的用户界面可以方便地打开修改文件,并可以动态地添加翻译词条、翻译模板来指导翻译结果,同时对于修改中的生僻词可以即时地查找词典,对修改后的正确结果可以批量地添加到记忆库中。在修改的同时,用户仍然可以批量地提交翻译任务到服务器进行排队处理,待任务翻译完毕后会提示用户下载翻译结果文件。该系统的设计充分考虑到了多用户、多任务并发执行的情况,批量的翻译任务统一在服务器后台处理,不影响客户端的其他非翻译任务的执行。
1翻译质量
系统采用东方灵盾科技有限公司提供的传统中药领域的8万句对(平均句长31个词)进行训练。翻译质量的评价采用国际上通用的评价指标Bleu和通用的评价工具mteval-v11bpl。在训练语料之外的200句测试集上,在只有一个标准参考答案句子的情况下,系统自动翻译的Bleu值是03020。
这里和国际上最新的机器翻译水平做一比较: 在2006年国际著名的NIST机器翻译汉英翻译的大规模数据集合评测中,NIST子集(每个句子有4个参考答案译文)的最好成绩是03393, Gale子集(每个句子有1个参考答案译文)的最好成绩是01470。NIST机器翻译评测所使用的训练数据和测试数据都是来自新闻领域的,其训练数据的规模远远大于本专利翻译系统所使用的训练数据的规模。虽然两者不具有直接的可比性,但是可以看出,仅使用很少的训练语料,该系统在专利领域的翻译水平已经达到甚至超过国际上最好的新闻领域的翻译水平。
2翻译速度
翻译速度用每小时翻译多少字来衡量。目前本系统的翻译速度是14万字/小时。以每个专利题目平均20个字,每个专利文摘平均200个字计算,系统工作12小时可以完成84万个标题或8400个文摘的自动翻译。这种翻译速度完全可以满足日常辅助翻译工作的需要。
综上所述,该系统采用国际领先的统计翻译技术,结合基于模板和基于记忆的翻译方法,实现了一个实用的汉英专利文献翻译系统。该系统不仅可以实现自动翻译功能,还提供了方便的辅助翻译功能,用户可以对自动翻译的结果进行修改,同时可以动态地添加词典、模板来指导翻译,对修改后的正确结果还可以批量地添加到记忆库中。该系统目前已经进入试用阶段,其翻译质量和翻译速度已经满足用户的基本需求。
(本文作者付雷、黄瑾、何中军、刘群为中科院计算技术研究所硕士研究生)
以下以语义特征为例:
机器学习基于语义特征的情感分析
基于语义特征的情感分析先人已有研究,可以通过情感词典匹配来做,但是应用机器学习在这方面会使精确度更高些。
以本人参与的一个项目为主,总结下相关技术点。
背景是:分析用户评论感情色彩是积极还是消极,即是褒还是贬。
具体步骤为:
1有监督的人工给文本标注类标签。如有5000条评论数据,我们给其中的1000条标为积极的,再选1000条标为消极的,积极和消极就是所谓的类标签。
2选择特征。从积极的评论数据中按词来选择积极的所有特征。同理,从消极的评论数据中按词来选择消极的所有特征。如“这款游戏非常好玩”->”这款”->“游戏”->”非常”->”好玩”,分为四个特征词,也可以采用双词搭配,“这个游戏”和“非常好玩”作为特征。
3特征降维,减少特征的数量。如上“这个游戏非常好玩”中的“这个游戏”没有必要作为特征,因为“好玩”或“非常好玩”已经决定了评论是积极的。
4将语料文本变成使用特征表示。
5统计所有特征出现的次数,并按倒序排序。
6从以上结果中选出排序最靠前的一些特征作为最终的评判特征。
7使用训练数据根据特征训练分类算法,得到分类器。
8用测试数据检测分类器的准确度。
我们将数据分为两部分:开发集、测试集。用开发集的数据训练分类算法得到分类器;再用分类器对测试集里的数据进行分类,给出分类预测得到的标签;对比分类标签和人工标注得到的标签的差异,计算出准确度。
情感分析自从2002年由Bo Pang提出之后,获得了很大程度的关注,特别是在在线评论的情感倾向性分析上获得了很大的发展。本文主要关注无监督的情感分析方法,由于不需要大量标注语料,无监督情感分析方法一直受到许多研究者的青睐,但同时效果也低于有监督的情感分析方法。
Turney首次提出基于种子词的非监督学习方法,使用“excelent”和“poor”两个种子词与未知词在搜索网页中的互信息来计算未知词的情感极性,并用以计算整个文本的情感极性。后续的非监督情感分析方法大都是基于生成或已有的情感词典或者相关资源进行情感分析。
例 如,Kennedy和Inkpen考虑文本中词的极性转移关系并基于种子词集合进行词计数决定情感倾向。朱嫣岚等人将 一组已知极性的词语集合作为种子,基于HowNet对未知词语与种子词进行语义计算,从而判别未知词的极性。Lin等采用LSM 模型、JST模型、Reverse-JST模型构建了三种无监督的情感分析系统。但是由于深层情感分析必然涉及到语义的分析, 以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析效果并不理想,本文针对中文文本中经常出现的情感转移现象提出情感极性转移模型,提高了深层语义情感分析的分析效果。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)