Word文本中的文档部件里的域 打开之后不是一个方框,而是一个代码是怎么回事?

Word文本中的文档部件里的域 打开之后不是一个方框,而是一个代码是怎么回事?,第1张

  自然语言处理(NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等进行操作和加工。实现人机之间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。

 最近几年,科技巨头和创业公司相继投入资源和成本进行商业化探索。不过,除了语音和机器翻译领域之外,自然语言处理在很多方面的进展并不大。例如,句子识别主要包括识别一个句子当中的动词、名词、形容词,都是非常简单、非常基础的任务,但从2009年到2017年间,其正确率提高了不到1%,目前的正确率也只有57%。尽管自然语言处理已经成为人工智能的热门细分行业,但技术本身尚有足够的成长空间,当前仍处于早期阶段。

 基于此,国家知识产权局专利分析普及推广项目人工智能关键技术课题组从专用技术和通用技术出发,围绕专利技术发展路线和重要申请人,对自然语言处理产业进行深度剖析,以供行业参考。

深度学习推动自然语言处理专利申请量快速增长

自然语言处理专利申请趋势与技术演化路径

 自然语言处理技术从1970年左右起步,一直到1985年,年最高申请量均不超过30项。

 1985年之后,随着网络技术和计算机技术的发展,丰富的语料库成为现实,同时硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法;申请量开始快速增长,至2000年,年申请量达到780项。贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

 从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究, 由最初的词向量到 2013 年 word2vec, 将深度学习与自然语言处理的结合推向了高潮, 并在机器翻译、问答系统、阅读理解等领域取得了一定成功,年申请量从2008年的1255项增长到2016年的3057项。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出,从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言护理最常用的方法之一, GRU、 LSTM 等模型相继引发了一轮又一轮的热潮。基于这种原因,从2009年开始,自然语言处理相关专利申请迎来新一轮的增长。

中美两国是该领域最具竞争力的国家

 从申请来源国来看,中美两国是该领域全球专利产生量最多的国家,为主要的技术储备国和来源国。

来自中美两国的专利申请趋势

 在该领域,从中美两国的申请趋势来看,两国的专利申请量均呈稳步增长态势,说明两国相对重视自然语言处理技术的研发与专利储备。总体而言,虽然早期中国相对于美国存在一定的差距,但经过长期的积累,中国在2012年超越美国成为全球专利申请量最高的国家,达到526项/年;随后差距进一步拉大,中国在2016年的时候达到1668项,为美国856项的2倍。中国已经超越美国,成为全球年申请量最高的国家,并极有可能在未来几年成为全球专利储备量最多的国家。

百度进入全球前十

中国创新主体专利储备有待加强

全球主要申请人专利申请量排名

 在全球主要申请人排名中,IBM在申请量方面优势较大,属于第一阵营;微软公司申请量与IBM的申请量相比少400余件,为IBM公司的4/5,属于第二阵营;排名第三的NTT通信与第十的富士康相差不到300件,属于第三阵营。中国方面,百度为第八名,申请量为457件;中国台湾的富士康也进入了全球前十。中国创新主体专利储备有待加强。

技术迭代加速,推动自然语言处理技术快速发展

(1)深度学习助推词性标注技术快速发展

词性标注,是给自然语言中每一个词都赋予其词性标记。正确的词性标注是自然语言处理的一个基本步骤,错误的词性判断可能会导致整个句子的理解错误。

词性标注技术发展路线

 从技术发展路线来看,在1980年前鲜有关于词性标注的专利申请,在1980年至1990年间,出现了基于规则的词性标注方法,这是人们提出较早的一种词性标注方法。基于规则的基本思想是建立标注规则集,并尽可能的使该标注规则集精确,而后使用该标注规则集对待标注语料进行标注,从而得到正确的标注结果。基于规则的词性标注的缺点是针对性太强,很难进一步升级,也很难根据实际数据进行调整,在实际的使用场合表现不够好。

 1990年后,基于统计的词性标注技术得到发展,隐马尔科夫、条件随机场等模型应用到了词性标注中,全部知识是通过语料库的参数训练自动得到,可以获得很好的一致性和很高的覆盖率,基于统计的词性标注方法因此被广泛应用。但基于统计的方法也同样存在缺点和局限性,例如在建立模型参数时,需要大量训练语料,而训练语料的选择会影响到精度。

 由于基于规则和基于统计的方法在处理某些问题时都不能做到尽如人意,于是有人提出了基于规则和统计结合的词性标注方法,主要是将词典与统计模型结合,这样相结合的词性标注方法在很大程度上弥补了单一方法对标注结果的影响,最大程度发挥了基于规则的方法和基于统计的方法的优点,实际上两种方法相结合就是理性主义方法和经验主义方法相结合。

 近年来,基于人工智能的方法也应用在词性标注中。相对于前面三种方法,该方法具有适应性强、精度高的优点,来自中国的申请人在这方面的研究较多,技术爆发力较强,取得了一系列研究成果。

(2)无监督学习是词语级语义的主要发展方向,创新主体加速进入,布局各有侧重

 语义分析的目标是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。词汇级语义分析关注的是如何获取或区别词语的语义。

词语级语义分析专利技术发展路线

 词语级语义分析有多种方式,从发展路线来看,基于词典的语义分析中,词典语义、语法结构、双语词典和Yarowsky算法已经不再产生新的重要相关专利申请。基于实例和统计模型鲜有重要专利申请;由于关键词提取技术的发展,基于义词词典的相关技术在2017年仍有相关的重点专利产生,是将来的发展重点之一。与此同时,基于无监督学习,由于不需要专门的语料库,且具有较强的可扩展性,在大数据、算法和芯片技术的推动下,将成为未来的主要发展方向。

在华词语级语义重要申请人分析

 截至2018年8月,在华申请人当中,专利申请量超过三件的申请人共有6位,排名第一位的是齐鲁工业大学,后面依次为昆明理工大学、百度、腾讯、富士通和IBM。国外来华申请人方面,IBM在1999年开始提交了基于双词典的消歧专利申请,随后分别于2011年、2014产生基于上下文首字母缩略词以及基于词袋的专利申请;富士通于2012年提交首件基于双语言的消歧技术的专利申请,随后分别于2012年、2016年提交基于组合概率和针对缩减词的专利申请。昆明理工大学在2008年提交一件基于信息改进的贝叶斯方法的消歧技术的专利申请;腾讯的相关专利申请侧重于利用词语的热度、基于文本的内容,以及基于基本词词典和短语词典领域,同时提交一件与词典构建方面有关的专利申请;百度在2012年提交第一件相关专利申请,研究方向包括多粒度词典的构建、利用用户的选择、基于歧义词消解的搜索,并在2018年提交了一件基于无监督神经网络的词语级语义分析专利申请。

 早期,清华大学、北京大学、中国科学院声学所、哈尔滨工业大学、日电(中国)、谷歌等科研院所和企业均在国内进行相关专利申请。随着技术的发展以及创新主体的重视,南京邮电大学、华东师范大学、富士康、上海交通大学也进行相关领域研究。2014年以后,苏州大学、南京大学、中山大学等高校也加入到词语级的消歧研发之中。

 值得注意的是,虽然中国申请人在各个时期均有参与词语级的消歧研究之中,但除昆明理工大学外,大部分早期实力较强的中国申请人并没有持续地提交相关专利申请。在引领词语级消歧技术发展的无监督消歧中,仅有百度提交了一件相关专利申请。

(3)基于神经网络是机器翻译发展重点,IBM积累深厚,百度加速赶超

 在20世纪40年代至50年代,机器翻译相关技术处于理论研究阶段,计算机的发明和信息论的研究为机器翻译奠定了理论基础,这段时期并没有相关专利申请提出。

机器翻译系统产业及技术发展脉络

 20世纪60年代开始,进入基于规则的机器翻译系统时代。相关专利开始零星地出现,其中IBM作为计算机领域开拓者在这一时期扮演了非常重要的角色,并积累了大量规则机器翻译系统方面的基础专利。除此之外,大学、政府研究机构是这一时期的重要组成,类似Systran系统的机器翻译产品诞生于大学实验室,并通过政府项目合作而存活并发展。

 上世纪80年至90年,是机器翻译系统逐渐成熟并走向市场的阶段,这一时期专利申请量开始爆发,并主要来自于企业。而21世纪以来则显现出互联网企业在这一领域的优势,庞大的互联网语料库及算法积累,使得谷歌、微软、百度等互联网公司超越了IBM、东芝等老牌企业,尤其是近些年来深度学习带来的技术革命,数据资源的重要性开始大大降低,具有革命性的技术近年来都来自于对系统算法框架的创新。

展望未来

 虽然美国和日本在自然语言处理领域早期积累深厚,但近年来中国加速赶超,中国已成为全球年专利申请量最高的国家,专利储备量跃居全球第二,未来的竞争主要在中美两国展开。同时,人工神经网络与自然语言处理结合,推动了词法分析、句法分析、语义分析、语言模型和知识图谱技术等通用技术的快速发展,并加速机器翻译、自动文摘,自动问答、情感分析等专用技术的落地。加大基于神经网络的自然语言处理技术的研发,有助于中国和国内创新主体实现弯道超车,抢占人工智能高地。

殷其亮 叶盛 罗强|国家知识产权局专利分析普及推广项目人工智能关键技术课题组

怎样通过句法分析分析句子情感算法例子?现阶段主要的情感分析方法主要有两类:

基于词典的方法

基于机器学习的方法

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。

基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:正、负。对训练文本进行人工标标注,然后进行有监督的机器学习过程。例如想在较为常见的基于大规模语料库的机器学习等。

  如果你爱上了一个白羊座的他,那么,你可以首先去了解下白羊座男人的性格,很多人的性格都能够从星座上去解析的,对于女生来说想要驾驭白羊座男人可不是一件容易的事情,下面是我为大家整理的白羊座男生全面分析,希望大家喜欢!

  白羊座男生的性格

 永远都是阳光灿烂的,但是有那么一点小小的二货,因为粗心大意经常会出现危机的状况,但是大多时候又能够凭借着自己非凡的勇气和无可比拟的好运成功的渡过难关,转危为安。

 所以长久的冒险养成了白羊男的无惧和无畏精神,什么都敢闯,什么都敢拼。但是白羊座抵制诱惑的能力和自我控制能力上有缺陷,因此总是会沉迷于一种事物很久之后才能够走出来。

 恋爱是白羊座生命当中的消遣,即便是恋爱,白羊座男生也不会把恋爱当成生命的全部,对待家人的热度要等白羊座有了自己的儿子之后才会开始涌现,此前没有家庭观念。

白羊座男生喜欢什么样女人

 没有女人味是很难吸引到白羊男的,除非你身材真的劲爆到一个至高点,长相又无可挑剔,他们喜欢有点嗲的女生但是他们又是最怕八婆的一群,如果在遇到性格拖沓又爱哭的女人,他们逃奔的速度绝对堪比刘翔跨栏,所以能拿捏好独立和温婉可爱的适中度,独立却不要强,可爱又懂事的女孩是他们心头最爱。

白羊座男生的特点

 1、心直口快溢于言表:

 此人以某种思想注意事业为己任,往往义愤激于言表,竭力维护软弱可欺之人。有时候会嘴巴比脑子快,多生事端,也是心事最多的星座。

 2、乐观加进取、自信满满:

 只要是认定的事,一定会凭着一股冲劲做完,哪怕屡战屡败,仍然屡败屡战,让人心生佩服。他们分秒必争,效率奇高,动作迅速,更有无限的渴望,为了这渴望而进行不不懈的追求是白羊男的最高境界。

 3、务实主义与理想主义的混合体:

 白羊男虽然心直口快,往往令人目瞪口呆,但仍不失为社交明星,优雅样板。火象星座的人一面豪气英发,另一面需请教是确有左右逢源。他的优势不在于耐心听讲和拘泥细节。

 4、一往情深无可挑剔:

 白羊男那么理想主义,那么易受感情支配,会从每一个恋爱对象身上榨出所有可能的刺痛与叹息、欢愉与诗意。他们绝不会见异思迁,弃旧觅新。他死心塌地,为的只是赢得此时此刻的烈火般的爱情。我们也要懂得如何让白羊男对你死心踏地。

 5、幻想决定激情:

 生性不会寻花问柳,更不会滥交女友。婚姻不是监狱,你也不是他的狱卒----这就是他的态度。

 6、叛逆与挑战:

 白羊男是天生的叛逆者,喜欢向权威挑战,自以为就比别人高明。苛求领导被人,而不肯甘于人后,在他自负不服,咄咄逼人的外表之下,掩盖着他宁死也不承认存在的自卑情绪。

 7、温柔顺从的吸引力:

 你是他生活中至关重要的角色,他希望你对此成竹在胸,静等他来剖轻示爱。他要成为你世界的全部,但与其他男人不同,他是要让你与之分享那个世界,而不是独自霸占。

 8、掌权的丈夫与尽责的父亲:

 他会要你少管闲事,自己当家做主。成为父亲之后,会替他们包揽终身,勤快尽职。

 9、过于偏执:

 生活节奏非常紧张,行动近乎狂热,典型的工作狂。太过偏执,一旦决定的事无法再动摇。偏听偏信不顾家,信任朋友多于家人。

 10、从小多事端:

 白羊男做事欠条理,四肢发达头脑简单,读书不认真,长大易冲动,做事不够仔细,情绪易外漏,淡定不够,勇气太足,容易坏事。

1 白羊座男孩的性格有何特点

2 白羊座的人有什么性格特点

3 白羊座男生有怎样的性格特点

4 白羊座男生喜欢一个人的表现是什么

5 白羊座人的性格与气质特征有哪些

6 白羊座男生的性格特点

7 属牛白羊座男生性格特征与爱情

8 白羊座男生的性格怎么样

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/939736.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-11
下一篇2023-07-11

发表评论

登录后才能评论

评论列表(0条)

    保存