国际学术会议是一种学术影响度较高的会议,它具有国际性、权威性、高知识性、高互动性等特点,其参会者一般为科学家、学者、教师等。具有高学历的研究人员把它作为一种科研学术的交流方式,够为科研成果的发表和对科研学术论文的研讨提供一种途径 ;同时也能促进科研学术理论水平的提高。针对自然语言处理方向比较重要的几个会议有:ACL、EMNLP、NACAL、CoNLL、IJCNLP、CoNLL、IJCNLP、COLING、ICLR、AAAI、NLPCC等
会议链接地址: ACL
它是自然语言处理与计算语言学领域 最高级别 的学术会议,由计算语言学协会主办,每年一届。主要涉及对话(Dialogue)、篇章(Discourse)、评测( Eval)、信息抽取( IE)、信息检索( IR)、语言生成(LanguageGen)、语言资源(LanguageRes)、机器翻译(MT)、多模态(Multimodal)音韵学/ 形态学( Phon/ Morph)、自动问答(QA)、语义(Semantics)、情感(Sentiment)、语音(Speech)、统计机器学习(Stat ML)、文摘(Summarisation)、句法(Syntax)等多个方面。
ACL 成立于1962年, 每年举办一次 。这个学会主办了 NLP/CL 领域最权威的国际会议,即ACL年会。1982年和1999年,ACL分别成立了欧洲分会([EACL)和北美分会(NAACL)两个区域性分会。近年来,亚太地区在自然语言处理方面的研究进步显著,2018年7月15日,第56届ACL年会在澳大利亚墨尔本举行。开幕仪式上,ACL主席Marti Hearst正式宣布成立国际计算语言学学会亚太地区分会( AACL ,The Asia-Pacific Chapter of Association for Computational Linguistics)。此次成立ACL亚太分会,将进一步促进亚太地区NLP相关技术和研究的发展。据悉,首届AACL会议预计在2020年举行,此后将每两年举行一次。
会议链接地址: EMNLP
EMNLP涉及多个研究方向,其中包括:信息提取、信息检索和问答系统,语言和视觉,语言理论和心理语言学,机器学习,机器翻译和多语言,分割、标记和语法 分析,语义学,情感分析和观点挖掘,社交媒体和计算社交科学,口语处理,概述,生成,论述和对话,文本挖掘和自然语言分析。
EMNLP也是由ACL主办的,其中ACL学会下设多个特殊兴趣小组(Special Interest Groups ),SIGs聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如 SIGDAT(Special Interest Group on Linguistic Data & Corpus-based Approaches to Natural Language Processing)、SIGNLL(Special Interest Group on Natural Language Learning)等。这些 SIGs 也会召开一些国际学术会议,其中比较有名的就是 SIGDAT 组织的 EMNLP 和 SIGNLL 组织的 CoNLL(Conference on Computational Natural Language Learning), 均为每年举办一次 。
会议链接地址: NACAL
NACAL会议主要涉及对话,篇章,评测,信息抽取,信息检索,语言生成,语言资源,机器翻译,多模态,音韵学/ 形态学,自动问答,语义,情感,语音,统计机器学习,文摘,句法等多个方面。
NACAL是 ACL 的的北美分会,当然也是由 ACL 主办。这里把 NAACL 单独列出来是因为相比于 ACL 的欧洲分会 EACL(之前是 每三年举办一次 ,过去存在感不太强,据说从2020年开始将改为每年举办,相信会逐渐被大家重视起来),NAACL 是 每年举办一次 ,就目前而言,大家对它的认可度比 EACL 高。ACL、EMNLP、NAACL 均为每年举办一次。因为是同一学术组织举办,所以会有些有意思的潜规则。例如 ACL、EMNLP 会在各大洲轮流举办,而每当ACL在北美举办时,当年NAACL就停办一次(同理,当ACL在欧洲举办时,当年EACL就停办一次)。
会议链接地址: CoNLL
SIGDAT 组织的 EMNLP 和 SIGNLL 组织的 CoNLL( Conference on Computational Natural Language Learning),均为每年举办一次。其中CoNLL的主要涉及的方向有:对话与互动系统、信息提取、信息检索,问题回答、从认知角度研究学习方法(如机器学习、生物启发、主动学习、混合模型)、语言模型、分割、词汇语义和成分语义、语言理论与资源、用于NLP的机器学习、机器翻译、语言学中的归纳法和类比法、词法分析、词性标注和序列标注等。
会议链接地址: COLING
COLING会议主要涵盖的方向有:信息提取、信息检索和问答系统;机器学习;机器翻译;分割、标记和语法 分析;语义学;情感分析和观点挖掘;社交媒体和计算社交科 学;口语处理;对话生成;文本挖掘等。
COLING 全称 International Conference on Computational Linguistics,1965年开办,它是由老牌 NLP/CL 学术组织 ICCL(The International Committee on Computational Linguistics) 组织的, 每两年举办一次 。不过可能由于不是每年举行,感觉最近几次会议的质量起伏比较大,从认可度上也确有被EMNLP赶超的趋势。
会议链接地址: ICLR
ICLR主要发表深度学习各方面的前沿研究,其中涵盖人工智能、统计学和数据科学以及机器视觉、计算生物学、语音识别、文本理解、游戏和机器人等重要应用领域。
ICLR由Yann LeCun 和 Yoshua Bengio 等大牛发起,会议开创了公开评议机制(open review),但在今年取消了公开评议,改为双盲评审。它是一个很年轻的会议,今年举办到第6届,但已经成为深度学习领域不容忽视的重要会议,甚至有深度学习顶会“无冕之王”之称。ICLR也是世界上发展最快的人工智能会议之一,今年将有4000多名参会者。
会议链接地址: AAAI
AAAI是人工智能领域的主要学术会议,由美国人工智能促进协会主办。AAAI 成立于 1979 年,最初名为 “美国人工智能协会” (American Association for Artificial Intelligence),2007 年才正式更名为 “人工智能促进协会”(Association for the Advancement of Artificial Intelligence )。致力于促进对思维和智能行为机制及其在机器中的体现的科学理解。AAAI旨在促进人工智能的研究和负责任的使用。AAAI还旨在提高公众对人工智能的理解,改善人工智能从业者的教学和培训,并就当前人工智能发展的重要性和潜力以及未来方向为研究规划者和资助者提供指导
近年的 AAAI 会议不乏中国学者的身影,据统计 AAAI 2018 接收的 910 多篇论文中有1/3以上一作是华人名字。此外,2019 年 AAAI 程序主席是南京大学周志华教授,另一位程序主席是密歇根大学教授 Pascal Van Hentenryck。
会议链接地址: NLPCC
NLPCC主要涉及的方向有:分词和命名实体识别、句法分析、语义分析、语篇分析、面向少数民族和低资源语言的NLP、自然语言处理的应用、数字出版、文档工程、OCR和字体计算、用于移动计算的NLP、机器翻译和多语言信息访问、NLP的机器学习、Web/文本挖掘与大数据、信息检索与提取、知识表示与获取、个性化与推荐、用于搜索和广告的NLP等
作为自然语言处理和汉语计算领域的国际领先会议,NLPCC最近被CCF确认为C类会议。它为来自学术界、工业界和政府的研究人员和实践者提供了一个主要论坛,以分享他们的想法、研究成果和经验,并促进他们在该领域的研究和技术创新。NLPCC历届会议分别在北京(2012)、重庆(2013)、深圳(2014)、南昌(2015)、昆明(2016)、大连(2017)、呼和浩特(2018)、甘肃(2019)成功举办。
ACL、EMNLP、NAACL 和 COLING 可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的(均由 ACL 举办)。ACL 、AAAI是 CCF 推荐A类国际学术会议,EMNLP 和 COLING 是B类,NAACL 、CoNLL、NLPCC则是C类。
更多自然语言处理、pytorch相关知识,还请关注 AINLPer 公众号,极品干货即刻送达。
自然语言处理(NLP)是机器学习重要分支之一,主要应用于篇章理解、文本摘要、情感分析、知识图谱、文本翻译等领域。而NLP应用首先是对文本进行分词,当前中文分词器有Ansj、paoding、盘古分词等多种,而最基础的分词器应该属于jieba分词器(比较见下图)。
下面将分别应用R和python对jieba分词器在中文分词、词性标注和关键词提取领域的应用进行比较。
R实现
通过函数worker()来初始化分词引擎,使用segment()进行分词。有四种分词模式:最大概率法(MP)、隐马尔科夫模型(HMM)、混合模型(Mix)及索引模型(query),默认为混合模型。具体可查看help(worker)
#installpackages('jiebaR')library(jiebaR)mixseg <- worker()segment( "这是一段测试文本" , mixseg ) #或者用以下操作mixseg['这是一段测试文本']mixseg <= "这是一段测试文本"
python实现
python中需安装jieba库,运用jiebacut实现分词。cut_all参数为分词类型,默认为精确模式。
import jiebaseg_list = jiebacut(u"这是一段测试文本",cut_all = False)print("Full mode: "+ ","join(seg_list)) #默认精确模式
无论是R还是python都为utf—8编码。
R实现
可以使用<=tagger 或者tag 来进行分词和词性标注,词性标注使用混合模型模型分词,标注采用和 ictclas 兼容的标记法。
words = "我爱北京天安门"tagger = worker("tag") #开启词性标注启发器tagger <= words # r v ns ns # "我" "爱" "北京" "天安门"
python实现
#词性标注import jiebaposseg as psegwords = psegcut("我爱北京天安门")for word,flag in words: print('%s, %s' %(word,flag))
R实现
R关键词提取使用逆向文件频率(IDF)文本语料库,通过worker参数“keywords”开启关键词提取启发器,topn参数为关键词的个数。
keys = worker("keywords",topn = 5, idf = IDFPATH)keys <= "会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。"#结果:# 488677 234784 221402 20326 185354 # "饮用水" "Flint" "卫生" "水污染" "生活"
python实现
python实现关键词提取可运用TF-IDF方法和TextRank方法。allowPOS参数为限定范围词性类型。
#关键词提取import jiebaanalysecontent = u'会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。'#基于TF-IDFkeywords = jiebaanalyseextract_tags(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords: print item[0],item[1] #基于TF-IDF结果# 饮用水 0448327672795# Flint 0219353532163# 卫生 0203120821773# 水污染 0186477211628# 生活 0170049997544
#基于TextRankkeywords = jiebaanalysetextrank(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords: print item[0],item[1] #基于TextRank结果:# 饮用水 10# 美国 0570564785973# 奚传武 0510738424509# 单位 0472841889334# 讲座 0443770732053
写在文后
自然语言处理(NLP)在数据分析领域有其特殊的应用,在R中除了jiebaR包,中文分词Rwordseg包也非常常用。一般的文本挖掘步骤包括:文本获取(主要用网络爬取)——文本处理(分词、词性标注、删除停用词等)——文本分析(主题模型、情感分析)——分析可视化(词云、知识图谱等)。本文是自然语言处理的第一篇,后续将分别总结下应用深度学习Word2vec进行词嵌入以及主题模型、情感分析的常用NLP方法。
参考资料
Introduction · jiebaR 中文分词 https://qinwenfengcom/jiebaR/segmenthtml
知乎:文本分析利用jiebaR进行中文分词 https://zhuanlanzhihucom/p/24882048
雪晴数据网:全栈数据工程师养成攻略 http://wwwxueqingtv/course/73
搜狗实验室,词性标注应用 http://wwwsogoucom/labs/webservice/
R文本挖掘中文分词Rwordseg http://blog163com/zzz216@yeah/blog/static/162554684201412895732586/
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:
1句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
2信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
3文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
4机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
5信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
6问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
7对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。随着深度学习在图像识别、语音识别领域的大放异彩,人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能,成为目前大家关注的焦点。很多研究生都在进入自然语言领域,寄望未来在人工智能方向大展身手。但是,大家常常遇到一些问题。俗话说,万事开头难。如果第一件事情成功了,学生就能建立信心,找到窍门,今后越做越好。否则,也可能就灰心丧气,甚至离开这个领域。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)