1、朴素贝叶斯公式:
2、 API: from sklearnnaive_bayes import MultinomialNB
3、 注意事项: 一个完整的文本不能直接拿来训练,所以在训练之前,我们需要将自己的语句分词,构建词向量,所以我们这里需要先进行分词处理,这里我选择的是结巴分词。
从上面预测结果看,预测的三个结果均与真实值一致,模型评估结果值为:10 很高!
一、高考试题题干是解题的“线索”,它给考生指示答题方向、范围、要求等。
读懂题干,才能从容抓分。
纵观几年来全国各地的高考语文试卷,不难发现题干中隐含着一些相似的“常用术语”。
总结如下:
表达方式 :语文常用的表达方式有记叙、描写、议论、抒情、说明等。
写作手法: 狭义的写作手法即 “表达方式”、广义的是指写文章的一切手法,诸如表达方式、修辞手法、先抑后扬、象征、开门见山、托物言志等。
修辞手法 :常用的有比喻、拟人、反复、夸张、排比、对偶、对比、设问、反问等。
语言特点: 一般指口语的通俗易懂,书面语的严谨典雅,文学语言的鲜明、生动、富于形象性和充满感 彩的特点。
分析时,一般从修辞上进行分析。
说明文的类型:事物、事理说明文(内容角度);平实、生动说明文(语言表达角度)。
说明方法:一般有举例子、分类别、列数据、作比较、下定义、作诠释、打比方、画图表、摹状貌等(一般是三个字)。
说明顺序:时间顺序(程序顺序)、空间顺序、逻辑顺序。
答题时可答得具体些,如:空间顺序(从上到下,从里到外等),逻辑顺序(先结果后原因,层层递进等)。
说明对象:指文章说明的主要人或事物(一般不必答人或事物的特点)。
议论文题目:论点型、论题型、关系型、寓意型
论证方法:中学要求掌握的的道理论证、事实论证、对比论证、比喻论证、归廖法。
论证方式:立论和驳论。
理论论据:包括名人名言、俗语谚语、公式定律等。
事实论据:一切事实、史实、数据等。
有何作用:回答文中某一内容的作用可从三个方面考虑,一是内容方面,如深化主题、强调感情等;二是结构方面,如过渡、呼应等;三是语言方面,如引人入胜、生动活泼等。
思想内容:基本是指文章的中心思想或主旨。
思想感情:作者或作品人物所表现出来的思想倾向,如善恶、好恶、褒贬等。
以上各“常用术语”,暗中考查同学们的语文基础,同时也是题目的赋分点所在,将其理解清楚,可根治“答非所问”的弊病。
二、古代诗歌鉴赏常用名词术语
1、评价主旨类深化意境、深化主旨、意境深远、意境优美、意味深长、耐人寻味、言近旨远(语言浅近易懂,主旨深远)、言简意丰(语言简洁,内容丰富)、意在言外(言外之意,言在此而意在彼,弦外音,味外味,言有尽而意无穷)、含蓄蕴藉、委婉、不著一字,尽得风流(语意含而不露,或表达得不明显,耐人寻味)。
2、语言特点类勾勒简洁(介绍事物的大概)、浓墨重彩(描写详尽、细腻)、惟妙惟肖(描写逼真,多指人或动物)、体物入微或穷形尽态(相)(描写细致入微、刻画细致生动)、诗情画意。
3、语言风格类行云流水(结构、语言自然流畅)、形神兼备(语言、结构等形式与内容主旨都无可挑剔)、简洁或洗炼(语言简练利落)、浅显或明白如话(不雕饰,不加修饰)、平淡无奇、质朴清新、淡雅、词藻华丽 、明快(明白通畅)。
4、文章结构做铺垫(在情节发生前的交代、暗示)、 埋伏笔(前段为后段埋下的线索)、呼应或照应(前后的互相联系)、浑然天成(结构非常完整,如同自然生成的)。
5、其它 构思精巧、新颖、独树一帜、别具一格、不落窠臼、不落俗套、自出机杼(有创新,不沿用陈旧的格式、作法、颇具匠心)、感情细腻、感情真挚 、跃然纸上、曲折、层次分明。
三、诗歌赏析方法
1.应试策略:
(1)掌握必要的赏析(鉴赏)知识
意境:是诗中意与境两个因素的和谐统一,是诗人表达的思想感情与诗中所描写的生活图景的有机结合。
抒情方式:直接抒情与间接抒情。
表现手法:如烘托,衬托,虚实,托物言志,借物抒情等。
风格流派:由于作家的生活经历,感情气质,艺术素养等各不相同,因而在创作中表现出各自独特的格调、气派和趣味,这就形成了作品的不同风格。
比如李白的飘逸洒脱,杜甫的沉郁顿挫,苏轼的旷达豪放,柳永的柔美婉丽等。
了解诗人的风格,有利于把握他们在诗中所要表达的思想感情。
语言特色:清新——用语新颖,平淡——质朴真切,绚丽——绚烂奇幻,明快——一语破的,含蓄——意在言外,简洁——言简意赅。
(2)掌握赏析方法
①了解诗人或作品的相关背景,有利于把握诗歌的内容和思想。
②借助联想与想象,有利于把握诗歌的意境,因为诗歌具有张力,尺幅之中韵味无穷。
③品味诗词中作者的炼字,炼句和链意。
赏析时对诗人准确传神的用字,精巧贴切的修辞,情与景的交融,物与理的结合等艺术手法要作深入的品析,有利于把握作品的立意与情感,走进作品的真实,感悟诗人的情怀。
文学作品鉴赏是一项综合性很强、能力层次较高的创造性活动,目前,诗词鉴赏教学可说是语文教学的弱项及中考复习的盲点。
复习时,要从以下几方面注意鉴赏题考点的设置:1、对诗词内容的理解:⑴对中心思想的理解;⑵对所抒感情的理解;⑶对抒情主体形象的理解;⑷对象征意义的理解。
2.对所用表现手法及其作用的理解。
3.对诗词语言的理解:⑴对关键词语的理解;⑵对关键语句的理解。
4.对诗词意境的理解。
题型一般为选择、填空、简答三个类型,有些是鼓励学生创新的开放性试题。
解题思路与技巧:
1.从作家、作品的相关背景资料人手,把握作品的旨趣、作者的情感倾向、诗句的原意。
2.从作家风格(豪放、婉约等)和语言特征(如简约、含蓄等)去领悟诗句的含义及表达的情感。
3.从关键词语着手,如抓住诗词中关键的动词的用法、含义及作用去赏析。
4.从关键句(如主旨句、哲理句、情感句)着手,分析概括、推理解答。
5.从修辞手法和表达方式、表现手法着手,品味语言、想象意境。
6.从诗词的具体内容的全面理解着手,把握各类(送别、咏物、爱国等)诗词的思想内容。
对于主观性试题的解答,还应注意文字表述应简洁、明了,切中要害。
熟悉古典诗词鉴赏常用名词术语
⑴评价主旨类
深化意境、深化主旨、意境深远、 意境优美 、意味深长、耐人寻味 、言近旨远、言简意丰、意在言外、含蓄蕴藉等 。
⑵分析手法类
卒章显志、画龙点睛、直抒胸臆 、托物言志、 象征、以小见大、开门见山、寄寓 、寄托、衬托、烘托、渲染、侧面描写 、对比、起兴、情景交融、情景相生、 情因景生、借景抒情、以景衬情 、融情入景 、一切景语皆情语等 。
(3)语言特点类
勾勒、浓墨重彩、描写详尽、细腻、惟妙惟肖、体物入微、穷形尽态(相)、富有哲理、淋漓尽致、行云流水、形神兼备、简洁、浅显、明快、明白、通畅、平淡、无奇、质朴清新 、淡雅、词藻华丽等 。
(4)风格类 沉郁顿挫、豪放、雄浑、旷达、沉郁、苍凉、冲淡、低沉、悲慨、苍劲、舒缓、悲凉、俊爽、等。
(5)文章结构
做铺垫、埋伏笔、呼应、浑然天成等。
(6)行文技巧类
虚实相生、水 融等。
7.掌握修辞方法在诗歌中运用的特点
诗词常用的修辞手法是比喻、拟人、对比、夸张、借代、双关、互文、等。
其次,读懂诗要注意运用方法
(1).借助题目、作者、注释。
题目是切入点。
古诗的题目很讲究,它往往能揭示诗歌写作的时间、地点、对象、事件、主旨等,是我们解读诗歌的重要切入点,从题目入手,我们可以迅速准确地理解诗歌。
作者:确定朝代、风格,为后面分析语言、表达技巧、思想内容和诗人的观点态度作铺垫。
注释:可以了解作品创作背景。
(2)、学会从内容上分类鉴赏诗歌。
古代诗词的分类
古代,浩如烟海,从《诗经》到清代的诗歌,数量之多,题材之广,令人赞叹。
但就其内容而言,大体可概括为:咏史诗、山水田园诗、咏物诗、边塞诗、抒怀诗等。
掌握各类诗的特点极其方法。
(具体鉴于篇幅,不赘述)品茗》大
3.借助背景
诗歌鉴赏不应忽视对其背景的了解。
这里所说的背景,包括诗人所处的社会时代、生平遭遇、思想主张等多方面的内容。
这些方面,对诗人的诗歌创作往往有着直接的影响。
因而,我们在欣赏诗歌的时候,就应当借此来理解诗歌、把握诗歌。
4.注意作品中的“细节描写”。
中国古典诗词一般篇幅短小精悍,这样就不象叙事性作品那样有过多的细节描写。
但是,即使是短小的篇章哪怕是抒情小品,也同样不能忽视了其中的细节描写。
5、注意作者的“逻辑思维”。
古典诗词人们一般能注意到其中的形象思维,并对此加以充分的分析,而忽视了对作品进行必要的逻辑思维的分析理解,从而在某些时候不能全面客观地鉴赏出作品的真正意蕴。
形象思维不能排斥逻辑思维,而且必须以逻辑思维为基础。
6.注意作品中的“典故”运用。
用典,是古诗词中常用的一种表现方法,在增强了作品意蕴的同时,也给我们阅读造成了一定的影响。
有些时候要是不能正确理解其中典故的含义就直接影响对整个作品的鉴赏。
所以必须对作品中的“典故”有个初步的理解,透过原来典故中的本意进而理解出用典后所表达出的新的含义。
一般而言,古诗词中的用典要注意以下几种情形。
点化前人语句。
点化不同于直接引用,而是将前人语句消化后用自己的话写出。
明用历史故事。
在引用历史故事时,明白地指出是何人何事,这是明用
暗用历史故事。
比明用隐蔽,因为没有明白地指出是什么,所以难以一眼看出。
如果知道所用的历史故事,便能读懂诗词;反之,便要大伤脑筋了。
反用历史故事。
明用和暗用历史故事,都是正用其意,反用历史故事,则是反用其意。
二、 鉴赏、评价
1.把握诗歌的意象与意境
诗歌的意象:
诗歌的意象是多种多样的,归纳起来有以下几类:
(一)象征性意象
(二)比喻性意象
(三)描述性意象
(四)通感性意象
2. 鉴赏诗歌中的形象
所谓“形象”就是文学作品中展示出来的生活图画,一般可分为人物形象和自然景物。
(1)人物形象。
诗中的诗人形象“我”,一般指的就是抒情主人公,即诗人自己。
有别于小说中的“我”(非作者本人)。
(2)景物形象。
诗中的景物形象是情中景。
抒情诗,往往是借助客观物象(山川草木等)表现出来的主观感情形象,也就是含有“意”的形象,即“意象”。
诗人一般借意象来表现自我,诗人作为主体,往往与意象这个客体合而为一。
有时诗中有几个意象,各个意象之间都有一定的联系。
一般的短评写作时要注意先“盖帽”,即说出诗人的形象的总体特征,再以此为“中心论点”,从诗歌的具体语词方面对这个论点进行分析论证。
其他三个方面的鉴赏和评价一般也使用这个思路。
值得注意的是一定要围绕“这个”论点来写。
初学者往往失却重点,在简短的文字中写到各方面的内容。
鉴赏诗人形象的思路与其他文学作品中的方法一致,一般从其“社会地位”“思想意识”“性格特征”等方面入手。
但在具体写作过程中不宜出现这些字眼,我们在这时借用的是它的方式和思路。
3、 鉴赏作品的语言
诗歌的语言主要特征有:凝练性、形象性、情感性、跳跃性。
鉴赏诗歌的语言主要从这几个方面入手。
而这几个方面往往是合为一体的。
4.鉴赏作品的表达技巧
表达技巧指诗人在借助语言文字塑造艺术形象时,灵活运用一般创作规则和方法所表现出来的具体而又特殊的艺术手段。
主要考查艺术特色和表现形式。
(1)抒情方法。
抒情方法包括直接抒情(直抒胸臆)和间接抒情。
间接抒情的主要手段有借景或物抒情,借人或物言志,另外还有融情于景、怀古伤今和即事感怀等。
(2)表现手法。
表现手法可以从三个方面进行把握:
1、创作方法:赋、比、兴;
2、表达方式:记叙、描写、抒情、议论;
3、构思技巧:以动写静,乐景写哀、虚实结合、小中见大、点面结合、想象联想、象征寄托等。
在这三个方面中,第三方面为其重点。
(3)用典。
鉴赏诗歌的用典主要明确两点:
1、典故的来源及其含义。
2、用典的作用。
用典的作用在唐以前诗歌中主要表现为增加诗歌的容量,使诗典雅耐读,富于文采;在唐以后的诗词曲中主要是怀古伤今,咏史言志。
(4)风格
风格是由创作个性决定的作品在思想与艺术上总的特色。
风格就大处而言,有浪漫主义和现实主义之分。
从诗词曲的总体风格来讲有诗庄、词媚、曲谐(俗)之说,词又有豪放和婉约之别。
1、不同的风格有不同的特征:
浪漫主义:善于抒发对理想世界的热烈追求,常用夸张手法,语言热情奔放,想象瑰丽神奇。
代表的诗人有屈原、李白、李贺、苏轼、龚自珍等。
现实主义:注重按照生活本来的样了精确细腻地描写现实,真实地反映人民的生活与追求。
代表的诗人有杜甫、辛弃疾、陆游等。
2、许多诗人形成了自己的独特的风格:
苏轼、辛弃疾:豪放 柳 永、李清照:婉约李煜、刘禹锡:隽永
谢朓、谢灵运:自然 李 白:清新飘逸 杜甫:沉郁顿挫
屈原:雄浑悲壮 王安石:雄健高峻陶渊明:淡远闲静
王维:恬淡优美 王昌龄:雄壮豪迈 李贺:雄浑奇特
曹操:豪放磅礴
3、不同类型的诗有不同的风格:
宫廷诗:缠绵宛转 田园诗:恬淡宁谧山水诗:清新优美
边塞诗:悲凉慷慨 讽喻诗:沉郁激愤咏史诗:雄浑壮阔
(5)修辞:
主要掌握高考所要求的八种修辞手法,考查的形式一般是明辨修辞的艺术手法,分析修辞的艺术效果。
5. 评价作品的思想内容
第一,思想感情:
考查的主要有三点:
1、情感类别:哀怨、激愤、憎恶、忧愁、欣喜、欢快、向往、离愁别恨、怀古伤今等。
2、情感载体:杨柳——离别 菊花——傲骨 圆月——团圆落叶——失意等。
3、抒情方法:见前“鉴赏表达技巧部分”
第二,内容主旨:
考查的主要有:
1、涉及的文化常识、生活常识、历史典故、神话传说和自然现象。
2、某一诗句的大意或内涵。
3、诗人的思想倾向、政治主张、志向追求、生活经历等。
4、时代背景、社会现实。
诗歌表现思想内容的形式大致有两种,一是借景物抒情,一是借人物言志。
律诗、绝句大多是先描写景物,后抒 怀;词曲往往是咏物怀古,即借事物、借人物来表明心志。
思想内容也就在抒情言志的诗句里得到集中的体现。
对诗歌思想感情的鉴赏,首先从诗歌的基本内容入手,其次写出作者在诗歌中所蕴含的情感。
三、总结、表述
1.灵活运用常见的古诗鉴赏术语,准确得体地表述自己“就诗论诗”的心得 。
“写什么”方面:写景抒情; 咏物言志(情); 怀古咏史; 即事感怀;边塞征战; 山水田园; 意象; 意境; 背景;主旨。
“怎样写”方面:浪漫主义;现实主义;诗眼;借景抒情; 融情于景;直抒胸臆; 虚实相济; 绘形绘声绘色;动静结合;化静为动;炼字;起承转合;赋比兴;夸饰;用典;含蓄;对仗;韵脚。
“为何写”方面:抒发……的思想感情; 反映……的社会现实;表现……的情趣;寄托……的情怀(如爱慕、愁绪、惆怅、苦闷等);表达……的追求; 流露……的倾向;发出……的感慨; 袒露……的心迹; 造就……的情致。
2.区分几个概念,明确答题的内容角度
问“表达方式”,则答 叙述、描写(虚实、动静)、议论、抒情、铺陈等;
问“修辞手法”,则答 所运用的修辞格;
问“艺术(表达)技巧”,则答 想像、联想、衬托(正衬或反衬)、对比、象征、用典、化用、含蓄蕴藉等。
4.、答题时,要特别注意以下几点:
一是紧扣要求,不可泛泛而谈;二是要点要齐全,要多角度思考;三是推敲用语,力求用语准确、简明、规范。
修辞手法和说明方法在阅读文中的作用(阅读理解)
1、排比、反复: 强烈的抒发了————。
排比往往给人一气呵成之感,语言畅达,有气势,能增强文章的说服力和感染力。
反复强调某个意思或突出某种情感。
2、反问:使——语气更加强烈,比一般陈述句表达的感情更加强烈,比直说意思表达更鲜明。
3、比喻:用比喻来描写事物,可以把事物描写的生动形象,具体可感;用来阐述道理,
可以把道理阐述的通俗浅显、易于理解。
4、夸张:用来强调或突出事物某一方面特征,表达某种强烈的思想感情。
5、设问:自己回答问题引起读者的注意和思考,还有对——起强调作用。
6、对偶:使句式更加——,语言工整等。
1、打比方:使——更加形象生动。
语言生动。
2、分类别:使对—的说明更加清楚。
3、举例子:使读者更加相信——4、列数字:使读者更加相信,使语言更加准确。
5、作比较:通过比较更鲜明的揭示出——6、下定义:对——的解释更加准确。
对事物本质特点的解释。
7、作诠释:阐明事物的某一特点,也是对——的解释更加准确。
三、诗歌鉴赏答题格式
1、形象:身份+性格
2、诗歌意象、含义:表层含义+深层含义(即解释诗句)
3、所抒感情:通过什么内容+抒发(寄寓/揭露)什么感情
4、体会意境:客观形象+主观感受+交融了什么意境
5、品味关键词句:含义+手法+表达作用(句意+文意+主旨情感)
6、赏析修辞方法:揭示手法+分析表达作用(句意+文意+主旨情感)
7、赏析表达方式:怎样叙(描写)+叙(描写)什么+抒什么情
8、赏析表现手法:手法+表达作用(句意+文意+主旨情感)
9、概括评价诗歌内容:这是一首什么样的诗+诗歌各句分别写了什么+通过什么手法+抒发什么情感+评价(总分总式)
常见意象示例
树木类
黄叶:凋零、成熟、美人迟暮、新陈代谢
绿叶:生命力、希望、活力
松柏:坚挺、傲岸、坚强、生命力
竹:气节、积极向上
桐:凄苦
柳:送别、留恋、伤感、春天的美好
花草类
花开:希望、青春、人生的灿烂
花落:凋零、失意、人生事业的挫折、惜春、对美好事物的留恋追怀
菊:隐逸、高洁、脱俗
梅:傲雪、坚强、不屈不挠、逆境
兰:高洁
牡丹:富贵、美好
草:生命力强、生生不息、希望、荒凉、偏僻、离恨、身份低微的卑微
禾黍:黍离之悲(国家的昔盛今衰)
3、动物类
子规:悲惨、凄恻
猿猴:哀伤、凄厉
鸿鸽:理想、追求
鱼:自由、惬意
孤雁:孤独、思乡、思亲、音信、消息
鹰:刚劲、自由、人生的搏击、事业的成功
狗、鸡:生活气息、田园生活
瘦马:奔腾、追求、漂泊
乌鸦:小人、俗客庸夫
沙鸥:飘零、伤感
风霜雨雪水云类:
江水:时光的流逝、岁月的短暂、绵长的愁苦、历史的发展趋势
烟雾:情感的朦胧惨淡、前途的迷惘渺茫、理想的落空幻灭
小雨:春景、希望、生机、活力、潜移默化的教化
暴雨:残酷、热情、政治斗争、扫荡恶势力的力量、荡涤污秽的力量
春风:旷达、欢愉、希望
东风:春天、美好
西风:落寞、惆怅、衰败、游子思归
狂风:作乱、摧毁旧世界的力量
霜:人生易老、社会环境的恶劣、恶势力的猖狂、人生途路的坎坷挫折
雪:纯洁、美好、环境的恶劣、恶势力的猖狂
露:人生的短促、生命的易逝
云:游子、漂泊
天阴:压抑、愁苦、寂寞
天晴:欢愉、光明
器物类
玉:高洁、脱俗
珍珠:美丽、无暇
6:其他类:
古人:明志、自省、鞭鞑
古迹:怀旧、明志、昔盛今衰(国家)、衰败、萧条(古迹一般和古人密切相联)
破晓:初现希望
深夜:愁思怀旧
乡村:思归、厌俗、田园风光、生活气息、纯朴美好、安逸宁静
仙境:飘逸、美妙洁净、忘尘厌俗
月亮:人生的圆满或缺憾、思乡、思亲
夕阳:失落、消沉、珍惜美好而短暂的人生或事物
天地:人类的渺小、人生的短暂、心胸的广阔、情感的孤独
酒:欢悦、得意、失意、愁苦
————————希望学习进步,金榜题名,心想事成,工作顺利,生活欢乐美满———————更多追问追答 追问
空白的
追答什么空白的。
全在呢。
追问我看到是空白的
就一个白色小框框
答:划线句是“与中午不同的是,它们已经被晒在阳光最好的地带,夕阳将雪白的被里镀上一层浅浅的金色。而母亲的被子却寂寞的呆在晾衣绳的一头,房屋的阴影默默地在它们身上画着单调而规则的几何图形。”饱含了作者感动和幸福的感情。(2分)
NLP 是什么?
NLP 是计算机科学领域与 人工智能 领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成:自然语言理解和自然语言生成。
自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。
自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。
NLP 技术基于大数据、知识图谱、 机器学习 、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。
NLP在金融方面
金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。
事件(Event ):在特定时间、特定地点发生的事情。主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。
1 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。
2 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题,即词语在句中的语义,词语对相邻语句的语义等。
3 词向量化什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为100。
4 词性标注
什么是词性标注?简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。
5 命名实体消歧
什么是命名实体消岐?命名实体消岐是对句子中的提到的实体识别的过程。例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。
6 命名实体识别
体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。
7 情感分析
什么是情感分析?情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。
8 语义文本相似度
什么是语义文本相似度分析?语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意,相似性与相关性是不同的。
9语言识别
什么是语言识别?语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。
10 文本摘要
什么是文本摘要?文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。
11评论观点抽取
自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。
11DNN 语言模型
语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。
12依存句法分析
利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。
1、NLTK
一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的 jieba 处理库
2、文本处理流程
大致将文本处理流程分为以下几个步骤:
Normalization
Tokenization
Stop words
Part-of-speech Tagging
Named Entity Recognition
Stemming and Lemmatization
下面是各个流程的具体介绍
Normalization
第一步通常要做就是Normalization。在英文中,所有句子第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。
Tokenization
Token是"符号"的高级表达, 一般值具有某种意义,无法再拆分的符号。在英文自然语言处理中,Tokens通常是单独的词,因此Tokenization就是将每个句子拆分为一系列的词。
Stop Word
Stop Word 是无含义的词,例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义,单停止词是频率非常多的词。 为了减少我们要处理的词汇量,从而降低后续程序的复杂度,需要清除停止词。
Named Entity
Named Entity 一般是名词短语,又来指代某些特定对象、人、或地点 可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前,必须先进行 Tokenization 并进行 PoS Tagging。
Stemming and Lemmatization
为了进一步简化文本数据,我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。
3、Word2vec
Word2vec是一种有效创建词嵌入的方法,它自2013年以来就一直存在。但除了作为词嵌入的方法之外,它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。
### 四、NLP前沿研究方向与算法
1、MultiBERT
2、XLNet
3、bert 模型
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点:
使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;
使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标;
使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了BERT模型,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。
BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
模型结构: 由于模型的构成元素Transformer已经解析过,就不多说了,BERT模型的结构如下图最左:
对比OpenAI GPT(Generative pre-trained transformer),BERT是双向的Transformer block连接;就像单向rnn和双向rnn的区别,直觉上来讲效果会好一些。
优点: BERT是截至2018年10月的最新state of the art模型,通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
缺点: MLM预训练时的mask问题
[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现
每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)
BERT火得一塌糊涂不是没有原因的:
使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文;
11个NLP任务的精度大幅提升足以震惊整个深度学习领域;
无私的开源了多种语言的源码和模型,具有非常高的商业价值。
迁移学习又一次胜利,而且这次是在NLP领域的大胜,狂胜。
BERT算法还有很大的优化空间,例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力,而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成,论文中说的训练需要在64块TPU芯片上训练4天完成,而一块TPU的速度约是目前主流GPU的7-8倍。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)