文科生学习计算机语言学是可行的,确实有一定的难度。知乎上已经有计算机语言学的专业人士对这个学科所需要的知识做了比较系统的归纳,我们在这里分享一个学生案例,据此来说说文科生应该如何去转专业学习计算机科学。
一、 计算语言学从哪些方面来准备
作为一个交叉学科,这个专业的人一定是“能文能武”的。
课程方面:
语言学:
不知道小伙伴们的“文科”具体是什么。我有一位学生是法英双语专业出身,她的专业课上直接就包括了“话语分析”。通过专业课的学习,学生了解到如何将相关信息关联、组织和表达,并且被人所理解。我们认为“理所当然”的表达和被理解,其实微妙的被数量原则、质量原则、关联原则、方式原则等基础会话原则所操控。
除了课堂学习之外,学生又主动阅读了大量语言学著作,比如 B布洛赫、G.L特雷杰《语言分析纲要》和索绪尔的《普通语言学教程》等,加深对句法、语义等的理解。这是计算语言学最重要的理论基础。
计算机方面:
这一块也是大多数文科生,或者转专业申请的学生最为 concern 的。实话说不是计算机科班出身的人确实难度不小。算法、机器学习等概念对于“码农”们来说是很基础的,但是纯文科生会显得非常难和陌生。
这里要给文科同学打鸡血了。刚才介绍的法英双专业的同学是个妹纸,而且是一个非常有决心和毅力的妹纸。自从有了从事自然语言处理(NLP)职业的想法后,她利用大三的寒假时间,参加了一个 Python 的训练营,高强度的实战训练,让她从最初的零基础,到利用编程来建模用实际数据解决问题。
作为文科生,她在中间也遇到过很多困难,但是选择了坚持下来。除此以外,她申请跨到计算机系上了数据结构、机器学习、Java 编程等课程,这些基础课的学习,对于一个文科生转到计算机语言学专业是非常重要的。
科研/实习:
计算机语言学是一个应用性很强的专业,仅仅完成一些课程的学习是远远不够的。该同学在申请季前夕参加了一个自然语言处理和深度学习的项目,对她研究生转专业是至关重要的。
在该项目中,她独立制作了一个聊天机器人(Chatbot),采用天气预报数据作为素材,进行训练,让机器人可以回答关于某个城市的天气状况和空气质量等信息。该项目中间也遇到了诸多挑战,比如机器人“答非所问”,语调生硬等等,启发她思考如何来加强语义分析和情感识别方面。一些项目中待解决的问题也直接激发了学生继续深造的热情。
二、 申请美国研究生的策略问题
正如其他业内知乎答主的所说,美国始终走在计算机语言学的科研前沿。有条件的情况下,申请一个美国的研究生,将成为文科同学走进计算机语言学领域,从事相关工作的一个重要踏板。
但是该领域近年来随着“机器学习”“人工智能”等概念变得炙手可热。大量计算机背景的申请者都来申请这个项目,使其难度对于文科背景的申请者来说是很大的。
选校是其中关键一环,这个要根据申请者自身的竞争实力和学校的录取难度以及未来职业规划来综合决定,所谓的“知己知彼”才能“百战不殆”。
而这时候往往申请者对于国外院校的了解也只是学校官网和一些留学网站上面碎片化的信息,对于自身的定位更是难以把控。还有就是搜集和整理这些碎片化的信息,制作自己独特的文书其实也是需要耗费自己大量的时间经历的。
笔者在 7 年间辅导过很多同学进行半 DIY 申请,发现很多同学这个时候也还在努力的刷 GRE、托福成绩,同时大三暑假基本都在做全职的实习,大四上学期申请季也都还有学校的科研项目在做,或者还有几门课程在上。这样的矛盾情况下,其实选择咨询计算语言学亲历过整个申请过程的“过来人”和对近年来积累了大量辅导同学成功案例的老师可以事半功倍。
作为棕榈大道的“全能主导师”之一,我就真的要安利了。
前面所说的那位同学由于有较好的前期规划,做了很多准备工作,申请季的时候,我们给她安排了在 UW 就读的何学长帮助她分析自身定位,选择了计算机语言学比较有名的几所学校,又避免了以自己所短,来博他人之长(那些纯 CS 的同学在某些特别强调算法和编程背景的学校有很强的竞争)。
同时,文书的打造也是重要的环节,个人陈述配合好简历等其他材料,展现申请者独特的优势。通过与申请者详细的沟通,我们深入挖掘她的兴趣,巧妙的展现她独特的“文科”-语言学方面的理解和优势,同时恰到好处的展现她对于自然语言处理方面的热情和清晰的职业规划,最终成功地打动了评审委员会。同学目前已经拿到了 ASU 的 offer,还在争取其他学校的录取。
最后希望文科有志于转计算机语言学的同学们都能勇敢地追随自己的梦想!
问题一:情感的定义 情感是态度这一整体中的一部分,它与态度中的内向感受、意向具有协调一致性,是态度在生理上一种较复杂而又稳定的生理评价和体验。情感包括道德感和价值感两个方面,具体表现为爱情、幸福、仇恨、厌恶、美感等等。 《心理学大辞典》中认为:“情感是人对客观事物是否满足自己的需要而产生的态度体验”。同时一般的普通心理学课程中还认为:“情绪和情感都是人对客观事物所持的态度体验,只是情绪更倾向于个体基本需求欲望上的态度体验,而情感则更倾向于社会需求欲望上的态度体验”。
心理学的定义
《心理学大辞典》中认为:“情感是人对客观事物是否满足自己的需要而产生的态度体验”。同时一般的普通心理学课程中还认为:“情绪和情感都是人对客观事物所持的态度体验,只是情绪更倾向于个体基本需求欲望上的态度体验,而情感则更倾向于社会需求欲望上的态度体验”。但实际上,这一结论一方面将大家公认的幸福、美感、喜爱等等,较具有个人化而缺少社会性的感受排斥在情感之外;而另一方面又显然忽视了情绪感受上的喜、怒、忧、思、悲、恐、惊,和社会性情感感受上的爱情、友谊、爱国主义情感在行为过程中具有的交叉现象,例如一个人在追求爱情这一社会性的情感过程中随着行为过程的变化同样也会有各种各样的情绪感受,而爱情感受的稳定性和情绪感受的不稳定性又显然表明了爱情和相关情绪是有区别的。基于这两点,将情感和情绪以基本需要、社会需求相区别,或者是将情感和情绪这两者混为一谈都显然不合适的。
情绪是身体对行为成功的可能性乃至必然性,在生理反应上的评价和体验,包括喜、怒、忧、思、悲、恐、惊七种。行为在身体动作上表现的越强就说明其情绪越强,如喜会是手舞足蹈、怒会是咬牙切齿、忧会是茶饭不思、悲会是痛心疾首等等就是情绪在身体动作上的反应。生理反应是情绪存在的必要条件,为了证明这一点,心理学家给那些不会产生恐惧和回避行为的心理病态者注射了肾上腺素,结果这些心理病态者在注射了肾上腺素之后和正常人一样产生了恐惧,学会了回避任务。情感也是一样,比如没有 当然不会有爱情的,而当人吃了 以后,伴随着 的旺盛一见钟情的可能性也就会随之加大了。所以,由不同的药物 引发的行为过程也表明了,情绪和情感显然是有区别的两种不尽一致的心理生理过程。
实质上,在行为过程中态度中的情感和情绪的区别就在于:情感是指对行为目标目的的生理评价反应,而情绪是指对行为过程的生理评价反应。再以爱情举例来说,当我们产生爱情时是有目标的,我们的爱情是对相应目标的一种生理上的评价和体验,同时当我们随着爱情的追求这一行为过程的起伏波折我们又会产生各种各样的情绪。
问题二:情感交流的定义是啥? 20分 现在多特指社会交际或工作中的一种人际交流,较为认可的概念:为了一个设定的目标,把信息、思想和情感在个人或群体间传递,并且达成共同协议的过程它有三大要素即:①要有一个明确的目标;②达成共同的协议;③沟通信息、思想和情感
问题三:感情过程的定义 人们在认识客观事物时,不是冷漠无情、无动于衷,而总是带有某种倾向性,表现出鲜明的态度体验,充满着感情的色彩。因此,情感过程是心理过程的一个重要内容,也就是人与动物相区别的一个重要标志。根据情感色彩的程度可将情感过程分为情绪、情感和情操三个层次。
问题四:情感的逻辑.情感是什么?“情感”定义 情感是人们行为表现中最为复杂的精神现象,也是人类生活中基本的精神表达。在日常生活中,总是伴随着喜、怒、哀、惊、愁、悲、妒嫉等等情感产生。人在认识事物时,对现实中不同的客观的对象环境状态都会产生不同的精神情感现象;有些客观环境状态使人愉快;有些客观环境状态使人惊慌;有些客观环境状态使人愤怒;还有些客观环境状态使人悲哀;另还有许多如冷漠、疑惑等等。这些愉快、愤怒、悲哀、冷漠、疑惑等等都是人的精神的情感情绪的不同表现形式。作为人,情感还表现在语言文字、艺术创造和劳动行为之中,甚至漠然和呆滞也是情感的表现形式。因此,作为人的情感分为两个方面:一是作为动物的人;另一是作为精神社会的人,人区别于其他动物最根本的特征就是“语言文字性质的精神表达”。人以外其他动物的情感表达只有体征形式,例如:狗在高兴时的欢快行为就是摇头摆尾;在受到主人责骂后就夹着尾巴而低着头。人表达情感不仅仅只有体征表达,还可以用文字的书信以及现代的信息产品、艺术礼品等作为传递情感的表达形式。..……………………...情感是作为生命精神主体对客观环境条件,是否符合人的需要,而产生的感觉体验和“逻辑判断”反应;与人有相互作用关系的客观事物就是客观环境条件状态,包括外部客观事物和人主体内部客观事物;内部客观事物是独特的包括自我“主观”客观化的形式。这些客观实在的事物就是情感产生的基础。不同的客观事物以及其事物中的不同特性,对人实际需要之间的相互作用,就可产生出人的各种不同的精神反应状态,这些状态就是情感。因此,认识“情感”的性质特征,其要点就是人与其自然环境事物动态的相互作用关系。.....人对自身的需要而产生的逻辑判断反应就是情感,需要就是情感产生的动力,客观条件符合人的某种需要时,就可产生相应的正相关的情感反应,如满意、愉快、高兴、平静等等;否则就会可能产生负相关的情感反应,如忧郁、愁苦、恐惧、烦闷等等;当人面对的是陌生事物时,或客观事物条件突然变化过大时,人就会产生惊讶、或恐慌、或疑虑等等情感反应;人处于内省状态时,自相互作用就会产生呆滞、沉思、冷静等等情感反应。.....从“情感”语义上,“情”字的字义是:一是精神对自然事物的信息结构的指称;另一是被指称对象的结构中存在着特定的结构性倾向。而“感”是指人受到自然结构性信息作用力传递后的确认和反应;对于自然事物,“感”是指某种事物的结构性相互作用对另一事物的结构性传递,例如:电磁感应、动量碰撞等等。因此,情感的基本定义就是:自然结构性信息作用于生物后所产生的自然的生物目的性的自然逻辑形式反应;作用于人就是人的情感形态的逻辑反应。其中,即时的逻辑判断反应,且有很强的针对对象倾向的情感反应,就是指情绪。情感的情绪与人的最基本的生物性需要和即时需要目的密切相连,而作为整体结构性的逻辑判断反应的情感,可包含一系列的情绪反应组合过程。在这里,对情感的定义中,使用了“情感判断”的概念,涉及将生理生物性的条件反应过程作为“逻辑判断”。因此,生物生化过程的“逻辑判断”秩序选择,与人意识思维逻辑判断,二者之间所具有的同质问题和意义差别,就是情感问题的重要基础理论问题。事实上,人和其他生命物的精神反应也就是有序化的生理生物的条件反应过程,也就是“元逻辑”系统。于是,情感就从现象语言描述转化为逻辑语言描述了,感觉顺序描述也就转化为结构分层描述了。[]……[]由于需要的元逻辑意义是自然物理的选择目的性质,使情感也具有倾向选择性。这种“选择性”因为是自然“逻辑”判断的结果,必然的就存在着基本的逻辑尺度和标准。正是这些尺度和标准的结构,决定了最原始的元逻辑的生物活性的本>>
问题五:感情的意义 人的生存与发展要核心内容上就是对于价值的生产与消费,那么,情感对于人类的意义就是:人类依靠情感来识别价值、表达价值、区分价值、计算价值、选择价值和创造价值。 人通过价值观来识别事物的价值率,通过情感来识别事物的价值率高差,再通过情感的相应运算方式来计算各种客观事物之间的价值联系,然后,通过意志的相应运算方式来计算自己的相应行为所产生的价值,并选择出最佳的行为方案。如何计算价值1、通过价值观来识别事物的价值率。一个人所拥有的价值资源是有限的,为了最大限度地发展自己的本质力量,任何人都必须对所拥有的价值资源进行合理配置,这就需要以“价值观”的形式来对各种事物的价值特性进行认识和分析,从而引导和控制人把有限的价值资源投入到合理的领域,最大限度地减少价值资源的浪费,提高价值资源的利用率,使价值资源实现最大的增长率。事物的价值特性包括多方面的内容,主要有使用价值、劳动价值、价值层次性、价值多样性、价值稳定性、价值率等,对于人类主体来说,“价值率”是所有事物最基本的、最重要的价值特性。价值率:是指人与事物发生价值作用时在单位时间内该事物价值增量(即投入的价值量与产出的价值量之差)与投入的价值量之比。如何创造1、认知、情感与意志的本质认知的本质:人脑对于事实关系的主观反映就是认知,它构成人的主观意识的最基本形式。认知包括感性认知与理性认知,其中:感性认知是指人对事物所发出的 信号进行的感觉、知觉和表象,如对物体的颜色、形状、大小、声音、冷热等方面的感知;理性认知是指人对概念或概念系统(即事物的第二信号系统)所进行的认知、理解、判断、推理、分析、归纳等。情感的本质:人脑对于价值关系的主观反映就是情感,它构成人的主观意识的另一种基本形式。情感包括感性情感与理性情感。感性情感是指人对事物发出的感性 (如物理或化学 )信号所产生的感觉取向、知觉取向和表象取向。由于价值关系是一种特殊的事实关系,因此情感是一种特殊认知。意志的本质:人脑对于行为关系的主观反映就是意志,它构成人的主观意识的第三种基本形式。意志包括感性意志与理性意志。感性意志是指人用以承受感性 的意志,它反映了人在实践活动中对于感性 的克制能力和兴奋能力,如体力劳动需要克服机体在肌肉疼痛、呼吸困难、血管扩张、神经紧张等感性方面的困难与障碍。理性意志是指人用以承受理性 的意志,它反映了人在实践活动中对于第二信号系统 的克制能力和兴奋能力,如脑力劳动需要克服大脑皮层在接受第二信号系统的 时所产生的思维迷惑、精神压力、情绪波动、信仰失落等理性方面的困难与障碍。由于行为关系是一种特殊的价值关系,因此意志是一种特殊情感。2、认知情感与意志(即知、情、意)的关系人的三种基本的主观心理活动(认知、情感与意志)分别反映了三种基本的客观事物(事实关系、价值关系和行为关系)。人为了生存和发展就必须首先感知和了解各种事物的事实关系,其次要掌握这些事物对于人的价值关系,再其次要掌握每个行为的价值关系并且判断、选择、组织和实施一个最佳的行动方案。第一步由认知活动来完成,第二步由情感活动来完成,第三步由意志活动来完成,因此从认知到情感,再从情感到意志,是一条基本的、不可分割的人类自控行为的流水线。知、情、意的辩证关系在根本上取决于事实关系、价值关系与行为关系的辩证关系。情感是一种特殊的认知,意志又是一种特殊的情感。客体对于人的生存与发展的意义也是客体的一种关系属性,只因为它有着特殊的意义,才与其它关系属性区别开来,因此价值关系是一种特殊的事实关系,情感是一种特殊的认知;本质力量是人的一种最重要的价值属性,只因为它有着特殊>>
问题六:什么是情感呢 情感是在人类社会历史发展过程中形成的高级社会性情感,常用来描述那些具有稳定的、深刻的社会意义的感情。人类社会物质生活和精神生活水平的提高,社会道德风尚的完善、完美的艺术享受都给人以诸如愉 、满足感、幸福感等肯定的情感,而凶暴行为、侵略战争等则使人产生恐怖、不快的否定情感。
一个男人与一个女人的情,叫爱情!
人海茫茫能相遇的,那叫缘两个人能相守到老,那叫分
原来缘分说起来简单,实现它却要看上帝的安排现在我知道为什么人们绝望的时候,总会想起上帝因为他们自己解决不了的问题就交给了神!
完美主义者爱情一开始,就是一生一世,除非梦醒了,不然梦一生一世围绕着他(她)
悲观主义者爱情一开始,就是顺其自然,除非有了梦,不然情感信心永不眷念他(她)
一个男人和一个女人之间有了微妙感觉的情感就叫爱情!
不同的人对爱情有着不同的定义,赋予了不同的色彩。
简单说,有些人失恋了,他(她)会说:没事,新恋情会更好!
有些人失恋了,他(她)会说:我错过了我的真爱,我还会有真爱吗?
其实,说穿了只是每个人对自己爱情定义,赋予乐观,悲观,感性,理性的色彩!
你若是问我,我的定义是什么
会用我招牌的微笑,傻傻地说:我还在探索中!
情感的作用
概括而言,情感的重要作用主要表现在四个方面:
-情感是人适应生存的心理工具,
-能激发心理活动和行为的动机,
-是心理活动的组织者,
-也是人际通信交流的重要手段。
从生物进化的角度我们可以把人的情绪分为基本情绪 和复杂情绪。
人非草本,孰能无情?每个人在交往中都会产生情感,不同的情感会对交往产生不同的影响。了解情感在交往中的作用,有利于交往互动中获取他人的情感信息并把握自己的情感,运用自己的感情,分析他人的感情。
当自己的行为引起对方情绪激动时,总是怀疑是不是自己做得太过分了。此时应注意分辨是自己确实太过分了,还是对方情绪过敏了,或是对方故作激动等,然后调整自己的行为。
愤怒往往能使对方丧胆而让步。在社会交往中,要敢于见义勇为,敢于同恶人做斗争,如小偷在公共汽车上行窃,人们见义勇为,小偷往往被群众震慑而图谋难逞;有人软弱退让,小偷得寸进尺,抢了钱还要金首饰。大到政治交往也是如此,如近几年日本舆论界要求敢于对美国说“不”字,日本也做了一些尝试,证明邪不压正,对不讲理的人,态度强硬一些,对方往往会退让。
流泪能够换得对方的同情。《水浒》中有一则故事,李鬼冒充李逵打家劫舍,遇到真李逵,李鬼垂泪谎称家有老母需供养而换得宽恕。交往中,流泪加忏悔之辞,往往使听者心软,大事化小,小事化无。应注意分辨是真诚的眼泪还是鳄鱼的眼泪。
恐惧能将人们的心拴在一起。应激环境中尤其如此,如唐山林西商店火灾证实,遇难者是在恐惧中挤成一堆因一氧化碳中毒而窒息身亡。当恐惧事件将人们联系在一起时,需临阵不慌,急中生智,果断地寻找应变措施。
对他人爆发的激烈的情感,能够处变不惊,心平气和,往往令人尊敬。如作为领导和管理者,当下级因故发泄脾气或个别人胡搅蛮缠时,处变不惊,心平气和可防止问题激化,留下回旋余地。
情感冷漠常使交往者打退堂鼓。一般说来,“来而不往非礼也”,但是有些情况下,当不需要这样的交往时,态度冷淡是中止交往的最好办法。
感情相同时往往会得到双方的共鸣。俗话说“同病相怜”便是如此,就狭义讲,患同样疾病的人,在一起时很容易谈病史及用什么药较好等;就广义讲,当人感情相同时,很快便能寻找共同语言,一见倾心。
坦诚和坦白可以获得人的同情。社会交往中,诚实地承认错误,胜于强>>
如果AI有了人类的情感,这个世界将会发生巨大的变化。
首先,AI将会更好地预测人类的行为模式,实现有效的识别、跟踪和操纵,从而创造出更加自动化、高效的社会结构和空间组织,尤其是智慧型服务机器人,这将极大地改变人们的生活和工作方式,为人们带来更多的便利。
此外,情感AI还可以用于医疗健康、老年照护、教育慰藉等,方面,通过个性化的情感支持,让人们更快乐和快活,增强他们的自尊和自信心。
最后,情感AI可以更加有力地参与社会团体的交流活动,通过以微笑、肢体语言和谈吐等与现实世界相结合的方式,融入各种社会和文化活动,努力实现人机融合,让AI担负起服务他人、参与社会治理的责任。
NLP 是什么?
NLP 是计算机科学领域与 人工智能 领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成:自然语言理解和自然语言生成。
自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。
自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。
NLP 技术基于大数据、知识图谱、 机器学习 、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。
NLP在金融方面
金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。
事件(Event ):在特定时间、特定地点发生的事情。主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。
1 词干提取
什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。
2 词形还原
什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题,即词语在句中的语义,词语对相邻语句的语义等。
3 词向量化什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为100。
4 词性标注
什么是词性标注?简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。
5 命名实体消歧
什么是命名实体消岐?命名实体消岐是对句子中的提到的实体识别的过程。例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。
6 命名实体识别
体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。
7 情感分析
什么是情感分析?情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。
8 语义文本相似度
什么是语义文本相似度分析?语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意,相似性与相关性是不同的。
9语言识别
什么是语言识别?语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。
10 文本摘要
什么是文本摘要?文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。
11评论观点抽取
自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。
11DNN 语言模型
语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。
12依存句法分析
利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。
1、NLTK
一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的 jieba 处理库
2、文本处理流程
大致将文本处理流程分为以下几个步骤:
Normalization
Tokenization
Stop words
Part-of-speech Tagging
Named Entity Recognition
Stemming and Lemmatization
下面是各个流程的具体介绍
Normalization
第一步通常要做就是Normalization。在英文中,所有句子第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。
Tokenization
Token是"符号"的高级表达, 一般值具有某种意义,无法再拆分的符号。在英文自然语言处理中,Tokens通常是单独的词,因此Tokenization就是将每个句子拆分为一系列的词。
Stop Word
Stop Word 是无含义的词,例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义,单停止词是频率非常多的词。 为了减少我们要处理的词汇量,从而降低后续程序的复杂度,需要清除停止词。
Named Entity
Named Entity 一般是名词短语,又来指代某些特定对象、人、或地点 可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前,必须先进行 Tokenization 并进行 PoS Tagging。
Stemming and Lemmatization
为了进一步简化文本数据,我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。
3、Word2vec
Word2vec是一种有效创建词嵌入的方法,它自2013年以来就一直存在。但除了作为词嵌入的方法之外,它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。
### 四、NLP前沿研究方向与算法
1、MultiBERT
2、XLNet
3、bert 模型
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点:
使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;
使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标;
使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了BERT模型,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。
BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
模型结构: 由于模型的构成元素Transformer已经解析过,就不多说了,BERT模型的结构如下图最左:
对比OpenAI GPT(Generative pre-trained transformer),BERT是双向的Transformer block连接;就像单向rnn和双向rnn的区别,直觉上来讲效果会好一些。
优点: BERT是截至2018年10月的最新state of the art模型,通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
缺点: MLM预训练时的mask问题
[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现
每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)
BERT火得一塌糊涂不是没有原因的:
使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文;
11个NLP任务的精度大幅提升足以震惊整个深度学习领域;
无私的开源了多种语言的源码和模型,具有非常高的商业价值。
迁移学习又一次胜利,而且这次是在NLP领域的大胜,狂胜。
BERT算法还有很大的优化空间,例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力,而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成,论文中说的训练需要在64块TPU芯片上训练4天完成,而一块TPU的速度约是目前主流GPU的7-8倍。
前段时间和实验室里的学弟吃饭闲聊时谈到过这个问题,简单地谈一下就业方面的感受。
CV方向是近年来最热门的机器学习应用方向,但是CV在互联网行业本身内的就业有限,支柱型应用较少——P图、换脸、风格转换是当不了支柱应用的。而且CV方向近些年涌入了太多的研究生,其中绝大部分博士生还没毕业呢,就业压力过几年才会真正显现。CV真正的潜在用武之地是和其它行业的交叉,比如自动驾驶、安防、医疗、各种工业上的自动化等,这些是真正可以提高生产率的应用,是支撑得起一个产业的。具体来说:自动驾驶是综合技术,CV只是一小部分;安防是一个萝卜一个坑,占的其实也差不多了;医疗的解释性如果不解决,那就跟玄学一样,难以实用;工业自动化倒真的是前景广阔,不过需要各种横向人才来推动。
NLP是机器学习应用里的万金油方向,几乎任何一个机器学习应用都会涉及到或多或少的NLP处理部分。NLP的细分方向也非常多,个人觉得实际应用比较广泛的有文本分类、情感识别、语义识别、检索等。文字是比图像更抽象、更高级的信息形式,对文字的理解也远比对图像的理解难。个人认为要想真正地做到理解文字,必须要引入推理和常识。现在的研究似乎都还没摸到门,静候大牛们为我们打开新的研究思路。
数据挖掘的细分方向,说起来应该要比NLP还要杂,工业界需求量非常大,就业的又一个万金油方向。当年我选择做数据挖掘这个方向,其实看中的也就是这一点。相比其它应用领域,数据挖掘更靠近传统的机器学习,更需要你认真地打牢基础,扎实的基础会极大地提高你的上限。但是从研究的角度来说的话,不建议总是徘徊在数据挖掘应用的层面,而是应该狠抓机器学习部分。
语音领域不了解,不过相比于上面三者而言,语音的应用范围应该是最小的
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)