自然语言处理基础知识

自然语言处理基础知识,第1张

NLP 是什么?

NLP 是计算机科学领域与 人工智能 领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。NLP 由两个主要的技术领域构成:自然语言理解和自然语言生成。

自然语言理解方向,主要目标是帮助机器更好理解人的语言,包括基础的词法、句法等语义理解,以及需求、篇章、情感层面的高层理解。

自然语言生成方向,主要目标是帮助机器生成人能够理解的语言,比如文本生成、自动文摘等。

NLP 技术基于大数据、知识图谱、 机器学习 、语言学等技术和资源,并可以形成机器翻译、深度问答、对话系统的具体应用系统,进而服务于各类实际业务和产品。

NLP在金融方面

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。舆情分析舆情主要指民众对社会各种具体事物的情绪、意见、价值判断和愿望等。

事件(Event ):在特定时间、特定地点发生的事情。主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。专题(Subject):涵盖多个类似的具体事件或根本不涉及任何具体事件。需要说明的是,国内新闻网站新浪、搜狐等所定义的“专题”概念大多数等同于我们的“主题”概念。热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。

1 词干提取

什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。

2 词形还原

什么是词形还原? 词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了POS问题,即词语在句中的语义,词语对相邻语句的语义等。

3 词向量化什么是词向量化?词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用,因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示,例如向量的长度可以为100。

4 词性标注

什么是词性标注?简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。

5 命名实体消歧

什么是命名实体消岐?命名实体消岐是对句子中的提到的实体识别的过程。例如,对句子“Apple earned a revenue of 200 Billion USD in 2016”,命名实体消岐会推断出句子中的Apple是苹果公司而不是指一种水果。一般来说,命名实体要求有一个实体知识库,能够将句子中提到的实体和知识库联系起来。

6 命名实体识别

体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的任务。   

7 情感分析

什么是情感分析?情感分析是一种广泛的主观分析,它使用自然语言处理技术来识别客户评论的语义情感,语句表达的情绪正负面以及通过语音分析或书面文字判断其表达的情感等等。

8 语义文本相似度

什么是语义文本相似度分析?语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。注意,相似性与相关性是不同的。

9语言识别

什么是语言识别?语言识别指的是将不同语言的文本区分出来。其利用语言的统计和语法属性来执行此任务。语言识别也可以被认为是文本分类的特殊情况。

10 文本摘要

什么是文本摘要?文本摘要是通过识别文本的重点并使用这些要点创建摘要来缩短文本的过程。文本摘要的目的是在不改变文本含义的前提下最大限度地缩短文本。

11评论观点抽取

自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。目前支持 13 类产品用户评论的观点抽取,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

11DNN 语言模型

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。在机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等系统中都有广泛应用。

12依存句法分析

利用句子中词与词之间的依存关系来表示词语的句法结构信息 (如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构 (如主谓宾、定状补等)。

1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的 jieba 处理库

2、文本处理流程

大致将文本处理流程分为以下几个步骤:

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各个流程的具体介绍

Normalization

第一步通常要做就是Normalization。在英文中,所有句子第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。

Tokenization

Token是"符号"的高级表达, 一般值具有某种意义,无法再拆分的符号。在英文自然语言处理中,Tokens通常是单独的词,因此Tokenization就是将每个句子拆分为一系列的词。

Stop Word

Stop Word 是无含义的词,例如’is’/‘our’/‘the’/‘in’/'at’等。它们不会给句子增加太多含义,单停止词是频率非常多的词。 为了减少我们要处理的词汇量,从而降低后续程序的复杂度,需要清除停止词。

Named Entity

Named Entity 一般是名词短语,又来指代某些特定对象、人、或地点 可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前,必须先进行 Tokenization 并进行 PoS Tagging。

Stemming and Lemmatization

为了进一步简化文本数据,我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

3、Word2vec

Word2vec是一种有效创建词嵌入的方法,它自2013年以来就一直存在。但除了作为词嵌入的方法之外,它的一些概念已经被证明可以有效地创建推荐引擎和理解时序数据。在商业的、非语言的任务中。

### 四、NLP前沿研究方向与算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。BERT的主要特点以下几点:

使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任务训练目标;

使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,并且Google开源了BERT模型,用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。

模型结构: 由于模型的构成元素Transformer已经解析过,就不多说了,BERT模型的结构如下图最左:

对比OpenAI GPT(Generative pre-trained transformer),BERT是双向的Transformer block连接;就像单向rnn和双向rnn的区别,直觉上来讲效果会好一些。

优点: BERT是截至2018年10月的最新state of the art模型,通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。

缺点: MLM预训练时的mask问题

[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现

每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)

BERT火得一塌糊涂不是没有原因的:

使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,并再一次炒火了《Attention is All you Need》这篇论文;

11个NLP任务的精度大幅提升足以震惊整个深度学习领域;

无私的开源了多种语言的源码和模型,具有非常高的商业价值。

迁移学习又一次胜利,而且这次是在NLP领域的大胜,狂胜。

BERT算法还有很大的优化空间,例如我们在Transformer中讲的如何让模型有捕捉Token序列关系的能力,而不是简单依靠位置嵌入。BERT的训练在目前的计算资源下很难完成,论文中说的训练需要在64块TPU芯片上训练4天完成,而一块TPU的速度约是目前主流GPU的7-8倍。

心理学属于哪一个性质的学科?

心理学(英文名称Psychology)是研究人和动物心理现象发生、发展和活动规律的一门科学。心理学既研究动物的心理(研究动物心理主要是为了深层次地了解、预测人的心理的发生、发展的规律)也研究人的心理,而以人的心理现象为主要研究物件。因此总而言之,言而总之,心理学是研究心理现象和心理规律的一门科学。

性质的话应该是一个交叉学科:心理学是社会科学还是自然科学,在于视角及立场,因为它本身具备两者的特点基础心理学归为自然科学范畴,应用心理学归类于社会科学范畴,因此,有人称之为“中间学科”。

只要你把心理学归为科学,做心理学的人就很开心了。

如何学好心理学、伦理学等文科性质的学科?

话说我是学文科的~其实学好心理学和伦理学的方法是不一样的,在文科中,分两种,一种是偏理科类的,另一种是纯文科的~像心理学,本人认为就是一门偏理科性质的学科~~学好心理学最主要是注重对例项的理解,然后在此基础之上,加强理论的知识~~~这叫做由具体到抽象~~

而作为伦理学,则在于对概念的理解,是比较抽象,也比较难懂,可是通过对不同的学派理论的学习,你会形成你自己的价值体系,和评判对错的标准,这主要是锻炼一种思想力吧~~

呵呵呵~~~我是学法律的,可是我们学院也开了心理学和伦理学的平台课,所以我只能就自己的理解来回答你~~

心理学正在变成为一门类似于病理学性质的学科吗

心理学的方向很多,你说的只是其中很小的一个分支而已。

心理学分支比较常见的还有和教育结合的教育心理学,和金融结合的行为金融学,和管理结合的管理心理学,和计算机结合的人工智慧,和工业结合的工程心理学等等。

心理学在大学里属于哪一个系?

心理学 一般属于教育科学学院

心理治疗是属于心理学哪一个领域?

心理咨询属于精神病学。属于医学 (心理学属于生物学)根本就是2个不同的领域。 先提高自己心智成熟度。再看那些讲理论的。 大脑,本身就是思维的物质基础,现在要用脑的功能——思维,来探究脑的结构和意义,这一过程显然是极其艰钜的,在这一过程中,大脑中会出现极其复杂的景象和感受,不是心地善良纯正的人,绝难做到不发生精神疾病,。 如果自己心智都不成熟。生活。人生。理解的不够深刻。连自己都看不清楚。怎么去看穿别人。看再多的心理理论。技法的书。也等于没看。不过是个孩子拿把很重的大刀。挥舞不动。只能把自己压死。 ---------------- 首先介绍2篇论文 1、《在这个险恶的世界上,你需要在心灵上变的强大》 2、《自恋型人格障碍的儒家文化背景》 ----------------------- 《拷问心理学》作 者:胡纪泽 心理学家常陷入一个巨大的陷阱,那就是他常常把一己之见,和心理事实混为一谈。心理学家经常他把自己所说的东西,和实际存在的东西,看做是同样的一件事儿。心理学家顺着那些用自己的方法所产生出来的、自己所认可的那些观点思考下去,实际的情形与之相差甚远。无数虚幻的谜团就是这样地被引入到我们的科学中来了——威廉·詹姆斯 -------------------------- 《少有人走的路》M·斯科特·派克 正如本书开篇所言:人生苦难重重。人生是一场艰辛之旅,心智成熟的旅程相当漫长。但是,他没有让我们感到恐惧,相反,他带领我们去经历一系列艰难乃至痛苦的转变,最终达到自我认知的更高境界。 ----------------------------------------------------- 《克里希那穆提作品集》 克给我们指明了方向,要怎么走,走什么路还是要靠自己摸索的。别人的路未必适合自己。每个人都因该有属于自己的路。如果他没告诉你方向你该忘哪走?那才是值得思考的伪装。 你要走出外界给你设定的条条框框,包括一切外界灌输给你的道德观念,形态意识,人生价值观。你要认清自己, --------------- 《奥修中文全集TXT版》奥修 你还信 吗?我们的教育将我们害得这莫惨,我们的教育将我们变成了废人,不要再相信那些所谓正统的教育了,奥修哲学上的修为,足以使他与同一时代,甚至他以前的任何时代的哲人平等对话。奥修向来喜欢说佛陀、说基督,在所有宗教派系中,这两个人所代表的思想无疑是最为宽巨集而又仁慈。奥修这个人颇有争议,他很有辩才,真正是否是个开悟者,表怀疑。 ----------------------- 《追寻生命的意义》 作者: 维克多·弗兰克 我们犯过错,还要继续犯错,这也是我们的人生,我们需要的不是告别错误的昨天,而是坦然的接受昨天的错误,这样我们才不会害怕将要产生的错误,我们才不会被困在错误假想的恐惧中,我们才能动用我们的能力去作出当下的选择,去真面惨淡的人生。 ----------------------- 《灵之舞——中西人格的表演性》邓晓芒 邓晓芒教授切入的角度比较特别,从心理学入手。对中国人的人格和造成这种人格的传统文化的批判是毫不留情的,基本上没啥正面评价,所谈论的主题,如真诚、虚伪、自欺、羞愧、忏悔、孤独、自尊等等, ----------------------------------- 《西藏生死书》索甲仁波切 学会怎么死亡的人,就学会怎么不做奴隶。如果你想要更好的活着,也许应该花点时间,去学会正视死亡。那些相信他们有充分时间的人,临终的那一刻才准备死亡。然后,他们懊恼不已,这不是已经太晚了吗?今天大多数人死的时候毫无准备,活着的时候也没有准备,有什么事比这个现象更令人寒心呢? ------------------------------ 世界是混沌的。人类对世界的认识是模糊的。 没分类分科分学。 ---- 我们现在所说的科学。 用建立在古典希腊哲学基础上的各种哲学手段。分类分科分学。所谓科学。 科学只是一种用哲学的手法。来认识、解读世界。 理解世界的一种手段而已。 是工具而已。 用分类分科。把混沌的认识。划分成各种学问。来解读这个世界。 ---------------- 所谓心理学。 1、就是把各种心理现象。通过长期的观察观测。实验。 2、归纳汇总。用哲学的分类办法。给这些心理现象。取了很多名词。 3、这些名词。不等于完全就是心理现象本身。更不等于就是心理活动规律 3、在此2个基础上。最后又分成很多学派。 4、一切尚处于混沌中。在黑暗中摸索。 ---------------------- 心理咨询。 只是利用心理学知识。辅导心理问题。 不等于是心理学本身 -------------------- 虽然都是医生。都系统。全面学习医学。对人体结构。医学知识。有全面了解。 但是。 牙科医生。不可能知道你的胃病是怎么回事。 ---------------------- 对某几种心理疾病的心理活动规律。摸的很清楚了。能辅导这类病人。如此而已。 不等于就是对所有人的心理活动都了解。 不等于所有的心理疾病都能辅导。 ------------ 心理咨询。 只是利用心理学知识。辅导心理问题。 不等于是心理学本身 ------------ 心理师。 不是心理学家。 也不是心理专家门诊。 只是利用别人提供的心理学知识。辅导别人。 如此而已 ---------- 工艺师。不是艺术家。 ----------------- 人类社会的所有外在价值。都是内在价值所创造的。 一切的外在行为。都是为了满足心理需要。 ------------------ 心理疾病。说穿了。2点 1、价值观出问题了。受了不好的听觉 。接受了错误的思想 。意识层。理性认识。导致了感性认识。最后由内而外。导致感受器官出问题了。 2、感受器官。直接受到 。缺乏安全感。需要人安慰。给予安全感。比如象父母一样的拥抱。抚慰。陪伴。守护等等。 1、由内而外。 2、由外而内。 无非如此 1、价值观错误。 2、地震。车祸。灾难。直接冲击到感受器官。 1、由内而外。 2、由外而内。 无非如此 1、价值观错误。 2、地震。车祸。灾难。直接冲击到感受器官。 ------------------ 本人QQ空间,大量聊天记录,整理出来的文章。也许可以帮助到你。 看完30篇才有效果。 一贴见效。那不是医生。是神仙。

经济地理学究竟属于哪种性质的学科

理科

心理学属于那个学科的?

心理学最早起源於哲学,从哲学中分离出来形成一门独立的研究学科。是人类自我思维、行为方式认知和剖析,研究人类怎样感知外界资讯和怎样进行资讯内化处理的心理和行为的规律的科学。(注:一直以来心理学界都很难对“心理学”下一个准确的该概念,这是本人在心理学多年的研究中综合前辈的解释得的认识,如有不当之请各位斧正)

◆ 心理学研究学科的分类

实验心理学:是最早发展起来的心理学分支,它借助科学的实验方法,研究科学心理发展初期的那些传统课题。如感觉,知觉,学习,动机和情绪等。

认知心理学:致力于研究人的高阶心理过程,如记忆、推理、资讯加工、语言、问题解决、决策和创造性活动。用科学的创造方法探讨内部心理活动的规律。

人格心理学:研究个人独特的心理特征和个体行为的稳定性特征,同时也探讨人格形成的心理因素和对人格特征进行测量、评估和培养。

社会心理学:主要研究人际间的行为和社会力量对行为的控制和影响。

发展心理学:研究心理学的发生,发展规律。一般以人的整个生活历程作为研究物件,探讨人在不同发展阶段上的不同的心理特点,但广义的讲,它也包括动物心理学。

教育心理学:只要研究教与学过程中的心理规律,以提高教育,教学水平,改进师资培训和学业考试,并推动因材施教。培养学生健全人格和创造力等。

学校心理学:通常在中小学工作,对在学校中学习困难、适应困难或有某种问题行为的学生进行振动和辅导,并协助家长和教师解决学校有关的问题。

变态心理学:研究各种病态心理,以精神并中的心理病态的人为研究物件,适用于心理医生。

青年心理学:研究青年期个体的心理特征,及其发展规律的发展心理学分支。内容包括青年的智力发展、个性形成、情感和意志表现、世界观的形成、心理卫生等多方面的问题。

市场心理学:研究市场供求关系中心理因素的作用,消费者心理学研究商品生产、商品流通,以及服务行业中消费者的心理规律,包括购买动机的分析、购买行为的特点等。

广告心理学:研究商标、包装、广告的设计,其心理效果的评价等。

媒体心理学:

进化心理学:把人类的心理属性看作是进化的结果,即人类所拥有的许多心理属性是在漫长的岁月中被选择出来以解决特定的适应问题的。

应用心理学:包括了心理学的诸多分支领域,它以实践应用为主要目的,研究如何将心理学的理论和方法应用到个人和社会的各个方面。

管理心理学:把心理学的知识应用于分析、说明、指导管理活动中的个体和群体行为的工业心理学分支。它以组织中的人作为特定的研究物件,重点在于对共同经营管理目标的人的系统的研究,以提高效率,在一定的成本控制条件下,最大限度地调动人们的积极性和创造性。当今的管理心理学都是以人本思想为前提的。目的为如何达到对人的适当约束和激励。

观察法:在自然情景中对人的行为进行有目的的有计划的系统观察和记录,然后对所做记录进行分析,发现心理活动和发展的规律的方法。

实验法:在控制条件下对某种行为或者心理现象进行观察的方法。分为,自然实验法(现场实验)和实验室实验法。

读心术属于心理学的哪一个领域?

很多不了解心理学的人总认为心理学是“读心术”,学习心理学可以窥视人的内心世界,恐怕也正因为此因,很多人才开始对心理学发生兴趣,呵呵。为此,曾见到不少有负责心的心理专业的同学不断进行这方面心理知识扫盲,还大众以科学的心理学。

我发现这是一个非常有趣的问题。有些类似于封建迷信与科学迷信的关系。对于一点专业心理学知识没有的人来说,很多人认为心理学是“读心术”,显然这是一种不科学或者说是一种在心理学上的“封建迷信”,因此作为一个具有专业心理学知识的人来说需要对其进行心理知识的科普,破除这种“封建迷信”。

然而,心理学是一个非常广泛的大学科,包含的专业领域难以尽述。难道在心理学的海洋中真的没有类似“读心术”的研究吗?其实也未必!坚持心理学不包括“读心术”的心理专业人士,恐怕又走上了另一个“科学的迷信”的极端。

事实上,在一些西方国家的认知心理学中,有一个小的分支叫“expression ysis”——就是通过分析人的面部表情来试图了解人的内心世界。并且不仅是面部表情,而且也包含了肢体语言的分析,但主要集中在面部表情上。这种Expression Analysis的认知心理学分支或许并不像一般人所想的是一种常识性的表情分析,它的研究也是基于严格的实证。这种分析可以通过极其微小的、常人难以察觉的微弱表情变化来了解你的内心世界。或许这是与大众眼中的心理学“读心术”最为接近的学科了。

人有多少种面部表情?美国的心理学研究结果或许令你难以置信:约100,000种左右。所以,一个或许连自己都没有察觉的细微表情都有可能被这个领域的心理专家所捕捉。这种通过表情分析来判断被试人是否说谎的心理学实验在西方国家不在少数。我以前一位英国籍心理学老师——认知心理学博士就是这个领域的专家,尽管她的主要研究领域是注意和记忆。

除Expression Analysis外,或许能与所谓的“读心术”沾得上一点点边的算是社会心理学了。社会心理学是研究人与人;人与群体、社会;群体间关系的心理学分支。或许为数不少的心理学爱好者之所以对心理学感兴趣为的就是“透视”他人,遗憾的是,让他们真正地了解了心理学到底学什么,通常感到心理学的枯燥与乏味(原来真实的心理学并不是想象中的心理学)。或许,社会心理学的学习可以给乏味的心理学系统学习增添一点乐趣。

通过社会心理学来了解人性,是需要基于扎实的社会心理学功底以及一定的悟性。据了解,真正的社会心理学大师可以称得上“读心术”的内行。他们是处理各种人际关系的“战神”。曾有世界级的社会心理学大师扬言,没有人的意图可以逃过他的法眼。我这种社会心理学初级菜鸟级的人始终搞不懂:社会心理学是研究共性的学科,是如何解决个体差异的问题的?

希望我这茶余饭后的闲谈不要让爱好心理学的你误入歧途,在没有任何系统的心理学专业知识前提下去追求一些心理学的边缘学科(当然社会心理学除外,但它的主要研究领域或许并不能满足你对“读心术”的渴望)。要想成为一名真正的心理专家就从统计心理学开始吧,它才是心理学的脊柱,无论你今后从事于心理学哪一个领域的学习或研究,统计、资料都会一直陪伴着你。你真的喜欢心理学吗?

试述人类性质的本质特点-心理学

人类是地球上最高智慧的生物, 心理学是研究人和动物心理活动和行为表现的一门科学。

心理学属于什么型别的学科?

心理学是研究人和动物心理现象发生、发展、活动和行为表现的一门科学。心理学一词来源于希腊文,意思是关于灵魂的科学。 灵魂在希腊文中也有气体或呼吸的意思,因为古代人们认为生命依赖于呼吸,呼吸停止,生命就完结了。随着科学的发展,心理学的物件由灵魂改为心灵。直到19世纪初叶,德国哲学家、教育学家赫尔巴特才首次提出心理学是一门科学。 心理学:是研究心理现象和心理规律的科学,它以人的心理为主要研究物件。科学的心理学不仅对心理现象进行描述,更重要的是对心理现象进行说明,以揭示其发生发展的规律。 心理的起源[编辑本段]心理是生物神经活动的产物,心理起源的研究主要从比较心理学(研究各生物物种神经功能及心理发展水平),发展心理学(人类个体心理发生发展规律)两方面进行动物神经系统的产生是心理起源的物质基础和必要条件 心理学是研究人的行为与心理活动规律的科学 2000年前,古希腊的希波克拉底提出了四种人格(胆汁质、多血质、粘稠质、抑郁质) 之后古希腊的盖伦提出了气质这一概念,用气质代替人格,形成四种气质,后来的心理学研究中,沿用了这一分类方式。 19世纪前,心理学属於哲学范畴。 1860年,德国的费希纳开创心里物理学,德国的艾宾浩斯开创记忆的实验研究。 1879年,德国的冯特在莱比锡大学建立心理研究,标志著科学心理学的诞生。实证研究方法的运用是这一学科成为科学的转折点其后的一百多年,心理学门派纷争及高度发展,学科体系也进一步完善 心理学是社会科学还是自然科学,在于视角及立场,因为它本身具备两者的特点基础心理学归为自然科学范畴,应用心理学归类于社会科学范畴。心理的起源,尤其是人类高阶心理过程,如思维,语言,情感,意志,高阶心理特征的产生,是神经基础及人类社会化程序的产物,所以我们不能以单纯的生物学观点来研究此命题

 许多小伙伴报考了心理咨询师,那么心理咨询师属于哪类专业呢快来和我一起看看吧。下面是由我为大家整理的“心理咨询师属于什么专业类别”,仅供参考,欢迎大家阅读。

心理咨询师属于什么专业类别

 心理咨询师属于心理学类专业。心理学专业培养具备心理学的基本理论、基本知识、基本技能,能在科研部门、高等和中等学校、企事业单位等从事心理学科学研究、教学工作和管理工作的高级专门人才。

 核心知识领域:普通心理学、实验心理学、心理统计及其常用软件、心理测量学、生物心理学、 社会心理学、变态心理学、发展心理学、心理学史、认知心理学、人格心理学、心理学研究方法。

 心理学是一门研究人类心理现象及其影响下的精神功能和行为活动的科学,兼顾突出的理论性和应用(实践)性。

 心理学包括基础心理学与应用心理学两大领域,其研究涉及知觉、认知、情绪、思维、人格、行为习惯、人际关系、社会关系等许多领域,也与日常生活的许多领域——家庭、教育、健康、社会等发生关联。心理学一方面尝试用大脑运作来解释个体基本的行为与心理机能,同时,心理学也尝试解释个体心理机能在社会行为与社会动力中的角色;另外,它还与神经科学、医学、哲学、生物学、宗教学等学科有关,因为这些学科所探讨的生理或心理作用会影响个体的心智。实际上,很多人文和自然学科都与心理学有关,人类心理活动其本身就与人类生存环境密不可分。

 心理学家从事基础研究的目的是描述、解释、预测和影响行为。应用心理学家还有第五个目的——提高人类生活的质量。这些目标构成了心理学事业的基础。

 心理学专业就业前景怎么样

 随着社会经济生活的日益提高和科学技术的飞速发展,医学已由传统的生物医学模式转变为生物心理社会医学模式,医学心理学和心理咨询治疗已成为现代医学的一个重要组成部分,而且它越来越深受社会的重视和需要。

 为给在职人员提供学习研究生课程的机会,各大高校像中科院、中国人民大学、北京师范大学等部纷纷开设心理学在职研究生课程班,旨在发展大学后继续教育,培养高层次的专业人才。

 不仅在所有师范大学和一些综合性大学开设各种心理学课程、在一些重点师范大学和一些重点综合性大学设立心理学系,培养本科生、硕士生和博士生,而且各种心理学培训班已从学校扩散到社会,从课堂教学发展到电视教学。

拓展阅读:能够从事心理咨询师的专业

 基础心理学

 一、学科概况

 基础心理学是心理学的基础学科。研究心理学基本原理和心理现象的一般规律,涉及领域广泛,包括心理的实质和结构、心理学的体系和方法论问题、以及感知觉与注意、学习与记忆、思维与言语、情绪情感与动机意识、个性倾向性与能力、性格、气质等。

 基础心理学也包括:动理学方法的研究,包括实验设计、心理测量和各种具体的研究方法。

 心理与大脑的关系成为基础心理学的核心问题。基础心理学通过脑成象技术与脑科学相结合,将有可能解决心理学中的多解问题——对某些认知过程存在多种可能的理论解释。

 二、业务范围

 学科研究范围

 基础心理学研究范围包括感觉、知觉、注意、记忆、思维与言语,动作,情绪情感与动机、意识,个性倾向性与能力、气质、性格等及其有关生物学基础。基础心理学的基本理论、心理学史和方法的研究,以及动物心理学的研究。认知神经科学将认知过程与神经过程有机地结合起来,将成为基础心理学的主要发展方向。

 发展与教育心理学

 一、学科概况

 发展与教育心理学包括:发展心理学和教育心理学。心理学的主干学科,主要研究个体心理的发生与发展,以及人类学习与教育,特别是学校教育在促进个体心理发展变化中的心理学问题。

 二、业务范围

 1 学科研究范围

 (1)发展心理学

 主要研究人类发展的基本规律和各个年龄阶段的心理发展特点。内容包括婴幼儿、童年、青少年的认知、情绪情感、意志、个性和社会性发展,成人期和老年期的心理发展与适应,特殊和异常儿童的心理发展,人类心理的演化等。

 (2)教育心理学

 主要研究教育领域,尤其是学校教育中的心理学问题,揭示其一般规律及其在教育实践中的应用。内容包括学习与教学心理、品德心理与培养、学科心理、差异心理、特殊教育心理、学校心理学、计算机辅助教学等。

与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。

基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1

在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3793173.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-18
下一篇2023-08-18

发表评论

登录后才能评论

评论列表(0条)

    保存