天哪天哪!!情感情绪分类里怎么会有那么多回答?几乎所有的回答都有几百个!

天哪天哪!!情感情绪分类里怎么会有那么多回答?几乎所有的回答都有几百个!,第1张

情绪的构成包括三种层面。众多的情绪研究者们大都从三个方面来考察和定义情绪:在认知层面上的主观体验,在生理层面上的生理唤醒,在表达层面上的外部行为。当情绪产生时,这三种层面共同活动,构成一个完整的情绪体验过程。

(一)主观体验

情绪的主观体验是人的一种自我觉察,即大脑的一种感受状态。人有许多主观感受,如喜怒哀乐爱惧恨等。人们对不同事物的态度会产生不同的感受。人对自己、对他人、对事物都会产生一定的态度,如对朋友遭遇的同情,对敌人凶暴的仇恨,事业成功的欢乐,考试失败的悲伤。这些主观体验只有个人内心才能真正感受到或意识到,如我知道"我很高兴",我意识到"我很痛苦",我感受到"我很内疚"等等。

(二)生理唤醒

人在情绪反应时,常常会伴随着一定的生理唤醒。如激动时血压升高;愤怒浑身发抖;紧张时心跳加快;害羞时满脸通红。脉搏加快、肌肉紧张、血压升高及血流加快等生理指数,是一种内部的生理反应过程,常常是伴随不同情绪产生的。

(三)外部行为

在情绪产生时,人们还会出现一些外部反应过程,这一过程也是情绪的表达过程。如人悲伤时会痛哭流涕,激动时会手舞足蹈,高兴时会开怀大笑。情绪所伴随出现的这些相应的身体姿态和面部表情,就是情绪的外部行为。它经常成为人们判断和推测情绪的外部指标。但由于人类心理的复杂性,有时人们的外部行为会出现与主观体验不一致的现象。比如在一大群人面前演讲时,明明心里非常紧张,还要做出镇定自若的样子。

主观体验、生理唤醒和外部行为作为情绪的三个组成部分,在评定情绪时缺一不可,只有三者同时活动,同时存在,才能构成一个完整的情绪体验过程。例如,当一个人佯装愤怒时,他只莉愤怒的外在行为,却没有真正的内在主观体验和生理唤醒,因而也就称不上有真正的情绪过程。因此,情绪必须是上述三方面同时存在,并且有一一对应的关系,一旦出现不对应,便无法确定真正的情绪是什么。这也正是情绪研究的复杂性,以及对情绪下定义的困难所在。

二、情绪与情感的区别

在现实生活中,情绪情感是紧密联系在一起的,但二者却存在着一些差异。

(一)从需要的角度看差异

情绪更多地是与人的物质或生理需要相联系的态度体验。如当人们满足了饥渴需要时会感到高兴,当人们的生命安全受到威胁时会感到恐惧,这些都是人的情绪反应。情感更多地与人的精神或社会需要相联系。如友谊感的产生是由于我们的交往需要得到了满足,当人们获得成功时会产生成就感。友谊感和成就感就是情感。

(二)从发生早晚的角度看差异

从发展的角度来看,情绪发生早,情感产生晚。人出生时会有情绪反应,但没有情感。情绪是人与动物所共有的,而情感是人所特有的,它是随着人的年龄增长而逐渐发展起来的。如人刚生下来时,并没有道德感、成就感和美感等,这些情感反应是随着儿童的社会化过程而逐渐形成的。

(三)从反映特点看差异

情绪与情感的反映特点不同。情绪具有情境性、激动性、暂时性、表浅性与外显性,如当我们遇到危险时会极度恐惧,但危险过后恐惧会消失。情感具有稳定性、持久性、深刻性、内隐性,如大多数人不论遇到什么挫折,其民族自尊心不会轻易改变。父辈对下一代殷切的期望、深沉的爱都体现了情感的深刻性与内隐性。

实际上,情绪和情感既有区别又有联系,它们总是彼此依存,相互交融在一起。稳定的情感是在情绪的基础上形成起来的,同时又通过情绪反应得以表达,因此离开情绪的情感是不存在的。而情绪的变化也往往反映了情感的深度,而且在情绪变化的过程中,常常饱含着情感。

三、情绪情感的种类

情绪本身是非常复杂的,因此要对情绪进行准确的分类就显得尤为困难。许多研究者对此进行了长期的探索,其中有两种分类方法颇具代表性。

(一)情绪的基本形式

人类具有四种基本的情绪:快乐、愤怒、恐惧和悲哀。快乐是一种追求并达到目的时所产生的满足体验。它是具有正性享乐色调的情绪,具有较高的享乐维和确信维,使人产生超越感、自由感和接纳感。愤怒是由于受到干扰而使人不能达到目标时所产生的体验。当人们意识到某些不合理的或充满恶意的因素存在时,愤怒会骤然发生。恐惧是企图摆脱、逃避某种危险情景时所产生的体验。引起恐惧的重要原因是缺乏处理可怕情景的能力与手段。悲哀是在失去心爱的对象或愿望破灭、理想不能实现时所产生的体验。悲哀情绪体验的程度取决于对象、愿望、理想的重要性与价值。

在以上四种基本情绪之上,可以派生出众多的复杂情绪,如厌恶、羞耻、悔恨、嫉妒、喜欢、同情等。

(二)情绪状态

依据情绪发生的强度、速度、紧张度、持续性等指标,可将情绪分为心境、激情和应激。

1心境

心境是一种具有感染性的、比较平稳而持久的情绪状态。当人处于某种心境时,会以同样的情绪体验看待周围事物。如人伤感时,会见花落泪,对月伤怀。心境体现了"忧者见之则忧,喜者见之则喜"的弥散性特点。平稳的心境可持续几个小时、几周或几个月,甚至一年以上。

2激情

激情是一种爆发快、强烈而短暂的情绪体验。如在突如其来的外在刺激作用下,人会产生勃然大怒、暴跳如雷、欣喜若狂等情绪反应。在这样的激情状态下,人的外部行为表现比较明显,生理的唤醒程度也较高,因而很容易失去理智,甚至做出不顾一切的鲁莽行为。因此,在激情状态下,要注意调控自己的情绪,以避免冲动性行为。

3应激

应激是指在意外的紧急情况下所产生的适应性反应。当人面临危险或突发事件时,人的身心会处于高度紧张状态,引发一系列生理反应,如肌肉紧张、心率加快、呼吸变快、血压升高、血糖增高等。例如,当遭遇歹徒抢劫时,人就可能会产生上述的生理反应,从而积聚力量以进行反抗。但应激的状态不能维持过久,因为这样很消耗人的体力和心理能量。若长时间处于应激状态,可能导致适应性疾病的发生。

(三)情感的种类

情感是与社会性需要相联系的高级的主观体验。

1道德感

道德感是根据一定社会的道德标准,对人的思想、行为做出评价时所产生的情感体验。当自己或他人的言行符合道德规范时,对己会产生自豪、自慰等情感,对他人会产生敬佩、羡慕、尊重等情感;当自己或他人的言行不符合道德规范时,对己会产生自责、内疚等情感,对他人会产生厌恶、憎恨等情感。

2理智感

理智感是在认知活动中,人们认识、评价事物时所产生的情绪体验。如发现问题时的惊奇感,分析问题时的怀疑感,解决问题后的愉快感,对认识成果的坚信感等等。理智感常常与智力的愉悦感相联系。

3美感

美感是根据一定的审美标准评价事物时所产生的情感体验。它是人对自然和社会生活的一种美的体验。如对优美的自然风景的欣赏,对良好社会品行的赞美。美感的产生受思想内容及个人审美标准的制约,丑陋的内涵冠以漂亮的外表,也无法使品德高尚的人产生美感。而且,不同人的审美标准不同,也会使不同个体的美感产生差异。

四、情绪情感的表达

(一)表情

表情是情绪表达的一种方式,也是人们交往的一种手段。人们除了言语交往之外,还有非言语交往,如表情。在人类交往过程中,言语与表情经常是相互配合的。同是一句话,配以不同的表情,会使人产生完全不同的理解。所谓的"言外之意"、"弦外之音"就更多地依赖于表情的作用。而且,表情比言语更能显示情绪的真实性。有时人们能够运用言语来掩饰和否定其情绪体验,但是表情则往往掩饰不住内心的体验。情绪作为一种内心体验,一旦产生,通常会伴随相应的非言语行为,如面部表情和身体姿势等。一些心理学家在研究人类交往活动中的信息表达时发现,表情起到了重要的作用。

(二)表情的种类

表情可以分为三类:面部表情、身段表情和语调表情。

1面部表情

面部表情是由面部肌肉和腺体变化来表现情绪的,是由眉、眼、鼻、嘴的不同组合构成的。如眉开眼笑、怒目而视、愁眉苦脸、面红耳赤、泪流满面等。面部表情是人类的基本沟通方式,也是情绪表达的基本方式。面部表情有泛文化性,同一种面部表情会被不同文化背景下的人们共同承认和使用,以表达相同的情绪体验。心理学家们经过研究发现,有七种表情是世界上各民族的人都能认出的,它们是快乐、惊讶、生气、厌恶、害怕、悲伤和轻视。研究者发现,不同文化背景的人们都能精确辨认这七种基本表情,5岁的孩子在辨认表惰的精确度上便等同于成人了。面部表情识别的研究还发现,最容易辨认的表情是快乐、痛苦,较难辨认的是恐惧、悲哀,最难辨认的是怀疑、怜悯。一般来说,情绪成分越复杂,表情越难辨认。

2身段表情

身段表情是由人的身体姿态、动作变化来表达情绪。如高兴时手舞足蹈,悲痛时捶胸顿足,成功时趾高气扬,失败时垂头丧气,紧张时坐立不安,献媚时卑躬屈膝等。身段表情不具有跨文化性,并受不同文化的影响。研究表明,手势表情是通过学习获得的。在不同的文化中,同一手势所代表的含义可能截然不同。如竖起大拇指在许多文化中是表示夸奖的意思,但在希腊却有侮辱他人的意思。手势表情具有丰富的内涵,但隐蔽性也最小。弗洛伊德曾描述过手势表情:"凡人皆无法隐瞒私情,尽管他的嘴可以保持缄默,但他的手指却会多嘴多舌"。

3语调表情

语调表情是通过声调、节奏变化来表达情绪的,也是一种副语言现象,如言语中语音的高低、强弱、抑扬顿挫等。例如人们惊恐时尖叫;悲哀时声调低沉,节奏缓慢;气愤时声高,节奏变快;爱慕时语调柔软且有节奏。

总之,面部表情、身段姿态和语调变化成为情绪的有效表达方式,它们经常相互配合,更加准确或复杂地表达不同的情绪。

让孩子理解文学作品的内涵和情感有以下几个方法:1阅读与讨论:读故事书、传统童话、经典名著等,让孩子通过阅读探索文学作品的世界和内容。同时,通过和孩子一起讨论作品中的情节、人物性格、主题等,帮助孩子深入理解作品的内涵和意义。2感性体验:与孩子一起进行一些文学体验活动,如朗诵诗歌、表演短剧、创作绘本等,让孩子通过亲身体验,深刻感受文学作品的情感,从而更好地理解作品。3关注历史背景和文化背景:通过解释文学作品所处的历史和文化背景,帮助孩子理解作品中反映出的社会现象和文化内涵,增加对作品内在含义的理解。4采用多媒体资源:利用**、动画、游戏等多媒体资源,为孩子呈现不同形式的文学作品,有利于孩子在视觉和听觉上更好地理解作品的情感和内涵。总之,帮助孩子理解文学作品的内涵和情感需要引导孩子在感性体验和理性思考的过程中,探索作品背后更深层次的内涵和意义。

人工智能产品的定义较为广泛,智能硬件、机器人、芯片、语音助手等都可以叫做人工智能产品。本文讨论的人工智能产品主要是指在互联网产品中运用人工智能技术。

互联网产品主要着手与解决用户的痛点,对于C端产品来说,痛点就是指的个人想解决而无法解决的问题,如个人想要美化自己的照片,但是他不会复杂的PS软件,于是美图秀秀就可以解决这个痛点。从KANO模型中,就是满足用户的基本需求与期望需求。

人工智能产品(在互联网产品中运用人工智能技术)则是要满足用户的兴奋需求。如将情感分析运用到电商的产品评论中,用户则可以通过可视化的数据展示来大致对产品有个全面、直观的了解,而不再需要自己一页一页的翻看评论内容。

互联网产品主要关注点在于用户需求、流程设计、交互设计、商业模式等。着眼于用户需求,设计满足用户需求的产品,通过合理的流程设计、交互设计达到产品目标,进而实现商业目标。典型的思路是发现用户需求——>设计满足用户需求的产品——>迭代完善、产品运营——>商业变现。

人工智能产品关注点在于模型的构建,它不再是对于布局、交互的推敲,而是通过选择合适的数据,构建合适的模型,最终呈现出来的是好的效果。什么是好的效果呢?这就需要引入评测指标。互联网的评测指标有我们熟知的留存率、转化率、日活跃等,那么人工智能的产品主要是通过一些统计指标来描述,以情感分析为例,把情感分析看成一个分类问题,则可以使用P、R、A、F值来描述。

1)查准率(Precision):P值,衡量某类分类中识别正确的比例,如情感分析中,有10条被分类为“正向”,其中8条是分类正确的(由人工审核),那么P=8/10=80%

2)查全率(Recall):R值,又叫查全率,又叫召回度,指的是某类被被正确分类的比例,同样以情感分析为例,100条数据中有10条是正向的,机器分类后,这10条中有7条被分类为正向,则R=7/10=70%

3)F值,因为P值和R值通常是两个相互矛盾的指标,即一个越高另一个越低,F则是两者综合考虑的指标,不考虑调节P、R权重的情况下,F=2PR/(P+R)

4)精确度(Accuracy):这个最好理解,就是被准确分类的比例,也就是正确率。如100条数据,90条是被正确分类的,则A=90/100=90%。

以上指标越高,说明模型效果越好。

我们从上面内容可以知道,人工智能产品设计关注:数据——>模型——>效果评估。

现在我们以情感分析为例子说明产品设计的过程。

1)数据:

数据的选择对最终模型的结果有直接影响,情感分析,根据不同的目的,选择的数据也不同。如将情感分析运用于**票房预测,则一些更新及时、内容丰富的数据源,如微博,是比较好的选择。如果是应用于商品的评价,如电子产品,很多评测内容是无法在短短几句话内描述清楚的,这时候微博不是个好的选择,选择论坛上更新较慢、但是详细的内容就比较适合。

如果能在产品的早期就有引入人工智能的打算,则可以在产品中事先做好数据采集。

2)模型:

在选择模型中,产品需要了解不同的模型的优缺点,进而选择更加合适的模型。在情感分析中,NB、SVM、N-gram都是常用的模型,其中SVM效果最好(这是已有的结论),如果是其他的智能产品,可能需要算法团队进行实验,给出测试数据,进而选择合适的模型。

3)效果评估:

效果评估在上文中已经描述得比较清楚,具体指标不再赘述。

4)产品呈现:

最后这一步,是将结果展示给用户。在情感分析中,我们可以选择雷达图、词云、情感趋势图来展示结果。取决于产品属性,如电商产品评论挖掘,可以使用词云;

如舆论分析,可以使用情感趋势图。

人工智能产品的设计要关注:数据、模型、评判、呈现。

幸福,是用来感觉的,而不是用来比较的。生活,是用来经营的,而不是用来计较的。感情,是用来维系的,而不是用来考验的。爱人,是用来疼爱的,而不是用来伤害的。金钱,是用来付出的,而不是用来衡量的。谎言,是用来击破的,而不是用来粉饰的。信任,是用来沉淀的,而不是用来挑战的。选择最淡的心事,诠释坎坷的人生。怨言是上天得至人类最大的供物,也是人类祷告中最真诚的部分。

感情不是考试,零时抱佛脚是没用的,也不会有交钱就能补考的机会,更不可能让你投机取巧的作弊,唯一及格的方法就是脚踏实地的去珍惜。

许多数据分析应用都会涉及到从短文本中提取出潜在的主题,比如微博、短信、日志文件或者评论数据。一方面,提取出潜在的主题有助于下一步的分析,比如情感评分或者文本分类模型。另一方面,短文本数据存在一定的特殊性,我们无法直接用传统的主题模型算法来处理它。短文本数据的主要难点在于:

主题提取模型通常包含多个流程,比如文本预处理、文本向量化、主题挖掘和主题表示过程。每个流程中都有多种处理方法,不同的组合方法将会产生不同的建模结果。

本文将主要从实际操作的角度来介绍不同的短文本主题建模算法的优缺点,更多理论上的探讨可以参考以下文章。

下文中我将自己创建一个数据集,并利用 Python scikit-learn 来拟合相应的主题模型。

本文主要介绍三个主题模型, LDA(Latent Dirichlet Allocation), NMF(Non-Negative Matrix Factorization)和SVD(Singular Value Decomposition)。本文主要采用 scikit-learn 来实现这三个模型。

除了这三个模型外,还有其他一些模型也可以用来发现文档的结构。其中最重要的一个模型就是 KMeans 聚类模型,本文将对比 KMeans 聚类模型和其他主题模型的拟合效果。

首先,我们需要构建文本数据集。本文将以四个自己构建的文本数据集为例来构建主题模型:

首先,我们需要考虑下如何评估一个主题模型建模效果的好坏程度。多数情况下,每个主题中的关键词有以下两个特征:

一些研究表明:关键词还需具备以下两个特征:

接下来,我们将介绍如何实现上述的四个模型——NMF, SVD, LDA 和 KMEANS。对于每个主题模型,我们将分别采用两种文本向量化的方法—— TF(Term Frequence) 和 TFIDF(Term-frequence-inverse-document-frequence)。通常情况下,如果你的数据集中有许多词语在多篇文档中都频繁出现,那么你应该选择采用 TFIDF 的向量化方法。此时这些频繁出现的词语将被视为噪声数据,这些数据会影响模型的拟合效果。然而对于短文本数据而言,TF和TFIDF方法并没有显著的区别,因为短文本数据集中很难碰到上述情况。如何将文本数据向量化是个非常热门的研究领域,比如 基于word embedding模型的方法——word2vec和doc2vec。

主题模型将选择主题词语分布中频率最高的词语作为该主题的关键词,但是对于 SVD 和 KMEANS 算法来说,模型得到的主题词语矩阵中既包含正向值也包含负向值,我们很难直接从中准确地提取出主题关键词。为了解决这个问题,我选择从中挑出绝对数值最大的几个词语作为关键词,并且根据正负值的情况加上相应的标签,即对负向词语加上 "^" 的前缀,比如"^bergers"。

sklearn 中的 truncated SVD implementation 类似于主成分分析算法,它们都试图利用正交分解的方法选择出具有最大方差的变量信息。

对于 clearcut-topic 数据集来说,我们分别利用 TF 和 TFIDF方法来向量化文本数据,并构建 SVD 模型,模型的拟合结果如下所示。正如我们之前所提到的,SVD 模型所提取的关键词中包含正负向词语。为了简单起见, 我们可以理解为该主题包含正向词语,不包含负向的词语。

比如,对于 "Topic 1: bergers | ^hate | love | ^sandwiches" 来说,该文本的主题中包含 "love bergers" 但是不包含 "hate sandwiches"。

由于模型的随机效应,所以每次运行模型得到的结果都会存在细微的差异。在 SVD 的拟合结果中我们发现发现 Topic 3: bergers | ^hate | ^love | sandwiches 成功地提取了 “food” 的主题。

当我们在解释 SVD 模拟的拟合结果时,我们需要对比多个主题的信息。比如上述的模型拟合结果可以解释成:数据集中文档的主要差异是文档中包含 “love bergers” 但不包含 “hate sandwiches”。

接下来我们将利用 SVD 来拟合 unbalanced topic 数据集,检验该模型处理非平衡数据集的效果。

从下述结果中可以看出,SVD无法处理噪声数据,即无法从中提取出主题信息。

LDA 是最常用的主题提取模型之一,因为该模型能够处理多种类型的文本数据,而且模拟的拟合效果非常易于解释。

直观上来看,LDA 根据不同文档中词语的共现频率来提取文本中潜在的主题信息。另一方面,具有相同主题结构的文本之间往往非常相似,因此我们可以根据潜在的主题空间来推断词语之间的相似性和文档之间的相似性。

LDA 算法中主要有两类参数:

接下来我们将研究这些参数是如何影响 LDA 模型的计算过程,人们更多的是根据经验来选择最佳参数。

与 SVD 模型不同的是,LDA 模型所提取的主题非常好解释。以 clearcut-topics 数据集为例,LDA 模型中每个主题都有明确的关键词,它和SVD主要有以下两个区别:

此外,对 LDA 模型来说,采用不同的文本向量化方法也会得到不同的结果。

在 sklearn 中,参数 topic_word_prior 和 doc_topic_prior 分别用来控制 LDA 模型的两类参数。

其中 topic_word_prior 的默认值是(1/n_topics),这意味着主题中的每个词语服从均匀分布。

NMF 可以视为 LDA模型的特例,从理论上来说,这两个模型之间的联系非常复杂。但是在实际应用中,NMF 经常被视为参数固定且可以获得稀疏解的 LDA 模型。虽然 NMF 模型的灵活性不如 LDA 模型,但是该模型可以很好地处理短文本数据集。

另一方面,NMF 最大的缺点是拟合结果的不一致——当我们设置过大的主题个数时,NMF 拟合的结果非常糟糕。相比之下,LDA模型的拟合结果更为稳健。

首先我们来看下 NMF 模型不一致的拟合结果。对于 clearcut topics 数据集来说,当我们设置提取5个主题时,其结果和真实结果非常相似:

类似于 KMeans 模型的聚类方法能够根据文档的向量形式对其进行分组。然而这个模型无法看成是主题模型,因为我们很难解释聚类结果中的关键词信息。

但是如果结合 TF或TFIDF方法,我们可以将 KMeans 模型的聚类中心视为一堆词语的概率组合:

最后,我将简单比较下不同的主题提取模型。大多数情况下,我们倾向于根据文档的主题分布情况对其进行分组,并根据关键词的分布情况来提取主题的信息。

大多数研究者都认为词语的语义信息是由其上下文信息所决定的,比如 “love” 和 “hate”可以看成是语义相似的词语,因为这两个词都可以用在 “I _ apples” 的语境中。事实上,词向量最重要的一个研究就是如何构建词语、短语或者文档的向量形式,使得新的向量空间中仍然保留着语义信息。

找寻语义相同的词语不同于计算词语的共现频率。从下述的结果中可以看出,大多数主题提取模型只涉及到词语的共现频率,并没有考虑词语的语义信息,只有 SVD 模型简单涉及到语义信息。

需要注意的是,本文所采用的数据集是根据一定的规则随机生成的,所以下述结果更多的是用于说明不同模型之间的区别:

原文链接: http://nbviewerjupyterorg/github/dolaameng/tutorials/blob/master/topic-finding-for-short-texts/topics_for_short_textsipynb

译者:Fibears

1数据挖掘能做以下六种不同事情(分析方法):

 · 分类 (Classification)

 · 估值(Estimation)

 · 预言(Prediction)

 · 相关性分组或关联规则(Affinity grouping or association rules)

 · 聚集(Clustering)

 · 描述和可视化(Des cription and Visualization)

 · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

 2数据挖掘分类

 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘

 · 直接数据挖掘

 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

 · 间接数据挖掘

 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。

 · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

 3各种分析方法的简介

 · 分类 (Classification)

 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

 例子:

 a 信用卡申请者,分类为低、中、高风险

 b 分配客户到预先定义的客户分片

 注意: 类的个数是确定的,预先定义好的

 · 估值(Estimation)

 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

 例子:

 a 根据购买模式,估计一个家庭的孩子个数

 b 根据购买模式,估计一个家庭的收入

 c 估计real estate的价值

 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

 · 预言(Prediction)

 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

 · 相关性分组或关联规则(Affinity grouping or association rules)

 决定哪些事情将一起发生。

 例子:

 a 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

 b 客户在购买A后,隔一段时间,会购买B (序列分析)

 · 聚集(Clustering)

 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

 例子:

 a 一些特定症状的聚集可能预示了一个特定的疾病

 b 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群

 聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

 · 描述和可视化(Des cription and Visualization)

 是对数据挖掘结果的表示方式。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/808246.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-09
下一篇2023-07-09

发表评论

登录后才能评论

评论列表(0条)

    保存