无监督和有监督的区别

无监督和有监督的区别,第1张

无监督和有监督的区别如下:

1、有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。

有监督学习可分为  回归和分类  。

回归: 即给出一堆自变量X和因变量Y,拟合出一个函数,这些自变量X就是特征向量,因变量Y就是标签。 而且标签的值  连续  的,例LR。

分类 :其数据集,由特征向量X和它们的标签Y组成,当你利用数据训练出模型后,给你一个只知道特征向量不知道标签的数据,让你求它的标签是哪一个?其输出结果是  离散  的。例如logistics、SVM、KNN等。

2、无监督学习:

我们事先没有任何训练样本,而需要直接对数据进行建模。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。

无监督学习主要算法是聚类,聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到,主要算法包括Kmeans、层次聚类、EM算法。

非监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据遥感影像地物的光谱特征的分布规律,依据图像数据本身的结构 ( 统计特征) 和自然点群分布,按照待分样本在多维波谱空间中亮度值向量的相似程度,由计算机程序自动总结出分类参数,即自然聚类的特性进行 “盲目”的分类。其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性。其类别的属性是通过分类结束后目视判读或实地调查确定的。非监督分类也称聚类 ( 集群) 分析,使用的方法有图形识别、系统聚类、分裂法和动态聚类等。

其中,比较实用的是动态聚类。它是首先根据经验和分类数,选定若干个均值向量,作为 “种子”,建立一批初始中心,进行初步概略的分类,然后根据规定的参数 ( 阈值)检验分类结果,逐步修改调整分类中心,再重新分类,并根据各类离散性统计量 ( 如均方差等) 和不同类别之间可分离性统计量 ( 如类间标准化距离等) ,进行类的合并或分裂; 此后再修改中心,直至分类结果合理为止。动态聚类中,聚类中心和分类数可以按客观的波谱特征自动调整,分类效果一般比较好,但分类结果的确切含义 ( 类别的属性)需另作分析,从实况调查或已有的地面资料中去确定它们的地物类型。以下以 ISODATA法和 K - Means 法为例,给出其处理过程。

1 ISODATA 方法

ISODATA 也称迭代自组织数据分析算法,实质是在分类过程中不断对分类参数 ( 如各类别的均值、标准差、类间距离等) 进行调整和确定,通过类分裂、类合并、类删除等方法最终构建所需的判别函数。ISODATA 法的实现主要包括以下步骤 ( 图 4-23) :

( 1) 确定最初类别数和类别中心。最初类别数和类别中心的确定具有较大的随意性,因无先验知识,只能在以后逐步调整。一般可依据原始数据的统计分布特征进行确定。

( 2) 计算每一个像元矢量与各类别中心的距离,将像元矢量归属于距离最小的类别。

( 3) 计算新的类别均值向量。

( 4) 判断新的类别中心是否变化。

( 5) 当新的类别中心发生变化时,以新均值代替旧中心,回到步骤 ( 2) 继续迭代循环; 当新的类别中心不再变化时则停止迭代,输出分类结果。

2 K - Means 方法

K - Means 方法的基本思想是通过迭代移动各基准类别 ( 初始类别) 的中心直至取得最好的聚类结果,分类时新的类别中心的确定是根据该类别内所有像元到类别中心的距离平方和之和最小这一原则。这一原则与 ISODATA 方法并无本质区别。

非监督分类由于事先不需训练样本,故处理速度较快,较客观,并能为监督分类的训练样区选择提供参照,一般在有目的的监督分类之前进行。

在判断是有监督学习还是在无监督学习上,我们可以具体是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

什么是学习(learning)?

一个成语就可概括:举一反三。机器学习的思路有点类似高考一套套做模拟试题,从而熟悉各种题型,能够面对陌生的问题时算出答案。

简而言之,机器学习就是看能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考题目),而这种根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

常用的无监督学习算法主要有三种:聚类、离散点检测和降维,包括主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。

从原理上来说,PCA等数据降维算法同样适用于深度学习,但是这些数据降维方法复杂度较高,所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。比如无监督学习中最常用且典型方法聚类。

在无监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。这时就需要某种算法帮助我们寻找一种结构。

监督学习(supervised learning),是从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。 常见任务包括分类与回归。

无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。

k近邻算法是有监督。

K最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。

用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。确定一个样本所属类别的一种最简单的方法是直接比较它和所有训练样本的相似度,然后将其归类的最相似的样本所属的那个类,这是一种模板匹配的思想。

k近邻算法的流程和优点:

k近邻算法的一般流程是:

1、收集数据。

2、计算待测数据与训练数据之间的距离(一般采用欧式距离)。

3、将计算的距离排序。

4、找出距离最小的k个值。

5、计算找出值中每个类别的频次。

6、返回最高频次的类别。

优点:精度高、对异常值不敏感缺点:计算复杂度高、空间复杂度高。K近邻最直接的利用了样本之间的关系,减少了类别特征选择不当对分类结果造成的不利影响,可以最大程度减少分类过程中的误差项。

文本情感分析根据文本大小可以划分为单词,句子级和篇章级,根据不同的分析目的,可以分为主客观分析(作者对客观事物的分析)和主观分析(作者自己的体验);根据处理方法的可以分为基于词典的情感分析和基于机器学习(SVM方法,神经网络和朴素贝叶斯方法)的情感分析;根据是否有人工参与,可以分为非监督和监督分类方法,区别在于是否需要人工情感标记。算法,主要的改进是通过依赖分析,围绕情感词,进行情感倾向性分析。

情感分析也被称为意见挖掘。情感分类涉及多个领域,如自然语音处理,人工智能,自动文本分类,文本挖掘,心理学等。它主要用来判别自然语言文字表达的观点,喜好以及感受和态度等相关的信息。

男女在情感认知方面确实存在很多差异,主要表现在以下几个方面:

1 表达情感方式不同:在情感表达上,女性通常更善于表现出自己的情感,比如通过语言、面部表情、姿势等方式表达出来,而男性则通常更容易内敛,表达方式不如女性明显。

2 对待情感的态度不同:女性往往更注重情感的细节和处理方式,并且往往会保持敏感和关注,而男性则更倾向于解决实际问题,尤其是在面对情感问题时,他们可能会感到失去控制,从而采取比较理性的方式来处理。

3 情感决策偏好不同:女性更偏爱与情感相关的东西,如音乐和文学,而男性则更倾向于探索和解决问题。

4 情感体验感知不同:女性之间的情感交流经常会发生,而男性之间的情感交流相对较少。女性更愿意分享自己的情感体验,而不同男性的情感交流通常较为简短,通常只是根据实际需要做简要的描述。

男女在情感认知方面的差异,反映了两性在表达方式、态度、偏好和体验感知上存在的差异。这些差异会影响性别间的情感交流和理解,需要通过对差异的理解和尊重来促进男女间的情感沟通和理解。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/1039182.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-12
下一篇2023-07-12

发表评论

登录后才能评论

评论列表(0条)

    保存