for循环是很多开发语言中最常用的一个循环。它可以大大提高代码的运行速度,简化逻辑代码,非常适用。
首先:for 有两种形式:一种是数字形式,另一种是通用形式。
数字形式的 for 循环,通过一个数学运算不断地运行内部的代码块。 下面是它的语法:
stat ::= for Name ‘=’ exp ‘,’ exp [‘,’ exp] do block end
block 将把 name 作循环变量。 从第一个 exp 开始起,直到第二个 exp 的值为止, 其步长为第三个 exp 。 更确切的说,一个 for 循环看起来是这个样子
for v = e1, e2, e3 do block end
注意下面这几点:
其次:所有三个控制表达式都只被运算一次, 表达式的计算在循环开始之前。 这些表达式的结果必须是数字。
var,limit,以及 step 都是一些不可见的变量。 这里给它们起的名字都仅仅用于解释方便。
如果第三个表达式(步长)没有给出,会把步长设为 1 。
你可以用 break 和 goto 来退出 for 循环。
循环变量 v 是一个循环内部的局部变量; 如果你需要在循环结束后使用这个值, 在退出循环前把它赋给另一个变量。
通用形式的 for 通过一个叫作 迭代器 的函数工作。 每次迭代,迭代器函数都会被调用以产生一个新的值, 当这个值为 nil 时,循环停止。
注意以下几点:
explist 只会被计算一次。 它返回三个值, 一个 迭代器 函数, 一个 状态, 一个 迭代器的初始值。
f, s,与 var 都是不可见的变量。 这里给它们起的名字都只是为了解说方便。
你可以使用 break 来跳出 for 循环。
环变量 var_i 对于循环来说是一个局部变量; 你不可以在 for 循环结束后继续使用。 如果你需要保留这些值,那么就在循环跳出或结束前赋值到别的变量里去。
var,limit,以及 step 都是一些不可见的变量。 这里给它们起的名字都仅仅用于解释方便。
如果第三个表达式(步长)没有给出,会把步长设为 1 。
你可以用 break 和 goto 来退出 for 循环。
循环变量 v 是一个循环内部的局部变量; 如果你需要在循环结束后使用这个值, 在退出循环前把它赋给另一个变量。
通用形式的 for 通过一个叫作 迭代器 的函数工作。 每次迭代,迭代器函数都会被调用以产生一个新的值, 当这个值为 nil 时,循环停止。
注意以下几点:
explist 只会被计算一次。 它返回三个值, 一个 迭代器 函数, 一个 状态, 一个 迭代器的初始值。
f, s,与 var 都是不可见的变量。 这里给它们起的名字都只是为了解说方便。
你可以使用 break 来跳出 for 循环。
环变量 var_i 对于循环来说是一个局部变量; 你不可以在 for 循环结束后继续使用。 如果你需要保留这些值,那么就在循环跳出或结束前赋值到别的变量里去。
1Perceptron(P) 感知机
1感知机
感知机是我们知道的最简单和最古老的神经元模型,它接收一些输入,然后把它们加总,通过激活函数并传递到输出层。
2Feed Forward(FF)前馈神经网络
2前馈神经网络
前馈神经网络(FF),这也是一个很古老的方法——这种方法起源于50年代。它的工作原理通常遵循以下规则:
1所有节点都完全连接
2激活从输入层流向输出,无回环
3输入和输出之间有一层(隐含层)
在大多数情况下,这种类型的网络使用反向传播方法进行训练。
3Radial Basis Network(RBF) RBF神经网络
3RBF神经网络
RBF 神经网络实际上是 激活函数是径向基函数 而非逻辑函数的FF前馈神经网络(FF)。两者之间有什么区别呢?
逻辑函数--- 将某个任意值映射到[0 , 1]范围内来,回答“是或否”问题。适用于分类决策系统,但不适用于连续变量。
相反, 径向基函数--- 能显示“我们距离目标有多远”。 这完美适用于函数逼近和机器控制(例如作为PID控制器的替代)。
简而言之,RBF神经网络其实就是, 具有不同激活函数和应用方向的前馈网络 。
4Deep Feed Forword(DFF)深度前馈神经网络
4DFF深度前馈神经网络
DFF深度前馈神经网络在90年代初期开启了深度学习的潘多拉盒子。 这些依然是前馈神经网络,但有不止一个隐含层 。那么,它到底有什么特殊性?
在训练传统的前馈神经网络时,我们只向上一层传递了少量的误差信息。由于堆叠更多的层次导致训练时间的指数增长,使得深度前馈神经网络非常不实用。 直到00年代初,我们开发了一系列有效的训练深度前馈神经网络的方法; 现在它们构成了现代机器学习系统的核心 ,能实现前馈神经网络的功能,但效果远高于此。
5Recurrent Neural Network(RNN) 递归神经网络
5RNN递归神经网络
RNN递归神经网络引入不同类型的神经元——递归神经元。这种类型的第一个网络被称为约旦网络(Jordan Network),在网络中每个隐含神经元会收到它自己的在固定延迟(一次或多次迭代)后的输出。除此之外,它与普通的模糊神经网络非常相似。
当然,它有许多变化 — 如传递状态到输入节点,可变延迟等,但主要思想保持不变。这种类型的神经网络主要被使用在上下文很重要的时候——即过去的迭代结果和样本产生的决策会对当前产生影响。最常见的上下文的例子是文本——一个单词只能在前面的单词或句子的上下文中进行分析。
6Long/Short Term Memory (LSTM) 长短时记忆网络
6LSTM长短时记忆网络
LSTM长短时记忆网络引入了一个存储单元,一个特殊的单元,当数据有时间间隔(或滞后)时可以处理数据。递归神经网络可以通过“记住”前十个词来处理文本,LSTM长短时记忆网络可以通过“记住”许多帧之前发生的事情处理视频帧。 LSTM网络也广泛用于写作和语音识别。
存储单元实际上由一些元素组成,称为门,它们是递归性的,并控制信息如何被记住和遗忘。
7Gated Recurrent Unit (GRU)
7GRU是具有不同门的LSTM
GRU是具有不同门的LSTM。
听起来很简单,但缺少输出门可以更容易基于具体输入重复多次相同的输出,目前此模型在声音(音乐)和语音合成中使用得最多。
实际上的组合虽然有点不同:但是所有的LSTM门都被组合成所谓的更新门(Update Gate),并且复位门(Reset Gate)与输入密切相关。
它们比LSTM消耗资源少,但几乎有相同的效果。
8Auto Encoder (AE) 自动编码器
8AE自动编码器
Autoencoders自动编码器用于分类,聚类和特征压缩。
当您训练前馈(FF)神经网络进行分类时,您主要必须在Y类别中提供X个示例,并且期望Y个输出单元格中的一个被激活。 这被称为“监督学习”。
另一方面,自动编码器可以在没有监督的情况下进行训练。它们的结构 - 当隐藏单元数量小于输入单元数量(并且输出单元数量等于输入单元数)时,并且当自动编码器被训练时输出尽可能接近输入的方式,强制自动编码器泛化数据并搜索常见模式。
9Variational AE (VAE) 变分自编码器
9VAE变分自编码器
变分自编码器,与一般自编码器相比,它压缩的是概率,而不是特征。
尽管如此简单的改变,但是一般自编码器只能回答当“我们如何归纳数据?”的问题时,变分自编码器回答了“两件事情之间的联系有多强大?我们应该在两件事情之间分配误差还是它们完全独立的?”的问题。
10Denoising AE (DAE) 降噪自动编码器
10DAE降噪自动编码器
虽然自动编码器很酷,但它们有时找不到最鲁棒的特征,而只是适应输入数据(实际上是过拟合的一个例子)。
降噪自动编码器(DAE)在输入单元上增加了一些噪声 - 通过随机位来改变数据,随机切换输入中的位,等等。通过这样做,一个强制降噪自动编码器从一个有点嘈杂的输入重构输出,使其更加通用,强制选择更常见的特征。
11Sparse AE (SAE) 稀疏自编码器
11SAE稀疏自编码器
稀疏自编码器(SAE)是另外一个有时候可以抽离出数据中一些隐藏分组样试的自动编码的形式。结构和AE是一样的,但隐藏单元的数量大于输入或输出单元的数量。
12Markov Chain (MC) 马尔科夫链
12Markov Chain (MC) 马尔科夫链
马尔可夫链(Markov Chain, MC)是一个比较老的图表概念了,它的每一个端点都存在一种可能性。过去,我们用它来搭建像“在单词hello之后有00053%的概率会出现dear,有003551%的概率出现you”这样的文本结构。
这些马尔科夫链并不是典型的神经网络,它可以被用作基于概率的分类(像贝叶斯过滤),用于聚类(对某些类别而言),也被用作有限状态机。
13Hopfield Network (HN) 霍普菲尔网络
13HN霍普菲尔网络
霍普菲尔网络(HN)对一套有限的样本进行训练,所以它们用相同的样本对已知样本作出反应。
在训练前,每一个样本都作为输入样本,在训练之中作为隐藏样本,使用过之后被用作输出样本。
在HN试着重构受训样本的时候,他们可以用于给输入值降噪和修复输入。如果给出一半或数列用来学习,它们可以反馈全部样本。
14Boltzmann Machine (BM) 波尔滋曼机
14 BM 波尔滋曼机
波尔滋曼机(BM)和HN非常相像,有些单元被标记为输入同时也是隐藏单元。在隐藏单元更新其状态时,输入单元就变成了输出单元。(在训练时,BM和HN一个一个的更新单元,而非并行)。
这是第一个成功保留模拟退火方法的网络拓扑。
多层叠的波尔滋曼机可以用于所谓的深度信念网络,深度信念网络可以用作特征检测和抽取。
15Restricted BM (RBM) 限制型波尔滋曼机
15 RBM 限制型波尔滋曼机
在结构上,限制型波尔滋曼机(RBM)和BM很相似,但由于受限RBM被允许像FF一样用反向传播来训练(唯一的不同的是在反向传播经过数据之前RBM会经过一次输入层)。
16Deep Belief Network (DBN) 深度信念网络
16DBN 深度信念网络
像之前提到的那样,深度信念网络(DBN)实际上是许多波尔滋曼机(被VAE包围)。他们能被连在一起(在一个神经网络训练另一个的时候),并且可以用已经学习过的样式来生成数据。
17Deep Convolutional Network (DCN) 深度卷积网络
17 DCN 深度卷积网络
当今,深度卷积网络(DCN)是人工神经网络之星。它具有卷积单元(或者池化层)和内核,每一种都用以不同目的。
卷积核事实上用来处理输入的数据,池化层是用来简化它们(大多数情况是用非线性方程,比如max),来减少不必要的特征。
他们通常被用来做图像识别,它们在的一小部分上运行(大约20x20像素)。输入窗口一个像素一个像素的沿着图像滑动。然后数据流向卷积层,卷积层形成一个漏斗(压缩被识别的特征)。从图像识别来讲,第一层识别梯度,第二层识别线,第三层识别形状,以此类推,直到特定的物体那一级。DFF通常被接在卷积层的末端方便未来的数据处理。
18Deconvolutional Network (DN) 去卷积网络
18 DN 去卷积网络
去卷积网络(DN)是将DCN颠倒过来。DN能在获取猫的之后生成像(狗:0,蜥蜴:0,马:0,猫:1)一样的向量。DNC能在得到这个向量之后,能画出一只猫。
19Deep Convolutional Inverse Graphics Network (DCIGN) 深度卷积反转图像网络
19 DCIGN 深度卷积反转图像网络
深度卷积反转图像网络(DCIGN),长得像DCN和DN粘在一起,但也不完全是这样。
事实上,它是一个自动编码器,DCN和DN并不是作为两个分开的网络,而是承载网路输入和输出的间隔区。大多数这种神经网络可以被用作图像处理,并且可以处理他们以前没有被训练过的图像。由于其抽象化的水平很高,这些网络可以用于将某个事物从一张中移除,重画,或者像大名鼎鼎的CycleGAN一样将一匹马换成一个斑马。
20Generative Adversarial Network (GAN) 生成对抗网络
20 GAN 生成对抗网络
生成对抗网络(GAN)代表了有生成器和分辨器组成的双网络大家族。它们一直在相互伤害——生成器试着生成一些数据,而分辨器接收样本数据后试着分辨出哪些是样本,哪些是生成的。只要你能够保持两种神经网络训练之间的平衡,在不断的进化中,这种神经网络可以生成实际图像。
21Liquid State Machine (LSM) 液体状态机
21 LSM 液体状态机
液体状态机(LSM)是一种稀疏的,激活函数被阈值代替了的(并不是全部相连的)神经网络。只有达到阈值的时候,单元格从连续的样本和释放出来的输出中积累价值信息,并再次将内部的副本设为零。
这种想法来自于人脑,这些神经网络被广泛的应用于计算机视觉,语音识别系统,但目前还没有重大突破。
22Extreme Learning Machine (ELM) 极端学习机
22ELM 极端学习机
极端学习机(ELM)是通过产生稀疏的随机连接的隐藏层来减少FF网络背后的复杂性。它们需要用到更少计算机的能量,实际的效率很大程度上取决于任务和数据。
23Echo State Network (ESN) 回声状态网络
23 ESN 回声状态网络
回声状态网络(ESN)是重复网络的细分种类。数据会经过输入端,如果被监测到进行了多次迭代(请允许重复网路的特征乱入一下),只有在隐藏层之间的权重会在此之后更新。
据我所知,除了多个理论基准之外,我不知道这种类型的有什么实际应用。。。。。。。
24Deep Residual Network (DRN) 深度残差网络
24 DRN 深度残差网络
深度残差网络(DRN)是有些输入值的部分会传递到下一层。这一特点可以让它可以做到很深的层级(达到300层),但事实上它们是一种没有明确延时的RNN。
25Kohonen Network (KN) Kohonen神经网络
25 Kohonen神经网络
Kohonen神经网络(KN)引入了“单元格距离”的特征。大多数情况下用于分类,这种网络试着调整它们的单元格使其对某种特定的输入作出最可能的反应。当一些单元格更新了, 离他们最近的单元格也会更新。
像SVM一样,这些网络总被认为不是“真正”的神经网络。
26Support Vector Machine (SVM)
26 SVM 支持向量机
支持向量机(SVM)用于二元分类工作,无论这个网络处理多少维度或输入,结果都会是“是”或“否”。
SVM不是所有情况下都被叫做神经网络。
27Neural Turing Machine (NTM) 神经图灵机
27NTM 神经图灵机
神经网络像是黑箱——我们可以训练它们,得到结果,增强它们,但实际的决定路径大多数我们都是不可见的。
神经图灵机(NTM)就是在尝试解决这个问题——它是一个提取出记忆单元之后的FF。一些作者也说它是一个抽象版的LSTM。
记忆是被内容编址的,这个网络可以基于现状读取记忆,编写记忆,也代表了图灵完备神经网络。
非常有趣的的问题。既然题主问到了动物声音的识别,不妨从鸟类不同种类语音识别的应用的参考开始。通过鸟类的鸣声来判定鸟的种类是一项鸟类鉴别的重要技能,通过反复的记忆和训练,可能大致识别出不同种类鸟鸣声的节奏、音高、反复、音色、音节长短等区别。当然也有一些鸟类还可以通过鸣叫以外的声音来识别,比如啄木鸟的敲击声。从发音原理上来讲,鸟类的发声是气流通过鸣管形成的。那么不同种类鸟类在进化过程中的分歧导致了鸣管结构的不同是鸣声鉴别的重要依据。同一种类的鸟类不同性别的鸣声是有差别的,但是实验表明这种差别在于一些叫声通常只会由某种性别产生,但是在特殊情况下这样的叫声也可以由另一性别发出 (Hoelzel 1986 Song),这主要取决于对相似结构鸣管运用模式的不同。另外,在幼鸟成熟过程中鸣管的结构性变化也会导致成鸟和幼鸟鸣叫声音的不同。从脑神经控制上来讲,一些鸟类(例如鸣禽目、燕雀目、鹦形目、蜂鸟科、雨燕目)的鸣叫声是有意识模仿习得的,并且有一定的特征节奏,这种鸣叫更类似于鸟类界的“歌声”。这种歌声的学习是与脑前叶的控制以及与性激素的分泌有关的,很多时候这类歌声起到求偶、领域争夺等社交作用。另一部分的鸟叫声并非习得,而是先天的下意识的鸣叫。当然了,目前对于鸟类发声原理的了解大部分都是大致的、具普遍性的。对于特定种类或是特定个体的情况,也存在不少例外。例如并不是所有鸣禽都会学习歌声的;还有在特定的诱导下(实验控制、迷路、杂交鸟),一些种类的鸟会学习不属于自己种群歌声;一些种类的鸟例如棕三趾鹑 (Turnix suscitator) (Madge 2002 Pheassants),黑胸鸦鹃 (Centropus grillii) (Goymann 2004 Competing) 在歌声习得上会有性别反转的情况,即雌性为雄性保护领地而发出通常的雄性歌声。通过对鸟类发音原理的背景了解,很多鸟类学家就逐渐着手解决一个“听声辨鸟”的实际问题。其中比较有代表性的是鸟类歌声而不是普通叫声的研究。传统的方法是将鸟类歌声分为四个层次,音符(notes)、音节 (syllables)、章节 (phrases)和全歌 (song) (Catchpole 1995 Bird)。其中具有代表性的基本单位是音节 (Anderson 1996 Template),因此赫尔辛基大学的Harma认为适于采用音节作为鸟类歌声自动识别的特征 (Harma 2003 Automatic)。采用音节的另一个好处是,因为每个音节持续时间只有几百毫秒,易于从野外很多不同种类的混合鸟叫声中提取出来。并且鸟类歌声的节奏和重复等特征可能存在地域性差异,而音节在同种鸟类中不容易产生较大的变化。Harma对14种相似鸣禽的歌声通过简单的正弦表示 (sinusoidal representation) (因为鸣管发音的实质就是正弦震动),能够从仅仅一段音节中加以区分。
车,定将成为生活中最可靠的伙伴。
深耕国内市场超过20年,北京现代收获了近1200万用户的支持信赖,汽车产业加速变革的今天,北京现代回归汽车出行的本质,MUFASA沐飒,在2023年带给每一位消费者一份惊喜。
发布会上,一场奇幻之旅,让我们进入MUFASA沐飒的世界,它是车,但不止是交通工具;它承载着家庭的温度,伴你入住车轮上的智能两室一厅。
北京现代副总经理戚晓晖表示“北京现代将以技术战、品质战、价值战应对市场挑战,以有温度的产品和服务回应用户需求,不负时代和用户。”
“感性运动(Sensuous Sportiness)”是MUFASA沐飒设计理念的基础,融入了参数化宝石的概念,垂直LED前大灯、LED隐藏式日行灯、运动式前保杠以及熏黑前脸,显得更为运动;车侧回旋式侧面特征线、风驰五辐式轮毂、扩展型三角窗等细节,无论行驶还是静止状态下,都有着强烈的速度感;车尾采用了环绕式OVAL组合尾灯,与现代品牌字母标识相融,后扰流板上中置的高位刹车灯配合后包围进一步提升了整车动感。
步入车内,感受到MUFASA沐飒对于“现代·家居”的深刻理解,并未延续外观的激进和运动,“Multi Zone”概念座舱的设计语言,让MUFASA沐飒多了几分别样的精致感。
首先是优秀的空间表现,让这两室一厅显得套内空间十足。基于i-GMP平台短前悬、长轴距、短后悬的设计,2680mm的轴距表现换来充足的车内空间和多达31处的储物空间,另有451L的后备箱装载量。
其次,中控台123英寸双联屏,内部搭载了智能网联系统40,具备语音识别功能,不仅可以自动识别驾驶指令,还能实现与智能家电互联,真正实现MUFASA沐飒成为现代家居生活的一部分,而不再是一座独立的孤岛。
MUFASA沐飒化身为精致的“智能两室一厅”,能满足家庭男主人的驾驶乐趣与舒适便利、能带给家庭女主人精致的出行瞬间、还能让孩子与宠物享受惬意自如的乘坐享受。
掌握发动机、变速箱、底盘核心技术自主研发能力的现代汽车集团,基于家庭用车的定位,为MUFASA 沐飒量身打造的20L发动机+6AT变速箱的动力组合,动力稳定输出之下,还保证了低油耗。
关于智能驾驶,Hyundai Smartsense智心合一安全系统,实现了24项ADAS智能驾驶辅助功能,包括HDA 高速公路驾驶辅助、LKA 车道防止偏离辅助、RCCA 后方交叉防撞辅助、FCA 前方防撞辅助、SVM 全景影像等。
写在最后
“憧憬的两室一厅”、“奇幻之旅”、“梦想成真时刻”三个篇章,震撼性的舞台表现和表演诠释了现代汽车对于未来汽车生活的憧憬。
车,将成为家庭生活的一员,也是最可靠的伙伴,现代人不可或缺的一部分,而MUFASA沐飒承载了北京现代产品转型、品牌向新等历史使命,也为消费者带来了一份如沐春风的清新。
本文来自易车号作者引擎密码,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关
现在深度学习在机器学习领域是一个很热的概念,不过经过各种媒体的转载播报,这个概念也逐渐变得有些神话的感觉:例如,人们可能认为,深度学习是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧;而这样一种技术在将来无疑是前景无限的。那么深度学习本质上又是一种什么样的技术呢?
深度学习是什么
深度学习是机器学习领域中对模式(声音、图像等等)进行建模的一种方法,它也是一种基于统计的概率模型。在对各种模式进行建模之后,便可以对各种模式进行识别了,例如待建模的模式是声音的话,那么这种识别便可以理解为语音识别。而类比来理解,如果说将机器学习算法类比为排序算法,那么深度学习算法便是众多排序算法当中的一种(例如冒泡排序),这种算法在某些应用场景中,会具有一定的优势。
深度学习的“深度”体现在哪里
论及深度学习中的“深度”一词,人们从感性上可能会认为,深度学习相对于传统的机器学习算法,能够做更多的事情,是一种更为“高深”的算法。而事实可能并非我们想象的那样,因为从算法输入输出的角度考虑,深度学习算法与传统的有监督机器学习算法的输入输出都是类似的,无论是最简单的Logistic Regression,还是到后来的SVM、boosting等算法,它们能够做的事情都是类似的。正如无论使用什么样的排序算法,它们的输入和预期的输出都是类似的,区别在于各种算法在不同环境下的性能不同。
那么深度学习的“深度”本质上又指的是什么呢?深度学习的学名又叫深层神经网络(Deep Neural Networks ),是从很久以前的人工神经网络(Artificial Neural Networks)模型发展而来。这种模型一般采用计算机科学中的图模型来直观的表达,而深度学习的“深度”便指的是图模型的层数以及每一层的节点数量,相对于之前的神经网络而言,有了很大程度的提升。
深度学习也有许多种不同的实现形式,根据解决问题、应用领域甚至论文作者取名创意的不同,它也有不同的名字:例如卷积神经网络(Convolutional Neural
大数据分析到底需要多少种工具?
摘要
JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。
1.分类方法大比武
大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。
机器学习
图1 机器学习分类体系
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大。在843%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了。
2.几点经验总结
大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。
大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。
一般地,Ensemble方法包括Random Forest和AdaBoost、SVM、Logistic Regression 分类准确率最高。
没有一种方法可以“包打天下”。Random Forest、SVM等方法一般性能最好,但不是在什么条件下性能都最好。
不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2中Blaco & Brill的实验结果。
对于简单问题,Random Forest、SVM等方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。
在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。
大数据
图2 不同机器学习方法在数据集增大时的学习曲线。
3.应采取的大数据分析策略
建立大数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,自如使用分析工具的工程师和分析人员。
只有善工利器,大数据分析才能真正发挥威力。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)