主成分分析方面可以看以下两篇论文,个人觉得讲的比较好:
Kernel_principal_component_analysis,Bernhard Scholkopf,1996
Nonlinear Component Analysis as a Kernel Eigenvalue Problem,Bernhard Scholkopf,1996
支持向量机的话,建议你看《统计学习理论》和《一种数据挖掘的新方法——支持向量机》这两本比较好。《统计学习理论》是支持向量机的理论基础,这本书很厚但是可以打下比较扎实的理论基础,值得好好读一下。另外,刚入门的话可以找一下SVM的一些综述性文献,这个网上很多,我就不在这里多说了。
希望我的回答能对你有所帮助!
作者 | 胡豫陇
清华大学博士后
方云智能团队核心成员,AI算法应用专家
方云创始团队具有深厚技术研发和企业管理经验,依托长期行业积累和对数字化产业的深刻理解,以数字化方式评价研发团队,驱动企业精确度量研发组织及个人的工作效能,合理调配研发资源。帮助技术决策者精确测评研发组织绩效(便于向上汇报、平级沟通)和个人绩效(便于向下管理)。回顾2020年度,我们在数据分析方面,基于实际用户数据做了大量尝试,取得了显著成效,并将研究成果转化为实际应用,深度提升了产品能力。
(一)算法研究过程
算法研究的基础是数据,无论是基于数学和经验知识的建模分析,还是基于统计学和机器学习的数据分析,都需要依托数据来开展。
算法研究的第一步 ,我们建 立了自主的数据指标体系,并在这个指标体系基础上,开展后续的研究。 指标体系由三级指标组成,一级为最基础元数据,二级指标由一级指标计算得到、三级指标由二级指标和一级指标计算得到。一般来说,高级指标具有更高的信息密度,在进行信息表征时,也能够实现更加深度的信息传达效果。但另一方面,数据分析时并不是选择的高级指标越多,越有效果。而是要根据具体场景和算法要求,选择必要的各级指标,才能达到所需的分析效果。例如在kmeans算法中,低级别指标反而具有更好的分类效果,而在SVM算法中,则需要高级别指标。
研究的第二步,Kmeans。 我们鉴于元数据收集较为完整,同时数据量不是很大的情况,结合sklearn的算法选择引导图,选择了Kmeans算法对员工的行为数据进行无监督学习聚类。
在选择了若干基础指标数据的同时,我们引入RFM思想,将员工在指定周期内的工作新鲜度(R)、工作频次(F)和工作量(M)也作为聚类指标,一并用于算法聚类,取得了十分明显的分类效果。这里的核心在于我们不仅通过基础指标评价了员工的工作结果数据,还通过RFM方法评价了员工的工作过程数据。将这两类数据相结合做出的聚类,能够很好的对员工进行分类表征。分类结果的解读可以直接根据指标的含义进行解释。
研究第三步,SVM。 在聚类取得了较好的效果的基础上,我们认为数据质量是可靠的,这相当于我们有了很好的客观数据集,在此基础上,我们提出由企业管理者对员工的表现进行打分,形成Label,这样我们就得到了监督学习的训练集,从而可以对员工行为进行监督学习下的预测。这项工作我们进行了多种尝试,并最终通过特征工程,选取了最为有效的15个指标,来作为员工行为的表征指标。
这里我们回顾一下研究的历程,以作为以后研究的经验参考。SVM最初分析时,我们选择了多于60个指标进行监督学习,但是学习效果并不好,类别间的区分度很低,这主要是由于过多的指标导致SVM算法无法清楚地寻找到类别间的界线。所以我们通过一些特征工程的方法,来进行降维。首先通过pearson相关度分析,我们将大量的指标根据关联度,分为了24类,每一类中的指标都具有高度的相关性。因此可以在每一类指标中选出一个最具代表性的指标。这个选取过程由我们研究团队根据实际情况,选择了最具代表性的24个指标。其次,24个指标做SVM依然过多,我们用RFE算法来判断哪些指标对学习准确率影响最大,从而来选出最有效的那些指标。RFE过程中,我们使用Lasso、Ridge、Logistic、RFClassifier、linerSVM这5种算法来作为筛选器,分别得到每一种算法下最有效的特征,进而,我们选取那些被更多算法视为“有效”的特征,例如任务平均完成时长,在5种筛选器种都被认为有效,那么这个特征对于我们做监督学习,就是一个很好的特征。
此外,特征筛选还应考虑一个问题,那就是筛选器和分类器是否要具有相同的算法范式。例如,如果分类准备用SVM,那么筛选器就业要选SVM类的。这样才能保证筛选出来的特征,在对应的分类算法下是最为有效的。
研究第四步,数据分布拟合。 虽然在前三步研究中我们取得了一定的成效,但通过仔细检验已有的数据我们发现数据仍然存在两方面问题,一是一些数据还是会存在漏填、错填的问题,这属于数据错误问题。二是在填报比较完整的数据中,存在一些极值数据,这些数据并不一定是错误数据,也有可能是个别员工行为表现异常导致。无论是哪种情况导致的数据异常(前提是已经预处理过缺失值),我们都可以通过拟合数据的分布,来判断数据的分布情况,并寻找那些离群点。
在数据分布拟合研究中,我们通过对多种分布函数的尝试,最终提出可通过正态分布、F分布、卡方分布、Gamma分布这四种常见的分布函数来拟合员工行为数据。以正态分布为例,如果我们拟合某个指标符合正态分布,那么我们可以认为左右两侧5%区间以内的数据是常规行为,而两侧5%以外的数据是异常行为。并且通过进一步分析我们发现,一侧5%到千分之一之间的数据,有时也属于合理行为,而一侧千分之一以外的数据,才最有可能称为异常行为。通过这样的分析,我们就可以通过数据分布拟合的方式,来发现员工的异常行为数据,并提出对应的管理策略。
此外,我们还曾提出在拟合时,要拟合显著才能认为数据符合某一分布。但如果这样判断,我们发现有的数据并不满足显著的要求,但是数据确本身具有很强的实用信息,因此我们提出,不必以显著为分析前提。而这其实也表明,数字化时代,要以更加符合实际的分析手段来分析数据,指导业务。而不用拘泥于过于学术或刻板的分析标准。
总结而言,在这四条主线研究思路下,我们对合作客户的员工行为数据开展了特征工程、非监督学习、监督学习、数据分布拟合等一系列标准的算法研究。进而,结合实际应用场景,将研究结果转化为了具体应用。接下来总结一下所形成的具体应用。
(二)产品转化结果
研究成果向产品转化,是一个不断积累,由量变引起质变的过程。在最初的研究中,我们会在多个点上开展研究,但最终哪些研究成果能转变为实际应用,是不确定的。而随着研究的增多,能够转变为实际产品功能的成果就会显现,这体现在三个层次。第一层次,一些好的研究点,一些对特定场景的解决方案,能够转变为实际产品功能。第二层次,单个功能点看似没有太大价值,但是当出现某个典型功能点后,我们会意识到,其他看似无用的功能点,却是对这个典型功能点的有效补充。第三层次,多个研究会呈现出一些共性,这些共性能够转化为产品思路和产品模式,这是要比单点产品功能更具价值的地方。这样的由研究向产品转化的思路,扎根实践,又提炼总结,是具有很好的参考意义的。
我们在多个研究点探索后,不断思考如何将研究点转化为实用的功能,这既要结合客户需求,也要结合我们自己对用户痛点、产品功能的设计。2020年度的研究,我们始终在做的主线是员工行为画像,无论是监督学习还是非监督学习,都是为了选定一套合适的指标和权重,来达成对员工的排名。在这个思路下,我们整合多种排名算法,最终提出:由用户自主选择排名模式。在不同的排名模式下,我们为用户提供不同的算法或排名方式,这就相当于我们以后端智能化的方式,满足了用户在前端多样化的需求。而这也正是数字化时代,产品以智能化方式,为用户提供个性化功能的体现。具体而言,我们为用户提供四种可选模式,来实现对员工排名。
模式一、行业最佳实践 ,以成熟用户已有案例,制定一套指标和相应权重。用户选取想要的案例类别,我们根据其实际数据,计算相应排名结果。这里打分模式有两种,一是产品自定义给出,二是根据已有打分排名,用Kmeans确认不同类别优秀度,回归树反推指标权重。
模式二:AI聚类算法 ,系统对员工进行自然状态进行三次或多次kmeans聚类,每次调整指标种类和权重,然后由客户选择一种符合预期的聚类结果,那么客户的选择就对应了指标种类和权重。
模式三:AI监督学习 ,对员工进行kmeans聚类,得到n个类别,客户对n类按优秀度进行排序打分,接下来,系统依据打分情况,通过RFE算法(Estimator选用决策树回归或决策树分类),判断不同指标重要度。
模式四:AI辅助定制(纯手动) ,由用户指定n个指标,并为n个指标确定权重,系统对员工进行排名,可选择算法有:加权求和、RandomForestRegressor、GradientBoostingRegressor。备注,后两种具体实现方式是,根据加权求和打分得到y,x就是输入的加权指标。然后训练得到模型。
方云智能多种AI绩效评价方法均已通过实践验证,并实现产品化。
(三) 算法准确率分析
数据分析时结果一般需要有一定的准确度,才可以说算法对问题实现了一定解决。在数字化转型的过程中,我们不必以绝对的预测准确率来判断算法好坏。这是由于我们在评价员工行为时,训练集标注或者人的认知,都是极具主观性的,而且这种主观性又是会动态变化的,所以算法能够捕捉到的,有时候也许是客观规律,但有时候也许就只是管理者的一时情绪。我们评价算法的好坏,应该从实践出发,对于符合认知、规律的算法是好算法,但是能解释或捕捉短期用户态度的算法,也是可靠的。具体而言,我们针对已有的研究,给出下述准确率总结。
一、Kmeans是非监督学习,无准确率,但可以阐述我们对老黄牛和南郭先生的发现,是符合管理常识的。
SVM预测,我们首先得到了一个关键结论,管理严格程度高、中、低,对应员工表现中、高、低。这一结论的得出是符合常识规律的,那么我们也可以反推认为算法是有效的。
二、根据对过去员工数据+label进行SVM训练,我们预测未来的准确率最初仅为60%,但经过样本筛选,参数调优后,准确率可达到93%。
三、数据合理性分析中,我们通过以不同的分布拟合员工行为数据,选出95%区间内的员工,再进一步选出95%到0001之间的员工,准确选出数据出现问题的员工。具体实践结果表明,我们确实捕捉到了行为极值点,也捕捉到了5%以外但行为合理的点。
(四)研究总结和下一步计划
算法研究、数据分析的目的,最终还是为了找到新的用户需求,开发新的产品功能。第二部分中我们总结了由研究向产品实际功能转化的思路。一是好的研究点直接转变为实际产品功能。二是一些低价值的功能点支撑典型功能点后。三是研究体现出的共性思路,转化为产品思路和产品模式。
接下来我们的研究也致力于从这三个方面来探索更多的产品功能和产品模式。目前提的主思路有:
一是将项目管理的知识和流程植入产品,帮助企业管理者简单、高效的完成项目管理。这其中将人员动态分配到不同的任务中,就会是十分典型的一个功能。在此基础上,员工行为的分析和排名就会成为很好的辅助功能,我们可以依据员工行为特点,将他们分配到不同情况的任务中。
二是深化单点功能。我们在SVM训练模型时发现,每个月的模型放到下个月或者其他月份来预测,准确率不稳定。其中很可能的原因是每个月的评价标准有所波动。那我们就可以在长期数据上,对每个月都进行模型训练,得到多个模型。在此基础上,将未来一个月的数据放在过去多个月的模型上预测,这样就会出现一个月的数据在多个月模型下评价各不相同的情况,这就能反应出每个月评价标准的波动情况。
三是产品模式的升级。我们可以采用轻量化前端,收集一些简单必要的数据后,将复杂的分析都放在后端来实现。功能上的呈现就是,用户在前端进行一些个性化的数据和模式选择,系统能够在后端为用户进行多样化的分析,呈现给用户智能化的操作界面(如智能化流程、模板化流程)、分析结果(排名、雷达图、行为空间映射等),甚至是客制化流程、数据,算法,系统提供分析结果。
免费试用地址: FarCloud|方云|方云数据智能研发绩效|30天提效30%
在介绍GS模型之前,我们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM)。混合线性模型是一种方差分量模型,既然是线性模型,意味着各量之间的关系是线性的,可以应用叠加原理,即几个不同的输入量同时作用于系统的响应,等于几个输入量单独作用的响应之和(公式1)。
既然是混合效应模型,则既含有固定效应,又含有随机效应。所谓固定效应是指所有可能出现的等级或水平是已知且能观察的,如性别、年龄、品种等。所谓随机效应是指随机从总体中抽取样本时可能出现的水平,是不确定的,如个体加性效应、母体效应等(公式2)。
式中 y 为观测值向量; β 为固定效应向量; μ 为随机效应向量,服从均值向量为0、方差协方差矩阵为G的正态分布 μ ~ N(0,G) ; X 为固定效应的关联矩阵; Z 为随机效应的关联矩阵;
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)