python 机器学习 用什么库

python 机器学习 用什么库,第1张

使用Python编程可以快速迁移代码并进行改动,无须花费过多的精力在修改代码与代码规范上。开发者在Python中封装了很多优秀的依赖库,可以直接拿来使用,常见的机器学习库如下:

1、Scikit-Learn

Scikit-Learn基于Numpy和Scipy,是专门为机器学习建造的一个Python模块,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。

Scikit-Learn基本功能可分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。其中集成了大量分类、回归、聚类功能,包括支持向量机、逻辑回归、随机森林、朴素贝叶斯等。

2、Orange3

Orange3是一个基于组件的数据挖掘和机器学习软件套装,支持Python进行脚本开发。它包含一系列的数据可视化、检索、预处理和建模技术,具有一个良好的用户界面,同时也可以作为Python的一个模块使用。

用户可通过数据可视化进行数据分析,包含统计分布图、柱状图、散点图,以及更深层次的决策树、分层聚簇、热点图、MDS等,并可使用它自带的各类附加功能组件进行NLP、文本挖掘、构建网络分析等。

3、XGBoost

XGBoost是专注于梯度提升算法的机器学习函数库,因其优良的学习效果及高效的训练速度而获得广泛的关注。XGBoost支持并行处理,比起同样实现了梯度提升算法的Scikit-Learn库,其性能提升10倍以上。XGBoost可以处理回归、分类和排序等多种任务。

4、NuPIC

NuPIC是专注于时间序列的一个机器学习平台,其核心算法为HTM算法,相比于深度学习,其更为接近人类大脑的运行结构。HTM算法的理论依据主要是人脑中处理高级认知功能的新皮质部分的运行原理。NuPIC可用于预测以及异常检测,使用面非常广,仅要求输入时间序列即可。

5、Milk

Milk是Python中的一个机器学习工具包。Milk注重提升运行速度与降低内存占用,因此大部分对性能敏感的代码都是使用C++编写的,为了便利性在此基础上提供Python接口。重点提供监督分类方法,如SVMs、KNN、随机森林和决策树等。

Python作为一门理想的集成语言,将各种技术绑定在一起,除了为用户提供更方便的功能之外,还是一个理想的粘合平台,在开发人员与外部库的低层次集成人员之间搭建连接,以便用C、C++实现更高效的算法。

使用Python编程可以快速迁移代码并进行改动,无须花费过多的精力在修改代码与代码规范上。开发者在Python中封装了很多优秀的依赖库,可以直接拿来使用,常见的机器学习库如下:

1、Scikit-Learn

Scikit-Learn基于Numpy和Scipy,是专门为机器学习建造的一个Python模块,提供了大量用于数据挖掘和分析的工具,包括数据预处理、交叉验证、算法与可视化算法等一系列接口。

Scikit-Learn基本功能可分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。其中集成了大量分类、回归、聚类功能,包括支持向量机、逻辑回归、随机森林、朴素贝叶斯等。

2、Orange3

Orange3是一个基于组件的数据挖掘和机器学习软件套装,支持Python进行脚本开发。它包含一系列的数据可视化、检索、预处理和建模技术,具有一个良好的用户界面,同时也可以作为Python的一个模块使用。

用户可通过数据可视化进行数据分析,包含统计分布图、柱状图、散点图,以及更深层次的决策树、分层聚簇、热点图、MDS等,并可使用它自带的各类附加功能组件进行NLP、文本挖掘、构建网络分析等。

3、XGBoost

XGBoost是专注于梯度提升算法的机器学习函数库,因其优良的学习效果及高效的训练速度而获得广泛的关注。XGBoost支持并行处理,比起同样实现了梯度提升算法的Scikit-Learn库,其性能提升10倍以上。XGBoost可以处理回归、分类和排序等多种任务。

4、NuPIC

NuPIC是专注于时间序列的一个机器学习平台,其核心算法为HTM算法,相比于深度学习,其更为接近人类大脑的运行结构。HTM算法的理论依据主要是人脑中处理高级认知功能的新皮质部分的运行原理。NuPIC可用于预测以及异常检测,使用面非常广,仅要求输入时间序列即可。

5、Milk

Milk是Python中的一个机器学习工具包。Milk注重提升运行速度与降低内存占用,因此大部分对性能敏感的代码都是使用C++编写的,为了便利性在此基础上提供Python接口。重点提供监督分类方法,如SVMs、KNN、随机森林和决策树等。

曾经开发过基于机器学习的分类方法,用于分类问题的解决方案。首先从收集和准备数据开始,然后从多个角度分析数据,并利用特征工程进行数据预处理。接下来,将数据分成训练集和验证集,并使用逻辑回归、随机森林和XGBoost等多种算法进行模型训练和参数调整。在实际应用中,这些模型分别使用在了客户出行预测和推荐系统中,并取得了显著的效果提升。

本文是对某线上酒店用户流失预测分析项目的一个总结。

目录/分析思路:

01:  项目介绍

02:问题分析

03:数据探索

04:数据预处理

05:建模分析

06:用户画像分析

一、项目介绍

      该项目是对某酒店预订网在一段时间内的客户预定信息数据进行分析,通过算法预测客户访问的转化结果,挖掘出影响用户流失的关键因素,并深入了解用户画像及行为偏好,从而更好地完善产品设计,进行个性化营销服务,以减少用户流失,提升用户体验。

二、问题分析

       这个项目是问题诊断型,要解决的问题是关于用户流失的。在官方提供的字段和解释中,有一个label字段,这个是目标变量,也就是我们需要进行预测的值。label=1代表客户流失,label=0代表客户未流失,很显然这是个分类的预测问题。

       我们的目标就是在预测准确率高的同时最大化召回率,从业务角度出发,也就是将更多原本可能会流失的客户最大概率地预测出来,以针对性进行挽留。因为通常来讲,获取新用户的成本比挽留老用户流失的成本要多得多。

三、数据探索

1、数据总体情况

本数据集合userlostprob_datatxt,为某酒店预订网2016年5月16至21日期间一周的访问数据。

本数据集总的数据共有689945行,51列,包含样本id,label以及49个变量特征。

考虑到保护用户隐私,该数据经过了数据脱敏处理,和实际的订单、浏览量、转化率有一些差距,但是并不影响问题的可解性。

2、数据指标梳理

观察数据集,里面的变量比较多。所以首先将数据字典中中文解释替换对应变量名,增强可读性,然后最好将指标进行梳理分类,然后逐个字段进行解析。

经过研究发现,指标大概可以分为三类:一类是订单相关的指标,如入住日期、订单数、取消率等;一类是与客户行为相关的指标,如星级偏好、用户偏好价格等;还有一类是与酒店相关的指标,如酒店评分均值、酒店评分人数、平均价格等。

3、相关特征描述性分析

31  访问日期和入住时间

入住人数和访问人数都在5月20日达到峰值,大概是“520”情人节的原因;5月21日之后入住人数大幅减少,后面的两个小波峰,表明周末会比平日人多一些。

32  访问时间段

可以观察到,凌晨3-5点是访问人数最少的时间段,因为大多数人这个时间都在睡觉;在晚上9-10点左右访问人数是最多的。

33  客户价值

“客户近1年价值”和“客户价值”两个特征非常相关,都可以用来表示客户的价值;可以看到,大部分客户的价值在0-100范围;有些客户价值高达600,后期需重点关注分析这类高价值客户。

34  消费能力指数

基本呈现正态分布,大部分人的消费能力在30附近。消费能力达到近100的人数也很多,说明在我们酒店的访问和入住客户中,存在不少高消费水平群体。

35  价格敏感指数

去掉极值,数据呈右偏分布,大部分客户对价格不是很敏感,不用太费心定价;针对价格敏感指数100的客户群体,可以采用打折的方式进行吸引。

36  入住酒店平均价格

大部分人选择酒店价格在1000以下,价格2000以上的酒店选择的人非常少;排除“土豪”,可以看到,消费者对酒店价格的选择,基本是一个正偏态的分布,大部分人会选择的平均价格在300元左右(大概是快捷酒店一类)。

37  用户年订单数

大部分用户的年订单数在40以下,同时,也存在部分频繁入住酒店的用户,需要重点维护;

38  订单取消率

用户一年内取消订单率最多的是100%和0,对于百分百取消订单的客户可以结合订单数了解一下原因。

39  一年内距离上次下单时长

可以观察出,预定间隔时间越长的人数是递减的,说明相当多的人订酒店还是比较频繁的;侧面反映出“熟客”会经常性地选择预定酒店,回头客较多。

310 会话ID

服务器分配给访问者的一个id,1为新的访客。

访问客户中老客户占大多数;老客的预定概率比新客的预定概率稍微高一点。

四、数据预处理

41 重复值处理

数据维度没有发生 变化,说明该数据集没有重复值。

42  生成衍生字段

基于对业务的理解,考虑到用户提前预定酒店时间这一特征可能会比较重要,将两个日期型特征转化生成一个新的特征,提高模型准确度和可解释性。

43 缺失值处理

查看缺失值情况

共51个字段,缺失字段:44个

缺失值处理思路及过程

查看特征分布情况:

查看所有数值型特征的分布情况,根据数据分布合理选用处理方法,包括异常值、缺失值处理,同时有助于深入了解用户行为。

共51个字段,缺失字段:44个,选择合适的方法进行缺失值处理:

缺失比例80%以上:1个,“近7天用户历史订单数”缺失88%,直接删除该字段。

趋于正态分布的字段,使用均值填充;右偏分布的字段,使用中位数填充。

检查缺失值填充情况

查看可知,缺失值数据已填充完毕。

44  异常值处理

极值处理:

(后面基于实际业务思考,盖帽法存在部分不合理,可能会过滤高价值用户,需要调整)

负值处理:

45  标准化处理

距离类模型需要提前进行数据标准化。

五、建模分析

首先拆分训练集和测试集

51  逻辑回归

[07366529216096935, 07016048745527705]

52  决策树

[08728884186420657, 08448881691422343]

53  随机森林

[08936581901455913, 09399374165108152]

54  朴素贝叶斯

[06224554131126394, 06610756921767458]

55  XGBOOST

[08886143098362913, 09383456626294802]

56  模型比较

画出ROC曲线

可以看到,朴素贝叶斯表现最差,逻辑回归的表现也不是很好,说明该数据不是线性可分的;随机森林和xgboost模型的表现差不多,二者的AUC得分都在09以上,分类效果很好,随机森林AUC值为094更高一点,固采用随机森林进行用户流失预测。

57  随机森林模型优化

交叉验证

学习曲线——取分类器为80

[09333570067179268, 097816699979759]

即根据这个随机森林模型召回率可以达到978%,流失客户预测准确率可以达到933%。

该模型可以直接上线用于用户流失预测。

58 影响客户流失的关键因素

用随机森林分析影响客户流失的因素:使用feature_importance方法,可以得到特征的重要性排序。

最重要的前10个特征:      

年访问次数、一年内距上次访问时长、昨日访问当前城市同入住日期的app uv数、一年内距离上次下单时长、昨日提交当前城市同入住日期的app订单数、24小时内已访问酒店可订最低价均值、24小时内已访问酒店商务属性指数均值、24小时内已访问次数最多酒店可订最低价、24小时历史浏览次数最多酒店评分人数、客户价值 。

六、用户画像分析

接下来用K-Means聚类的方法将用户分为3类,观察不同类别客户的特征。

K-means聚类

 

可以看到,聚出来的3类用户有各自非常明显的特征,针对不对类用户的个性化营销建议:

0类为中等群体: 消费水平和客户价值都偏低,访问和预定频率较高,提前预定的时间是三类中最长的;花费非常多的时间进行浏览才能做出选择,比较谨慎,推测可能为出门旅行的用户。

建议:尽可能多地进行推送,因为此类客户通常比较喜欢浏览;多推荐价格相对实惠的酒店;推送当地旅游资讯,因为这类客户旅游出行的概率较大。

1类为低价值客户: 消费水平和客户价值极低,偏好价格较低,访问和预定频率很低; sid值很低,说明新客户居多。

建议:按照流失客户处理,不建议花费过多营销成本,不做特定渠道运营;推荐促销活动,价格折扣大的的低价酒店;新用户占比较大,潜在客户居多,可以维持服务推送。

2类为高价值客户: 消费水平高,客户价值大,追求高品质,价格敏感度高;登陆时间长,访问次数多,提前预定时间短,但退单次数较多。

建议:为客户提供更多差旅地酒店信息;  推荐口碑好、性价比高的商务连锁酒店房源吸引用户; 在非工作日的11点、17点等日间流量小高峰时段进行消息推送。

一些备注:

1、数据特征筛选时可以做相关性分析,因为可能某些特征之间存在高度相关,可以用相关性分析去掉和目标变量相关性小于001的变量,其他变量之间相关性高于09的可以删除,再利用主成份分析对指标进行降维整合,可能会使模型效果达到最好。

2、如果想对用户分类更加精细,可以使用RFM模型进行用户价值分析。但本项目特征包含信息较多,用RFM可能损失信息量比较大。

编辑导读:在互联网+引领的新时代,数据作为驱动的新能源,赋能商品运营,为商品运营带去新动力。本文从对商品运营、数据分析在商品中的营销落地展开陈述,并列举相关分析方法,给读者最真切的阅读体验,一起来看看吧。一、什么是商品运营商品运营是围绕商品做全生命周期的管理,包括开发期、新品期、长大期、成熟期、以及衰退期。在这个过程中,总共分成三个业务单元:企划、供应链、运营。「企划」是根据市场需求、品牌调性、竞品情况来制定新品,并通过包装等营销手段,引导顾客进行场景化消费。「供应链」在这里更多是库存管理、物流发货。当然也是不可或缺的一环,比如配合运营触达玩法,在发货包裹中夹带精准推荐商品卡片等。除此之外的都是「运营」范畴,比如在电商平台配合平台运营根据人群、场景进行选品,跟踪、监控产品表现,及时调整产品定位并匹配安全库存。接下来我们跟踪一款产品的生命周期流程,看它是如何从诞生、到长大、到最后退出舞台的。1开发期——商品企划对于品牌来说,在商品上市前,就需要洞察消费者需求、行业趋势、竞品动态、近期热点等,结合品牌调性,综合考虑后才能选好合适的商品。比如某电视剧开播就上热搜,剧女主DIY手链在B站评论区好评如潮,此时作为珠宝公司的企划判断有较好市场,当即研判该电视剧目标人群符合品牌调性,则着手策划电视剧同款新品。2新品期——种草造势在新品上市前就可以开始到小红书等社区找达人KOL发内容进行种草,或者与跨界品牌联名制造话题吸引关注。当然,根据品牌自身定位、资源,有不同打法:对于成熟品牌:可以利用头部资源引爆话题营销对于人气新锐:可以借流量明星抓牢粉丝破圈而对于大部分的零资源品牌:同样可以通过针对性内容提高种草力3长大期——打造爆品站外的种草造势配合站内新品发售渠道拔草,通过利润折让,把销量冲到榜首,进而拿到更多平台分发的流量,再加上一点运气因素把新品打造成爆品。此时爆品的作用在于补充现金流,同时还能为店铺带来可观的流量。当然不是说爆品就等于引流品,同样也存在高价产品直接能为店铺带来利润。该阶段注意供应链库存的支撑。4成熟期——运营收割此时,除非是具有不可逾越门槛的商品,否则市场竞品都会迅速跟上发布对标新品,品类竞争加剧,销量放缓。为巩固先发者优势,品牌一般会在品类上横纵延伸,衍生出同风格或主题系列。或者通过场景化营销,引导顾客购买爆品的同时,搭配购买其他商品,实现连带销售,进一步挖掘剩余红利。5衰退期——清仓促销可能因为廉价替代品的出现,可能因为IP热度消逝,也可能因为内部结构调整,很多原因都会把商品带到这一阶段,曾经的爆品就不香了,产品逐渐被市场淘汰。挤压在仓库的库存就成了成本费用,需要通过会员赠礼、折价促销等方式进行清空,为下一个爆品腾出空间。二、数据分析在商品运营的落地前面是对单个商品以线性思维讨论生命周期,但是在实际业务会更复杂。因为面对成百上千乃至上万的商品,以及变化迅速的市场行情、竞品招式,人工的思路已经无法满足品牌发展需求,需要借助数据分析的工具,赋能商品运营。开篇时候说商品运营由企划、供应链、运营组成,那数据分析同样是与这三个业务单元配合开展。1企划新品开发其中的一个开端可以是由应对竞品的策略带来的。假设小米发布了可以短距离空间无线充电的手机,大受市场关注,则作为它竞品的华为、OV等品牌为了保住市场会采取措施,发布同样功能新品,或者发布划时代意义的产品降维打击。数据分析在这个过程中,则是通过竞品分析来落地。通过此消彼长的市场份额变化、品类占比、价格趋势、或多指标聚类等分析,洞察竞品在产品上的策略趋势,以提供应对建议。在天猫平台,情报通工具可以获取竞品的单品销售数据。通过对价格与品类交叉分析,发现A品牌的洗发水正往高端发力,B品牌则盘踞低端入门品类,若我司计划开拓洗发水品类,可建议从中端市场介入。接下来再结合分析该市场价位、人群、竞品等维度,给出更具体建议,例如:竞品的爆款分析:是否要从产品风格突破、差异化突破、客单价突破;竞争对手定位:如何超越竞争对手,从营销上突破;主推款的更换突破;店铺促销方案的突破;店铺文案设计的突破;竞争对手推广渠道:竞品是通过什么渠道做的可以,付费、免费、站外、直播、活动。2消费者洞察爆品都是洞察消费者心理的成功案例,比如瞄准年轻人“养生蹦迪”心理,推出“无糖、非碳酸饮料”的元气森林,迅速抢占市场,一跃成为国内的网红饮料品牌。做消费者洞察的渠道主要通过内容社区(如小红书、微博)、APP联盟(基于消费者手机装的app来推断用户画像)、自有数据的平台(如天猫的数据银行)等。这里介绍一种利用社交平台洞察消费者的方法:SocialListening社会化聆听,此方法与做用户研究的VOCVoiceofCustimer用户之声相似,简单来说就是基于社交媒体,通过文本挖掘方法洞察用户的心理。它不仅用于产品企划阶段,在后续的营销传播也大有用处,比如对竞品做声量分析、了解网友对品牌的吐槽并推出解决方案等。知乎的苏格兰折耳喵大神详细介绍了其中一个实践方案,需要一个心理学方法和一个用户动机分析工具实现:1)心理投射分析方法比如以前网易做的荣格心理学测试,就是一种心理投射:不同场景下用户的选择动作,代表着特定的心理暗示。每次的选择都会生成一个标签,最后再结合分析模型从这些用户标签信息中获得情感洞察。2)Censydiam用户动机分析模型马斯洛需求理论是最著名的用户需求分析模型,它将人们的需求分为生理需要、安全需要、社会需要、归属需要、自我实现五个层次。但是马斯洛需求理论存在一个Bug:是否在经济萧条人们温饱(生理需要)受到威胁时,高端品牌(归属需要)就无人问津了呢?答案:不是。例如美国的「口红效应」,在大萧条期间,非必需品的口红销量反而上升,因为它可以对处在困境中的人们起到安慰作用。为了解决马斯洛需求理论的Bug,融合了多个心理学大佬理论的Censydiam用户动机分析模型诞生:它把人们行为动机分成享乐/释放、融合/沟通、服从/归属、舒适/安全、理性/控制、个性/独特、能力/地位、活力/探索,八种。有了方法和工具后,我们来看下如何落地。比如到微博平台洞察小米用户画像:找到最近期最活跃的小米官博认为官博下的粉丝为活跃忠粉,通过工具或爬虫拿到他们的标签,如旅游、美食、数码等将标签映射到Censydiam中,发现主要集中在“享乐/释放”、“活力/探索”、“个性/独特”根据享乐/释放,小米提出“堪比XBOX游戏机”、“双摄像头”等新功能活力/探索,也是MIUI开发版的各种不同玩法、功能尝鲜的印证个性/独特,表示用户追求个性化的用机体验,能有自己DIY的空间3运营打造爆品之测款在新品期,决定对商品长大期投入资源之前,需要让操盘人对商品具有足够的信心。此时,则需要通过测款来降低投入风险。测款的数据分析:针对收藏率、跳失率、停留时间、转化率等关键维度进行一周的数据统计。其中需要回溯爆品的历史数据,找到爆款的魔法数字,比如点击收藏比峰值达到20%的比例,则认为该款极具爆品潜力。商品定位——聚类分群面对成百上千的商品,在资源有限的情况下,需要将商品进行分类,分配不同资源,以形成更具针对性的营销策略、玩法。此时数据分析以指标聚类的形式落地,如帕累托分析、象限分析、波士顿矩阵等。1)单指标聚类——帕累托分析商品的帕累托分析是二八法则的升级应用,找到贡献最多、而数量少的那部分商品作为核心利润品,而其余商品如《长尾理论》那样满足细分人群需要。进而将商品划分为不同策略产品,并采用不同的行动方案提高商品管理效率。如何计算:对评估指标(如销售额、利润等)进行排序;求出每个商品的累计数据;求出每个商品的累计数据占比;对每个商品的累计占比进行等级划分如累计占比<=70%为A类款,累计销售占比在70-90%之间的为B类款,累计销售占比在90-100%之间的为C类款。在实际业务落地过程中,因为数据分析很多时候属于后验型分析,即是在分析已经发生的现状。例如帕累托分析中,以销售额作为评估指标对商品进行划分会存在一个疑问:企业本来就对某款商品投入了大量资源或放到聚划算引流,现在的分析说它属于A类款,也只是企业操盘后的结果,不能对未来产生指导建议。这是单指标聚类最常被业务质疑的点,为了解决这个问题,或者说提供更多信息,就需要进行多指标聚类,其中最出名的就是波士顿矩阵。2)多指标聚类——波士顿矩阵波士顿矩阵用业务增长率和市场份额两个指标进行聚类,形成四种分类,并形成针对性建议:明星商品:高增长率,高市场份额。建议进一步扩大资源投入,扩大竞争优势;金牛商品:低增长率,高市场份额。维持资源投入,保持市场份额;问题商品:高增长率,低市场份额。扩大投入,转成明星商品;瘦狗商品:低增长率,低市场份额。处于衰退期,清仓处理。波士顿矩阵是从大局出发,制定商品的战略发展策略。实际业务中没有市场份额数据,可以用相对市场份额替代,即拿到4-5个竞品数据后,作为大盘,看商品在其中的市场份额占比。用于聚类的指标是根据场景目标选的,通过不同组合满足不同目的。例如业务场景是针对老客推荐商品,翻译过来就是想找出老客偏好的商品做成页面吸引回购,此时可以计算商品的老客TGI指标,与老客销量做指标聚类,对于高老客TGI、高老客销量的商品,就可以认为是老客偏好且有能力吸引回购的商品。此时,除了运营外,供应链也会针对商品所处的位置,采取相应的安全库存策略,以确保爆款产品不会脱销,滞销产品库存不会积压。1)滞销款根据二八原则,一个店铺80%的利润是由20%的商品带来的。那剩余的80%里面,除了平平无奇的商品,必定还存在拖累销售的滞销款。除了前面讲的指标聚类的方式做分类,现行业务以下方式进行判断:打分排名:适用于所有商品,先基于多指标制定排行榜打分标准,在一定的时段后,针对所有商品进行打分,排名最后5%~10%为淘汰对象;销售量/额:适用于单价低的商品,基于历史数据,找出销量/销额的生存线魔法数字,如300个/月,未达此标准的淘汰处理;这个过程中,数据分析师要深入了解业务才能找到数据异动背后的原因。如某商品参加一次直播活动销售数据很差,只通过数据很容易误判它不适合直播。实际上调研后发现是直播当天,因为平台运营设置错误,导致某平台上售价更低,以至于顾客直播看到货都跑去其他平台购买。这时就要运用商品组合分析法,以下是对这种方法的解读:也称为购物篮分析。现在常见的“福袋”就是一种商品组合玩法,目的是为了提高顾客客单,毕竟买两件要比买一件花更多钱。数据分析可以通过购物篮分析在此场景落地,分析不同商品组合的支持度、置信度、提升度,最终给出落地策略。在实际业务落地过程中,分析逻辑会更加丰富:不仅是单品之间的连带,还可以是风格、材质、价格等之间的关联不仅是单次订单的组合,还可以是顾客历史消费的商品组合在应用场景上,不仅是连带推荐,还可以是关联复购推荐目前最常见的关联分析算法是Apriori,理解原理后,通过Python掉包或自行计算,皆可轻松实现。2)销售预测销售预测当商品进入到长大期或成熟期后,已经沉淀了足够的数据可以对未来的销售趋势进行预测。但是事实上,大部分生意中,业绩是干出来的,而不是预测出来的,那为什么还要做销售预测呢?一方面是要帮助供应链在商品库存管理方面更加高效,另一个方面,要做复杂算法模型的意义在于探索影响生意的因子与销售之间的关系,帮助销售目标的制定,或制定完成目标所需的要素条件。在落地的过程中,销售预测模型不仅需要考虑周期性、区域性,还要把业务规律等因素量化进去,或者根据业务场景对模型预测结果进行补偿。否则,高大上的机器学习模型,报告准确率为90%,然而一旦要预测到更细品类就直接凉了。因为对于供应链来说,预测整体销售没有多大意义,他们操作的颗粒度是到SKU,所以模型预测结果起码得到二级分类能用才行。做销售预测的方法比较常见的有:MA移动平均,是许多时间序列预测的基础,通过设定时间窗口大小,计算平均值并推断/预测下一个时间窗口数据;ARIMA模型,它由AR(AutoRegress自回归模型)+I(Integrated差分)+MA(移动平均)组成,或者说ARIMA模型的拟合序列=周期序列+趋势序列+残差序列。看起来比较复杂但是不难理解,建议可以到知乎深入学习;Prophet模型,Facebook出的、比前两者更复杂的时间序列预测模型,但是它反而因为融入了更多业务因素(如季节),更具备可解释性,上手也不难;以及其他机器学习模型,如回归算法、XGBoost等,但这些实操效果发现,要做到高准确率,需要花费更大的功夫,还有头发的话就可以抓紧再学习。3)流量拆解预测销售除了以上方法外,诸如天猫等自有流量体系的电商平台还能根据流量的转化公式计算预期销售额。天猫618大促前,根据去年同期流量及近180天流量数据、转化率、结合品牌私域用户策略数据,可以得出618销售目标,并给出各流量渠道的投入预算。对于品牌来说,费用的投入就有了预期收入作依据。4)库存分析商品供应链另一大块的分析则是库存分析,分析指标包括:库存量、库销比、周转率、售罄率、齐码率、品类占比等。三、结尾在互联网+引领的新时代,数据作为驱动的新能源,同样衍生出“数据分析+”。数据分析+用户运营、数据分析+商品运营等,都是在用与传统方法不一样的数据思维来操盘,但这不意味着可以脱离业务只看数据。相反,本文多处都在强调融入业务做数据分析的重要性。如果你对商品运营有不同的看法,或者哪部分想深入了解,欢迎留言讨论~

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/897773.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-11
下一篇2023-07-11

发表评论

登录后才能评论

评论列表(0条)

    保存