spss软件聚类分析怎么用，从输入数据到结果，树状图结果。整个操作怎么进行。需要基本思路。_知识

1、分析-分类-k-平均值聚类，进行相关参数的设置。

2、结果显示：spss从中挑选了几个个例，5个聚类中心选择了5个原始案例。

3、针对存在的问题，进行相关参数的设置，增加迭代次数。

4、所以要对数据进行标准化，得到标准化后的结果。

5、利用标准化后的数据进行聚类分析。

6、接着进行分析，比较平均值3395个样本中有443个。

聚类，将相似的事物聚集在一起，将不相似的事物划分到不同的类别的过程。是将复杂数据简化为少数类别的一种手段。

设有m个样本单位，每个样本测的n项指标（变量），原始资料矩阵：

指标的选择非常重要：

必要性要求：和聚类分析的目的密切相关，并不是越多越好

代表性要求：反映要分类变量的特征

区分度要求：在不同研究对象类别上的值有明显的差异

独立性要求：变量之间不能高度相关（儿童生长身高和体重非常相关）

散布性要求：最好在值域范围内分布不太集中

在各种标准量度值scale差异过大时，或数据不符合正态分布时，可能需要进行数据标准化。

（1） 总和标准化 。分别求出各聚类指标所对应的数据的总和，以各指标的数据除以该指标的数据的总和。

根据聚类对象的不同，分为Q型聚类，R型聚类

（1）常见距离统计量 - 闵可夫斯基距离系列（线性距离）

p=2，时为欧氏距离（n维空间中的几何距离）

p=∞，时为切比雪夫距离（棋盘格距离）

（2）常见距离统计量 - 马氏距离（协方差距离）

均值为μ，协方差矩阵为∑的向量x=(1,2,n)

相比于欧式距离，马氏距离考虑到各种指标之间的联系（如身高和体重并不独立，）且马氏距离具有尺度无关性（scale-invariant），因此可不必做标准化。

如果协方差矩阵为单位矩阵（各指标之间完全相互独立），则马氏距离化为欧几里得距离。

如果协方差矩阵为对角矩阵，则马氏距离化为正规化的欧几里得距离（normalized Euclidean distance）

（3）常见距离统计量 - 文本距离

文本距离通常用来度量文本之间的相似度，在生物研究中常见于序列比对分析。

常见相似系数统计量

相似系数= 1，表明完全相似

相似系数= -1 表明完全相反

相似系数 = 0 表明完全独立

相关系数：

类与类之间距离的度量方法：

系统聚类法不仅需要度量个体与个体之间的距离，还要度量类与类之间的距离。类间距离被度量出来之后，距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。

目前有1000多种聚类算法：没有一种聚类算法可以包打天下，聚类算法中的各种参数也必须依据具体问题而调节

常见聚类算法的分类：

1，层次聚类（Hierarchical clustering）

2，划分聚类（Partitioning clustering）

3，密度聚类（Density-based）

4，期望最大化聚类（Expectation Maximization）

5，网格聚类（Grid-based）

6，模型聚类（Model-based）

1 层次聚类的方法

基本思想：

在聚类分析的开始，每个样本（或变量）自成一类；然后，按照某种方法度量所有样本（或变量）之间的亲疏程度，并把最相似的样本（或变量）首先聚成一小类；接下来，度量剩余的样本（或变量）和小类间的亲疏程度，并将当前最接近的样本（或变量）与小类聚成一类；如此反复，知道所有样本聚成一类为止。

举例：

有一组数据D={a,b,c,d,e} 给了它们之间的距离矩阵。

首先，每一个例子都是一个类：

2 划分聚类的方法

划分聚类算法：

给定一个包含n个样本的数据集，基于划分的方法（Partitioning Method）就是将n个样本按照特定的度量划分为k个簇（k≤n），使得每个簇至少包含一个对象，并且每个对象属于且仅属于一个簇，而且簇之间不存在层次关系。

基于划分的方法大多数是基于距离来划分的，首先对样本进行初始化分，然后计算样本间的距离，重新对数据集中的样本进行划分，将样本划分到距离更近的簇中，得到一个新的样本划分，迭代计算直到聚类结果满足用户指定的要求。

要想得到最优的聚类结果，算法需要穷举数据集所有可能的划分情况，但是在实际应用中数据量都比较大，利用穷举方法聚类显然是不现实的，因此大部分基于划分的聚类方法采用贪心策略，即在每一次划分过程中寻求最优解，然后基于最优解进行迭代计算，逐步提高聚类结果的质量。虽然这种方式有可能得到局部最优结果，但是结合效率方面考虑，也是可以接受的。

算法：

举例：

有一个二维空间的一些点，我们要将它们分成3个类，即K=3。

我们首先随机选择3个初始质心，每一个质心为一类：

然后我们计算每一个不是质心的点到这三个质心的距离：

将这些点归类于距离最近的那个质心的一类：

重新计算这三个分类的质心：

不断重复上述两步，更新三个类：

当稳定以后，迭代停止，这时候的三个类就是我们得到的最后的三个：

最著名的是k-means聚类算法和K-medoids算法（中心点聚类）

处理“大海中的若干孤岛”，以密度来区分岛

大部分基于密度的方法（Density-based Method）采用距离度量来对数据集进行划分，在球状的数据集中能够正确划分，但是在非球状的数据集中则无法对样本进行正确聚类，并且受到数据集中的噪声数据影响较大。基于密度的方法可以克服这两个弱点。

基于密度的方法提出“密度”的思想，即给定邻域中样本点的数量，当邻域中密度达到或超过密度阈值时，将邻域内的样本包含到当前的簇中。若邻域的密度不满足阈值要求，则当前的簇划分完成，对下一个簇进行划分。基于密度的方法可以对数据集中的离群点进行检测和过滤。

算法：

基于网格的方法（Grid-based Method）将数据集空间划分为有限个网格单元，形成一个网络结构，在后续的聚类过程中，以网格单元为基本单位进行聚类，而不是以样本为单位。由于算法处理时间与样本数量无关，只与网格单元数量有关，因此这种方法在处理大数据集时效率很高。基于网格的方法可以在网格单元划分的基础上，与基于密度的方法、基于层次的方法等结合使用。

基于模型的方法（Model-based Method）假定数据集满足一定的分布模型，找到这样的分布模型，就可以对数据集进行聚类。基于模型的方法主要包括基于统计和基于神经网络两大类，前者以高斯混合模型（Gaussian Mixture Models，GMM）为代表，后者以自组织映射网络（Self Organizing Map，SOM）为代表。目前以基于统计模型的方法为主。

以下内容后续补充：

数据示例：

为了有效利用聚类算法，首先需要度量观测值见的距离，在R中常通过stats包里的dist函数来实现：

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)

dist 函数计算对象（矩阵或数据框）中两两间的距离，返回的是距离矩阵（dist类对象）。dist函数的参数描述如下。

另一个计算点之间的距离的方法是cluster包里面的daisy函数：

daisy函数计算数据集中每对观测值的不相似度。daisy函数的参数描述如下：

k-means聚类是最简单的聚类算法之一。R中可以通过stats包里面的kmeans函数实现k-means聚类：

kmeans(x, centers, itermax = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)

kmeans函数的参数描述如下：

用户画像是一种目标用户的人物原型，它不仅可以快速了解用户的基本信息并快速归类，并且可以进一步精准地分析用户行为习惯和态度偏好。用户画像虽然是用户的虚拟代表，但必须基于的是真实用户和真实数据。

我们尝试去做一个用户画像，往往是基于以下情景：

确定目标用户，将用户根据不同特征划分不同类型，确定目标用户的比例和特征；

统计用户数据，获得用户的操作行为、情感偏好以及人口学等信息；

根据目标用户确定产品发展相关优先级，在设计和运营中将焦点聚焦于目标用户的使用动机与行为操作；

方便设计与运营，据用户画像提供的具体的人物形象进行产品设计和运营活动，也比仅有模糊的、虚构的、或是有个人偏好的用户形象更为方便和可靠；

根据不同类型用户构建智能推荐系统，比如个性化推荐，精准运营等等。

从用户画像的使用情境也可以看出，用户画像适用于各个产品周期：从潜在用户挖掘到新用户引流，再到老用户的培养与流失用户的回流，用户画像都有用武之地。

采用定性的方法（如，深度访谈、焦点小组）或定量的方法（如，定量问卷、行为日志数据）都能够完成用户画像的构建，不同的方法各有优缺点：

但是，不论是选择定性还是定量的方法，都首先需要对用户类型有一个基本“量”的了解，否则在选用样本时就会产生偏差。那么如何通过定量的方法（聚类）构建用户画像呢？

选择那些指标？

用户指标的选择，可以是封闭性的，也可以是开放性的。在封闭的指标中，用户群的类型是固定的，所有用户类型构成了全部的用户整体，比如轻度用户、重度用户；男性用户，女性用户。但是这种划分方式维度可能过于单一，无法体现用户群的复杂性，并且不利于指标体系的补充改进和迭代，因此在研究中我们更倾向于采用开放性的分类方式，可以根据不同应用场景变更或者拓展指标。

开放式的指标体系包括用户人口属性、行为操作属性、态度偏好属性、用户价值属性等，用户的行为和态度是不断变化的。

其中，注意一点，封闭式指标中的人口属性指标是相对稳定的静态数据。通常，从我们的经验和掌握到的用户信息，我们对用户的年龄结构、性别比例都已经明确，如果在聚类中人口属性指标对聚类干扰较大（共线性较强），或在模型中作为因子影响过高，可以在聚类时重点关注用户的行为操作和态度偏好等指标，聚类成功之后再比较每一种用户类型的人口学背景信息等。

如何获得和筛选数据？

在确定指标后，我们需要确定指标的来源。有些数据是后台行为日志可以记录到的，有些是需要用问卷调查的。一般而言，行为层面的指标可以用后台日志，更加准确。而态度层面的则要用问卷来获取。两种数据渠道各有优缺点：

理论上，所有的数据都可以通过问卷获得。但是，为了最优化研究效果，我们采取了问卷+行为日志结合的方式。在发问卷的同时，抓取了用户的设备号和ID，以匹配后台数据。

在保证问卷效度的前提下，问卷设计还需要注意结合用户特征，以提高填答率以及数据准确率。比如，针对二次元用户，在用户群年龄结构偏小的前提下问卷不能太长，不能出现深奥的专业术语；同时问卷的语句表达以及页面风格也要相应调整，使其没有距离感。同时，注意筛除多次填答和注册的马甲账号问卷。此外还要注意新用户的占比，需要评估填答问卷中新注册用户的比例是否与投放期新用户正常增量一致。用户画像是否需要包含新用户取决于项目目的，也可以和产品方讨论后决定。

把用户分成几种类型？

聚类分析是探索性的研究，他根据指标或者变量之间的距离判断亲疏关系，将相似性的聚为一类，因此会出现多个可能的解，并不会给出一个最优的解，最终选择哪一种方案是取决于研究者的分析判断。

把用户分的类型越少，颗粒度就越粗，每种类型之间的特征就不会很分明；用户类型越多，颗粒度也就越细，但复杂的类型划分也会给产品定位和运营推广带来负担。因此，细化颗粒度不仅需要定量的聚类来调整，还需要结合产品经验来验证。同时，因为采用的是开放性的指标体系，我们不可能像区分“男性用户、女性用户”那样清楚地知道用户类型的数量，因此，在用数据进行用户画像时，最关键的一步就是确定把用户分成几种类型。

我们将数据导入spss尝试进行聚类分析。如果变量数据形式不统一（选择的指标有定序、有定类），则需要首先对数据进行标准化；其次，两个强相关的变量和其他变量一起进行聚类会加大因子的权重，使聚类效果不理想，所以我们还要使用因子分析对选择的指标提取公共因子，对因子共线性判断，因子分析是选择合适变量进行聚类的前提，如果因子之间共线性强，则提取公因子进行聚类，若共线性不强，则直接聚类。

在确定因子之后需要选择合适的聚类方法。不同方法适用的情况不同，常用的是K均值聚类以及层次聚类。

K均值聚类也称快速聚类，内存少，复杂程度低，快速高效，适用大数据量。但是需要提前明确分类数目，并对均值进行定义。只能对样本聚类，不能对变量聚类，样本的变量需是连续性变量。

层次聚类可以对变量聚类，也可以对样本聚类，可以是连续变量也可以是分类变量。能提供多种计算距离的方法，但是计算复杂度高，适用小数据量，我们需要结合项目的具体情况，包括项目周期、数据形式、数据量、聚类特征等等来确定聚类方法。

最后通过尝试不同的聚类数、距离算法和分类方法，我们可以根据以下几点来确定分类的数量：

1、依据产品经验，不同产品的典型用户不同

2、根据已有的用户研究以及相关研究结论

3、根据具体的分类效果确定

4、根据层次聚类“步数——距离”拐点

聚类效果好坏的评估可以从聚类中心之间的距离、组件与组内的方差以及群组数量之间的比例是否符合产品特征、比例是否协调以及划分的类型对产品是否有意义等方面去评估。

在已经得知了分类结果并且分析得出了每一类用户在各项指标上的特征之后，构建用户画像的工作也就好比在一副骨架上填充血肉。一方面，我们可以直接利用获取的数据，找到具有显著特征的信息，赋予到用户身上。比如第一类用户60%使用iOS系统，而其他三类均不超过20%，我们就可以将第一类用户抽象为一个平时使用iPhone 的人。除了问卷数据之外，想要使人物形象更加鲜明，可以对问卷本文题进行分析，或者根据产品经验、用户反馈或已有研究进行画像，这样可以使用户形象更加有血有肉。

但是，把数据还原成用户本身用户也需要遵循几个原则，画像（Persona）意味着一个令人信服的用户角色要满足七个条件：

通过定量化的调研可以快速对用户建立一个精准的认识，对不同数量、不同特征的用户进行比较统计分析，在后期产品迭代改进的过程中可以将用户进行优先级排序，着重关注核心的、规模大的用户。但是，依靠数据这种偏定量的方式建立的用户画像依然是粗线条的，难以描述典型用户的生活情景、使用场景，难以挖掘用户情感倾向和行为操作背后的原因和深层次动机。因此，如果有足够精力和时间，后续可以对每类用户进行深入的访谈，将定量和定性的方法结合起来，建立的用户画像会更为精准和生动。

所谓公式拆解法就是针对某个指标，用公式层层分解该指标的影响因素。

举例：分析某产品的销售额较低的原因，用公式法分解

对比法就是用两组或两组以上的数据进行比较，是最通用的方法。

我们知道孤立的数据没有意义，有对比才有差异。比如在时间维度上的同比和环比、增长率、定基比，与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律，使用频繁，经常和其他方法搭配使用。

下图的AB公司销售额对比，虽然A公司销售额总体上涨且高于B公司，但是B公司的增速迅猛，高于A公司，即使后期增速下降了，最后的销售额还是赶超。

A/Btest，是将Web或App界面或流程的两个或多个版本，在同一时间维度，分别让类似访客群组来访问，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。A/Btest的流程如下：

（1）现状分析并建立假设：分析业务数据，确定当前最关键的改进点，作出优化改进的假设，提出优化建议；比如说我们发现用户的转化率不高，我们假设是因为推广的着陆页面带来的转化率太低，下面就要想办法来进行改进了

（2）设定目标，制定方案：设置主要目标，用来衡量各优化版本的优劣；设置辅助目标，用来评估优化版本对其他方面的影响。

（3）设计与开发：制作2个或多个优化版本的设计原型并完成技术实现。

（4）分配流量：确定每个线上测试版本的分流比例，初始阶段，优化方案的流量设置可以较小，根据情况逐渐增加流量。

（5）采集并分析数据：收集实验数据，进行有效性和效果判断：统计显著性达到95%或以上并且维持一段时间，实验可以结束；如果在95%以下，则可能需要延长测试时间；如果很长时间统计显著性不能达到95%甚至90%，则需要决定是否中止试验。

（6）最后：根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。

流程图如下：

通过对两种及以上维度的划分，运用坐标的方式表达出想要的价值。由价值直接转变为策略，从而进行一些落地的推动。象限法是一种策略驱动的思维，常与产品分析、市场分析、客户管理、商品管理等。比如，下图是一个广告点击的四象限分布，X轴从左到右表示从低到高，Y轴从下到上表示从低到高。

高点击率高转化的广告，说明人群相对精准，是一个高效率的广告。高点击率低转化的广告，说明点击进来的人大多被广告吸引了，转化低说明广告内容针对的人群和产品实际受众有些不符。高转化低点击的广告，说明广告内容针对的人群和产品实际受众符合程度较高，但需要优化广告内容，吸引更多人点击。低点击率低转化的广告，可以放弃了。还有经典的RFM模型，把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。

通过象限分析法，将有相同特征的事件进行归因分析，总结其中的共性原因。例如上面广告的案例中，第一象限的事件可以提炼出有效的推广渠道与推广策略，第三和第四象限可以排除一些无效的推广渠道；

（2）建立分组优化策略

针对投放的象限分析法可以针对不同象限建立优化策略，例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源，比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品，或一些优惠措施来吸引他们回归。

帕累托法则，源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中，则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系，排在前20%的才算是有效数据。二八法是抓重点分析，适用于任何行业。找到重点，发现其特征，然后可以思考如何让其余的80%向这20%转化，提高效果。

一般地，会用在产品分类上，去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额，那么哪些SKU是重要的呢，这就是在业务运营中分清主次的问题。

常见的做法是将产品SKU作为维度，并将对应的销售额作为基础度量指标，将这些销售额指标从大到小排列，并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。

百分比在 70%（含）以内，划分为 A 类。百分比在 70~90%（含）以内，划分为 B 类。百分比在 90~100%（含）以内，划分为 C 类。以上百分比也可以根据自己的实际情况调整。

ABC分析模型，不光可以用来划分产品和销售额，还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些，占比多少。假设有20%，那么在资源有限的情况下，就知道要重点维护这20%类客户。

漏斗法即是漏斗图，有点像倒金字塔，是一个流程化的思考方式，常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。

上图是经典的营销漏斗，形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤，然后用转化率来衡量每一个步骤的表现，最后通过异常的数据指标找出有问题的环节，从而解决问题，优化该步骤，最终达到提升整体购买转化率的目的。

整体漏斗模型的核心思想其实可以归为分解和量化。比如分析电商的转化，我们要做的就是监控每个层级上的用户转化，寻找每个层级的可优化点。对于没有按照流程操作的用户，专门绘制他们的转化模型，缩短路径提升用户体验。

还有经典的黑客增长模型，AARRR模型，指Acquisition、Activation、Retention、Revenue、Referral，即用户获取、用户激活、用户留存、用户收益以及用户传播。这是产品运营中比较常见的一个模型，结合产品本身的特点以及产品的生命周期位置，来关注不同的数据指标，最终制定不同的运营策略。

从下面这幅AARRR模型图中，能够比较明显的看出来整个用户的生命周期是呈现逐渐递减趋势的。通过拆解和量化整个用户生命周期各环节，可以进行数据的横向和纵向对比，从而发现对应的问题，最终进行不断的优化迭代。

用户路径分析追踪用户从某个开始事件直到结束事件的行为路径，即对用户流向进行监测，可以用来衡量网站优化的效果或营销推广的效果，以及了解用户行为偏好，其最终目的是达成业务目标，引导用户更高效地完成产品的最优路径，最终促使用户付费。如何进行用户行为路径分析？

（1）计算用户使用网站或APP时的每个第一步，然后依次计算每一步的流向和转化，通过数据，真实地再现用户从打开APP到离开的整个过程。

（2）查看用户在使用产品时的路径分布情况。例如：在访问了某个电商产品首页的用户后，有多大比例的用户进行了搜索，有多大比例的用户访问了分类页，有多大比例的用户直接访问的商品详情页。

（3）进行路径优化分析。例如：哪条路径是用户最多访问的；走到哪一步时，用户最容易流失。

（4）通过路径识别用户行为特征。例如：分析用户是用完即走的目标导向型，还是无目的浏览型。

（5）对用户进行细分。通常按照APP的使用目的来对用户进行分类。如汽车APP的用户可以细分为关注型、意向型、购买型用户，并对每类用户进行不同访问任务的路径分析，比如意向型的用户，他进行不同车型的比较都有哪些路径，存在什么问题。还有一种方法是利用算法，基于用户所有访问路径进行聚类分析，依据访问路径的相似性对用户进行分类，再对每类用户进行分析。

以电商为例，买家从登录网站／APP到支付成功要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程，例如提交订单后，用户可能会返回首页继续搜索商品，也可能去取消订单，每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后，能为找到快速用户动机，从而引领用户走向最优路径或者期望中的路径。

用户行为路径图示例：

用户留存指的是新会员/用户在经过一定时间之后，仍然具有访问、登录、使用或转化等特定属性和行为，留存用户占当时新用户的比例就是留存率。留存率按照不同的周期分为三类，以登录行为认定的留存为例：

第一种日留存，日留存又可以细分为以下几种：

（1）次日留存率：（当天新增的用户中，第2天还登录的用户数）/第一天新增总用户数

（2）第3日留存率：（第一天新增用户中，第3天还有登录的用户数）/第一天新增总用户数

（3）第7日留存率：（第一天新增用户中，第7天还有登录的用户数）/第一天新增总用户数

（4）第14日留存率：（第一天新增用户中，第14天还有登录的用户数）/第一天新增总用户数

（5）第30日留存率：（第一天新增用户中，第30天还有登录的用户数）/第一天新增总用户数

第二种周留存，以周度为单位的留存率，指的是每个周相对于第一个周的新增用户中，仍然还有登录的用户数。

第三种月留存，以月度为单位的留存率，指的是每个月相对于第一个周的新增用户中，仍然还有登录的用户数。留存率是针对新用户的，其结果是一个矩阵式半面报告（只有一半有数据），每个数据记录行是日期、列为对应的不同时间周期下的留存率。正常情况下，留存率会随着时间周期的推移而逐渐降低。下面以月留存为例生成的月用户留存曲线：

聚类分析属于探索性的数据分析方法。通常，我们利用聚类分析将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高，组间对象相似性较低。在用户研究中，很多问题可以借助聚类分析来解决，比如，网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中，用户分类是最常见的情况。

常见的聚类方法有不少，比如K均值（K-Means），谱聚类（Spectral Clustering），层次聚类（Hierarchical Clustering）。以最为常见的K-means为例，如下图：

可以看到，数据可以被分到红蓝绿三个不同的簇（cluster）中，每个簇应有其特有的性质。显然，聚类分析是一种无监督学习，是在缺乏标签的前提下的一种分类模型。当我们对数据进行聚类后并得到簇后，一般会单独对每个簇进行深入分析，从而得到更加细致的结果。

聚类分析在企业网络营销中的应用论文

　论文摘要：本文针对企业网络营销中的大量数据为基础进行数据的分析，依据数据挖掘技术中典型的聚类分析方法进行数据的处理，并以一个网络营销公司为例，对其客户信息进行了聚类分析，得到了一些有价值的信息，对于企业的营销策略的决策给与一定的支持。

　论文关键词：聚类分系,网络营销,策略,客户关系

　 0前言

　现代科学技术的迅猛发展，特别是在互联网的应用和开发上更加的迅速，企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源，现在如何更好地从数据库中挖掘出客户中有价值的信息，更好的培植和经营与有价值客户的关系，抛弃那些无利可图没有发展前景而且营销费用高的客户，并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略，这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例，提出了一套可操作性的对客户价值评价方法，然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。

　 1聚类分析

　聚类（clustering）是对于数据挖掘技术是非常重要的一部分，现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类，最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度，而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类，事先不知道所有的数据对象共有多少类，通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中，特别是针对网络营销的企业或网站，从大量的网络数据进行分析聚类，可以讲客户分成不同的类别，针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段，提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究，进而提高聚类分析的工作效率。著名的算法有：CLARANS，BRICH，DBSCAN，CURE，STING，CLIGUE和WaveCluster等。

　 2聚类分析应用于企业客户资源管理

　现针对某电子商务公司进行分析，该电子商务公司的客户分布在全国各地以及国外一些地区，现仅列出具有代表性的10个大客户：吉林，黑龙江，山东，江苏，浙江，安徽，湖南，缅甸，印度，南非等。在数据挖掘的目的就是从客户中找到一些共同点，在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策，首先对该公司采用专家打分的方法，而且还有通过网上问卷调查和访谈的方式，收集各地销售专员的意见等方式，然后对数据加以综合，最后聚类分析法确定各项指标的权重。

　那么在具体实施聚类分析法的时候可分为5个步骤进行：

　第1步：首先对各项指数构建层次结构，其中被评定的10个大客户作为方案层，客户价值放在目标层中进行处理，各项指标是准则层，按照这样的分层结构来构造客户关系评价系统中个指数的结构图，见图2-1所示；

　从数据可以看出有两种情形：一是缅甸和南非，从数据中可看出这类客户的当前价值很小，但是具有很大的隐含价值，势必会有一天他们的成长给企业会带来丰厚的物质利益，这样具有发展潜能的客户应该采取措施激发潜能；二是安徽和印度这类客户，虽然从数据中看出这类客户当前价值很小，但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户，企业就应该采取灵活的措施，激发他们的购买能力促使该类型的客户不断地向前发展；

　第2类是“维持型”客户，他们会源源不断的为企业提供利润，如黑龙江和江苏，他们这类客户根据以往的交易记录分析到得结果就是目前价值大，不过没什么发展的潜能，或者说在某种情况下它的时常还会萎缩，当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源，他们在某种情况下会流失掉，会被其他的企业竞争对手的介入而流失，为此对于企业一方面要维持与这类客户的良好关系，保持稳定的`客户关系，另一方面还要采取一些营销手段来刺激该类客户的消费，提供一些个性化的服务和策略；

　第3类“淘汰型”客户，这类用户就如同鸡肋了，对于企业的现在和将来都意义不大，目前的销售份额较小，企业对他们营销的成本还很高，年利润率很低，根据分析这类客户包括浙江、湖南和吉林，他们没有长期的发展的趋势，所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们；

　第4类是“贵宾型”客户，这类用户是企业的主要经济利润的来源，在某种程度上可以说是企业生存的保证，他对企业是关系到生死存亡的重要客户，从数据中看山东就是该企业的这类贵宾型的客户，他的当前价值和潜在价值都很大，企业必须认真对待，细心呵护与这类客户的关系，以及该客户企业的关键性人物的关系，加强与这类客户的沟通和关系的培养，同时还要提高警惕，防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略，进行良好的客户需求沟通，尽最大可能满足他们的需求，适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。

　 3小结

　总之，企业首先对客户的价值进行全方位、多角度进行评价，再将分析结果量化后进行数据挖掘，通过聚类分析，对客户进行细分，针对不同类型的客户给与个性化的服务。

;

如何进行系统聚类分析？

聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。SPSSAU操作如下：

聚类分析时SSE是什么意思？

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值，该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，而且如果同样的数据，聚类类别越多则SSE值会越小（但聚类类别过多则不便于分析）。SSE指标可用于辅助判断聚类类别个数，建议在不同聚类类别数量情况下记录下SSE值，然后分析SSE值的减少幅度情况，如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大，那么此时选择4个聚类类别较好。

聚类中心是什么？

聚类中心是聚类类别的中心点情况，比如某类别时年龄对应的聚类中心为20，意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义，它是聚类算法随机选择的聚类点，如果需要查看聚类中心情况，需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小，其仅为聚类算法的计算值而已。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/4205833.html

spss软件聚类分析怎么用，从输入数据到结果，树状图结果。整个操作怎么进行。需要基本思路。

发表评论

评论列表（0条）