大数据研究常用软件工具与应用场景2024年_知识

大数据研究常用软件工具与应用场景

如今，大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点，以及分析方法思路的扩展，传统统计工具已经难以应对。

工欲善其事，必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力，也成为数据科学家所必须掌握的知识技能。

然而，现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中，需要根据实际情况灵活选择最合适的工具（甚至多种工具组合使用），才能更好的完成研究探索。

为此，本文针对研究人员（非技术人员）的实际情况，介绍当前大数据研究涉及的一些主要工具软件（因为相关软件众多，只介绍常用的），并进一步阐述其应用特点和适合的场景，以便于研究人员能有的放矢的学习和使用。

基础篇

传统分析/商业统计

Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。

Excel 作为电子表格软件，适合简单统计（分组/求和等）需求，由于其方便好用，功能也能满足很多场景需要，所以实际成为研究人员最常用的软件工具。其缺点在于功能单一，且可处理数据规模小（这一点让很多研究人员尤为头疼）。这两年Excel在大数据方面（如地理可视化和网络关系分析）上也作出了一些增强，但应用能力有限。

SPSS（SPSS Statistics)和SAS作为商业统计软件，提供研究常用的经典统计分析（如回归、方差、因子、多变量分析等）处理。

SPSS 轻量、易于使用，但功能相对较少，适合常规基本统计分析

SAS 功能丰富而强大（包括绘图能力），且支持编程扩展其分析能力，适合复杂与高要求的统计性分析。

上述三个软件在面对大数据环境出现了各种不适，具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时，海量原始数据资源经过前期处理（如降维和统计汇总等）得到的中间研究结果，就很适合使用它们进行进一步研究。

数据挖掘

数据挖掘作为大数据应用的重要领域，在传统统计分析基础上，更强调提供机器学习的方法，关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler（注意不是SPSS Statistics，其前身为Clementine）

SPSS Modeler 的统计功能相对有限, 主要是提供面向商业挖掘的机器学习算法（决策树、神经元网络、分类、聚类和预测等）的实现。同时，其数据预处理和结果辅助分析方面也相当方便，这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言，实际感觉难以应对亿级以上的数据规模。

另一个商业软件 Matlab 也能提供大量数据挖掘的算法，但其特性更关注科学与工程计算领域。而著名的开源数据挖掘软件Weka，功能较少，且数据预处理和结果分析也比较麻烦，更适合学术界或有数据预处理能力的使用者。

中级篇

1、通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具，在商业研究领域，TableAU无疑是卓越代表。

TableAU 的优势主要在于支持多种大数据源/格式，众多的可视化图表类型，加上拖拽式的使用方式，上手快，非常适合研究员使用，能够涵盖大部分分析研究的场景。不过要注意，其并不能提供经典统计和机器学习算法支持，因此其可以替代Excel, 但不能代替统计和数据挖掘软件。另外，就实际处理速度而言，感觉面对较大数据（实例超过3000万记录）时，并没有官方介绍的那么迅速。

2 、关系分析

关系分析是大数据环境下的一个新的分析热点（比如信息传播图、社交关系网等），其本质计算的是点之间的关联关系。相关工具中，适合数据研究人员的是一些可视化的轻量桌面型工具，最常用的是Gephi。

Gephi 是免费软件，擅长解决图网络分析的很多需求，其插件众多，功能强且易用。我们经常看到的各种社交关系/传播谱图, 很多都是基于其力导向图（Force directed graph）功能生成。但由于其由java编写，限制了处理性能（感觉处理超过10万节点/边时常陷入假死），如分析百万级节点（如微博热点传播路径）关系时，需先做平滑和剪枝处理。而要处理更大规模（如亿级以上）的关系网络（如社交网络关系）数据，则需要专门的图关系数据库（如GraphLab/GraphX）来支撑了，其技术要求较高，此处不再介绍。

3、时空数据分析

当前很多软件（包括TableAU）都提供了时空数据的可视化分析功能。但就使用感受来看，其大都只适合较小规模（万级）的可视化展示分析，很少支持不同粒度的快速聚合探索。

如果要分析千万级以上的时空数据，比如新浪微博上亿用户发文的时间与地理分布（从省到街道多级粒度的探索）时，推荐使用 NanoCubes（http://wwwnanocubesnet/）。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析，网站有更多的实时分析的演示例子

4、文本/非结构化分析

基于自然语言处理（NLP）的文本分析，在非结构化内容（如互联网/社交媒体/电商评论）大数据的分析方面（甚至调研开放题结果分析）有重要用途。其应用处理涉及分词、特征抽取、情感分析、多主题模型等众多内容。

由于实现难度与领域差异，当前市面上只有一些开源函数包或者云API（如BosonNLP）提供一些基础处理功能，尚未看到适合商业研究分析中文文本的集成化工具软件（如果有谁知道烦请通知我）。在这种情况下，各商业公司（如HCR）主要依靠内部技术实力自主研发适合业务所需的分析功能。

高级篇

前面介绍的各种大数据分析工具，可应对的数据都在亿级以下，也以结构化数据为主。当实际面临以下要求：亿级以上/半实时性处理/非标准化复杂需求，通常就需要借助编程（甚至借助于Hadoop/Spark等分布式计算框架）来完成相关的分析。如果能掌握相关的编程语言能力，那研究员的分析能力将如虎添翼。

当前适合大数据处理的编程语言，包括：

R语言——最适合统计研究背景的人员学习，具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。相比SAS，其计算能力更强，可解决更复杂更大数据规模的问题。

Python语言——最大的优势是在文本处理以及大数据量处理场景，且易于开发。在相关分析领域，Python代替R的势头越来越明显。

Java语言——通用性编程语言，能力最全面，拥有最多的开源大数据处理资源（统计、机器学习、NLP等等）直接使用。也得到所有分布式计算框架（Hadoop/Spark）的支持。

前面的内容介绍了面向大数据研究的不同工具软件/语言的特点和适用场景。这些工具能够极大增强研究员在大数据环境下的分析能力，但更重要的是研究员要发挥自身对业务的深入理解，从数据结果中洞察发现有深度的结果，这才是最有价值的。

以上是小编为大家分享的关于大数据研究常用软件工具与应用场景的相关内容，更多信息可以关注环球青藤分享更多干货

关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测它的目的是为了挖掘隐藏在数据间的相互关系　在数据挖掘的基本任务中关联(association)和顺序序贯模型(sequencing)关联分析是指搜索事务数据库(trarisactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。　其属于灰色理论中的一种分析方法。

hist()函数,

hist(x, breaks = "Sturges",

freq = NULL, probability = !freq,

includelowest = TRUE, right = TRUE,

density = NULL, angle = 45, col = NULL, border = NULL,

main = paste("Histogram of" , xname),

xlim = range(breaks), ylim = NULL,

xlab = xname, ylab,

axes = TRUE, plot = TRUE, labels = FALSE,

nclass = NULL, warnunused = TRUE, )

里面的参数可以自己设置

学习 R 语言对金融分析人士有何意义？

总之，多学一点东西总是没错的。至于，学了之后会有哪些好处呢，我们就来看看专业人士有什么看法。

对于金融人士来讲，R概括几个领域

对于金融人士来讲，R也许能被我片面地概括几个领域：时间序列，模拟预测，最优化，制图(其实最终还是要归总到贝叶斯，最优化，和simulation的问题)。这些R的工具涵盖的金融方面有：资产组合，量化风险，资产定价，交易模拟，制图报告等。几乎可以满足所有机构投资人与个体投资人的需求。“听起来好诱人哦，好像万金油一样，R好强大哦~“大家心里可能会这么想。不过实话说，这并不是R的功劳，这是给R写包的人的功劳。

学习的意义

如果作为一个量化分析师，学R的意义在于，你可以对你的分析更可控。可是你千万想好这几点再去深学： 1 你同事愿意读代码还是愿意读excel如果其他人都用vba，会显得你格格不入，甚至降低团队效率。2 你真的需要那么多可控性吗真的有必要用单反相机照午餐放到微博去吗如果真的需要(代表你不是因为刻意用R才用R)，用尼康(比喻成R)与用佳能(比喻成matlab)真的那么重要吗绝不是打消各位学R的积极性，或者居高临下给大家喝鸡汤。这些是亲身感悟。很多时候为了自己装高贵冷艳，总会学一些冷门的手艺，这样用不熟的技术闭门造车，其实很耽误事。毕竟分析师的最终结果是分析，最注重的是分析效率。

总之，学习了还是有很多好处的，学到的东西是你的了，不是吗？

1数据挖掘基本知识

这一部分主要是看书，先了解一个情况。至于用什么书。口碑比较好的有《数据挖掘：概念与技术（第3版）》。我买了，看了一大半，感觉不太适合初学者。有些概念直接给出，对于底子不好的人有些突兀，要是硬着头皮使劲看，还是很有收获的，适合入门以后反复看。推荐一本很老的书《数据仓库与数据挖掘》。这本书相对来说不那么厚，很多基础概念也有论述，对初学者来说很友好。

这一部分的学习是贯穿始终的，有经验的前辈们介绍，什么时候拿出来看看都是有收获的。

2数学基础

这一部分也是不可或缺的，学一下未必能有感受。学好了，绝对收益无穷。我的计划是穿插在整个学习过程中。主要内容是：线性代数、离散数学。

（1）线性代数

已经学过的，没学过的都要认真学一下。国内的教材个人以为对概念没有深入说透。比如特征值和特征向量，到底干嘛用的。矩阵的乘法本质意义，也没说清楚。

（2）离散数学

这个大部分人（不是专业的）都没学过，听着就头痛。别急，不用全学，重点是图论、代数系统、命题（谓词和逻辑）、集合与关系。随便找一本薄一点的教材。这些内容其实之前高中本科都有接触，主要是一些逻辑符号，思维方式需要看懂。否则在一些地方看到一些莫名其妙的符号，不了解，看到一些简单的公式以为很复杂，得不偿失。

（3）运筹学

这个绝对是基础课，之所以放在后面是因为本人认真学了。推荐的教材《运筹学》教材编写组编写。一本大厚绿皮书。对策论等跟博弈论有关的不用看。有条件的可以把算法在跑一遍。绝对收获良多。

3工具

这部分本人在网上查了很久，课题组问了几百遍。最终确认的这几个。很多人说有编程经验的人，学一个就一两周的事，无奈，我零基础。所以，这一部分绝对是个重点。先说本人确定的语言：MATLAB、Python、R。

（1）MATLAB

先说MATLAB，别说这个老，别说这个是学校搞学术才用的。不想挑起争论，主要理由——好上手。上手以后就可以跑一些算法，提高一些信心和学习的乐趣。教材我随便找一本厚厚的备查（从来没翻过）。我主要看的是官方手册的Primer。然后就开始写脚本和函数，如果有看不懂的直接百度、google或者help。写的都很清楚。这一部分主要是迅速上手，我已经略有收获了。

（2）Python和R

这两个放在一起，是因为网上关于这两个的争论太多了。本人也无数次迷失过。不争论优劣，确实是各有优势。我的顺序是首先学python，立志以这个作为自己的主要程序。其次再是R，从画图入手。R画出来的图真是好看。至于学习的思路：先找一本入门的书，越简单越好，学完之后找一本手册，然后练习。

首先python，先看《Head First Python》。挺好的。简单易懂，网上竟然还能下载到英文的PDF。然后是《利用Python进行数据分析》和《机器学习实战》。第一本书主要是利用Python做数据挖掘的，基本提到Python学习都会推荐这本。第二本是理解机器学习的佳作，书中用到的语言就是Python。一边学语言，一边理解机器学习。很好的顺序。

其次R，因为有了前面的一部分基础，学起来会容易一些。主要推荐教材是《R语言初学者指南》和《R语言实战》。这部分的学习我准备跳着看，早期主要利用R来画图。然后步步深入着学习。这样才能充分的练习，而不仅仅是纸上谈兵。

（3）Mysql

最后加一个，了解一点Mysql，由于零基础对数据的各种都不了解，强烈推荐一周读完《深入浅出Mysql》。难度不大，主要是入门。如果以后用得着，再深入研究。

再次重申一遍：这一阶段还是要找程序写。如果有工作或者项目，直接上，学的最快。如果没有，找篇不错的，感兴趣的博士论文，跑一遍里边的程序。这部分内容不是学出来的，绝对练出来的。

4算法

算法太多了，常见的就那些。一方面要看明白，理解算法。另一方面用上面的语言跑出来。既能理解算法，也能很好的熟悉语言。

总结

整个入门阶段，千万不要抱着学完一个在学一个的思想。同时学！比如，语言入门了，就找算法实践。看到一个算法，一定要程序跑出来。中间累了，把数学基础补一补。

孟德尔随机化（Mendelian randomization,MR）是以孟德尔独立分配定律为基础进行流行病学研究设计和数据分析，论证病因假说的一种方法。由基因型决定中间表型（暴露）的差异，因果方向明确。

通过引入一个称之为工具变量的中间变量，来分析暴露因素和结局之间的因果关系

2孟德尔随机化 vs RCT

孟德尔随机化的目的不是估计遗传效应的大小，而是估计暴露对结果的因果效应，所以与遗传变异相关的结局的平均变化幅度可能与干预措施导致的变化幅度不同

即使遗传变异与结果之间的关联程度很小，暴露的人群归因风险也不一定很低，因为暴露可能会比遗传变异解释更大的变化程度（例如，他汀类药物对低密度脂蛋白胆固醇水平的影响比低密度脂蛋白胆固醇水平与HMGCR基因变异的关联要大几倍，因此对后续结果的影响更大。）

孟德尔随机化要求大样本研究，变异发生率不能太小（最小等位基因频率MAF>5%)

3工具变量

工具变量本身是一个计量经济学的概念，在孟德尔随机中，遗传变异被用作工具变量评估暴露对结局的因果效应，遗传变异满足工具变量的基本条件总结为(孟德尔随机化核心假设)：

关联性假设——遗传变异与暴露有关

独立性假设——该遗传变异与暴露-结果关联的任何混杂因素均不相关

排他性假设——该遗传变异不会影响结果，除非可能通过与暴露的关联来实现

某研究组想了解非洲村落里的儿童补充维生素A和其死亡情况的关联，如果仅仅利用维生素A的服用情况和死亡情况去判断两者的关联，那极有可能会产生很大的偏倚，这是因为维生素A的服用情况和很多潜在因素相关，比如家庭的经济困难程度、家庭成员以及实验儿童的依从性，而这些潜在的因素也可能对儿童的身体健康有很大的影响。因此，在研究起始设计中，研究者便利用工具变量来解决这个问题。

在这里，工具变量Z是指服用维生素A这个任务，类似于随机抽签。这样的话工具变量Z便只和X服用维生素A这个行为相关，与除X以外的混杂因素不相关。

4应用范围

行为因素与健康：基因变异引起各个倾向某行为，决定暴露状态。如ALDH2变异引起乙醛代谢障碍，改变饮酒行为，不同ALDH基因型代表饮酒量多少；

机体代谢产物与疾病关系，估计长期效应。代谢产物是基因表达的中间表型，酶的底物或者体外难测量的代谢指标：如LDL受体基因变异引起家族高胆固醇血症，比较不同基因型之间CHD发病情况的差异，可模拟血胆固醇水平和CHD发病关系；

子宫内环境暴露于子代健康关系。

5发文分析

孟德尔随机化研究均发表在影响因子5分以上的期刊中

6基础分析流程——TwoSampleMR

找工具变量，我们要的是基因作为工具变量，这些基因都是从别人的研究中挑出来的，所有的基因研究有个专门的库叫做genome wide association studies (GWAS)。我们需要做的就是从这个库中挑出来我们自己需要的和我们暴露相关的基因变量SNPs。

估计工具变量对结局的作用，工具变量对结局的作用也是从所有的研究中估计出来的整体效应，这样可以拒绝单个研究的偏倚。

合并多个SNP的效应量，这个效应量是我们得到暴露和结局因果效应的前提。

处理数据，用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。

7TwoSampleMR代码实现

安装相关R包

installpackages('devtools')

library('devtools')

install_github("MRCIEU/TwoSampleMR") #安装TwoSampleMR包

library('TwoSampleMR')

devtools::install_github("mrcieu/ieugwasr",force = TRUE)

获取MR base的表型ID，将结果保存为pheno_infocsv这个文件

ao <-available_outcomes(access_token=NULL) #获取GWAS数据，但近期Google限制，容易被墙

writecsv(ao,'pheno_infocsv',rownames=F）#将数据写入本地存储

查看pheno_infocsv文件，获取与暴露相关的工具变量的信息以及结局信息。这里选择暴露为obesity class 2 （ID = 91），结局为 type 2 diabetes (ID = 1090)

exp_dat <- extract_instruments(outcomes=91,access_token=NULL)

obesity_exp_dat <- clump_data(exp_dat)

t2d_out_dat <- extract_outcome_data(snps=obesity_exp_dat$SNP, outcomes=1090, access_token=NULL)#提取结果信息

dat <- harmonise_data(exposure_dat =obesity_exp_dat, outcome_dat= t2d_out_dat)#数据合并，计算基因对结局的合并效应量

孟德尔随机化

results <- mr(dat)

OR值

OR <- generate_odds_ratios(results)

异质性检验

heterogeneity<- mr_heterogeneity(dat)

多效性检验

pleiotropy<- mr_pleiotropy_test(dat)

逐个剔除检验

leaveoneout<- mr_leaveoneout(dat)

散点图

mr_scatter_plot(results,dat)

森林图

results_single<- mr_singlesnp(dat)

mr_forest_plot(results_single)

漏斗图

mr_funnel_plot(results_single)

实例解析

2022年10月10日

西安交通大学生物医学信息与基因组学中心杨铁林教授团队在Nature Neuroscience （IF=28771）期刊发表了题为：Mendelian randomization analyses support causal relationships between brain imaging-derived phenotypes and risk of psychiatric disorders 的文章。

研究背景

精神类疾病是一组脑功能紊乱的复杂疾病，会导致情感、认知和行为受到干扰和破坏。全球约有数亿人患有不同的精神障碍，被列为严重的公共卫生问题。近年来，脑影像学数据在脑疾病和功能的研究中受到广泛关注。以核磁共振成像为代表的脑影像技术，可用于活体无创定量评估人脑结构、连接和功能的特性。

虽然已有大量的观察性研究证据表明，精神疾病患者与健康正常人的脑影像表型存在显著差异，但脑影像学数据与精神障碍发病机制的因果关系尚不明确，探讨脑影像表型对精神疾病的因果作用具有重要的生物学和临床研究意义。

研究方法和结果

该研究基于大规模基因组数据，对常见的10种精神类疾病（包括注意力缺陷多动症、神经性厌食症、焦虑症、孤独症、双相情感障碍、抑郁症、强迫症、创伤后应激障碍、精神分裂症、抽动症）和587个关键的脑磁共振成像（MRI）结构表型进行了因果关系评估。

正向孟德尔随机化结果发现，脑白质纤维束的上额枕束的FA值和上放射冠的ICVF值、胼胝体内矢状层的MD值、第三脑室的体积等9个脑影像表型是精神分裂症、神经性厌食症和双相情感障碍的风险因素。进一步通过反向孟德尔随机化分析显示，发现精神分裂症的发生会导致额下回眶部的表面积和体积的增加。

该研究将基因组信息作为纽带，使脑影像表型和精神疾病联系起来，避免了观察性研究中由于药物或环境、生活方式等改变引起的样本检测数据偏差的缺点，确保了研究结果的稳健性。

一、走进大数据世界

大数据的特征（4V）：

1 数据的规模性

2 数据结构多样性

3 数据传播高速性

4 大数据的真实性、价值性、易变性；

结构化数据、半结构化数据、非结构化数据

大数据处理的基本流程图

大数据关键技术：

1 大数据采集

2 大数据预处理

3 大数据存储及管理

4 大数据安全技术

5 大数据分析与挖掘

6 大数据展现与应用

二、大数据营销概论

Target 百货客户怀孕预测案例

大数据营销的特点：

1 多样化、平台化数据采集：多平台包括互联网、移动互联网、广电网、智能电视等

2 强调时效性：在网民需求点最高时及时进行营销

3 个性化营销：广告理念已从媒体导向转为受众导向

4 性价比高：让广告可根据时效性的效果反馈，进行调整

5 关联性：网民关注的广告与广告之间的关联性

大数据运营方式：

1 基础运营方式

2 数据租赁运营方式

3 数据购买运营方式

大数据营销的应用

1 价格策略和优化定价

2 客户分析

3 提升客户关系管理

4 客户相应能力和洞察力

5 智能嵌入的情景营销

6 长期的营销战略

三、产品预测与规划

整体产品概念与整体产品五层次

整体产品概念：狭义的产品：具有某种特定物质形态和用途的物体。

产品整体概念（广义）：向市场提供的能够满足人们某种需要的

一切物品和服务。

整体产品包含：有形产品和无形的服务

整体产品五层次：潜在产品、延伸产品、期望产品、形式产品、核心产品

大数据新产品开发模型：

1 需求信息收集及新产品立项阶段

2 新产品设计及生产调试阶段

3 小规模试销及反馈修改阶段

4 新产品量产上市及评估阶段

产品生命周期模型

传统产品生命周期划分法：

（1）销售增长率分析法

销售增长率=（当年销售额-上年销售额）/上年销售额×100%

销售增长率小于10%且不稳定时为导入期；

销售增长率大于10%时为成长期；

销售增长率小于10%且稳定时为成熟期；

销售增长率小于0时为衰退期。

（2）产品普及率分析法

产品普及率小于5%时为投入期；

普及率在5%—50%时为成长期；

普及率在50%—90%时为成熟期；

普及率在90%以上时为衰退期。

大数据对产品组合进行动态优化

产品组合

销售对象、销售渠道等方面比较接近的一系列产品项目被称为产品线。产品组合是指一个企业所经营的不同产品线和产品项目的组合方式，它可以通过宽度、长度、深度和关联度四个维度反映出来

四、产品定价与策略

大数据定价的基本步骤：

1 获取大数据

2 选择定价方法

3 分析影响定价因素的主要指标

4 建立指标体系表

5 构建定价模型

6 选择定价策略

定价的3C模式：成本导向法、竞争导向法、需求导向法

影响定价的主要指标与指标体系表的建立

影响定价因素的主要指标：

1 个人统计信息：家庭出生、教育背景、所在地区、年龄、感情状况、家庭关系等。

2 工作状况：行业、岗位、收入水平、发展空间等

3 兴趣：健身与养生、运动和户外活动、娱乐、科技、购物和时尚等

4 消费行为：消费心理、购买动机等。

定价策略：

精算定价：保险、期货等对风险计算要求很高的行业

差异定价：平台利用大数据对客户建立标签，分析对产品的使用习惯、需求判断客户的忠诚度，对不同客户进行差别定价

动态定价：即根据顾客认可的产品、服务的价值或者根据供需状况动态调整服务价格，通过价格控制供需关系。动态定价在提高消费者价格感知和企业盈利能力方面起着至关重要的作用。

价格自动化：根据商品成本、市场供需情况、竞争产品价格变动、促销活动、市场调查投票、网上协商、预订周期长短等因素决定自身产品价格

用户感知定价：顾客所能感知到的利益与其在获取产品或服务中所付出的成本进行权衡后对产品或服务效用所做出的整体评价。

协同定价：是大数据时代企业双边平台多边协同定价策略

价格歧视：

一级：就是每一单位产品都有不同的价格，即商家完全掌握消费者的消费意愿，对每个消费者将商品价格定为其能够承受的最高出价；

二级：商家按照客户的购买数量，对相同场景提供的、同质商品进行差别定价；

三级：可视为市场细分后的定价结果，根据客户所处的地域、会员等级等个人属性进行差别定价，但是对于同一细分市场的客户定价一致。

五、销售促进与管理

促销组合设计概念

大数据促销组合设计流程

精准广告设计与投放

[if !supportLists]l [endif] 广告设计5M：任务（Mission），预算（Money），信息（Message），媒体（Media），测量（Measurement）。

通过用户画像的进一步挖掘分析，企业可以找出其目标消费群体的广告偏好，如平面广告的配色偏好，构图偏好，视频广告的情节偏好，配乐偏好，人物偏好等，企业可以根据这些偏好设计出符合目标消费群体审美的广告创意，选择消费者喜欢的广告代言人，做出能在目标消费群体中迅速传播开来的广告。

在媒体决策方面，利用大数据综合考虑其广告目的、目标受众覆盖率、广告信息传播要求、购买决策的时间和地点、媒体成本等因素后，有重点地采用媒体工具。企业可以在确定前述影响变量后，通过大数据的决策模型，确定相对最优的媒体组合。

六、客户管理

大数据在客户管理中的作用

1 增强客户粘性

2 挖掘潜在客户

3 建立客户分类

客户管理中数据的分类、收集及清洗

数据分类：

描述性数据：这类数据是客户的基本信息。

如果是个人客户，涵盖了客户的姓名、年龄、地域分布、婚姻状况、学历、所在行业、职业角色、职位层级、收入水平、住房情况、购车情况等；

如果是企业客户，则包含了企业的名称、规模、联系人和法人代表等。

促销性数据：企业曾经为客户提供的产品和服务的历史数据。

包括：用户产品使用情况调查的数据、促销活动记录数据、客服人员的建议数据和广告数据等

交易性数据：这类数据是反映客户对企业做出的回馈的数据。

包括历史购买记录数据、投诉数据、请求提供咨询及其他服务的相关数据、客户建议数据等。

收集：

清洗：

首先，数据营销人需要凭借经验对收集的客户质量进行评估

其次，通过相关字段的对比了解数据真实度

最后，通过测试工具对已经确认格式和逻辑正确数据进行测试

客户分层模型

客户分层模型是大数据在客户管理中最常见的分析模型之一，客户分层与大数据运营的本质是密切相关的。在客户管理中，出于一对一的精准营销要求针对不同层级的客户进行区别对待，而客户分层则是区别对待的基础。

RFM客户价值分析模型

时间（Rencency）：

客户离现在上一次的购买时间。

频率（Frequency）：

客户在一定时间段内的消费次数。

货币价值（MonetaryValue）：

客户在一定的时间内购买企业产品的金额。

七、跨界营销

利用大数据跨界营销成功的关键点

1 价值落地

2 杠杠传播

3 深度融合

4 数据打通

八、精准营销

精准营销的四大特点

1 可量化

2 可调控

3 保持企业和客户的互动沟通

4 简化过程

精准营销的步骤

1 确定目标

2 搜集数据

3 分析与建模

4 制定战略

九、商品关联营销

商品关联营销的概念及应用

关联营销：

关联营销是一种建立在双方互利互益的基础上的营销，在交叉营销的基础上，将事物、产品、品牌等所要营销的东西上寻找关联性，来实现深层次的多面引导。

关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。

关联分析的概念与定义

最早的关联分析概念：是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律，发现连带购买商品，为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。

电子商务领域：关联分析可帮助经营者发现顾客的消费偏好，定位顾客消费需求，制定合理的交叉销售方案，实现商品的精准推荐；

保险公司业务：关联分析可帮助企业分析保险索赔的原因，及时甄别欺诈行为；

电信行业：关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等

简单关联规则及其表达式

事务：简单关联分析的分析对象

项目：事务中涉及的对象

项集：若干个项目的集合

简单关联规则的一般表示形式是：前项→后项（支持度＝s％，置信度＝c％）

或表达为：X→Y（S＝s％，C＝c％）

例如：面包->牛奶(S=85%,C=90%)

性别（女）∩收入（＞5000元）→品牌（A）（S＝80％，C＝85％）

支持度、置信度、频繁项集、强关联规则、购物篮分析模型

置信度和支持度

support(X→Y)= P(X∩Y)

confidence(X→Y)= P(Y|X)

十、评论文本数据的情感分析

商品品论文本数据挖掘目标

电商平台激烈竞争的大背景下，除了提高商品质量、压低商品价格外，了解更多消费者的心声对于电商平台来说也变得越来越有必要，其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。评论信息中蕴含着消费者对特定产品和服务的主观感受，反映了人们的态度、立场和意见，具有非常宝贵的研究价值。

针对电子商务平台上的商品评论进行文本数据挖掘的目标一般如下：

分析商品的用户情感倾向，了解用户的需求、意见、购买原因；

从评论文本中挖掘商品的优点与不足，提出改善产品的建议；

提炼不同品牌的商品卖点。

商品评论文本分析的步骤和流程

商品评论文本的数据采集、预处理与模型构建

数据采集：

1、“易用型”：八爪鱼、火车采集器

2、利用R语言、Python语言的强大程序编写来抓取数据

预处理：

1文本去重

检查是否是默认文本

是否是评论人重复复制黏贴的内容

是否引用了其他人的评论

2机械压缩去词

例如： “好好好好好好好好好好”->“好”

3短句删除

原本过短的评论文本例如：很“好好好好好好好好好好”->“好”

机械压缩去词后过短的评论文本例如：“好好好好好好好好好好”->“好”

4评论分词

文本模型构建包括三方面：情感倾向分析、语义网络分析、基于LDA模型的主体分析

情感倾向分析：

基于情感词进行情感匹配

对情感词的倾向进行修正

对情感分析结果进行检验

语义网络分析：

基于LDA模型的主体分析

十一、大数据营销中的伦理与责任

大数据的安全与隐私保护

数据安全：一是保证用户的数据不损坏、不丢失；二是要保证数据不会被泄露或者盗用

大数据营销中的伦理风险：用户隐私、信息不对称下的消费者弱势群体、大数据“杀熟”

大数据伦理困境的成因：

用户隐私意识淡薄

用户未能清晰认知数据价值

企业利益驱使

] 管理机制不够完善

大数据伦理构建的必要性：企业社会责任、用户与社会群体的维系

这些是我按照老师讲的课本上的内容结合PPT总结出来的《大数据营销》的重点。

欢迎分享，转载请注明来源：浪漫分享网

原文地址:https://hunlipic.com/qinggan/823104.html

大数据研究常用软件工具与应用场景

发表评论

评论列表（0条）