如何利用大数据和人工智能技术,提高股市投资的精准度和成功率?

如何利用大数据和人工智能技术,提高股市投资的精准度和成功率?,第1张

利用大数据和人工智能技术,可以通过以下方式提高股市投资的精准度和成功率:

1 数据分析:使用大数据技术,收集和分析股市数据,包括公司财务数据、市场数据和宏观经济数据等,以帮助投资者做出更明智的投资决策。

2 机器学习:通过机器学习算法,能够对历史股市数据进行分析和预测,以预测股市未来的趋势和走势,帮助投资者做出更准确的决策。

3 情感分析:利用自然语言处理技术对社交媒体、新闻和公告等信息进行情感分析,以了解市场情绪和投资者情感,帮助投资者做出更明智的投资决策。

4 特征工程:通过特征工程技术,提取和选择与股市投资相关的特征,以建立更准确的股市预测模型,提高投资的成功率。

5 风险管理:利用大数据和人工智能技术,对股市风险进行分析和管理,以减少投资者的风险和损失。

为什么要用大数据挖掘潜在用户?

随着互联网的发展以及消费市场竞争的加剧:新品牌、新赛道、新渠道、新营销打法层出不穷。在快速演化的市场格局下,如何建立竞争壁垒、持续保持增长,需要重新立足数字化时代新消费崛起的背景,以洞察消费者体验为核心,重塑品牌价值,缜密布局增长策略。

只有全面精细地挖掘消费者的心智变化,如消费者的年龄、性别、消费习惯、生活现状、兴趣点等等信息,才能为接下来的内部创新提供正确的方向。优质的消费体验是提升品牌忠诚度的关键,也是企业维持稳定盈利模式的重要基础。随着互联网的发展以及消费市场竞争的加剧,消费者的每一条社媒发布、每一次社交互动、 每一次线上购买, 都反映了消费习惯、态度和行为。收集、分析这些数据并制定行之有效的消费体验决策是企业的业务刚需,更是撬动增长的差异化打法。

如何确定目标消费人群?

传统市调——耗时、耗人力、成本高、样本数量有限,且存在受访者隐藏真实想法的可能。

社交媒体大数据——符合用户沟通和线上行为习惯,无需人力、数据可自动全天候采集,数据量和分析维度更丰富、更客观、可信度更高 。

传统的用户数据收集有以下挑战:

01 线上、线下顾客体验触点繁多,碎片化的信息分散于企业各部门,无法利用整合数据快速了解消费需求和顾客体验,赋能管理决策。

02 传统调研样本量小,执行周期长,统计结果往往滞后于消费趋势,难以转化为可执行洞察来赋能产品创新和营销增长。

03 市场情报数据源单薄,难以应付快速演化的市场竞争格局,缺乏统一的工具进行竞品对标,无法做到知己知彼。

所以,如何全面了解目标人群,标签和分析

基于实时大数据和机器学习算法的消费体验洞察,是真正“以消费者为核心”组织企业资源配 置的有效解决方案。消费体验洞察能够帮助企业快速采集和理解消费者需求、产品口碑、竞品动态、 新品趋势和消费热点,进而驱动营销、研发、顾客体验、零售运营等职能部门的专业人士把握商业机遇,敏捷应对快速变化中的消费市场。

第一步,细分人群画像 —— 了解ta们是谁,在哪儿,喜欢什么?

最佳实践案例(食品饮料)

某国际知名连锁餐饮品牌希望深入了希望了解中国咖啡市场的核心消费群体及细分人群画像。 运用机器学习建模后,对该品牌及竞品相关的逾 120万条消费者评论和社媒、电商和短视频讨论展开聚类分析,梳理出四大核心消费人群。

DataTouch®️数据分析平台再结合行业品类分布数据,由分析师进一步深入分析出细分人群的饮用环境、口味、 包装不同痛点诉求,结合品牌优劣势和人群特点给出针对性建议,为品牌未来精准产品定位和沟通策略提供了有力的决策依据 。

第二步,基于细分人群画像,指引产品精准沟通策略,捕获机会细分赛道和差异化产品概念方向定位

在了解市场格局和产品创新方向后,客户希望了解目标趋势品类在核心创新方向的细分受众画像。运用机器学习建模后,对每个创新方向相关的近千万条消费者评论和社媒、电商和短视频讨论展开聚类分析,梳理出4-5个核心消费人群。

DataTouch®️数据分析平台再结合行业品类分布数据,品牌竞争格局和顾客体验满意度,由分析师进一步深入分析出细分人群赛道的生活方式、场景需求,市场份额,机会定位,和在每一个产品属性(功效、使用感受、产品形态、包装等)的NLP深度学习情感分析,提炼未满足的痛点诉求,结合品牌定位优劣势和人群特点给出创新产品的差异化建议,为品牌未来精准产品定位和沟通策略提供了有力的数据洞察驱动的决策依据。

未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。

探码科技大数据分析及处理过程

数据集成:构建聚合的数据仓库

将客户需要的数据通过网络爬虫、结构化数据、本地数据、物联网设备、人工录入等进行全位实时的汇总采集,为企业构建自由独立的数据库。消除了客户数据获取不充分,不及时的问题。目的是将客户生产、运营中所需要的数据进行收集存储。

2数据管理:建立一个强大的数据湖

将数据库中的数据经过抽取、清洗、转换将分散、零乱、标准不统一的数据整合到一起,通过在分析数据库中建模数据来提高查询性能。合并来自多个来源的数据,构建复杂的连接和聚合,以创建数据的可视化图标使用户能更直观获得数据价值。为内部商业智能系统提供动力,为您的业务提供有价值的见解。

3数据应用:将数据产品化

将数据湖中的数据,根据客户所处的行业背景、需求、用户体验等角度将数据真正的应用化起来生成有价值的应用服务客户的商务办公中。将数据真正做到资产化的运作。

聚云化雨的处理方式:

聚云化雨的处理方式

聚云:探码科技全面覆盖各类数据的处理应用。以数据为原料,通过网络数据采集、生产设备数据采集的方式将各种原始数据凝结成云,为客户打造强大的数据存储库;

化雨:利用模型算法和人工智能等技术对存储的数据进行计算整合让数据与算法产生质变反应化云为雨,让真正有价值的数据流动起来;

开渠引流,润物无声:将落下“雨水”汇合成数据湖泊,对数据进行标注与处理根据行业需求开渠引流,将一条一条的数据支流汇合集成数据应用中,为行业用户带来价值,做到春风化雨,润物无声。

一、走进大数据世界

大数据的特征(4V):

1  数据的规模性

2   数据结构多样性

3   数据传播高速性

4   大数据的真实性、价值性、易变性;

结构化数据、半结构化数据、非结构化数据

大数据处理的基本流程图

大数据关键技术:

1  大数据采集

2   大数据预处理

3  大数据存储及管理

4   大数据安全技术

5  大数据分析与挖掘

6   大数据展现与应用

二、大数据营销概论

Target 百货客户怀孕预测案例

大数据营销的特点:

1   多样化、平台化数据采集: 多平台包括互联网、移动互联网、广电网、智能电视等

2   强调时效性: 在网民需求点最高时及时进行营销

3   个性化营销: 广告理念已从媒体导向转为受众导向

4   性价比高: 让广告可根据时效性的效果反馈,进行调整

5   关联性: 网民关注的广告与广告之间的关联性

大数据运营方式:

1   基础运营方式

2   数据租赁运营方式

3   数据购买运营方式

大数据营销的应用

1   价格策略和优化定价

2   客户分析

3   提升客户关系管理

4   客户相应能力和洞察力

5 智能嵌入的情景营销

6   长期的营销战略

三、产品预测与规划

整体产品概念与整体产品五层次

整体产品概念: 狭义的产品: 具有某种特定物质形态和用途的物体。

产品整体概念(广义):向市场提供的能够满足人们某种需要的

                      一切物品和服务。

整体产品包含:有形产品和无形的服务                          

整体产品五层次:潜在产品、延伸产品、期望产品、形式产品、核心产品

 

大数据新产品开发模型:

1   需求信息收集及新产品立项阶段

2  新产品设计及生产调试阶段

3  小规模试销及反馈修改阶段

4   新产品量产上市及评估阶段

产品生命周期模型

传统产品生命周期划分法:

(1)销售增长率分析法

  销售增长率=(当年销售额-上年销售额)/上年销售额×100%

销售增长率小于10%且不稳定时为导入期;

销售增长率大于10%时为成长期;

销售增长率小于10%且稳定时为成熟期;

销售增长率小于0时为衰退期。

(2)产品普及率分析法

    产品普及率小于5%时为投入期;

    普及率在5%—50%时为成长期;

    普及率在50%—90%时为成熟期;

    普及率在90%以上时为衰退期。

大数据对产品组合进行动态优化

产品组合

       销售对象、销售渠道等方面比较接近的一系列产品项目被称为产品线。产品组合是指一个企业所经营的不同产品线和产品项目的组合方式,它可以通过宽度、长度、深度和关联度四个维度反映出来

四、产品定价与策略

大数据定价的基本步骤:

1   获取大数据

2   选择定价方法

3   分析影响定价因素的主要指标

4  建立指标体系表

5   构建定价模型

6  选择定价策略

定价的3C模式:成本导向法、竞争导向法、需求导向法

影响定价的主要指标与指标体系表的建立

影响定价因素的主要指标:

1  个人统计信息:家庭出生、教育背景、所在地区、年龄、感情状况、家庭关系等。

2   工作状况:行业、岗位、收入水平、发展空间等

3  兴趣:健身与养生、运动和户外活动、娱乐、科技、购物和时尚等

4 消费行为:消费心理、购买动机等。

定价策略:

精算定价: 保险、期货等对风险计算要求很高的行业

差异定价: 平台利用大数据对客户建立标签,分析对产品的使用习惯、需求判断客户的忠诚度,对不同客户进行差别定价

动态定价: 即根据顾客认可的产品、服务的价值或者根据供需状况动态调整服务价格,通过价格控制供需关系。动态定价在提高消费者价格感知和企业盈利能力方面起着至关重要的作用。

价格自动化 :根据商品成本、市场供需情况、竞争产品价格变动、促销活动、市场调查投票、网上协商、预订周期长短等因素决定自身产品价格

用户感知定价 :顾客所能感知到的利益与其在获取产品或服务中所付出的成本进行权衡后对产品或服务效用所做出的整体评价。

协同定价: 是大数据时代企业双边平台多边协同定价策略

价格歧视:

一级 :就是每一单位产品都有不同的价格,即商家完全掌握消费者的消费意愿,对每个消费者将商品价格定为其能够承受的最高出价;

二级 :商家按照客户的购买数量,对相同场景提供的、同质商品进行差别定价;

三级 :可视为市场细分后的定价结果,根据客户所处的地域、会员等级等个人属性进行差别定价,但是对于同一细分市场的客户定价一致。

五、销售促进与管理

    促销组合设计概念

大数据促销组合设计流程

精准广告设计与投放

[if !supportLists]l [endif] 广告设计5M:任务(Mission),预算(Money),信息(Message),媒体(Media),测量(Measurement)。

通过用户画像的进一步挖掘分析,企业可以找出其目标消费群体的广告偏好,如平面广告的配色偏好,构图偏好,视频广告的情节偏好,配乐偏好,人物偏好等,企业可以根据这些偏好设计出符合目标消费群体审美的广告创意,选择消费者喜欢的广告代言人,做出能在目标消费群体中迅速传播开来的广告。

在媒体决策方面,利用大数据综合考虑其广告目的、目标受众覆盖率、广告信息传播要求、购买决策的时间和地点、媒体成本等因素后,有重点地采用媒体工具。企业可以在确定前述影响变量后,通过大数据的决策模型,确定相对最优的媒体组合。

六、客户管理

    大数据在客户管理中的作用

1   增强客户粘性

2   挖掘潜在客户

3   建立客户分类

    客户管理中数据的分类、收集及清洗

数据分类:

描述性数据: 这类数据是客户的基本信息。

如果是个人客户,涵盖了客户的姓名、年龄、地域分布、婚姻状况、学历、所在行业、职业角色、职位层级、收入水平、住房情况、购车情况等;

如果是企业客户,则包含了企业的名称、规模、联系人和法人代表等。

促销性数据: 企业曾经为客户提供的产品和服务的历史数据。

包括:用户产品使用情况调查的数据、促销活动记录数据、客服人员的建议数据和广告数据等

交易性数据: 这类数据是反映客户对企业做出的回馈的数据。

包括历史购买记录数据、投诉数据、请求提供咨询及其他服务的相关数据、客户建议数据等。

收集:

清洗:

首先,数据营销人需要凭借经验对收集的客户质量进行评估

其次,通过相关字段的对比了解数据真实度

最后,通过测试工具对已经确认格式和逻辑正确数据进行测试

客户分层模型

客户分层模型 是大数据在客户管理中最常见的分析模型之一,客户分层与大数据运营的本质是密切相关的。在客户管理中,出于一对一的精准营销要求针对不同层级的客户进行区别对待,而客户分层则是区别对待的基础。

RFM客户价值分析模型

时间(Rencency):

     客户离现在上一次的购买时间。

频率(Frequency):

     客户在一定时间段内的消费次数。

货币价值(MonetaryValue):

    客户在一定的时间内购买企业产品的金额。

七、 跨界营销

利用大数据跨界营销成功的关键点

1   价值落地

2  杠杠传播

3   深度融合

4   数据打通

八、精准营销

    精准营销的四大特点

1   可量化

2   可调控

3  保持企业和客户的互动沟通

4  简化过程

精准营销的步骤

1  确定目标

2  搜集数据

3   分析与建模

4  制定战略

九、商品关联营销

       商品关联营销的概念及应用

关联营销:

关联营销是一种建立在双方互利互益的基础上的营销,在交叉营销的基础上,将事物、产品、品牌等所要营销的东西上寻找关联性,来实现深层次的多面引导。

关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。

       关联分析的概念与定义

最早的关联分析概念: 是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。

电子商务领域: 关联分析可帮助经营者发现顾客的消费偏好,定位顾客消费需求,制定合理的交叉销售方案, 实现商品的精准推荐 ;

保险公司业务: 关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为;

电信行业: 关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等

简单关联规则及其表达式

事务:简单关联分析的分析对象

项目:事务中涉及的对象

项集:若干个项目的集合

简单关联规则 的一般表示形式是:前项→后项(支持度=s%,置信度=c%)

或表达为:X→Y(S=s%,C=c%)

例如:面包->牛奶(S=85%,C=90%)

            性别(女)∩收入(>5000元)→品牌(A)(S=80%,C=85%)

支持度、置信度、频繁项集、强关联规则、购物篮分析模型

置信度和支持度

support(X→Y)= P(X∩Y)                  

confidence(X→Y)= P(Y|X)

十、评论文本数据的情感分析

       商品品论文本数据挖掘目标

电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。评论信息中蕴含着消费者对特定产品和服务的主观感受,反映了人们的态度、立场和意见,具有非常宝贵的研究价值。

针对电子商务平台上的商品评论进行文本数据挖掘的目标一般如下:

分析商品的用户情感倾向,了解用户的需求、意见、购买原因;

从评论文本中挖掘商品的优点与不足,提出改善产品的建议;

提炼不同品牌的商品卖点。

商品评论文本分析的步骤和流程

商品评论文本的数据采集、预处理与模型构建

数据采集:

1、“易用型”:八爪鱼、火车采集器

2、利用R语言、Python语言的强大程序编写来抓取数据

预处理:

1文本去重

检查是否是默认文本

是否是评论人重复复制黏贴的内容

是否引用了其他人的评论

2机械压缩去词

例如: “好好好好好好好好好好”->“好”

3短句删除

原本过短的评论文本      例如:很“好好好好好好好好好好”->“好”

机械压缩去词后过短的评论文本   例如:“好好好好好好好好好好”->“好”

4评论分词

文本模型构建包括三方面:情感倾向分析、语义网络分析、基于LDA模型的主体分析

 

情感倾向分析:

基于情感词进行情感匹配

对情感词的倾向进行修正

对情感分析结果进行检验

语义网络分析:

基于LDA模型的主体分析

十一、大数据营销中的伦理与责任

       大数据的安全与隐私保护

数据安全:一是保证用户的数据不损坏、不丢失;二是要保证数据不会被泄露或者盗用

 

大数据营销中的伦理风险:用户隐私、信息不对称下的消费者弱势群体、大数据“杀熟”

大数据伦理困境的成因:

用户隐私意识淡薄

用户未能清晰认知数据价值

企业利益驱使

] 管理机制不够完善

大数据伦理构建的必要性:企业社会责任、用户与社会群体的维系

这些是我按照老师讲的课本上的内容结合PPT总结出来的《大数据营销》的重点。

详解大数据的思想如何形成与其价值维度

比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。

到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。

那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个:一是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。

仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。

这些都发生在90年代。00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。第四范式是数据探索。这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。但是到90年代的时候,科研数据实在太多了,数据探索成为显学。在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX学包含了数据范式,如计算社会学、计算广告学。

2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。

首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。可以有更多的模型,如四边形,五边形。随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。

大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。谷歌甚至能翻译克莱贡语(StarTrek里编出来的语言)。安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。

当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。

2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。看谷歌趋势,”bigdata”这个词就是那个时间一下子蹿升了起来。吹鼓手有几家,一家是IDC,每年给EMC做digitaluniverse的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook的数据是几百拍字节,1000拍=1艾,百度是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同着《大数据时代》的肯尼思?库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。

咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。

2012年子沛的书《大数据》教育政府官员有功。老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。

比如要数据全集不要采样。现实地讲,1没有全集数据,数据都在孤岛里;2全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。全量>好的采样>不均匀的大量。

再说混杂性由于精确性。拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。老舍引用谷歌PeterNovig的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。Peter的研究是Web文本分析,确实成立。但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、数据,需要大量数据+复杂模型。

最后是要相关性不要因果性。对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。

把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。

下面时间不多了,关于价值维度,我贴一些以前讲过的东西。大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:

再贴上解释。“见微”与“知着”在Volume的空间维度。小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知着,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。“着”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。“微”与“着”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。

“当下”和“皆明”在Velocity的时间维度。当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。为达到皆明,需要全量分析、预测分析和处方式分析(prescriptiveanalytics,为让设定的未来发生,需要采取什么样的行动)。

“辨讹”和“晓意”在Variety的空间维度。基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。

先看知着,对宏观现象规律的研究早已有之,大数据的知着有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。《中国经济生活大调查》说“再小的声音我们都听得见”,是过头话,采样和传统的统计分析方法对数据分布采用一些简化的模型,这些模型把异常和长尾忽略了,全量的分析可以看到黑天鹅的身影,听到长尾的声音。

另一个特点是从定性到定量。计算社会学就是把定量分析应用到社会学,已经有一批数学家、物理学家成了经济学家、宽客,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子,它通过几十万用户的数据,主要是反映投资活跃程度和投资收益水平的指标,建立一个量化模型来推知整体投资景气度。

再看见微,我认为大数据的真正差异化优势在微观。自然科学是先宏观、具体,进入到微观和抽象,这时大数据就很重要了。我们更关注社会科学,那是先微观、具体,再宏观、抽象,许小年索性认为宏观经济学是伪科学。如果市场是个体行为的总和,我们原来看到是一张抽象派的画,看不懂,通过客户细分慢慢可以形成一张大致看得懂的现实图景,不过是马赛克的,再通过微分、甚至定位个人,形成高清图。我们每一个人现在都生活在零售商的bucket中(前面说的乐购创造了这个概念),最简单的是高收入、低收入这类反映背景的,再有就是反映行为和生活方式的,如“精打细算”、“右键点击一族”(使用右键的比较techsavvy)。反过来我们消费者也希望能够获得个性化的尊崇,Nobody wants to be nobody today。

了解并掌握客户比以往任何时候都更重要。奥巴马赢在大数据上,就是因为他知道西岸40-49岁女性的男神是乔治·克鲁尼,东岸同样年龄段女性的偶像则是莎拉·杰西卡·帕克(《欲望都市》的主角),他还要更细分,摇摆州每一个郡每一个年龄段每一个时间段在看什么电视,摇摆州(俄亥俄)1%选民随时间变化的投票倾向,摇摆选民在Reddit上还是Facebook上,都在其掌握之中。

对于企业来说,要从以产品为中心,转到以客户(买单者)甚至用户(使用者)为中心,从关注用户背景到关注其行为、意图和意向,从关注交易形成转到关注每一个交互点/触点,用户是从什么路径发现我的产品的,决定之前又做了什么,买了以后又有什么反馈,是通过网页、还是QQ、微博或是微信。

再讲第三个,当下。时间是金钱,股票交易就是快鱼吃慢鱼,用免费股票交易软件有几秒的延迟,而占美国交易量60-70%的高频程序化交易则要发现毫秒级、低至1美分的交易机会。时间又是生命,美国国家大气与海洋管理局的超级计算机在日本311地震后9分钟发出海啸预警,已经太晚。时间还是机会。现在所谓的购物篮分析用的其实并不是真正的购物篮,而是结帐完的小票,真正有价值的是当顾客还拎着购物篮,在浏览、试用、选择商品的时候,在每一个触点影响他/她的选择。数据价值具有半衰期,最新鲜的时候个性化价值最大,渐渐退化到只有集合价值。当下的智慧是从刻舟求剑到见时知几,原来10年一次的人口普查就是刻舟求剑,而现在东莞一出事百度迁徙图就反映出来了。当然,当下并不一定是完全准确的,其实如果没有更多、更久的数据,匆忙对百度迁徙图解读是可能陷入误区的。

第四个,皆明。时间有限,就简单说了。就是从放马后炮到料事如神(predictiveanalytics),从料事如神到运筹帷幄(prescriptiveanalytics),只知道有东风是预测分析,确定要借箭的目标、并给出处方利用草船来借,就是处方性分析。我们现在要提高响应度、降低流失率、吸引新客户,需要处方性分析。

辨讹就是利用多源数据过滤噪声、查漏补缺和去伪存真。20多个省市的GDP之和超过全国的GDP就是一个例子,我们的GPS有几十米的误差,但与地图数据结合就能做到精确,GPS在城市的高楼中没有信号,可以与惯性导航结合。

晓意涉及到大数据下的机器智能,是个大问题,也不展开了。贴一段我的文章:有人说在涉及“晓意”的领域人是无法替代的。这在前大数据时代是事实。《点球成金(Moneyball)》讲的是数量化分析和预测对棒球运动的贡献,它在大数据背景下出现了传播的误区:一、它其实不是大数据,而是早已存在的数据思维和方法;二、它刻意或无意忽略了球探的作用。从读者看来,奥克兰竞技队的总经理比利·比恩用数量化分析取代了球探。而事实是,在运用数量化工具的同时,比恩也增加了球探的费用,军功章里有机器的一半,也有人的一半,因为球探对运动员定性指标(如竞争性、抗压力、意志力等)的衡量是少数结构化量化指标无法刻画的。大数据改变了这一切。人的数字足迹的无意识记录,以及机器学习(尤其是深度学习)晓意能力的增强,可能逐渐改变机器的劣势。今年我们看到基于大数据的情感分析、价值观分析和个人刻画,当这些应用于人力资源,已经或多或少体现了球探承担的。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/629738.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-06
下一篇2023-07-06

发表评论

登录后才能评论

评论列表(0条)

    保存