LDA在文本分类中,如何提高分类器的精确度?

LDA在文本分类中,如何提高分类器的精确度?,第1张

LDA模型的根本目的,就是把一个高维的文档向量降维成一个低维度的文档向量。对于高维的文档向量来说,就是原始的被切词后的特征向量,每个特征是一个维度,降维后的低维的文档向量,每个维度是一个主题,每个主题是通过Dirichlet参数估计得到的一个基于各个原始特征的Multinominal Distribution。所以,理解清楚Dirichlet过程的本质,是个降维的过程,我们就知道,文本最终还是被视作一个Vector来处理的。那么一个Vector就是一个高维的数据点,怎么分类,无非还是传统的方法。分类本身就是一个Supervised方法,对于高维数据点,主流的方法是:Decision Tree、Neural Network、Naive Bayesian其他的稍微复杂点,可以自行构造。

一、走进大数据世界

大数据的特征(4V):

1  数据的规模性

2   数据结构多样性

3   数据传播高速性

4   大数据的真实性、价值性、易变性;

结构化数据、半结构化数据、非结构化数据

大数据处理的基本流程图

大数据关键技术:

1  大数据采集

2   大数据预处理

3  大数据存储及管理

4   大数据安全技术

5  大数据分析与挖掘

6   大数据展现与应用

二、大数据营销概论

Target 百货客户怀孕预测案例

大数据营销的特点:

1   多样化、平台化数据采集: 多平台包括互联网、移动互联网、广电网、智能电视等

2   强调时效性: 在网民需求点最高时及时进行营销

3   个性化营销: 广告理念已从媒体导向转为受众导向

4   性价比高: 让广告可根据时效性的效果反馈,进行调整

5   关联性: 网民关注的广告与广告之间的关联性

大数据运营方式:

1   基础运营方式

2   数据租赁运营方式

3   数据购买运营方式

大数据营销的应用

1   价格策略和优化定价

2   客户分析

3   提升客户关系管理

4   客户相应能力和洞察力

5 智能嵌入的情景营销

6   长期的营销战略

三、产品预测与规划

整体产品概念与整体产品五层次

整体产品概念: 狭义的产品: 具有某种特定物质形态和用途的物体。

产品整体概念(广义):向市场提供的能够满足人们某种需要的

                      一切物品和服务。

整体产品包含:有形产品和无形的服务                          

整体产品五层次:潜在产品、延伸产品、期望产品、形式产品、核心产品

 

大数据新产品开发模型:

1   需求信息收集及新产品立项阶段

2  新产品设计及生产调试阶段

3  小规模试销及反馈修改阶段

4   新产品量产上市及评估阶段

产品生命周期模型

传统产品生命周期划分法:

(1)销售增长率分析法

  销售增长率=(当年销售额-上年销售额)/上年销售额×100%

销售增长率小于10%且不稳定时为导入期;

销售增长率大于10%时为成长期;

销售增长率小于10%且稳定时为成熟期;

销售增长率小于0时为衰退期。

(2)产品普及率分析法

    产品普及率小于5%时为投入期;

    普及率在5%—50%时为成长期;

    普及率在50%—90%时为成熟期;

    普及率在90%以上时为衰退期。

大数据对产品组合进行动态优化

产品组合

       销售对象、销售渠道等方面比较接近的一系列产品项目被称为产品线。产品组合是指一个企业所经营的不同产品线和产品项目的组合方式,它可以通过宽度、长度、深度和关联度四个维度反映出来

四、产品定价与策略

大数据定价的基本步骤:

1   获取大数据

2   选择定价方法

3   分析影响定价因素的主要指标

4  建立指标体系表

5   构建定价模型

6  选择定价策略

定价的3C模式:成本导向法、竞争导向法、需求导向法

影响定价的主要指标与指标体系表的建立

影响定价因素的主要指标:

1  个人统计信息:家庭出生、教育背景、所在地区、年龄、感情状况、家庭关系等。

2   工作状况:行业、岗位、收入水平、发展空间等

3  兴趣:健身与养生、运动和户外活动、娱乐、科技、购物和时尚等

4 消费行为:消费心理、购买动机等。

定价策略:

精算定价: 保险、期货等对风险计算要求很高的行业

差异定价: 平台利用大数据对客户建立标签,分析对产品的使用习惯、需求判断客户的忠诚度,对不同客户进行差别定价

动态定价: 即根据顾客认可的产品、服务的价值或者根据供需状况动态调整服务价格,通过价格控制供需关系。动态定价在提高消费者价格感知和企业盈利能力方面起着至关重要的作用。

价格自动化 :根据商品成本、市场供需情况、竞争产品价格变动、促销活动、市场调查投票、网上协商、预订周期长短等因素决定自身产品价格

用户感知定价 :顾客所能感知到的利益与其在获取产品或服务中所付出的成本进行权衡后对产品或服务效用所做出的整体评价。

协同定价: 是大数据时代企业双边平台多边协同定价策略

价格歧视:

一级 :就是每一单位产品都有不同的价格,即商家完全掌握消费者的消费意愿,对每个消费者将商品价格定为其能够承受的最高出价;

二级 :商家按照客户的购买数量,对相同场景提供的、同质商品进行差别定价;

三级 :可视为市场细分后的定价结果,根据客户所处的地域、会员等级等个人属性进行差别定价,但是对于同一细分市场的客户定价一致。

五、销售促进与管理

    促销组合设计概念

大数据促销组合设计流程

精准广告设计与投放

[if !supportLists]l [endif] 广告设计5M:任务(Mission),预算(Money),信息(Message),媒体(Media),测量(Measurement)。

通过用户画像的进一步挖掘分析,企业可以找出其目标消费群体的广告偏好,如平面广告的配色偏好,构图偏好,视频广告的情节偏好,配乐偏好,人物偏好等,企业可以根据这些偏好设计出符合目标消费群体审美的广告创意,选择消费者喜欢的广告代言人,做出能在目标消费群体中迅速传播开来的广告。

在媒体决策方面,利用大数据综合考虑其广告目的、目标受众覆盖率、广告信息传播要求、购买决策的时间和地点、媒体成本等因素后,有重点地采用媒体工具。企业可以在确定前述影响变量后,通过大数据的决策模型,确定相对最优的媒体组合。

六、客户管理

    大数据在客户管理中的作用

1   增强客户粘性

2   挖掘潜在客户

3   建立客户分类

    客户管理中数据的分类、收集及清洗

数据分类:

描述性数据: 这类数据是客户的基本信息。

如果是个人客户,涵盖了客户的姓名、年龄、地域分布、婚姻状况、学历、所在行业、职业角色、职位层级、收入水平、住房情况、购车情况等;

如果是企业客户,则包含了企业的名称、规模、联系人和法人代表等。

促销性数据: 企业曾经为客户提供的产品和服务的历史数据。

包括:用户产品使用情况调查的数据、促销活动记录数据、客服人员的建议数据和广告数据等

交易性数据: 这类数据是反映客户对企业做出的回馈的数据。

包括历史购买记录数据、投诉数据、请求提供咨询及其他服务的相关数据、客户建议数据等。

收集:

清洗:

首先,数据营销人需要凭借经验对收集的客户质量进行评估

其次,通过相关字段的对比了解数据真实度

最后,通过测试工具对已经确认格式和逻辑正确数据进行测试

客户分层模型

客户分层模型 是大数据在客户管理中最常见的分析模型之一,客户分层与大数据运营的本质是密切相关的。在客户管理中,出于一对一的精准营销要求针对不同层级的客户进行区别对待,而客户分层则是区别对待的基础。

RFM客户价值分析模型

时间(Rencency):

     客户离现在上一次的购买时间。

频率(Frequency):

     客户在一定时间段内的消费次数。

货币价值(MonetaryValue):

    客户在一定的时间内购买企业产品的金额。

七、 跨界营销

利用大数据跨界营销成功的关键点

1   价值落地

2  杠杠传播

3   深度融合

4   数据打通

八、精准营销

    精准营销的四大特点

1   可量化

2   可调控

3  保持企业和客户的互动沟通

4  简化过程

精准营销的步骤

1  确定目标

2  搜集数据

3   分析与建模

4  制定战略

九、商品关联营销

       商品关联营销的概念及应用

关联营销:

关联营销是一种建立在双方互利互益的基础上的营销,在交叉营销的基础上,将事物、产品、品牌等所要营销的东西上寻找关联性,来实现深层次的多面引导。

关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。

       关联分析的概念与定义

最早的关联分析概念: 是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。

电子商务领域: 关联分析可帮助经营者发现顾客的消费偏好,定位顾客消费需求,制定合理的交叉销售方案, 实现商品的精准推荐 ;

保险公司业务: 关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为;

电信行业: 关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等

简单关联规则及其表达式

事务:简单关联分析的分析对象

项目:事务中涉及的对象

项集:若干个项目的集合

简单关联规则 的一般表示形式是:前项→后项(支持度=s%,置信度=c%)

或表达为:X→Y(S=s%,C=c%)

例如:面包->牛奶(S=85%,C=90%)

            性别(女)∩收入(>5000元)→品牌(A)(S=80%,C=85%)

支持度、置信度、频繁项集、强关联规则、购物篮分析模型

置信度和支持度

support(X→Y)= P(X∩Y)                  

confidence(X→Y)= P(Y|X)

十、评论文本数据的情感分析

       商品品论文本数据挖掘目标

电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。评论信息中蕴含着消费者对特定产品和服务的主观感受,反映了人们的态度、立场和意见,具有非常宝贵的研究价值。

针对电子商务平台上的商品评论进行文本数据挖掘的目标一般如下:

分析商品的用户情感倾向,了解用户的需求、意见、购买原因;

从评论文本中挖掘商品的优点与不足,提出改善产品的建议;

提炼不同品牌的商品卖点。

商品评论文本分析的步骤和流程

商品评论文本的数据采集、预处理与模型构建

数据采集:

1、“易用型”:八爪鱼、火车采集器

2、利用R语言、Python语言的强大程序编写来抓取数据

预处理:

1文本去重

检查是否是默认文本

是否是评论人重复复制黏贴的内容

是否引用了其他人的评论

2机械压缩去词

例如: “好好好好好好好好好好”->“好”

3短句删除

原本过短的评论文本      例如:很“好好好好好好好好好好”->“好”

机械压缩去词后过短的评论文本   例如:“好好好好好好好好好好”->“好”

4评论分词

文本模型构建包括三方面:情感倾向分析、语义网络分析、基于LDA模型的主体分析

 

情感倾向分析:

基于情感词进行情感匹配

对情感词的倾向进行修正

对情感分析结果进行检验

语义网络分析:

基于LDA模型的主体分析

十一、大数据营销中的伦理与责任

       大数据的安全与隐私保护

数据安全:一是保证用户的数据不损坏、不丢失;二是要保证数据不会被泄露或者盗用

 

大数据营销中的伦理风险:用户隐私、信息不对称下的消费者弱势群体、大数据“杀熟”

大数据伦理困境的成因:

用户隐私意识淡薄

用户未能清晰认知数据价值

企业利益驱使

] 管理机制不够完善

大数据伦理构建的必要性:企业社会责任、用户与社会群体的维系

这些是我按照老师讲的课本上的内容结合PPT总结出来的《大数据营销》的重点。

LDA是生成式概率模型。基本的观点是一个文档由多个隐主题生成,每个主题是由单词的分布式表达。

LDA假设在语料库D中每个文档的生成过程如下:

1主题数量k已知

2单词的概率由参数 控制

参数 是一个k 维的向量,并且每个元素大于0, 服从Gamma 分布

已知参数 , 联合分布主题混合的参数 , 表示主题的参数 z,表示文档的参数w:

对 积分,并对z求和得到关于文档的边缘分布:

所有文档的边缘分布相乘,得到整个语料库的概率:

参数 和参数 是语料库级别的参数,在生成语料库的过程中使用。

变量 是文档级别的参数,每个文档采样一次。

变量 和 是单词级别的参数,每个文档中每个单词都采样一次

一组随机变量如果联合分布和变量的排列顺序无关,则称这组变量是可交换的。

在LDA中,我们假设单词是由主题生成的,并且这些主题在文档中是无限可交换的,

其中 是关于主题多项式分布的随机变量。

通过对隐主题变量z积分。可以得到单词分布:

这是一个随机量,因为他依赖于

我们定义接下来的生成过程, 对于一个文档 w

1选择θ∼Dir(α)

2对于每个N的单词 :

(a)从 中选择一个单词

这个过程定义一篇文档的边缘分布看成一个连续的混合分布

inference的关心的问题使用LDA来计算隐变量z的后验分布:

这个分布通常很难计算。通过normaliza 分布,并且计算边缘分布。

这个后验分布很难计算,但是通过一些变分推断的方法还是可以得到。

基本的观点是使用jensen's 不等式来获得一个调整的下界,变分参数通过优化过程来试图找到最接近的可能的下界。

一个简单的方式是通过鲜花原始的计算图,将一些边和节点移去。在LDA中,原始的图是左图,通过把 移去,生成右边含有自由变分参数的图。

新的计算图使用如下变分分布:

是狄利克雷参数,多项式参数(φ1 , , φ N ) 是自由变量参数。

得到简化的概率分布后,下一步是开始的优化问题是决定变分参数 的值。

优化这个变分参数是通过最小化KL散度来实现,并且吧他们设为0,得到以下的更新参数。

在文本的语言中,优化参数 是文档制定的。特别的,我们认为狄利克雷参数 是一个文档的主题表达。

经验贝叶斯方法来估计LDA中的参数。给定一个语料D,我们希望找到参数 来最大化边缘似然概率:

计算 比较困难,可以通过变分EM算法来估计。

1E step,对于每个文档,找到最优的变分参数 。

2M step, 最大化结果的下界。

重复上述几步直到下界收敛。

lda是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘(dm)中的text mining和自然语言处理中,主要是用来降低维度的。据说效果不错。

以下是在tm中对lda的定义:

Latent Dirichlet allocation (LDA) is a generative probabilistic model of a corpus The basic idea is

that documents are represented as random mixtures over latent topics, where each topic is characterized

by a distribution over words

We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of

discrete data such as text corpora LDA is a three-level hierarchical Bayesian model, in which each

item of a collection is modeled as a finite mixture over an underlying set of topics Each topic is, in

turn, modeled as an infinite mixture over an underlying set of topic probabilities In the context of

text modeling, the topic probabilities provide an explicit representation of a document

其实它还可以用在别的方面,早期是被用在自然语言处理的文本表示方面。因为他提供了一个理解相关词为什么在同一文档出现的框架解释模型。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/1040677.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-12
下一篇2023-07-12

发表评论

登录后才能评论

评论列表(0条)

    保存