svm意思是支持向量机。
svm的解释:
支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。
svm的性质:
SVM的优化问题同时考虑了经验风险和结构风险最小化,因此具有稳定性。从几何观点,SVM的稳定性体现在其构建超平面决策边界时要求边距最大,因此间隔边界之间有充裕的空间包容测试样本。
SVM使用铰链损失函数作为代理损失,铰链损失函数的取值特点使SVM具有稀疏性,即其决策边界仅由支持向量决定,其余的样本点不参与经验风险最小化。在使用核方法的非线性学习中,SVM的稳健性和稀疏性在确保了可靠求解结果的同时降低了核矩阵的计算量和内存开销。
svm的应用:
1、垃圾邮件过滤
对于电子邮件服务提供商来说,筛选垃圾邮件是一个重要的任务。SVM可以将邮件内容中的特征(如单词、短语、文本长度等)与已标记的训练数据进行学习,然后根据这些特征将邮件自动分类为垃圾邮件或非垃圾邮件。
在社交媒体和在线评论等环境中,情感分析可以帮助组织和个人了解对于特定主题或产品的用户情感倾向。SVM可以根据文本中的词语、词频、情感词等特征,对文本进行分类为正面、负面或中性情感。
3、图像分类
SVM可以用于将输入的图像自动分类到不同的类别中。在图像分类任务中,首先需要对图像进行特征提取,可以使用特征描述符如SIFT、HOG等。然后,将提取的特征作为输入,训练一个支持向量机模型来学习各个类别之间的分界面,最终对新的图像进行分类。
什么是社交媒体营销?社交媒体营销又称社会化媒体营销、新媒体营销,是公共关系和客户服务维护开拓的一种方式,需要借助社会化媒体营销工具包括论坛、微博、搜索引擎、百科、小红书、抖音等自媒体平台,通过图文或视频等形式进行内容发布和传播,从而达到倾听用户声音、宣传品牌产品的作用。常见的社交媒体营销方式有哪些?1互动营销社交媒体往往以互动量作为衡量流量的标尺,这意味着企业不仅需要以好的内容、产品吸引用户,也不能忽视与用户直接对话的机会,通过社交媒体账号来进行互动,从而建立一定的情感联系,赢得用户的认同与信任,并鼓励他们对品牌或产品提出关键性的意见做出正面引导,如今已经不是卖家直接左右市场的时代,这些良好的互动反馈会将潜在用户转化为现实用户。2情感营销情感营销是营销方式中效果最为突出但也最不易的,需要以用户情感倾向为依托,不仅把产品送到用户手中,更要走到他们的心里,与用户产生心灵上的契合与共鸣,情感消费时代产品本身具备的优质因素已经不是在竞品中杀出重围的唯一关键所在,明确产品能为用户满足的情感需求才能获得更多的认可。3事件营销社交媒体是互联网时代最主要的信息传播载体,企业可以借助有一定舆论导向力、新闻传播力的热点社会事件,吸引公众、媒体、社会的关注,从而提高企业影响力、产品知名度,这对于良好品牌形象的树立无疑是事半功倍的。4粉丝社群营销用户始终是产品的第一受众,企业首要考虑的不应该是如何吸引更多新用户,而是怎样才能将现有的用户都把握住,可以利用企业品牌自有的社媒账号发布产品相关信息、活动内容推广、时下热点舆情提高用户粘性,并把这部分核心用户引入私域社群重点维护,此外作品发布时间也需要适合快节奏生活下的阅读习惯,内容切合用户喜好倾向。5KOL营销KOL营销也是名人效应营销,名人或KOL通常都自带一定流量和粉丝群体,他们可以通过品牌推广、直播活动将这部分粉丝直接转化为庞大的品牌潜在用户群体,让用户心甘情愿买单甚至成为回头客,在社交媒体时代,他们对于网民的影响力也将越来越大。6口碑营销口碑效应带来的影响是1+1>2的,口碑的好坏会直接决定用户是否会为产品买单,并以好口碑为媒介在买单后将产品再次推广出去,这与毫无口碑基础的产品相比可信度会大大提高。企业也可以通过对互联网信息的监测全面了解目前产品受众对于品牌整体的态度如何,是否存在某些潜在的负面评价,并在社交媒体平台制造一些新颖易受到广泛传播的话题为品牌口碑造势。社交媒体营销该怎么做?明确产品受众产品受众就是产品的对标用户群体,在营销策略形成之前,必须要对产品的目标用户有明确界定与规划,人群特征通常包含显性与隐性特征,显性特征即是可以从用户信息中看出来的如性别、年龄、职业、国家、购买偏好等,隐性特征包含用户不同的性格特点、情感偏好等,对这些信息进行收集形成一套品牌目标用户画像。确定营销平台由于自媒体平台内容调性、产品属性、算法逻辑的差异,选择符合产品性质的平台进行社交媒体营销也非常关键,这需要以目标用户为重点关注对象,对各个自媒体平台有一定全面详尽的了解,借助五节舆情监测系统可以对全网目标用户的需求与兴趣以及产品的评价反馈进行监测,来确定营销效果最佳的平台。全网情感倾向、媒体来源占比图
一、走进大数据世界
大数据的特征(4V):
1 数据的规模性
2 数据结构多样性
3 数据传播高速性
4 大数据的真实性、价值性、易变性;
结构化数据、半结构化数据、非结构化数据
大数据处理的基本流程图
大数据关键技术:
1 大数据采集
2 大数据预处理
3 大数据存储及管理
4 大数据安全技术
5 大数据分析与挖掘
6 大数据展现与应用
二、大数据营销概论
Target 百货客户怀孕预测案例
大数据营销的特点:
1 多样化、平台化数据采集: 多平台包括互联网、移动互联网、广电网、智能电视等
2 强调时效性: 在网民需求点最高时及时进行营销
3 个性化营销: 广告理念已从媒体导向转为受众导向
4 性价比高: 让广告可根据时效性的效果反馈,进行调整
5 关联性: 网民关注的广告与广告之间的关联性
大数据运营方式:
1 基础运营方式
2 数据租赁运营方式
3 数据购买运营方式
大数据营销的应用
1 价格策略和优化定价
2 客户分析
3 提升客户关系管理
4 客户相应能力和洞察力
5 智能嵌入的情景营销
6 长期的营销战略
三、产品预测与规划
整体产品概念与整体产品五层次
整体产品概念: 狭义的产品: 具有某种特定物质形态和用途的物体。
产品整体概念(广义):向市场提供的能够满足人们某种需要的
一切物品和服务。
整体产品包含:有形产品和无形的服务
整体产品五层次:潜在产品、延伸产品、期望产品、形式产品、核心产品
大数据新产品开发模型:
1 需求信息收集及新产品立项阶段
2 新产品设计及生产调试阶段
3 小规模试销及反馈修改阶段
4 新产品量产上市及评估阶段
产品生命周期模型
传统产品生命周期划分法:
(1)销售增长率分析法
销售增长率=(当年销售额-上年销售额)/上年销售额×100%
销售增长率小于10%且不稳定时为导入期;
销售增长率大于10%时为成长期;
销售增长率小于10%且稳定时为成熟期;
销售增长率小于0时为衰退期。
(2)产品普及率分析法
产品普及率小于5%时为投入期;
普及率在5%—50%时为成长期;
普及率在50%—90%时为成熟期;
普及率在90%以上时为衰退期。
大数据对产品组合进行动态优化
产品组合
销售对象、销售渠道等方面比较接近的一系列产品项目被称为产品线。产品组合是指一个企业所经营的不同产品线和产品项目的组合方式,它可以通过宽度、长度、深度和关联度四个维度反映出来
四、产品定价与策略
大数据定价的基本步骤:
1 获取大数据
2 选择定价方法
3 分析影响定价因素的主要指标
4 建立指标体系表
5 构建定价模型
6 选择定价策略
定价的3C模式:成本导向法、竞争导向法、需求导向法
影响定价的主要指标与指标体系表的建立
影响定价因素的主要指标:
1 个人统计信息:家庭出生、教育背景、所在地区、年龄、感情状况、家庭关系等。
2 工作状况:行业、岗位、收入水平、发展空间等
3 兴趣:健身与养生、运动和户外活动、娱乐、科技、购物和时尚等
4 消费行为:消费心理、购买动机等。
定价策略:
精算定价: 保险、期货等对风险计算要求很高的行业
差异定价: 平台利用大数据对客户建立标签,分析对产品的使用习惯、需求判断客户的忠诚度,对不同客户进行差别定价
动态定价: 即根据顾客认可的产品、服务的价值或者根据供需状况动态调整服务价格,通过价格控制供需关系。动态定价在提高消费者价格感知和企业盈利能力方面起着至关重要的作用。
价格自动化 :根据商品成本、市场供需情况、竞争产品价格变动、促销活动、市场调查投票、网上协商、预订周期长短等因素决定自身产品价格
用户感知定价 :顾客所能感知到的利益与其在获取产品或服务中所付出的成本进行权衡后对产品或服务效用所做出的整体评价。
协同定价: 是大数据时代企业双边平台多边协同定价策略
价格歧视:
一级 :就是每一单位产品都有不同的价格,即商家完全掌握消费者的消费意愿,对每个消费者将商品价格定为其能够承受的最高出价;
二级 :商家按照客户的购买数量,对相同场景提供的、同质商品进行差别定价;
三级 :可视为市场细分后的定价结果,根据客户所处的地域、会员等级等个人属性进行差别定价,但是对于同一细分市场的客户定价一致。
五、销售促进与管理
促销组合设计概念
大数据促销组合设计流程
精准广告设计与投放
[if !supportLists]l [endif] 广告设计5M:任务(Mission),预算(Money),信息(Message),媒体(Media),测量(Measurement)。
通过用户画像的进一步挖掘分析,企业可以找出其目标消费群体的广告偏好,如平面广告的配色偏好,构图偏好,视频广告的情节偏好,配乐偏好,人物偏好等,企业可以根据这些偏好设计出符合目标消费群体审美的广告创意,选择消费者喜欢的广告代言人,做出能在目标消费群体中迅速传播开来的广告。
在媒体决策方面,利用大数据综合考虑其广告目的、目标受众覆盖率、广告信息传播要求、购买决策的时间和地点、媒体成本等因素后,有重点地采用媒体工具。企业可以在确定前述影响变量后,通过大数据的决策模型,确定相对最优的媒体组合。
六、客户管理
大数据在客户管理中的作用
1 增强客户粘性
2 挖掘潜在客户
3 建立客户分类
客户管理中数据的分类、收集及清洗
数据分类:
描述性数据: 这类数据是客户的基本信息。
如果是个人客户,涵盖了客户的姓名、年龄、地域分布、婚姻状况、学历、所在行业、职业角色、职位层级、收入水平、住房情况、购车情况等;
如果是企业客户,则包含了企业的名称、规模、联系人和法人代表等。
促销性数据: 企业曾经为客户提供的产品和服务的历史数据。
包括:用户产品使用情况调查的数据、促销活动记录数据、客服人员的建议数据和广告数据等
交易性数据: 这类数据是反映客户对企业做出的回馈的数据。
包括历史购买记录数据、投诉数据、请求提供咨询及其他服务的相关数据、客户建议数据等。
收集:
清洗:
首先,数据营销人需要凭借经验对收集的客户质量进行评估
其次,通过相关字段的对比了解数据真实度
最后,通过测试工具对已经确认格式和逻辑正确数据进行测试
客户分层模型
客户分层模型 是大数据在客户管理中最常见的分析模型之一,客户分层与大数据运营的本质是密切相关的。在客户管理中,出于一对一的精准营销要求针对不同层级的客户进行区别对待,而客户分层则是区别对待的基础。
RFM客户价值分析模型
时间(Rencency):
客户离现在上一次的购买时间。
频率(Frequency):
客户在一定时间段内的消费次数。
货币价值(MonetaryValue):
客户在一定的时间内购买企业产品的金额。
七、 跨界营销
利用大数据跨界营销成功的关键点
1 价值落地
2 杠杠传播
3 深度融合
4 数据打通
八、精准营销
精准营销的四大特点
1 可量化
2 可调控
3 保持企业和客户的互动沟通
4 简化过程
精准营销的步骤
1 确定目标
2 搜集数据
3 分析与建模
4 制定战略
九、商品关联营销
商品关联营销的概念及应用
关联营销:
关联营销是一种建立在双方互利互益的基础上的营销,在交叉营销的基础上,将事物、产品、品牌等所要营销的东西上寻找关联性,来实现深层次的多面引导。
关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。
关联分析的概念与定义
最早的关联分析概念: 是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。
电子商务领域: 关联分析可帮助经营者发现顾客的消费偏好,定位顾客消费需求,制定合理的交叉销售方案, 实现商品的精准推荐 ;
保险公司业务: 关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为;
电信行业: 关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等
简单关联规则及其表达式
事务:简单关联分析的分析对象
项目:事务中涉及的对象
项集:若干个项目的集合
简单关联规则 的一般表示形式是:前项→后项(支持度=s%,置信度=c%)
或表达为:X→Y(S=s%,C=c%)
例如:面包->牛奶(S=85%,C=90%)
性别(女)∩收入(>5000元)→品牌(A)(S=80%,C=85%)
支持度、置信度、频繁项集、强关联规则、购物篮分析模型
置信度和支持度
support(X→Y)= P(X∩Y)
confidence(X→Y)= P(Y|X)
十、评论文本数据的情感分析
商品品论文本数据挖掘目标
电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于电商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。评论信息中蕴含着消费者对特定产品和服务的主观感受,反映了人们的态度、立场和意见,具有非常宝贵的研究价值。
针对电子商务平台上的商品评论进行文本数据挖掘的目标一般如下:
分析商品的用户情感倾向,了解用户的需求、意见、购买原因;
从评论文本中挖掘商品的优点与不足,提出改善产品的建议;
提炼不同品牌的商品卖点。
商品评论文本分析的步骤和流程
商品评论文本的数据采集、预处理与模型构建
数据采集:
1、“易用型”:八爪鱼、火车采集器
2、利用R语言、Python语言的强大程序编写来抓取数据
预处理:
1文本去重
检查是否是默认文本
是否是评论人重复复制黏贴的内容
是否引用了其他人的评论
2机械压缩去词
例如: “好好好好好好好好好好”->“好”
3短句删除
原本过短的评论文本 例如:很“好好好好好好好好好好”->“好”
机械压缩去词后过短的评论文本 例如:“好好好好好好好好好好”->“好”
4评论分词
文本模型构建包括三方面:情感倾向分析、语义网络分析、基于LDA模型的主体分析
情感倾向分析:
基于情感词进行情感匹配
对情感词的倾向进行修正
对情感分析结果进行检验
语义网络分析:
基于LDA模型的主体分析
十一、大数据营销中的伦理与责任
大数据的安全与隐私保护
数据安全:一是保证用户的数据不损坏、不丢失;二是要保证数据不会被泄露或者盗用
大数据营销中的伦理风险:用户隐私、信息不对称下的消费者弱势群体、大数据“杀熟”
大数据伦理困境的成因:
用户隐私意识淡薄
用户未能清晰认知数据价值
企业利益驱使
] 管理机制不够完善
大数据伦理构建的必要性:企业社会责任、用户与社会群体的维系
这些是我按照老师讲的课本上的内容结合PPT总结出来的《大数据营销》的重点。
17年下半年~18年上半年因为与大型咨询公司合作若干次,执行了好几次焦点小组,感觉可以好好写写,先写个框出来,再慢慢调整。
焦点小组概述
焦点小组( Focus Group)是一个主持人面对一组用户,按照访谈提纲进行半结构式的交谈,可理解为对1组用户进行一次集体访谈。
在我们需要搜集个人特定经验及动机态度和情感倾向时,1V1的深度对谈,无疑是最佳的资料收集方式。
当我们对某一有共性特征的群体进行研究时,焦点小组以每次可对谈6-12名用户对超高效率成为首选(这年头项目时间这么紧效率真的很重要了)。这种半自由式的小组讨论,有时候也能对获得意想不到的收获。
焦点小组时长一般在60-90分钟,对主持人对控场能力要求非常高,新手建议从深度访谈开始练习。
2 焦点小组适合研究的主题类型
有前辈谈到这种方法的优势时写道:
“它允许个人提出尝试性的解释,随后其他人可以进行否决;它容许以强凌弱者们将他们自己的观点强加到别人头上;由于人们的爱憎情感,解释被模式化与扭曲化。而这些都是现实生活中经常发生的事情。”
这里写出了焦点小组的缺点,小组中一旦有意见强烈的用户,很容易把整体讨论节奏带偏,所以在选择这种定性研究形式之前,一定要评估研究对题目是否适合做焦点小组。
理论上 焦点小组主要是用于观察某一群体(有共同特征对用户)对某个主题的观点、态度和行为,而不能用于确定用户的个人观点和行为,特别是一些涉及个人隐私的内容。
3 焦点小组执行注意事项
1)用户样本选择
用户样本基本属性趋同,但要有一点小差异。比如同样是中端手机,要有品牌差异。
2)座谈提纲攥写
因为当主持人时,同时要面对6-12名陌生人,带话题聊真的很容易紧张。推荐半结构式焦点小组,手握座谈提纲,胸有成竹。
提纲一般分为:热场、用户基础信息获得、行为和态度探寻、和结尾自由畅想四大部分,注意时间分配。
3)必须的提前排练
提纲写完了,强烈建议找内部用户测试下,一个是做练习,一个是调整方案,同时可以邀请项目相关的人员一起评审下,听听项目成员的建议。
4)高度精神集中的现场执行
现场执行就是要随时控场。明确自己的目的,有选择的对某些话题深入。
5)结束报告攥写(项目有钱可以直接包给咨询公司)
一般焦点小组比较累,但我还是建议回家先写点小结,帮助自己记忆。
与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。
随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。
那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)
以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。
情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。
1 篇章级情感分析
篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。
对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。
例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。
不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。
在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。
2 句子级情感分析
与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。
既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。
但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。
所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。
总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。
句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。
3 属性级情感分析
上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。
为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:
关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。
做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。
具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。
情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。
当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。
但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。
另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。
基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。
第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。
除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。
最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。
构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。
尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。
我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。
首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1
在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。
第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。
当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。
采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。
除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。
随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:
情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。
分析弹幕的目标是数据采集。
对视频中的弹幕进行数据采集与分析,实现如下目标:分析某一视频的用户情感倾向,从评论文本中挖掘出该视频的精彩片段;数据采集。
弹幕,中文流行词语,指的是在网络上观看视频时弹出的评论性字幕。
手机智能化的背后,有一个强大的系统支撑。这个系统往往是由一系列算法和技术构成,能够帮助手机进行数据分析、模式识别、情感分析等,从而更好地了解用户,并根据用户的喜好推荐相关内容。
一、手机如何获取用户数据
手机获取用户数据的方式有很多种,主要可以分为以下几类:
1应用程序数据:手机上安装的各种应用程序会收集用户的使用习惯,例如用户在哪里点击、浏览了哪些内容等。这些应用程序会将这些数据上传到服务器,以便对用户进行更好的定位和推荐。
2网络数据:当用户在移动网络上浏览网页或使用应用程序时,网络数据会收集用户的使用数据,例如用户访问的网站、搜索的内容等。这些数据在用户使用移动服务时被捕获,并经过处理和分析。
3设备数据:移动设备本身也可以提供有关用户的数据,例如设备型号、屏幕分辨率、应用程序使用频率等。这些数据可以帮助开发者更好地了解用户,从而优化用户体验。
二、手机如何分析用户数据
当手机收集了用户数据之后,就要对这些数据进行分析。手机智能化系统分析用户数据的过程主要包括以下步骤:
1数据清洗:将收集到的数据进行清洗和预处理,去除无用的数据或错误数据。
2数据挖掘:使用机器学习和数据挖掘技术,从大量数据中挖掘出用户的行为模式和喜好。例如,可以通过对用户的搜索历史、购物历史、应用程序使用历史等进行分析,得出用户的购买倾向和兴趣爱好。
3情感分析:通过自然语言处理技术对用户的文本和语音进行分析,识别用户对不同事物的情感倾向,例如用户对**、音乐、新闻等的喜好和厌恶。
4行为预测:将用户的历史数据和喜好分析结果,进行预测和推断,推荐可能感兴趣的内容。
三、手机如何推荐内容
当手机了解了用户的喜好之后,就可以开始向用户推荐相关内容了。推荐内容主要分为以下几种:
1内容推荐:根据用户的历史行为和兴趣爱好,推荐相关内容,例如**、音乐、新闻等。
2广告推荐:根据用户的兴趣和行为预测,向用户推荐可能感兴趣的广告。
3社交推荐:根据用户的社交网络和好友推荐相关内容。
4应用程序推荐:推荐应用程序,例如针对用户的旅行需求、健康需求、购物需求等。
四、手机数据使用的隐私问题
虽然手机智能化系统为用户提供了更好的服务和体验,但是也存在一些隐私问题。因为手机需要收集用户的数据,使得用户的隐私信息可能被其他人或者机构得到,包括用户所在地、购买偏好、联系人、日历活动等。而且,有些手机智能化系统的算法和数据处理技术可以收集到大量的用户信息和行为数据,从而使得他们可能在未经用户许可的情况下进行用户画像、精准广告投放等等。
为了保障用户的隐私权,应该加强相关法律和规定,对手机收集和使用用户数据进行监管和规范,明确用户权益和保护用户隐私。同时,用户也应该关注自己的隐私问题,保护自己的个人信息不被不必要的收集和利用。
总之,手机智能化系统通过收集分析、预测和推荐等技术,能够更好地了解用户的兴趣和需求,提供个性化服务和体验。但需要注意的是,手机数据使用的隐私问题需要关注,加强相关管理与规范,才能更好地保障用户的隐私权利。
近年来,大数据不断向世界的各行各业渗透,影响着我们的衣食住行。例如,网上购物时,经常会发现电子商务门户网站向我们推荐商品,往往这类商品都是我们最近需要的。这是因为用户上网行为轨迹的相关数据都会被搜集记录,并通过大数据分析,使用推荐系统将用户可能需要的物品进行推荐,从而达到精准营销的目的。下面简单介绍几种大数据的应用场景。
大数据在医疗行业的应用大数据让就医看病更简单。过去,对于患者的治疗方案,大多数都是通过医师的经验来进行,优秀的医师固然能够为患者提供好的治疗方案,但由于医师的水平不相同,所以很难保证患者都能够接受最佳的治疗方案。
而随着大数据在医疗行业的深度融合,大数据平台积累了海量的病例、病例报告、治愈方案、药物报告等信息资源所有常见的病例、既往病例等都记录在案,医生通过有效、连续的诊疗记录,能够给病人优质、合理的诊疗方案。这样不仅提高医生的看病效率,而且能够降低误诊率,从而让患者在最短的时间接受最好的治疗。下面列举大数据在医疗行业的应用,具体如下。
(1) 优化医疗方案,提供最佳治疗方法。
面对数目及种类众多的病菌、病毒,以及肿瘤细胞时,疾病的确诊和治疗方案的确定也是很困难的。借助于大数据平台,可以搜集不同病人的疾病特征、病例和治疗方案,从而建立医疗行业的病人分类数据库。如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确地定位疾病。在制订治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制订出适合病人的治疗方案,帮助更多人及时进行治疗。同时这些数据也有利于医药行业研发出更加有效的药物和医疗器械。
(2)有效预防预测疾病。
解决患者的疾病,最为简单的方式就是防患于未然。通过大数据对于群众的人体数据监控,将各自的健康数据、生命体征指标都集合在数据库和健康档案中。通过大数据分析应用,推动覆盖全生命周期的预防、治疗、康复和健康管理的一体化健康服务,这是未来健康服务管理的新趋势。当然,这一点不仅需 要医疗机构加快大数据的建设,还需要群众定期去做检查,及时更新数据,以便通过大数据来预防和预测疾病的发生,做到早治疗、早康复。当然,随着大数据的不断发展,以及在各个领域的应用,一些大规模的流感也能够通过大数据实现预测。
大数据在金融行业的应用随着大数据技术的应用,越来越多的金融企业也开始投身到大数据应用实践中。麦肯锡的一份研究显示,金融业在大数据价值潜力指数中排名第一。下面列举若干大数据在金融行业的典型应用,具体如下。
(1) 精准营销。
银行在互联网的冲击下,迫切需要掌握更多用户信息,继而构建用户360立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销。
(2) 风险管控。
应用大数据平台,可以统一管理金融企业内部多源异构数据和外部征信数据,更好地完善风控体系。内部可保证数据的完整性与安全性,外部可控制用户风险。
(3) 决策支持。
通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,从而使经营决策更高效、敏捷、精准。
(4) 服务创新。
通过对大数据的应用,改善与客户之间的交互、增加用户黏性,为个人与政府提供增值服务,不断增强金融企业业务核心竞争力。
(5) 产品创新。
通过高端数据分析和综合化数据分享,有效对接银行、保险、信托、基金等各类金融产品,使金融企业能够从其他领域借鉴并创造出新的金融产品。
大数据在零售行业的应用美国零售业曾经有这样一个传奇故事,某家商店将纸尿裤和啤酒并排放在一起销售,结果纸尿裤和啤酒的销量双双增长!为什么看起来风马牛不相及的两种商品搭配在一起,能取到如此惊人的效果呢后来经过分析发现,这些购买者多数是已婚男士,这些男士在为小孩购买尿不湿的同时,会同时为自己购买一些啤酒。发现这个秘密后,沃尔玛超市就大胆地将啤酒摆放在尿不湿旁边,这样顾客购买的时候更方便,销量自然也会大幅上升。
之所以讲“啤酒-尿布”这个例子,其实是想告诉大家,挖掘大数据潜在的价值,是零售业竞争的核心竞争力,下面列举若干大数据在零售业的创新应用,具体如下。
(1) 精准定位零售行业市场。
企业想进人或开拓某一区域零售行业市场,首先要进行项目评估和可行性分析,只有通过项目评估和可行性分析才能最终决定是否适合进人或者开拓这块市场。通常需要分析这个区域流动人口是多少消费水平怎么样客户的消费习惯是什么市场对产品的认知度怎么样当前的市场供需情况怎么样等等,这些问题背后包含的海量信息构成了零售行业市场调研的大数据,对这些大数据的分析就是市场定位过程。
(2) 支撑行业收益管理。
大数据时代的来临,为企业收益管理工作的开展提供了更加广阔的空间。需求预测、细分市场和敏感度分析对数据需求量很大,而传统的数据分析大多采集的是企业自身的历史数据来进行预测和分析,容易忽视整个零售行业信息数据,因此难免使预测结果存在偏差。企业在实施收益管理过程中如果能在自有数据的基础上,依靠一些自动化信息采集软件来收集更多的零售行业数据,了解更多的零售行业市场信息,这将会对制订准确的收益策略,赢得更高的收益起到推进作用。
(3) 挖掘零售行业新需求。
作为零售行业企业,如果能对网上零售行业的评论数据进行收集,建立网评大数据库,然后再利用分词、聚类、情感分析了解消费者的消费行为、价值取向、评论中体现的新消费需求和企业产品质量问题,以此来改进和创新产品,量化产品价值,制定合理的价格及提高服务质量,从中获取更大的收益。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)