数据分析在商品全生命周期运营的落地

数据分析在商品全生命周期运营的落地,第1张

编辑导读:在互联网+引领的新时代,数据作为驱动的新能源,赋能商品运营,为商品运营带去新动力。本文从对商品运营、数据分析在商品中的营销落地展开陈述,并列举相关分析方法,给读者最真切的阅读体验,一起来看看吧。一、什么是商品运营商品运营是围绕商品做全生命周期的管理,包括开发期、新品期、长大期、成熟期、以及衰退期。在这个过程中,总共分成三个业务单元:企划、供应链、运营。「企划」是根据市场需求、品牌调性、竞品情况来制定新品,并通过包装等营销手段,引导顾客进行场景化消费。「供应链」在这里更多是库存管理、物流发货。当然也是不可或缺的一环,比如配合运营触达玩法,在发货包裹中夹带精准推荐商品卡片等。除此之外的都是「运营」范畴,比如在电商平台配合平台运营根据人群、场景进行选品,跟踪、监控产品表现,及时调整产品定位并匹配安全库存。接下来我们跟踪一款产品的生命周期流程,看它是如何从诞生、到长大、到最后退出舞台的。1开发期——商品企划对于品牌来说,在商品上市前,就需要洞察消费者需求、行业趋势、竞品动态、近期热点等,结合品牌调性,综合考虑后才能选好合适的商品。比如某电视剧开播就上热搜,剧女主DIY手链在B站评论区好评如潮,此时作为珠宝公司的企划判断有较好市场,当即研判该电视剧目标人群符合品牌调性,则着手策划电视剧同款新品。2新品期——种草造势在新品上市前就可以开始到小红书等社区找达人KOL发内容进行种草,或者与跨界品牌联名制造话题吸引关注。当然,根据品牌自身定位、资源,有不同打法:对于成熟品牌:可以利用头部资源引爆话题营销对于人气新锐:可以借流量明星抓牢粉丝破圈而对于大部分的零资源品牌:同样可以通过针对性内容提高种草力3长大期——打造爆品站外的种草造势配合站内新品发售渠道拔草,通过利润折让,把销量冲到榜首,进而拿到更多平台分发的流量,再加上一点运气因素把新品打造成爆品。此时爆品的作用在于补充现金流,同时还能为店铺带来可观的流量。当然不是说爆品就等于引流品,同样也存在高价产品直接能为店铺带来利润。该阶段注意供应链库存的支撑。4成熟期——运营收割此时,除非是具有不可逾越门槛的商品,否则市场竞品都会迅速跟上发布对标新品,品类竞争加剧,销量放缓。为巩固先发者优势,品牌一般会在品类上横纵延伸,衍生出同风格或主题系列。或者通过场景化营销,引导顾客购买爆品的同时,搭配购买其他商品,实现连带销售,进一步挖掘剩余红利。5衰退期——清仓促销可能因为廉价替代品的出现,可能因为IP热度消逝,也可能因为内部结构调整,很多原因都会把商品带到这一阶段,曾经的爆品就不香了,产品逐渐被市场淘汰。挤压在仓库的库存就成了成本费用,需要通过会员赠礼、折价促销等方式进行清空,为下一个爆品腾出空间。二、数据分析在商品运营的落地前面是对单个商品以线性思维讨论生命周期,但是在实际业务会更复杂。因为面对成百上千乃至上万的商品,以及变化迅速的市场行情、竞品招式,人工的思路已经无法满足品牌发展需求,需要借助数据分析的工具,赋能商品运营。开篇时候说商品运营由企划、供应链、运营组成,那数据分析同样是与这三个业务单元配合开展。1企划新品开发其中的一个开端可以是由应对竞品的策略带来的。假设小米发布了可以短距离空间无线充电的手机,大受市场关注,则作为它竞品的华为、OV等品牌为了保住市场会采取措施,发布同样功能新品,或者发布划时代意义的产品降维打击。数据分析在这个过程中,则是通过竞品分析来落地。通过此消彼长的市场份额变化、品类占比、价格趋势、或多指标聚类等分析,洞察竞品在产品上的策略趋势,以提供应对建议。在天猫平台,情报通工具可以获取竞品的单品销售数据。通过对价格与品类交叉分析,发现A品牌的洗发水正往高端发力,B品牌则盘踞低端入门品类,若我司计划开拓洗发水品类,可建议从中端市场介入。接下来再结合分析该市场价位、人群、竞品等维度,给出更具体建议,例如:竞品的爆款分析:是否要从产品风格突破、差异化突破、客单价突破;竞争对手定位:如何超越竞争对手,从营销上突破;主推款的更换突破;店铺促销方案的突破;店铺文案设计的突破;竞争对手推广渠道:竞品是通过什么渠道做的可以,付费、免费、站外、直播、活动。2消费者洞察爆品都是洞察消费者心理的成功案例,比如瞄准年轻人“养生蹦迪”心理,推出“无糖、非碳酸饮料”的元气森林,迅速抢占市场,一跃成为国内的网红饮料品牌。做消费者洞察的渠道主要通过内容社区(如小红书、微博)、APP联盟(基于消费者手机装的app来推断用户画像)、自有数据的平台(如天猫的数据银行)等。这里介绍一种利用社交平台洞察消费者的方法:SocialListening社会化聆听,此方法与做用户研究的VOCVoiceofCustimer用户之声相似,简单来说就是基于社交媒体,通过文本挖掘方法洞察用户的心理。它不仅用于产品企划阶段,在后续的营销传播也大有用处,比如对竞品做声量分析、了解网友对品牌的吐槽并推出解决方案等。知乎的苏格兰折耳喵大神详细介绍了其中一个实践方案,需要一个心理学方法和一个用户动机分析工具实现:1)心理投射分析方法比如以前网易做的荣格心理学测试,就是一种心理投射:不同场景下用户的选择动作,代表着特定的心理暗示。每次的选择都会生成一个标签,最后再结合分析模型从这些用户标签信息中获得情感洞察。2)Censydiam用户动机分析模型马斯洛需求理论是最著名的用户需求分析模型,它将人们的需求分为生理需要、安全需要、社会需要、归属需要、自我实现五个层次。但是马斯洛需求理论存在一个Bug:是否在经济萧条人们温饱(生理需要)受到威胁时,高端品牌(归属需要)就无人问津了呢?答案:不是。例如美国的「口红效应」,在大萧条期间,非必需品的口红销量反而上升,因为它可以对处在困境中的人们起到安慰作用。为了解决马斯洛需求理论的Bug,融合了多个心理学大佬理论的Censydiam用户动机分析模型诞生:它把人们行为动机分成享乐/释放、融合/沟通、服从/归属、舒适/安全、理性/控制、个性/独特、能力/地位、活力/探索,八种。有了方法和工具后,我们来看下如何落地。比如到微博平台洞察小米用户画像:找到最近期最活跃的小米官博认为官博下的粉丝为活跃忠粉,通过工具或爬虫拿到他们的标签,如旅游、美食、数码等将标签映射到Censydiam中,发现主要集中在“享乐/释放”、“活力/探索”、“个性/独特”根据享乐/释放,小米提出“堪比XBOX游戏机”、“双摄像头”等新功能活力/探索,也是MIUI开发版的各种不同玩法、功能尝鲜的印证个性/独特,表示用户追求个性化的用机体验,能有自己DIY的空间3运营打造爆品之测款在新品期,决定对商品长大期投入资源之前,需要让操盘人对商品具有足够的信心。此时,则需要通过测款来降低投入风险。测款的数据分析:针对收藏率、跳失率、停留时间、转化率等关键维度进行一周的数据统计。其中需要回溯爆品的历史数据,找到爆款的魔法数字,比如点击收藏比峰值达到20%的比例,则认为该款极具爆品潜力。商品定位——聚类分群面对成百上千的商品,在资源有限的情况下,需要将商品进行分类,分配不同资源,以形成更具针对性的营销策略、玩法。此时数据分析以指标聚类的形式落地,如帕累托分析、象限分析、波士顿矩阵等。1)单指标聚类——帕累托分析商品的帕累托分析是二八法则的升级应用,找到贡献最多、而数量少的那部分商品作为核心利润品,而其余商品如《长尾理论》那样满足细分人群需要。进而将商品划分为不同策略产品,并采用不同的行动方案提高商品管理效率。如何计算:对评估指标(如销售额、利润等)进行排序;求出每个商品的累计数据;求出每个商品的累计数据占比;对每个商品的累计占比进行等级划分如累计占比<=70%为A类款,累计销售占比在70-90%之间的为B类款,累计销售占比在90-100%之间的为C类款。在实际业务落地过程中,因为数据分析很多时候属于后验型分析,即是在分析已经发生的现状。例如帕累托分析中,以销售额作为评估指标对商品进行划分会存在一个疑问:企业本来就对某款商品投入了大量资源或放到聚划算引流,现在的分析说它属于A类款,也只是企业操盘后的结果,不能对未来产生指导建议。这是单指标聚类最常被业务质疑的点,为了解决这个问题,或者说提供更多信息,就需要进行多指标聚类,其中最出名的就是波士顿矩阵。2)多指标聚类——波士顿矩阵波士顿矩阵用业务增长率和市场份额两个指标进行聚类,形成四种分类,并形成针对性建议:明星商品:高增长率,高市场份额。建议进一步扩大资源投入,扩大竞争优势;金牛商品:低增长率,高市场份额。维持资源投入,保持市场份额;问题商品:高增长率,低市场份额。扩大投入,转成明星商品;瘦狗商品:低增长率,低市场份额。处于衰退期,清仓处理。波士顿矩阵是从大局出发,制定商品的战略发展策略。实际业务中没有市场份额数据,可以用相对市场份额替代,即拿到4-5个竞品数据后,作为大盘,看商品在其中的市场份额占比。用于聚类的指标是根据场景目标选的,通过不同组合满足不同目的。例如业务场景是针对老客推荐商品,翻译过来就是想找出老客偏好的商品做成页面吸引回购,此时可以计算商品的老客TGI指标,与老客销量做指标聚类,对于高老客TGI、高老客销量的商品,就可以认为是老客偏好且有能力吸引回购的商品。此时,除了运营外,供应链也会针对商品所处的位置,采取相应的安全库存策略,以确保爆款产品不会脱销,滞销产品库存不会积压。1)滞销款根据二八原则,一个店铺80%的利润是由20%的商品带来的。那剩余的80%里面,除了平平无奇的商品,必定还存在拖累销售的滞销款。除了前面讲的指标聚类的方式做分类,现行业务以下方式进行判断:打分排名:适用于所有商品,先基于多指标制定排行榜打分标准,在一定的时段后,针对所有商品进行打分,排名最后5%~10%为淘汰对象;销售量/额:适用于单价低的商品,基于历史数据,找出销量/销额的生存线魔法数字,如300个/月,未达此标准的淘汰处理;这个过程中,数据分析师要深入了解业务才能找到数据异动背后的原因。如某商品参加一次直播活动销售数据很差,只通过数据很容易误判它不适合直播。实际上调研后发现是直播当天,因为平台运营设置错误,导致某平台上售价更低,以至于顾客直播看到货都跑去其他平台购买。这时就要运用商品组合分析法,以下是对这种方法的解读:也称为购物篮分析。现在常见的“福袋”就是一种商品组合玩法,目的是为了提高顾客客单,毕竟买两件要比买一件花更多钱。数据分析可以通过购物篮分析在此场景落地,分析不同商品组合的支持度、置信度、提升度,最终给出落地策略。在实际业务落地过程中,分析逻辑会更加丰富:不仅是单品之间的连带,还可以是风格、材质、价格等之间的关联不仅是单次订单的组合,还可以是顾客历史消费的商品组合在应用场景上,不仅是连带推荐,还可以是关联复购推荐目前最常见的关联分析算法是Apriori,理解原理后,通过Python掉包或自行计算,皆可轻松实现。2)销售预测销售预测当商品进入到长大期或成熟期后,已经沉淀了足够的数据可以对未来的销售趋势进行预测。但是事实上,大部分生意中,业绩是干出来的,而不是预测出来的,那为什么还要做销售预测呢?一方面是要帮助供应链在商品库存管理方面更加高效,另一个方面,要做复杂算法模型的意义在于探索影响生意的因子与销售之间的关系,帮助销售目标的制定,或制定完成目标所需的要素条件。在落地的过程中,销售预测模型不仅需要考虑周期性、区域性,还要把业务规律等因素量化进去,或者根据业务场景对模型预测结果进行补偿。否则,高大上的机器学习模型,报告准确率为90%,然而一旦要预测到更细品类就直接凉了。因为对于供应链来说,预测整体销售没有多大意义,他们操作的颗粒度是到SKU,所以模型预测结果起码得到二级分类能用才行。做销售预测的方法比较常见的有:MA移动平均,是许多时间序列预测的基础,通过设定时间窗口大小,计算平均值并推断/预测下一个时间窗口数据;ARIMA模型,它由AR(AutoRegress自回归模型)+I(Integrated差分)+MA(移动平均)组成,或者说ARIMA模型的拟合序列=周期序列+趋势序列+残差序列。看起来比较复杂但是不难理解,建议可以到知乎深入学习;Prophet模型,Facebook出的、比前两者更复杂的时间序列预测模型,但是它反而因为融入了更多业务因素(如季节),更具备可解释性,上手也不难;以及其他机器学习模型,如回归算法、XGBoost等,但这些实操效果发现,要做到高准确率,需要花费更大的功夫,还有头发的话就可以抓紧再学习。3)流量拆解预测销售除了以上方法外,诸如天猫等自有流量体系的电商平台还能根据流量的转化公式计算预期销售额。天猫618大促前,根据去年同期流量及近180天流量数据、转化率、结合品牌私域用户策略数据,可以得出618销售目标,并给出各流量渠道的投入预算。对于品牌来说,费用的投入就有了预期收入作依据。4)库存分析商品供应链另一大块的分析则是库存分析,分析指标包括:库存量、库销比、周转率、售罄率、齐码率、品类占比等。三、结尾在互联网+引领的新时代,数据作为驱动的新能源,同样衍生出“数据分析+”。数据分析+用户运营、数据分析+商品运营等,都是在用与传统方法不一样的数据思维来操盘,但这不意味着可以脱离业务只看数据。相反,本文多处都在强调融入业务做数据分析的重要性。如果你对商品运营有不同的看法,或者哪部分想深入了解,欢迎留言讨论~

1、 语言的起源 一是,神授说 二是,人创说:人创说的各种学说的主张语言是人的创造,而不是上帝或是神的赐予,这比起神授说,应该说是一个很大的进步。恩格斯在<劳动在从猿到人的转变过程中的作用>一文中,提出了劳动创造语言,语言起源于劳动的观点。

2、 (1)语言是不断发展演变的。(2)语言发展演变的原因 A社会的进步会推动语言的发展。B 社会的分化和统一会推动语言的发展演变 C 社会之间的接触也会推动语言的发展演变。 从根本上讲,语言的存在和发展是受社会制约的,社会交际的需要时语言存在和发展的基本条件,但这并不意味着一种语言中的每一项具体演变和发展都有其直接的社会根源。在古代汉语中单音节词是构词的主要的模式,可是发展到现代汉语,词汇中的词大都是双音节的,双音节词成了汉语的主要构词模式。 语言是用来表达思想、交流信息的符号系统,它必须能够利用自身的形式手段把不同的意义区别开来,达到表意的明确性。古代汉语中原本单音节词占优势,当时汉语的语音系统比较复杂,因而这些单音节词之间可以保持有效地区别。(3)语言发展演变的特点:渐变性和不平衡性是语言演变发展的两大特点。

第二节 语言的分化和统一

1、 语言随社会的分化而分化 在一定的社会政治历史条件下还可能使一种语言的方言成为不同的“亲属语言”;社会的社群分化会导致语言的社群分化,在一种语言或方言内部形成不同的“社会方言”。从同一种语言中分化出来的各个语言,叫做“亲属语言”亲属语言有共同的来源,这些语言之间具有历史同源关系,这种关系被称作亲属关系。世界上的诸语言按其亲属关系大致可以分为汉藏语系、印欧语系、乌拉尔语系、阿尔泰语系、闪含语系、达咯昆荼语系、马来---波利尼西亚语系、南亚语系九大语系以及其他一些语群和语言,汉藏语系和印欧语系是使用人数最多的两个语系。

2、 社会方言 在一个语言社会中,不同的人说话可能会使用不同的语言变体二呈现出不同的特点这些不同的语言变体和特点又同说话人的社会特征相关联,同一定的社群联系在一起,这种语言或地域方言内部同一定的社会特征和社群相关联的变体和特点被称之为“社会方言”。A阶级和阶层的差别会对语言产生影响 B职业的差别也会对语言产生影响C年龄的差别也可能对语言产生影响D 性别的不同也可能在一定的程度上影响语言。

3、 语言随社会的统一而统一 一种语言的共同语并不是凭空产生的,而是在某一个方言的基础上形成的

第三节 “双语现象”是指某一语言社团使用两种或多种语言的社会现象。

“语言转化”是随着不同的民族的接触和融合而产生的一种重要的语言现象,指的是一个民族的全体或部分成员放弃使用本民族语言而转用另一民族语言的现象,也有人称之为“语言交替”。

语言混合的形式有“洋泾浜语”和“克里奥耳语”。 洋泾浜语产生之后,它的命运主要由社会环境的变迁和社会交际的需求来决定。其发展前途有两个:一个是随着社会交际环境的变迁而消亡,一个是在社会交际需求的推动下,发展为克里奥耳语,成为一个国家或一个地区通用的交际工具。

第四节 语言规划 社会对语言文字问题所作出的有组织的、有意识的管理、调节和改进,被称之为‘语言规划’

官方语言的选择 从理论上说,选择官方语言应该充分考虑到本国,本民族的或本国各民族的长远利益,应该选用国内多数人使用的语言,或是国内经济文化发展水平较高因而较有影响的民族的语言。

民族语言政策 主要是关于一个国家内部少数民族语言的政策,

1、 少数民族语言文字的法律地位 各民族的公民都有用本民族语言进行诉讼的权利。

2、 少数民族的语言教育 少数民族的语言教育涉及两个方面:一是少数民族是否有接受本民族语言教育的权利。二是,少数民族在各级教育机构中使用哪一种语言来接受教育。我国现在在少数民族教育方面实行双语政策,一方面保障各少数民族学习本民族语言文字的权利,一方面推行全国通行普通话。

第八章 语言和心理

语言是思维的最重要的工具

先有思维还是先有语言一种意见认为,思维和语言有各自的发展过程,二者不是一回事,也没有多少关系,甚至语言出现后还干扰了纯正的思维。第二种意见认为,语言和思维同时发生,而且由于坚持思维只能在语言的基础上才能进行,所以如果一定要分出先后,那么甚至应该先有语言然后才有思维。与上面两种意见都不同的第三种意见则认为思维是先于语言发生的,虽然语言出现后形成了思维的主要工具,但语言出现前人类就有了思维,甚至知道出现语言之后也存在着不需要语言参与的思维活动。主张第三种意见的主要是自然学家,而且他们都更多地采用了科学实验的方法。这些科学实验不但从生物学,生理学,心理学,病理学等很多方面,进一步充分证明了人的思维在很大程度上必须借助语言来进行,同时也提供了思维有先于语言而产生和脱离语言而存在的更客观的证据。这其中值得注意的主要有3方面的研究成果:一是从人类的系统发生学。二是从人类的个体发生学。三是从大脑受到损伤,丧失了语言能力或思维能力的病理现象。 目前在思维和语言的起源产生问题上比较倾向于一致的观点是:一方面承认语言与思维却是密不可分,至少在语言出现以后它是人类思维的最主要的工具;另一方面又承认人类的思维可能先于语言产生,或是说人类是先有思维后有语言的。

思维的三大类型:一类是‘感性思维’二类是‘抽象思维’三类是‘发散思维 ’

在思维和语言的范围和功能对应问题上比较倾向于一致的观点是:人类的思维活动有不同的类型,其中抽象思维是必须借助语言进行的思维活动,抽象思维以外的其他思维活动;如感性思维和发散思维不一定需要语言参加,但语言也在这些思维活动中起作用。

目前在语言和思维的地位作用的问题上比较一致的观点是:在语言和思维的关系中,思维起主导作用,思维决定语言。语言虽然对思维活动有一定的影响,但不能无限夸大这种影响,语言也不能最终决定人的思维发生和思维活动。

心里语言学就是研究这种大脑构造和语言能力的关系问题。人会说话是一种自然而然的获得过程,甚至是一种创造过程。儿童学会说话,特别是学会自己母语的这种过程,心理学的术语叫做‘语言获得’大脑左半球掌管右半身的动作,大脑右半球掌管左半身的动作。

‘单侧化’的意思是,人的大脑左右两个半球并不是完全对称的,不但大小略有差别,而且有明确的分工,即左半球的一定部位掌管语言和抽象的思维活动;而右半球的一定部位掌管与语言无关的直观动作的思维活动。

‘失语症’因大脑不同部位受到损失而造成的语言障碍系统。

‘失写症’不能写过去认识的字,或者写出来的也是乱七八糟的。

‘失读症’不能读懂本来可以阅读的书面材料。

‘临界期’的意思是,不管是大脑的单侧化,大脑左半球的分区,还是语言的遗传机制,都只是提供人具有语言能力的潜在可能性,但这些潜能必须在一定期限内被一定的语言环境激活才可能起作用,否则大脑的语言功能就会失效。人也就不会说话了。如果过了十二至十三岁的青春期,左右半球的功能已经定型,那时左半球再受损伤,丧失的语言能力就很难恢复了。

大脑的语言功能确实有一部分是先天的,只要经过某种后天学习,不管是有声语言环境还是手势语环境,都有可能激活大脑的这种功能,并进而使人具有完备的语言能力,或者是有声语的语言能力,或者是手势语的语言能力。而后天的各种语言学习则必须发生在临界期内,否则不但单靠遗传的语言机制是不可能发展成为完备的语言能力,这种先天机制本身也会失去作用。

儿童语言获得的过程1、非自控阶段 婴儿出生到一岁左右就属于语言前阶段,或叫语言准备阶段。其中前6个月就是非自控阶段。2、咿呀学语阶段 儿童大约6个月到一岁左右是语言前阶段中的咿呀学语阶段。3、单词阶段 儿童一岁左右就进入了真正的语言阶段,也就是能开口说话了。4双词阶段 儿童一岁半到两岁的时候开始进入了双词阶段、5、简单句阶段 儿童在两岁或两岁半就进入了多个实词连接的简单句阶段。6复杂句阶段

儿童获得语言的原因和条件 1、模仿说。2、强化说。3、天赋说。4、认知说、

儿童语言获得倾向一致的看法可以归纳为以下几点:一是儿童的语言发展肯定具有先天的生物学基础,特别是大脑的语言功能或语言遗传机制起着决定性的作用;二是语言环境是儿童获得语言的必须条件;三是儿童的认知能力的发展影响儿童的语言获得,其中包括知识积累的阶段性和智力发展的差异性也都有一定的作用。

语言在思维认知活动中的作用表现在3个方面:一是语言可以帮助完成人的认知过程,二是语言可以储存人的认知成果,三是语言可以改造人的认知能力。

语言和民族文化意识1、语言是重要的米民族标志,可以体现民族精神2、语言有鲜明的民族特点,可以反映民族的文化

整理了各类场景应用中AI算法

一、图像CV

内容安全,目标检测,图像识别,智能视觉生产,图像搜索,图像分割,物体检测,图像分类,图像标签,名人识别,概念识别,场景识别,物体识别,场景分析,智能相册,内容推荐,图库管理,网红人物识别,明星人物识别,图像搜索,商品搜索,版权搜索,通用搜索,车牌识别,垃圾分类,车辆检测,菜品识别,车型识别,犬类识别,实例分割,风格迁移,智能填充,智能识图,拍照搜商品,精准广告投放,电商导购,图像分析,图像理解,图像处理,图像质量评估,场景识别,物体识别,场所识别,图像自训练平台,图像分类,目标检测,图像分割,关键点检测,图像生成,场景文字识别,度量学习,图像识别,图像比对,图像分类使用手册,图像分类API文档目标检测使用手册,目标检测API文档Logo检测使用手册,Logo检测API文档,通用搜索,车牌识别,垃圾分类,车辆检测,车型识别,犬类识别,实例分割,风格迁移,智能填充,车牌识别,相册聚类,场景与物体识别,无限天空,图像识别引擎,**识别,暴力图像识别,工业轮胎智能检测,肋骨骨折识别,显微识别,图像处理,广告识别,人脸算法,人体算法,图像识别,图像增强,OCR,图像处理,ZoomAI,智能贴图,智能制作,质量评价,图像识别,智能鉴黄,图像识别,实时手写识别,唇语识别,通用文字识别,手写文字识别,图像技术,图像识别,图像审核,图像搜索,图像增强,图像特效,车辆分析,图像生成,绘画机器人独家,动漫化身独家,像素风独家,超清人像独家,图像融合,换脸技术,神奇变脸,图像风格化,证件照生成,线稿图像识别,宝宝检测,图像分类,圉像深度估计,天空分割,食物分割,猫狗脸技术,食物识别独家,图像美学评分,车辆分析,车型识别,车型识别(含指导价),车型识别(含配置参数),车标识别,人脸识别(活体),车牌识别,表情识别,安全帽识别,计算机影像,计算机视觉,聚焦光学字符识别、人脸识别、质检、感知、理解、交互,图像视频分析,Logo检测,内容审核,智能批改,笔记评估,思维导图评估,物体检测,物体识别。

二、人脸、体态、眼瞳、声音、指纹

人脸分割人脸识别,无,人体分析HAS,识别人的年龄,性别,穿着信息,客流统计分析,智能客服,热点区域分析,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,换脸甄别,人脸支付,人脸核身,人像变换,人脸试妆,人脸融合,人体分析,手势识别,人脸验证与检索,人脸比对,人脸比对sensetime,人脸水印照比对,静默活体检测,静默活体检测sensetime,人脸检测和属性分析,人脸特征分析tuputech,配合式活体检测,人脸安防,计算机视觉,智能应用服务,人脸查询人脸分析人脸统计名单库管理人脸布控,人脸应用,人体应用,人体查询,车辆查询车辆分析车辆统计车辆布控车辆名单库管理,车辆应用,人脸图像识别人体图像识别车辆图像识别,图像识别,图像比对,人脸比对,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,人脸检测,人脸比对,人脸搜索,人脸关键点,稠密关键点,人脸属性,情绪识别,颜值评分,视线估计,皮肤分析,3D人脸重建,面部特征分析人体识别,人体检测,人体关键点,人体抠像,人体属性,手势识别人像处理,美颜美型,人脸融合,滤镜,声纹识别支付,语音合成,语音合成,声纹识别,语音唤醒,人脸识别引擎,摄像头人脸识别,人脸检测,身份识别,人脸识别,人脸属性,人体识别,声纹识别,衣服检索及聚类,语音分析,声纹识别,说话人归档,人脸和人体识别,人脸检测,手势识别,人脸与人体识别,人脸识别云服务,人脸识别私有化,人脸离线识别SDK,人脸实名认证,人像特效,人体分析,人脸技不,皮肤分析独家,头部分割,宏观人脸分析,人脸关键点检测,微观人脸分析独家,头发分析独家,五官分割,头发分割人体技术,人体外轮廓点检测独家,精细化人像抠图,人体框检测,肢体关键点检测,人像分割,服饰识别,手势识别,皮肤分割,人脸,说话人识别,人脸检测识别,人脸1:1比对,人脸检测,AI人脸/人形车辆,大数据人像防伪,QoS保障,CDN,表情识别,举手动作识别,人脸检测,网络切片,边缘计算,人脸分析,人脸检测,人脸搜索,人体分析,手势识别,着装检测,人脸识别,行为检测,人脸识别,人形检测,行为分析,人脸检测,人脸跟踪,人脸比对,人脸查找,人脸属性分析,活体检测,声音指纹,声纹识别。

三、视频

视频分割、视频处理、视频理解、智能视觉、多媒体,视频内容分析,人体动作监控,视频分类,智能交通,人/动物轨迹分析,目标计数,目标跟踪,视频编辑-,精彩片段提取,新闻视频拆分,视频摘要,视频封面,视频拆条,视频标签-,视频推荐,视频搜索,视频指纹-,数字版权管理,广告识别,视频快速审核,视频版权,视频查重,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,无,无,视频,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,菜品识别,视频识别引擎,结肠息肉检测,胃镜评估系统,视频标签,场景识别,客流分析,手势识别,视频技术,短视频标签,视觉看点识别,动态封面图自动生成,智能剪辑,新闻拆条,智能插帧,视频技术,多模态媒资检索公测中,媒体内容分析,媒体内容审核,视频生成,视频动作识别,

四、ocr文字识别

手写识别,票据识别,通用文档,通用卡证,保险智能理赔,财税报销电子化,证照电子化审批,票据类文字识别,行业类文字识别,证件类文字识别,通用类文字识别,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,增值税发票核验,营业执照核验,智能扫码,行业文档识别, 汽车 相关识别,票据单据识别,卡证文字识别,通用文字识别,手写文字识别,印刷文字识别,银行卡识别,名片识别,身份证识别intsig,营业执照识别intsig,增值税发票识别intsig,拍照速算识别,公式识别,指尖文字识别,驾驶证识别JD,行驶证识别JD,车牌识别JD,身份证识别,增值税发票识别,营业执照识别,火车票识别,出租车发票识别,印刷文字识别(多语种),印刷文字识别(多语种)intsig内容审核,色情内容过滤,政治人物检查,暴恐敏感信息过滤,广告过滤,OCR自定义模板使用手册,OCR自定义模板API文档,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,身份证识别,驾驶证识别,行驶证识别,银行卡识别,通用文字识别,自定义模板文字识别,文字识别引擎,身份证识别,文字识别,通用文字识别,身份证识别,名片识别,光学字符识别服务,通用文字识别,手写体文字识别,表格识别,整题识别(含公式),购物小票识别,身份证识别,名片识别,自定义模板文字识别,文字识别,通用文字识别,银行卡识别,身份证识别,字幕识别,网络识别, 游戏 直播关键字识别,新闻标题识别,OCR文字识别,通用场景文字识别,卡证文字识别,财务票据文字识别,医疗票据文字识别, 汽车 场景文字识别,教育场景文字识别,其他场景文字识别,iOCR自定义模板文字识别,通用类OCR,通用文本识别(中英)通用文本识别(多语言)通用表格识别,证照类OCR,身份证社保卡户口本护照名片银行卡结婚证离婚证房产证不动产证,车辆相关OCR,行驶证驾驶证车辆合格证车辆登记证,公司商铺类OCR,商户小票税务登记证开户许可证营业执照组织机构代码证,票据类OCR,增值税发票增值税卷票火车票飞机行程单出租车发票购车发票智能技术,票据机器人证照机器人文本配置机器人表格配置机器人框选配置机器人,文字识别,行驶证识别,驾驶证识别,表单识别器,通用文本,财务票据识别,机构文档识别,个人证件识别,车辆相关识别,通用表格,印章识别,财报识别,合同比对,识别文字识别,签名比对,OCR识别,教育OCR,印刷识别,手写识别,表格识别,公式识别,试卷拆录

五、自然语言NPL

文本相似度,文本摘要,文本纠错,中心词提取,文本信息抽取,智能文本分类,命名实体,词性标注,多语言分词,NLP基础服务,地址标准化,商品评价解析智能短信解析,机器阅读理解,金融研报信息识别,法律案件抽取,行业问答推理,行业知识图谱构建,文本实体关系抽取,搜索推荐,知识问答,短文本相似度,文本实体抽取, 情感 倾向分析,兴趣画像匹配,文本分类-多标签,文本分类-单标签,定制自然语言处理,语言生成,语言理解,自然语言处理基础,文本摘要,数据转文字,文本生成,智能问答系统,内容推荐,评价分析,文本分类,对话理解,意图理解, 情感 分析,观点抽取,中文分词,短文本相似度,关键词提取,词向量,命名实体,识别依存,句法分析, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取,词法分析, 情感 分析,关键词提取,用户评论分析,资讯热点挖掘,AIUI人机交互,文本纠错,词法分析,依存句法分析,语义角色标注,语义依存分析(依存树),语义依存分析(依存图), 情感 分析,关键词提取,NLP能力生产平台,NLP基础技术,中文词法分析-LAC,词向量—Word2vec,语言模型—Language_model,NLP核心技术, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,信息检索、新闻推荐、智能客服, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,机器问答、自然语言推断、 情感 分析和文档排序,NLP系统应用,问答系统对话系统智能客服,用户消费习惯理解热点话题分析舆情监控,自然语言处理,文本分类使用手册,文本分类API文档, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取智能创作,智能写作,搭配短文,种草标题,卖点标题,社交电商营销文案,自然语言处理能力,基础文本分析,分词、词性分析技术,词向量表示,依存句法分析,DNN语言模型,语义解析技术,意图成分识别, 情感 分析,对话情绪识别,文本相似度检测,文本解析和抽取技术,智能信息抽取,阅读理解,智能标签,NLG,自动摘要,自动写文章,语言处理基础技术,文本审核, 情感 分析,机器翻译,智能聊天,自然语言,基于标题的视频标签,台词看点识别,意图识别,词法分析,相关词,舆情分析,流量预测,标签技术,自然语言处理,语义对话,自然语言处理,车型信息提取,关键词提取,语义理解,语义相似度,意图解析,中文词向量,表示依存,句法分析,上下文理解,词法分析,意图分析,情绪计算,视觉 情感 ,语音 情感 , 情感 分析,沉浸式阅读器,语言理解,文本分析,自然语言处理,在线语音识别,自然语言理解火速上线中, 情感 判别,语义角色标注,依存句法分析,词性标注,实体识别,中文分词,分词,

6、知识图谱

知识图谱,药学知识图谱,智能分诊,腾讯知识图谱,无,药学知识图谱,智能分诊,知识理解,知识图谱Schema,图数据库BGraph,知识图谱,语言与知识,语言处理基础技术,语言处理应用技术,知识理解,文本审核,智能对话定制平台,智能文档分析平台,智能创作平台,知识图谱,实体链接,意图图谱,识别实体,逻辑推理,知识挖掘,知识卡片

7、对话问答机器人

智能问答机器人,智能语音助手,智能对话质检,智能话务机器人,无,电话机器人,NeuHub助力京东智能客服升级,腾讯云小微,智能硬件AI语音助手,对话机器人,无,问答系统对话系统智能客服,Replika对话技术,客服机器人,智能问答,智能场景,个性化回复,多轮交互,情绪识别,智能客服,金融虚拟客服,电话质检,AI语音交互机器人,中移云客服·智能AI外呼,人机对话精准语义分析

8、翻译

协同翻译工具平台,电商内容多语言工具,文档翻译,专业版翻译引擎,通用版翻译引擎,无,机器翻译,无,机器翻译,音视频字幕平台,机器翻译,机器翻译niutrans,文本翻译,语音翻译,拍照翻译,机器翻译,机器翻译,文本翻译,语音翻译,通用翻译,自然语言翻译服务,文本翻译,翻译,语音翻译,实时语音翻译,文档翻译(开发版,机器翻译,文本翻译,语音翻译,拍照翻译,机器翻译实时长语音转写,录音文件长语音转写,翻译工具,机器翻译火速上线中

9、声音

便携智能语音一体机,语音合成声音定制,语音合成,一句话识别,实时语音识别录音文件识别,客服电话,语音录入,语音指令,语音对话,语音识别,科学研究,安防监控,声音分类,语音合成,语音识别,实时语音转写,定制语音合成,定制语音识别,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,语音识别,语音合成,声纹识别,语音识别,语音听写,语音转写,实时语音转写,语音唤醒,离线命令词识别,离线语音听写,语音合成,在线语音合成,离线语音合成,语音分析,语音评测,性别年龄识别,声纹识别,歌曲识别,AI客服平台能力中间件,语音识别,语音交互技术,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,远场语音识别,语音识别,一句话识别,实时语音识别,录音文件识别,语音合成,实时语音识别,长语音识别,语音识别,语音合成,波束形成,声源定位,去混响,降噪,回声消除,分布式拾音,语音识别,语音唤醒,语音合成,声纹识别,智能语音服务,语音合成,短语音识别,实时语音识别,语音理解与交互,离线唤醒词识别,语音识别,一句话识别,实时语音识别,录音文件识别,电话语音识别,语音唤醒,离线语音识别,离线命令词识别,远场语音识别,语音合成,通用语音合成,个性化语音合成,语音技术,短语音识别,实时语音识别,音频文件转写,在线语音合成,离线语音合成,语音自训练平台,语音交互,语音合成,语音识别,一句话识别,实时短语音识别,语音合成,语音唤醒,本地语音合成,语音翻译,语音转文本,短语音听写,长语音转写,实时语音转写,语音内容审核,会议超极本,语音交互技术,语音识别,语义理解,语音合成,音频转写,音视频类产品,语音通知/验证码,订单小号,拨打验证,点击拨号,数据语音,统一认证,语音会议,企业视频彩铃,语音识别,语音文件转录,实时语音识别,一句话语音识别,语音合成,通用语音合成,个性化语音合成,语音评测,通用语音评测,中英文造句评测,在线语音识别,语音识别,语音唤醒,语音合成,语音合成,语音识别,语音听写,语音转写,短语音转写(同步),语音识别,语音 情感 识别

十、数据挖掘AI硬件

算法类型:包括二分类、多分类和回归,精准营销,表格数据预测,销量预测,交通流量预测,时序预测,大数据,无,机器学习使用手册,机器学习API文档,大数据处理,大数据传输,数据工厂,大数据分析,数据仓库,数据采集与标注,数据采集服务,数据标注服务,AI开发平台,全功能AI开发平台BML,零门槛AI开发平台EasyDL,AI硬件与平台,GPU云服务器,机器人平台,度目视频分析盒子,度目AI镜头模组,度目人脸应用套件,度目人脸抓拍机,人脸识别摄像机,昆仑AI加速卡,智能预测,购车指数,数据科学虚拟机,平台效率,云与AI,抗DDoS,天盾,网站漏洞扫描,网页防篡改,入侵检测防护,弹性云服务器,对象存储服务,云专线(CDA,AI计算机平台—360net深度学习基础模型,AI算法训练适配主流AI框架

十一、其他

内容审核,智能鉴黄,特定人物识别,通用审核,文本智能审核,广告检测,Logo检测,商品理解,拍照购,商品搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,强化学习,智能地图引擎,内容审核,智能鉴黄,特定人物识别,通用审核,文本智能审核,广告检测,Logo检测商品理解,拍照购,商品搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,个性化与推荐系统,推荐系统,舆情分析,舆情标签,智慧教育,智能语音评测,拍照搜题,题目识别切分,整页拍搜批改,作文批改,学业大数据平台,文档校审系统,会议同传系统,文档翻译系统,视频翻译系统,教育学习,口语评测,朗读听书,增强现实,3D肢体关键点SDK,美颜滤镜SDK,短视频SDK,基础服务,私有云部署,多模态交互,多模态 情感 分析,多模态意图解析,多模态融合,多模态语义,内容审查器,Microsoft基因组学,医学人工智能开放平台,数据查验接口,身份验证(公安简项),银行卡验证,发票查验,设备接入服务Web/H5直播消息设备托管异常巡检电话提醒,音视频,视频监控服务云广播服务云存储云录制,司乘体验,智能地图引擎,消息类产品,视频短信,短信通知/验证码,企业挂机彩信,来去电身份提示,企业固话彩印,模板闪信,异网短信,内容生产,试卷拆录解决方案,教学管理,教学质量评估解决方案,教学异常行为监测,授课质量分析解决方案,路况识别,人车检测,视觉SLAM,高精地图,免费SDK,智能诊后随访管理,用药管家,智能预问诊,智能导诊,智能自诊,智能问药,智能问答,裁判文书近义词计算,法条推荐,案由预测,

写在最前面:本文内容主要来自于书籍《推荐系统实践》和《推荐系统与深度学习》。

推荐系统是目前互联网世界最常见的智能产品形式。从电子商务、音乐视频网站,到作为互联网经济支柱的在线广告和新颖的在线应用推荐,到处都有推荐系统的身影。推荐算法是推荐系统的核心,其本质是通过一定的方式将用户和物品联系起来,而不同的推荐系统利用了不同的方式。

推荐系统的主要功能是以个性化的方式帮助用户从极大的搜索空间中快速找到感兴趣的对象。因此,目前所用的推荐系统多为个性化推荐系统。个性化推荐的成功应用需要两个条件:

在推荐系统的众多算法中,基于协同的推荐和基于内容的推荐在实践中得到了最广泛的应用。本文也将从这两种算法开始,结合时间、地点上下文环境以及社交环境,对常见的推荐算法做一个简单的介绍。

基于内容的算法的本质是对物品内容进行分析,从中提取特征,然后基于用户对何种特征感兴趣来推荐含有用户感兴趣特征的物品。因此,基于内容的推荐算法有两个最基本的要求:

下面我们以一个简单的**推荐来介绍基于内容的推荐算法。

现在有两个用户A、B和他们看过的**以及打分情况如下:

其中问好()表示用户未看过。用户A对《银河护卫队 》《变形金刚》《星际迷航》三部科幻**都有评分,平均分为 4 7 分 ( (5+4+5 ) / 3=47 );对《三生三世》《美人鱼》《北京遇上西雅图》三部爱情**评分平均分为 23 分 ( ( 3十2+2 ) /3=23 )。现在需要给A推荐**,很明显A更倾向于科幻**,因此推荐系统会给A推荐独立日。而对于用户B,通过简单的计算我们可以知道更喜欢爱情**,因此给其推荐《三生三世》。当然,在实际推荐系统中,预测打分比这更加复杂些,但是其原理是一样的。

现在,我们可以将基于内容的推荐归纳为以下四个步骤:

通过上面四步就能快速构建一个简单的推荐系统。基于内容的推荐系统通常简单有效,可解释性好,没有物品冷启动问题。但他也有两个明显的缺点:

最后,顺便提一下特征提取方法:对于某些特征较为明确的物品,一般可以直接对其打标签,如**类别。而对于文本类别的特征,则主要是其主题情感等,则些可以通过tf-idf或LDA等方法得到。

基于协同的算法在很多地方也叫基于邻域的算法,主要可分为两种:基于用户的协同算法和基于物品的协同算法。

啤酒和尿布的故事在数据挖掘领域十分有名,该故事讲述了美国沃尔玛超市统计发现啤酒和尿布一起被购买的次数非常多,因此将啤酒和尿布摆在了一起,最后啤酒和尿布的销量双双增加了。这便是一个典型的物品协同过滤的例子。

基于物品的协同过滤指基于物品的行为相似度(如啤酒尿布被同时购买)来进行物品推荐。该算法认为,物品A和物品B具有很大相似度是因为喜欢物品A的用户大都也喜欢物品B。

基于物品的协同过滤算法主要分为两步:

基于物品的协同过滤算法中计算物品相似度的方法有以下几种:

(1)基于共同喜欢物品的用户列表计算。

此外,John S Breese再其论文中还提及了IUF(Inverse User Frequence,逆用户活跃度)的参数,其认为活跃用户对物品相似度的贡献应该小于不活跃的用户,应该增加IUF参数来修正物品相似度的公式:

上面的公式只是对活跃用户做了一种软性的惩罚, 但对于很多过于活跃的用户, 比如某位买了当当网80%图书的用户, 为了避免相似度矩阵过于稠密, 我们在实际计算中一般直接忽略他的兴趣列表, 而不将其纳入到相似度计算的数据集中。

(2)基于余弦相似度计算。

(3)热门物品的惩罚。

从上面(1)的相似度计算公式中,我们可以发现当物品 i 被更多人购买时,分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都会增长。对于热门物品,分子 N(i) ∩ N(j) 的增长速度往往高于 N(i),这就会使得物品 i 和很多其他的物品相似度都偏高,这就是 ItemCF 中的物品热门问题。推荐结果过于热门,会使得个性化感知下降。以歌曲相似度为例,大部分用户都会收藏《小苹果》这些热门歌曲,从而导致《小苹果》出现在很多的相似歌曲中。为了解决这个问题,我们对于物品 i 进行惩罚,例如下式, 当α∈(0, 05) 时,N(i) 越小,惩罚得越厉害,从而使热门物品相关性分数下降( 博主注:这部分未充分理解 ):

此外,Kary pis在研究中发现如果将ItemCF的相似度矩阵按最大值归一化, 可以提高推荐的准确率。 其研究表明, 如果已经得到了物品相似度矩阵w, 那么可以用如下公式得到归一化之后的相似度矩阵w':

归一化的好处不仅仅在于增加推荐的准确度,它还可以提高推荐的覆盖率和多样性。一般来说,物品总是属于很多不同的类,每一类中的物品联系比较紧密。假设物品分为两类——A和B, A类物品之间的相似度为05, B类物品之间的相似度为06, 而A类物品和B类物品之间的相似度是02。 在这种情况下, 如果一个用户喜欢了5个A类物品和5个B类物品, 用ItemCF给他进行推荐, 推荐的就都是B类物品, 因为B类物品之间的相似度大。 但如果归一化之后, A类物品之间的相似度变成了1, B类物品之间的相似度也是1, 那么这种情况下, 用户如果喜欢5个A类物品和5个B类物品, 那么他的推荐列表中A类物品和B类物品的数目也应该是大致相等的。 从这个例子可以看出, 相似度的归一化可以提高推荐的多样性。

那么,对于两个不同的类,什么样的类其类内物品之间的相似度高,什么样的类其类内物品相似度低呢?一般来说,热门的类其类内物品相似度一般比较大。如果不进行归一化,就会推荐比较热门的类里面的物品,而这些物品也是比较热门的。因此,推荐的覆盖率就比较低。相反,如果进行相似度的归一化,则可以提高推荐系统的覆盖率。

最后,利用物品相似度矩阵和用户打过分的物品记录就可以对一个用户进行推荐评分:

基于用户的协同算法与基于物品的协同算法原理类似,只不过基于物品的协同是用户U购买了A物品,会计算经常有哪些物品与A一起购买(也即相似度),然后推荐给用户U这些与A相似的物品。而基于用户的协同则是先计算用户的相似性(通过计算这些用户购买过的相同的物品),然后将这些相似用户购买过的物品推荐给用户U。

基于用户的协同过滤算法主要包括两个步骤:

步骤(1)的关键是计算用户的兴趣相似度,主要是利用用户的行为相似度计算用户相似度。给定用户 u 和 v,N(u) 表示用户u曾经有过正反馈(譬如购买)的物品集合,N(v) 表示用户 v 曾经有过正反馈的物品集合。那么我们可以通过如下的 Jaccard 公式简单的计算 u 和 v 的相似度:

或通过余弦相似度:

得到用户之间的相似度之后,UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户 u 对物品 i 的感兴趣程度:

首先回顾一下UserCF算法和ItemCF算法的推荐原理:UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品, 而ItemCF给用户推荐那些和他之前喜欢的物品具有类似行为的物品。

(1)从推荐场景考虑

首先从场景来看,如果用户数量远远超过物品数量,如购物网站淘宝,那么可以考虑ItemCF,因为维护一个非常大的用户关系网是不容易的。其次,物品数据一般较为稳定,因此物品相似度矩阵不必频繁更新,维护代价较小。

UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点,而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说,UserCF的推荐更社会化,反应了用户所在小型兴趣群体中物品的热门程度,而ItemCF的推荐更加个性化,反应了用户自己的个性传承。因此UserCF更适合新闻、微博或微内容的推荐,而且新闻内容更新频率非常高,想要维护这样一个非常大而且更新频繁的表无疑是非常难的。

在新闻类网站中,用户的兴趣爱好往往比较粗粒度,很少会有用户说只看某个话题的新闻,而且往往某个话题也不是每天都会有新闻。 个性化新闻推荐更强调新闻热点,热门程度和时效性是个性化新闻推荐的重点,个性化是补充,所以 UserCF 给用户推荐和他有相同兴趣爱好的人关注的新闻,这样在保证了热点和时效性的同时,兼顾了个性化。

(2)从系统多样性(也称覆盖率,指一个推荐系统能否给用户提供多种选择)方面来看,ItemCF的多样性要远远好于UserCF,因为UserCF更倾向于推荐热门物品。而ItemCF具有较好的新颖性,能够发现长尾物品。所以大多数情况下,ItemCF在精度上较小于UserCF,但其在覆盖率和新颖性上面却比UserCF要好很多。

在介绍本节基于矩阵分解的隐语义模型之前,让我们先来回顾一下传统的矩阵分解方法SVD在推荐系统的应用吧。

基于SVD矩阵分解在推荐中的应用可分为如下几步:

SVD在计算前会先把评分矩阵 A 缺失值补全,补全之后稀疏矩阵 A 表示成稠密矩阵,然后将分解成 A' = U∑V T 。但是这种方法有两个缺点:(1)补成稠密矩阵后需要耗费巨大的储存空间,对这样巨大的稠密矩阵进行储存是不现实的;(2)SVD的计算复杂度很高,对这样大的稠密矩阵中进行计算式不现实的。因此,隐语义模型就被发明了出来。

更详细的SVD在推荐系统的应用可参考 奇异值分解SVD简介及其在推荐系统中的简单应用 。

隐语义模型(Latent Factor Model)最早在文本挖掘领域被提出,用于找到文本的隐含语义。相关的算法有LSI,pLSA,LDA和Topic Model。本节将对隐语义模型在Top-N推荐中的应用进行详细介绍,并通过实际的数据评测该模型。

隐语义模型的核心思想是通过隐含特征联系用户兴趣和物品。让我们通过一个例子来理解一下这个模型。

现有两个用户,用户A的兴趣涉及侦探小说、科普图书以及一些计算机技术书,而用户B的兴趣比较集中在数学和机器学习方面。那么如何给A和B推荐图书呢?

我们可以对书和物品的兴趣进行分类。对于某个用户,首先得到他的兴趣分类,然后从分类中挑选他可能喜欢的物品。简言之,这个基于兴趣分类的方法大概需要解决3个问题:

对于第一个问题的简单解决方案是找相关专业人员给物品分类。以图书为例,每本书出版时,编辑都会给出一个分类。但是,即使有很系统的分类体系,编辑给出的分类仍然具有以下缺点:(1)编辑的意见不能代表各种用户的意见;(2)编辑很难控制分类的细粒度;(3)编辑很难给一个物品多个分类;(4)编辑很难给一个物品多个分类;(5)编辑很难给出多个维度的分类;(6)编辑很难决定一个物品在某一个类别中的权重。

为了解决上述问题,研究员提出可以从数据出发,自动找到那些分类,然后进行个性化推荐。隐语义模型由于采用基于用户行为统计的自动聚类,较好地解决了上面提出的5个问题。

LFM将矩阵分解成2个而不是3个:

推荐系统中用户和物品的交互数据分为显性反馈和隐性反馈数据。隐式模型中多了一个置信参数,具体涉及到ALS(交替最小二乘法,Alternating Least Squares)中对于隐式反馈模型的处理方式——有的文章称为“加权的正则化矩阵分解”:

一个小细节:在隐性反馈数据集中,只有正样本(正反馈)没有负反馈(负样本),因此如何给用户生成负样本来进行训练是一个重要的问题。Rong Pan在其文章中对此进行了探讨,对比了如下几种方法:

用户行为很容易用二分图表示,因此很多图算法都可以应用到推荐系统中。基于图的模型(graph-based model)是推荐系统中的重要内容。很多研究人员把基于领域的模型也称为基于图的模型,因为可以把基于领域的模型看作基于图的模型的简单形式。

在研究基于图的模型之前,需要将用户行为数据表示成图的形式。本节的数据是由一系列用户物品二元组 (u, i) 组成的,其中 u 表示用户对物品 i 产生过行为。

令 G(V, E) 表示用户物品二分图,其中 V=V U UV I 由用户顶点 V U 和物品节点 V I 组成。对于数据集中每一个二元组 (u, i) ,图中都有一套对应的边 e(v u , v i ),其中 v u ∈V U 是用户对应的顶点,v i ∈V I 是物品i对应的顶点。如下图是一个简单的物品二分图,其中圆形节点代表用户,方形节点代表物品,用户物品的直接连线代表用户对物品产生过行为。比如下图中的用户A对物品a、b、d产生过行为。

度量图中两个顶点之间相关性的方法很多,但一般来说图中顶点的相关性主要取决于下面3个因素:

而相关性高的一对顶点一般具有如下特征:

举个例子,如下图,用户A和物品c、e没有边直连,但A可通过一条长度为3的路径到达c,而Ae之间有两条长度为3的路径。那么A和e的相关性要高于顶点A和c,因而物品e在用户A的推荐列表中应该排在物品c之前,因为Ae之间有两条路径。其中,(A,b,C,e)路径经过的顶点的出度为(3,2,2,2),而 (A,d,D,e) 路径经过了一个出度比较大的顶点D,所以 (A,d,D,e) 对顶点A与e之间相关性的贡献要小于(A,b,C,e)。

基于上面3个主要因素,研究人员设计了很多计算图中顶点相关性的方法,本节将介绍一种基于随机游走的PersonalRank算法。

假设要给用户u进行个性化推荐,可以从用户u对应的节点 v u 开始在用户物品二分图上进行随机游走。游走到任一节点时,首先按照概率α决定是继续游走还是停止这次游走并从 v u 节点重新开始游走。若决定继续游走,则从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样,经过很多次随机游走后,每个物品被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

上述算法可以表示成下面的公式:

虽然通过随机游走可以很好地在理论上解释PersonalRank算法,但是该算法在时间复杂度上有明显的缺点。因为在为每个用户进行推荐时,都需要在整个用户物品二分图上进行迭代,知道所有顶点的PR值都收敛。这一过程的时间复杂度非常高,不仅无法在线进行实时推荐,离线计算也是非常耗时的。

有两种方法可以解决上面PersonalRank时间复杂度高的问题:

(1)减少迭代次数,在收敛之前停止迭代。但是这样会影响最终的精度。

(2)从矩阵论出发,重新涉及算法。另M为用户物品二分图的转移概率矩阵,即:

网络社交是当今社会非常重要甚至可以说是必不可少的社交方式,用户在互联网上的时间有相当大的一部分都用在了社交网络上。

当前国外最著名的社交网站是Facebook和Twitter,国内的代表则是微信/QQ和微博。这些社交网站可以分为两类:

需要指出的是,任何一个社交网站都不是单纯的社交图谱或兴趣图谱。如QQ上有些兴趣爱好群可以认识不同的陌生人,而微博中的好友也可以是现实中认识的。

社交网络定义了用户之间的联系,因此可以用图定义社交网络。我们用图 G(V,E,w) 定义一个社交网络,其中V是顶点集合,每个顶点代表一个用户,E是边集合,如果用户va和vb有社交网络关系,那么就有一条边 e(v a , v b ) 连接这两个用户,而 w(v a , v b )定义了边的权重。一般来说,有三种不同的社交网络数据:

和一般购物网站中的用户活跃度分布和物品流行度分布类似,社交网络中用户的入度(in degree,表示有多少人关注)和出度(out degree,表示关注多少人)的分布也是满足长尾分布的。即大部分人关注的人都很少,被关注很多的人也很少。

给定一个社交网络和一份用户行为数据集。其中社交网络定义了用户之间的好友关系,而用户行为数据集定义了不同用户的历史行为和兴趣数据。那么最简单的算法就是给用户推荐好友喜欢的物品集合。即用户u对物品i的兴趣 p ui 可以通过如下公式计算。

用户u和用户v的熟悉程度描述了用户u和用户在现实社会中的熟悉程度。一般来说,用户更加相信自己熟悉的好友的推荐,因此我们需要考虑用户之间的熟悉度。下面介绍3中衡量用户熟悉程度的方法。

(1)对于用户u和用户v,可以使用共同好友比例来计算他们的相似度:

上式中 out(u) 可以理解为用户u关注的用户合集,因此 out(u) ∩ out(v) 定义了用户u、v共同关注的用户集合。

(2)使用被关注的用户数量来计算用户之间的相似度,只要将公式中的 out(u) 修改为 in(u):

in(u) 是指关注用户u的集合。在无向社交网络中,in(u)和out(u)是相同的,而在微博这种有向社交网络中,这两个集合的含义就不痛了。一般来说,本方法适合用来计算微博大V之间的相似度,因为大v往往被关注的人数比较多;而方法(1)适用于计算普通用户之间的相似度,因为普通用户往往关注行为比较丰富。

(3)除此之外,还可以定义第三种有向的相似度:这个相似度的含义是用户u关注的用户中,有多大比例也关注了用户v:

这个相似度有一个缺点,就是在该相似度下所有人都和大v有很大的相似度,这是因为公式中的分母并没有考虑 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,来降低大v与其他用户的相似度:

上面介绍了3种计算用户之间相似度(或称熟悉度)的计算方法。除了熟悉程度,还需要考虑用户之间的兴趣相似度。我们和父母很熟悉,但很多时候我们和父母的兴趣确不相似,因此也不会喜欢他们喜欢的物品。因此,在度量用户相似度时,还需要考虑兴趣相似度,而兴趣相似度可以通过和UserCF类似的方法度量,即如果两个用户喜欢的物品集合重合度很高,两个用户的兴趣相似度很高。

最后,我们可以通过加权的形式将两种权重合并起来,便得到了各个好有用户的权重了。

有了权重,我们便可以针对用户u挑选k个最相似的用户,把他们购买过的物品中,u未购买过的物品推荐给用户u即可。打分公式如下:

其中 w' 是合并后的权重,score是用户v对物品的打分。

node2vec的整体思路分为两个步骤:第一个步骤是随机游走(random walk),即通过一定规则随机抽取一些点的序列;第二个步骤是将点的序列输入至word2vec模型从而得到每个点的embedding向量。

随机游走在前面基于图的模型中已经介绍过,其主要分为两步:(1)选择起始节点;(2)选择下一节点。起始节点选择有两种方法:按一定规则抽取一定量的节点或者以图中所有节点作为起始节点。一般来说会选择后一种方法以保证所有节点都会被选取到。

在选择下一节点方法上,最简单的是按边的权重来选择,但在实际应用中需要通过广度优先还是深度优先的方法来控制游走范围。一般来说,深度优先发现能力更强,广度优先更能使社区内(较相似)的节点出现在一个路径里。

斯坦福大学Jure Leskovec教授给出了一种可以控制广度优先或者深度优先的方法。

以上图为例,假设第一步是从t随机游走到v,这时候我们要确定下一步的邻接节点。本例中,作者定义了p和q两个参数变量来调节游走,首先计算其邻居节点与上一节点t的距离d,根据下面的公式得到α:

一般从每个节点开始游走5~10次,步长则根据点的数量N游走根号N步。如此便可通过random walk生成点的序列样本。

得到序列之后,便可以通过word2vec的方式训练得到各个用户的特征向量,通过余弦相似度便可以计算各个用户的相似度了。有了相似度,便可以使用基于用户的推荐算法了。

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

冷启动问题主要分为三类:

针对用户冷启动,下面给出一些简要的方案:

(1)有效利用账户信息。利用用户注册时提供的年龄、性别等数据做粗粒度的个性化;

(2)利用用户的社交网络账号登录(需要用户授权),导入用户在社交网站上的好友信息,然后给用户推荐其好友喜欢的物品;

(3)要求用户在登录时对一些物品进行反馈,手机用户对这些物品的兴趣信息,然后给用推荐那些和这些物品相似的物品;

(4)提供非个性化推荐。非个性化推荐的最简单例子就是热门排行榜,我们可以给用户推荐热门排行榜,然后等到用户数据收集到一定的时候,在切换为个性化推荐。

对于物品冷启动,可以利用新加入物品的内容信息,将它们推荐给喜欢过和他们相似的物品的用户。

对于系统冷启动,可以引入专家知识,通过一定高效的方式快速建立起物品的相关度表。

在上面介绍了一些推荐系统的基础算法知识,这些算法大都是比较经典且现在还在使用的。但是需要注意的是,在实践中,任何一种推荐算法都不是单独使用的,而是将多种推荐算法结合起来,也就是混合推荐系统,但是在这里并不准备介绍,感兴趣的可以查阅《推荐系统》或《推荐系统与深度学习》等书籍。此外,在推荐中非常重要的点击率模型以及基于矩阵的一些排序算法在这里并没有提及,感兴趣的也可自行学习。

虽然现在用的很多算法都是基于深度学习的,但是这些经典算法能够让我们对推荐系统的发展有一个比较好的理解,同时,更重要的一点——“推陈出新”,只有掌握了这些经典的算法,才能提出或理解现在的一些更好地算法。

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/1035252.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-12
下一篇2023-07-12

发表评论

登录后才能评论

评论列表(0条)

    保存