EpiK团队:打造共建共享共益的开源知识平台

EpiK团队:打造共建共享共益的开源知识平台,第1张

1月10日,由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。

在此次大会上,EpiK中国区负责人Eric Yao 做了《分布式知识图谱构建》的主题演讲,其中他重点提及了区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践。同时EpiK产品负责人介绍了即将推出的游戏化数据标注平台,详细内容如下:

前面三位老师分别讲述了知识图谱、区块链和数据标注三个方向的细节,而这三个方面融合在一起又会产生怎样的火花呢?接下来我要讲的EPIK PROTOCOL铭识协议,它的目的就是为了构建人类的永恒知识库,从而提高AI的智能,这就是数据开源或者是知识开源。

为什么要搭建开源知识平台?

EpiK项目是基于区块链的可信的分布式数据和知识的共享平台,通过去中心化数据存储和协作的方式来实现数据的共建和共享。为什么Epik会嵌入到人工智能和区块链的结合的角度,来切入到创业中来?这与当下的时代背景密不可分。

第四次工业革命已经来临了,全面智能化是这个阶段的核心目标之一,各种智能体也在逐渐的走入日常生活,比如说siri、小爱同学等等人工智能的语音助手,还有各种有AI学习能力的家用电器,比如说冰箱洗衣机彩电等等。

人类的知识传承已经有数万年了,最早是甲骨文刻在石头上,最后演变成竹帛纸张,到数字化存在硬盘上,这些知识都以文本和音视频非结构化的数据结构来存储,人类理解这些知识是很容易的,比如,我们可以很轻松的从**中或者是从歌曲中判断这个人物的关系和情节。但是对这些信息,机器理解是很难的,很难通过一祯一祯的屏幕来把人类的关系梳理出来,如何让机器理解我们的人类的知识?

谷歌2012年提出知识图谱,它通过结构化的人类体系,从而让机器掌握人类的知识,开拓AI的认知。这里有一个知识图谱,也是我们很熟悉的一部**,叫做《复仇者联盟》,它是用一个一个的图谱组成的网络结构,描述了**中透露的各种各样的信息,有了这些图谱,AI就可以读懂知识图谱回答很多的问题,比如如何获得宝石位置,从谁那里取得宝石等等。

人工智能是一个大的方向,但是这个事儿和区块链有什么关系,这个就需要引入到一个很严肃的话题,是人类怎么样才能信任人工智能或者机器智能,这里就涉及机器人是否会欺骗人类,引导人类作出错误的决策。

AI或者知识图谱是很多的公司在做得事情,脸书,苹果、亚马逊、阿里巴巴等等,他们每个大公司都耗时费力的构建自己的知识图谱,但是这些知识图谱不是互联互通的,每个公司有自己的知识库,这就涉及到一个问题,中心化的知识库会面临被篡改知识图谱的隐患,由于知识图谱是一个可以一个一个三元组成的拓扑式网络结构,一个结点的变化,很容易导致计算机或者人工智能理解这个节点相关其他节点的关系都会发生变化,从而造成善恶或者立场的变化,这是非常危险的。

同时构建超大规模的知识图谱,还面临着无法组织大量的人工参与到构建知识库的过程中,缺少这样的组织结构,专业化是很难做到的,也会成为机器智能化巨大的障碍。

基于这两点可以看到,构建超大规模知识图谱,区块链技术是目前唯一找到解决这个问题的出路,因此,知识图谱就要开源开放可见度,这是它的必备属性,而不是不可对它产生的结果做解释。

构建开源知识平台有哪些挑战?

知识图谱底层的存储要开放开源和监督,但是人们怎么样可以协作共建知识库,同时可以访问知识库?

这里面有很多挑战,人类的知识是非常多的,领域也非常多,如何搭建共享平台我要是考虑几点。

第一点,如何开放知识共享,通过构建一些合理的工具和机制,让人人都有渠道贡献知识,因为每一个人都是智能体,让有需求的人可以有方法和访问这些知识。

第二条,如何防范知识篡改,或者知识被更改的时候可以溯源的,这就需要用到区块链的东西,它能保证知识的确权和不可更改,同时也可以通过合适的机制保障它可以持续的公开和更新。

接下来是我们如何能保持知识的质量,由于区块链其实是价值的载体,它的存储成本很高,它的优势其实不在于存储成本,而是在于数据的共建和共享,如何保证知识质量是很重要的一个话题。

在知识的产生层面,知识要可以被监督,在知识质量出现问题的时候,它需要被追责,才会形成一个良性循环,让链上的数据变得质量越来越高,越来越有价值。

最后一点,如何激励知识贡献,每个人都会通过我们的系统提供知识或者为我们系统做贡献,但是其实每个人都不一定是自发性的爱好,所以需要合理的激励机制,如何权衡各方面的收益的动态平衡,同时使得激励的分发成本相对比较低,让系统良性的可循环的运作起来,也是非常重要的。

为什么会选择在2020年做这个事情?我们观察到了一些合适的机会,很多的时机已经成熟了:2020年的时候基于区块链的去中心化存储技术刚刚成熟,比如很有名的项目Filecoin,可以借助0知识证明,以极低的管理成本组织超大规模的防篡改可共享的开放存储资源;2020年数据标注这个行业也迎来了一个大的爆发,预计2025年会达到100亿左右的人民币规模,同时会促进大量的年轻的就业人口涌入,为这个行业提供丰富的知识贡献和知识质检人才;2020年,DeFi这个概念迎来了空前的发展,可以更好的帮助解决线上的激励动态分配的问题,同时让数字货币的激励手段变得更加灵活;社会对数字货币的接受程度越来越高,越来越接受激励的合理性的概念。

EpiK构建超大规模知识图谱的解决方案

基于上面的考虑,诞生了EPIK PROTOCOL,EPIK指的是EpigraphyKnowledge,翻译过来就是铭刻在石头上的知识,代表着进入区块链上的知识,就像铭刻在石头上一样,不可以被随意的篡改,目的是依托区块链技术,构建人类永恒知识库,从而开拓AI的学识。针对前面提出的问题,提出三大解决方案。

第一点,要借助去中心化的存储技术,来解决数据的不可篡改问题,就是这样的数据是不可以被随意篡改的,这些知识不会因为私人的利益而随意篡改的,从而实现知识在全国各地永恒存储得以广泛传播。

第二点,借助去中心化自治组织解决劳动力问题,实现各国各界各族人民去中心化协作中公平获益。

第三点,借助通证经济解决自驱力问题,实现生态中各个成员为追求自身利益最大化,从而无形中推动知识图谱数据壮大的过程。

Epik技术架构,分为三大模块,知识提取、知识存储、知识应用,由低到高的三个层级,里面包含了很多的技术细节。

Epik生态参与者包含五个角色:持币用户、数据矿工、领域专家、赏金猎人、数据网关。把这些角色按照数据从生产到存储到使用这三个过程,数据产生的团体包含三种角色,一个是核心用户,一个是领域专家和赏金猎人,核心用户是可以通过投票来票选出领域专家,确保领域专家的权威性和专业性,领域专家是一个非常核心的的人物,负责组织生产各个类目的人类知识库数据,由于整个工作是非常劳动密集型的工作,所以涉及到大量的繁杂的数据纠错和清洗的工作,数据专家是无法完成的,他需要把这些任务拆分出来,发布到平台上,由赏金猎人认领,他的目的就是为了完成领域专家发布的任务,同时获得对应的奖励。

经过领域专家发布任务,把数据梳理和清洗出来以后,通过领域专家上传给数据矿工上,就是底层的存储机制上,这里面有数以万计的数据矿工来共同维持着整个平台数据的不可篡改和确权。

数据从产生到存储下来,可能涉及到应用的环节,上面会有很多应用的生态,如何方便的访问这些数据,就引入了第五个角色,就是数据网关,它的作用就是为整个底层的数据存储提供数据访问和数据索引的服务,为上层的应用层赋能,让上层的应用层更好的使用整个平台存储的数据。

上面说到的两个图偏概念化,下面举一个具体的例子,如何实现商业闭环,这就是一个具像化的图。

首先可以看到上面已经标注了一些角色了,领域专家,数据网关等等,领域专家是行业专家和领域达人,目的是梳理数据格式,组织数据生产和验收数据质量,其处理的数据都是自己所在该领域的公开的数据源,比如说公开的企业信息,公开的教材信息等等,当他把这两个数据源梳理的格式定好了,所要处理的数据任务发到去中心化的平台上,赏金猎人就可以在这个平台上认领任务,他的角色一般是大学生、青年白领等等,有一定的空闲时间,有一定的知识储备和使用工具素养的一些人,他们可以领取众包任务,同时对这些数据进行校对,获取一定的收益。

数据按照我们所需要的格式和质量生产好以后,由领域专家提供给矿工,矿工就是底层的分布式存储节点,由于我们的数据存储比较定向化,都是针对知识领域的,所以对数据存储的要求能力都不是很高,可能要求这些服务器八核16G,250G的ssd固态硬盘,5兆的带宽就可以满足。数据存储了以后,上层会有很多的应用,会访问我们的数据,因为我们的数据很有价值,因为我们整理了公开的企业信息,原题库整理了教材信息,这两种信息对他们来说都是非常有用的,同时我们可以看到上层知识的应用场景都有很大的规模,就是证明我们所服务的市场增长潜力和空间是巨大的,也可以保障整个项目的快速发展。

他们可以通过数据网关很好的访问我们平台上存储的知识和数据,从而实现更多的商业化应用,为整个知识的变现提供价值。

这个系统为什么会很好运作起来?这里面就有一个区块链行业的概念,叫做通证经济,就是我们希望设计合理的通证经济,每个人提供贡献在里面都会有对应的收益,比如领域专家每天会有5880元人民币的收益,可能每个月的收益足够他养活10到20人的小团队,持续的做这个事情。赏金猎人都是小镇青年和白领时间比较零散化的一类人,他们是时薪的方式,可能达到每小时36块钱,完成任务就可以领取这部分的收益。矿工,大概会有30元每台节点一天的收益。最后底层的应用场景,用户想要使用数据是需要去耗费一定的资源的,这是给整个系统注入能量的一个过程,他们需要大概抵押每天是202块钱人民币左右的积分,就可以获得1GB数据的访问权,可以随时的赎回,这形成了商业闭环。

接下来看一下整个项目的路线图:第一阶段是我们已经完成的,如白皮书测试发布,测试网方尖碑发布,到白皮书发布,测试网预挖计划发布,领域专家招募计划启动,都已经完成了,第二阶段是主网v10罗塞塔发布,还有《治理白皮书》发布和知识众包产品10发布,到今年的二三季度,就会发布主网v20,引入重要的概念就是以太坊,EVM虚拟机,同时去中心化治理平台发布和知识众包产品20发布。

顺便提一下,为什么引入EVM信息?这可以很便捷或者0成本的把以太坊上的经济或者去中心化的Eth经济资源引入到知识生态系统中。比如用户想访问我们链上的数据,但是没有链上积分怎么办,就可以通过抵押其他的资产,来获得数据地访问,这样可以快速扩大用户规模,这只是其中的一个应用。

我们将EpiK使命描述为:这将是一场至少延续50年的碳基生命向硅基生命的史诗级布道。这是一个非常长期的赛道,而且Epik也会持续的给这个系统赋能和迭代,让越来越多的用户很好的贡献知识和使用知识。

游戏化数据标注平台即将发布

在这分享一下关于游戏化的数据标注平台产品的一些思考,为大家展现一下未来普通人怎么样能很轻松的参与到EpiK知识图谱构建体系中,来为系统提供自己的知识,从而获取收益。

游戏现在是让整个互联网消耗用户时长非常多的一个领域。这里有一组数据:2004年—2010年《魔兽世界》这个游戏所有玩家的小时数加一起约等于593万年,这个基本上比人类文明的历史还长了,平均玩家每周在虚拟世界里要花调17—22个小时,这基本上相当于上班时间的50%了。

而全球最好的数据集,已经有100万张是已经标注的。它的总数是可能过千万的,但是100万张是带标注的。如果每一张的标注成本是5分钟,那其实只需要《魔兽世界》这个游戏六十万分之一的工作量就可以完成了。所以说其实游戏是一个特别值得我们去思考的东西。

 游戏化其实就是把游戏的一些常见的设计思路运作到一些非游戏的领域,比如在线教育、比如一些公益类的项目或者是一些产品设计当中去。

举个例子:支付宝的蚂蚁森林和蚂蚁庄园,蚂蚁森林的累计用户应该是有55个亿了。因为这是公益项目,用户可以根据能量换成植的真树,相当于这个蚂蚁森林种下了122亿颗真的树。蚂蚁庄园的累计用户有4亿,送出了150亿个鸡蛋,这两个项目其实都是一个游戏化的公益项目,但却增加支付宝的活跃度,增加支付宝的黏性,以及拓展支付宝的社交关系链。其实这是一个商业和公益上都双赢的很大体量的项目,虽然它看起来只是一个小游戏。

另外还有一个很好的例子,是一个在台湾的工作室Fourdesire,这个工作室专门喜欢去做这类游戏化的产品。比如说其中有一个叫《记账城市》,《记账城市》是鼓励用户每天去记账,因为记账是一个很枯燥的事情,它用一个用户不断地记账就能换取一些积分,这些积分就能发展用户自己的城市,这个城市里面还有很多好玩的一些小的游戏化的一些特性,这样的话就让挺多人喜欢上记账了,成为一个养成性的存在。

这些游戏类的APP有一个共同的特点,它原本是把一些很枯燥的东西、很枯燥的一些任务包装成一个游戏的壳,用户就能逐渐地沉迷其中了。而且这个工作室最终也获得了一个流量上非常不错的表现,这是一个二三十人的工作室,但是他在全球累计获取了超过2500万的用户,而且《记账城市》经常会被推荐上APP Store首页。

游戏的核心体验是什么?简单总结为四点,第一个就是积分等级成长体验,就是用户长期持续地完成任务会得到这种积分、奖励、等级提升,像《记账城市》就是这个城市逐渐地发展壮大,像《太空冒险》就是你可能去了更远的星球,这样是一个积分等级成长的体验。

另外,游戏当中沉迷的另外一个元素就是它有故事和情感体验,比如说游戏的《使命召唤》里面会有那种战友的剧情,用户就能沉浸其中并能情感投射。包括蚂蚁庄园那只很可爱的小鸡,我们经常看到在朋友圈里很多用户其实会觉得自己的小鸡好久没有喂食了,他其实会产生一种愧疚感,这些东西其实都是这个产品打造出来的优良的情感体验。

还有一个比较重要的是游戏能够有一个成瘾性和进入感也是因为它有即时反馈体验,当用户完成某一个任务之后是有明显的反馈体验设计的。比如说在打篮球的时候当我们去投中一颗篮球的时候,它会擦中那个篮网发出一个声音,这个其实就是一个即时的反馈。比如说我们打FPS类游戏如果是爆头屏幕中间会出现巨大的一个图标提示,这个就是一个即时反馈体验。

最后,社会性互动体验,比如说我们可以跟好友之间一起互动,当年风靡一时的Social game比如说偷菜其实就是借助游戏本身实现人与人之间的互动,这个互动充满了一些很小的暧昧或者说隐含表达性一些东西,这其实是玩家们都很喜欢的。

我们的尝试探索是这样的,第一就是我们觉得数据标注这个业务跟游戏化其实是可以放在一起的。为什么说我们觉得数据标注这个业务跟游戏化是比较适合放在一起的?

其实就是因为第一标注这个任务本身是枯燥重复的,另外,我们也是希望用户在碎片化的时间里能够去进行数据标注的。

假如这个时候我们有一个标注任务是口腔医学相关这个领域的,比如说口呼吸是否会导致下颌收缩,这个东西其实一般的用户是无法去标注的,如果是医生他又很忙,他平时又有大量主业的工作。如果我们能把这样类似于数据标注的业务,在医生这个全国大概只有14万左右人的群体里面,去把它用碎片化的方式拆解成任务,并用游戏化的方式去鼓励用户收集,那么可能这个标注任务就能更好地执行。

为此,我们期待做出这样一个体验的产品,第一它有流畅的标注体验的,这需要有强大的算法支持,能够智能地分配标注任务。第二,我们肯定要尝试不同的游戏化的场景设计,赋予用户这个故事与世界观。

另外,我们要把一些游戏化的元素融入进来,比如我们做随机的抽卡或者成长体系这样的东西,让这个游戏能够具备一个基本的可玩性。

先说下流畅的数据交互,我们现在认为大部分的数据标注任务其实上下文无关的,就是标一个任务和标下一个任务之间是没有太强的关系的。因此,就可以把一些大的任务拆解,拆解之后就可以分发给合适的一些人,比如,我们会发布让用户朗读句子五遍的任务,用户对着这个把这句话朗读出来,满五遍之后这个任务自动提交了,然后用户就能获取相应的一些积分,然后这些积分可以拿来在游戏里做一些好玩的东西。

在游戏场景我们希望讲一个故事,这个故事中可能是某一种浩劫人类文明现在已经被摧毁了,那么我们在这个基础上怎么重启人类文明?在这个主线中,我们要不断地派遣探险队出去探险,去找到过往历史中的一些科技遗迹,然后去升级我们的一些建筑。比如说原本给人类提供能源的是火堆,通过反复的派遣探险队我们最终能变成蒸汽发电站,变完蒸汽发电站之后我们可能会变成核聚变发电站。这样也带着我们重塑一遍人类的科技文明史,带着我们的玩家能够体验到一种带着人类文明从蛮荒的时代走向农业时代、走向蒸汽时代、工业文明包括现在的人工智能未来,未来可能走向太空时代。

但是这件事情其实本身是很难的,我们认为未来的工作难点是:第一,我们的数据标注任务的推荐系统设计,潜在的问题也会非常地多。比如说我们的标注任务怎么能够实时的生成、怎么能够实时的分发,当然还要考虑用户的专业性门槛和反作弊。第二,不同于专业性人员的标注,我们是有员工雇佣的。大家的工作场合是安静的,我们用户的使用场景可能是在地铁上、可能是在上班的闲暇时间、可能是家里。这样的话什么样的人在什么场景下获取什么样的任务能保证我们较好的数据质量,这也是一个问题。第三,多用户提交的时候我们整个标数据的质性度的问题;第四,怎么合理地激励每一个用户,使用户贡献量和激励平衡。整个这一系列的东西都是我们要长期去解决的问题;第五,真正好玩的、用户周期很长、高黏性的一个前端游戏化是怎么实现的,这个也需要逐步探索。比如说什么样的玩法用户喜欢,我们是做一个成长积分不断增长的游戏更好,还是做一个自我挑战的游戏更好,还是单纯只是把一点游戏化的元素融入到移动APP的标注当中就可以,怎么能够避免用户觉得有新鲜感之后就厌烦,或者我们能不能频繁更换主题,这些东西都是未来我们在前端上需要探索的地方。

什么是自然语言处理(NLP)的未来前景?这件事让王印明白,培养孩子不见得只在理论课上下功夫,教育也不仅仅是老师在讲台上灌输,还应该跳出来思考如何培养学生的品质和能力,激发他们的探索欲,为未来埋下一颗种子。孩子们周末不回家,跑去看他做手工。王印决定带着他们“开干”。他们曾一起看过一部名为《武士刀传奇》的纪录片,片子里讲,一把武士刀会经过反复锻打,最后的成品有5000多层纹理截面。这个细节打动了一位小男孩,他说,老师,我也想做一把武士刀。

整理了各类场景应用中AI算法

一、图像CV

内容安全,目标检测,图像识别,智能视觉生产,图像搜索,图像分割,物体检测,图像分类,图像标签,名人识别,概念识别,场景识别,物体识别,场景分析,智能相册,内容推荐,图库管理,网红人物识别,明星人物识别,图像搜索,商品搜索,版权搜索,通用搜索,车牌识别,垃圾分类,车辆检测,菜品识别,车型识别,犬类识别,实例分割,风格迁移,智能填充,智能识图,拍照搜商品,精准广告投放,电商导购,图像分析,图像理解,图像处理,图像质量评估,场景识别,物体识别,场所识别,图像自训练平台,图像分类,目标检测,图像分割,关键点检测,图像生成,场景文字识别,度量学习,图像识别,图像比对,图像分类使用手册,图像分类API文档目标检测使用手册,目标检测API文档Logo检测使用手册,Logo检测API文档,通用搜索,车牌识别,垃圾分类,车辆检测,车型识别,犬类识别,实例分割,风格迁移,智能填充,车牌识别,相册聚类,场景与物体识别,无限天空,图像识别引擎,**识别,暴力图像识别,工业轮胎智能检测,肋骨骨折识别,显微识别,图像处理,广告识别,人脸算法,人体算法,图像识别,图像增强,OCR,图像处理,ZoomAI,智能贴图,智能制作,质量评价,图像识别,智能鉴黄,图像识别,实时手写识别,唇语识别,通用文字识别,手写文字识别,图像技术,图像识别,图像审核,图像搜索,图像增强,图像特效,车辆分析,图像生成,绘画机器人独家,动漫化身独家,像素风独家,超清人像独家,图像融合,换脸技术,神奇变脸,图像风格化,证件照生成,线稿图像识别,宝宝检测,图像分类,圉像深度估计,天空分割,食物分割,猫狗脸技术,食物识别独家,图像美学评分,车辆分析,车型识别,车型识别(含指导价),车型识别(含配置参数),车标识别,人脸识别(活体),车牌识别,表情识别,安全帽识别,计算机影像,计算机视觉,聚焦光学字符识别、人脸识别、质检、感知、理解、交互,图像视频分析,Logo检测,内容审核,智能批改,笔记评估,思维导图评估,物体检测,物体识别。

二、人脸、体态、眼瞳、声音、指纹

人脸分割人脸识别,无,人体分析HAS,识别人的年龄,性别,穿着信息,客流统计分析,智能客服,热点区域分析,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,换脸甄别,人脸支付,人脸核身,人像变换,人脸试妆,人脸融合,人体分析,手势识别,人脸验证与检索,人脸比对,人脸比对sensetime,人脸水印照比对,静默活体检测,静默活体检测sensetime,人脸检测和属性分析,人脸特征分析tuputech,配合式活体检测,人脸安防,计算机视觉,智能应用服务,人脸查询人脸分析人脸统计名单库管理人脸布控,人脸应用,人体应用,人体查询,车辆查询车辆分析车辆统计车辆布控车辆名单库管理,车辆应用,人脸图像识别人体图像识别车辆图像识别,图像识别,图像比对,人脸比对,人体检测,人脸口罩识别,人脸对比,人脸搜索,人脸检测与属性分析,人脸活体检测,人体关键点检测,行人重识别,细粒度人像分割,人像分割,人脸解析,3D人体姿态估计,人脸融合,人脸识别,人脸检测,人脸比对,人脸搜索,人脸关键点,稠密关键点,人脸属性,情绪识别,颜值评分,视线估计,皮肤分析,3D人脸重建,面部特征分析人体识别,人体检测,人体关键点,人体抠像,人体属性,手势识别人像处理,美颜美型,人脸融合,滤镜,声纹识别支付,语音合成,语音合成,声纹识别,语音唤醒,人脸识别引擎,摄像头人脸识别,人脸检测,身份识别,人脸识别,人脸属性,人体识别,声纹识别,衣服检索及聚类,语音分析,声纹识别,说话人归档,人脸和人体识别,人脸检测,手势识别,人脸与人体识别,人脸识别云服务,人脸识别私有化,人脸离线识别SDK,人脸实名认证,人像特效,人体分析,人脸技不,皮肤分析独家,头部分割,宏观人脸分析,人脸关键点检测,微观人脸分析独家,头发分析独家,五官分割,头发分割人体技术,人体外轮廓点检测独家,精细化人像抠图,人体框检测,肢体关键点检测,人像分割,服饰识别,手势识别,皮肤分割,人脸,说话人识别,人脸检测识别,人脸1:1比对,人脸检测,AI人脸/人形车辆,大数据人像防伪,QoS保障,CDN,表情识别,举手动作识别,人脸检测,网络切片,边缘计算,人脸分析,人脸检测,人脸搜索,人体分析,手势识别,着装检测,人脸识别,行为检测,人脸识别,人形检测,行为分析,人脸检测,人脸跟踪,人脸比对,人脸查找,人脸属性分析,活体检测,声音指纹,声纹识别。

三、视频

视频分割、视频处理、视频理解、智能视觉、多媒体,视频内容分析,人体动作监控,视频分类,智能交通,人/动物轨迹分析,目标计数,目标跟踪,视频编辑-,精彩片段提取,新闻视频拆分,视频摘要,视频封面,视频拆条,视频标签-,视频推荐,视频搜索,视频指纹-,数字版权管理,广告识别,视频快速审核,视频版权,视频查重,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,无,无,视频,视频换脸,车辆解析, 体育 视频摘要,视频内容分析,颜色识别,货架商品检测, 时尚 搭配,危险动作识别,菜品识别,视频识别引擎,结肠息肉检测,胃镜评估系统,视频标签,场景识别,客流分析,手势识别,视频技术,短视频标签,视觉看点识别,动态封面图自动生成,智能剪辑,新闻拆条,智能插帧,视频技术,多模态媒资检索公测中,媒体内容分析,媒体内容审核,视频生成,视频动作识别,

四、ocr文字识别

手写识别,票据识别,通用文档,通用卡证,保险智能理赔,财税报销电子化,证照电子化审批,票据类文字识别,行业类文字识别,证件类文字识别,通用类文字识别,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,增值税发票核验,营业执照核验,智能扫码,行业文档识别, 汽车 相关识别,票据单据识别,卡证文字识别,通用文字识别,手写文字识别,印刷文字识别,银行卡识别,名片识别,身份证识别intsig,营业执照识别intsig,增值税发票识别intsig,拍照速算识别,公式识别,指尖文字识别,驾驶证识别JD,行驶证识别JD,车牌识别JD,身份证识别,增值税发票识别,营业执照识别,火车票识别,出租车发票识别,印刷文字识别(多语种),印刷文字识别(多语种)intsig内容审核,色情内容过滤,政治人物检查,暴恐敏感信息过滤,广告过滤,OCR自定义模板使用手册,OCR自定义模板API文档,通用文字识别,驾驶证识别,身份证识别,增值税发票识别,行驶证识别,营业执照识别,银行卡识别,身份证识别,驾驶证识别,行驶证识别,银行卡识别,通用文字识别,自定义模板文字识别,文字识别引擎,身份证识别,文字识别,通用文字识别,身份证识别,名片识别,光学字符识别服务,通用文字识别,手写体文字识别,表格识别,整题识别(含公式),购物小票识别,身份证识别,名片识别,自定义模板文字识别,文字识别,通用文字识别,银行卡识别,身份证识别,字幕识别,网络识别, 游戏 直播关键字识别,新闻标题识别,OCR文字识别,通用场景文字识别,卡证文字识别,财务票据文字识别,医疗票据文字识别, 汽车 场景文字识别,教育场景文字识别,其他场景文字识别,iOCR自定义模板文字识别,通用类OCR,通用文本识别(中英)通用文本识别(多语言)通用表格识别,证照类OCR,身份证社保卡户口本护照名片银行卡结婚证离婚证房产证不动产证,车辆相关OCR,行驶证驾驶证车辆合格证车辆登记证,公司商铺类OCR,商户小票税务登记证开户许可证营业执照组织机构代码证,票据类OCR,增值税发票增值税卷票火车票飞机行程单出租车发票购车发票智能技术,票据机器人证照机器人文本配置机器人表格配置机器人框选配置机器人,文字识别,行驶证识别,驾驶证识别,表单识别器,通用文本,财务票据识别,机构文档识别,个人证件识别,车辆相关识别,通用表格,印章识别,财报识别,合同比对,识别文字识别,签名比对,OCR识别,教育OCR,印刷识别,手写识别,表格识别,公式识别,试卷拆录

五、自然语言NPL

文本相似度,文本摘要,文本纠错,中心词提取,文本信息抽取,智能文本分类,命名实体,词性标注,多语言分词,NLP基础服务,地址标准化,商品评价解析智能短信解析,机器阅读理解,金融研报信息识别,法律案件抽取,行业问答推理,行业知识图谱构建,文本实体关系抽取,搜索推荐,知识问答,短文本相似度,文本实体抽取, 情感 倾向分析,兴趣画像匹配,文本分类-多标签,文本分类-单标签,定制自然语言处理,语言生成,语言理解,自然语言处理基础,文本摘要,数据转文字,文本生成,智能问答系统,内容推荐,评价分析,文本分类,对话理解,意图理解, 情感 分析,观点抽取,中文分词,短文本相似度,关键词提取,词向量,命名实体,识别依存,句法分析, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取,词法分析, 情感 分析,关键词提取,用户评论分析,资讯热点挖掘,AIUI人机交互,文本纠错,词法分析,依存句法分析,语义角色标注,语义依存分析(依存树),语义依存分析(依存图), 情感 分析,关键词提取,NLP能力生产平台,NLP基础技术,中文词法分析-LAC,词向量—Word2vec,语言模型—Language_model,NLP核心技术, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,信息检索、新闻推荐、智能客服, 情感 分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答,机器问答、自然语言推断、 情感 分析和文档排序,NLP系统应用,问答系统对话系统智能客服,用户消费习惯理解热点话题分析舆情监控,自然语言处理,文本分类使用手册,文本分类API文档, 情感 分析,评论观点抽取,短文本相似度,机器翻译,词法分析,词义相似度,词向量,句法分析,文本分类,短语挖掘,闲聊,文本流畅度,同义词,聚类,语言模型填空,新闻热词生成,机器阅读理解,商品信息抽取智能创作,智能写作,搭配短文,种草标题,卖点标题,社交电商营销文案,自然语言处理能力,基础文本分析,分词、词性分析技术,词向量表示,依存句法分析,DNN语言模型,语义解析技术,意图成分识别, 情感 分析,对话情绪识别,文本相似度检测,文本解析和抽取技术,智能信息抽取,阅读理解,智能标签,NLG,自动摘要,自动写文章,语言处理基础技术,文本审核, 情感 分析,机器翻译,智能聊天,自然语言,基于标题的视频标签,台词看点识别,意图识别,词法分析,相关词,舆情分析,流量预测,标签技术,自然语言处理,语义对话,自然语言处理,车型信息提取,关键词提取,语义理解,语义相似度,意图解析,中文词向量,表示依存,句法分析,上下文理解,词法分析,意图分析,情绪计算,视觉 情感 ,语音 情感 , 情感 分析,沉浸式阅读器,语言理解,文本分析,自然语言处理,在线语音识别,自然语言理解火速上线中, 情感 判别,语义角色标注,依存句法分析,词性标注,实体识别,中文分词,分词,

6、知识图谱

知识图谱,药学知识图谱,智能分诊,腾讯知识图谱,无,药学知识图谱,智能分诊,知识理解,知识图谱Schema,图数据库BGraph,知识图谱,语言与知识,语言处理基础技术,语言处理应用技术,知识理解,文本审核,智能对话定制平台,智能文档分析平台,智能创作平台,知识图谱,实体链接,意图图谱,识别实体,逻辑推理,知识挖掘,知识卡片

7、对话问答机器人

智能问答机器人,智能语音助手,智能对话质检,智能话务机器人,无,电话机器人,NeuHub助力京东智能客服升级,腾讯云小微,智能硬件AI语音助手,对话机器人,无,问答系统对话系统智能客服,Replika对话技术,客服机器人,智能问答,智能场景,个性化回复,多轮交互,情绪识别,智能客服,金融虚拟客服,电话质检,AI语音交互机器人,中移云客服·智能AI外呼,人机对话精准语义分析

8、翻译

协同翻译工具平台,电商内容多语言工具,文档翻译,专业版翻译引擎,通用版翻译引擎,无,机器翻译,无,机器翻译,音视频字幕平台,机器翻译,机器翻译niutrans,文本翻译,语音翻译,拍照翻译,机器翻译,机器翻译,文本翻译,语音翻译,通用翻译,自然语言翻译服务,文本翻译,翻译,语音翻译,实时语音翻译,文档翻译(开发版,机器翻译,文本翻译,语音翻译,拍照翻译,机器翻译实时长语音转写,录音文件长语音转写,翻译工具,机器翻译火速上线中

9、声音

便携智能语音一体机,语音合成声音定制,语音合成,一句话识别,实时语音识别录音文件识别,客服电话,语音录入,语音指令,语音对话,语音识别,科学研究,安防监控,声音分类,语音合成,语音识别,实时语音转写,定制语音合成,定制语音识别,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,语音识别,语音合成,声纹识别,语音识别,语音听写,语音转写,实时语音转写,语音唤醒,离线命令词识别,离线语音听写,语音合成,在线语音合成,离线语音合成,语音分析,语音评测,性别年龄识别,声纹识别,歌曲识别,AI客服平台能力中间件,语音识别,语音交互技术,语音合成,语音合成声音定制,离线语音合成,短语音识别,录音文件识别,声纹识别,离线语音识别,实时语音识别,呼叫中心短语音识别,呼叫中心录音文件识别,呼叫中心实时语音识别,远场语音识别,语音识别,一句话识别,实时语音识别,录音文件识别,语音合成,实时语音识别,长语音识别,语音识别,语音合成,波束形成,声源定位,去混响,降噪,回声消除,分布式拾音,语音识别,语音唤醒,语音合成,声纹识别,智能语音服务,语音合成,短语音识别,实时语音识别,语音理解与交互,离线唤醒词识别,语音识别,一句话识别,实时语音识别,录音文件识别,电话语音识别,语音唤醒,离线语音识别,离线命令词识别,远场语音识别,语音合成,通用语音合成,个性化语音合成,语音技术,短语音识别,实时语音识别,音频文件转写,在线语音合成,离线语音合成,语音自训练平台,语音交互,语音合成,语音识别,一句话识别,实时短语音识别,语音合成,语音唤醒,本地语音合成,语音翻译,语音转文本,短语音听写,长语音转写,实时语音转写,语音内容审核,会议超极本,语音交互技术,语音识别,语义理解,语音合成,音频转写,音视频类产品,语音通知/验证码,订单小号,拨打验证,点击拨号,数据语音,统一认证,语音会议,企业视频彩铃,语音识别,语音文件转录,实时语音识别,一句话语音识别,语音合成,通用语音合成,个性化语音合成,语音评测,通用语音评测,中英文造句评测,在线语音识别,语音识别,语音唤醒,语音合成,语音合成,语音识别,语音听写,语音转写,短语音转写(同步),语音识别,语音 情感 识别

十、数据挖掘AI硬件

算法类型:包括二分类、多分类和回归,精准营销,表格数据预测,销量预测,交通流量预测,时序预测,大数据,无,机器学习使用手册,机器学习API文档,大数据处理,大数据传输,数据工厂,大数据分析,数据仓库,数据采集与标注,数据采集服务,数据标注服务,AI开发平台,全功能AI开发平台BML,零门槛AI开发平台EasyDL,AI硬件与平台,GPU云服务器,机器人平台,度目视频分析盒子,度目AI镜头模组,度目人脸应用套件,度目人脸抓拍机,人脸识别摄像机,昆仑AI加速卡,智能预测,购车指数,数据科学虚拟机,平台效率,云与AI,抗DDoS,天盾,网站漏洞扫描,网页防篡改,入侵检测防护,弹性云服务器,对象存储服务,云专线(CDA,AI计算机平台—360net深度学习基础模型,AI算法训练适配主流AI框架

十一、其他

内容审核,智能鉴黄,特定人物识别,通用审核,文本智能审核,广告检测,Logo检测,商品理解,拍照购,商品搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,强化学习,智能地图引擎,内容审核,智能鉴黄,特定人物识别,通用审核,文本智能审核,广告检测,Logo检测商品理解,拍照购,商品搜索,通用商品识别,疫情物资识别,酒标识别,细分市场划分,品牌竞争力分析,老品升级,新品定制,商品竞争力分析,商品销量预测,商品营销,用户评论占比预测,商品命名实体识别,商品颜色识别,个性化与推荐系统,推荐系统,舆情分析,舆情标签,智慧教育,智能语音评测,拍照搜题,题目识别切分,整页拍搜批改,作文批改,学业大数据平台,文档校审系统,会议同传系统,文档翻译系统,视频翻译系统,教育学习,口语评测,朗读听书,增强现实,3D肢体关键点SDK,美颜滤镜SDK,短视频SDK,基础服务,私有云部署,多模态交互,多模态 情感 分析,多模态意图解析,多模态融合,多模态语义,内容审查器,Microsoft基因组学,医学人工智能开放平台,数据查验接口,身份验证(公安简项),银行卡验证,发票查验,设备接入服务Web/H5直播消息设备托管异常巡检电话提醒,音视频,视频监控服务云广播服务云存储云录制,司乘体验,智能地图引擎,消息类产品,视频短信,短信通知/验证码,企业挂机彩信,来去电身份提示,企业固话彩印,模板闪信,异网短信,内容生产,试卷拆录解决方案,教学管理,教学质量评估解决方案,教学异常行为监测,授课质量分析解决方案,路况识别,人车检测,视觉SLAM,高精地图,免费SDK,智能诊后随访管理,用药管家,智能预问诊,智能导诊,智能自诊,智能问药,智能问答,裁判文书近义词计算,法条推荐,案由预测,

面试前搜集往年面试常考题目属于使用信息检索和分析技术来解决问题。

信息检索和分析技术已经成为许多领域中不可或缺的工具,在面试前搜集往年面试常考题目时,我们需要了解这些技术的基本概念和应用。同时,人工智能技术的发展也为信息检索和分析带来了新的机遇和挑战。

1、什么是信息检索技术?

信息检索技术是指在大规模数据集合中自动地查找、筛选、排序相关信息的过程。它通常包括了关键字查询、文本预处理、索引构建、查询优化和结果排序等环节。

2、信息检索技术在哪些领域有应用?

信息检索技术已经应用到了广泛的领域中,比如搜索引擎、文本挖掘、情感分析、舆情监测、知识图谱构建等。

3、如何构建一个高效的搜索引擎?

构建高效的搜索引擎需要先进行数据抓取、清洗和存储,然后利用信息检索技术对数据进行索引构建和查询优化,最后利用机器学习算法对用户偏好进行分析和个性化推荐。

4、什么是文本挖掘?

文本挖掘是一种从非结构化或半结构化数据中发现有用信息的过程。它通常包括了文本分类、命名实体识别、主题识别、情感分析等任务。

5、如何进行文本分类?

文本分类可以使用传统的基于规则或机器学习的方法,比如朴素贝叶斯、决策树、支持向量机等算法,也可以使用深度学习模型,如卷积神经网络、循环神经网络等。

6、什么是情感分析?

情感分析是指对文本中的情感倾向进行自动化识别和分类的过程。它通常涉及到情感词典构建、特征提取、分类器训练等步骤。

7、如何应用情感分析?

情感分析可以应用到广泛的领域中,比如商品评论分析、社交媒体分析、政治舆情分析等。在这些场景中,情感分析可以帮助人们更好地理解消费者需求、维护品牌形象、精准预测选举结果等。

与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。

随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。

那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)

以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。

情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。

1 篇章级情感分析

篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。

对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。

例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。

不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。

在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。

2 句子级情感分析

与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。

既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。

但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。

所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。

总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。

句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。

3 属性级情感分析

上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。

为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:

关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。

做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。

具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。

情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。

当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。

但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。

另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-05可能更合适。

基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。

第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。

除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。

最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。

构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。

尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。

我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。

首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1

在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。

第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。

当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。

采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。

除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。

随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:

情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

从外呼系统诞生的那一刻起,基于人工规则关键词匹配的语义理解方法,和以NLP算法驱动的语义理解方法,一直是对话系统工业界领域的争论焦点。基于关键词匹配的语义理解方法,对于快速搭建新对话场景有着其独特优势。在AI训练师的指导下,机器人通过已配置好的关键词进行匹配,能很‌快根据用户的表达做出机械的理解反应,所设置的关键词模板越复杂,机器人能应对的对话内容也越丰富。然而,简单粗暴的配置方式相应地也带来了一定的负面作用。随着对话内容的增多,关键词穷举所带来的难度呈指数级上升,形成的语义冲突更是不可忽视的难题。而以NLP算法驱动的语义理解方法则恰恰相反,算法的有效工作,往往是“娇生惯养”型的,需要前沿的算法和大量的垂直数据作为基础支持。然而,一旦满足前沿算法+大数据两大条件,以NLP驱动的方法在复杂对话场景的语义泛化性和精准识别上就能够大显神威。

只有当行业区分后,垂直行业下的语料积累和NLP算法模型准确度才有提升的可能。我‌们曾在已有的10NLP系统中做过测试,分场景的意图判断准确度相比泛行业可以提升5%-7%。利用算法能力进行最终意向输出,替代过往的规则匹配,可以让意向判断更贴近真实的转化效‌果‌。与此同时,通过垂直领域下语料库、意图库的积累和调用,以及话术智能推‌荐‌,可以大大提升AIT话术交付的响应速度,更好应对618、双十一等大促节点下的客户爆发性需求。

有了NLP20系统的加持,原先一些高难度的对话场景有了实现的可能。曾经,对于调查问卷、用户满意度调研之类的外呼需求,在关键信息提取、时间地址组织名等实体信息抽取上的要求非常高,靠简单关键词穷举是根本无法满足要求的。而有了NLP的实体识别功能和关键信息提取功能,复杂对话场景的数据分析变得可行;有了情绪识别和情景感知功能的加成,同样的用户回复⌄,机器人有了更多的语言表达选择,真正做到了千人千面;而有了知识图谱算法的支持,极大地减少了复杂重复问题的实施投入,也让机器人在客户各式各样问题面前变得更加从容。

此次发布的NLP20系统,最核心的亮点,一知智能在杭州人工智能计算中心与升腾生态软硬件进行调优,结合浙大·一知人工智能联合研究中心,共同提出了在泛消费领域的专用大规模预训练语言模型“EAZI”。在基于数百G级别涵盖消费领域信息的互联网网‌页、论坛、微博、新闻等形式的高质‌量‌语料训练,结合数亿条一知智能自身积累的消费场景对话数据进行专项任务训练,可以同时支持多种语义理解算法,包含意图识别、问答识别、实体识别、情感识别、知识图谱以及对话内容生成等多项NLP常见任务。“EAZI”模型在Transformer架构基础上,自研基于语言学知识、领域数据增强技‌术‌,从模型架构表征层和交互层,再到预训练策略进行了全方位改进。具体而言:

1、细粒度词法表征,并基于词义信息引入注意力机制,对句法进行约束,提升模型对于语言学知识的建模能力。

2、结合消费场景积累的大量实体信息和引入Discourse的Mask机制,强化模型对场景专项识别的表征能力。有了垂直领域数据的增强,识别算法对于领域内常见的表达方式语言成分和语篇关系表征更为敏感。

3、为满足工业界高并发、低时延、低资源消耗需求,EAZI使用了大模型蒸馏和初始化小模型策略,最终实现参数仅为十亿级别的轻量化预训练模型。相比于动辄千亿参数的大模型而言,在消费领域专有的识别场景中,实现效‌果‌与识别速度的双向提升,突破传统“巨无霸”大模型的效率限制。

4、在实际训练过程中,一知智能与华为杭州计算中心共同协作,在升腾生态下,算力达到40 PFLOPS FP16,相当于2万台高性能PC的计算能力,显著提升算力的快速响应。

国内自然语言处理学者众多,很难一一枚举。我就简单罗列一下我们系的几位相关老师,方便大家了解。都是我随便写的,没有字斟句酌,排名也不分先后,如有疏漏和错误多请指出,不要见怪。:)孙茂松教授:早年以中文分词研究成果闻名,计算机系人智所自然语言处理课题组(THUNLP)的学术带头人,是国内自然语言处理唯一的一级学会、中国中文信息学会副理事长,研究兴趣比较广泛,涵盖中文信息处理、社会计算、信息检索等。马少平教授:计算机系人智所信息检索课题组(THUIR)的学术带头人,是中国人工智能学会副理事长,研究兴趣偏重搜索引擎,为本科生上《人工智能导论》必修课,深受欢迎。朱小燕教授:计算机系智能技术与系统国家重点实验室(即人智所)主任,信息获取课题组的学术带头人,研究兴趣偏重问答系统、情感分析、文档摘要等。

李涓子教授:计算机系软件所知识工程课题组的学术带头人,研究兴趣偏重知识图谱与知识工程。研制推出的XLORE是国内屈指可数的大规模知识图谱。唐杰副教授:数据挖掘领域的青年学者,主要研究社会网络分析、社会计算和数据挖掘,也会做一些自然语言处理研究。刘洋副教授:自然语言处理领域的青年学者,主要研究统计机器翻译。我有幸跟刘洋老师一个办公室,非常佩服他的学术品味、工作态度和为人。张敏副教授:信息检索领域的青年学者,主要研究推荐系统与情感分析。是信息检索与数据挖掘的著名会议WSDM 2017的PC主席。刘奕群副教授:信息检索领域的青年学者,主要研究搜索引擎用户的行为建模,近年来用眼动手段开展研究工作,得到较多的学术关注。是信息检索顶级会议SIGIR 2018的PC主席。朱军副教授:机器学习领域的青年学者,主要研究统计机器学习,也会在自然语言处理和知识获取等方面做一些研究,例如比较有名的StatSnowball,MedLDA等。

分享嘉宾:张鸿志博士 美团 算法专家

编辑整理:廖媛媛 美的集团

出品平台:DataFunTalk

导读: 美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:

--

“美团大脑”是什么?

以下是“美团大脑”构建的整体RoadMap,最先是2018年开始餐饮知识图谱构建,对美团丰富的结构化数据和用户行为数据进行初步挖掘,并在一些重要的数据维度上进行深入挖掘,比如说对到餐的用户评论进行情感分析。2019年,以标签图谱为代表,重点对非结构化的用户评论进行深入挖掘。2020年以后,开始结合各领域特点,逐个领域展开深度数据挖掘和建设,包括商品、美食、酒旅和到综和cross图谱等。

--

在搜索中,通常用户需要将其意图抽象为搜索引擎能够支持的一系列精搜关键词。标签知识图谱则是通过“标签”来承载用户需求,从而提升用户搜索体验。例如,通过标签知识图谱,用户可直接搜索“带孩子”或者“情侣约会”,就可返回合适的商户/内容供给。从信息增益角度来说,用户评论这种非结构化文本蕴含了大量的知识(比如某个商户适合的场景、人群、环境等),通过对非结构化数据的挖掘实现信息增益。该团队以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自下而上梳理用户需求,场景及主要关注点完成图谱构建。

标签知识图谱构建分为以下四个部分:知识抽取、关系挖掘、图谱打标和图谱应用。

① 知识抽取

标签挖掘采用简单的序列标注架构,包括Single span标签挖掘和跳字标签挖掘,此外还会结合语义判别或者上下文判别,采用远监督学习+结果投票方式获取更精准的标签。

② 关系挖掘

同义词挖掘:同义词挖掘被定义为给定包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。现有的同义词挖掘方法包括搜索日志挖掘、百科数据抽取、基于规则的相似度计算等,缺乏一定的通用性。当前我们的目标是寻找通用性强,可广泛应用到大规模数据集的标签同义词挖掘方法。

以下是作者给出的同义词挖掘的具体方案,首先将离线标签池或者线上查询标签进行向量表示获取向量索引,再进行向量哈希召回,进一步生成该标签的TopN的同义词对候选,最后使用同义词判别模型。该方案的优势在于降低了计算复杂度,提升了运算效率;对比倒排索引候选生成,可召回字面无overlap的同义词,准确率高,参数控制简单。

对于有标注数据,主流的标签词嵌入表示方法有word2vec、BERT等。word2vec方法实现较为简单,词向量取均值,忽略了词的顺序;BERT通过预训练过程中能捕捉到更为丰富的语义表示,但是直接取[CLS]标志位向量,其效果与word2vec相当。Sentence-Bert对于Bert模型做了相应的改进,通过双塔的预训练模型分别获取标签tagA和tagB表征向量,然后通过余弦相似性度量这两个向量的相似性,由此获取两个标签的语义相似性。

对于无标注数据来说,可以通过对比学习的方法获取句子的表示。如图所示,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。

对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最大化batch内同一样本的相似度,最小化batch内其他样本的相似度。最终结果显示,无监督学习在一定程度上能达到监督学习的效果,同时无监督学习+监督学习相对于监督学习效果有显著提升。

同义词判别模型设计:将两个标签词拼接到Bert模型中,通过多层语义交互获取标签。

标签上下位挖掘:词汇包含关系是最重要的上下位关系挖掘来源,此外也可通过结合语义或统计的挖掘方法。但当前的难点是上下位的标准较难统一,通常需要结合领域需求,对算法挖掘结果进行修正。

③ 图谱打标:如何构建标签和商户供给的关联关系?

给定一个标签集合,通过标签及其同义词在商户UGC/团单里出现的频率,卡一个阈值从而获取候选tag-POI。这样会出现一个问题是,即使是频率很高但不一定有关联,因此需要通过一个商户打标判别模块去过滤bad case。

商户打标考虑标签与商户、用户评论、商户Taxonomy等三个层次的信息。具体来讲,标签-商户粒度,将标签与商户信息(商户名、商户三级类目、商户top标签)做拼接输入到Bert模型中做判别。

微观的用户评论粒度,判断每一个标签与提到该标签的评论(称为evidence)之间是正面、负面、不相关还是不确定的关系,因此可当作四分类的判别模型。我们有两种方案可选择,第一种是基于多任务学习的方法, 该方法的缺点在于新增标签成本较高,比如新增一个标签,必须为该标签新增一些训练数据。笔者最终采用的是基于语义交互的判别模型,将标签作为参数输入,使该模型能够基于语义判别,从而支持动态新增标签。

基于语义交互的判别模型,首先做向量表示,然后是交互,最终聚合比较结果,该方法的计算速度较快,而基于BERT的方法,计算量大但准确率较高。我们在准确率和速度上取balance,例如当POI有30多条的evidence,倾向于使用轻量级的方式;如果POI只有几条evidence,可以采用准确率较高的方式进行判别。

从宏观角度,主要看标签和类目是否匹配,主要有三种关系:一定不会,可能会,一定会。一般通过商户层关联结果进行投票结果,同时会增加一些规则,对于准确率要求较高时,可进行人工review。

④ 图谱应用:所挖掘数据的直接应用或者知识向量表示应用

在商户知识问答相关的场景,我们基于商户打标结果以及标签对应的evidence回答用户问题。

首先识别用户query中的标签并映射为id,然后通过搜索召回或者排序层透传给索引层,从而召回出有打标结果的商户,并展示给C端用户。A/B实验表明,用户的长尾需求搜索体验得到显著提升。此外,也在酒店搜索领域做了一些上线实验,通过同义词映射等补充召回手段,搜索结果有明显改善。

主要采用GNN模型实现,在构图中构建了两种边,Query-POI点击行为和Tag-POI关联信息;采用Graph Sage进行图学习,学习的目标是判断Tag和POI是否有关联关系或者Query和POI是否点击关系,进一步依据关联强度进行采样。上线后结果显示,在仅利用Query-POI信息构图时,线上无收益,在引入Tag-POI关联信息后线上效果得到显著提升。这可能是因为排序模型依赖于Query-POI点击行为信息去学习,引入Graph Sage学习相当于换了一种学习的方式,信息增益相对较少;引入Tag-POI信息相当于引入了新的知识信息,所以会带来显著提升。

此外,仅接入Query-POI向量相似度线上效果提升不佳,将Query和POI向量接入后效果得到显著提升。这可能是因为搜索的特征维度较高,容易忽略掉向量相似度特征,因此将Query和POI向量拼接进去后提升了特征维度。

该任务通过当前已知的Item去预测用户点击的Masked Item。比如说获取Item的上下文表征的时候,将相关的Attribute信息也进行向量表征,从而去判断Item是否有Attribute信息。

此外,还可以做Masked Item Attribute 预测,从而将标签的知识图谱信息融入到序列推荐任务中去。实验结果表明,引入知识信息后的准确率在不同的数据集上均有数量级的提升。同时,我们也做了线上转化的工作,将Item表征做向量召回;具体来说,基于用户历史上点击过的Item去召回topN相似的Item,从而补充线上推荐结果,在美食列表推荐页有显著提升。

--

菜品知识图谱的构建目标,一方面是构建对菜品的系统理解能力,另一方面是构建较为完备的菜品知识图谱,这里从不同的层次来说明菜品知识图谱的构建策略。

菜名理解

菜名中蕴含着最精准、获取成本最低的菜品信息,同时对菜名的理解也是后续显式知识推理泛化能力的前提。首先是抽取菜名的本质词/主体菜,然后序列标注去识别菜名中的每个成分。针对两种场景设计了不同的模型,对于有分词情况,将分词符号作为特殊符号添加到模型中,第一个模型是识别每个token对应的类型;对于无分词情况,需要先做Span-Trans的任务,然后再复用有分词情况的模块。

菜名理解是一个较为重要的信息来源,但是所蕴含的知识相对有限,从而提出了基于深度学习模型进行初步字符推断,可实现对不同字面表述的泛化处理。但是对需要专业知识的case表现欠佳,偶尔在字面极其匹配时出现case。

从知识内容丰富的文本中挖掘某些菜谱的基础知识,来构建源知识库;然后通过泛化推理去映射到具体SKU中。在食材推理中,比如菜品种有多道红烧肉,统计10道五花肉中有4道是指五花肉,6道是指带皮五花肉,因此肉就转化为带皮五花肉。对应地,佛跳墙有多道菜谱,先通过统计每种食材出现的概率,可以卡一个阈值,然后表明该菜谱的食谱是什么。

多源数据挖掘,基于菜名理解结果构建solid knowledge triple,同时也依赖菜名理解结果泛化规则。该策略主要适用于处理食材、功效、人群等标签。该方法准确率OK,有一定泛化能力,但覆盖率偏低。

业务内有一些比较好用的训练数据,例如1000万商户编辑自洽的店内分类树。基于该数据可产生5亿的 positive pairs 和 30G corpus。在模型训练中,会随机替换掉菜谱分类的 tab/shop,模型判断 tab/shop 是否被替换;50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。同时,对模型做了实体化改进,将分类标签作为bert的词进行训练,将该方法应用到下游模型中,在10w标注数据下,菜谱上下位/同义词模型准确率提升了18%。

首先使用ReseNet对菜谱进行编,使用Bert模型对菜谱文本信息做编码,通过对比学习loss去学习文本和店菜的匹配信息。这里采用双塔模型,一方面是下游应用较为方便,单塔模型可独立使用,也可inference出菜品的表示并缓存下来;另一方面是内容单纯,暂无交互式建模的必要。训练目标分别是与店菜匹配、与菜名对齐,与Tab对齐。

可基于多模态信息做菜品品类预测或者菜谱信息补全。比如,预测“猪肉白菜”加上了信息将更加直观和准确。基于文本和视图模态信息进行多视图半监督的菜谱属性抽取,以烹饪方式抽取为例,首先通过产生烹饪方法训练样本(红烧肉-红烧);然后采用CNN模型去训练预测菜谱烹饪方法,指导Bert模型Finetune文本模型或者多模态模型,基于商户/tab/菜品及评论信息预测菜品烹饪方法;最终对两个模型进行投票或者将两个特征拼接做预测。

综上,我们对菜品知识图谱构建进行相应的总结。菜品理解比较适合SKU的初始化;深度学习推理模型和显式推理模型比较适合做同义词、上下位、菜系等;最终是想通过多模态+结构化预训练和推理来解决单模态信息不完整、属性维度多、需要大量标注数据等问题,因此该方法被应用到几乎所有的场景中。

今天的分享就到这里,谢谢大家。

分享嘉宾:

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/4043184.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-20
下一篇2023-08-20

发表评论

登录后才能评论

评论列表(0条)

    保存