人工智能技术关系到人工智能产品是否可以顺利应用到我们的生活场景中。在人工智能领域,它普遍包含了机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR七个关键技术。
一、机器学习
机器学习(MachineLearning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
根据学习方法可以将机器学习分为传统机器学习和深度学习。
二、知识图谱
知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。
知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。
三、自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。
机器翻译
机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。
语义理解
语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。
问答系统
问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
自然语言处理面临四大挑战:
一是在词法、句法、语义、语用和语音等不同层面存在不确定性;
二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;
三是数据资源的不充分使其难以覆盖复杂的语言现象;
四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算
四、人机交互
人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术。
五、计算机视觉
计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:
一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;
二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;
三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
六、生物特征识别
生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。
识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。
七、VR/AR
虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势
知识图谱的基本组成三要素:实体、属性、关系。实体-关系-实体 三元组;实体-属性-属性值三元组。目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。比如谷歌为搜索引擎所建立的知识图谱就属于开放域的。垂直领域的知识图谱,比如说金融的,电商的。
首先就是要先处理数据。互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张,这就是一些非结构化数据了。但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。
从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用。比如说,从一段文本里面,我们提取出来比尔盖次这个实体以及微软这个实体,然后再进行一个关系提取。比尔盖次是微软的创始人,会有这么一个对应的关系。另外还有属性提取,比如比尔盖茨的国籍是美国。在这些提取完成之后都是一些比较零散的信息,然后在再加之前用结构化信息所拿到的东西以及从第三方知识库里面所拿到的信息做一个融合。
另外还需要做的是实体对齐和实体消歧。
关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。
另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。
在完成了以上步骤之后,接下来就是本体抽取。比如之前提到的微软和苹果,它们的实体是公司。从文本里面可能无法直接提取出来,它们是公司。那么需要一些方法对他们进行抽取。然后搭建出本体库,比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。
在以上步骤完成之后需要对知识库进行质量评估,这是一个避免不了的人工步骤。在做完质量评估以后,最终形成知识图谱。形成知识图谱以后,有些关系可能是无法直接得到的,然后需要进行知识推理,这可以对知识图谱进行扩展。比如,猫是猫科动物。猫科动物是哺乳动物。这就可以推理出来,猫是哺乳动物。但是这个推理也不是随便就可以推出来的。比如,比尔盖茨是美国人,比尔盖茨创建了一个公司,但这个公司并不一定是美国的。
这篇笔记来自于北大邹磊教授的知识图谱讲座
主要内容:
2012年5月16日,Google发布了“知识图谱”的新一代“智能”搜索功能,第一次提出了“知识图谱”的概念。
知识图谱(Knowledge Graph):本质上是基于图的语义网络,表示实体和实体之间的关系!构建知识图谱的目的,就是让机器具备认知能力,理解这个世界。
知识图谱是Web和大数据时代的知识工程新的发展形态。
知识工程的核心: 知识库 和 推理引擎
RDF(Resource Description Framework),目前是描述本体的事实标准
RDF定义了一个简单的模型,用于描述资源,属性和值之间的关系。资源是可以用URI标识的所有事物,属性是资源的一个特定的方面或特征,值可以是另外一个资源,也可以是字符串。总的来说,一个RDF描述就是一个三元组:<主语、谓词、宾语>
进一步扩展RDFs的词汇,可声明 类间互斥关系、属性的传递性等复杂语义 ,支持基于本体的自动推理,提供了一组合适web传播的描述逻辑的语法,对机器友好,但认知复杂性限制了工程应用。
实体对齐必然涉及到 实体相似度的计算 ,假设两个实体的记录x和y,x和y在第i个属性上的值是xi,yi,那么需要通过两步计算:
自然语言处理和知识图谱研究是双向互动的关系。
RDF概念很早提出了,但是发展比较缓慢,是因为自然语言处理技术发展较慢,手工建立的数据集比较少,从而影响力较少。随着机器学习等自然语言处理技术的快速发展提高了信息抽取的效率和准确度,通过技术可以快速建立大规模知识图谱。
智能问答的方法:
知识图谱本质上是多关系图,通常用“ 实体 ”来表达图里的结点、用“ 关系 ”来表达图里的边。
基于关系的知识图谱存储管理
原生知识图谱存储管理--RDF
回答RDF数据上SPARQL查询==子图查询匹配
原生知识图谱存储管理--属性图
分布式知识图谱存储管理:
图表示学习用于“自然语言问答”:
1956年达特茅斯会议,提出“人工智能(Artificial Intelligence, AI)”概念。
“用机器来模仿人类学习以及其他方面的智能”
“上古”流派:符号主义(Symbolism)和连接主义(Connectionism)
符号主义发展历史:
语义网络(Semantic Network):1970年,Herbert ASimon正式提出,通过有向图来表示知识,作为知识表示的一种通用手段。
知识工程(Knowledge Engineering):1977年美国斯坦福大学计算机科学家Edward Albert Feigenbaum教授在第五届国际人工智能会议上提出,确立了知识工程在人工智能中的核心地位。
人工智能需要机器智能,特别是认知智能,认知智能依赖知识图谱
知识图谱脱胎于符号主义;但是和连接主义的结合是目前的重要研究方向(例如知识图谱的表示学习等)
大数据的特点:多样化(variety)、规模大(volume)和速度化(velocity)
“世界是普遍联系的整体,任何事物之间都是相互联系的” ---- 马克思《辩证唯物主义》
“知识图谱”是面向关联分析的大数据模型
慧满分利用自身的黑科技系统,能够因材施教,构建根据学生自身情况的专属知识图谱和能力图谱,并分析学生的学习短板。不仅如此,慧满分还在大数据的帮助下,实现以学生为中心的辅导和学习。此番做法,能够节约两倍以上的花费投入,让孩子发挥出自己真正的实力。
从知识管理的角度而言,知识图谱的应用场景有以下这些:
智能知识库:采用数据爬虫、NLP、知识图谱等技术,实现企业知识内容自动采集以及自动化加工整理,帮助企业节省成本,从而便于企业从0-1快速启动知识管理工作;
科技资源图谱:以专业知识本体为中心,实现企业相关专利、论文、成果、标准等知识资源的一体化管理,可以为跨类型发现科技情报关联、科技情报语义检索、以及技术决策分析提供支持。
产品知识图谱:打通研发、制造、市场等环节,实现产品全生命周期数据&信息&知识的全视图呈现、产品信息查询、产品版本时序追溯等,并可以为产品原料挖掘、研发成本计算、产品卖点提炼等提供决策依据。
解决方案图谱:帮助方案型企业实现针对各个解决方案的特征(F)、优势(A )、利益(B)和证据(E)的FABE结构化知识描述,并动态关联方案相关的专家、项目、客户等信息,可以为提升公司产品方案的销售赋能效果,提高项目中标率等提供支持。
项目知识图谱:实现项目基本属性、项目阶段成果、项目关联信息(如合同、人员、客户、业绩等)的一体化管理,构建融项目结构化、非结构化数据为一体的“项目户口本”应用,可以为企业项目资产管理、项目知识成果推荐复用等提供支持。
设备维修图谱:面向设备健康场景,通过设备故障、家族型缺陷、故障案例、缺陷记录等各类数据构建成设备维修图谱。如以变压器为例,设备维修图谱基于装备、部件、故障、质量分析报告、故障事件等数据形成统一管理知识库,为设备管理人员提供家族缺陷信息、设备故障等查询功能,为设备维修人员提供相似案例推荐、设备处理建议等功能,同时支持可视化分析缺陷影响范围。
工艺知识图谱:基于人机料法环五要素,实现工艺、工艺原料、工艺流程、工艺缺陷、工艺设备、相关人员等数据融合,可以为用户提供工艺知识检索、工艺全景展示、工艺流程控制等应用。如在工艺流程控制中,可由实施人员对设计人员的工艺设计进行可行性检测,减少不合理的设计、避免后期返工,进而达到工艺协同改进、辅助工艺设计的效果。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)