本体_浅谈基于本体的问答查询系统

本体_浅谈基于本体的问答查询系统,第1张

  中图分类号:TP2文献标识码:A文章编号:1671-7597(2009)1210115-01 随着网络技术的发展,远程教育越来越受到人们的关注。答疑系统作为网络教育平台的一个重要组成部分,在老师和学生之间的交流方面发挥着重要的作用。传统的答疑系统比较集中在答疑方式和答疑系统的实时交互方面,对其中的关键部分-语义的理解,涉及的不是很多。

针对上面的问题,本文提出用领域本体作为语义理解的基础。本体(ontology)是一种用来描述概念以及概念和概念之间关系的模型,领域本体是本体的一种,它包含该领域的比较完整的知识和丰富的语义关系,把这些资源通过一种方法应用到问答查询系统中,使得一定程度上解决目前答疑系统中语义的理解不足的问题成为可能。

在问答查找系统中,针对特定领域的答疑,需要建立相应的领域本体。领域本体一般是由该领域的专家来建立。领域本体定义了该领域的一组术语,这些术语称之为概念。概念和概念之间的关系描述了该领域的概念结构。

目前已有的领域本体很多,出于对各自问题域和具体工程的考虑,构造领域本体的过程也是各不相同的。由于没有一个标准的构造方法,不少研究人员从实践出发,提出了不少有益于构造本体的标准,其中最有影响的是Gruber于1995年在文献中提出的5条规则:

1明确性和客观性:本体应该用自然语言对术语给出明确、客观的语义定义。2完全性:所给出的定义是完整的,完全能表达所描述的术语的含义。3一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。4最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修改已有的内容。5最小承诺:对待建模对象给出尽可能少的约束。

当前对构造本体的方法和性能评估还没有一个统一的标准,这是一个需要进一步研究的方向。目前对于特定的应用,本体的构造方法不完全相同。但在构造特定领域本体的过程中,有一点是得到大家公认的,那就是需要该领域专家的参与。下面,针对我们的答疑应用,采用语义网络的描述方法来构造领域本体。

领域本体的开发和完善是一个反反复复不断补充的过程。领域本体中的概念应该贴近于要研究的专业领域中的客观实体和关系法则。它的构造要经过五个步骤:

1确定领域本体的专业领域和范畴。可以通过确定专业领域和范畴作为开发领域本体的起点。首先,要明确构建的领域本体将覆盖的专业领域、应用本体的目的、本体应该在哪些方面发挥作用以及它的系统维护者与应用对象。

2复用现有的本体。如果系统需要和其它的应用平台进行互操作,而这个应用平台又与特定的领域本体或相关概念联系在一起,那么复用现有的本体是行之有效的方法。许多现成的本体,例如前面提到的Ontolingua的

本体文库、DAML的本体文库UNSPSC、和DMOZ等,可以导入到本体开发系统中,本体的格式转换也并不困难。

3列出本体涉及领域中的重要术语以及术语的属性与属性值。领域本体是描述概念以及概念与概念之间的关系,首先要列举出该领域中的所有概念以及对该概念的详细解释,在特定领域,这些概念就是有关的专业术语。除此之外,针对每个概念,要列出它所有可能的属性,每个属性都有对应的属性值。

4定义关联结点。为了对概念和概念之间的关联关系进行详细的说明,需要对概念定义关联结点。例如,为了说明概念“内模式”和“外模式”的区别,在概念“内模式”下存在一个关联结点:区别,该结点关联另外一个概念“内模式”。并需要对该关联结点详细说明。

5定义概念之间的各种关系。在领域本体中,概念和概念之间通过关系来交互。在知网中,一共描述了概念之间的8种关系;上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、整体部分关系、材料-成品关系、事件-角色关系。

知网可以看成是一个庞大的通用本体,构建这样的本体是件非常费时费力的事情。针对特定领域答疑系统的特点,在我们构建的领域本体中使用了四种关系:继承关系、部分关系、相关关系和同义关系,其中的继承关系可以看成是知网中的上下位关系。

1继承关系(is_a)。继承表示概念之间的包含和被包含关系,也可以看成是概念之间的泛化和特化关系。如果概念Ci是Cj的一种特殊概念,那么我们说概念Ci是概念Cj的特化,概念Cj是概念Ci的泛化,概念Ci继承于概念Cj。概念都有它自己的属性。如果两个概念间存在继承关系,那么继承的概念将拥有被继承概念的所有属性。例如,概念Cj继承于概念Ci。那么概念Cj将拥有概念Ci的所有属性,另外还可能有它区别于概念Cj的特殊属性。

如果概念Cj同时继承于Ci和Ck。这是一种多重继承(与面向对象的概念非常相似)。

2整体部分关系(part of)。概念和概念之间存在着整体部分关系。如果概念Cj是概念Ci的一个组成部分,那么我们说概念Ci和概念Cj之间存在整体部分关系。在数据库领域中,概念“前像”、“后像”都是概念“运行记录”的组成部分,所以“运行记录”和“前像”、“后像”之间是整体部分关系。

3相关关系(relevant of)。相关关系表明概念和概念由于某个主题而相互关联。概念 “前像”和“后像”由于都是“运行记录”的一部分而存在一种相关关系。相关关系可由继承关系和部分关系中导出, 所以图中可以不画出来。

4同义关系(synonymy of)。在一个领域中,一个概念可能有几种不同的表示方式,也就是可以用不同的词语来表示一个相同的概念。例如:“数据库管理系统”和“DBMS”、“聚集”和“簇集”都是同一概念的两种不同的说法,所以这两个概念之间存在同义关系。在图中,同义关系用一根不带箭头的实线相连,继承关系和部分关系是两种最主要的关系,相关关系可以从继承关系和部分关系中体现出来。出现同义关系的概念不是很多。

应用上面的四种关系,我们可以把领域中的概念构建成一个具有等级的网络结构。构建的过程是一个概念不断细化或泛化的过程。下面介绍构建等级网络结构的方法。建立一个等级网络体系有3种可行的方法。

自顶向下法:由某一领域中最大的概念开始,通过逐层的添加子概念将这些概念细化。最终得到本体的等级网络结构。

自底向上法:由最底层、最细小的概念定义开始,将这些细化的概念一层一层的组织在更加综合的概念之下,形成一个等级网络结构。

综合法:首先定义很多非常显而易见的概念,然后分别将它们向上层进行恰当地归纳和向下层进行细化,构成一个等级网络结构。

至于具体在实践中采取什么方法构建等级网络结构, 主要取决于于开发人员对专业领域的个人观点。由于综合法是从一些最普通的概念入手,比较符合人的习惯,所以综合法对本体开发者而言最便捷。

参考文献:

[1]Ontology Development 101:A Guide to Creating Your First Ontology_development/ontology101noy-mcguinnesshtm

不可以,如果你没有本体则可以共享游戏+dlc,如果你有本体则无法使用共享dlc。 Steam 家庭库共享让家庭成员和他们的来宾可以玩到彼此的游戏,同时获得自己的 Steam 成就并将自己的游戏存档保存到 Steam 云。

Steam平台是Valve公司聘请BitTorrent(BT下载)开发者布拉姆·科恩亲自开发设计的游戏和软件平台。Steam平台是全球最大的综合性数字发行平台之一。玩家可以在该平台购买、下载、讨论、上传和分享游戏和软件。2015年10月,Steam获第33届金摇杆奖最佳游戏平台。

2019年8月21日,由完美世界代理的中国版 Steam 数字内容分发平台正式定名为“蒸汽平台” 。

起源

Steam是一个整合游戏下载平台。2002年,Steam系统与CS14 Beta一起问世。Steam的运作十分成功广泛,无数游戏发行公司的游戏在此平台上发行、更新。

Steam英文原译为蒸汽。至于为什么叫“Steam”。在Steam平台上下载游戏的速度是非常快的,速度快得就像蒸汽一样喷薄而出,令人难以置信,所以名曰Steam。一般情况下可达到满速,有7个国内下载点可以使用。

2020年10月,Steam网页端的账号登录界面正式更换,从原来经典的左输入、右提示界面,变成了简洁现代风:“登录或下载Steam客户端” 。

2020年12月10日,Steam实验室发布更新,推出“浏览Steam”的新方式,玩家能够通过更加多元化的方式找到自己想要的游戏作品。平台引入了在不需要登录或进行复杂搜索操作的情况下,在一开始即可浏览 Steam 游戏目录的更多方法,以增加商店的显示区域。

知识图谱的概念是:知识图谱是自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库

该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。

然而目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放连接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。

知识图谱的体系架构是:

知识图谱的架构主要包括自身的逻辑结构以及体系架构。

知识图谱在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。

如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。

模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。

知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。

各个时辰出生的人的性格:

子时(23:00~00:59)

机智乐观,魅力浑然天成!

这个时辰出生的人都带有桃花的潜在特质,天生有迷人的魅力。他的警觉性、判断力都很敏锐,很有危机意识,无论在事业或感情上都很有冲劲,可惜感情方面很难自我控制,表面上看起来机智乐观,私底下却没什么安全感,甚至有点悲观。

他们善于交际,对朋友十分慷慨热心,只是他不喜欢承认增加的错误,你一旦背叛了他们,就会吃不完兜著走,乖乖等着接受他的碎碎念攻击吧!此外,他们都喜欢囤积物品,有未雨绸缪的习惯,因此通常都有储蓄的美德,也喜欢收集一些稀奇古怪的东西。

丑时(01:00~02:59)

不许别人说话的蛮牛!

这个时段出生的朋友,有着顽石一般沉默寡言的特质,通常极有耐性及毅力,能够吃苦耐劳,不达目的绝不罢休。但是这些特质反应在负面上,就会呈现出保守不知变通的固执倾向,他们自尊心超强又不服输,而且喜欢独断独行。

他们常会压抑自己的情绪,抗压力虽然不错,一旦发起牛脾气可就让人吃不了兜著走。他们对感情执着而专一,但有点儿不解风情,缺乏罗曼蒂克的精神,而且过于被动保守,往往有“爱人结婚了,对象不是我”的遗憾。

寅时(03:00~04:59)

神秘又强势的天生领导者!

这个时辰出生的人行动力很强!加上个性又野心勃勃,富侵略性,喜欢指使他人,只不过好大喜功又喜欢接受挑战的他们,却不喜欢服从别人,自我期许相当高,有些自负和惟我独尊的气息,因此很容易展现出领袖魅力。

他们神秘,特立独行且自主性高,在年轻时就有出人头地的本事,虽然不怎么重视金钱,却经常有着不错的财运。在恋爱方面,他们是感情丰富的一群,但相当专横霸气,爱得轰轰烈烈却总是惨淡收场。

卯时(05:00~06:59)

说话很圆滑,气质很高贵!

别被温柔好说话的外表给骗了,其实他们骨子里对自己认定的事早有一番主见,任谁也改变不了,内在和外在的差异有些极端。不过,平常的他们都是天性善良活泼,非常温柔善解人意的,他们重视朋友,但心思缜密,处世圆滑,不太喜欢卷入裴短流长的纠纷,也不太爱发表高见。

虽然他们行事比较低调谨慎,但优雅的却只仍让他们具有桃花的潜质,天生具有一股神秘魅力。事实上,他业是很在意自己形象的,而且重视生活情趣,讲究穿着品位加上谈吐得宜,很容易吸引异性的目光。

辰时(07:00~08:59)

受老天眷顾的幸运儿

这个时辰出生的人通常有颗令人羡慕的聪明脑袋,想法灵活多变,并且多才多艺,别人说的话更是一点就通。不过他们还蛮爱炫耀的,动不动就对人发号施令,喜欢干涉别人的举动,情绪捉摸不定也常令人头疼。好胜心强的他们对自我的要求很高,不过由于他们的精明干练加持,往往在事业上能很快出人头地。

感情上业是个得天独厚的天之骄子,经常都有仰慕者围绕身旁,政因为如此,他们极少真心去爱人,也很少会尝到爱情的苦果。

巳时(09:00~10:59)

谈吐幽默,人际关系一把罩!

这个时辰出生的人在人际关系中非常如鱼得水,因为个性聪明风趣又随和,还是不轻易动怒的好好先生(**),讲话得体善于言辞,肢体动作散发着一股自信的魅力,让与他接触的朋友都能有愉快的感受。他有超人的洞悉力,直觉力强且判断力精准,不喜欢操劳的工作,但财运亨通相当幸运。

在感情上,他的嫉妒心与占有欲强,会专制霸道的紧紧纠缠情人不放,但是另一方面,他却不是个专情的人,只许自己移情别恋,把旧情人当成自己的私人财产。

午时(11:00~12:59)

相当爱秀,有当万人迷的特质

他们不但有着热情开朗的性格,口才更是嗷嗷叫,聪慧有急智的他们,在戏剧、音乐或运动之类带点表演性质的活动中,最能发挥所长,充分展现群众魅力。慷慨好客、自信心强、个性坚强老练,都是他的优点,但他们业有固执己见的一面,有宁为玉碎不为瓦全的刚烈本质。

在爱情方面,他们虽然蛮专情的,不过有些爱现和自我中心的性格,喜欢享受被人偶像式的崇拜和众星拱月的感觉,表面上看起来有点花心,实际是对家庭忠实的工作狂。

未时(13:00~14:59)

孩子气又容易被神秘所吸引!

这个时辰出生的人有着艺术家的气质,喜爱大自然,个性朴实儒雅,亲切而有同情心。可是平常一派随性自由的他其实很主观,对现实充满了幻想,有时还会沉溺在神秘色彩中,受到稀奇古怪的事物吸引,因而迷信鬼神之说。

在感情方面,他们有点孩子气,不但脆弱又自尊心强,总是不轻易表达自己的爱意。他们喜欢被照顾,虽然适应环境的能力还不错,但如果终日处在逆境中要他吃苦耐劳,他会变得牢骚不断,有很多的抱怨。

申时(15:00~16:59)

有双重性格的社交高手!

这个时候出生的人在大众眼中是机智幽默又善于交际的,却有着不为人知的双重性格,表面上他们都看来和蔼可亲,实则生性多疑,甚至带点狡猾,而且有种得理不饶人的倾向。他们十分好奇,喜新厌旧,反应敏锐又很有谋略,长于社交应对,非常机灵又讨人喜欢,一成不变的事情容易令他们厌倦,因此不太适合沉闷呆板的工作类型。

酉时(17:00~18:59)

美感独具的造型达人!

他们的脑筋转得很快,但脾气往往业转得跟脑子一样快,动不动就生气变脸,言语尖锐直率,不太重视别人的感受,容易在无意中得罪人。个性开朗热情,业常常自以为是。由于这个时候诞生的人具备桃花潜质,很重视自己的外表,对于色彩、造型和美感有独到之处,甚至不排斥用标新立异来引人注意!

谈恋爱时,他们很善于营造浪漫气氛,只不过善妒且占有欲太强,往往让情人受不了,因此造成问题。

戌时(19:00~20:59)

会跟人保持一定的距离

他们做事稳健沉着,但内心伸出其实埋藏着不安全感,不安的情绪让他警戒心很强,因此在外人眼中看起来有些冷漠,但只要能取得他的信任,就度亲密伙伴绝对忠实,有很强的使命感,是忠实可靠的朋友,交付给他的任务,绝对使命必答。

感情上的喜怒哀乐很少表现与外,不能算是社交活动的高手。对于心仪的人,他的内心就算充满爱意,表面仍会装出一副无所谓的样子。他很怕那种紧迫盯人的追求方式,想要跟他谈恋爱,最好是有点黏又不太黏。

亥时(21:00~22:59)

多情感性和赚钱头脑兼具!

虽然动作慢吞吞,其实他们非常聪明,而且博学多闻,个性忠实善良,只是心软且生性温和,又有点死心眼,因此有容易受骗的倾向,不过他绝不会上第二次当!社交手腕独到,修养很好,业很有赚钱的头脑并且财运不错。

他们感性且多情,会压抑自己的情绪,在不明了对方的想法之前,很少表白自己的心意,以免自己受到伤害。不过对于爱人和家庭,他绝对是摆在第一位,会尽全力付出所有。

无论是知识库还是服务的语义描述都需要具有良好的组织和存储,以支持高效推理和服务检索发现。目前对于本体的存储方法基本有三种(李勇等,2008):

(1)纯文本,如 OWL 文件。由于 XML 的信息组织和存储方式结构复杂,而且存在冗余等,基于其上的查询检索效率通常会比较低。纯文本的方式适合本体比较小的时候,不适合本体大规模应用的情况。

(2)数据库: 是一种比较好的持久化存储方式,最大好处是便于查找,可存放大本体,查询效率高,特别在 I/O 效率上。但是数据库方式存在本体查询语言到 SQL 的转换问题,需要借助于第三方中间件或自定义实现。

(3)专门的管理工具: 比如说 OMM(Ontology Middleware Module)支持对 RDF、OWL 的存储管理,还提供各种接口,可以使用查询语言对 RDF 或者 OWL 进行查询。综合对比这三种本体存储方式,由于关系数据库存储几十年的技术积累,以及它的海量存储特点而成为了许多研究者的首选。

5431 本体的关系数据库存储模式

由于本体模型和关系模型的差异,目前存在多种在关系模型中存储本体的方法,其主要可以分为以下四类(陶皖等,2007; 陈光仪,2009)。

54311 水平模式

该模式只在数据库中保留一张通用表,表中列为本体中的属性。整个本体库中定义了多少个属性,这张表就有多少个列,具体如图 528 所示。本体中的每个实例对应该表中的一条记录。这种存储模式结构简单,执行查询操作比较方便。但是该通用表包含了大量的列,而现有的数据库系统对一张表中列的个数都是有限制的,所以该模式无法存储规模较大的本体。而且表中的数据过于稀疏。由于每个实例对应关系表中的一行,如果其在某些属性列上没有值,那么必须将对应的属性值设置为空,这将导致大量空字段的出现,不仅浪费存储空间,而且增加了索引维护的代价。另外该通用表中一个实例的属性和属性值只能是一对一,而实际情况往往是一对多,因此无法存储具有这种特征的本体。随着应用中本体的进化,还需要时常更新通用表中的列,重新组织表结构,这将耗费极大的系统代价。

图 528 水平存储模式

54312 垂直模式

垂直模式包含一张三元组表,表中的每条记录都对应一个 RDF 三元组(主语,谓词,宾语),具体如图 529 所示。因此这种模式下,需要将本体中的所有信息都以 RDF 三元组的形式表示出来。Protege(2002)中便是使用了这种存储模式将本体存储于数据库中。这种模式设计简单,并且结构稳定。如果本体进行了更新,只需修改表中相应的元组即可。另外,该模式通用性好,因为现有的本体模型都可以转换为 RDF 模型表示。但是这种模式的可读性较差,若对本体信息进行查询,那么设计对应的 SQL 语句比较麻烦。除此之外,由于所有信息都存放在三元组表中,导致任何一个本体信息查询都必须遍历整个数据表,特别是那些需要进行表连接的查询,使得查询效率非常低,这是这种模式最大的不足之处。

图 529 垂直存储模式

54313 分解模式

该模式与水平模式和垂直模式的一个显著的区别是它使用了若干张表,其基本思想是将数据库进行模式分解。根据分解的对象不同,现有的采用分解模式的方法有两种。①基于类的分解模式,即为本体中的每个类都创建一张单独的表,表名为类名,表的列为类的属性,具体如图 530 所示。这种模式结构清晰,但是很难适应本体动态变化的情况,因为随着本体中类或者属性的变化,表结构都要随着变化。②基于属性的分解模式,即为本体中的每个属性创建一张单独的表,表名为属性名,每个表都包含两个列,分别代表RDF 三元组中的主语和宾语,具体如图 531 所示。在该模式中对类的隐含实例的查询代价很大,而且在现有的这两种分解模式的方法中,随着本体的变化都要不断的创建和删除表,而在数据库系统中创建和删除表的效率很低。

图 530 按类分解模式

图 531 按属性分解模式

54314 混合模式

该模式通常将上述几种模式进行混合使用。例如,Pan 等(2003)提出这样一种将基于类的分解模式与基于属性的分解模式混合的存储模式,即在本体中定义一个类就为该类创建一个表(创建方法类似于基于类的分解模式),在本体中定义一个属性就为该属性创建一个表(创建方法类似于基于属性的分解模式)。然而,与基于类的分解模式不同的是,该混合模式在类对应的表中不记录相应实例的所有信息,而只记录实例的 ID。实例在各个属性上的取值则分别记录在各属性对应的表中,所以和基于属性的分解模式类似,该模式在属性对应的表中仍然需要两列: 主语和宾语。对于本体类数目不多的情况下,这种模式在简单检索的情况下,运行得很好。但是,如果本体的类比较多,这种方式就会存在一些问题,例如: 数据库无法容纳这么多表,或者效率低下。

针对上述四种模式,陈光仪(2009)从四个方面对适用场合、查询和更新效率、结构清晰以及易理解性、可扩展性四个方面对他们进行了综合对比(表 54):

表 54 不同存储模式的综合对比

(修改自陈光仪,2009)

通过上述对本体存储模式的阐述及之间的综合对比发现,本体存储模式除了应该具有尽量高的规范化程度(例如满足第三范式或 BCNF 范围等),还应该满足以下三个原则。

(1)模式结构易于理解。该原则是为了便于本体查询的实现。如果模式结构不直观,会给查询语句的设计带来困难。例如,垂直模式不满足该要求,它将所有的信息都采用三元组的形式存储在一张表中,不容易理解表中元组的含义,加重了本体查询设计的负担。

(2)模式结构稳定。即本体的变化不会引起数据库表结构的变化。因为本体是不断进化的,如果设计的模式结构会随着本体的变化而变化,数据库系统对其维护代价太大。现有的水平模式、分解模式和混合模式都不满足该要求。

(3)查询效率高。该原则是评价各种存储模式的一个重要指标。因为本体中不仅包含大量的数据,而且查询中还经常需要进行表连接。例如在现有的垂直模式和基于属性的分解模式中,那些涉及表连接的查询效率非常低。

目前在基于数据库的本体存储的实践上,一些学者开展了相关的研究工作:

燕云鹏(2007)和陈光仪(2009)提出了类似的针对于针对 OWL 的本体数据库的混合本体存储模式(图 532,533)。可以看出这种模式是以基于属性的分解模式与垂直模式的混合体,具有较好的扩展性。但是存在的问题是效率不够高,所有的类存储在一个表中,所有的实例也存储在一个表中,这种方式的检索效率比较低。另外存储实例的表(Instance,Proterty,Value)中字段 Value 必须存储许多种不同类型的数值,比如有的是文本型,而有的却是数值型,使得数据不够清晰。此外,在针对几何体这种复杂的地理对象,这种字段就比较难以存储。

图 532 本体的数据库混合存储模式(据燕云鹏,2007)

ebRIM(ebXML Registry Information Model)是一个主流的信息注册模型,已成为事实上的标准,得到了 OGC 等支持。OGC 已经实现了基于 ebRIM 的目录服务,并推荐其作为目录服务的实现规范。但是目前基于 ebRIM 的目录服务只支持普通的基于关键字的检索。为此,一些学者已经开始研究如何扩展 ebRIM 实现对语义信息特别是 OWL 的注册。Dogac 等(2004)提出了如图 534 所示的一种通过将 XML 形式存储的 OWL 文件转换为以数据库形式存储,使得查询检索更加快速,管理维护也更加方便。为了能在 ebRIM 存储复杂的地理空间信息对象,一些学者开展了基于 ebRIM 的地理扩展方面的研究工作。乐鹏(2007)在其论文中提出了两种扩展方式: ① 从类 “ExtrinsicObject” 派生了“CSWExtrinsicObject”来描述那些不是 ebRIM 自身定义的元数据对象。比如类 “Dataset”继承了 “CSWExtrinsicObject”来描述空间数据集。②对 ebRIM 已有的类别增加 “Slot”。每一个从 “RegistryObject”继承下来的类均允许添加 “Slot”。ebRIM 中的 “Service”类可以用来描述空间服务,但是已有的属性不足以描述空间网络服务。因此,通过添加“Slot”到 “Service”类中以定义从 ISO 19119 派生的属性。如图 535 所示为经扩展后的ebRIM 高层模型图,其中 灰 色 填 充 的 矩 形 框表示 扩 展 的对 象 类。该 模 式 与 前 面 燕 云 鹏(2007)和陈光仪(2009)提出的模式相比,本质上差别不大,也是以基于属性的分解模式与垂直模式的混合体,只不过是基于标准的 ebRIM 注册模型,并且将其中的分类系统相关的类单独以两张表存储。该模式也具有很好的扩展性,也存在同样的一些问题。

图 533 本体的数据库混合存储模式(据陈光仪,2009)

海洋信息网格技术与应用

续表

534 OWL 元素到 ebRIM 元素的映射(Dogac et al,2004)

5432 基于多分解策略的混合存储模式实现

对知识库以及服务语义注册信息的存储的实现上,本书在现有的研究成果的基础上,结合本体组织构成及特点等实际需求,提出了一种基于多分解策略的混合关系数据库存储模式。

该方法的指导思想是: 先按类对其中的数据专题、数据模式、处理模型等进行类的分解,然后结合属性的特性进行基于属性的分解。其中基于类的分解中,可能粒度的大小不一,可能是一个类或者具有相关或相似的一些类划分为一张表存储; 而基于属性的剖分,也并不是所有具有该属性的类以一个表存储,而可能是只针对一个类也单独组织为一张表,其具体思路如下:

图 535 经扩展的 ebRIM 高层模型图(据乐鹏,2007)

(1)类的分解: 因为本研究的存储模型不是为了实现一个通用的本体存储模型,而是为了实现一个服务于海洋信息服务领域的本体存储模型。海洋信息服务领域必然会牵涉到一些对象,比如对服务、模型、参数等对象,并且对这些对象的认识也基本上确定(也就是说这些对象类所具有的属性及之间的关系基本明确),所以没必要像上面几种实现方案那样因为不能预知都有哪些类,各类都有哪些属性而将所有的实例的组织按垂直方式进行存储,也没有必要有一些表(比如独立的属性表,属性的作用域和值域表等); 而有必要针对海洋信息服务领域内的这些类的信息内容独立出一些表: 对于海洋专题,地理名实体、处理模型、数据模式等海洋信息检索发现中常用的对象,则有必要进行分开存储,否则必然使得结构不清晰,且检索查询效率低。

(2)对于专题、空间形态以及模型功效等只是简单的分类系统,所具有的属性少,而且今后存在派生新的种类的可能,因此必须具备一定的扩展性。针对这类数据。它们的存储方式是(ClassID,ParentClassID,ClassType),其中 ClassType 标注本体类是属于专题(比如 “海流”)或者其他。

(3)对于取值不唯一的属性,且大部分类或实例都具有的属性,则采用基于属性的分解模式。比如对于别名属性(hasAliasName),有可能一个类实例具有多个别名,这种情况下,则采取基于属性的组织方式。该表的形式是:(OntologyID,AliasName),其中OntologyID 可以是本体类的 ID,也可以是本体实例的 ID,还可以是本体属性的 ID,因为类、实例和属性都可以有别名。

(4)对于复杂的属性,采取大二进制存储的方式。比如对于地名实例的空间覆盖范围,则不考虑其实际内部是包含多少个组成部分,统一按一个 shape 存储在数据库中。当然这里借助了 ArcGIS 的 GDB 的 FeatureClass 矢量数据模型,并对于不同空间形态的则采用了多张表(点状地名类、线状地名类、面状地名类),其组织方式是(GeoNameObjec-tID,shape)。同样,对于模型本体中的内部流程本体,也采用了大二进制方式存储,将整个流程 XML 描述文件,作为一个整体存放于字段中,其大体组织方式为(ModelID,FlowXML)。

(5)本研究采用 ArcGIS 的 GeoDatabase 作为存储模型。本体类(ontClass)的存储结构如图 536 所示,数据库的总体组织结构如图 537 所示。

图 536 本体类(onClass)的存储结构

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/qinggan/3809997.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-18
下一篇2023-08-18

发表评论

登录后才能评论

评论列表(0条)

    保存