信息搜索定义

信息搜索定义,第1张

1

信息检索(information retrieval):是指将信息接一定的方式组织和贮存起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存贮与检索(information storage and retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即根据课题的需要,主要借助于检索工具,从信息集合中找出所需信息的过程,相当于人们所说的信息查寻(information search)。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。

2

当你拿到一本书就会在封底或版权页看到由“ISBN”(国际标准书

号)和10位数字为标志组成的字样,其格式为:ISBN7-5004-1693-

8/I·200,它的含义是:ISBN组号-出版者号-书名号-校验号/图书

分类号·种次号。组号代表一个地区或地理区域、国家或集团的编号,

中国的编号是“7”;出版者号代表出版社的编号;书名号是出版社出

版的一种特定出版物的名称;校验号校验ISBN编号是否合法。中国加入

ISBN系统之后制定了相应的国家标准-中国标准书号,并于1987年1月

实施。

如此繁复的代号和数字组合有什么作用呢?其一,帮你了解图书的

出版规模。ISBN由十位数字组成,其中校验号恒定为一位数,组号可取

1-5位数。如果一个国家或地区的组号是五位数,其中出版者号与书名

号位数之和就是四位数,通过排列组合,这个国家或地区的出版量最多

只是一万种;而组号如果是一位数,那么其中出版号与书名号位数之和

就是八位数,其出版量将高达一亿种,组号的位数越大出版量越小,组

号的位数越小出版量越大。我国的组号是〃7〃,可见其出版量之大。

其二,帮你了解出版者。首先,可以了解出版者的出版规模和目前

的图书出版数量。ISBN的出版者号与书名号的位数之和恒等于八。目前

,我国出版者可取代码2至5位数,如果出版者号是三位,书名号就是五

位数,则出版量就是十万种,出版者号的位数越小,书名号的位数越大

,出版量也越多,反之出版量越少。例如:商务印书馆1996年7月出版

的《现代汉语词典》修订第三版,中国标准书号为ISBN7-100-01777

-7/H519。“100”是商务印书馆的代码,“01777”是书名号,表示

商务可出版10万种图书,至1996年7月已出版了1778种(出版者所出版

的第一种图书书名号从0计算)。另外,可以了解出版者是综合性的还

是专业性的。ISBN的书名号与种次号分别代表的是可以出版多少种图书

,已经出版了多少种和某一类目出版了多少种。例如,人民文学出版社

的《当今十大奇案》,中国标准书号是ISBN7-02-000420-2/I·421

其书名号与种次号相等,说明人民文学出版社是专业性的出版社,它以

出版文学类的图书为主。

其三,方便了图书馆工作人员。由于ISBN具有世界唯一性,所以通

过ISBN检索的准确性要高于通过书名检索的准确性。书名有重名现象,

比如茅盾有长篇小说《虹》,而英国的劳伦斯也有长篇小说《虹》。通

过ISBN检索具有唯一性,检索的速度也要高于通过书名检索的速度。书

名少则几个字,多则十几个字,而ISBN只有十个阿拉伯数字,一般的工

作人员都能够录入且速度要比录入书名的速度快得多。

总之,中国标准书号的最大特点是将国际标准书号(ISBN)和全国

统一书号中的分类号和种次号的成份结合起来,结构简单层次性强,便

于计算机处理和检索,给出版、发行、订购、统计、分编等提供很大的

方便,是读者进入图书馆查阅图书的一个重要检索点。

3

计 算 机 检 索 系 统 的 构 成

计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。

一、计算机硬件

计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。

二、软件

软件由系统维护软件与检索软件构成。系统维护软件,如数据库管理程序、词表管理程序等,其作用是保障检索系统的高效运转。检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。检索软件可以分为指令式、菜单式和智能接口等。

三、数据库

根据ISO/DIS 5127标准,数据定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。

按国际上通用的分类方法,数据库可以划分为以下类型:

1 参考数据库

参考数据库(Reference databases)是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库(Bibliographic databases)和指南数据库(Referral database或Directory database)两种。

书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,有时又称为二次文献数据库,或简称为文献数据库。如中国机械工程文摘数据库,属于此类型数据库。

指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。

2 源数据库

源数据库(Source databases)是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:

(1)数值数据库这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。

(2)文本-数值数据库这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。

(3)全文数据库这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。

(4)术语数据库这是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。

(5)图像数据库这是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、或照片等资料类型的计算机存储与检索。

除上述几种类型的数据库外,还有能同时存储多种不同类型数据的数据库,即混合型数据库。另外,按其载体不同又可分成磁媒体数据库、光盘数据库和多媒体数据库等。

四、通讯网络

由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。随着空间技术的发展,信息检索已进入了信息传递-卫星通讯-计算机技术三位一体的新阶段。

4

《中国图书馆分类法》有22大类:A 马克思主义、列宁主义、毛泽东思想、邓小平理论,B 哲学、宗教,C 社会科学总论,D 政治、法律,E 军事,F 经济,G 文化、科学、教育、体育,H 语言、文字,I 文学,J 艺术,K 历史、地理,N 自然科学总论,O 数理科学和化学,P 天文学、地球科学,Q 生物科学,R 医药、卫生,S 农业科学,T 工业技术,U 交通运输,V 航空、航天,X 环境科学、安全科学,Z 综合性图书。

详细类目可查阅图书馆主页《中国图书馆分类法》。

体育有:G 文化、科学、教育、体育

5

1是否支持全文检索

2检索结果如何排序,相关性,时间等,是否全面

3检索功能是否全面,如布尔逻辑检索、关键词检索、位置检索、截词检索、限制检索等等

4查询速度如何,维护更新如何

5界面是否简单易用,易用性是否强

建议你找本关于《信息检索》的书来看看,我说的特别简单,手头没有书,你要是想具体看看,还得看书。人大出版社的那本信息检索不错。

6

根据文献的有关信息查找相应的馆藏目录或联合目录,找到收藏单位,再索取或复制原文。如果本单位图书馆没有收藏所需文献,用户可以通过馆际互借或文献传递服务获取。

7

学术性图书馆当然以国家图书馆最权威,各高校图书馆都收藏有相应的学术资源,可通过中国高校文献保障系统(Calis)来查重要高校的馆藏和信息服务情况。

(一)按存储与检索对象划分,信息检索可以分为:

文献检索

数据检索

事实检索

以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。

(二)按存储的载体和实现查找的技术手段为标准划分:

手工检索

机械检索

计算机检索

其中发展比较迅速的计算机检索是“网络信息检索”,

也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。

(三)按检索途径划分:

直接检索

间接检索

联机信息检索:用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。这种计算机系统一般设有较多的数据库,而每个数据库可以包括几百万条文献的书目款目或科技数据。每检索一个课题只需数十秒钟,检索到的题录、文摘或数据还可立即在终端上显示和打印出来。联机检索的实现,对于图书馆传统的收集、查找与提供资料的方式来说,是一次革命。\x0d\\x0d\网络信息检索:指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据分布式存储、用户分布式检索、数据分布式处理。\x0d\\x0d\二者的不同点在于:\x0d\\x0d\联机检索通过检索软件的运行从联机信息中心数据库查寻信息,检索方法是通过终端设备输入检索词或检索策略进行检索,而网络检索从远程机中获取信息,网络信息检索系统的检索工具是搜索引擎;\x0d\\x0d\联机检索需要通过使用终端设备,按照一定的检索规则进行检索,而网络检索为用户提供了良好的信息查询界面:\x0d\\x0d\联机信息检索的检索费用较高,而网络信息检索大多时候是不需要收费的:\x0d\\x0d\联机信息检索的信息质量好,而网络信息检索的信息存在着大量的垃圾信息,信息质量较低;\x0d\\x0d\联机信息检索查准率高,而网络信息检索查准率低。

检索:

通过词句查找相关的全文是浏览器端常用的方法,ASP类似于CGI,也可以进行简单的文本方式全文检索

简单讲搜索没检索来的全面彻底

检索方法介绍:

确定被检索的文件。将它们保存在同一文件夹中。文件的类型可以是任何文本类型(包括htm网页文件类型,这里主要针对htm)

建立被检索文件的信息库。其中主要包含文件名,文件标题等。

用ADO方式访问数据库。建立记录集对象。

逐个打开记录集中当前记录所指向的文件。用查找的字串对文件的全文本进行匹配比较。

将符合条件的文件标题输出到客户端Web页,并加入指向该文件的超链,以供用户选择浏览。

技术要点:

匹配字串的长度。由于浏览器端的数据经过编码传到服务器端,ASP通过其内建对象Request取得的数据也并非完全是用户输入的有用信息,所以要加以处理。可以在输入字串后附加一标志字符(如#或chr(7))。本文将采取另一种方法,即计算有效信息的长度。从而截取所需的字串。

创建脚本的文件系统对象ScriptingFileSystemObject,从而打开文本流以读入。

特点:

直接对htm文件进行全文检索,省却许多转换过程。htm文件又用于网页的显示,一举两得。

应用ASP,简单明了,易于实现。

广义的信息检索包括信息存储与信息检索两个部分。

信息存储:

信息存储是指将各种形式的信息有效地保存和组织起来,以便后续的检索和利用。在信息存储阶段,需要选择合适的数据结构、数据库系统或其他存储技术来存储信息。同时还需要考虑数据的完整性、可靠性和安全性等方面的问题。信息存储涉及到数据的组织、分类、索引以及存储介质的选择。

信息检索:

信息检索是指通过用户的查询需求,在大规模的信息集合中找到满足用户需求的相关信息。它是一种从海量信息中提取目标信息的过程。信息检索的关键任务是设计和实现高效的搜索算法和检索系统,以确保能够准确、快速地找到用户所需的信息。信息检索涉及到词汇处理、文本表示等技术。

两部分的关系:

信息存储负责将信息有效地组织和保存起来,而信息检索则是在存储的信息集合中根据用户的查询需求找到相关的信息。这两个部分相辅相成,共同构成了信息科学领域中的重要研究内容。

狭义的信息检索:

其含义:

狭义的信息检索是指通过用户提供的查询词或查询语句,在文本集合中查找并返回与用户需求相关的文档或信息。它是一种针对特定问题或主题进行的信息提取过程。

其应用:

狭义的信息检索专注于在大规模文本集合中有效地找到满足用户查询需求的相关信息。它广泛应用于互联网搜索引擎、数据库查询、文档管理系统等场景,帮助人们快速获取所需的信息资源。

其步骤:

1、查询输入:用户通过关键词、短语或查询语句向信息检索系统提出查询请求,描述自己的信息需求。

2、检索匹配:将用户的查询与索引进行匹配,找出与查询相关的文档或信息。匹配可以基于单词的匹配度、相似性度量或其它算法来进行。

3、结果呈现:将排序好的文档结果呈现给用户,通常以列表形式展示,包括标题、摘要等信息。

一、网络信息搜索

一提到网络搜索,大家马上会想到谷歌和百度。当然,一遇到问题人们可能最先想到的就是这两大搜索引擎。但是呢,好的信息搜索并不只有这两个,每一种搜索引擎都有各自的利弊,选不对搜索引擎,就像选了不合脚的鞋一样,能走路,但艰辛痛苦,也跑不快走不远。使用搜索引擎首先要了解各种搜索引擎特点,否则你可能浪费大量时间。这次搜索,你应该使用百度还是Yahoo?Google还是百度?分析你的需求,选根据需求找拥有相应功能优势的搜索引擎。这里介绍一些:

1方向着手

(1)从行业入手查找,比较好用的是“百度产品大全” (点击首页“更多”选项即可):行业报告——各行业官方报告、评定、专家解读,行业与单个品牌市场综述、分析,行业与单个品牌数据、过往新闻。当然这个不乏广告成分,所以需要鉴别,当心受骗。

(2)寻找特定领域的人了解情况,寻找合适采访对象,如专家学者、老一辈,想熟悉某个领域或了解某个城市、历史、词条……这些比较细致的东西,可以用“”,网友们集体贡献的智慧是无穷的,而且网友的料也是无穷的,你往往能有意外收获。

另外wikipedia(维基百科)也是巨型资料库,而且更新很快。

(3)Google有一个实用搜索功能是“大学搜索”,要知道现在多数有点名的所谓专家学者都没少在大学挂职,各种研究所、实验室、官方组织的这个那个不少也扎根大学,而大学又是产生思想文化的重要阵地。用这个搜索可以一网打尽和某所大学有关的所有东西。

(4)现在有一些新开发的搜索引擎,它们可以对网页库中的某类专门的信息进行一次整合。有人称之为:元搜索引擎。这种搜索引擎的特点是大大减少了你整合资料的时间。

比如比比猫(Bbmao)。这个搜索引擎的特点是:自动分类整理、自动去掉重复结果、汇集五大搜索引擎结果。智能分类,你可能在分类中发现一些你不曾想到的东西。

不过元搜索是不是好用,可能仁者见仁智者见智,但是只要适应了这种新方式,会给你带来很多方便。

2技巧着手

(1)设计关键词:使用搜索引擎要避免大而空的关键词,它不知道你要找啥,就可能返回很多莫名其妙结果。

因此需要习惯多关键词搜索,一般情况下两个关键词搜索就够了,注意关键词与关键词之间以空格隔开。你可以先用简单关键词测试,不忙着仔细查看搜索结果,而先从搜索结果页面里寻找更多信息(如果使用元搜索引擎,注意看“分类结果”),再设计一个更好的关键词重搜,这样重复几次后,就能设计出很棒的关键词,也就能搜索到满意结果了。

(2)学会使用逻辑符号:搜索引擎基本上都支持附加逻辑命令查询。

北京+旅游,表示搜索包含所有北京和旅游这两个词组的页面,不过现在基本用不着这个了,一般敲个空格就OK了。

“-”可去除无关搜索结果,提高搜索结果相关性。比如,你要找“青岛”的城市信息,输入“青岛”却找搜到一堆“青岛啤酒”新闻,在发现这些新闻的共同特征是“啤酒”后,输入“青岛–啤酒”来搜索,就不会再有啤酒烦你了。

利用双引号,来查询完全符合关键字串的网站。例如:键入“莎士比亚喜剧”,会找出包含完整莎士比亚喜剧词组的页面。这种查询方法要求用一对半角的双引号来把关键字包括起来。

(3)告别错别字:细节决定成败,这老话也适用在搜索上。输入的关键词有错别字,会影响搜索准确性。光“蔡依林”网上就有“蔡依灵”“蔡依琳”“蔡依玲”等众多版本,你指望这样的关键词搜到些啥?所以发扬你深厚的中文功底吧,别让错别字害了。

(4)英文搜索首选Google(注意最好是Google英文版,而不是“谷歌”哦),其次Yahoo。中文搜索优先百度,在中文领悟上,百度还是很老道的。概念查找优先WIKE, 维基百科的优势在于它对概念理解都是最新的, 比如你要查LINUX ,这里会告诉你最新的版本,及拓展应用, 让你比较容易的对这一新概念,有一个准确的印象,这里还会提供一些参考资料,都一些权威的网站或图书。

3他方实力

官网、熟用提供网址导航的网站(典型的是hao123)、知名论坛的力量(天涯、网易都不错),博客也别忘了,尤其是名人博客。

温馨提示:在访问过程中,遇到好的资源网站可以单击鼠标右键,把该网站加入收藏夹,下次可以方便的访问。(收藏夹经过一段时间,也可以进行整理优化。)

二、信息鉴别与筛选

从网络或其它途径获得信息后,是不是就可“拿来主义”直接使用呢?

答案显然是否定的。

信息网络既是信息的万花筒,也是信息的垃圾场。如果人们不具备相应的审视和判断能力,就会被一大堆信息垃圾所湮没。因此对获取的信息需要进行辨证分析,通过价值判断,剔除糟粕,然后,对有用信息进行深层挖掘,寻找其中隐含的价值和意义,来满足需求。分析和判断的过程就是去粗取精、去伪存真的过程。

伪信息产生的原因:

1、信息骗子的兜售。

2、受经济利益的驱动。(电信局电话号码注册)

3、人员素质偏低。

4、用户缺乏自我保护意识与识别力。

5、设备本身的缺陷。(机器故障与计算机病毒)

6、缺乏权威统一的管理与监督机构。

7、信息严重污染。(信息老化)

在这里我们需要了解信息的特征:传递性、共享性、依附性、可处理性、价值相对性、时效性、真伪性。

在信息的鉴别中,我们主要是依据信息的来源、价值相对性、时效性做出判断。

在信息的筛选中,我们主要是依据信息的价值相对性、时效性、真伪性进行选择。

信息的鉴别方法

全面检验

从多方面来检验信息以确定其完整与否,不完整的就是伪信息。(如美国菠萝罐头厂的建立因伪信息而导致严重损失)

多要素核查

一条真实而有价值的信息,含有时间、地点、事物或物品、数量与价格、状态、本质、规格与功用、信息来源。要识别一条信息的真与假,要一一核查落实。(核查方法有电话电报询问、委托有关人员查询或通过信息网络核查、现场调查)

权威佐证

一条貌似真实的信息,只要用权威性信息加以比较就会原形毕露,现出假象。(如一条内部公布的数字是否准确,只要用统计局的数字予以佐证,就能识别真假。)

相互检验

同一客观事物反映的信息,可用不同方式检验。(如同一品牌、同一档次的汽车价位可以通过不同的购车网站的信息进行比较。)

总结 对信息进行鉴别和评价的方法,可以从下面几个方面对信息进行鉴别和评价:

1、信息是否真实可靠。

2、信息来源是否具有权威性。

3、信息是否可用。

4、信息是否具有时效限制。

5、信息包含哪种情感成分。

6、信息是否具有实用性。

信息筛选方法

信息筛选,就是指对来自各种途径、经鉴别后的信息,将其归类分析,依据个人的需求,去掉哪些与目标不符、无价值乃至价值甚微的冗余信息,而保留与目标相符、有参考价值的信息的过程。

信息筛选方法:

需求取舍法

针对个人信息需求目的,将所掌握的信息需求分出层次,以决定其取舍的方法。首先要明确信息需求的范围,再将所了解到的信息需求累积起来,而后将其分解为重点需求、常规需求与相关需求等层次。最后根据需求的强度来决定取舍。

逐层筛选法:

粗选。就是将从各种渠道、运用不同的方法采集来的信息,经鉴别筛选后,分成与用户有关和无关的两种。

精选。就是对相关的信息进行进一步区分的办法。

首先在粗选的基础上,将与用户有关的信息分成直接有关与间接有关的信息两类。

然后对直接相关的信息又区分为最重要的信息、较重要的信息、一般的信息。

查重法

剔除内容重复的信息,选留有用信息,以减少其他信息工作环节的无效劳动。当然这种方法也并非一味重复,如果需要,也可以保存一部分重要的信息资料复本,以供一定情况下的多人使用。

时序法

按时间顺序对公关信息资料进行取舍。在同一内容的情况下,较新的信息资料选留,较旧的则剔除。这样可以使选留的信息在一定时间区间内更有价值,特别是对于来自文献中的信息资料,更需选择时间最近的予以留存。

类比法

将同类型的信息进行比较,哪个信息量大,哪个更能反映事物的本质问题,则选留下来;

反之,则剔除。当然有的虽然信息量并不很大,或者反映事物本质也并不深刻的信息资料,可能作为主要信息资料的重要补充内容,或对公共关系工作有启发作用,也应选留,不能一概剔除。

专家评估法

对某些专业性强、技术性强的信息,公关信息人员一时难以确定其取舍问题,可以请有关专家或专业人员进行评估,根据其评估结果,结合本组织当前与长远的需要综合考虑选留和剔除问题。

老化规律法

这主要是针对文献信息资料而言的,文献学认为,文献的使用价值随时间而逐渐降低,甚至完全失去参考价值,这就是老化规律。一般来说,文献的利用率第一年最高,以后逐渐下降,呈等级分布状态,文献的老化情况在文献学中一般用半衰期来表示。

所谓半衰期,即指某学科目前尚在利用的全部文献的一半是在近期内多长的一段时间内发表的。一般地说,半衰期越长,说明老化速度越慢;

半衰期越短,说明老化速度越快。文献信息资料的筛选应对其行文年代及本学科文献老化的半衰期两方面进行考察,以便确定取舍。

网络信息筛选的六项原则

权威性原则

信源具有权威性。例如权威学者、权威学术期刊、政府官方网站中国世界卫生组织专家组组长、流行病学家罗伯特、中科院院士钟南山的讲话、世界权威杂志《科学》报道等都具有权威性。

多重信道可重复性原则

多重信道传输着相同的信息。例如不同学科多位权威学者各自独立测试,获得同样的信息就具有多重信度。

时效性原则

信息发布的时间效度。例如权威信源针对同一问题,最近发布的信息比以往所发布的信息信度更。下图中的第二个消息就更加准确了。

逻辑性原则

从已知事实出发,利用比较与分类、分析与综合,抽象与概括,归纳与演绎等逻辑方法得出合理的结论。例如野生动物的贩卖者、饲养者、首批感染SARS病毒的人,都有和果子狸的的接触史,可推论果子狸与SARS病毒有关

实证性原则

一切结论都要由科学实验来提供确凿的证据在案例1中,上海生命科学所和广东省非典医疗救治专家组副组长都提出了疑问,但因无实证,所以不可信

代表性原则

中国农业大学从76只果子狸中未发现SARS样病毒,不代表所有的果子狸都不是病毒的携带者

对六项原则信息筛选时有些必须具备,有些可不一定同时具备

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/lianai/11381953.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-11-29
下一篇2023-11-29

发表评论

登录后才能评论

评论列表(0条)

    保存