您的位置首页百科知识

网络检索论文

网络检索论文

网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。下文是小编为大家整理的关于的范文,欢迎大家阅读参考!

篇1

浅析网络信息检索

【摘 要】本文主要对网络信息检索进行论述。

【关键词】网络信息;检索

随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。

随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。

目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有【搜索之家】 【网际瑞士军刀】等。

另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。

从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条【相关度】较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:

1.智能化

现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。

2.标准化

现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。

3.个性化

科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。

在这个知识大爆炸的时代,要想从浩如烟海的信息资源中快速准确地找到自己所需的信息,就需要我们在不断信息检索实践中总结及掌握一些检索技巧。当然也需要我们不断的发现问题,努力解决问题。也由衷地希望随着科技的发展,网络信息检索技术越来越成熟,能给人们带来各式各样的服务,让我们的生活更加便利。

篇2

网络检索系统的研究

【 摘 要 】 21世纪是信息的时代,第一时间掌握信息,就掌握了时代的脉搏。随着互联网的不断发展,人们对于信息的需求量更大,对于得到信息的时间要求更短。本文对网络检索系统进行研究,首先从功能性需求和排序需求描述了检索系统的需求分析,其次从总体上对系统的架构、系统的模块及系统数据库进行详细的描述,最后给出了系统的部分具体源代码。本文对于信息工作者有着积极的意义。

【 关键词 】 网络检索;系统;Java

1 引言

随着网络的不断普及,人们的工作、生活,、娱乐越来越离不开网络。人们可以通过网络查阅到自己需要的内容,网络搜索引擎为人们查找到需要的内容提供了巨大的帮助。据不完全统计,近一半的网民对搜索引擎非常依赖,当查询不到相关内容时,会通过更换关键字重新进行搜索。人们对于网络搜索引擎的依赖性呈现出增强的趋势,已经成为网民上网的一种习惯。

2 需求分析

网络中的信息众多,根据用户的查询检出相关的文档,并分析评价其相关度,对其结果排序,将其结果反馈给用户。

2.1 功能性需求

随着网络用户数量的增加,人们对于信息的搜索有了更高的个性化要求,在信息的搜索过程中,用户之间对于信息的需求侧重点也有所不同,系统通过对用户的兴趣进行分析,从而在海量的信息中找到相关的数据,以满足不同用户的不同需求。网络检索系统采用个性化的搜索技术方法,不仅可以提高检索的效率,同时还针对用户的行为爱好进行有针对性的搜索,达到吸引用户使用的效果。

网络检索系统中检索器的主要功能有几种。

(1)短语搜索

通过对词语加引号的方式,形成短语以精确搜索。例如,【计算机高级游戏】与计算机高级游戏是不同的,对于计算机高级游戏来说,计算机、高级、游戏三个关键字是可以进行互换的,而加了引号的【计算机高级游戏】则作为一个单词进行查询,其顺序不能发生改变,这样就缩小了查询范围。

(2)近似搜索

在信息的查询搜集过程中,很多使用者无法将自己的真实意愿很清晰地表达出来,而只能给出一些模糊的关键字,近似搜索以这些给出的关键字为中心,给出一些相近的、相似的词反馈给使用者进行搜索,以便于使用者不断地向目标信息靠近,最终达到搜索到相关的信息内容。

例如:在搜索【学硕和专硕的区别】过程中,在搜索结束后会得到相关的结果,另外还会给使用者一些近似的探索,列出与该关键词相关的搜索关键词,如【专硕与学硕的区别】、【专硕与学硕的学费区别】、【学术与专硕的区别】等,使用者就可以在提示的关键词基础上进一步的选择满足自己需求的关键词。

(3)二次查询

在信息的查询搜索过程中,很难达到一次就将需求的信息明确地标识出来,但是需求的信息很多都已经包含在搜索的结果当中,在搜索的结果里通过新的关键词进行再一次的搜索分类,可以使结果更加清晰明确,离真正需求的搜索结果更加接近。

2.2 排序需求

搜索结果出来之后,哪一个结果在前,哪一个在后,关系到用户找到需求结果的效率。当前,对于搜索结果进行排序,主要采用的理论基础是谷歌的页面排序原理,该原理累似于论文集的引用机制,哪个论文被引用的次数越多,在相关搜索过程中,该论文排列的名次越靠前。可以用公式表示为:

PR(A) = (1-d) + d (PR(t1)/C (t1)+……+PR(tn) /C(tn))

(公式1)

在公式1中,网页1,2……N都与网站A相链接,其中系数为(0,1)之间的数字,一般为0.85。通过公式可以看出,链接A网站的网页越多,即N的值越大,A的级别越高;反之,A的级别低,N的值也越小。

在将结果反馈给用户时,其排序采用的方法是:优先考虑查询匹配的结果;其次对结果在网络中出现的权重和频率进行计算,优先排出最大值的网站;最后考虑用户的满意度,满意度高的排列靠前。

3 总体设计

3.1 系统架构

每一个软件系统要设计之前,都要首先分析其总体结构,即系统架构,当前,三层架构体系是在原来两层架构的基础上发展起来的,即在客户端和数据库之间加了一个中间层,即组件层,这三层分别是表示层、业务逻辑层和数据访问层。其中表示层主要是用户用于接受数据的返回,将信息展示在应用程序上;业务逻辑层是对数据层进行操作,完成具体的问题;数据访问层是对数据进行处理操作,与数据库紧密相连。

3.2 系统模块

整个系统主要由三大模块组成,分别是启动模块、管理模块和查询模块。在系统的启动模块里,有注册注销模块、XML预处理、选举模块、网络服务等组成;管理模块主要包括登录模块、用户管理模块、资源管理模块、词库管理模块、资源缓存模块、服务器初始化模块、定期事件模块及资源缓存模块等;查询模块主要包括解析模块、过滤模块及错误检查模块。

系统模块有效地描述了网络检索系统的各个具体的功能,但对于整个系统来说,其主要的工作流程是:首先通过搜索器对索引器进行查找,对没有出现过的生词进行存词操作,将其存放索引文件之中,其次再利用检索器进行查找,送查找请求给搜索表单,将其结果进行格式化,使系统能够识别,最终找到相应的网页。具体如图2所示。

3.3 系统数据库

根据系统的总体设计、功能模块和主要工作流程的分析,网络检索系统的数据库中就主要包括以下数据表:中文词表、英文词表、资源表、任务列表、完成任务列表、临时结果表、命中表、命名规则表等。其表间之间的关系如图3所示。

4 结束语

利用网络搜索相关的信息,已经成为人们工作和生活中的一部分,当前,互联网上的搜索引擎系统被极少一部分企业所掌握,使行业的发展处于垄断地位。本文所设计的网络检索系统虽然在某种程度上还比较弱小,但给出了整个功能结构框架,给软件开发人员解决此类问题的思路,读者在此基础上,可以将自身所掌握的算法适当地应用到该系统中,使网络检索系统更加的强大。

参考文献

冯惠玲,王立清.信息检索教程[M].北京:中国人民大学出版社,2004.

卢亮,张博文.搜索引擎原理、实践与应用[M].电子工业出版社,2004(9).

易爱平,廖祝华,张惠.基于 Google 的个性化搜索系统的设计与实现[J].电脑知识与技术,2007,第 164-165 页.

白丽君.基于内容和协作的信息过滤方法研究[J].情报学报,2005(6),第 304-308 页.