[提 要]虽然因特网上的信息爆炸已经让人们感到无所适从,但是其快速发展的趋势还远未停止。在巨量的信息中找到有用信息方法之一是通过搜索引擎的使用。因此掌握有效的资源搜索策略,学会如何选择与使用搜索引擎成为了敲开因特网这个信息宝库的必备素质
[关键字]
因特网作为世界上增长最快的新兴媒体之一,其资源一直以每天7300万页、每8个月翻一番的速度增长。即使如此,有专家指出因特网还尚未到达其最快增长期。与此同时,大量有用的信息也被埋没在如此巨大并且迅速增长的文件堆中。解决这个问题的方法之一就是通过某一线索跟踪并找到某个信息。于是大量的搜索引擎产生并被广泛用于在万维网上获取信息。“搜索引擎观察”的2001年报告表明在网络上目前有超过75个搜索工具被使用并提供众多的相关资源的链接。网上也有很多教程为人们详细讲解和指导如何有效地应用这些搜索引擎进行有效的搜索。
目前,很多学生把网络作为学习资源和个人兴趣的一个重要信息来源。要指导学生进行有效的网络搜索,学生首先必须了解不同搜索引擎之间不同的内部结构。并不是所有的搜索引擎产生的搜索结果都是相同的。很多搜索引擎并不总是产生正确的信息,相反的它们常常引导搜索者进入一个无联系或不相关的信息流。缺少信息素养方面的系统教育,学生很难认识到网络的潜力。掌握一些有效的搜索策略知识以及正确评价搜索结果的批判意识能够增强学生目前的学习能力,更重要的是,能够赋予学生一种通过网上的相关和有用资源不断更新自身知识的能力。
因特网是一个很有价值的资源,却要小心使用。“教育消费是最好的消费”这句格言对于因特网而言必须使用适宜。为了达到真正实现“教育信息消费”的目标,我们在介绍信息管理系统的课程中开发了一个实践项目。本文所要描述的这个实践活动,其中包括对信息获取的介绍和关于过程的讨论。这个信息获取的课程聚焦并试图回答下面三个问题:
1、是否所有的搜索引擎的搜索结果都相同?
2、我们如何判断搜索结果的有效性?
3、为什么同时使用不同的搜索引擎搜索同一内容或在不同的时间使用同一搜索引擎往往会得到不同的结果?
一、信息获取的概念
我们通过课堂实例来向学生介绍信息获取的概念。我们要求三个学生分别建议三个不同的搜索引擎,然后使用这些搜索引擎进行一个搜索。例如:我们要求得到关于“健康管理的便携产品”,因此我们指导学生以“编写产品”和“健康管理”为搜索条件进行搜索。我们要求学生记录每个搜索引擎返回的搜索结果网站个数。通过分析这些数字,我们发现不同的搜索引擎返回的搜索结果网站有很大的不同。初步结果如下:Google 返回19个网站,LookSmart 返回5个相关主题和2000个网站,Metacrawler 返回三个网站。很明显,返回的网站数目相差相当大。这表明这样一个事实,在使用不同的搜索引擎过程中,搜索引擎所应用的内部搜索工具的类型是完全不同的。
然后,我们向学生介绍“反馈”和“精度”的概念。“反馈”和“精度”是评价信息获取效率时用得最多的两个指标。“反馈”这个指标衡量一个搜索引擎获取所有相关文本的能力,而“精度”则是评价一个系统仅仅获取相关文本的能力。为了达到这次实践的目的,“相关性”这个概念被定义为:搜索结果是否被认定相关将由发起这一搜索的使用这判断。否则,该页被认为不相关。
上图,以图形化的方式表达了“反馈”和“精度”的概念。U代表网络中的所有内容,A+B代表了我们所需要的网站,B+C代表返回的网站,C代表我们不需要却常常被搜索到的网站,A代表我们需要的却常常被遗漏的文件。 “反馈”这个指标用B/(A+B) 即我们得到的有用文件与我们所需要的网上所有用文件之比率。“精度”这个指标用B/(B+C )即搜索到的我们真正需要的网址与得到的所有网址之间的比率来计算的。在这两个指标中,“反馈”相对更难以估算。A的相关数值可以通过估计相关网址的总数来得到。我们将参加评测的三个搜索引擎中所得到的相关网站数量中最大的一个作为相关网址总数,或者通过计算所有搜索引擎中返回的单一相关网址的总数。
我们通过计算三个事先选择的搜索引擎的获得率描绘了这些概念。学生通过检查每个搜索引擎返回的头20个网址来进行统计。正如他们所做的那样,学生记录了相关网址的数量和每个搜索引擎返回的单一网址的总数。这个获得率的结果是,在三个搜索引擎中进行识别11个单一相关网站:(检查头20个检索所得)
Google:精确率=9/20 ;反馈率=9/11
LookSmart:精确率=3/20 ;反馈率=3/11
Metacrawler:精确率=1/3 ;反馈率=1/11
二、搜索结果分析
网络上有大量的搜索工具供人们进行信息查询。但是几乎没有两个工具是相同的,他们的数据库不同,搜索能力不同,命令语句不同并且展示搜索结果的方式也各不相同。两种基本的网络搜索方式是搜索引擎式和主题目录式。搜索引擎式又被进一步分为多线程搜索引擎和单线程搜索引擎。主体目录式又进一步被分为主体特征搜索引擎和专题目录搜索。
搜索引擎:搜索引擎,例如Google和 metasearch两个搜索引擎最好被用来作为定位一个特定信息或已知文件。所有的搜索引擎都要求使用者输入一个关键词或短语,并且以这个输入的词汇为基础,搜索引擎给出一系列包含这个关键字的网上文件。关于这种搜索引擎的一个主要误解是认为每次进行搜索时,搜索引擎都搜索整个网络。恰恰相反,搜索进行时,搜索引擎只是搜索一个特定的网络文件数据库,这个数据库已经事先被“网络蜘蛛”或“网络机器人”这一类的搜索工具将网页数据编译过了。不同的搜索引擎在搜索一个特定的网站时获得的网站的次序和数量是不同的。这些不同是由于各个搜索引擎的数据库尺寸和更新频率各不相同造成的。
Metasearch搜索引擎,例如Metacrawler,属于针对一个单独界面同时进行复杂多线程搜索的搜索引擎。当输入了关键词和短语后,Metasearch搜索引擎同时搜索超过13个之多的不同搜索引擎,其中包括including AltaVista, Excite, FindWhat.com, Google, LookSmart, Lycos and WebCrawler这些搜索引擎。虽然metasearch具有同时多线程的搜索功能,但是它仍有限制。大多数metasearch的搜索引擎在完成每一个索引的搜索之前就会超时;同时由于他们各自使用不同的索引,搜索的过程会变得很长,一些复杂的搜索指令甚至会被忽略。
项目分类目录:例如looksmart,这种搜索方式最适合于搜索一般项目而不适合于搜索特定的信息。项目分类目录通过层级关系排列项目和目录并提供其他相关资源的联接。支持目录的数据库通过人力来排列和维护而非计算机自动进行。结果,项目目录数据库比搜索引擎要小得多,但是结果的相关性却更强。但是项目目录制典型地收录一个网址的主页。特别是项目目录的范围限制在特殊领域专家整合的一些特别项目中。
三、有效的搜索策略
无论选择何种搜索工具,一个有效的搜索策略是一个成功的搜索的基础。要发展出一种有效的策略需要理解两种类型的逻辑:搜索和布尔运算。要求学生以如何使用因特网资源和通过因特网进行网络搜索和指向其他资源的联接的指导为焦点探索网站。另外,同时进行几个对搜索引擎的效能评价的研究。
搜索逻辑是指搜索引擎在翻译使用者输入的短语时所采取的规则。例如,输入搜索条件“在线支付系统”可能被翻译成返回包含这整个短语、包含所有条件或任一搜索条件的网站。每个搜索工具会返回大相径庭的一系列网站。确定每个搜索引擎所使用的规则通常是十分困难的。使用试验和试错法通常是了解每一个搜索引擎独特的搜索逻辑的好方法。也有一些网站提供使用搜索引擎的指南,例如Infopeople's的“搜索引擎快速指南”。
布尔逻辑是指一系列的搜索工具使用的一系列连接搜索命令的逻辑操作符。最基本的系列布尔运算符是“和”(and)、“或”(or)、“否”(not)。“和”(and)返回包含所有搜索条件的文件。“或”(or)返回包含某一搜索条件的文件。“否”(not)返回包含首条件而不包含第二个条件的文件。布尔运算符对于复杂搜索很有用。
初始页面貌。不同的搜索引擎之间初始页的展现方式有很大的不同。其中一些,例如google只关注于提供初始页。相反的,其他一些搜索工具,诸如yahoo创造了一个提供新闻、email以及在线聊天服务的虚拟社区。
使用的方便。一些搜索引擎过于复杂,导致浏览者可能在他所处的网站位置中迷失或者发现很难把握住一个主题。一些由原始搜索主题得到的链接可能与原主题并没什么联系。
结果的呈现。搜索引擎的不同不仅反映在返回的搜索结果内容不同,也反映在其结果呈现方式的不同。大多数返回一个网站的简短描述,帮助使用者做出决定是否打开该网站。一些网站允许使用者在已得到的搜索结果中进一步缩小搜索范围。一些搜索引擎则提供给使用者相关的排名,以及在与搜索过程中返回的网站相似的其他网站。
一旦学生掌握了基本
![]() 读后感 |
·2008年大学毕业生IBM实习总结 ·公司2008年办公室工作计划 ·三国演义读后感1000字 ·朝花夕拾读后感 ·水浒传读后感1500字 ·读骆驼祥子有感 ·迎奥运手抄报 ·制作个人简历九大标准 ·如何使简历醒目 ·将个性品质特征融入你的简历 |
![]() 个人简历 |


