下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论搜索引擎检索结果的分类
1检索结果的分类随着互联网的快速发展,互联网信息的速度也显著加快。当用户们感到“信息爆炸”和“信息海洋”时,他们还感受到了在网上获取有用信息的难度。根据CNNIC最新互联网调查显示,互联网应用中搜索引擎的使用率排在第2位,是仅次于电子邮件的互联网应用【1】。然而,使用搜索引擎寻找有用信息并不是轻而易举的事情。虽然搜索引擎的技术已经有了很大发展,但是要从成千上万条返回记录中寻找有用信息,也是件费时费力的事情。对用户而言,搜索引擎检索返回的结果中,只有少部分才是真正需要的,而且这些信息通常还夹杂在大量无用信息中,需要用户浏览返回结果中的标题、简要描述甚至是打开网页才能找到。在这种情况下,部分学者提出对搜索引擎的检索结果进行分类或者聚类,以帮助用户找到真正需要的信息【2】。通过对检索结果进行分类,可以在两个方面帮助用户。如果分类结果中某类正好是用户所需要的,那么用户不必浏览检索结果而可以直接找到需要的信息;即使分类结果中没有一类是符合用户需求的,那么用户也可以通过分类情况来了解检索结果内容、结构等方面的情况,帮助用户改进检索策略。对检索结果的分类是指按照已有的类目体系对检索结果进行划分,对检索结果的聚类是指在没有类目体系的情况下对检索结构进行无指导的划分【3】【4】“中搜”是通过检索词匹配来确定相关网页的,每个检索结果中都含有与检索词相匹配的词语。而点击每个“智能导航”类目后所得的网页中,也都有与检索词相匹配的词语,可见这些结果包含在直接通过检索词检索得到的结果中。“中搜”在搜索帮助中指出,点击“智能导航”类目将得到检索词在该类别中的检索结果。由此可以看出,“智能导航”类目中包含的结果是对原先搜索结果的进一步划分。当然这种划分是不全面的,并不能包含所有的检索结果。而且“智能导航”中的类目是预先设定的,也就是说检索结果是在原有的分类体系指导下进行分组,因此可以把它归为分类的一种。“搜狗”与此类似。从“搜狗”的界面中可以看到“搜狗”使用的分类体系是“搜狐”的主题分类目录。点击搜索提示中的类目,可以在打开的网页上方看到“相关分类”提示,指示该类目在主题分类体系中的完整路径。而它所显示的结果正是检索词在这个目录下的检索结果。因而,“搜狗”的搜索提示也是对检索结果的一种划分,是在原有分类体系指导下的分组,因而也可以看作是分类的一种。本文将对“中搜”的“智能导航”与“搜狗”的“搜索提示”进行比较分析。笔者设计了模拟真实环境的检索实验,从定性和定量两个角度分析实验结果,并对这两项功能进行评价。2文创检索任务检索实验模拟真实的检索环境,设计了20个检索任务。因为没有可供参考的搜索引擎日志,因此只能参考他人的实验。笔者参照“863计划信息检索评测测试集”中的“SEWM2004中文Web信息检索评测”的检索主题设置【5】,从中选择10个检索主题,根据本实验的要求稍作改动。该检索评测的主题范围根据sohu的网页分类目录,限定在“娱乐”、“文学”、“新闻”、“科技”、“社会”和“教育”上。另外,笔者参照TREC的问题回答式问题集(TREC2004QATestQuestions)编制了中文问题回答式的10项检索任务【6】。上述两组任务的区别在于,前一组是资源发现型的,需要试验者根据要求寻找一定量的合适资源,比如寻找高等数学的学习网站。后一组是问题回答型的,只需针对问题找到答案即可,比如回答什么是温室效应。检索实验共分三部分,分别使用网页检索功能进行检索。第一部分考察类目特点,第二部分考察分类准确度,第三部分考察用户使用情况。其分别设置如下:第一部分由笔者完成。随机选取上述任务中的10个进行检索,分别对两个搜索引擎使用相同的检索词,然后考察“智能导航”和“搜索提示”给出的类目,比较它们在类目与检索词相关性、类目数量、类目专指度、类目结构、类目之间的关系(重复反映)、类名这几个方面的特点【7】。其中,“搜索提示”的类目只考察第一次给出的六项,不考虑完整展开后的其他类目。第二部分由五位实验人员完成。实验人员在上述任务中随机挑选五个任务,分别对两个搜索引擎按他们的检索习惯输入检索词进行检索,然后对“智能导航”和“搜索提示”给出的每个类目点击进行察看,判断类目下给出的结果与该类目和检索需求的相关性。实验设定相关性判断为二元判断,即只分相关和不相关,如果与类目和检索需求都相关,则判定为相关,如若与两者皆不相关或者与其中一个不相关,则判定为不相关。如果给出的网页不能打开,也判定为不相关【8】。并把结果填入事先设计好的表格里。第三部分也由上述五位实验人员完成。实验人员分别使用“中搜”和“搜狗”进行检索,完成上述20项任务,并对“智能导航”和“搜索提示”的使用情况和实际对用户的帮助情况进行统计。根据实验特点,特别要求实验人员注意使用这两项功能,但并不强制。3结果分析下文将根据上述这三部分实验结果,分别对“智能导航”和“搜索提示”进行比较分析。3.1类目数量、类目结构、类目稳定性类目特点从以下几个角度进行分析,类目与检索词、检索结果的相关性,类目数量,类目专指度,类目结构,类目之间的关系(重复反映),类名,类目稳定性。(1)类目与检索结果不相关从资源保障角度讲,对于检索结果进行分类,需要对检索结果进行分析,然后给出相应的分类类目。否则,即使类目与检索词非常相关,没有相关文献,该类目就没有实际使用价值。但是搜索引擎检索结果过多,不可能一一判定,而且在实际使用过程中,用户通常也只浏览返回结果的前几十条,因此,笔者在实验中设定如果某个类目下的前十条返回结果都与该类目不相关,并且检索词返回结果的前二十条中没有与该类目相关的,则判定为该类目与检索结果不相关。从检索词角度看,如果类目与检索词完全无关,那么该条类目是没有实用价值的。这里的不相关,主要是指用户不可能使用该词检索与该类目相关的资源。理论上讲,类目与检索词、检索结果都应该相关。笔者把每次检索的相关类目除以类目总量作为相关性判断依据,取所有检索的平均值作为度量相关性的指标。实验结果表明如下,“中搜”的相关性为0.87,“搜狗”的相关性为0.75。从这个角度看,“智能导航”要好于“搜索提示”。(2)检索词的数量通常“搜狗”给出的总的类目数量要多于“中搜”,但是从界面显示角度看,“搜狗”只显示前面六条(如果总数多于六条),要看全部类目得点击“更多……”才能看到。笔者在实验中只取其第一次显示的那些类目。因为在第三部分的实验中笔者发现,实验人员很少点击“更多……”察看“搜狗”的所有搜索提示,通常只注意直接显示出来的那几项。不是所有的检索词搜索引擎都能给出相应的类目,在实验中,针对第20个任务输入“国际米兰足球俱乐部”的时候,“中搜”和“搜狗”都没有给出相应的类目。通常输入的检索词越专指,检索词的歧义越少,检索出的资源种类越少,则给出的类目越少。总体而言,“智能导航”的类目数量要少于“搜索提示”。根据实验统计结果,“智能导航”的平均类目数为5,“搜索提示”的平均类目数为5.75。其中部分原因与类目专指度和类目结构相关。(3)类目标准指向度与“搜索提示”相比,“智能导航”的类目概念相对较为宽泛,专指度低。“搜索提示”的类目中有很多是“搜狐”的主题分类目录中的三四级类目,在类目显示时通常会把上一级类目也作为类名的一部分,这些类目在上级类目的限制下,通常专指度都较高。从类名字数来看,“智能导航”类名的长度远远小于“搜索提示”,“智能导航”的类名长度通常为2到4个中文字符,而“搜索提示”则2到10个字符不等,以5、6个字符居多。从统计角度看,通常词的长度越长,专指度也越高。从这个角度看,“智能导航”的类目总体专指度要小于“搜索提示”。实验结果表明,类目专指度越高,则类目与资源相关度越低。专指度过高不利于资源划分,特别是主题内容、学科角度的分类类目。(4)类目划分和类目范围从分类角度看,资源可以用多个标准、从多种角度进行划分,由此形成不同类型的类目,而类目之间也完全有可能交叉,网络分类目录通常是此种类型。在这种分类体系中,资源会在不同类目下重复反映。当然,资源也可以由同一个标准进行划分,那么由此形成的类目之间则没有交叉,传统的图书分类目录通常是这种类型。“搜狗”的类目体系来自“搜狐”自有的主题分类目录,它同网络上大部分的主题分类目录一样,采用多元化分,即类目展开时,往往同时采用多种划分标准。因此,在“搜索提示”中可以看到按照不同分类标准产生的类目。而“中搜”的类目类型明显少于“搜狗”,也就是说“中搜”的分类标准少于“搜狗”。在第一部分实验中,笔者发现“智能导航”通常按照主题内容和学科分类,但是没有按照地区、来源、人物分类的类目。而“搜索提示”除了通常的主题内容和学科类目外,经常出现来源、地区这些通用类目,“报刊/杂志”、“报纸”、“BBS”为经常出现的类目,地区(省、直辖市为单位)也常常出现,偶尔还会有以人物为主题的类目。从类目纵深角度看,“搜狗”比“中搜”深度大。“搜索提示”的类目专指度不一,有专指度很高的类目,也有专指度较低的类目,从“相关分类”给出的类目路径可以看到类目深度大小。“中搜”虽然没有像“搜狗”那样明确公布的类目体系,但是从类目专指度较“搜狗”低,概念宽泛,而且类目重复率高(不同的检索词出现相同的类名),可以推断“中搜”总的类目数量较少,类目深度浅。(5)类目与“搜索提示”类目的区别总体而言,“智能导航”和“搜索提示”给出的类目之间都有重叠、交叉、包含的关系。但是,相对而言,“智能导航”给出的类目概念上的重叠交叉较少,类目之间的关系比较清楚。而“搜索提示”给出的类目概念交叉比较多,常常不能清除辨别类目之间差别。比如输入“个人理财”,“智能导航”给出的类目中与软件相关的就只出现类目“软件”一项,但是“搜索提示”则出现“金融/投资>分析软件”和“电脑网络>软件”,还有其他软件相关类目。事实上如果把检索结果限定在个人理财相关,那么上述两个类目的实际含义是相同的,而且这两个类下的资源内容是一致的。因此,完全没有必要分成几个类别,这种含义相近的类别反而给用户选择带来困难。(6)“搜索提示”的类名“智能导航”的类名比较简短,通常是2到4个中文字符,而且含义明确。“搜索提示”的类名则比较长,从2到10个中文字符不等,有些还更长,通常以5、6个字符居多,有些类名显示了部分分类路径。总体来看,“搜索提示”的类名步入“智能导航”明确,易于理解。(7)检索词的转变“智能导航”很稳定,在实验过程中没有出现同一个检索词在不同时间点上出现不同类目的情况。而“搜狗”的“搜索提示”则不然,笔者发现在不同时间输入同一个检索词,有时会出现不同的类目。在检索词的含义没有变化,检索返回结果没有太大变动的情况下,搜索引擎给出的相关类目应该是不变的。类目的不稳定性不利于用户理解“搜索提示”的功能,不利于用户掌握使用该项功能的技巧。3.2网页与检索任务的相关性第二部分实验是为了考察分类准确度,通过类目下的网页与类目的相关性来判定。如果类目下的网页与类目的相关性越高,则分类准确度越高。因为分类是在检索结果的基础上进行,如果网页与检索需求无关,那么这些网页分类再准确也无济于事,因而判定为不相关。在判定与检索需求的相关性上,部分实验人员把网页与检索需求的相关性看作网页与检索任务的相关性,如果网页不能对检索任务的完成有所帮助,则判定为不相关。另一部分实验人员把网页与检索需求的相关性看作网页与检索词的相关性。这两部分人员得出的相关性判断有很大的差别。实验中只取类目下的前两页网页进行判断。实验结果如表1所示。根据实验结果,如果相关性判断是按照网页与类目和检索任务相关进行判断,那么往往相关网页会集中到一两个类目中。这是因为,搜索引擎根据检索词给出相关类目,而检索词通常会有多种含义,用户根据检索任务输入检索词时,通常只取其中一个含义。分类类目的一个任务就是要把该检索词的多种含义揭示出来,形成多个类目。因而,理论上这些类目中应该只有一两个与检索任务相关。这与实验结果恰好符合。但是上述这种相关性判断方式用于判断分类准确性则不然,分类准确性考察的是每个类下网页与该类的相关性,因而根据网页与类目和检索词的相关性更恰当,表中第二行数据更适合于评价分类准确度。从这个角度看,“智能导航”的分类准确度要高于“搜索提示”。3.3检索过程主要功能在实验过程中,笔者要求实验人员对于“智能导航”和“搜索提示”的使用情况进行记录。实验结果表明,这两项功能的使用情况并不理想。其中有三位实验人员认为使用上述功能不如直接使用检索词方便快捷,因而在检索过程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家管网集团2026届高校毕业生招聘笔试备考试题(浓缩500题)及答案详解(有一套)
- 2026国网吉林省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(考试直接用)
- 2026秋季国家管网集团华中公司高校毕业生招聘考试参考试题(浓缩500题)及答案详解(夺冠系列)
- 2025国网上海市电力校园招聘(提前批)笔试模拟试题浓缩500题附答案详解(a卷)
- 国家管网集团2025届高校毕业生招聘笔试历年参考题库附带答案详解(浓缩500题)附参考答案详解(基础题)
- 2026国家管网集团广西公司秋季高校毕业生招聘笔试参考题库(浓缩500题)附答案详解(精练)
- 2026国网北京市电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(精练)
- 2026年黔西南州农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(综合卷)
- 2025国网湖北省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(培优b卷)
- 2026国家管网集团高校毕业生招聘笔试参考题库(浓缩500题)附参考答案详解(典型题)
- 建筑企业税收调研报告及政策解析
- 2025比亚迪供应商审核自查表
- 人教PEP版四年级英语上册 Unit 2 My friends 单元测试卷(含答案含听力原文)
- 仓库岗位晋升方案模板(3篇)
- 国家管网施工安全培训课件
- 国开2025年秋季《形势与政策》大作业答案
- 2025年生态环境综合行政执法考试参考题库(附答案)
- 2025年福建省公开遴选公务员笔试试题及答案解析(综合类)
- 2025-2030中国匹克球市场前景预判与未来发展形势分析报告
- HGT22818-2022橡胶工厂综合监控系统设计规范
- QC/T 262-2025汽车渗碳齿轮金相检验
评论
0/150
提交评论