




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Web2.0 环境下的知识搜索引擎发展研究彭陶 / 马张华2012-10-26 15:59:15来源:图书馆学研究:理论版( 长春 )2011 年 6 期【英文标题 】On the Development of Knowledge Search Engine under the Web2.0 Environment【作者简介 】彭陶 北京大学图书馆文献计量学研究室;马张华北京大学信息管理系。北京100871【内容提要 】知识搜索引擎是在 Web2.0 环境下产生的新一代互动式知识搜索系统,其组织体系主要有两大特点:在知识组织过程中重视“人”的因素,在主题检索机制中引入分类组织的思想。这两点在国
2、内三大知识搜索引擎百度“知道”、新浪“爱问知识人”、雅虎“知识堂”都有不同程度的体现。The knowledge search engine is a new generation of interactive search engine system under Web2.0 environment, which is characterized as follows: one is the emphasis on the human element in knowledge organization; the other is the introduction to the ideas o
3、f classification. The two features show in some degree in Baidu Know, Sina I Ask and Yahoo! Answers, the three famous knowledge search engines.【关 键 词】Web2.0/知识搜索 / 知识搜索引擎 Web2.0/Knowledge search/Knowledge search engine面对互联网信息量的指数级增长,传统搜索引擎存在一些固有的缺陷,例如:返回的查询结果数量过于庞大;搜索结果的直接性和针对性较差;用户参与度较低等。以“知识共享社区搜索
4、引擎”模式为基础的知识搜索引擎引入了 Web2.0环境下的互动性和个性化特点,在一定程度上弥补了传统搜索引擎的不足。知识搜索引擎返回的查询结果在量上更精,在质上更高;能够为用户提供直接性、针对性强的信息内容而非网页链接;为用户提供了多种交流、共享信息的手段,用户的参与度高,值得关注。1 知识搜索引擎概况1.1知识搜索引擎的概念知识搜索引擎是一种以特定的知识性资源,如知识类、娱乐类和生活类问答信息为检索对象的网络检索工具,通常基于自然语言智能查询技术进行处理和提供,用户输入简单的疑问句,搜索引擎在对提问进行词法、句法和内容分析之后,或直接给出提问的答案;或引导用户从几个可选择的问题中进行再选择;
5、如果没有满意的答案,可确定为新问题,等待他人回答。1.2知识搜索引擎模式整体架构虽然目前基于问答平台的知识搜索引擎仍然在逐步探索中,但国内外一些知名搜索引擎公司都十分关注并进行了这一模式的研发。从目前的发展看,这类系统通常包括五个部分:问题理解、信息检索、知识问答、评价监督和知识库(见图 1)。1.2.1问题理解模块( Question Analysis)问题理解即问题分析,主要是对自然语言提问进行词法、语法分析,提取有价值的查询概念。传统搜索引擎也有类似的模块,但两者的检索对象不同,方法不同。传统搜索引擎面向的对象是整个互联网资源,搜索结果往往是数以万计的网页;而知识搜索引擎面向的对象是自身
6、积累的知识库,对象比较单纯,为了能够有针对性地访问信息来源,知识搜索引擎的问题理解模块引入了分类组织方法,通过主题词分类,将问题理解过程上升到关键词的语义层次,以充分理解用户的真实请求。如用户提问:梅兰芳的主演是谁?系统经判断确定“主演”一词属于娱乐电影或电视范畴,同时有“梅兰芳”作为电影名字的数据记录,就可以直接在知识库中的“娱乐”字库进行搜索。1.2.2信息检索模块( Information Retrieval)在知识搜索引擎系统中,信息检索模块处于核心地位。通常在接受问题分析模块所返回的带有加权系数的关键词组(对关键词加权,表示该词在当前问题中的重要程度,例如专有名词获取的权值一般最高)
7、后,在知识库中检索,如检测相关答案,须将检索结果按照某种规则排序返还给用户;如没有相应条目,该查询即进入知识问答模块。信息检索模块对检索结果的检全率和检准率,直接影响着用户得到的最终答案及下一步的选择。图 1 知识搜索引擎系统图该模块所面对的不是用户本身,而是本地知识库中大量的文档信息。一般先在对该文档进行预处理(包括文档分段、分词)的基础上建立索引,以加快检索的速度;其次,该模块聚合了“人”的力量,其搜索结果的排序是关键词加权系数与用户评价系数的综合结果,用户评价的好坏和等级对输出结果的排序有直接影响。如果说机器算法为搜索结果提供了量的保证,那么用户评价就为搜索结果提供了质的评判。信息检索模
8、块的结构如图2 所示。图 2 信息检索模块1.2.3知识问答模块( Question Answering )在信息检索模块中匹配失败的问题则进入知识问答模块,此模块为用户提供了一个提问和回答的平台,可以对问题进行进一步补充说明,并由平台对问题进行自动分类或提问者手动调整分类。用户通过问答平台,将头脑中的隐性知识转化为显性知识,实现知识共享。1.2.4评价监督模块( Evaluation and Supervision)开放网络环境的自由特色在促进网络用户交流和知识共享的同时,也给知识产品带来了明显的负面影响,这是由于缺少了传统的“看门人”把关,导致知识产品质量的良莠不齐。因此,在Web2.0环
9、境下,采用有效的质量评价机制至关重要。在知识搜索引擎系统中,最关键的因素是“人”的参与。在质量评价方面,知识搜索引擎充分利用了知识网络中“人”的力量,即大众智慧的测评能力。 首先,提问者对于回答者提供的答案可以进行满意度评价;其次,对于回答,普通用户也可以直接在线上进行评论;最后,用户发现任何违反平台规则的现象都可以投诉,每个回答都有相应的纠错功能,系统管理员会迅速反应进行相应处理。由此,回答的内容质量得到了有效地反馈和监控。评价监督模块是知识搜索引擎区别于传统搜索引擎的一个特点,它不仅有助于保证开放网络环境下的问答质量,而且也有利于为用户提供有针对性的、精确的搜索结果。1.2.5知识库模块(
10、 Knowledge Base)知识库就是把用户已解决的问题、答案和评价保存起来,形成检索“答案”库。对用户的提问首先在知识库搜索,如果有相应条目,即可直接检出答案,不需要经过复杂的处理,还能保证答案的质量。知识库是动态的,可以实时接受新知识,进行扩展与更新。2 知识搜索引擎中的组织体系以国内知识搜索引擎的具体实践为例知识搜索引擎与传统搜索引擎提供检索的单一服务模式不同,其最大特点在于集成了多样化的问答信息和提供多种形式的服务,可根据自身内容的特点和用户需求,集搜索引擎、信息分类浏览、知识问答、社区用户收藏资源、用户交流等服务于一体,为用户提供一站式服务。 其组织体系可用于: 资源分类浏览、
11、资源主题检索、 与其他资源系统的检索或浏览互操作等。笔者选取了百度 “知道” 、新浪“爱问知识人”和雅虎“知识堂”进行案例研究。2.1知识搜索引擎的分类体系笔者于 2010 年 9 月 17 日调查了国内三大知识搜索引擎的分类体系,结果见表1。从上表中可以看出,知识搜索引擎的分类体系一般有1015 个类目,其划分的类目数量、类目名称、类目级次、排列次序各异,缺乏规律性。同时,其类目体系也表现出一些不同于传统分类体系的特征:以主题为中心设类,在大类设置上突出生活性类目,弱化学术性类目;类名措辞采用通俗的自然语言词汇;具有较高的动态性,每个知识搜索引擎都是根据其资源数量和用户需求的不同来建立具有不
12、同偏重的分类体系。2.2知识搜索引擎的主题检索机制知识搜索引擎的分类体系主要是为用户提供分类浏览功能,起到一个辅助作用,其核心的部分是主题检索机制。二者的结合,加快了系统的反应速度,提高了检全率和检准率。2.2.1检索结果排序知识搜索引擎面对的是本系统的知识库,资源大都经过用户评价和系统筛选。相对于整个网络上的资源来说,知识库中的资源在量上更精,在质上更高。当然,知识搜索引擎在检索结果提供时,也要考虑如何在保证检全率的同时提高检准率的问题,涉及的因素包括:词频、词汇一致度、词位因素、用户评价等级和提问时间等。前三个因素与传统搜索引擎一致,其最大的特点在于“用户评价等级”的引入,用大众参与的形式
13、实现了对资源的有效筛选,颠覆了搜索结果按一定规则累加的工作模式。“从堆到筛”的改变不仅提升了用户搜索的效率和质量,还绕开了搜索引擎因数据高速膨胀而导致的技术发展瓶颈。另外,知识搜索引擎还充分考虑了资源的时效性,将“提问时间”也作为搜索结果排序的一个重要因素。2.2.2检索结果优化知识搜索引擎大多采用了一些缩小或约束检索结果的方法,对检索结果进行一定的限定。这种限定可以看作是一种变式的高级搜索形式,通过限定检索问题的性质,过滤一些不必要的资源,提高检准率,节省用户的时间和精力。比较国内三大知识搜索引擎,都对搜索范围做出了不同详略程度的限制,详见表2。从表 2 可以看出,百度“知道”只提供了对问题
14、性质的限定;新浪“爱问知识人”提供了问题性质和提问时间两个层面的限定组合,其限定因素可以交叉组配。雅虎“知识堂”提供了三个层面的限定组合,一是对问题性质的限定;二是每一种性质的问题都有特定的、与之对应的检索结果排序方式。例如:对于“提问中的问题”,用户可以选择三种检索结果排序方式:“相关性”、“发问时间”、“赠分数”;三是在动态聚类的基础上,提供检索提问所属的类别及资源数量。如检索提问为“如何美白?”,系统自动聚类后提供了检索提问的特定分类,分别在“美容时尚”、“保健常识”、“女性”等大类。目前,只有雅虎“知识堂”在返回检索结果的同时,给出了其分类体系,用户可以根据自己感兴趣的方面来选择特定分
15、类的搜索结果。3 知识搜索引擎的发展展望在 Web2.0的环境下,知识搜索引擎的出现弥补了传统搜索引擎存在的种种缺陷,满足了用户个性化、社区化的新需求。但是,知识搜索引擎还处于摸索阶段,很多方面还存在不足,需要不断改进和优化。3.1在分类体系中引入Tag 的应用在知识搜索引擎的分类体系中, 热门类目具有突出显示的特点。 所谓热门类目,是指用户最需要的、 被频繁使用的那些类目。 将热门类目突出列举,这样做的好处是使用户在浏览中迅速进入感兴趣的类目,并把一些按逻辑等级在知识树中比较隐蔽的信息揭示出来。但突出列类影响了分类导航系统的逻辑性,导致热门类目下的资源数量增长过快,影响类目之间的均衡性。为了
16、解决热门类目突出显示所引发的类目发展不均衡问题,笔者建议在知识搜索引擎的分类体系中,引入Tag(标签)的应用。具体来说就是在分类体系外增加一个标签表,以供用户进行专题检索。其作用在于:一方面,由于人类社会涉及的领域十分广泛,问答用户常常会遇到不知该将信息划分到何种类目下的困惑。Tag 具有较强的灵活性,用户可以根据自己的理解对问答信息进行标签设置,具有相同 Tag 的问答信息被自动聚合在一起。另一方面,热门类目可以在标签表中集中显示,而在原分类体系中的位置保持不变,并运用字体、字形、色彩等屏幕显示技术进行突出显示。3.2检索来源本地知识检索和搜索引擎检索相结合的多级检索目前,大多数知识搜索引擎
17、都将检索来源限定在本系统构建的知识库中,笔者认为这样会导致检索来源的受限,不能充分满足用户的检索需求。 笔者建议知识搜索引擎充分利用网络资源和其他知识共享平台,采用本地知识检索和搜索引擎检索相结合的多级检索。多级检索需要包括以下检索来源:首先,充分利用维基百科,建立一个常识库,对一些常识性问题进行快速检索;其次,面向本系统和其他问答系统中已经确定答案的问题,建立一个知识库,用于快速检索常问问题;最后,对于依然没有检索到的问题,一是进行 Internet检索,抽取可能的答案;二是选择提出新的问题。国内三大知识搜索引擎检索来源和范围的对比详见表3。3.3检索形式有效的提问去重机制和高级检索在调研中
18、,笔者发现大多数知识搜索引擎只提供了模糊的简单检索,检索结果数量庞大且内容重复现象严重。笔者以“怎么清洗羽绒服?”在新浪“爱问知识人”搜索,结果竟然有 901 条,而且前 100 条结果中就有 78 条完全相关的答案。使用同样的检索问句,在百度“知道”得到 339 条结果,在雅虎“知识堂”得到 255 条结果。可以看出,三大知识搜索引擎都面临同样的问题:用户进行搜索后,得到的是大量千篇一律的回答,问答信息内容重复的现象相当严重。通过对三者检索形式的比较分析,笔者认为造成问答信息内容重复的原因主要有两个方面:一是缺乏有效的提问去重机制,二是缺乏高级检索方式。详见表 4。综上所述,笔者认为解决问答
19、信息内容重复的问题可以从两方面入手:第一,建立有效的提问去重机制。一是在提问流程方面,引导用户“先搜索再提问”,例如在系统首页只提供搜索输入框;二是将相似问题展示融入到提问流程中,用户输入提问后,系统在页面的明显位置自动推送出已有的相似问题,加强提示效果。第二,增加高级检索功能,提高查准率。例如:按词语搜索、按类别搜索、按正面评价搜索等。3.4检索结果优化分类体系与主题检索机制结合近年来,知识搜索引擎发展迅速,随着访问量和问题增长速度的提高,知识库中积累的问答信息量十分庞大,百度“知道”的问题数量已上亿。 面对如此海量的数据,如何提高搜索精度、减少噪音、优化检索结果是目前知识搜索引擎所要解决的
20、新问题。笔者认为分类体系和主题检索机制的有机结合是提高检索准确率的重要手段,通过对搜索范围的限定,过滤用户不需要的信息。一种方法是在一个类目下进行自然语言搜索,把结果限定在本类的范围;另一种方法是在检索结果中引入分类法,将检索结果分类编排。这样,用户就可以利用分类迅速筛选结果,减少逐条查看结果之苦。4 结语知识搜索引擎的组织体系主要有两大特点:一是在整个知识组织过程中重视“人”的因素。主要体现在:在信息检索模块,用户对问答的评价等级是影响搜索结果排序的重要因素之一;在评价监督模块,用户的参与在一定程度上保证了开放网络环境下的问答质量;二是在主题检索机制中引入分类组织的思想。主要体现在:在问题理解模块,通过主题词分类明确了具体的数据源范围;在检索结果优化中,通过对检索结果的分类编排和Tag 应用,更加精确地定位用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CJ/T 24-2018园林绿化木本苗
- 系统集成项目管理成功之道试题及答案
- 系统分析师考试全科备考策略试题及答案
- 了解软件评测师考试的高分试题及答案
- 软件评测师评测工具使用方法试题及答案
- 端午节试题及答案
- 2025年项目管理实战试题及答案
- Msoffice考试风险防范与试题及答案
- 中级社会工作者政策落地案例试题及答案
- 钢管租赁站管理制度
- 2024年新高考I卷数学高考试卷(原卷+答案)
- 概率论(广西师范大学)知到智慧树章节测试课后答案2024年秋广西师范大学
- 新疆乌鲁木齐市(2024年-2025年小学五年级语文)统编版期中考试(下学期)试卷及答案
- 人美版美术一年级上册《第一单元3 画一画我们的学校》课件
- 网络音乐制作发行合同
- 个人开车与单位免责协议书
- JGJT46-2024《建筑与市政工程施工现场临时用电安全技术标准》知识培训
- 书法鉴赏 (浙江财大版)学习通超星期末考试答案章节答案2024年
- 离婚协议书电子版模板可打印
- Siemens WinCC:WinCC远程访问与Web发布技术教程.Tex.header
- 广东省广州市黄埔区2023-2024学年七年级下学期期末生物学试题(解析版)
评论
0/150
提交评论