




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)主题搜索引擎的研究与实现(1).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主题搜索引擎的研究与实现 摘要 随着网络的同益普及和i n t c m e t 信息资源库的广泛使用 越柬越多的人们把 网络信息检索作为r 常获取信息的重要手段 人们从网络中获取信息又主要是 使用g o o e 百度等通用搜索引擎 通过向目标搜索引擎提交查询关键字 搜 索引擎返回查询结果 再在返回结果中人为过滤出有用信息 然而 目前通用 搜索引擎的查询结果成千上万 不能很好的反映用户需求 用户往往要在返回 的结果中花费大量精力才能获得真正需要的有用信息 因此 为使用户更准确 更有效地查找到特定的网络信息 建立一套智能化的信息检索系统 过滤掉返 回结果中的大量垃圾信息 已经成为网络信息检索的迫切需要 本文引入了o n t o l o g y 本体 技术 分析了传统网络信息检索方面的不足 提出了基于o n t o l o g y 的领域智能信息检索系统的实现框架 在对基于o n t o l o g y 的智能检索和通用搜索引擎进行研究分析的基础上 结合现有条件 给出了主 题搜索引擎的设计实现 并介绍了其所涉及到的h t t p 协议 网页脚本解析等 相关知识和技术及其研究分析 论文作者设计实现的主题搜索引擎已经基本实现 实际测试证明效果良好 关键词 o n t o l o g y 搜索引擎 h t m l 解析 h t t p as t u d ya n di m p l e m e n to nf i e l d b a s e ds e a r c he n g i n e a b s t r a c t w i t ht h ec o m m o nu s eo ft h ew e ba n dt h ew i d eu s eo ft h ei n t e m e ti n f o r m a t i o n r e s o u r c e s m o r ea n dm o r ep e o p l et a k et h ew e bi n f o r m a t i o ns e a r c ha sa ni m p o r t a n t w a yo fd a i l yi n f o r m a t i o nr e t r i e v a l t h em o s tc o m m o nw a yo fg e t t i n gi n t e m e t i n f o r m a t i o nt h a tp e o p l eu s ei st ot h r o u g ht h eg e n e r a ls e a r c he n g i n es u c ha sb a i d u g o o g l ea n ds oo n i nt h i sw a y p e o p l es u b m i tt h es e a r c h i n gk e yw o r d sf i r s t t h e nt h e s e a r c he n g i n eh a n d l et h i sr e q u e s ta n dr e t u mt h er e s u l t s i nw h i c h p e o p l ef i n do u tt h e i n f o r m a t i o nw h i c ht h e yn e e d n e v e r t h e l e s s t h er e t u r n e dr e s u l t sa l w a y sg ou pt o t h o u s a n d su p o nt h o u s a n d s w h i c hc 锄n o tm e e tu s e r s n e e dw e l l i nm o s tc a s e su s e r s m u s ts p e n dq u i t cal o to ft i m ea n de n e r g yt of i n do u tt h ei n f o r m a t i o nw h i c ht h e y i n d e e dn e e d t h e r e f o r e t h eb u i l d i n go f a ni n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e m h a sb e c o m et h eu r g e n tn e e df o rt h ew e bi n f o r m a t i o ns e a r c h t h i sp a p e rh a si n t r o d u c e dt h eo n t o l o g yt e c h n o l o g y a n a l y z e dt h ep r o b l e ma n d d i s a d v a n t a g eo ft h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a li nw e b a n dg i v e no u tt h e i m p l e m e n t a t i o nf r a m e w o r ko fa ni n t e l l i g e n to n t o l o g y b a s e di n f o r m a t i o ns e a r c h s y s t e mi nag i v e nf i e l d i nt h eb a s i co f r e s e a r c h i n gi nt h ei n t e l l i g e n to n t o l o g y b a s e d i n f o r m a t i o ns e a r c hs y s t e m t a k i n gt h er e a l i t yi n t oa c c o u n t t h i sp a p e rg i v e so u tt h e d e s i g na n di m p l e m e n t a t i o no fap r o f e s s i o n a ls e a r c he n g i n ea n dp r e s e n tt h er e l e v a n t h t t p p r o t o c o la n dh t m lp a r s e t h e p r o f e s s i o n a ls e a r c he n g i n ei nt h i sp a p e rh a sb e e nb a s i c a l l yi m p l e m e n t e d w h i c hh a sb e e nt e s t e dw e l l k e y w o r d s o n t o l o g y s e a r c he n g i n e h t m lp a r s e 啪广r p 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发表或撰写 过的研究成果 也不包含未获得 适i 麴迢直基丝益矍挂型直堕 曲 奎拦亘窒2 或其他教育机构的学位或证书使用过的材料 与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位做作者签硫多她签字嗍力 7 年 月乙闩 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 有权保留并向国家有 关部门或机构送交论文的复印件和磁盘 允许论文被查阅和借阅 本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手 段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签 签字日期 加7 年g 月2 同 学位论文作者毕 i k 后去向 工作单位 通讯地址 签字日期卅彩 电话 邮编 主题搜索 j i 警的川究 j 实现 1 1 课题的研究背景 第l 章绪论 随着网络技术的发展和网络的普及 i n t e m e t 已经深入到社会生活的各个角 落 成为人们同常信息获取的最主要的信息源 掘统计 截至2 0 0 3 年7 月全球 w e b 站点总数约为4 6 0 0 万 w e b 页面总数约为1 0 0 亿 而且还在以每天7 0 0 力 的速度增长 丽对如此浩瀚的信息海洋 人们如何准确 有效的发现自己所 需的信息呢 当前 人们从网络中获取信息的主要手段是使用g o o g l e 2 1 百度 3 等通用搜 索引擎嗍 通过向目标搜索引擎提交查询关键字 搜索引擎返回查询结果 人 们再在返回结果中人为过滤出有用信息 目前的搜索引擎接收到用户的查询请求后 首先对用户提交的关键字进行 分词 截词处理 5 1 生成一个中间查询关键字的集合 然后再对该集合内的每 一个词在索引库中进行匹配 根据匹配的布尔值返回结果 如果返回值为真 则将该项索引对应的结果 u r l 地址和该u r l 的摘要 作为查询结果返回 所以 这是一种机械的匹配 其存在的主要缺陷有 1 查全率和查准率不高 由于目前的查询主要是关键字的硬性机械匹配 然而一个词往往有多 种表达方式 因此注定查询结果的查全率和查准率得不到保证 2 只能发现信息 而不是知识 对于目前的搜索引擎 网页中的内容只不过是一堆二进制代码 这时 搜索引擎和网页的关系就如同一个文盲和一篇课文的关系 由于搜索引擎 不会 读课文 所以不能从网页中得到任何知识 3 不能处理同义词和一词多义问题 我们知道海蜇刖名又称水母 海蛇 如在g o o g l e 中输入海蜇 得到 3 9 1 0 0 0 项直询结果 而输入水母 得到l 6 7 0 0 0 0 项查嘲结果 输入海蛇 得到1 5 1 0 0 0 项查询结果 而且返回结果集中相同的页面很少 相同的词 在不同的语境下会产生不同的意思 单纯的机械匹配显然无法解决一词多 义的现象 主题搜索 j i 警的州究 j 欲现 4 无法搜索提供网页中的隐含信息 隐含信息是指那些没有被文字直接表述出来 但隐含在网页内容中的 信息 山于目前搜索引擎的榆索策略采j 玎的足关键字匹配 不存在任何推 理机制 因此不能发现网页上的隐含信息 产生上述问题的原因主要是网页内容是一种无结构的或者半结构的数据 只能供人阅读 计算机却不能理解 要解决以上问题 必须赋予网上的资源各 种明确的语义信息 6 让计算机可以分辨和识别这些语义信息 然而 要想定义一个完整 明确的语义集合 使得计算机通过该语义集合 能够理解由该语义集合定义的网络资源的语义信息 就目前看来是一项十分困 难的工作 其主要困难表现在技术 观念和规模上 因此 本文提出了在某一领域内探索实现计算机对网络资源语义信息的理 解 并重点研究了其所涉及的网络搜索引擎的构建 1 2 课题来源和研究目标 本文所研究的课题来源于山东省自然科学基金项目 基于o n t o l o g y 的海 洋科技文献资料共享平台 编号 y 2 0 0 5 g 0 6 该项目的主要研究内容为 在海 洋信息领域内 建立基于o n t o l o g y 的科技文献资料共享平台 通过该平台检索 海洋科技文献资料 其整个系统架构如图卜i 一一 r 一4 一 图1 1 海洋科技信息共享平台逻辑模型 土题搜索t j i 警的研 宄 j 唼脱 o n t o l o g y 本体构建维护予系统的作用主要是负责领域o n t o l o g y 的建立 存 储和进化 8 1 网络资源收集系统的作用足从w e b 上获取信息文件 交给语义元 数掘标注子系统逍行标注 语义元数掘标注了系统和抽取了系统的作用足将网 络资源收集系统抓取的w e b 文档进行加工处理 把用h t m l x m l 描述的无 结构 半结构的数据进行标注 然后抽取其中的元数据并进行语义编码 最后 存放在语义元数据库中 9 l 信息检索和发布系统的作用是接受用户的查询请求 参照建立的o n t o l o g y 对用户的查询请求进行语义映射和语义扩展 实现信息 的查询和结果的返回 通过在w e b 信息中添加机器易于理解的语义信息 实现计算机对信息的自 动分类和处理 而o n t o l o g y 作为能从语义和知识层次上描述信息系统的概念模 型 从语义层次上为w e b 信息的共享和交换提供了基础 本论文课题的研究目标主要是实现网络资源收集系统 设计和实现一个主 题搜索引擎f l o j i j 从网上获取海洋信息领域的资源 为语义元数掘标注子系统 提供网络资源库 支持语义元数据标注子系统的在线和离线标注 1 3 本文的组织结构 本文共由6 章组成 第1 章绪论 对当前w e b 信息检索技术进行了总结 指出了当前信息检 索技术存在的缺点和不足 在此基础上分析了课题产生的背景 课题来源及研 究内容 第2 章基于o n t o l o g y 的信息检索分析与研究 介绍了o n t o l o g y 的概念 分类及其在信息检索中的应用 分析并研究了基于o n t o l o g y 的智能检索的存储 技术和语义检索策略 第3 章搜索引擎研究综述 介绍了传统信息检索搜索引擎的概念 分类及 发展趋势 分机了搜索引擎的工作机制和关键技术 最后给出了评价其性能的 指标 第4 章系统关键技术研究 介绍了实现m 络资源抉取系统所需要的几种关 键技术 从h t m l 解析的一般概念入手 介绍了h t m l 文档的结构 结合w e b 搜索器的特殊需求 分别对h t m l 解析器的构建进行了研究 介绍了h t t p 协 j 题搜索0 l 擎的州究 j 蜜观 议 分析了如何通过h t t p 协议获取网络资源 如何制定规则并根抛规则i 动 构建h t t p 请求串 第5 章系统的设计与实现 构建了满足本课题需求的一个网络资源获取系 统 详细介绍了系统的功能 设计以及实现 第6 章总结与展望 总结全文 展望下一步工作 4 土题搜索 f 擎的埘究 j 实j 1 i 第2 章基于o n t o i o g y 的信息检索分析与研究 2 1 引言 近年来随着互联网的飞速发展 w e b 已经成为一个巨大的信息库 也是人 们获取信息的重要途径 但是要从浩如烟海的信息中获取有用的信息好比大海 捞针 困难重重 因而如何提高w e b 信息检索的效率和质量 成为了当i j 需要 迫切解决的问题 传统的信息检索技术 1 2 1 主要有两种技术 条件检索和目录式导航检索 条 件检索采用词条切分技术 根据文档中的字词以及字词出现的频率来进行检索 查询操作 o o c g l e 等搜索引擎在传统信息检索技术的基础上 结合w e b 的特点 在其检索过程中增加了w e b 文档间的超链接分析 取得了一定的效果 但从本 质上来看 其仍然是属于基于关键词的机械匹配技术的范畴 并没有从根本上 解决检索过程的语义缺失问题 对于基于关键词匹配的检索技术 检索对象中 只要出现和检索条件一致的关键词 就可以出现在检索结果中 因而只要系统 更新的速度比较快 可以保证比较高的查全率 但是由于采用的是机械匹配 而且自然语言中一词多义现象广泛存在 因而查询的结果集往往非常庞大 有 些信息甚至和要求风马牛不相及 最后降低了查准率 而且在自然语言中存在 众多的同义词 近义词 对同一个问题不同的人可能有不同的表达 传统的信 息检索技术过分依赖用户的检索式 缺乏语义扩展和分析的能力 很难同时保 障较高的查全率和查准率 传统信息检索另一个主要的技术是目录式导航检索 目录式导航检索采用 一种直观的方式 将待检索的信息按照结构和内容进行分类组织 用户在检索 时就不需要显式的输入检索条件 只需要按照信息的组织方式选择感兴趣的主 题 逐步缩小查询的范围 最终就能获取想要的信息 典型的导航检索引擎如 y a h o o 旧的o p e nd i r e c t o r y 导航检索有很好的查准率 但是用户需要逐级查找 比牧 费 f 川 谊索效率 1 高 m 且由于导肌检索对信息的分类组织主要由人 工柬完成 因而信息 更新的速度比较慢 难以保证较好的查全率 近年来 科研人员在人工智能和自然语言处理方面作了人量的研究工作 包括基于机器学习和自然语言的信息检索研究 但是进展缓慢 o n t o l o g y 由于 主题控索 j i 擎的圳究 实现 其具有良好的概念层次和表达能力 并能根掘一定的规则进行推理和检索 非 常适合基于知识的智能检索信息检索 因而成为当日 w e b 信息检索技术的新亮 点 1 4 本文经过分析研究 提出了基于o n t o l o g y 的智能检索信息检索系统模型 2 2o n t o l o g y 概述 2 2 1o n t o i o g y 概念 o n t o l o g y 翻译为本体论 最早是一个哲学上的概念 从哲学的范畴来说 o n t o l o g y 是客观存在的一个系统的解释或说明 关心的是客观现实的抽象本质 在人工智能界 最早给出o n t o l o g y 定义的是n c c h e s 等人 他们将o n t o l o g y 定 义为 给出构成相关领域词汇的基本术语和关系 以及利用这些术语和关系构 成的规定这些词汇外延的规则的定义 1 5 1 9 9 3 年 g r u b e 给出了o n t o l o g y 的一个最为流行的定义 1 6 1 即 o n t o l o g y 是概念模型的明确的规范说明 后来 b o r s t 在此基础上 给出了o n t o l o g y 的另外一种定义 7 o n t o l o g y 是共享概念 模型的形式化规范说明 s t u d e r 等对上述两个定义进行了深入的研究 认为 o n t o l o g y 是共享概念模型的明确的形式化规范说明 这包含4 层含义 1 8 概念 模型 e o n e p t u a l i z a t i o n 明确 e x p l i c i t 形式化 f o n m l 和共享 s h a r e 1 概念模型 指通过抽象出客观世界中一些现象 p h e n o m e n o n 的相关概 念而得到的模型 概念模型所表现的含义独立于具体的环境状态 2 明确 指所使用的概念及使用这些概念的约束都有明确的定义 3 形式化 指o n t o l o g y 是计算机可读的 即能被计算机处理 4 共享 指o n t o l o g y 中体现的是共同认可的知识 反映的是相关领域中 公认的概念集 即o n t o l o g y 针对的是团体而非个体的共识 o n t o l o g y 的目标是捕获相关领域的知识 提供对该领域知识的共同理解 确定谚领域内共同认可的词汇 并从不同层7 的形式化模式卜 给m 这然词汇 术 语 和 词汇 1 i j 相 关系的明确定义 2 2 2o n t o l o g y 的分类 目前关于o n t o l o g y 的研究非常广泛 尤其是在国外 许多研究研究组织和 主题檀索 j l 警的川究o j 蜜脱 机构都建立了各具特色的o n t o l o g y 针对目前出现的各种各样的o n t o l o g y 也 出现了不同的分类 以下三种分类方法使用最为广泛 根掘o n t o l o g y 应用主题 可将o n t o l o g y 划分为 i 利 类型i 撺 领域o n t o l o g y 领域o n t o l o g y 在一个特定的领域中可重用 它们提供该领 域特定的概念定义和概念之删的关系 提供该领域中发生的活动以及该领 域的主要理论和基本原理等 对特定领域的o n t o l o g y 研究和丌发目的已涉 及许多预域 包括企业o n t o l o g y 医学概念o n t o l o g y 生物学o n t o l o g y 等 通用或常识o n t o l o g y 关注于常识知识的使用 通用知识o n t o l o g y 的研究 包括著名的c y c 公司的o p e n c y c o n t o l o g y 最新版的o p e n c y c 包括6 0 0 0 个 概念和6 0 0 0 0 个关于这些概念的声明 包括概念间的关系 对概念的限制 等 另外o p e n c y c 还包括一个基于o n t o l o g y 论的常识推理机 知识o n t o l o g y 它的研究重点是语言对知识的表达能力 典型的有斯坦福 大学知识系统实验室提供的一种称为知识交换格式k 1 f k n o w l e d g e i n t e r c h a n g ef o r m a t 的知识描述语言 以及可以在线将各种知识转换为k i f 的o n t o l o g y 服务器 目前普遍认为 所有其它的知识表示形式都可以转换 为k i f 的形式 语言学o n t o l o g y 是指关于语言 词汇等的o n t o l o g y 典型的实例有g u m g e n e r a l i z e du p p e rm o d e l 和普林斯顿大学研制的w o r d n e t 任务o n t o l o g y 也称为方法o n t o l o g y 任务o n t o l o g y 是o n t o l o g y 研究的另 一个分支 主要研究可共享的问题求解方法 这里的推理方法与领域无关 任务o n t o l o g y 主要涉及动态知识 而不是静态知识 任务o n t o l o g y 的研究 以c h a n d r a s e k a r a n 等人的关于任务和问题求解方法o n t o l o g y 的研究为代表 任务o n t o l o g y 中经常描述的要素包括 任务目标 任务数据 执行状态等等 具体的研究主题包括 通用任务 与任务相关的体系结构 任务方法结构 推理结构和任务结构等 根掘o n t o l o g y 表示的形式化程度 可将o n t o l o g y 分为四种类型 完全非形j 化 完全采耳j 自然语言 进行表示 结构非常松散 典型的如术语 列表 结构非形式化 采用受限的或结构化的自然语言进行表示 能有效提高 土题搜索 擎的州究 j 实现 o n t o l o g y 论的清晰度 减少二义性 半形式化 采用一种人工定义的形式化语吉 进行表示 目前己有许多研究机 构j r 发制定了这类形式化o n t o l o g y 论表示语言 许多采用o n t o l i n g u a 捕述 的o n t o l o g y 都属于这一类 完全形式化 所有属于都具有形式化的语义 并能在某种程度上证明包括 一致性和完整性等方面的属性 在实际应用中 这几种表示方式各有所长 如果o n t o l o g y 论的应用目的是 为了加强人与人之间的交流 则非形式化的o n t o l o g y 将更为适用 如果对 o n t o l o g y 的处理需要由机器自动完成 则其形式化程度越高越好 在有些清况 下 需要将非形式化和形式化两种方式组合起来了吏用 根据o n t o l o g y 的研究层次 可将o n t o l o g y 分为四种类型 顶层o n t o l o g y 主要研究非常通用的概念 如空间 时间 对象 事件 行为等 他们完全独立于特定的问题或领域 因此可以说顶层o n t o l o g y 可 以在一个很大的范围内共享 领域o n t o l o g y 研究与一个特定领域相关的术语或词汇 如医学 企业模 拟等 任务o n t o l o g y 定义通用任务或推理活动 如诊断等 它们都可以应用顶 层o n t o l o g y 中定义的词汇来描述自己的词汇 任务o n t o l o g y 和领域 o n t o l o g y 处于同一个研究和开发层次 应用o n t o l o g y 描述特定的应用 它既可以应用特定的领域o n t o l o g y 中的 概念 又可以引出现在任务o n t o l o g y 中的概念 2 2 3o n t o i o g y 在信息检索中的应用 o n t o l o g y 作为一种能在语义和知识层次上描述信息系统的概念模型建模工 具 自被提出以柬就引起了田外众多利研人员的关 f 行在计算机的许多领域得 到了广泛的应用 如知识工程 数字图书信 软件复用 信息检索和w e b 上异构 信息的处f q 语义w e b 等 o n t o l o g y 在信 皂 盒索引擎中的应用的基本腰 路是利用o n t o l o g y 对信息的描 述来检索知识库 从而提高检索的效率和精确度 典型的例子为s h o e 2 0 1 土题搜索0 l 警的州究1 j 宴脱 o n t o l o g y 在信息检索中的作用 消除自然语言 理解中的歧义 明确概念涵义 检索流程的第一步就足通过人一机界面接门输入检索提问武 那么如f i i 消 除计算机对自然语言 理解所产生的歧义也就是让计算机理解人们检索的真正意 图就显得尤为重要 可是由于自然语言具有丰富多彩的表达形式 有大量的同义 词 近义词 多义词存在 计算机要自动识别检索词的准确含义就需要借助特定 的工具 o n t o l o g y 用o n t o l o g y 中概念和概念约束的明确规范说明 可以帮助系 统在多个可能的意义中选择最适合的意义 根据相关概念进行推理 挖掘隐含信息 推理是找出文本中没有明显表示出来或者有转义的意义 系统利用o n t o l o g y 中缺省的知识填充空缺的意义 比如在检索 合作者 的例子 在甲的主页上合 作信息上有 乙是甲的合作者 但是在乙的主页上没有合作者情况的陈述 根据 o n t o l o g y 定义中 合作者 成对出现原则 乙同样获得 甲是乙的合作者 的合 作属性特征 2 3 基于o n t o i o g y 的信息存储 构建o n t o l o g y 的目的在于实现领域知识的共享和信息的自动化处理 因此 当o n t o l o g y 形式化以后需要一种持久的 中立 统一 与平台无关的方式存贮 这样建好的o n t o l o g y 才能在不同应用中充当人 机器对领域知识共同认识的媒 介 2 3 1 文件存储 通过一些o n t o l o g y 编辑工具 比如p r o t 6 9 6 2 1 1 可以将o n t o l o g y 输出为o w l r d f n 3 等格式的文件 特点是灵活方便 比较适合存储较小的o n t o l o g y 但 是存在如下的缺点 0 rr d f x m l 谓法的灵i i 心 刘同 个o n t o l 0 9 3 的r d f 图懂型可以 序列化不同的形式 这样会增加信息检索的复杂度 应厨j 每次运行时 必须重所装载o n t o l o g y 的公理和实例 将r d f 图存 贮于内存中 这个方法虽然灵活 但有一些限制 特别是应用每次都需要解析 土题搜索t i 擎的州究 实现 文档 对一个大的o n t o l o g y 来说 可能会直接导致失败 2 3 2 数据库存储 另一种方法是把o n t o l o g y 以r d f 三元组的形式存储在关系型数据或者面 向对象的数据库中 形式化的o n t o l o g y 可以序列化为r d f 陈述 s t a t e m e n t s r d f 是描述元数据 的语言 提供了一种用于元数据表达的通用框架 可以处理任何类型的数据 r d f 用 三元组表示所有的知识 对i 亥三元组的解释为 主语s s u b j e c t 捌有属性p p r o p e r t y 的值为o o b j e e t s 和p 为资源u r i o 可以是资源u r i 也可 以是平凡文字 一个描述特定资源的三元组又称为一个r d f 陈述 s t a t e m e n t 由 r d f 陈述组成的集合组成了r d f 图 g r a p h r d f 图由节点和弧组成 节点代表 资源u r i 或属性值 弧代表属性 资源用椭圆表示 属性值可以是文字也可以是 资源u r i 文字用矩形表示 如图2 1 所示 豳2 i 表示 资源一属性一值 的r d f 图 r d f 数据可以用x m l 三元组或者图的方式表示 目前的应用系统一般都 采用三元组形式存放在关系数据库中 为了表达r d f 图含有的语义信息需要将 r d f 图映射为数据库中的存储结构 当需要语义检索的时候需要从三元组重新构 建r d f 图 2 4 基于o n t o l o g y 的语义检索策略 o n t o l o g y 是一个概念模型 它通过定义领域共享概念 概念之间的关系以 及公理 定理来表达对领域知识的一致理解 具有很强的语义表达能力 参照 o n t o l o g y 4w e b 信息进行射夥 1 殳 乏 仃l 自义1 总 为实脱u 曲f 言 翅 的 b 卓提 供了良好的基础 但是对信息检索系统来讲 还要何一个好的检索策略 即用 什么样的捡索方式 j 能准确把握用户检索需求 对领域知u 和事实数掘进行深 o 上题控索t j l 擎的训究o j 填脱 层次的推理 从而提高信息检索的查全率和查准率 当前信息检索系统查全率 查准率不高的主要原因有两个 一是用户需求 表达不充分 机器不能理解其真正需求 二足检索系统对检索条f l l j t 械匹配 不能进行语义分析和自动扩展 因此提高检索质量可以从两个方面入手 1 参照o n t o l o g y 中的概念关系对检索式进行优化 利用领域o n t o l o g y 中的语义关系将用户的检索条件映射为o n t o l o g y 的概 念和关系 从而实现用户的需求和机器理解的一致 2 利用o n t o l o g y 中的概念关系对用户的检索概念进行扩展 当系统中没有满足检索条件的结果时 根据领域o n t o l o g y 中的概念相关 程度对检索式中的概念适当扩展 形成新的检索概念集重新查找 2 4 1 基于o n t o i o g y 的检索式优化方法 用户的检索请求用检索式来表达 其形式一般有两种 自然语言表达和关 键词表达 自然语言的检索方式 经过分词和语义分析之后也可以转换为一组 概念以及概念之 自j 的逻辑关系 因此 用户的检索式最后都可以转化成一组概 念和逻辑关系 与 或 非 的集合 形成用户检索概念空间 信息检索的过 程就是用户检索概念空间和系统数据匹配的过程 检索系统中存在用户需求的 信息而却不能被用户检索到称为检索失败 造成检索失败的主要原因有两个 一个是用户需求表达不充分 一个是系统对检索式的处理存在缺陷 由于用户 自身经验不足或者对领域知识缺乏了解 往往造成用户的检索概念和系统中的 概念不一致 因而无法检索到正确结果 因此为了充分理解和正确表达用户的 需求 需要利用o n t o l o g y 的中的概念关系对检索概念空间进行优化和扩展 本 节论述检索概念空间的优化方法 假设用户的原始的概念空间为 k r 其中k 为用户查询式中的检索概 念项的集合 r 为似念项削逻辑关系的集合 则利用o n t o l o g y 对其进行优化的 过程可以分为两步 第一步 将k 中的用 1 概念项映射为o n t o l o g yq t 的概念 形成新的概念集 合c 第二步 根掘语义关系和原始的逻辑关系r 对c 执行逻辑转换规则 确 土题搜索 j i 擎的 究 实 圯 定新概念 u j 的新逻辑关系 形成新的概念空间 对于第一步 假设k 中的检索概念项为 k 卜 k 对于其中的每一个概念 项 有找o n t o l o g y 中与之匹配的概念 包括其同义词和各种词形变化 每一次 成功的匹配部产生一条记录 k i c i 其中k i 是k 中的某一检索概念项 c 是 o n t o l o g y 中与k i 匹配的概念 由于一个k i 可能具有多个相关的c 因此一个 k i 可能拥有多条记录 所有的c i 即构成了新的概念集合c 当k 中的所有用户概念项都被映射为o n t o l o g y 论中的概念后 则进行第二 步 即根据集合c 中各概念 自j 的语义关系对原有的逻辑关系进行转换 形成新 概念间的新的逻辑关系 概念间的语义关系包括同义关系 上位 下位关系 半 义 全义关系和反义关系 转换过程主要通过应用一套逻辑转换规则来实现 对于c 中的任意两个概 念项c i 和c j 自j 的逻辑关系 其基本转换规则如下 2 2 1 如果c i 与c j 具有逻辑 与 关系 即c i a n dc j 则 a c i 与c j 同义 c io r c i b c i 为q 的下位净c j c c i 为q 的半义 q 2 如果c i 与q 问具有逻辑 或 关系 郎c i o r q 则 a c i 与c j 同义 c io rc j b c i 为c j 的下位净c j c c i 为c j 的半义 c j d c i 为c j 的反义 c io rc j 3 如果c j 具有逻辑 非 关系即n o tc i 则 a c i 与c i 同义 n o tc i b c i 为c j 的上位 n o tc j c c j 为c i 的全义 n o t c i d c 为c j 的反义 c j 蚓果c 中的似念hf j 多f l j j 芝辑夕 系组台 j u 通j 蔓上血u 垫乍限目j 觇则l l 朔l 合求实现映射 通过以上方法 用户的检索空问概念和关系映射为检索系统的 概念和关系 用户的需求表达和机器的理解达到 致 可以有效提高系统硷索 土题搜索川擎的州究o j 蜜脱 的质量 2 4 2 检索式语义扩展方法 造成检索失败的另一个原因足系统缺乏对检索式语义扩展的能力 解决的 办法是当系统中没有与用户检索条件相匹配的结果时 对用户的检索条件进行 适当的扩展 降低对检索式的约束 查找和检索式的要求不完全相同但是高度 相关的数据 o n t o l o g y 定义了领域共享的概念以及概念之间的关系 利用概念 之问的层次关系 子类 父类关系 以及其它关系 比如说同义关系 近义关系 包含关系可以对检索条件语义扩展 1 同义扩展自然语言中 一词多义 现象广泛存在 用检索空间概念 的同义词替代作为检索条件 返回结果是完全相关的 比如说在计算 机领域 数据挖掘 可以用 知识发现 来替代 2 钻取扩展用更具体的下位概念 子概念 替代用户检索空间概念 把检索范围具体到一个小的领域 比如说用户要检索条件为 自然语 言处理 没有返回结果 根据计算机领域的学科层次可以知道 语 义消歧 和 语料库 作为自然语言处理的下位概念也应该满足用户 的检索要求 因此将该检索式扩展 把 语义消歧 和 语料库 作 为检索条件 3 泛化扩展用抽象程度更高的上层概念 父概念 替代用户检索空间 概念 对检索的范围进行扩大 比如说检索 语料库 没有结果时 可以用它的上位概念 自然语言处理 来扩大查询的领域 这样虽然 不一定能查到语料库方面的文献 却可以得到和它相关性比较强的资 料 4 利用其它的语义关系来扩展 比如说近义词 半义词等 值得泣意的是 为了保证系统的运 亍效率和俭索结粜的4 臼关性 对语义扩 展的深瞍需要加以拧制 比如子兹 父娄奠系的扩嘎只限丁直接予类和父类 扩 展深度为1 如果把o n t o l o g y 中的概念看做是图的节点 概念之i 日j 的关系看做是连接节 点与节点的有向弧 那么整个o n t o l o g y 就是一个错综复杂的语义网格 从前面 土题檀索 j i 擎的研究 j 实现 的查询扩展的过程来看 基于o n t o l o g y 的信息检索就是从图的某一个节点丌始 沿着弧不断查询新节点的过程 由此提出基于o n t o l o g y 的启发式扩展查询表达 式 一般地基于o n t o l o g y 的启发式扩展查询表达式可定义为n 个函数的组合运 算 其形式为 o l o o f 其中每一个 都代表一个查找操作 i 五 7 其中 五表示一条有向边e 或其反向c 一 代表的是概念结点的一个链接关 系 r 表示关于五的区间长度说明 其形式为n n m 行 0 的缩写 或 l 的缩写 其中的任何一个 捌 启发式表达式的含义是 将语义网格中的结点集合作为输入 对于每一个 概念结点 按照从左到右的顺序 依次遍历公式中每个 说明的关系链接 每 激活一个链接都将产生一个中间结点集合 作为下一次激活操作的起始集合 启发式表达式如果能提供任何信息项作为结果 则有意义 夕的序列值代表了 它的重要程度 最具有激活价值的链接关系放在f i b z 而最不具有激活价 值的链接关系放在最后 工 2 5 基于o n t o io g y 的信息检索实现框架 基于o n t o l o g y 的信息检索系统的思路 2 4 如下 1 o n t o l o g y 建立 在领域专家的帮助下 建立相关领域的o n t o l o g y 1 1w e b 信息收集 组织与存储 由信息收集器负责收集w e b 信息源中的数 据 并参照已建立f l j o n t o l o g y 把收集来的数扼按规定的格式存储在元数 掘痒 关系数掘f 车 知洲车 0j q 2 查询处理 对片j 户检索界面获取的查询请求 查询转换器按照o n t o l o g y 把查询请求转换成觇定的格式 t o n t o l o g y f l o j 助f 从元数抓j 车叶 匹配 出符合条件的数扼集合 4 土题搜索0 i 擎的州究 安j j 已 3 检索结果处理 检索的结果经过定制处理后 返回给用户 如果检索系 统不需要太强的推理能力 o n t o l o g y 可用概念图的形式表示并存储 数 掘可以保存在一般的荚系数掘痒i 采用图的匹配技术来完成信息检 索 如果要求比较强的推理能力 一般需要用一种描述语言 如 l o o m o n t o l i n g u a 等 表示o n t o l o g y 数据保存在知识库中 采用描述语言的逻 辑推理能力来完成智能信息检索 系统实现框架图如图1 1 所示 主题搜索川擎的研究 实现 第3 章搜索引擎研究综述 3 1 搜索引擎的发展历史和趋势 早在w o r l d w i d e w e d 出现之前 搜索引擎就已经诞生了 最仞的搜索引擎 主要被用来在不同的f t p 站点上查询文件 它提供对各站点文件的检索 从而 方便用户查找所需的文件f 明 1 9 9 3 年之后 随着互联网的发展 普通网络用户要想查找所需的资料简直 如同大海捞针 现代意义上的搜索引擎便应运而生了 它以通过机器人程序抓 取网页或者由网站主动提供信息的方式来建立对网页的索引 为用户提供信息 检索服务 此时涌现了大量功能相似的搜索引擎 如 l y e o s 6 1 y a h o o 等 他 们属于现代意义上的第一代搜索引擎 特别是y a h o o 成功地使搜索引擎的概 念深入人心 从而使搜索引擎进入了高速发展时期 在搜索引擎的发展经历一个高潮后 处于商业上的考虑 多数搜索引擎发 展为门户网站 伴随着人们对网络经济的过高预期 人们对门户网站非常热衷 相比之下 搜索引擎的丌发运营成本高 用户面窄 仅为少数几家公司提供检 索服务 搜索引擎的丌发受到了冷落 而伴随着互联网规模的进一步扩大 搜 索引擎变得越来越被人们所需要 第二代搜索引擎出现了 其中最具代表性的 当属g o o g l e g o o g l e 提供了一系列革命性的新技术 包括完善的文本对应技术 和先进的p a g e r a n k 排序算法 2 7 1 保证返回结果和用户搜索要求的高度相关性 从而使g o o g l e 大受欢迎 随着第二代搜索引擎的逐步成熟和互联网信息的爆炸式增长 第三代引擎 也进入了研制阶段 第三代搜索引擎的最大特点就是大量智能化信息处理技术 引入 网络搜索服务将步入知识检索和知识服务领域 也即第三代搜索引擎将 朝着知识型搜索引擎的方向发展 数据 信息 知识是属于三个不同层晰的概念 知识是和用户能力及经验 紧密 f f 0 能日 叶 r m p j j 司题稃 龟 j j 矗朝i l i l i h n 0 信 鬯 移lt f i 代j 象 i 等 j 0 发展目标就是要把散落住互联网上的彳 相关的数掘搜集起来 经过筛选 组织 和分析 发现知识并返回给h j 户 在数据库层而的知识发现k d df k n o w l e d g e d i s c o v e r yi nd a t a b a s e 早已出现 如何将k d d 的现有技术和理论移植到w e b 三题搜索0 i 警的州究o j 铰j i 知识检索上 是摆在我们面i i 的一个难题 也是第三代搜索引擎的发展方向 2 钔 w e b 自面世以来短短的l o 年期i 日j 之所以如此蓬勃发展 其中一个巨大的原 因就足它上面蕴含了图像 影像 声音等人量的多媒体资源 多媒体信息较之 普通文本信息量大 对用户的说服力和吸引力也更强 对多媒体信息的w e b 检 索也是新一代搜索引擎的一个重要研究方向 w e b 信息挖掘的一个新兴方向就是自然语言 n l 处理 现在的n l 技术已 经能够分析良结构 w e l l d e f i n e d 的句子 较好的消除多义词歧义 在连续文 本中标记出词性 p a r t o f s p e e c h 信息 并可以写出规范的机器可识别的自然 语言文档和进行自然语言翻译 但由于计算机在非确定性逻辑处理技术上还存 在有待突破的难题 流行的w e b 搜索引擎在这方面进展缓慢 因此这也成为新 一代搜索引擎一个的必然发展趋势 随着信息社会的进一步发展 人们要求准确的查找某一特定学科领域或特 定专题的i n t e m e t 信息资源 因此 主题型搜索引擎也成为新一代搜索引擎的一 个发展方向 3 2 通用型搜索引擎 通用型搜索引擎 又称综合性搜索引擎 信息覆盖范围大 适用用户广泛 如 g o o g l e 百度等 它们通常使用一个或多个的w e b 信息提耿器 网络蜘蛛 从i n t e m e t 上收集各种数据 如 w w w n e w s f t p 然后在自身服务器上 为这些数据创建索引 当用户搜索时根据用户提交的查询条件从索引库中迅速 查找出满足条件的信息返回给用户 通用搜索引擎按照信息搜集方法和服务提供方式的不同 又可分为 全文搜索引擎 全文搜索引擎是指能够对网站的每个网页中的每个单子进行检索 由此可 见它是基于网页级的 如 g o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 细胞分化与癌变衰老机制研究
- 小儿热性惊厥讲解
- 心脏结构图讲解
- 设施葡萄种植技术
- 学生特色发展汇报
- 社区协商案例汇报
- 小龙虾养殖技术
- 素描第一课讲解
- 医院火灾应急预案
- 2026届云南省昭通市化学高一第一学期期中检测模拟试题含解析
- 2025年颁布的《政务数据共享条例》解读学习培训课件
- 外耳道冲洗技术课件
- 2025年风险管理师资格考试试题及答案
- 军区医院保密管理制度
- 异地恢复造林合同范本
- DB32/T+5124.5-2025+临床护理技术规范+第5部分:成人危重症患者有创机械通气气道湿化
- 香港借壳上市协议书
- 2025年医疗企业税收政策对企业数字化转型策略研究
- 三级高频词汇必背
- 2024北森真题题库
- 2025年ECMO试题及答案
评论
0/150
提交评论