(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于web的智能搜索引擎的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab stract a日st ract inre c e n t year s , the inte r 11e t c o ntin ues t oe xpandth e s c a le , o n li ne in format io n b e c o m e s e x t re m e l ylar g e andc o n 1 p 1e x t h eem e r g e n c e o f s e ar c he n g ines c an h e l p u s e r s o n the n e tw 0 rkto fac 11ita te th e s e a rc 11 for th e i n fo r m a tio nth e yn e e dwit h th e p o pul如ty o f the n e two r k , n e two rk p e o p l e wo r k in ga i1dl iv in ginth eincre as in g ly lmp o rta ll t st atu s , p e o p le s e arehe n g ine s no lo n g e r m e etthe o r ig in a l s i1n p 1e fi 1l1 c t io 几 b utt hem o red e ll la n d i ng, t hi s s e ar c h e ngin e toa mo resev e r e c h al leng e s t h 1s s tu d ywasp e rfor n 1 e do nthe s e a rc he n g in e a s a d eve lo p in e ntd irec tio no f the w e b 一b a s e d ini e lli g e n t s e ar c h e n g ine, the o r e tic a l ana 1y s is a n d d e s ig nb a s e d o n th e t ra d iti o nal s e 毗hen g ine s ta tu s a l1dd e v e lo p m e nttr e n d s , stud ya lldd e si g no f inteil ig ent s e ar c h e n g ineo f the o v e rall struc ture , i ts o v e ral l s lr tlc tur e w e r e m ad e t h e m ai n ta s k i s g iven tot h e s e a r c i1 e n g ine d ata min illg strat e g y , and h ave th e k n o w le d g e b a s e , t h e re int e l l1g e n t s e areh e n g in e s p id e r s n e t 认 ro r k d e s ig n . thi s p a per studi e s asfo l lo ws : 1 , a s s o c iatio n rule s al g o ri th ms and c lu s te ri n g a lg o ri t h n 1 s ; 2 , the kno wle d geb a s e 田 l a ly s is ; 3s p id e r n e t w o rkd e s ig n . k c y w o r d s : we b ;in te llig ent ; p e r s o n al iz at io n ; kn o w le d g e b ase ; s p ider n e tw o rk; s e are h e ngin e : i i 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的 研究工作及取得 的研究成果。 据我所知, 除了 文中 特别加以 标注和致谢的地方外,论文中不 包 含 其 他 人己 经发 表 或 撰写 过 的 研 究 成 果, 也 不 包 含为 获 得 一 鱼 鱼左红或 其 他 教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学 位 论 文 作 者 签 “ (手 写 :书认签 字 日 期 : 刁年 ” 分 日 学位论文版权使用授权书 本学位论文作者完全了 解南昌大学有关 保留、 使用学位论文 的规定, 有权保留并向国家 有关部门 或机构 送交论文的复印件和磁盘, 允许论文被查阅 和借阅。本人授权南昌大学可以 将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学 位 论 文 作 者 签 “ (手 写 ):介 纵 导 师 签 “ (手 写 ): 刻 、 板隆 振 签 字 日 期 :脚年 “ 汁签 字 日期 :刁年 月 厂 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 引言 引言 人类文明的发展,生产力的进步都离不开知识的积累。从古埃及的亚历山 大图书馆,到现代的大英博物馆和美国国会图书馆,以及近代的第一检索电子 期刊馆藏联机 ( 戊l c,f i r s ts e arc he l e c t r o n i cc o 1 l e c t i o n s0nl i n e ) ,人 们一直梦想将世界上所有的知识汇总起来,做成一本反映人类全部文明的百科 全书. 然而当i n l e m e t 的革命以及数字图书馆技术的快速发展看来要将这个乌托 邦式的梦想付诸实现的时候, 一个更严峻的问题摆在了 人们面前,即我们如何 利用和开发这个包罗万象的知识宝库呢? 我们如何来翻阅 这本厚厚的百科全书 呢? 近年来 , 互联网 的规模不断扩大, 网上的信息变得异常庞大复杂。 搜索引 擎的出 现可以帮助用户在网络上方便的查找到自己需要的信息。随着网络的普 及,网络在人们工作生活中的地位越来越重要,人们对搜索引擎也不再满足原 来的简单功能, 而是提出了更高的要求,这对搜索引擎提出了更严峻的挑战。 现有的搜索引擎 g oo gl e( www.g oogl e. co m)、百度( b ai du.co m ) 、北大天网 (e.p 如e d u .呵、 雅虎 ( ;y ab o o 刀 姻) 、 搜狐( 州,加 加.c o m ) 等正在网 上信息检 索发挥着巨大的作用。虽然这些搜索引擎给人们提供了功能强大的服务,但它 们也还存在如下一些不足。一是这些搜索引擎不具有智能性,不能很好地理解 人们所需要查找的信息。 这些搜索引擎只是机械地匹配人们输人的关键词,常 常给用户返回大量无用的 信息,这给我们检索所需要的信息提供难度。二是这 些搜索引擎不具有个性化。 不管检索信息的对象是谁, 科研工作者、 商业人士、 小学生、博士等, 只要输人的关键字一样,这些搜索引擎返回的结果都是一样 的, 但很明显, 这些不同的对象所需要的 信息是不同的。 三是这些搜索引擎处 理用户信息的功能弱。 为了克服这些搜索引擎的不足, 更多地满足人们的需要, 现提出一种基于we b的智能搜索引擎。 第 1 章 搜索引擎概述 第 1 章搜索引擎概述 1 . 1搜索引擎的发展史 随着因特网的迅猛发展、 从 七 b 信息的增加, 用户要在信息海洋里查找信息。 就象大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信 息检索服务。目 前, 搜索引擎技术正成为计算机工业界和学术界争相研究、 开 发的 对 象。 搜 索引 擎 ( se arche n g i祠是随 着w e b 信 息的 迅 速增 加, 从19 95年 开始逐渐发展起来的技术。据发表在 哎 科学杂志 1 9 99年 7 月的文章 we b 信息的可访问 性估计,全球目 前的网页超过5 亿,有效数据超过g t g 。并且 仍以每4 个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息。 必然会 “ 大海捞针”无功而返。搜索引擎正是为了解决这个 “ 迷航”问题而出 现的技术,搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理 解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的, 一般包括信息搜集、信息整理和用户查询三部分。从用户的角度来看,它就是 一个帮助人们进行信息检索的工具。搜索引擎提供的导航服务己经成为互联网 上非常重要的网络服务, 搜索引擎站点也被美誉为“ 网 络门 户” 。 搜索引擎技术 因而成为计算机工业界和学术界争相研究、开发的 对象. 1 990 年以 前, 没有任何人能搜索互联网l1 。 所有搜索引擎的祖先, 是 1 9 90 年由m o ni r e ai的m c 伍uu n i v er s ity 学生 alan e m tage ,p e t e r d e u ls ch.bin w b ee l an发明 的a r c 场 e 沪r c hi e faq ) 。 一 个可以 用 文件名查找文件的系统, 于是便有了户 j c h l e . 户 j c h l e 是第一个自 动索引互联网上 匿名f , 网站文件的 程序, 但它还不是真正的搜索引擎121 。 最早 现代 意 义 上的 搜 索引 擎出 现于1 9 94年7 月 2 。 当 时m ic b ae l m auldi n 将j o ho玫 a v itt的 蜘 蛛 程序 接入 到 其索引 程 序中, 创建了 大 家 现 在熟 知 的幼c o s. 19 95年12月, al ta 明 sta永 远改 变了 搜索引 擎的 定 义 131 . a lta 巧 sta是 第一 个 支持自 然语言搜索的搜索引擎,alta v l sta 是第一个实现高级搜索语法的搜索引 擎( 如a n d , 0 凡n o t 等 ) 。 用户可以 用a l t a vi sta搜索n e wsgro叩5 新闻 组的内 容 并从互联网上获得文章,还可以搜索图片名称中的文字、搜索 下 t l es、搜索 第 1 章 搜索引擎概述 j a v aa p p l ets、 搜索acti v e xo bj e c ts . 19 98年, g 加gle 在pag e ra nk、 动态摘要、网 页快照、 d ail y r c fresh、多 文 档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上 的革新, 象a l ta v i s ta一样,再一次永远改变了 搜索引擎的定义。 现阶段,出 现了a s k jeeve s, b ai ,g ot o. co m ,m ys如on,d ito等内 容类别 不同的搜索引擎。 1 , 2搜索引雄的现状 自 从1 9 91年的第一个搜索引擎出 现以 来, 搜索引 擎已 经从第一代走向了第 二代,目 前的搜索引 擎正处在从第二代向第三代渐变的过程之中。第一代是人 工分目 录检索,第二代是机器程序 ( 也称为机器人,蜘蛛)抓取网页。 目 前的 基于传统 信息检索 o n fo rmat i o n r e t ri e v a l , ir)方法的 搜索引擎大部分 使用的是基于文档内 容的词频统计, 即tfi df 方法的索引方式. 这种基于文档 关键词的检索手段随着v 几 b 上数据量的迅速增加而越来不适应人们的要求, 它 的主要缺陷是: ( 1 ) 信息过量, 返回 太多的无关内 容。若干个关键词构成的一个查询组 合可能返回上万个相关页面链接,很多检索结果和用户查询毫无关系,而且返 回的信息很少具有个性化的相关度排序,用户最满意的信息并不是最先推送给 用户。研究指出, 大概有75% 搜索结果可能是和查询条件无关的。 ( 2 ) 任意单一搜索引擎的m 陌 b 覆盖范围有限。 ( 3 ) 面向 关键字的搜索。 现有的大部分信息检索系统采用关键词输入方 式进行检索 , 查询以 关键字和布尔查询为主, 关键词是由 用户自 由选择的, 不 受任何限 制,用户所选择的词有很大的随意性, 无法实现同义概念、上下位概 念的检索, 无法通过逻辑推理进行检索, 检索智能化程度不高。目 前搜索技术 仅仅对关键字进行简单的匹配, 而不能根据用户查询目的进行查询内容的扩展, 此外有些信息查询是很难用关键词组合来准确的 描述。全文检索己是一个很成 熟的技术, 它能够解决对网页细节的检索问 题。 从理论上说,只要网页上出 现 了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来,但是这又 导致了它的缺陷一返回的信息太多。更严重的是,除了综合性的搜索引擎站点 有这个现象之外, 现在较大的站点对自 身站内 信息的检索也会返回大量的网页。 第 1 章 搜索引擎概述 传统的文本信息检索一般使用查全率 ( r e c all) 与查准率(p recisio n) 来对检索效果 进行量化评价,但是在海量的互联网信息检索上用查全率与查准率来衡量检索 效果是否合适? 在某些场合, 高的查全率带来的成千上万命中网页对用户实在是 一个沉重的负担,除此之外,它还有两个不很直观的深层次问题,也给信息检 索带来了不少困难。 这两个问 题都与词汇密切相关: 一 个是“ 忠实表达“ 的问 题。 很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要 检索的内容,表达困难导致检索困难。另一个是 “ 表达差异 “ 问题。人类的自 然语言中, 随着时间、 地域或领域的改变, 同一概念可以 用不同的语言表现形式 来表达。因此,对同一概念的检索不同的用户可能使用不同的关键词来查询, 例如: “ 计算机”和 “ 电脑” ,“ 麦克风”与 “ 话筒” 。但在有些搜索引擎上使用 “ 麦克风”是查不到含 “ 话筒”的网页的,虽然它们指的是同一种东西。 ( 4)只能发现信息,而不是知识。v 几 b中包含着大量信息,而这些信息 经过提炼加工可以上升为知识。单纯的使用统计的方法是无法把海量的信息转 化 为 知 识的 形 态。 115 】 1 . 3搜索引擎的分类 搜索引擎是指能够获得网站网页资料、建立数据库并提供查询的系统。按 其技术和功能的发展历程来看, 可分为: ( 1)人工分类的搜索引擎 例如y a h 。 。 . 这一类搜索引擎首先将于搜集到的网站手工划分到某个分类 下, 再记录一些摘要信息,对网站进行简单的介绍。 (2 ) 基于机器人技术的搜索引擎 这种搜索引 擎是利用一个称为而b o t( 也叫 做s p i d e r , w e b c r 即l e r 或w e b w a n d e r e r )的程序自 动访问w eb站点,提取站点上的网页,rob ot 搜集的网页 被加入到搜索引擎的数据库中,供用户查询使用。它由 3个主要部分构成: r o b 叭、i n d e x和检索软件。r obot作为一个程序,会定期访问互联网对一定范 围内的网站进行检索,一旦发现更新或新的网站,它会自 动提取网站的信息和 网址加入到自己的数据库中。 i ndex是一个庞大的数据库, rob ot提取的网页将 被放入到 i ndex 中建立索引库。 r obot 的搜索引擎一般要定期访问以前搜集的 网页,刷新 i n d ex,以反映出网页的更新情况,去除一些死链接,网页的部分 第1 章 搜索引擎概述 内容和变化情况将会反映到用户查询的结果中, 这是基于r obot 的搜索引擎的 一个重要特征. ( 3) 元搜索引擎伽e t a 一 s e arc h ) 元搜索引擎是一种建立在多个异地的搜索引擎基础之上的信息查询工具, 它自己并没有索引数据库而是选择现有的独立的搜索引擎中的优秀者,利用它 们的 检索功能,以 集 成的 界 面向 用户提供查询服务。 h etacr awl er和s avvy是 这 一类搜索引擎的典型代表 (4 ) 分布式的搜索引擎 分布式的搜索引 擎是由 用户代理层( u s e ra g e n t s ) ,中间层( b r o k e r s ) 和服 务提供代理层( p rovid er a g ent s)组成的一种层次型结构。 其中 用户代理层由多 个用户代理组成,每个代理可以为系统提供不同的用户界面; 中间层则由多个 b r o k e r s 组成,每个b rok er负责接受用户代理递来的查询请求, 并将请求任务分 配给一个或多个服务提供代理来完成: 每个服务提供代理负责从各低层信息库 收集特定主题内容的信息。低层信息库是由分布在不同地区的搜索器建立,各 个库信息的搜集一般是按照i nternet 域或地理范畴来划分的。 分布式的搜索引擎提供给用户的是一种透明的层次式的搜索模式,因为分 布式系统的特点和优势, 它已成为世界各地网络研究的重点之一。 美国 c olora do 大学开发的h a r vest系统就是一个较好的分布系统. 按索引内容来分: ( 1)非全文检索类 即标引检索, 它只对文档的u rl、篇名、题名、文件的前几段文字、关键词 等比 较重要的信息进行索引。 非全文检索类的搜索引擎有l y cos 洲释 肠rm等 (2 ) 全文检索类 它是以 整个文本数据为主要处理对象,提供根据资料内 容而不是外在特征 来实现的先进查询手段。与标引检索相比 较, 全文检索提供了 全新的、强大的 检索功能,它可以 直接根据文档的内容进行检索,能多角度、多侧面地综合利 用信息资源。 象a l t avi s t a , e x c i t e , 伽e nte x t , 贾 e b c r 舰l e r 等都采用t全文索引 的方式。侧 第 1 章 搜索引擎概述 1 . 4搜索引擎的工作原理 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。 图l l 一般搜索引擎的组成 方式1 , 无网页库的搜索引擎, 搜索器从万维网 搜索网页给索引 器; 索引器 分析网页建立索引 ; 检索器接收检索请求, 在索引 库中 检索并将结果进行处理后 传递给用户接口 : 用户接口 接收用户请求输入, 并转换为检索器容易识别的检索 请求传递给检索器,并将检索器返回的结果格式化输出。方式 2 ,有网页库的 搜索引擎, 搜索的网页并不直接送给索引器,而是先存入网页库,索引器从网 页库读取网页建立索引。下面具体介绍各部分功能。 搜索器: 其功能是在互联网中 漫游, 发现和搜集信息。 它要尽可能多、 尽 可能快地搜集新信息和定期更新旧 信息,以避免死连接和无效连接,为此搜索 器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度. 索引器: 其功能是理解搜索器所搜索的信息, 从中抽取出索引项, 用于表 示文档以 及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索 引算法。 检索器: 其功能是根据用户的查询在索引库中 快速检出 文档, 进行文档与 查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈 机制。常用的信息检索模型有集合理论模型、 代数模型、 概率模型和混合模型 四种。 用户接口: 其作用是输人用户查询、 显示查询结果、 提供用户相关性反馈 机制。分为简单接口 和复杂接口 两种.简单接口 只提供用户输人查询申的文本 框, 复杂接口 可以 让用 户对查 询进行限 制. 阴 第 1 章 搜索引擎概述 1 . 5搜索引擎的发展趋势 搜索引擎已 成为一个新的研究、开发领域。因为它要用到信息检索、人工 智能 计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自 然语言 处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大 量的用户,有很好的 经济价值, 所以引 起了世界各国 计算机科学界和信息产业 界的高 度关注,目 前的 研究、开发十分活跃,并出 现了 很多 值得注意的 动向 . 一、提高信息查询结果的精度提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少, 而是 看结果是否和自 己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十 万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前 出现了 几种方法: 一是通过各种方法获得用户没有在查询语句中表达出来的真 正用途, 包括使用智能代理跟踪用户检索行为, 分析用户模型; 使用相关度反懊 机制, 使用户告 诉哪些 搜索引 擎文档和自 己的需求相关 ( 及其 相关的程度) , 哪 些不相 关, 通过多 次 交互逐步 求精。 二是 用正 文分类 ( 介x t c a t e g o ri za t ion)技术将 结果分类, 使用可视化技术显示分类结构, 用户可以只浏览自己 感兴趣的类别。 三是进行站点类聚或内容类聚,减少信息的总量。 二、 基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自 动获得的领域 模型 ( 如m 触 b 知识、 信息处 理、 与用户兴趣相关的 信息资 源、 领域组织结构 ) 、 用户模型 ( 如用户 背景、 兴 趣、 行为、 风格) 知识 进行 信息 搜集、 索引、过滤 ( 包 括兴趣过滤和不良 信息过滤 ) , 并自 动地 将用户 感兴趣的、 对用户 有用的 信息提 交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从 而提供个性化的服务。 智能代理可以 在用户端进行,也可以 在服务器端运行。 三 、 采用分布式体系结构提高系统规模和性能 搜索引 擎的实现可以 采用集中式体系结构和分布式体系结构, 两种方法各 有千秋。 但当 系统规 模到 达一定程度( 如网页数达到亿级 ) 时, 必然要采用某种 分布式方法, 以提高系统性能. 搜索引擎的各个组成部分, 除了用户接口 之外, 都可以 进行分布: 搜索器可以 在多台机器上相互合作、相互分工进行信息发现, 以 提高 信息发现和更新 速度; 索引 器可以 将索引分 布在不同的 机器上, 以 减小 索 引对机器的要求; 检索器可以 在不同的机器上进行文档的并行检索, 以 提高检索 第 1 章 搜索引擎概述 的速度和性能。 四、重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据 库中 进行信息检索, 返回能够回答用户问题的所有语言的文档。如果再加上机 器翻译,返回结果可以用母语显示。该技术目 前还处于初步研究阶段,主要的 困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、 互联网跨越国界的今天, 无疑具有很重要的意义。 之 叨 1 . 6本文结构 第一章介绍了传统搜索引擎的发展史、发展现状、分类、工作原理以及发 展趋势。第二章提出智能搜索引擎的总体框图,并对其进行说明。第三章介绍 了与该系统相关的一些技术,比如数据挖掘,兴趣模型等。第四章是对网络爬 虫的设计。 第2 章 智能搜索引擎 第2 章智能搜索引擎 智能搜索引擎是结合了人工智能技术的新一代搜索引擎。 第三代搜索引擎, 它除了能提供传统的快速检索、相关度排序等功能,还能提供用户角色登记、 用户兴趣自 动识别、内容的语义理解、智能化信息过滤和推送等功能;将信息 检索从目 前基于关键词层面提高到 基于知识( 或概念) 层面: 对知识有一定的理 解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以 及机 器翻译技术等;具有信息服务的智能化、 人性化特征:允许采用自 然语言进行 信息的检索,能够提供更方便、更确切的搜索服务。 2 . 1智能搜索引擎的特征 1) 智能 性。 智能 搜索引 擎的 搜索器 可对特定站点或者 遍历整个因 特网自 动 完成在线信息的索引,再通过启发式学习采取最有效的搜索策略, 选择最佳时 机获取从因特网上自 动收集、整理的信息。智能化搜索引擎可以将多个引擎的 搜索结果整合,作为一个整体存放到数据库中。 2) 主 动性。智能搜索引擎能通过观察用户的行为,了解用户的兴趣爱好; 通过不断的训练学习,增长智能:通过用户对返回信息的评价,调整自 己的行 为. 3) 交互性。智能搜索引擎可以 通过自 然语言与用户交互. 它采取诸如语义 网络等智能技术,通过汉语分词、句法分析以 及统计理论有效地理解用户的请 求,并对搜索结果进行合理解释。 4) 个性化。智能搜索引擎有效的分类可为用户提供个性化的服务,允许用 户为自己 定制起始页面, 选择感兴趣的内 容和经常使用的服务放在该页面中。 2 . 2智能搜索引攀系统总体结构 为了克服传统搜索引擎存在的不足,更多地满足人们的需要,现提出基于 客户端服务器端的新一代智能 化、 个性化搜索引 擎。 该搜索引擎具有如下三个 第2 章 智能搜索引擎 特点: 具有功能强大的客户端; 具有智能 化; 具有个性化。该搜索引擎由 客户端和 服务器端两大部分组成,总体框图如图2 . 1 所示。 图2 . 1 智能搜索引擎的总体框图 2 . 2 . 1客户端 客户 端由 客户 端用户界 面、 智能 代 理 a g e n t 、 个 性 化模型 数 据 库和 客 户 端 接口 四 部 分组 成。 而 智能 代理a g e ni和 个 性化 模型 数 据库是 客 户 端的 主 要 组 成 部分。 为了增强处理用户信息的能力,客户端作为软件的形式安装在用户的电脑 上。客户端主要的功能是给用户提供一个友好的人机界面,对用户输人的关键 词, 在智能代理age ni和个性化模型数据库的支持下产生个性化的检索要求, 第2 章 智能搜索引擎 送往 服务 器; 另一方 面 接收服务器端返回的 检索结果, 经智能 代理a g e n t 进 行信 息滤波去掉不相关的文档和重复的文档后再提交给用户浏览。另外,客户端软 件在用户的交互下, 收集用户信息: 对用户的信息进行收集; 对用户的的资料进行 学习; 建立、修改更新用户个性化模型数据库。 22 . 1 . 1智能代理陀ent a g e n t 的概 念模型起 源于分布式人工智能 领 域中的分布式问 题 求解, 一般 认为是指在一定的环境下,模拟人类行为及人与人之间的关系,能够根据所感 知的 环境自 主 运行和 提供 相应服务的 程序。 它使用自 动获得的 领域知识模型 ( 如 相关领域的 权威网 站、 与 用户兴 趣相关的 信息资 源、 领域组 织结构 ) 、 用户 兴趣 模型 ( 如用户 背景、 兴 趣、 行为、 风格 ) 知识进行 信息搜集、 索引、 过滤 ( 包括兴 趣 过滤 和不良 信息 过 滤 ) , 并自 动 将 用户 感兴 趣的、 对 用户 有 用的 信息 提交 给用 户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供 个性化的服务。 智能 代理a g e nt的主 要功能 如下: ( 1)通过和用户进行交互操作、用户提交、对用户的信息进行收集、 对用 户的资料进行学习等方式,对原来客户端软件安装的庞大的用户兴趣模型和领 域知识模型进行选择和修改,建立符合用户的用户兴趣模型和领域知识模型。 (2) 通过自 动学习 和用户返回的信息, 不断修改和更新用户兴趣模型, 以 适 应用户知识结构的变化和用户兴趣的 变化。 (3) 对用户输人的 关键字, 在用户兴趣模型和领域知识模型的 支持下进行用 户信息的理解产生带权值的个性化检索信息。 (4) 接受服务器返回的 检索结果并进行信息滤波, 去掉不相关的文档和重复 的文档后再提交给用户浏览。 2 . 2 . 1 . 2个性化模型数据库 个性化模型数据库包括用户兴趣模型和领域知识模型。用户在进行客户端 软件安装的时候就安装了庞大的用户兴趣模型和领域知识模型,之后通过和用 户进行交互操作、用户提交、对用户的信息进行收集、对用户的资料进行学习 等方式, 选择和修改符合用户的用户兴趣模型和领域知识模型。如用户兴趣模 型是通过如下方式建立的: 用户提交自 己 的背景、 兴趣等资料; 软件对用户提交一 些相关的资料让用户回答; 软件对用户电 脑上的文件信息进行收集并对这些文 第2 章 智能搜索引擎 件进行学习。 通过以上方式收集到资料后,软件选择最合适的用户兴趣模型或对现有的 用户模型进行适当修改来适应用户。在后面的应用过程中客户端软件通过监控 对网页的点击情况进行统计分析,并不断对用户电脑的 文件信息进行收集和学 习,这样及时发现用户兴趣的变化并及时更新修改用户兴趣模型,适应用户兴 趣的动态变化。 2 . 2 . 2服务器端 服务器端的 主要功能 是 通过网 络爬虫 ( sp ider) 或网 络机器人 ( r o be t) 和网 站 提交等方式收集网页建立原始网页数据库,然后利用领域知识库和兴趣库对原 始网页数据库进行数据挖掘,聚类形成各个类型的网页索引数据库。客户端来 的加权检索信息,按优先权的选后在相应的网页索引数据库中进行检索,产生 检索结果送回客户端服务器端的个性化在兴趣库和知识库上。服务器端利用领 域知识库和兴趣库对原始网页数据库进行数据挖掘,聚类形成各个类型的网页 索引数据库。 2 . 3本章小结 本章是给出智能搜索引擎的总体结构,并对该结构做出说明。 第3 章 与系统相关的一些技术 第3 章与系统相关的一些技术 3 , 1数据挖掘 3 . 1 . l web 数据挖 掘的 概念和分类 w 七 b 数据挖掘是数据挖掘技术与 we b相结合的产物,是一项综合技术, 是从ww w资源上抽取信息( 或知识) 的过程, 是对认 触 b 资源中蕴涵的、 感兴趣 的、未知的、 有潜在应用价值的模式的提取。 它反复使用多种数据挖掘算法, 从观测数据中确定模式或合理模型, 也是将数据挖掘技术和理论应用于对v 户 胃 w 资源进行挖掘的一个新兴的研究领域。 根据w e b挖掘的 对象不同, w e b数据挖掘分为:we b内 容挖掘, we b 结构挖掘和we b使用记录挖掘。姚 呢 b数据挖掘分类如图3 . 1 所示。 图3. 1 认 吧 b数据挖掘的分类 认 触 b内容挖掘是从文档内 容或其描述中抽取有趣知识的一种过程, 是一种 基于网页内 容元素对象的 研 厄 b挖掘。这些元素对象既有文本和超过文本数据, 也有图形、图 像等多 媒体数据; 既有来自 于数据库的结构化数据, 也有用h t m l 标记或x 州 l标记的半结构化数据和无结构的自由文本。 w 七 b 结构挖掘是从网页的超级链接中发现其结构及其相互关系。通过找到 隐藏在一个个页面之后的链接结构模型, 就可以 利用这个模型对m 触 b 页面重新 分类,也可以用于寻找相似的网站。基于超级链接的拓扑结构,m 触 b结构挖掘 第3 章 与系统相关的一些技术 可以进行网页分类,总结网页和网站的结构,生成诸如网站间相似性、网站间 关系的信息。 场 触 b 使用记录挖掘是从用户 “ 访问痕迹”中获取有价值的信息,是对认 范 b 上日 志数据及相关数据的挖掘一这些数据包括:客户端数据、 服务器端数据和代理 端数据。v 触 b使用记录挖掘可分为一般存取路径追踪和专用化追踪. 前者是用 k l d ( kno wled gedisc o ve ryind a t a b as e , 从数据库中 获 取知识 ) 技术 理解一般 访 问模式和趋势,如m 触 b日 志挖掘; 后者是分析某一时刻每一个用户的访问模式, 网站将根据这些模式自 动重建结构,如自 适应站点。研 范 b 使用记录的挖掘的目 的是预测用户网上的行为,比 较网站的实际使用与期望的差别,根据用户的兴 趣调整网站结构。113 】 3 . 1 . zw . b 数据挖掘的流程 目 前, 根据数据挖掘的通用方法, 结合w 七 b 数据的特点, 可以 将m 触 b 数据 挖掘划分为以下5 个步骤: . 数据的取样。 脆b 环境目 前能提供的数据源包括w eb页面数据, 超链接数据和 记录用户访问情况的数据等。 按照主题相关的原则, 数据取样从大量数据中 取出一个与搜索目 标相关的数据子集,为后面的数据挖掘提供素材和资源。 . 数据的预处理, 它对源数据进行加工处理和组织重构, 构建相关主题的数据 仓库, 为下一步的数据挖掘过程提供基础平台, 做好前期准备。 它主要包括: 数据清理,数据集成,数据转换和数据约简。 . 数据的挖掘。 这是数据挖掘系统的核心部分。 它的主要功能是运用各种数据 挖掘技术, 从经过预处理的数据中提取潜在的、 有效的且能被人理解的知识 模式。 数据挖掘的目 标是描述和预测。 描述型模式是对数据中存在的规则作 一种描述, 或者根据数据的相似性把数据分组。 而预测则是指根据属性的现 有数据值找出其规律性, 进而推测出其在未来可能出现的属性值。具体地, 数据挖掘所能实现的任务可分为以下几类: 1 .特征抽取: 通过对源数据的分析,提取出关于该数据集的一些总体特征表 达式。 2关联分析: 找出相互独立的不同事物之间的关联规则。例如: 在存有大量 家具销售数据详细的情况下, 经过关联分析处理, 得到2 个结论: 买桌子的顾客 第3 章 与系统相关的一些技术 通常会连带着买椅子; 桌子、 椅子的平均销售配比为 1 :3 。这反映了 人们购物的 习惯。 3. 属性分类: 利用分类器,能够把数据集中的数据项映射到某个分类。 例如: 可建立一个分类模型,对银行贷款的安全或风险进行分类。 4 . 聚类分析: 在没有给定主题类别的情况下,通过对源数据集的分析和比 较, 把数据划分到不同的组中, 组之间的差别尽可能小。 5 . 时序预测: 时序预测和关联分析相仿, 而把数据之间的关联性与时间联系 起来。为得到时序预测,不仅需要知道事件是否发生,而且需要确定事件发生 的时间。例如: 情人节前巧克力和鲜花的销量会突然上升。 在实际应用中,数据挖掘必须借助一定的工具,这些工具主要包括代理、 查询 报表、 统计分析、 数据发现( 神 经网 络 / 决策树模型分析 ) 、 o l a p ( 多维 分析) 、 可视化表现等。 . 分析与评估。 数据挖掘所得到的知识模式需进行可信度和有效性分析, 并对 其做出 评估结论, 为用户的 经营决策提供信息支持。 如何检验得到的分析结 果是否有用? 一个简单的办法是直接使用原来建立模型的样板数据进行检 验。 另一种办法是另外找一些反映客观实际的规律性数据来检验。 再一种办 法是在实际运行的环境中取出新数据进行检验。 . 知识表述。知识表述是指用适当的形式将利用数据挖掘工具从w eb数据中挖 掘出 来的 知识模式表 现出 来,以 利于用户接受和相互交流。 t ,11 3 , 1 , 3数据挖掘应用干客户端 对用户而言,检索到的专业信息可以 保存在本地计算机上的信息库中,用 户对搜索到的专业信息有一个理解、归 类和去粗求精的 过程,如果能从这些过 程中发现用户潜在的偏好、兴趣和规律,并为以后用户的信息检索提供参考, 则会进一步提高搜索引擎的准确性和效率。另外,用户的兴趣会随着研究问题 等因素的 变化而变化,因此需要能学习用户偏好、兴趣和规律变化的方法,以 提高 客户 端信息检索 和分析的 智能。 为 解决 这些问 题, 本文给出b a y e s 学习 算 法来实 现上述要求。 在利用b ayes 算法时,需要对信息 库中 的数据按照兴 趣等 级和专业知识领域分成不同的类。 假设 用户本地保存的 信息库5 有属性集c l , c z ,乌, ,它们是离散或 第3 章 与系统相关的一些技术 连续的变量, d是类变量。由b ayes公式知: p ( d /c, , q, ,c刁 ” 侧 d ) p ( ci, q, .,c 刀 ) /p ( c l ,q,. . ,c . 卜 a p 口) p ( c i , c z ,c 别 d 卜 。 p ( d ) n p (cp ) 在学习过程中, 利用5 计算p ( d ) , p ( c :/ d ) , p ( c z / d ) , , p ( c 。 / d ) 的估计值, 从而得到5中每类样本数据的分布。一旦得到每类样本数据的分布,对给定一 组属性值c l , c z , , c 。 ( 对应条检索到的专业信息中的 一组特征词) , 对5 的 类d :, dz, , d. , , 通过求解p ( d)np ( c : = c ,/d.) ( k = 1 , 2 , , jn)最大值对应的类, 不妨设为d k 呻, 则d ha 就是c , c z , c 。 对应的 检索信息所属的 类, 该公式中 的各项计算方法如下: 1) 计算信息库5 中d k 类的先验概率p ( 氏 ) 书dk /n, 其中n 业为5 的dk类 中记录的个数; 2 )计 算p( c i即 .o k ) 二 n 洗 1 加 趾 , 其中n d k , 为5 的d 、 类中c ,= c ; 的 记 录 个数; 3 )如果2 ) 中p ( c , = c ,/ d ) = 0 , 则p ( c ,二 c 。/ d , ) = ( 1 / n ) / ( n 少+n c i加) , 其中 n 。 。 是搜索数据库x 中属性变量c , 取值c , 的 个数, 卜 5。 个性化服务的产生是网络信息环境发展的必然结果,信息服务机构为了 更 好地在网络环境竞争中立足,必须挖掘用户的需求,进行主动服务,并要对服 务手段加以改进,如建立专业信息库等,以提高服务效果。 根据b ayes学习 算法,当用户第一次登陆w eb服务器时, 服务器就会主动 捕获用户的信息, 可能只包括用户的ip地址、 用户代理( 浏览器信息) 等很少的 信息, 但这是个性化服务的起点。 如果想要求用户提交一些个人信息,比 如用 户的兴趣爱好、 所从事的职业、年龄等,用户信息的收集可以采用让用户注册 的方式,但出于对隐私的考虑,可利用个性化页面服务的方式,并且个性化的 服务也可让用户编辑自己的显示界面,而主动服务器对这些设定信息进行分析 后加入到专业信息库.为用户提供个性化服务的先决条件是能及时、 准确地从 砰 e b服务器提取出所需的用户数据信息,如用户访问了哪些页面,以什么样的 顺序访问,每个页面浏览了多长时间等。这些记录反映了 用户真正的兴趣和需 求.为此可构造四元组(f: , 民 , 凡 , fo) ,利用关联规则将关联度定为 75% 来存储 用户的信息,分析用户的兴趣, 得到个性化服务最重要的 信息即用户的兴趣, 第3 章 与系统相关的一些技术 以此作为个性化服务的基础。 利用 bay es学习算法对搜索引擎的搜索结果进行分析, 可以实现对检索信 息的自 动分类,并能对企业专业搜索的搜索策略进行优化。该算法在具体实现 时,允许并提示用户对不能正确分类的信息进行确认,这样随着专业信息库内 容的不断增加,搜索策略可以得到不断优化,算法分类的准确性将不断提高。 3 . 1 , 4数据挖掘应用于服务器端 我们这里 介绍用 于 服务 器v 几 b 数 据挖掘的a p 石 o ri 算法 ( 挖掘用户兴趣关联 规则的 经典算法) 和k-m o d e s 聚类算法。 用户兴趣关联规则: 关联规则生成可用于找出在某次服务器会话中最经常 一起出现的相关网页。 在从 触 b 使用挖掘中, 发现的关联规则往往是指支持度超 过预设胭值的一组网页。 这些网页之间可能并没有超链接直接互相连接。 例如, 用 a p ri ori 算法发现关联规则可能会发现访问电 子产品网 页的用户和访问体育 用品网页的用户之间存在一定的相关性。在个性化信息服务中,用户兴趣关联 规则的挖掘有助于网站设计者重新组织和设计网站结构。 apri o ri 算法具体的描述如下: 令k- 属性序列 集为具有k 个属性的集合, f re ( k) 为频繁k- 属性序列集, 而 c (k 为 候选k 一属性 序列集。 该算法需对数据库做多次 遍历, 每次遍历均包括 两个步骤 : a 、 利用第k 一1 次遍历所得到的fre( k , 1 ) 生 成c 闰, 候选生 成算 法a 州ori一 ge n 保证c 伍 是所有fre份1) 的超集。 b 、 对数据库做一次遍历, 对 其中的 每个 元组确定 它支持c 淘中的 哪些候选, 并累计支持数。 遍历结束后, 检查候 选集c 你 , 确定哪些候 选是频繁的, 从而构成f m ( k ) 。 该算法反 复进行, 直到fre伍 为空时 为 止。 a p d ori 算法主要是 在遍历的 基 础上进 行相关规则的 挖掘。 网页聚类,则可以找出具有相关内容的网页组。聚类能根据用户的询问或 过去所需信息的历史来生成静态或动态h t ml页, 从而向 用户推荐相关的超链 接。 k . m ode s聚类算法: a 、 设 d为检索结果文档集合, x.y为其中的任意两篇文档,即 x,y 任 d, x 气 x l 为 “ :. 、) , 其中xi 代表文档x中 某个关键 词。 y 气 y l ,yz, , 第3 章 与系统相关的一些技术 殉, 其中yi 代表文档y中某个关键词。 文档中关键词可根据文档提供的关 键字或标题来确定。 b 、 x,y的不相似性d 详,均. c 、在d中 选取一 个mod eq , 作为聚 类的中 心。 d 、给定胭 值m , 如果d ( x , q )m, 则把它 加人 聚类中, x为d中 任意一 篇文档。 e 、 提取mode中的关键词作为和主题词相关的新模式。 3 . 2知识库的建立 3 . 2 . 1智能搜索引擎中知识库概念 基于知识库系统的智能搜索引擎作为一种高效搜索引擎技术,在当今网络 信息时代日益引起人们的关注。我们提出基于知识或概念层面来提高搜索引擎 智能水平的方法,建立一种基于内容的搜索引擎,通过搜索引擎技术与语言学 的结合,开发检索专用字典或是通过全文扫描和词间关系的分析,实现搜索引 擎对搜索词在语义层次上的理解。这里的知识或概念分为两个层面,第一个层 面的知识实质上是人的认知知识,它实际上就是一个巨大的知识库或概念图, 存放的是人的知识,包括各种知识、概念以及知识、概念之间的种种关系。在 计算机上实现时,这个知识表示为一种语义知识。知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论