




已阅读5页,还剩102页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 截止2 0 0 9 年底,互联网上的涉农网站已超过3 0 0 0 0 个,积累了丰富的农业 技术、市场信息、政策法规、农业新闻等信息资源。然而由于互联网信息资源 缺少统一的形式化表达,信息异质、异构、分散、重复现象严重,形成“信息 孤岛 ,很难发挥农业信息资源的集成效用。同时,由于农户文化水平、计算 机操作能力的限制,“三农 用户很难使用传统的搜索工具去直接交互、捕捉 和筛选个性化信息。面对海量的农业信息资源,“三农 用户只能望洋兴叹, “信息淹没 问题严重。因此,建立专业化、个性化、智能化的农业搜索模型 及相应的搜索引擎系统意义重大。 本文针对互联网的开放性、分散性、层次性、演化性、巨量性等本质特性, 提出了一种农业复杂自适应搜索模型。该模型建立农业信息资源发现、信息获 取、信息处理与用户服务主体联盟,通过主体与网络资源、主体与网页内容和 网页表现形式、主体与用户个性化需求之间的学习与适应机制,实现对复杂、 动态的互联网环境的适应,从而提高农业搜索引擎的查全率与查准率,解决新 一代搜索引擎面临的核心问题。 针对农业互联网资源的动态性和高度分散性特点,本文提出了 a a d w e d ( a d a p t i v ea g r i c u l t u r ed e e pw e be n t r yd i s c o v e r y ) 算法,一种自适应 农业领域d e e pw e b 资源发现算法。该算法通过不断从样本中学习到合适的查询 表达式提交给通用搜索引擎来高效获取领域d e e pw e b 资源入口页面。实验证明, 该算法大幅度提高农业领域d e e pw e b 资源发现的收益率。 针对对w e b 站点页面表现形式具有多样性、动态性等特点,本文提出了一 种自适应的w e b 结构化数据提取算法。该算法在m d r 算法的基础上,提出了一 种基于相对熵的页面去噪算法,从而提高了w e b 结构化数据抽取的准确率。 针对互联网存在的大量农业领域数据描述不统一、不完整、冗余等问题, 本文重点研究了农产品价格、供求等信息的空间属性自动标注和基于语义的数 据冗余处理问题,提高了数据的质量和可用性,为进行精确检索和可视化分析 服务提供了基础。 针对不同w e b 用户的个性化需求,本文提出了一种基于f c a 的自动挖掘用 户兴趣主题算法。挖掘出的兴趣主题模式被描述成一组形式化概念,兴趣主题 模式之间的联系被显示的在概念格中描述出来,利于用户理解。本文还提出了 种文档和用户感兴趣主题相关度的计算方法。通过对比实验,证明该方法是 有效的。 最后,本文基于所提出的农业复杂自适应搜索模型,设计并实现了农业垂 摘要 直搜索引擎系统“中国搜农 ,该系统已经开始大规模对外公开服务,并已在多 个省市得到推广和应用。 关键词:复杂自适应系统垂直搜索引擎网络资源发现深度网页 用户个性化网页结构化数据抽取形式化概念分析 垒垒! :! 堡垒! a b s t r a c t b yt h ee n do f2 0 0 9 ,t h e r eh a v eb e e nm o r et h a n3 0 0 0 0a g r i c u l t u r a lw e bs i t e so nt h e i n t e r n e t ,w h i c hc o v e ra l m o s ta l lk i n d so fa g r i c u l t u r a li n f o r m a t i o n ,s u c ha sa g r i c u l t u r a l t e c h n o l o g y , m a r k e ti n f o r m a t i o n ,a g r i c u l t u r a ln e w sa n dp o l i c i e s h o w e v e r , a g r i c u l t u r a l i n f o r m a t i o no dt h ew e bh a sn ou n i f o r m r e p r e s e n t a t i o na n di sh e t e r o g e n e o u s , d i s t r i b u t e da n dr e d u n d a n t ,w h i c hf o r m si s o l a t e d i n f o r m a t i o ni s l a n d s s i n c et h e k n o w l e d g eo ff a r m e r st oo p e r a t eac o m p u t e ri sl i m i t e d ,i tw o u l db eh a r df o rt h e mt o u s et r a d i t i o n a ls e a r c ht o o l st oa c q u i r ea n df i l t e rp e r s o n a l i z e di n f o r m a t i o no nt h ew e b f a c i n gh u g ea m o u n to fi n f o r m a t i o n ,f a r m e r sa r eo f t e nf r u s t r a t e da n dt h ed h e n o m e n o n o f “i n f o r m a t i o no v e r l o a d ”i sas e r i o u sm a t t e r h e r e o b v i o u s l y i ti ss i g n i f i c a n tt o d e v e l o pp e r s o n a l i z e d ,i n t e l l i g e n ta n dp r o f e s s i o n a lw e bs e a r c hm o d e l sa n dt o o l s f o rt h ec h a r a c t e r i s t i c so fo p e n n e s s ,s c a t t e r i n g s ,h i e r a r c h y ,e v o l u t i o na n dh u g e n e s s o fi n t e r n e t ,a n a g r i c u l t u r a ls e a r c hm o d e lb a s e do nc o m p l e xa d a p t i v e s y s t e mi s p r o p o s e di nt h i sd i s s e r t a t i o n t h i sm o d e lc o n s t r u c t st h ea g e n ta l l i a n c eo fa g r i c u l t u r a l i n f o r m a t i o nd i s c o v e r ya g e n t ,i n f o r m a t i o na c q u i s i t i o na g e n t ,i n f o r m a t i o np r o c e s s i n g a g e n ta n ds e r v i c ea g e n t t h em o d e lf itt h ec o m p l e xa n dd y n a m i cin t e r n e te n v i r o n m e n t t h r o u g hl e a r n i n g m e c h a n i s m sb e t w e e n a g e n t s a n dw e bc o n t e n t s ,r e p r e s e n t a t i o n m e t h o d sa n du s e rn e e d s t h em e t h o dp r o p o s e di m p r o v e st h ep r e c i s i o na n dr e c a l lo f a g r i c u l t u r a ls e a r c he n g i n ea n ds o l v e st h ec o r ep r o b l e mf o rt h en e x tg e n e r a t i o ns e a r c h e n g i n e f o rt h ec h a r a c t e r i s t i c so f d y n a m i c sa n dh i g hs c a t t e r i n go fw e br e s o u r c e s , a a d w e d ( a d a p t i v ea g r i c u l t u r ed e e pw e be n t r yd i s c o v e r y ) a l g o r i t h mi sp r o p o s e d t o a c q u i r ed o m a i n s p e c i f i cd e e pw e br e s o u r c e se f f e c t i v e l ya n de f f i c i e n t l y t h i s a l g o r i t h mc o n s t a n t l yc o n s t r u c t sq u e r i e sa c c o r d i n gt ot h es a m p l ea n ds u b m i t st h e q u e r i e st oas e a r c he n g i n ei no r d e rt of i n dt h ee n t r yp a g eo fh i d d e nw e br e s o u r c e s t h e e x p e r i m e n t sv a l i d a t et h a tt h i sm e t h o dc a ns i g n i f i c a n t l yi m p r o v et h ee f f i c i e n c yo f f i n d i n gh i d d e nw e b r e s o u r c e s a i m i n g a tt h et w oc h a r a c t e r i s t i c s ( d y n a m i c sa n d d i v e r s i t y ) o fw e bp a g e so nt h ew e b s i t e s ,a na d a p t i v ew e bs t r u c t u r a ld a t a e x t r a c t i o n a l g o r i t h m i s p r e s e n t e di n t h i s d i s s e r t a t i o n t h i sa l g o r i t h mi sb a s e do nt r a d i t i o n a lm d r a l g o r i t h ma n da d o p t sr e l a t i v e e n t r o p yt h e o r yf o rn o i s er e m o v a ls oa st oi m p r o v et h ep r e c i s i o no fw e bs t r u c t u r a ld a t a e x t r a c t i o n a b s t r a c t a i m i n ga th u g ea m o u n to fh e t e r o g e n e o u s ,i n c o m p l e t ea n dr e d u n d a n ta g r i c u l t u r a l i n f o r m a t i o no nt h ew e b ,t h i sd i s s e r t a t i o ns t u d i e dt h ea u t o m a t i cs p a t i a lp r o p e r t y a n n o t a t i o na n dp r o c e s s i n gr e d u n d a n td a t ab a s e do ns e m a n t i c sf o ra g r i c u l t u r a lp r o d u c t p r i c ea n db u y s e l li n f o r m a t i o n t h ep r o p o s e dm e t h o di m p r o v e st h eq u a l i t yo f d a ma n d c o n s t r u c t saf u n d a m e n t a lf o rp r e c i s er e t r i e v a la n dv i s u a li z a t i o n t ot a c k l et h ep r o b l e mo fp e r s o n a l i z e di n f o r m a t i o nn e e d sf r o md i f f e r e n tw e bu s e r s , an e wa p p r o a c ht h a ta u t o m a t i c a l l ym i n i n gw e bu s e rp r o f i l eb a s e do nf c a i sp r o p o s e d t h ei n t e r e s tm o d e l so fw e bu s e r sa r er e p r e s e n t e da sf o r m a lc o n c e p t s a n dt h e r e l a t i o n s h i pb e t w e e nt h e s em o d e l sa r ed e s c r i b e di nac o n c e p tl a t t i c e t h em e t h o do f a s s e s s i n gd o c u m e n tr e l e v a n c et ot h et o p i c si s a ls op r o p o s e d t h ee x p e r i m e n t ss h o w t h a to u ra p p r o a c hi se f f e c t i v e a tl a s t ,b a s e do nt h ec o m p l e xa d a p t i v ea g r i c u l t u r a ls e a r c hm o d e lp r o p o s e di nt h i s d i s s e r t a t i o n ,a g r i c u l t u r a lv e r t i c a ls e a r c he n g i n e s o u n o n g h a sb e e nd e s i g n e da n d i m p l e m e n t e d t h i ss e a r c he n g i n eh a ss e r v e dp u b l i c l yf o rm a n yp r o v i n c e s k e y w o r d s : c o m p l e xa d a p t i v es y s t e m ,v e r t i c a ls e a r c he n g i n e ,w e bk n o w l e d g ed i s c o v e r y , d e e p w e b ,u s e rp r o f i l e ,s t r u c t u r a ld a t ae x t r a c t i o n ,f o r m a lc o n c e p ta n a l y s i s 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作 了明确的说明。 作者签名: 签字只期: 型蝉 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之,学位论文著作权_ 拼】有者授权中国科学技术大学 j j 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 作者签名: 签字同期: 导师签名: 签字同期:z ! ! :鱼:甲 第l 章绪论 1 1 研究背景与意义 1 1 1 互联网与搜索引擎 第1 章绪论 1 9 6 9 年,美国国防部高级研究计划局出于战备的考虑,建成了一个试验性的, 由4 台机器构成的计算机网络一一a 砒) a 网,这就是最初互联网的雏形。这年l o 月,第一个电子消息从加州大学洛杉矶分校( u c l a ) 发送到了斯坦福研究院 ( s r i ) :仅仅传送了两个字母l 和o ( 登陆“l o g i n ”的前两个字母) 之后,网络 就崩溃了。但此举宣告互联网正式诞生。上世纪9 0 年代,出现了万维网( w o r l d w i d ew e b ,简称w e b ) ,它的开放性( o p e n n e s s ) 和可访问性( a c c e s s i b i l i t y ) 极大 地鼓励了人们创作、发布、共享信息的积极性。互联网时代已经成为一个信息爆 炸的时代,信息发布与更新的速度已经远远超过了人们整理、利用信息的速度。 根据2 0 0 9 年发布的中国互联网络发展状况统计报告( c n n i c2 0 0 9 a ) ,截至2 0 0 8 年底,中国的网站数,即域名注册者在中国境内的网站数( 包括在境内接入和境 外接入) 达药j 2 8 7 8 万个,较2 0 0 7 年增长9 1 4 :中文网页总数超过1 6 0 亿个, 较2 0 0 7 年增长9 0 。可以毫不夸张的说,互联网已成为当今世界最大也是最普 及的信息资源库。 与传统的基于数据库的信息资源不同,互联网信息资源不仅在数量上极为庞 大,形式多样,而且充满动态性、异构性,总的来说,互联网信息资源大致有以 下特点( 黄良2 0 0 6 ) : 信息量极为庞大而且分散。互联网上聚集的信息资源早以t b 级来衡量,存在 的网页超过百亿;而且这些信息分布在全世界各地上千万台服务器上,通过不 同的协议( ! t i t c p i p ,h t t p 等) 相互连接。 信息资源多样化。互联网上的信息形式各不相同,如文本、多媒体、文件等 不同类型的和不同语种的信息资源交织在一起。 第l 章绪论 信息具有动态性特点。互联网上网站和网页的各种信息时刻处于变化之中, 新的页面在不断出现,旧的页面不断地更新或消失。有研究指出,大约5 0 的网 页平均生命周期大约只有5 0 天。 信息处于无结构化、半结构化之中。互联网上的信息通常是无结构或者半 结构化的,使得计算机很难理解其语义信息。 信息不一致、不完整。互联网上,人人都可以在网上发布信息,缺少统一 的信息描述标注,所以信息往往存在不一致、不完整甚至矛盾。 互联网是一个巨大的知识宝库,越来越多的人选择从网上获取信息,然而, 面对如此海量的信息,人们经常会感到难以找到自己想要的信息。正因如此,搜 索引擎应运而生,出现了一大批知名的搜索引擎。从工作原理来讲,大致可以分 为以下三种类型: 目录式搜索引擎 1 9 9 4 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 幂l l 杨致远( g e r r y y a n g ) 共同创办了y a h o o ! 网站,这个网站提供目录索引服务,国内的“搜狐”也曾 经提供类似的服务。目录索引,顾名思义就是将网站分门别类地存放在相应的目 录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。 如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站, 只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则 是由标题字母的先后顺序决定。基于目录的搜索引擎结构清晰、准确度较高,比 较符合人们的阅读习惯。问题是需要大量人工参与整理,周期长,速度慢、如果 查找的信息没有对应的分类,则无法进行搜索。随着网上信息越来越多,单纯靠 人工整理网站目录取得较高精度查询结果的优势逐渐退化,对海量的信息进行高 质量的人工分类已经不太现实,因此己逐渐被全文索引搜索引擎所替代。 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有g o o g l e 、i n k t o m i 、 t e o m a 、a l t a v i s t a 、w i s e n u t 等,国内具有代表性的是百度( b a i d u ) 。它们都是通 过从互联网上提取各个网站的信息( 以网页文字为主) 并建立索引,检索与用户 查询条件匹配的相关记录,然后按一定的排序将结果返回给用户,因此它们是真 正的搜索引擎。全文搜索引擎的主要三部分构成( 体系结构如图1 2 ) : 第1 章绪论 c o ( ) 父i e u 夼:般 叵圈臣夏圈 o m 月0 十女日- 体十女日 祝*自h 购目自手翻译 捌导 e o o 目i ec o mh k 使用t , 语言生童止 盟l 旦n i 女裁糊i 监o o op ec o r nm e r , i , s h n 点业血丝逝 o b 丝 幽lig o o g l e 首页丛韭塑l 耻姐盐凹 搜集器 搜集器模块负责完成发现、搜集网页信息任务。网络爬虫( s p i d e 0 在互鞋网 中搜索并下载页面,然后沿着此页面的对外链接继续搜寻页面,不断重复搜索 下载过程。 ( 2 ) 索引器 索引器将首先对下载的网页进行页面分析,包括关键词提取、重复页面消重、 链接分析、计算网页重要程度,之后对网页进行索引。而索引库的数据结构采用 倒排索引文件。 ( 3 ) 检索器 检索器负责在巨大的索引库中检索获得与用户查询相关的网页,同时评估这 些网页与用户查询的相关度程度,并据此对查询结果进行排序后返回给用户。 提到全文搜索引擎,就不得不提到g o o g l e ( 如图l2 ) 。两位斯坦福大学的博 士生l a r r y p a g e 和s e r g e y b r i n 在1 9 9 8 年创立了g o o g l ea g o o g l e 富于创新的 搜索技术和典雅的用户界面设计使g o o g l e 从众多的搜索引擎中脱颖而出。 第le 绪论 g o o g l e 使用p a g e r a n k 技术检查整个网络链接结构,并确定哪些网页重要性最 高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在 综合考虑整体重要性以及与特定查询的相关性之后,g o o g l e 可以将最相关最可 靠的搜索结果放在首位。四次荣获s e a r c h e n g i n e w a t c h ( s e a r c h e n g i n e w a t c h2 0 0 4 ) 读 者选举出的“虽杰出搜索引擎”称号的g o o g l e ,作为在网络上搜索页面的首选是无 愧于这个称号的。 幽l2 全文搜索引擎检索体系结构圈 元搜索引擎 1 9 9 5 年华盛顿大学硕士生e r i cs e l b e r g 和o r e ne t z i o n i 推出第一个元搜索 引擎m e t a c r a w l e r 。元搜索引擎山三部分组成,即:检索请求提交机制、检索接 口代理机制、检索结果显示机制。“请求提交”负责实现用户个性化的检索设置 要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理” 负责将用户的检索请求翻译成满足不同搜索引擎要求的格式。“结果显示”负责 所有源搜索引擎检索结果的去重、合并、输出处理等兀搜索引擎的出现,对于那 些需要连续地使用不同的搜索引擎重复相同的检索的人来说,是一个福音。使用 第1 章绪论 元搜索引擎同时对几个搜索引擎进行检索获得分级编排的检索结果。知名的元 搜索引擎有l n f o s p a e e 、d o g p i l e 、v i v i s i m o 等。 11 2 农业互联网资源现状 在现代农业中,信息已成为一个基本要素参与产前、产中、产后整个农业生 产过程,为农业生产提供了强大的原动力。近年来,我国农业互联网信息资源增 长非常迅猛。本节将重点探讨国内农业互联网资源发展状况,所涉及的数据来源 于中国搜农( h 丝;必垡坐q 女n q g 噬! ) 后台a 志、农户调查数据及中国农村互联网 发展状况调查报告( c n n i c2 0 0 9 b ) ,数据统计时间是2 0 0 9 年底。 农业网站数量 截至2 0 0 9 年1 0 月( c n n i c2 0 0 9 b ) ,中国农业网站的数量达到3 l ,1 0 8 个, 较2 0 0 9 年初稳步增长4 07 ( 见图l3 ) ,可以看出,国内农业网站发展速度是非 常惊人的。 2 0 0 9z o 嘲搿盘翻口牡啦瞳审圈嘲3 1 1 0 8 2 0 0 90 9 日嘲霸日孵疆啊曩翟抽墨霸圈暖喇3 0 2 0 5 】2 0 0 9 0 8j 甲。嘲4 1 0 _ o 一| o 1 0 3 6 6 2 0 0 9 0 7 j _ _ i _ _ 一_ ”f ” 2 0 0 9 0 6 ii - 2 7 2 扣 2 0 0 0 0 5 审曩瞳瞳矗墨审瞄曩嘲2 6 2 1 6 2 0 0 90 4 曩田啊岛圈雹冒啊墨圈墨脚2 5 1 5 7 2 0 0 9 0 3 喇圈皤蛹瞳衄啊蟹嘲2 4 1 2 9 | 2 0 0 9 0 21 i 一_ _ l 暖霸- 啊如田_ 目面霸2 j 2 7 2 0 0 9 0 l 抽_ _ - _ _ 嘲_ _ 岛日_ 扣2 2 1 毒 ,i j 】十一一一一。1+1:竺竺= := = = = 竺竺竺i 幽13 农业网站数量 农业网页数量 农业网站有效受访u r l 数量指的是可以被访问到的u r l 链接数量,也即农业 网站有效u r l 数量。如下图14 所示,与2 0 0 9 年1 月相比较,2 0 0 9 年l o 月份 日均农业网站有效u r l 数量增长了1 86 。远远高于有效农业站点数量增长的速 第1 帝特论 度。这一现象表明不仅整体农业网络蕴含的信息量更加丰富,而且单个农业网 站规模也在加大。 2 0 0 92 6 * o o o l - l _ _ l ? o _ l l _ l - i - i2 g 9 g 0 7 2 0 0 9 0 9 弗i 章i i i i i i i i i i 号i 呻2 6 2 1 9 6 2 0 0 9 0 8 耪i i i i i i i i i i i i i i i i 自;5 9 1 9 0 |:”营”1209904 2 3 6 4 1 7 1200903 23265320090 2 23085620090 i 2 2 7 3 3 l _ - - _ - - _ _ - - _ _ - - l _ 1 辫_ :m l l 3 图14 农业网站有效受访u r l 数坐 农业网页内容 农业网站中栏目设置的调查对于了解农业应用有着重要的意义,通过农业网 站栏目的调查可以清楚的看到目前我国农业信息化中网络服务的热点。农业网站 中常见栏目包括新闻资讯类、供求信息、农业科技、政策法规、市场动态、价格 行情以及互动交流类( 论坛、博客) 栏目。 图1 5 数据说明,农业类网站中最普遍的栏目为新闻类栏目,占被调查总数 的9 9 ,其次是供求信息栏目,占被调查总数的9 1 ,市场动态栏目占8 5 ,农 业技术栏目为7 7 ,价格信息栏目为5 0 政策法规栏目为3 7 ,论坛和博客栏 目的农业网站相对比较少,只占4 。 通过数据可咀看出,农产品市场信息类栏目,例如供求信息、价格信息、市 场动态菩,在农业网站的栏目设置中占有非常重要的地位。 涉农网民访问农业网站方式 涉农网民访问农业网站的方式包括以下几种:一是直接输入网址或点击书签 页,二是通过搜索引擎检索访问,三是通过导航网站访问,四是通过点击非农网 站链接。截至2 0 0 9 年1 0 月,有2 50 3 的涉农网民是通过直接输入网址或点击 书签访问农业网站的,比2 0 0 9 年1 月增长了41 1 个百分点。而通过搜索引擎方 式访问农业网站的农村网民比例从2 99 5 降低到2 54 3 。 第j $ 结论 ,矿 圈15 农业网站中各类栏1 1 分布情况 图16 直接输入收藏夹访问 图18 通过搜索引擎访问幽19 通过其他页面链接 通过直接输入网址或点击书签访问和通过搜索引擎有目的检索访问的用户 比例加起来超过5 0 ,说明这部分涉农网民访问农业网站的目的性很明确,同时 对网站的回访率也比较高。 通过搜索引擎方式访问农业网站的农村网民比例的降低间接地晚明当前搜 索引擎并不能很好的满足涉农网民的需求,因此需要针对农业领域的特点做出改 进,以满足涉农网民的需求。 涉农网民关心的信息类型 雠蛳嘣册慨“似“ 荜i 市绪论 从图i1 0 中,可以看出农村网民最希望得到农产品价格信息,其次是农业 技术信息和农产品买卖信息,这三种信息的需求比例分别为5 79 4 、4 67 3 和 4 5 7 9 。这个结果与农业网站栏目设置的分布是基本一致的。反映出涉农网民对 农业市场信息的关注。 1i 3 本课题研究意义 图l1 0 涉农网毗关心的信息类型 农业需求信息是农业市场的灵魂,也是农业发展的动力。当前,在农业市场 国际一体化的发展趋势下,特别是面向我国近期蓬勃发展的农业企业、协会、合 作社等经济合作组织,对产前种什么效益高、产中什么农资优质优价、产后卖给 谁等市场与技术信息有着更迫切的需求。如何帮助他们便捷、准确的捕捉市场信 息,把握市场动向,及时调整种、养及销售方向,赢得市场竞争的先机,对我国 现代农业特别是工厂化农业、定单农业以及地方名、特、稀、优特色农业的发展 意义重大。 目前,我国建有3 0 0 0 0 余个涉农网站,积累了丰富的农业技术、市场信息、 政策法规、农业新闻等信息资源,然而农业网站普遍存在着“上下内容重复,左 右条块分割”的现象。这些网站由于信息资源缺少统一的形式化表达与操作标 准,使得信息异质、异构、分散、重复现象严重,形成“信息孤岛”,很难发挥 农业信息资源的集成效用。同时,考虑到农户文化水平、计算机操作能力以及农 业信息服务复杂性,要求“三农”用户利用传统的搜索工具去直接交互、捕捉和 第l 章绪论 筛选个性化信息,不仅是不现实的,也是不可能的。面对这些海量的农业信息资 源,三农用户只能望洋兴叹,“信息淹没”问题严重。 搜索引擎是解决这一问题的基本工具。传统搜索引擎大致可分为三类:以目 录索引为特征的搜索( y a h o o ) ,以关键词索引、页面重要性分析与超链分析技 术为特征的全文搜索( g o o g l e ;b a i d u ) 以及元搜索( m e t ac r a w l e r ;m a m m a ) 。 虽然它们给网民在互联网上查找信息带来了很多便利,但是在实际应用中存在以 下不足( j a n s e ne ta 1 2 0 0 0 ;x a n u d j a j ae ta l 。2 0 0 2 ) : 信息杂糅,难以满足农业领域用户的需求。不同领域背景的用户需求往往 不一致,但是传统搜索引擎却忽略了这样的不同。同一个查询,传统搜索引擎的 返回结果是不区分用户的,因此信息杂糅,难以满足特定领域用户需求。例如, 农业领域背景的用户输入“番茄”,他的本意更可能是希望获得番茄的相关栽培技 术、市场动态等农业相关信息。然而g o o g l e 返回的“番茄”查询结果都与农业领 域无关( 如图1 1 1 ) ,因此搜索引擎的查准率有待提高。 信息不够精准。传统搜索引擎处理信息的最小单位是网页,其搜索结果是 包含成千上万的指向w e b 页面的链接地址,需要用户自己查看页面,距离得到 用户所需要的真正信息还有很大差距。例如当我们在g o o g l e 上搜索番茄今曰 ( 2 0 1 0 5 1 查询) 价格时( 如图1 1 2 ) ,得到的结果很难令人满意。 大量农业领域的动态、实时数据无法有效获取。整个互联网可以分为表层 网页( s u r f a c ew e b ) 矛1 d e e pw e b ( 深度网页) 。d e e pw e b 的数据量是s u r f a c ew e b 的 5 0 0 倍,而且大多是面向领域的高质量的结构化数据,同时更新速度很快,但是 传统搜索引擎对d e e pw 曲的覆盖率很低,导致大量的农业领域信息无法有效、 实时地获取,搜索引擎的查全率有待提高。 传统搜索引擎智能化程度还较低,无法对获取数据进行自动属性标注、自 动去重、自动分类等处理,难以为用户提供深度数据分析服务。 通过上面的分析可以看出,传统搜索引擎已经很难满足农业领域用户的需 求。因此,建立专业化、个性化以及智能化的农业搜索模型并建立相应的搜索引 擎意义重大。本课题的研究正是在这样的背景下,受国家科技支撑计划项目“基 于本体的农业智能搜索引擎”,国家自然基金“农业复杂自适应搜索模型研究”等项 目资助,研究更加贴近农业领域、更加符合农业用户需求的新一代农业搜索引擎。 9 旃l 章绪论 g o o g l e 番茄 i i i j i 田扛丑互主目l 蛋茄蓝目昱航艇业堂皿韭业坚业1 上上匣就上置菹蓝臣 镕# 口月址 m 薪目月 m 日2 日址 日mt 口f 蝇闺h h * n j 口m # e 日e k t 盈m b l o g h & # 月i 挂区童巫曳赶旦工盔董芷丑曼舡随型生业业盟剑 w 0i o l e l o p i ,。 置菹姐卿 c s o l a n u ml y c o p of s i c u m ) n 镕 t # h ;¥$ h # ,r # 日n # f # 。口 自肛f 十羹洲# m w - 十目 坷f 粒镕,z # m p $ 一 舌驺吐- 篮挂厦黑置歪丛 b 8 i k eb a i d uc or n y c i h , d 2 1 9 6 9h t m “! 。 噩茄篁盎纽进盘缉盖堑鲍壁洼堂塑立担衄 n e “# e n 一# ! * 目# m n 十自月* “, $ w 口,日k t n m - w 衄i m t # * 、口 :n d n # g 日a e * 目”m - ”一hg m 咐c o m ,# 、 * a “ 。坍 曼鲤娅瓷皿l 矗茁 重苴监塑畦丝舡上蟹业嘲盖8 垃毡匠照( 堕l b1 日l * i * i 】“t # 妈”* + e * 一8 # 替q i ”“t ” m 7 j l 十# n 2 0 0 i * 目& ,m & 日e 7 8 4 日e - 月* # $ - “譬# 既 j 乙 e * “ 圈11 1 g o o g le 卉询“番茄”的结果( 2 0 1 0 5 1 蠹啕) g o g l e * m 4 日镕 目n e i 巫 i 】亟! i i 口m m * 十x 月m t ;日”* n m n3 o 呻胥镕 全旦置蕴垃盐楚主强躞 j 月日p 枷i ”# ”* * e j 一觚口t * 目 m - 女j $ # e g * # t 十 女月 t 口日撇* 口t 划口s g - i i n n e t ,h l m v a n 。c 日4 日 h i m h “ j l 置茁趣工控主日里巴巴苞些魁 龇* 日t ! m n * $ m9 日! 日8 i * m 女* s m日目 l t 日日 :瞒# 目s me 阳w i l 旧* m mc h m aa i _ 0 a b “e ”q ec t m5 6 h l m l 北重盟矗辄撄琏嚣茄盐掐古幢上洼拙压趾垫睡盘商 n $ ,l m 袁产 十c # 日4 # j j 、m m 黼t 洲# m ”m # 日m 一2 9 ¥月口,彤o r 月b * b ”镕t 目 m i a l 1 2h i m 亡酉目胆扯盐互扭。二主j 二卫5 量皿。候垃番商竹h 虹 删& m * - j 1 * 触i ”* b * 枷、2 ”# 僦t m 眦23 r 瞄 5 日3d i m 月“* 槲” 。 毗n i d 帅i 。槲吕l v 口e = k i m 1 删m # 镕* i e l t 女* # n # n * 一日黼 口# 嘲5 日 p 一十枷i t 一十舢* m 图11 2g o o g l e 商询“诉茄今日价格”的结果( 2 0 1 0 5 一】赉询) 第l 章绪论 1 2 国内外研究现状 围绕着专业化、个性化、智能化搜索模式的研究,国内外研究者已经取得了 很多成果,大致可以归为以下几类: 1 2 1 专业化搜索模型 专业搜索也称垂直搜索( v e r t i c a ls e a r c h ) ,对特定范围的网络信息的覆盖率 相对较高,具有可靠的技术和信息资源保障,有明确的检索目标定位,能有效地 弥补通用综合性搜索引擎对专业领域及特定主题信息覆盖率过低的问题。相对成 功的产品如:国外科学搜索引擎s c i r u s ( h t t p :w w w s c i r u s c o m ) 是一种专为搜索高 度相关的科学信息而设计的搜索引擎;n e c 研究院的c i t e s e e r ( w i t t e ne ta 1 1 9 9 8 ) 是一个著名的针对计算机科学领域论文的检索系统:国内酷讯搜索引擎提供了招 聘,住房,票务,汽车等功能;百度旗下的音乐搜索,还有大旗,奇虎等提供的 论坛社区搜索等等。农业领域的搜索引擎如:w e b a g r i 、a 9 2 n i c 等只限于提 供英文涉农信息的搜索服务。 1 2 2 个性化搜索模型 个性化搜索模型是指搜索引擎能够提供与用户个别需求相符合信息的能力, 强调用户个性化信息的获取、用户个性化建模和模型的修正与增量式学习方面。 个性化搜索模型的核心方法:( 1 ) 使用统计分析、关联规则、聚类、分类、序列 分析等数据挖掘方法从w e b 日志中抽取用户使用模式( s p i l i o p o u l o ue ta 1 19 9 8 ; c o o l e ye ta 1 19 9 9 ;f ue ta 1 2 0 0 0 ;w a n ge ta 1 2 0 0 2 ) ,并利用模式评估将挖掘出的模 式转化为知识。( 2 ) h a v l i w a l a 提出了一种称作t o p i cs e n s i t i v e ( h a v e l i w a l ae t a 1 2 0 0 2 ) 的个性化p a g er a n k 算法。该算法不是为每个页面计算一个全局的p a g e r a n k 值,而是针对每个类别,每个页面都计算一个相应的p a g er a n k 值:希望 借此可以提高返回结果的相关性。( 3 ) m yy a h o o ( m a n b e re ta 1 2 0 0 0 ) 对用户感兴趣 的信息进行过滤,只显示用户可能关心的部分。用户明确指示其偏好或者系统通 过用户的访问活动自动( 或半自动) 地推理出其偏好。 第1 章绪论 1 2 3 自适应搜索模型 传统搜索引擎采用的是单一的“输入一输出”响应模式,而自适应搜索引擎采 用的是“输入一输出反馈一输入一输出”的循环响应模式( 见图1 1 3 ) 。在系统模块 上,自适应搜索引擎一方面增加了用户兴趣信息处理模块和搜索结果调整模块; 另一方面,它还引入向量空间模型对查询进行处理。由系统结构可以看出,该自 适应搜索引擎能够完成以下功能:a 孝艮据用户对搜索结果的使用情况,分析出用 户兴趣信息;b 利用用户的兴趣信息对检索式进行重构,改变某一索引项或关键 词的权重;c 利用向量空间模型计算w e b 文档与检索式之间的相似度,并对原 搜索结果按相似度大小重新进行排序,并把新搜索结果返回给用户:d 搜索引擎 又开始新的事务,收集用户的访问序列,如此循环。 密西根大学m i c h a e l 使用遗传算法,把搜索结果的相关程度作为适应度函数, 对特征词的权重进行优化( m i c h a e le ta 1 2 0 0 6 ) 。国内东南大学张卫丰、徐宝文等 使用遗传算法优化搜索引擎的调度策略,以提高效能( 张卫丰等2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急与事故管理制度
- 弱电hse管理制度
- 影院使用及管理制度
- 微型消防站管理制度
- 心理功能室管理制度
- 快递公司谁管理制度
- 念佛堂机构管理制度
- 患者自费药管理制度
- 慢病筛查与管理制度
- 成都剧本杀管理制度
- GB/T 1695-2005硫化橡胶工频击穿电压强度和耐电压的测定方法
- 土木工程施工课程设计完整版
- NB∕T 33009-2021 电动汽车充换电设施建设技术导则
- 检修质量管理培训课件
- 幼儿园安全教育《防溺水》课件
- 《走进民间音乐》资料
- 螺杆冷水机组使用说明书
- 2021年北京首通智城科技创新有限责任公司招聘笔试试题及答案解析
- 实习证明模板10篇
- 国开期末考试《建筑制图基础》机考试题及答案(第A-1套)
- 越南语基础实践教程1第二版完整版ppt全套教学教程最全电子课件整本书ppt
评论
0/150
提交评论