（模式识别与智能系统专业论文）农业复杂自适应搜索模型研究及实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：107 大小：7.29MB 积分：0 举报 版权申诉

已阅读5页，还剩102页未读，继续免费阅读

（模式识别与智能系统专业论文）农业复杂自适应搜索模型研究及实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要截止2 0 0 9 年底，互联网上的涉农网站已超过3 0 0 0 0 个，积累了丰富的农业技术、市场信息、政策法规、农业新闻等信息资源。然而由于互联网信息资源缺少统一的形式化表达，信息异质、异构、分散、重复现象严重，形成“信息孤岛，很难发挥农业信息资源的集成效用。同时，由于农户文化水平、计算机操作能力的限制，“三农用户很难使用传统的搜索工具去直接交互、捕捉和筛选个性化信息。面对海量的农业信息资源，“三农用户只能望洋兴叹， “信息淹没问题严重。因此，建立专业化、个性化、智能化的农业搜索模型及相应的搜索引擎系统意义重大。本文针对互联网的开放性、分散性、层次性、演化性、巨量性等本质特性，提出了一种农业复杂自适应搜索模型。该模型建立农业信息资源发现、信息获取、信息处理与用户服务主体联盟，通过主体与网络资源、主体与网页内容和网页表现形式、主体与用户个性化需求之间的学习与适应机制，实现对复杂、动态的互联网环境的适应，从而提高农业搜索引擎的查全率与查准率，解决新一代搜索引擎面临的核心问题。针对农业互联网资源的动态性和高度分散性特点，本文提出了 a a d w e d ( a d a p t i v ea g r i c u l t u r ed e e pw e be n t r yd i s c o v e r y ) 算法，一种自适应农业领域d e e pw e b 资源发现算法。该算法通过不断从样本中学习到合适的查询表达式提交给通用搜索引擎来高效获取领域d e e pw e b 资源入口页面。实验证明，该算法大幅度提高农业领域d e e pw e b 资源发现的收益率。针对对w e b 站点页面表现形式具有多样性、动态性等特点，本文提出了一种自适应的w e b 结构化数据提取算法。该算法在m d r 算法的基础上，提出了一种基于相对熵的页面去噪算法，从而提高了w e b 结构化数据抽取的准确率。针对互联网存在的大量农业领域数据描述不统一、不完整、冗余等问题，本文重点研究了农产品价格、供求等信息的空间属性自动标注和基于语义的数据冗余处理问题，提高了数据的质量和可用性，为进行精确检索和可视化分析服务提供了基础。针对不同w e b 用户的个性化需求，本文提出了一种基于f c a 的自动挖掘用户兴趣主题算法。挖掘出的兴趣主题模式被描述成一组形式化概念，兴趣主题模式之间的联系被显示的在概念格中描述出来，利于用户理解。本文还提出了种文档和用户感兴趣主题相关度的计算方法。通过对比实验，证明该方法是有效的。最后，本文基于所提出的农业复杂自适应搜索模型，设计并实现了农业垂摘要直搜索引擎系统“中国搜农，该系统已经开始大规模对外公开服务，并已在多个省市得到推广和应用。关键词：复杂自适应系统垂直搜索引擎网络资源发现深度网页用户个性化网页结构化数据抽取形式化概念分析垒垒! ：! 堡垒! a b s t r a c t b yt h ee n do f2 0 0 9 ，t h e r eh a v eb e e nm o r et h a n3 0 0 0 0a g r i c u l t u r a lw e bs i t e so nt h e i n t e r n e t ，w h i c hc o v e ra l m o s ta l lk i n d so fa g r i c u l t u r a li n f o r m a t i o n ，s u c ha sa g r i c u l t u r a l t e c h n o l o g y , m a r k e ti n f o r m a t i o n ，a g r i c u l t u r a ln e w sa n dp o l i c i e s h o w e v e r , a g r i c u l t u r a l i n f o r m a t i o no dt h ew e bh a sn ou n i f o r m r e p r e s e n t a t i o na n di sh e t e r o g e n e o u s ， d i s t r i b u t e da n dr e d u n d a n t ，w h i c hf o r m si s o l a t e d i n f o r m a t i o ni s l a n d s s i n c et h e k n o w l e d g eo ff a r m e r st oo p e r a t eac o m p u t e ri sl i m i t e d ，i tw o u l db eh a r df o rt h e mt o u s et r a d i t i o n a ls e a r c ht o o l st oa c q u i r ea n df i l t e rp e r s o n a l i z e di n f o r m a t i o no nt h ew e b f a c i n gh u g ea m o u n to fi n f o r m a t i o n ，f a r m e r sa r eo f t e nf r u s t r a t e da n dt h ed h e n o m e n o n o f “i n f o r m a t i o no v e r l o a d ”i sas e r i o u sm a t t e r h e r e o b v i o u s l y i ti ss i g n i f i c a n tt o d e v e l o pp e r s o n a l i z e d ，i n t e l l i g e n ta n dp r o f e s s i o n a lw e bs e a r c hm o d e l sa n dt o o l s f o rt h ec h a r a c t e r i s t i c so fo p e n n e s s ，s c a t t e r i n g s ，h i e r a r c h y ，e v o l u t i o na n dh u g e n e s s o fi n t e r n e t ，a n a g r i c u l t u r a ls e a r c hm o d e lb a s e do nc o m p l e xa d a p t i v e s y s t e mi s p r o p o s e di nt h i sd i s s e r t a t i o n t h i sm o d e lc o n s t r u c t st h ea g e n ta l l i a n c eo fa g r i c u l t u r a l i n f o r m a t i o nd i s c o v e r ya g e n t ，i n f o r m a t i o na c q u i s i t i o na g e n t ，i n f o r m a t i o np r o c e s s i n g a g e n ta n ds e r v i c ea g e n t t h em o d e lf itt h ec o m p l e xa n dd y n a m i cin t e r n e te n v i r o n m e n t t h r o u g hl e a r n i n g m e c h a n i s m sb e t w e e n a g e n t s a n dw e bc o n t e n t s ，r e p r e s e n t a t i o n m e t h o d sa n du s e rn e e d s t h em e t h o dp r o p o s e di m p r o v e st h ep r e c i s i o na n dr e c a l lo f a g r i c u l t u r a ls e a r c he n g i n ea n ds o l v e st h ec o r ep r o b l e mf o rt h en e x tg e n e r a t i o ns e a r c h e n g i n e f o rt h ec h a r a c t e r i s t i c so f d y n a m i c sa n dh i g hs c a t t e r i n go fw e br e s o u r c e s ， a a d w e d ( a d a p t i v ea g r i c u l t u r ed e e pw e be n t r yd i s c o v e r y ) a l g o r i t h mi sp r o p o s e d t o a c q u i r ed o m a i n s p e c i f i cd e e pw e br e s o u r c e se f f e c t i v e l ya n de f f i c i e n t l y t h i s a l g o r i t h mc o n s t a n t l yc o n s t r u c t sq u e r i e sa c c o r d i n gt ot h es a m p l ea n ds u b m i t st h e q u e r i e st oas e a r c he n g i n ei no r d e rt of i n dt h ee n t r yp a g eo fh i d d e nw e br e s o u r c e s t h e e x p e r i m e n t sv a l i d a t et h a tt h i sm e t h o dc a ns i g n i f i c a n t l yi m p r o v et h ee f f i c i e n c yo f f i n d i n gh i d d e nw e b r e s o u r c e s a i m i n g a tt h et w oc h a r a c t e r i s t i c s ( d y n a m i c sa n d d i v e r s i t y ) o fw e bp a g e so nt h ew e b s i t e s ，a na d a p t i v ew e bs t r u c t u r a ld a t a e x t r a c t i o n a l g o r i t h m i s p r e s e n t e di n t h i s d i s s e r t a t i o n t h i sa l g o r i t h mi sb a s e do nt r a d i t i o n a lm d r a l g o r i t h ma n da d o p t sr e l a t i v e e n t r o p yt h e o r yf o rn o i s er e m o v a ls oa st oi m p r o v et h ep r e c i s i o no fw e bs t r u c t u r a ld a t a e x t r a c t i o n a b s t r a c t a i m i n ga th u g ea m o u n to fh e t e r o g e n e o u s ，i n c o m p l e t ea n dr e d u n d a n ta g r i c u l t u r a l i n f o r m a t i o no nt h ew e b ，t h i sd i s s e r t a t i o ns t u d i e dt h ea u t o m a t i cs p a t i a lp r o p e r t y a n n o t a t i o na n dp r o c e s s i n gr e d u n d a n td a t ab a s e do ns e m a n t i c sf o ra g r i c u l t u r a lp r o d u c t p r i c ea n db u y s e l li n f o r m a t i o n t h ep r o p o s e dm e t h o di m p r o v e st h eq u a l i t yo f d a ma n d c o n s t r u c t saf u n d a m e n t a lf o rp r e c i s er e t r i e v a la n dv i s u a li z a t i o n t ot a c k l et h ep r o b l e mo fp e r s o n a l i z e di n f o r m a t i o nn e e d sf r o md i f f e r e n tw e bu s e r s ， an e wa p p r o a c ht h a ta u t o m a t i c a l l ym i n i n gw e bu s e rp r o f i l eb a s e do nf c a i sp r o p o s e d t h ei n t e r e s tm o d e l so fw e bu s e r sa r er e p r e s e n t e da sf o r m a lc o n c e p t s a n dt h e r e l a t i o n s h i pb e t w e e nt h e s em o d e l sa r ed e s c r i b e di nac o n c e p tl a t t i c e t h em e t h o do f a s s e s s i n gd o c u m e n tr e l e v a n c et ot h et o p i c si s a ls op r o p o s e d t h ee x p e r i m e n t ss h o w t h a to u ra p p r o a c hi se f f e c t i v e a tl a s t ，b a s e do nt h ec o m p l e xa d a p t i v ea g r i c u l t u r a ls e a r c hm o d e lp r o p o s e di nt h i s d i s s e r t a t i o n ，a g r i c u l t u r a lv e r t i c a ls e a r c he n g i n e s o u n o n g h a sb e e nd e s i g n e da n d i m p l e m e n t e d t h i ss e a r c he n g i n eh a ss e r v e dp u b l i c l yf o rm a n yp r o v i n c e s k e y w o r d s ： c o m p l e xa d a p t i v es y s t e m ，v e r t i c a ls e a r c he n g i n e ，w e bk n o w l e d g ed i s c o v e r y , d e e p w e b ，u s e rp r o f i l e ，s t r u c t u r a ld a t ae x t r a c t i o n ，f o r m a lc o n c e p ta n a l y s i s 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名：签字只期：型蝉中国科学技术大学学位论文授权使用声明作为申请学位的条件之，学位论文著作权_ 拼】有者授权中国科学技术大学 j j 有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。作者签名：签字同期：导师签名：签字同期：z ! ! ：鱼：甲第l 章绪论 1 1 研究背景与意义 1 1 1 互联网与搜索引擎第1 章绪论 1 9 6 9 年，美国国防部高级研究计划局出于战备的考虑，建成了一个试验性的，由4 台机器构成的计算机网络一一a 砒) a 网，这就是最初互联网的雏形。这年l o 月，第一个电子消息从加州大学洛杉矶分校( u c l a ) 发送到了斯坦福研究院 ( s r i ) ：仅仅传送了两个字母l 和o ( 登陆“l o g i n ”的前两个字母) 之后，网络就崩溃了。但此举宣告互联网正式诞生。上世纪9 0 年代，出现了万维网( w o r l d w i d ew e b ，简称w e b ) ，它的开放性( o p e n n e s s ) 和可访问性( a c c e s s i b i l i t y ) 极大地鼓励了人们创作、发布、共享信息的积极性。互联网时代已经成为一个信息爆炸的时代，信息发布与更新的速度已经远远超过了人们整理、利用信息的速度。根据2 0 0 9 年发布的中国互联网络发展状况统计报告( c n n i c2 0 0 9 a ) ，截至2 0 0 8 年底，中国的网站数，即域名注册者在中国境内的网站数( 包括在境内接入和境外接入) 达药j 2 8 7 8 万个，较2 0 0 7 年增长9 1 4 ：中文网页总数超过1 6 0 亿个，较2 0 0 7 年增长9 0 。可以毫不夸张的说，互联网已成为当今世界最大也是最普及的信息资源库。与传统的基于数据库的信息资源不同，互联网信息资源不仅在数量上极为庞大，形式多样，而且充满动态性、异构性，总的来说，互联网信息资源大致有以下特点( 黄良2 0 0 6 ) ：信息量极为庞大而且分散。互联网上聚集的信息资源早以t b 级来衡量，存在的网页超过百亿；而且这些信息分布在全世界各地上千万台服务器上，通过不同的协议( ! t i t c p i p ，h t t p 等) 相互连接。信息资源多样化。互联网上的信息形式各不相同，如文本、多媒体、文件等不同类型的和不同语种的信息资源交织在一起。第l 章绪论信息具有动态性特点。互联网上网站和网页的各种信息时刻处于变化之中，新的页面在不断出现，旧的页面不断地更新或消失。有研究指出，大约5 0 的网页平均生命周期大约只有5 0 天。信息处于无结构化、半结构化之中。互联网上的信息通常是无结构或者半结构化的，使得计算机很难理解其语义信息。信息不一致、不完整。互联网上，人人都可以在网上发布信息，缺少统一的信息描述标注，所以信息往往存在不一致、不完整甚至矛盾。互联网是一个巨大的知识宝库，越来越多的人选择从网上获取信息，然而，面对如此海量的信息，人们经常会感到难以找到自己想要的信息。正因如此，搜索引擎应运而生，出现了一大批知名的搜索引擎。从工作原理来讲，大致可以分为以下三种类型：目录式搜索引擎 1 9 9 4 年4 月，斯坦福( s t a n f o r d ) 大学的两名博士生，d a v i df i l o 幂l l 杨致远( g e r r y y a n g ) 共同创办了y a h o o ! 网站，这个网站提供目录索引服务，国内的“搜狐”也曾经提供类似的服务。目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定。基于目录的搜索引擎结构清晰、准确度较高，比较符合人们的阅读习惯。问题是需要大量人工参与整理，周期长，速度慢、如果查找的信息没有对应的分类，则无法进行搜索。随着网上信息越来越多，单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化，对海量的信息进行高质量的人工分类已经不太现实，因此己逐渐被全文索引搜索引擎所替代。全文搜索引擎全文搜索引擎是名副其实的搜索引擎，国外具代表性的有g o o g l e 、i n k t o m i 、 t e o m a 、a l t a v i s t a 、w i s e n u t 等，国内具有代表性的是百度( b a i d u ) 。它们都是通过从互联网上提取各个网站的信息( 以网页文字为主) 并建立索引，检索与用户查询条件匹配的相关记录，然后按一定的排序将结果返回给用户，因此它们是真正的搜索引擎。全文搜索引擎的主要三部分构成( 体系结构如图1 2 ) ：第1 章绪论 c o ( ) 父i e u 夼：般叵圈臣夏圈 o m 月0 十女日- 体十女日祝*自h 购目自手翻译捌导 e o o 目i ec o mh k 使用t ，语言生童止盟l 旦n i 女裁糊i 监o o op ec o r nm e r , i , s h n 点业血丝逝 o b 丝幽lig o o g l e 首页丛韭塑l 耻姐盐凹搜集器搜集器模块负责完成发现、搜集网页信息任务。网络爬虫( s p i d e 0 在互鞋网中搜索并下载页面，然后沿着此页面的对外链接继续搜寻页面，不断重复搜索下载过程。 ( 2 ) 索引器索引器将首先对下载的网页进行页面分析，包括关键词提取、重复页面消重、链接分析、计算网页重要程度，之后对网页进行索引。而索引库的数据结构采用倒排索引文件。 ( 3 ) 检索器检索器负责在巨大的索引库中检索获得与用户查询相关的网页，同时评估这些网页与用户查询的相关度程度，并据此对查询结果进行排序后返回给用户。提到全文搜索引擎，就不得不提到g o o g l e ( 如图l2 ) 。两位斯坦福大学的博士生l a r r y p a g e 和s e r g e y b r i n 在1 9 9 8 年创立了g o o g l ea g o o g l e 富于创新的搜索技术和典雅的用户界面设计使g o o g l e 从众多的搜索引擎中脱颖而出。第le 绪论 g o o g l e 使用p a g e r a n k 技术检查整个网络链接结构，并确定哪些网页重要性最高。然后进行超文本匹配分析，以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后，g o o g l e 可以将最相关最可靠的搜索结果放在首位。四次荣获s e a r c h e n g i n e w a t c h ( s e a r c h e n g i n e w a t c h2 0 0 4 ) 读者选举出的“虽杰出搜索引擎”称号的g o o g l e ，作为在网络上搜索页面的首选是无愧于这个称号的。幽l2 全文搜索引擎检索体系结构圈元搜索引擎 1 9 9 5 年华盛顿大学硕士生e r i cs e l b e r g 和o r e ne t z i o n i 推出第一个元搜索引擎m e t a c r a w l e r 。元搜索引擎山三部分组成，即：检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户个性化的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理” 负责将用户的检索请求翻译成满足不同搜索引擎要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等兀搜索引擎的出现，对于那些需要连续地使用不同的搜索引擎重复相同的检索的人来说，是一个福音。使用第1 章绪论元搜索引擎同时对几个搜索引擎进行检索获得分级编排的检索结果。知名的元搜索引擎有l n f o s p a e e 、d o g p i l e 、v i v i s i m o 等。 11 2 农业互联网资源现状在现代农业中，信息已成为一个基本要素参与产前、产中、产后整个农业生产过程，为农业生产提供了强大的原动力。近年来，我国农业互联网信息资源增长非常迅猛。本节将重点探讨国内农业互联网资源发展状况，所涉及的数据来源于中国搜农( h 丝；必垡坐q 女n q g 噬! ) 后台a 志、农户调查数据及中国农村互联网发展状况调查报告( c n n i c2 0 0 9 b ) ，数据统计时间是2 0 0 9 年底。农业网站数量截至2 0 0 9 年1 0 月( c n n i c2 0 0 9 b ) ，中国农业网站的数量达到3 l ，1 0 8 个，较2 0 0 9 年初稳步增长4 07 ( 见图l3 ) ，可以看出，国内农业网站发展速度是非常惊人的。 2 0 0 9z o 嘲搿盘翻口牡啦瞳审圈嘲3 1 1 0 8 2 0 0 90 9 日嘲霸日孵疆啊曩翟抽墨霸圈暖喇3 0 2 0 5 】2 0 0 9 0 8j 甲。嘲4 1 0 _ o 一| o 1 0 3 6 6 2 0 0 9 0 7 j _ _ i _ _ 一_ ”f ” 2 0 0 9 0 6 ii - 2 7 2 扣 2 0 0 0 0 5 审曩瞳瞳矗墨审瞄曩嘲2 6 2 1 6 2 0 0 90 4 曩田啊岛圈雹冒啊墨圈墨脚2 5 1 5 7 2 0 0 9 0 3 喇圈皤蛹瞳衄啊蟹嘲2 4 1 2 9 | 2 0 0 9 0 21 i 一_ _ l 暖霸- 啊如田_ 目面霸2 j 2 7 2 0 0 9 0 l 抽_ _ - _ _ 嘲_ _ 岛日_ 扣2 2 1 毒，i j 】十一一一一。1+1：竺竺= ：= = = = 竺竺竺i 幽13 农业网站数量农业网页数量农业网站有效受访u r l 数量指的是可以被访问到的u r l 链接数量，也即农业网站有效u r l 数量。如下图14 所示，与2 0 0 9 年1 月相比较，2 0 0 9 年l o 月份日均农业网站有效u r l 数量增长了1 86 。远远高于有效农业站点数量增长的速第1 帝特论度。这一现象表明不仅整体农业网络蕴含的信息量更加丰富，而且单个农业网站规模也在加大。 2 0 0 92 6 * o o o l - l _ _ l ? o _ l l _ l - i - i2 g 9 g 0 7 2 0 0 9 0 9 弗i 章i i i i i i i i i i 号i 呻2 6 2 1 9 6 2 0 0 9 0 8 耪i i i i i i i i i i i i i i i i 自；5 9 1 9 0 |：”营”1209904 2 3 6 4 1 7 1200903 23265320090 2 23085620090 i 2 2 7 3 3 l _ - - _ - - _ _ - - _ _ - - l _ 1 辫_ ：m l l 3 图14 农业网站有效受访u r l 数坐农业网页内容农业网站中栏目设置的调查对于了解农业应用有着重要的意义，通过农业网站栏目的调查可以清楚的看到目前我国农业信息化中网络服务的热点。农业网站中常见栏目包括新闻资讯类、供求信息、农业科技、政策法规、市场动态、价格行情以及互动交流类( 论坛、博客) 栏目。图1 5 数据说明，农业类网站中最普遍的栏目为新闻类栏目，占被调查总数的9 9 ，其次是供求信息栏目，占被调查总数的9 1 ，市场动态栏目占8 5 ，农业技术栏目为7 7 ，价格信息栏目为5 0 政策法规栏目为3 7 ，论坛和博客栏目的农业网站相对比较少，只占4 。通过数据可咀看出，农产品市场信息类栏目，例如供求信息、价格信息、市场动态菩，在农业网站的栏目设置中占有非常重要的地位。涉农网民访问农业网站方式涉农网民访问农业网站的方式包括以下几种：一是直接输入网址或点击书签页，二是通过搜索引擎检索访问，三是通过导航网站访问，四是通过点击非农网站链接。截至2 0 0 9 年1 0 月，有2 50 3 的涉农网民是通过直接输入网址或点击书签访问农业网站的，比2 0 0 9 年1 月增长了41 1 个百分点。而通过搜索引擎方式访问农业网站的农村网民比例从2 99 5 降低到2 54 3 。第j $ 结论，矿圈15 农业网站中各类栏1 1 分布情况图16 直接输入收藏夹访问图18 通过搜索引擎访问幽19 通过其他页面链接通过直接输入网址或点击书签访问和通过搜索引擎有目的检索访问的用户比例加起来超过5 0 ，说明这部分涉农网民访问农业网站的目的性很明确，同时对网站的回访率也比较高。通过搜索引擎方式访问农业网站的农村网民比例的降低间接地晚明当前搜索引擎并不能很好的满足涉农网民的需求，因此需要针对农业领域的特点做出改进，以满足涉农网民的需求。涉农网民关心的信息类型雠蛳嘣册慨“似“ 荜i 市绪论从图i1 0 中，可以看出农村网民最希望得到农产品价格信息，其次是农业技术信息和农产品买卖信息，这三种信息的需求比例分别为5 79 4 、4 67 3 和 4 5 7 9 。这个结果与农业网站栏目设置的分布是基本一致的。反映出涉农网民对农业市场信息的关注。 1i 3 本课题研究意义图l1 0 涉农网毗关心的信息类型农业需求信息是农业市场的灵魂，也是农业发展的动力。当前，在农业市场国际一体化的发展趋势下，特别是面向我国近期蓬勃发展的农业企业、协会、合作社等经济合作组织，对产前种什么效益高、产中什么农资优质优价、产后卖给谁等市场与技术信息有着更迫切的需求。如何帮助他们便捷、准确的捕捉市场信息，把握市场动向，及时调整种、养及销售方向，赢得市场竞争的先机，对我国现代农业特别是工厂化农业、定单农业以及地方名、特、稀、优特色农业的发展意义重大。目前，我国建有3 0 0 0 0 余个涉农网站，积累了丰富的农业技术、市场信息、政策法规、农业新闻等信息资源，然而农业网站普遍存在着“上下内容重复，左右条块分割”的现象。这些网站由于信息资源缺少统一的形式化表达与操作标准，使得信息异质、异构、分散、重复现象严重，形成“信息孤岛”，很难发挥农业信息资源的集成效用。同时，考虑到农户文化水平、计算机操作能力以及农业信息服务复杂性，要求“三农”用户利用传统的搜索工具去直接交互、捕捉和第l 章绪论筛选个性化信息，不仅是不现实的，也是不可能的。面对这些海量的农业信息资源，三农用户只能望洋兴叹，“信息淹没”问题严重。搜索引擎是解决这一问题的基本工具。传统搜索引擎大致可分为三类：以目录索引为特征的搜索( y a h o o ) ，以关键词索引、页面重要性分析与超链分析技术为特征的全文搜索( g o o g l e ；b a i d u ) 以及元搜索( m e t ac r a w l e r ；m a m m a ) 。虽然它们给网民在互联网上查找信息带来了很多便利，但是在实际应用中存在以下不足( j a n s e ne ta 1 2 0 0 0 ；x a n u d j a j ae ta l 。2 0 0 2 ) ：信息杂糅，难以满足农业领域用户的需求。不同领域背景的用户需求往往不一致，但是传统搜索引擎却忽略了这样的不同。同一个查询，传统搜索引擎的返回结果是不区分用户的，因此信息杂糅，难以满足特定领域用户需求。例如，农业领域背景的用户输入“番茄”，他的本意更可能是希望获得番茄的相关栽培技术、市场动态等农业相关信息。然而g o o g l e 返回的“番茄”查询结果都与农业领域无关( 如图1 1 1 ) ，因此搜索引擎的查准率有待提高。信息不够精准。传统搜索引擎处理信息的最小单位是网页，其搜索结果是包含成千上万的指向w e b 页面的链接地址，需要用户自己查看页面，距离得到用户所需要的真正信息还有很大差距。例如当我们在g o o g l e 上搜索番茄今曰 ( 2 0 1 0 5 1 查询) 价格时( 如图1 1 2 ) ，得到的结果很难令人满意。大量农业领域的动态、实时数据无法有效获取。整个互联网可以分为表层网页( s u r f a c ew e b ) 矛1 d e e pw e b ( 深度网页) 。d e e pw e b 的数据量是s u r f a c ew e b 的 5 0 0 倍，而且大多是面向领域的高质量的结构化数据，同时更新速度很快，但是传统搜索引擎对d e e pw 曲的覆盖率很低，导致大量的农业领域信息无法有效、实时地获取，搜索引擎的查全率有待提高。传统搜索引擎智能化程度还较低，无法对获取数据进行自动属性标注、自动去重、自动分类等处理，难以为用户提供深度数据分析服务。通过上面的分析可以看出，传统搜索引擎已经很难满足农业领域用户的需求。因此，建立专业化、个性化以及智能化的农业搜索模型并建立相应的搜索引擎意义重大。本课题的研究正是在这样的背景下，受国家科技支撑计划项目“基于本体的农业智能搜索引擎”，国家自然基金“农业复杂自适应搜索模型研究”等项目资助，研究更加贴近农业领域、更加符合农业用户需求的新一代农业搜索引擎。 9 旃l 章绪论 g o o g l e 番茄 i i i j i 田扛丑互主目l 蛋茄蓝目昱航艇业堂皿韭业坚业1 上上匣就上置菹蓝臣镕# 口月址 m 薪目月 m 日2 日址日mt 口f 蝇闺h h * n j 口m # e 日e k t 盈m b l o g h & # 月i 挂区童巫曳赶旦工盔董芷丑曼舡随型生业业盟剑 w 0i o l e l o p i ，。置菹姐卿 c s o l a n u ml y c o p of s i c u m ) n 镕 t # h ；￥$ h # ，r # 日n # f # 。口自肛f 十羹洲# m w - 十目坷f 粒镕，z # m p $ 一舌驺吐- 篮挂厦黑置歪丛 b 8 i k eb a i d uc or n y c i h , d 2 1 9 6 9h t m “! 。噩茄篁盎纽进盘缉盖堑鲍壁洼堂塑立担衄 n e “# e n 一# ! * 目# m n 十自月* “， $ w 口，日k t n m - w 衄i m t # * 、口：n d n # g 日a e * 目”m - ”一hg m 咐c o m ，# 、 * a “ 。坍曼鲤娅瓷皿l 矗茁重苴监塑畦丝舡上蟹业嘲盖8 垃毡匠照( 堕l b1 日l * i * i 】“t # 妈”* + e * 一8 # 替q i ”“t ” m 7 j l 十# n 2 0 0 i * 目& ，m & 日e 7 8 4 日e - 月* # $ - “譬# 既 j 乙 e * “ 圈11 1 g o o g le 卉询“番茄”的结果( 2 0 1 0 5 1 蠹啕) g o g l e * m 4 日镕目n e i 巫 i 】亟! i i 口m m * 十x 月m t ；日”* n m n3 o 呻胥镕全旦置蕴垃盐楚主强躞 j 月日p 枷i ”# ”* * e j 一觚口t * 目 m - 女j $ # e g * # t 十女月 t 口日撇* 口t 划口s g - i i n n e t ，h l m v a n 。c 日4 日 h i m h “ j l 置茁趣工控主日里巴巴苞些魁龇* 日t ! m n * $ m9 日! 日8 i * m 女* s m日目 l t 日日：瞒# 目s me 阳w i l 旧* m mc h m aa i _ 0 a b “e ”q ec t m5 6 h l m l 北重盟矗辄撄琏嚣茄盐掐古幢上洼拙压趾垫睡盘商 n $ ，l m 袁产十c # 日4 # j j 、m m 黼t 洲# m ”m # 日m 一2 9 ￥月口，彤o r 月b * b ”镕t 目 m i a l 1 2h i m 亡酉目胆扯盐互扭。二主j 二卫5 量皿。候垃番商竹h 虹删& m * - j 1 * 触i ”* b * 枷、2 ”# 僦t m 眦23 r 瞄 5 日3d i m 月“* 槲” 。毗n i d 帅i 。槲吕l v 口e = k i m 1 删m # 镕* i e l t 女* # n # n * 一日黼口# 嘲5 日 p 一十枷i t 一十舢* m 图11 2g o o g l e 商询“诉茄今日价格”的结果( 2 0 1 0 5 一】赉询) 第l 章绪论 1 2 国内外研究现状围绕着专业化、个性化、智能化搜索模式的研究，国内外研究者已经取得了很多成果，大致可以归为以下几类： 1 2 1 专业化搜索模型专业搜索也称垂直搜索( v e r t i c a ls e a r c h ) ，对特定范围的网络信息的覆盖率相对较高，具有可靠的技术和信息资源保障，有明确的检索目标定位，能有效地弥补通用综合性搜索引擎对专业领域及特定主题信息覆盖率过低的问题。相对成功的产品如：国外科学搜索引擎s c i r u s ( h t t p ：w w w s c i r u s c o m ) 是一种专为搜索高度相关的科学信息而设计的搜索引擎；n e c 研究院的c i t e s e e r ( w i t t e ne ta 1 1 9 9 8 ) 是一个著名的针对计算机科学领域论文的检索系统：国内酷讯搜索引擎提供了招聘，住房，票务，汽车等功能；百度旗下的音乐搜索，还有大旗，奇虎等提供的论坛社区搜索等等。农业领域的搜索引擎如：w e b a g r i 、a 9 2 n i c 等只限于提供英文涉农信息的搜索服务。 1 2 2 个性化搜索模型个性化搜索模型是指搜索引擎能够提供与用户个别需求相符合信息的能力，强调用户个性化信息的获取、用户个性化建模和模型的修正与增量式学习方面。个性化搜索模型的核心方法：( 1 ) 使用统计分析、关联规则、聚类、分类、序列分析等数据挖掘方法从w e b 日志中抽取用户使用模式( s p i l i o p o u l o ue ta 1 19 9 8 ； c o o l e ye ta 1 19 9 9 ；f ue ta 1 2 0 0 0 ；w a n ge ta 1 2 0 0 2 ) ，并利用模式评估将挖掘出的模式转化为知识。( 2 ) h a v l i w a l a 提出了一种称作t o p i cs e n s i t i v e ( h a v e l i w a l ae t a 1 2 0 0 2 ) 的个性化p a g er a n k 算法。该算法不是为每个页面计算一个全局的p a g e r a n k 值，而是针对每个类别，每个页面都计算一个相应的p a g er a n k 值：希望借此可以提高返回结果的相关性。( 3 ) m yy a h o o ( m a n b e re ta 1 2 0 0 0 ) 对用户感兴趣的信息进行过滤，只显示用户可能关心的部分。用户明确指示其偏好或者系统通过用户的访问活动自动( 或半自动) 地推理出其偏好。第1 章绪论 1 2 3 自适应搜索模型传统搜索引擎采用的是单一的“输入一输出”响应模式，而自适应搜索引擎采用的是“输入一输出反馈一输入一输出”的循环响应模式( 见图1 1 3 ) 。在系统模块上，自适应搜索引擎一方面增加了用户兴趣信息处理模块和搜索结果调整模块；另一方面，它还引入向量空间模型对查询进行处理。由系统结构可以看出，该自适应搜索引擎能够完成以下功能：a 孝艮据用户对搜索结果的使用情况，分析出用户兴趣信息；b 利用用户的兴趣信息对检索式进行重构，改变某一索引项或关键词的权重；c 利用向量空间模型计算w e b 文档与检索式之间的相似度，并对原搜索结果按相似度大小重新进行排序，并把新搜索结果返回给用户：d 搜索引擎又开始新的事务，收集用户的访问序列，如此循环。密西根大学m i c h a e l 使用遗传算法，把搜索结果的相关程度作为适应度函数，对特征词的权重进行优化( m i c h a e le ta 1 2 0 0 6 ) 。国内东南大学张卫丰、徐宝文等使用遗传算法优化搜索引擎的调度策略，以提高效能( 张卫丰等2

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（模式识别与智能系统专业论文）农业复杂自适应搜索模型研究及实现.pdf

文档简介

温馨提示

最新文档

评论

（模式识别与智能系统专业论文）农业复杂自适应搜索模型研究及实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档