已阅读5页,还剩63页未读, 继续免费阅读
(管理科学与工程专业论文)电子信息产品TBT信息获取技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着科技的进步,人们对使用电子信息产品的健康、安全、环保意识越来高, 西方国家不断出台新的技术标准、法规,致使技术性贸易壁垒( t e c h n i c a lb a r r i e r s t ot r a d e ,t b t ) 现象不断出现,这对我国电子信息产品出口造成了很大损失。因 此,对电子信息产品t b t 预警的研究将有利于我国企业做到对t b t 的早评估、 早预防,从而达到降低出口损失,提高应对和利用1 b t 的目的。 本文围绕北京市自然科学基金项目:“基于m u l t i a g e n t 的电子信息产品t b t 预警 ( 编号:9 0 7 2 0 0 1 ) 研究内容进行选题。在商务智能实验室近几年关于基于 m u l t i - a g e n t 和本体技术的t b t 预测预警研究基础上,从t b t 信息搜索角度以电 子信息产品为对象展开的深入研究。 首先通过分析学习国内外信息获取技术的相关理论,总结出信息获取的方 法、任务、分类及排序算法等,指出基于关键字的信息检索存在查不准、查不全 和无法理解用户真实意图等问题,设计基于本体的智能检索系统,来提高检索系 统的知识处理能力和理解能力。 其次,通过分析t b t 领域文献和征求t b t 领域专家意见,确定电子信息产 品t b t 领域本体的5 个顶层概念分别是:电子信息产品( 贸易产品) 、国家( 地 区) 、法规、标准、壁垒原因,并利用软件工程中基于螺旋模型的原型法构建电 子信息产品i b t 本体知识库原型。 再次,提出对t b t 文档的基于本体的语义标引方法,并引入语义向量的概 念,优化基于概念相似和属性相似的本体相似度的计算方法,设计能够进行查询 扩展的智能搜索算法;按照电子信息产品t b t 预警领域行业的特殊要求,根据 w e b g a t h e r 模型的设计思想,提出改进的综合模型来对文本信息进行分类排序。 最后,以数字电视产品为例开发t b t 信息检索系统原型,并通过相关的实 验数据,验证智能检索的有效性。 关键词电子信息产品t b t ;信息获取;智能检索;本体 a b s t r a c t a b s t r a c t w i t ha d v a n c e si nt e c h n o l o g y , t h er e q u i r e m e n to fu s i n ge l e c t r o n i ci n f o r m a t i o n p r o d u c t s i s b e c o m i n gi n c r e a s i n g l yh i g h t e c h n i c a lb a r r i e r s t ot r a d e ( t b t ) o n e l e c t r o n i c si n f o r m a t i o np r o d u c t sw i l lc o n t i n u o u s l ye m e r g e t h ea p p e a r e dt e c h n i c a l b a r r i e r st ot r a d e ( t b t ) h a v ei n f l u e n c e dc h i n e s ee x p o r t e s p e c i a l l y , e l e c t r o n i c s i n f o r m a t i o np r o d u c e se x p o r th a ss u f f e r e dal o s s s o ,t h er e s e a r c ho nt h ee l e c t r o n i c s i n f o r m a t i o np r o d u c e st b tc a nm a k eo u re n t e r p r i s e sp r e v e n tt h e m s e l v e se a r l i l y , w h i c h c a nr e d u c et h ee n t e r p r i s e sl o s s i nt h i sp a p e r ,f o c u s i n go nt h eb e i j i n gn a t u r a ls c i e n c ef o u n d a t i o np r o j e c t : ”e l e c t r o n i ci n f o r m a t i o np r o d u c t st b tw a r n i n gb a s e do nm u l t i a g e n t ”( i d :9 0 7 2 0 0 1 ) t os e l e c tt h ec o n t e n to ft o p i c s o nt h eb a s i so ft h er e s e a r c ho nt b tf o r e c a s t i n ga n d w a r n i n g b a s e do nm u l t i a g e n ta n do n t o l o g yt e c h n o l o g i e sb yt h eb u s i n e s s i n t e l l i g e n c el a bi nt h ep a s tf e wy e a r s ,w ec o n d u c t e dad e e p e rr e s e a r c ho ne l e c t r o n i c i n f o r m a t i o np r o d u c t si nt e r m so ft b ti n f o r m a t i o ns e a r c h i n g f i r s t ,t h i sp a p e ri n t r o d u c e dt h er e l a t i v et h e o r i e sa b o u tt h et e c h n o l o g yo f g e t h e r i n gi n f o r m a t i o n , a n ds u m m e du pt h e m e t h o d sa n dt a s k so fg e t h e r i n g i n f o r m a t i o n , a sw e l la st h el i m i t a t i o n si ng e n e r a ls e a r c h i n ge n g i n e s ,p r o p o s e dt h e i n t e l l i g e n tr e t r i e v a lm o d e lb a s e do no n t o l o g y t oe n h a n c ek n o w l e d g ep r o c e s s i n g c a p a c i t ya n du n d e r s t a n d i n gc a p a c i t yo f t h er e t r i e v a ls y s t e m s e c o n d ,t h r o u g ht h ea n a l y s i so fl i t e r a t u r eo nt b t f i e l da n dt h ea d v i c e so fs o m e e x p e r t s ,d e t e r m i n e df i v et o p l e v e lc o n c e p t so fe l e c t r o n i ci n f o r m a t i o np r o d u c t st b t : e l e c t r o n i ci n f o r m a t i o np r o d u c t s ( t r a d ep r o d u c t s ) ,c o u n t r i e s ( r e g i o n s ) ,r e g u l a t i o n s , s t a n d a r d s ,a n dt h er e a s o n so fb a r r i e r s c o n s t r u c t e de l e c t r o n i ci n f o r m a t i o np r o d u c t s t b t o n t o l o g yl i b r a r yb yp r o t o t y p i n gm e t h o db a s e do nm o d e lo fs p i r a l t h i r d ,p r o p o s e dt h em e t h o do fd o c u m e n tt b t s e m a n t i co n t o l o g y - b a s e di n d e x i n g , a n di n t r o d u c e dt h ec o n c e p to ft h es e m a n t i cv e c t o r , a n do p t i m i z e dc a l c u l a t i o nm e t h o d o ft h eo n t o l o g ys i m i l a r , a n dd e s i g n e dt h ei n t e l l i g e n ts e a r c ha l g o r i t h mo ne x p a n s i o no f q u e r y ;i na c c o r d a n c e 、析t l lt h es p e c i a lr e q u i r e m e n t s o ft h et b tf o r e w a r n i n go f e l e c t r o n i ci n f o r m a t i o np r o d u c t s ,a c c o r d i n gt ot h ed e s i g no fm o d e lw e b g a t h e r , i m p r o v e dt h ei n t e g r a t e dm o d e lo ft e x tc l a s s i f i c a t i o n i nt h ee n d ,t h et h e s i sb u i l tap r o t o t y p ei n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do n d o m a i no n t o l o g y a n dt h r o u g hs o m ee x p e r i m e n t si tp r o v e dt h ev a l i d i t yo ft h i ss e a r c h m o d e l a l s oa i m i n gt h ew o r ka tp r e s e n tt h i sp a p e rb o u g h ts o m el i m i t a t i o na n dg a v e t h ed i r e c t i o no fr e s e a r c hf r o mn o wo n k e yw o r d se l e c t r o n i ci n f o r m a t i o np r o d u c t st b t ;g a t h e r i n gi n f o r m a t i o n g ;i n t e l l i g e n t r e t r i e v a l ;o n t o l o g y i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:匙幽 魄雄 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 虢梆导一獬吼掣 第l 章绪论 1 1 选题背景及意义 第1 章绪论 ( 1 ) 选题背景 随着经济全球化和贸易自由化进程的加快,贸易保护措施发生着重大变化。 现在贸易壁垒以技术壁垒为新兴壁垒形式,具有严重的隐蔽性、广泛性、传播性 等特点,貌似公平的进行,严重阻碍了国际贸易的发展,尤其是加重了发达国家 与不发达国家之间的矛盾,不利于经济发展和社会进步。我国的对外贸易发展尤 其受到了极大阻碍,屡屡受挫。技术性贸易壁垒对我国产品出口的阻碍程度越来 越严重,构建必要的预警模型,积极应对t b t 的不利因素,对促进我国进出口 的发展具有很深的意义。 近年来我国的电子产业飞速发展,其整体规模仅次于美国、日本,居全球第 三位,其中电子信息硬件制造业列世界第二。在信息产品出口贸易中,我国信息 产品2 0 0 3 年超过了日本和欧盟,2 0 0 4 年出口总值取代了美国的领导地位,成为 世界最大的信息产品出口国n ,全球电子信息产业有向中国进一步转移的趋势。 就我国自身来说,电子信息产业已经成为我国第一支柱产业,在全国外贸出口中 继续位列第一,占全国出口总额的3 5 2 ,增速达到2 9 2 口1 。信息产业部发布 的数据显示,0 7 年1 至8 月,全国电子信息产品累计出口额为2 7 6 3 7 亿美元, 同比增长2 6 2 ,占全国外贸出口额的3 6 1 ,对全国外贸出口增长的贡献率达 3 4 5 。然而,贸易的繁荣也伴随着贸易争端的加剧,以t b t ( 贸易技术壁垒) 、 s p s 为核心的隐性、非关税壁垒正在成为我国产品进入欧美市场的“高门槛”。如 欧盟两指令涉及我国近2 0 万种产品,估计直接涉及金额达1 2 2 亿美元。因此, 迫切需要建立有效的预警机制,相对及时准确地获取国外信息,并对对方进口国 将要构成的t b t 壁垒信息做出预测,做到及时检测,提前发现,尽早预警,为 下一步能够采取的应对措施提供强有力的指导。 t b t 检测预警需要大量的情报信息,除了可以充分利用w t o 咨询点得到其 他w t o 成员通报信息外,还要掌握我国主要贸易伙伴宏观经济运行动态,所处 的商业周期阶段,贸易收支、经常项目收支、国际收支等状况和准确了解国外相 关行业和市场的发展动态、行业竞争强度、厂商数量、竞争力状况等情报,这些 数据是动态变化且存在互联网或人际网络中。由于这些数据涉及多个国家、多个 产品,相关文档数据量较大,因此系统要求建立出口国相关出口商品的n 玎文 档数据库并保持实时更新,因此,系统必须具有信息收集、整理和存储的功能。 然而随着i n t e m e t 的高速发展,信息量在成倍的增加,如何自动获取各个相 关w t o t b t 咨询站点的新的t b t 相关文档,获取进口国新的或正在修改的相 北京工业大学管理学硕士学位论文 关技术标准、技术法规和合格评定程序的细节,获取进口国相关行业、企业、机 构和协会的有关信息以及我国产品现行标准信息,如何保证获取到的资料保证实 时性和准确性,以及如何管理这些获取到的资料,这些都是对t b t 信息获取技 术所要研究的。快速、正确和简单明了的获取到t b t 预警信息,将再很大程度 上提高t b t 预警系统的实时、准确、有效性。 ( 2 ) 选题意义 目前互联网上的信息获取研究主要分为信息检索和信息抽取晦1 。所谓信息检 索就是用户提出一个查询,通常以关键字的形式输入,计算机通过关键字匹配,返 回可能有关的文档。用户自己查看文档,获取所需要的信息。这类信息检索,不限 任何领域,可以快速地返回相关的文档,然而信息检索的正确率比较低,用户需要 花大量时间自己查找。信息抽取是为了进一步减轻人工劳动,让计算机帮你去查 找你所需要的特定内容。这就要求计算机具有一定的智能,通过文本分析、语段 分析等过程抽取出用户所需要的内容。信息抽取通常局限于某一领域或某一范 围。 信息获取( i n f o r m a t i o nr e t r i e v a l ) 具有比信息检索更为丰富、更为深刻的内涵, 随着信息获取技术的发展,它也逐渐成为该研究领域的一个新的术语名词1 。信 息获取资源对象范围界定为大型数据库上的文本文档信息和互联网上的w e b 文 档信息。在信息获取领域,信息获取系统的性能和效率问题成为研究和关注的焦 点口3 。信息获取系统性能和效率的优劣,可以通过信息获取速度、信息获取的查 全率和查准率等参数进行评定。 搜索引擎是当前互联网上最常用的信息获取工具,也是在互联网上最先商业 化的一个应用服务,它产生的经济价值非常巨大隅1 。但是,在目前的信息获取中, 由于下面原因使其性能和效率变得十分低下睁1 0 1 。首先,海量信息和非结构化信 息日益增多使得信息的有效管理日益艰难;其次,信息查询者所要表达的真实查 询意图或者文档作者所要表达文档主题的真正含义不能被系统所获知,这种不确 定性被称为语义不确定性;再次,信息获取中,查询模型与文档模型之间相关性 是模糊的、不确定的,这种不确定性被称为相关不确定性。以上两个问题的解决 已经变得日益紧迫,同时也t b t 信息获取急需解决的问题。 本文针对电子信息产品领域及其预警的特点,探讨电子信息产品t b t 信息 获取的一些关键技术,并进行其原型的构建与实现。主要采用本体工程、信息抽 取以及文本过滤去重及分类排序等信息技术与分析方法,进行相关电子信息产品 t b t 信息获取技术的研究,为进行电子信息产品t b t 预警工作提供准确的信息, 使企业、政府能够及早发现警情,及时采取相应对策。 最后我们再将研究成果应用于北京市自然科学基金基于m u l t i a g e n t 的电 子信息产品t b t 预警系统,建立t b t 预警预测系统平台,希望能够为最大限 度地避免外贸出口受进口国t b t 的影响,为最大程度地规避由t b t 造成的经 第1 章绪论 济损失提供理论、技术和方法支持,这对扩大北京的贸易出口,提高本地区企业 的国际竞争力也有相当的促进作用。 1 2 信息获取相关技术研究现状 1 2 1 搜索引擎研究现状 ( 1 ) 搜索引擎发展历史 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大 众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a ne m t a g e 发明的a r c h i e 。虽然当时w r o r l dw i d ew e b 还未出现,但网络中文件传输还是相 当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查询起来非常 不便,因此a l a na r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程 序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查 询。由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除 了索引文件外,已能检索网页。 当时,“机器人 一词在编程者中十分流行。电脑“机器人 ( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不问断地执行某项任务的软件程序。 由于专门用于检索信息的“机器人 程序像蜘蛛一样在网络间爬来爬去,因此, 搜索引擎的“机器入”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联 网发展规模的“机器人 程序是m a t t h e wg - r a y 开发的w o r l dw i d ew e bw a n d e r e r 。 刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。 与w a n d e r e r 相对应,m a n i nk o s t e r 于1 9 9 3 年1 0 月创建了a l i w e b ,它是a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人 程序,而是靠网站主动提交信息来 建立自己的链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此, 在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序工作原理 作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟 踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年底,一些基于此 原理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h ew o r l dw i d ew e b w o r m ( g o t o 的前身,也就是今天o v e r t u r e ) 和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r a s e ) s p i d e r 最负盛名。然而j u m p s t a t i o n 和w w ww o r m 只是以搜索工具在数 据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而 r b s e 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。 北京工业大学管理学硕一卜学位论文 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将 j o h nl e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。同 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致远( g e r r y y a n g ) 共同创办了超级目录索引y a h o o ,并成功地使搜索引擎的概念深入人心。 从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数 百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的g o o g l e , 其数据库中存放的网页已达3 0 亿之巨。 随着互联网规模的急剧膨胀,因此现在搜索引擎之间开始出现了分工协作, 并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的i n k t o m i ,它本 身并不是直接面向用户的搜索引擎,但向包括o v e r t u r e ( 原g o t o ) 、l o o k s m a r t 、 m s n 、h o t b o t 等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属 于这一类( 注) ,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是 搜索引擎的搜索引擎。 现在的搜索引擎技术主要分为三类:基于网页名称的搜索策略,基于网页内 容的搜索策略,元搜索策略。基于网页名称的搜索策略是最早出现的基于w w w 的搜索引擎技术,例如雅虎就属于这一类。雅虎主要通过人工发现信息,依靠专 家来给网站分类。由于信息分类和信息搜集有人的参与,因此其搜索的准确度是 相当高的,但其查全率并不是很好,自动化程度不高。基于网页的搜索策略则是 搜索引擎使用r o b o t 程式,让它在网上存取资料,并自动将资料存入资料库中。 但它存在着一个非常大的缺点,搜索到的记录太多,以致无法精确的找到正确的 资料。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并 将结果返回给用户。 然而目前搜索引擎又面临一系列的挑战,如网络信息量迅猛增加,已经无法 对它们进行有效的分类、索引和利用;简单的关键词搜索,返回的信息量过大, 已经让用户无法承担;网络信息组织的无序性;信息有用性评价困难;网络信息 日新月异的更变;信息媒体的多样化;带宽等其它因素的制约,这些都给因特网 信息的获取造成了极大阻碍。这就给了智能搜索引擎出现的机遇和发展的空间。 ( 2 ) 搜索引擎研究现状 由于现有搜索技术的缺陷,搜索引擎缺乏知识处理和理解能力。把信息检索 从目前基于关键字层面提高到基于知识( 概念) 层面,是解决问题的根本和关键。 智能搜索引擎较之传统的搜索引擎有如下优势:主动性;交互性;智能性; 合作性;个性化。 1 ) 个性化搜索。国外对个性化引擎的研究十分广泛,g l o r i ae p h i l l i p s w r e n , g u i s s e p p ia f o r g i o n n e 陋3 建立了一个面向病人的智能搜索引擎,它通过智能a g e n t 提供了一个信息决策系统以对病人提供各种有效信息,并且用远距离医学来展示 这种搜索引擎的潜在发展。m i r c os p e r e t t a ,s u s a ng a u c h 1 针对用户搜索历史记录 第l 章绪论 研究了个性化搜索,通过代理服务器来获取网络浏览记录和桌面工具来获取用户 在个人电脑上的行为建立用户档案,应用这些档案来对用户提供更加准确,个性 化的服务。国内对个性化的搜索引擎也有一些研究,张卫丰等人提出了个性化代 理系统的结构( p s a ) 们,韩立新等人利用用户的访问模式、类层次结构和多关键 词构造个性化信息检索系统等等m 】。杨炳儒n 2 1 等提出利用w e b 挖掘技术,特别 是用户访问信息挖掘技术,发现用户的访问兴趣,为用户提供个性化的搜索结果。 在发现用户的访问兴趣之后,应用智能代理技术,随时搜索网上相关信息以及监 控信息的更新,然后通过主动推动技术,提供个性化信息服务的框架思想,提出 一种个性化智能搜索引擎的整体框架。 现在的个性化检索的研究存在不足,表现在:不能综合考虑用户的浏览行 为与用户检索页面的内容;对用户多方面兴趣的考虑仍不够;个性化检索的 自动化程度不高,需要利用机器学习技术对用户提供大量的反馈信息进行训练; 不能准确把握用户的信息需求且不能很好地适应用户需求的变化。 2 ) 分布式智能化信息获取方法的研究。研究人员引入分布式系统和a g e n t 的 概念,针对普遍存在的可扩展性、可靠性、可获得性和查询服务智能性关键技术 展开研究,试图构造面向i n t e r n e t 的智能化分布式信息检索系统。l u ,j ,r a h i n a n , u ,c h e n ,h n 引,在基于语义的搜索引擎的概念模型和系统原型的基础上,借助 o n t o l o g y 和智能a g e n t 技术在x m l 网页中用r d f 和d a m l 进行操作,以实现 搜索引擎的语义查询功能。w e i p ol e e ,t s u n g c h et s a i n 铂提出了一个多a g e n t 交 互框架,该系统能够反复收集、分析用户的反馈,逐渐获取用户查询内容的有效 描述。该框架采用了一种进化算法来不断改进查询表述的概念模型。a n i t a f e r r e i r a ,j o h n a t k i n s o n 针对w e b 信息过量问题,利用w e b 使用者和搜索系统的 交互来过滤过量的信息,该过滤算法结合了n l p 方法和智能a g e n t 技术,提出 了采用自然语言的智能搜索a g e n t 。目前这种基于a g e n t 的搜索面临着一些缺陷, 主要是a g e n t 之间的通讯机制及安全标准并不健全,需要统一其标准。 3 ) 基于k d d 方法的智能化信息获取方法的研究。数据挖掘,也称为数 据库中的知识发现k d d ,是近几年来随着数据库和人工智能发展起来的一门新 兴的数据库技术,帮助人们从庞大的目标数据集合中抽取出可信的、新颖的、有 效的并被人们理解的知识。w r e b 挖掘技术主要是对信息分析模块实施改进,挖掘 所搜集资料的深层次信息;w r c b 挖掘分为:w e b 内容挖掘,w e b 结构挖掘,w e b 访问信息挖掘。利用w e b 挖掘技术,可以提高搜索引擎获取信息的准确性,并 可以对用户搜索结果进行相关处理,提高查准率和查全率,可以在智能门户搜索 引擎中的应用: 文档的自动分类:最常用的文档分类方法为朴素贝页斯分类与k - 最邻近 参照分类,前者由于速度快,而适合于在联机模式下创建分类器。 自动文摘的形成:目前只是截取前几句话,不能涵盖文档的内容。 北京工业大学管理学硕十学位论文 检索结果的聚类:z a m i n e 和z t z i o n i 提出了一种利用搜索结果所提供的 信息( 如:u r l 、标题、网页的第一行描述等) 对文档进行聚类的技术。 查询结果的相关度排序:s t a n f o r d 大学研究了p a g e r a n k 算法来计算页面 的p a g e r a n k ,以及相应的w e b 规格化链接矩阵的主特征向量,以此来确定查 询结果的相关度排序。 实现个性化的搜索引擎:目前知识发现领域的研究已经有个许多成果:例 如,s s a n a n d 等开发的m k s ( m i n i n gk e r n e ls y s t e m ) 集成了用于知识发现的基 本数学工具( 如统计学、信息论、证据理论、知识表示、集合操作等) 和几种知 识发现算法( 如分类、关联、强规则归纳等) 。它的i n c a s 系统应用于医学临床 有关的知识发现,提高了治疗效果。陈福集,杨善林n 钉将k d d 的思想和方法引 入w e b 搜索引擎,提出了一种面向用户的检索覆盖面广、质量高的w e b 搜索引 擎框架。对用户提交的查询,通过分析影响因素,优化选择效益好的搜索引擎进 行信息检索,从而充分利用信息资源,挖掘出有效信息。目前的研究成果还存在 以下不足,主要表现在发现的规则的可用性还不理想( 模式和规则中领域知识、 信息不够) 。 4 ) 基于o n t o l o g y 的智能搜索引擎研究。由于本体( o n t o l o g y ) 具有良好的概 念层次、支持逻辑理解,目前应用o n t o l o g y 研究智能搜索也成为了一个发展趋 势。n o r i k ok a n d o ,t e r u h i t ok a n a z a w a ,a k i r am i y a z a w a n 6 1 利用o n t o l o g y 技术建 立了一个信息检索系统j u n i ip l u s ,用来对整个日本大学以及其他科研机构的网 络图书馆的元数据提供导航。j o s ea r o y o ,e d u a r d om e n a & j o r g eb e m a d , a r a n t z ai l l a r r a m e n d i n 7 1 应用语义网和o n t o l o g y 技术,把关键字进行语义化处理, 得到该关键字的同义词,概念的歧义等等,从而在搜索的过程中减少信息丢失。 t a o s h e nl ia n dt i n gh a n 在文献【1 8 】中,在语义网和本体理论的基础上提出了智能 搜索模型,该模型以x m l 作为数据源文件格式,以x m l r d f 来表示知识,以 本体来构建概念模型,将本体作为底层数据集成和搜索过程语义的标准,应用本 体作为人机接口语言。周立柱,林玲n 町采用领域本体表示信息,对网页分析方法 提出了改进,从而提高搜索效率。目前基于o n t o l o g y 的研究国内外都做了大量 研究,但是大部分研究者都只是提出了理论化的研究,对于将o n t o l o g y 真正的 应用到搜索中还存在很大差距,因此此后的研究工作将集中在o n t o l o g y 的实际 应用中,此外,o n t o l o g y 的编制规范以及标准也将是研究热点。 5 ) 基于p 2 p 技术的智能搜索引擎。p 2 p 是p e e r - t o - p e e r 的缩写,意为对等 网络,长久以来,人们习惯的互联网是以服务器为中心,人们向服务器发送请求, 然后浏览服务器回应的信息,而p 2 p 技术的核心就是使联网中各个独立的电脑 能够进行数据交换,实现信息资源的共享,p 2 p 技术使用户能够深度搜索文档, 而且这种搜索无需通过w e b 服务器,也可以不受信息文档格式和宿主设备的限 制,可达到传统目录式搜索引擎( 只能搜索到2 0 3 0 的网络资源) 无可比拟 第l 章绪论 的深度( 理论上将包括网络上的所有开放的信息资源) ,第三代搜索引擎p a n d a n g o 采用的正是p 2 p 对等网络搜索理念。长久以来,如何将搜索结果按照相关性进行 排序一直是困扰搜索引擎技术的一大难题,p a n d a n g o 搜索引擎从一个新的角度 尝试解决了这一问题,即通过大规模检查网络计算机的访问纪录决定搜索结果的 排序顺序( 在搜索的过程中,以点击率为基准,以降序来排列搜索结果) 。h i r o y u l d a n dk a w a n o 开发了日语的w 曲搜索引擎“m o n d o n ( r c a a u ) 系统,该系统 建立在数据挖掘技术基础上,并在文献 2 0 】中探讨了该系统的w e b 存储系统以及 在p 2 p 分布式主题驱动搜索中的应用,提出了存储策略,为p 2 p 提出了基于智 能分类器和蒸馏搜索策略的智能索引机制,目前正在研究系统中挖掘结果的可视 化问题。 6 ) 面向t b t 领域的搜索引擎研究。针对目前搜索引擎的缺陷,根据t b t 预警对信息采集的需要,北京工业大学经济与管理学院开展了面向1 1 3 t 领域的 搜索引擎研究,对当前搜索引擎提出了一系列的改进措施,其中0 3 届孙明口妇提 出了基于a g e n t 和o n t o l o g y 的搜索系统设计,做出了很多的研究,但是孙明 只是简单的提出了基于o n t o l o g y 的研究思路,并未深入研究。0 4 届张占一乜2 1 在 孙明的研究基础之上提出了基于o n t o l o g y 的智能搜索技术的设计,提出了 o n t o l o g y 库的理论及其设计,在一定程度上提高了信息搜索的查全率和准确率。 但是他对t b t 领域本体库的建立还远远不够完备,类别划分不够细,导致,m t 信息获取不够准确等。另外,其对本体库的建立主要还是人为构建,缺乏本体自 动补充和更新机制。 1 2 2 本体在检索领域应用的研究现状 多信息源的信息检索成为o n t o l o g y 的一个重要应用领域,多信息源有很多 的问题,比如,在不同信息源所得到的信息表示不一致,以及得到的信息量非常 巨大,难以处理。因此应用o n t o l o g y 建立一个共享信息的o n t o l o g y 库,可以减 少信息转换的难度,同时还为信息集成提供了统一的模式乜羽。此外,基于关键词 的信息检索已不能满足当前用户对于信息和知识的深度需求,本体由于具有良好 的概念层次结构和对逻辑推理的支持而在信息检索( 特别是在基于知识的检索) 中得到了广泛的应用。 目前国际上应用本体主要项目有:( o n t o ) a g e n t ( a no n t o l o g yb a s e dw w w b r o k e rt os e l e c to n t o l o g i e s ) 、o n t o b r o k e r ( o n t o l o g yb a s e da c c e s st od i s t r i b u t e da n d s e m i s t r u c t u r e di n f o r m a t i o n ) 和s k c ( t h es c a l a b l e k n o w l e d g ec o m p o s i t i o n p r o j e t 0 ,这3 个项目的研究各有侧重。( o n t o ) 2 a g e n t 的目的是帮助用户检索 网上已有的本体,主要采用了参照本体,利用它保存网上现有本体的元数据。而 o n t o b r o k e r 目的是为用户检索到所需要的网页。o n t o b r o k e r 是德国卡尔斯鲁厄大 北京工业大学管理学硕士学位论文 学应用信息学与形式描述方法学院( a i f b ) 的一个研究项目,该项目建立了一个 用来处理h t m l 、x m l 和r d f 格式的信息源和信息源语义描述的系统,其核 心是用形式化本体描述背景知识,并明确网页的语义,以便综合利用本体的表达 能力和推理机制。s k c 是斯坦福大学目前正在进行的一个项目,主要研究如何 用代数学方法来合成不同领域的主体,解决信息系统语义异构的问题,实现异构 的自治系统之间的互操作。 国内研究o n t o l o g y 虽然比较晚,但是有很多人对此做了大量的工作。万捷1 等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文 档分析器对检索文档进行过滤,因此增加了检索结果的准确性,更加符合用户的 检索需求。徐振宁口4 3 等人则把本体作为信息检索系统的核心,通过构造形式化的 领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互 联网上半结构化数据和关系数据库提供了统一的语义模型。武成岗瞳钉等人也提出 了基于本体和多智能主体的信息检索服务器,该系统利用本体协助智能主体对网 络上的各类信息进行领域分类,并规范用户信息检索的模式,由于仅提供给用户 所关注领域的资源索引,因而检准率较高。 1 2 3 文本分类及排序技术研究现状 二十世纪九十年代以来,随着信息存储技术和通信技术的迅猛发展,大量的 文字信息开始以计算机可读的形式存在,而且其数量每天仍在急剧增加。在这种 情况下,基于机器学习的文本分类逐渐取代了基于知识工程的方法,成为文本分 类的主流技术。贝叶斯分类器啪1 、支撑向量机( s v m ) 四1 、自组织映射( s o m ) 汹3 、 粗糙集啪1 、k 近c g ( k n n ) 汉卜3 1 1 、决策树2 1 、关联规则羽、分类器集成泓3 以及向量 相似度等模型得到了广泛应用。这些方法大致可以分为三大类:基于统计模型的 方法( 如贝叶斯分类器、k n n 、向量相似度等) 、基于连接的方法( 如s o m ) 和基于 规则的方法( 如决策树、关联规则等) 。它们之间的主要区别在于规则获取方法。 典型的文本分类模型如图1 1 所示。文本分类模型由训练模块和分类模块构 成。在训练模块中,首先对训练文本进行预处理得到文本表示,然后利用文本表 示训练分类器,最后根据测试结果进行性能评测。在分类模块中,首先将测试文 本进行预处理得到文本表示,再经分类器分类,最后得到测试文本所属的类别、 即分类决策。 图1 1 典型的文本分类模型 f i g u r e1 - 1t e x tc l a s s i f i c a t i o nm o d e l 国外这方面的研究成果相对要多,具有代表性的是对g o o g l e 排序算法的研 究,其中尤以对p a g e r a n k 及其i - i r r s 相关研究居多。比较成熟的算法有: 词频和位置加权排序算法; ( 窑) d i r e e t h i t 算法; a l e x a 的网站排名算法; g o o g l e 的排序算法; 开源搜索引擎,如l u c e n e 的排序思想。 s e r g e yb r i n 嘲等人提出p a g e r a n k 算法开启了链接分析研究的热潮。基于链 接分析的算法,提供了一种衡量网页质量的客观方法:独立于语言,独立于内容:无 需人工干预就能自动发现w e b 上的重要资源,挖掘出w e b 上的重要信息,自动实 现文档分类排序。h i l l t o p 算法的指导思想与p a g e r a n k 是一致的,即通过链接的 数量和质量来确定搜索结果的排序权重。与p a g e r a n k 不同的是,在h i l l t o p 中仅 考虑那些专家页面( e x p o r ts o u r c e s ) ,即专门用于引导人们浏览资源的页面。 k l e i n b e r g 提出h i t s ( h y p e r t e x t i n d u c e dt o p i cs e a r c h ) 算法,实验数据表明, h i t s 的排名准确性要比p a g e r a n k 高。但是h i t s 最大的问题在于它是一个依赖 于查询关键字的算法,在线运算量大,极大地影响了算法的可伸缩性,从而难以应 用于大规模的网页数据。p a g e r a n k 算法是基于用户随机的向前浏览网页的直觉 知识,h i t s 算法考虑的是a u t h o r i t y 网页和h u b 网页之间的加强关系。基于上述 直觉知识,r l e m p e l 和s m o r a n 提出了s a l s a ( s t o c h a s t i ca p p r o a c hf o r l i n k - s t r u c - t u r e a n a l y s i s ) 算法。该算法考虑了用户回退浏览网页的情况,保留了 p a g e r a n k 的随机漫游和h i t s 中把网页分为a u t h o r i t y 和h u b 的思想,取消了 a u t h o r i t y 与h u b 之间的相互加强关系。d c o h na n d h c h a n g 提出了计算h u b 和 北京丁业大学管理学硕士学位论文 a u t h o r i t y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于就业导向的高校管理模式研究
- 排水管道疏通维修规程
- 石油工程作业指导书
- 心脏搭桥术后护理个案
- 施工现场消防设施操作和维护保养规程
- 冷冻干燥机检修规程
- 2026年卫生应急物资管理培训试题及答案
- 康复医学考试题及答案
- 2026年福州市鼓楼区网格员招聘笔试参考试题及答案解析
- 2026年鄂州市鄂城区网格员招聘笔试备考题库及答案解析
- 9.2《项脊轩志》课件+2025-2026学年统编版高二语文选择性必修下册
- 自然地理学(伍光和版)第五章地貌
- 25道中国邮政集团邮政数据分析师岗位常见面试问题含HR常问问题考察点及参考回答
- 天津市人教版七年级下册期中生物期中试卷及答案
- 工商企业管理专业案例分析报告
- 2023年瑞安中学自主招生综合测试数学试卷
- 教师语言与沟通艺术智慧树知到答案章节测试2023年温州大学
- 《小白如何写短视频脚本》
- GB/T 19068.1-2017小型风力发电机组第1部分:技术条件
- GB/T 17359-2012微束分析能谱法定量分析
- 公司付款委托书 模板
评论
0/150
提交评论