(计算机软件与理论专业论文)deep+web数据源分类研究.pdf_第1页
(计算机软件与理论专业论文)deep+web数据源分类研究.pdf_第2页
(计算机软件与理论专业论文)deep+web数据源分类研究.pdf_第3页
(计算机软件与理论专业论文)deep+web数据源分类研究.pdf_第4页
(计算机软件与理论专业论文)deep+web数据源分类研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)deep+web数据源分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

? 、 j 本人郑 立进行研究 包含任何其 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:j 室丕 日期:兰! ! ! :丝 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:j 兰尘导师签名: f 珍7 r 机 , 声 ( e t 期:呈竺! ! 丝 ,b,l、11恐 7 i , ,卜 - - 。一 山东大学硕士学位论文 詈皇詈詈詈e 詈詈詈詈詈詈詈詈詈詈暑詈! 詈詈詈詈詈皇暑詈詈皇詈詈詈= 詈詈詈暑! ! 皇! 詈詈詈皇詈皇曼! 詈! 詈暑詈詈皇詈詈詈皇詈皇詈! 詈鼍 目录 摘要i a b s t r a c t 第一章绪论1 1 1 研究背景1 1 2 国内外研究现状3 1 3 主要工作及创新点5 1 3 1 主要工作5 1 3 2 创新点6 1 4 本文组织结构6 第二章d e e pw e b 数据源聚类8 2 1 基本知识8 2 1 1 聚类算法8 2 1 2 特征选择方法1 0 2 2 查询接口特征的提取1 2 2 2 1 页面表单模型1 2 2 2 2 页面特征的提取o 1 2 2 2 3 表单特征的提取一1 6 2 3 预处理1 7 2 3 1 标准化1 7 2 3 2 语义处理18 2 4 改进的聚类算法d w k - m e a n s 1 9 2 4 1 相关知识1 9 2 4 2 算法分析和描述2 1 2 5 实验分析2 4 2 5 1 评价标准2 4 2 5 2 实验过程2 5 山东大学硕士学位论文 2 5 3 实验评价2 7 2 6 本章小结2 8 第三章d e e pw e b 数据源分类2 9 3 1 基本知识2 9 3 1 1 分类方法2 9 3 1 2 本体3 4 3 2 本体构建3 6 3 2 1 相关工作3 6 3 2 2 领域词语判定3 7 3 2 3 扩展本体3 8 3 2 4 本体更新3 9 3 3 改进的分类算法d w c 4 5 4 0 3 3 1 相关知识4 0 3 3 2 权重计算4 2 3 3 3 算法分析和描述4 3 3 4 实验分析4 5 3 4 1 实验过程4 5 3 4 2 实验评价4 6 3 5 本章小结4 7 第四章总结与展望4 8 参考文献4 9 致i 射5 3 攻读学位期间发表的学术论文目录5 4 l f , f, , e f , 一 山东大学硕士学位论文 t a b l eo fc o n t e n t s a b s t r a c ti nc h i n e s e i a b s t r a c ti ne n g l i s h c h a p e r t1e x o r d i u m 1 1 1r e a s e a r c hb a c k g r o u n d 1 1 2c u r r e n ta c t u a l i t y 3 1 3m a i nw o r k sa n di n n o v a t i o n s 5 1 3 1m a i nw o r k s 5 1 3 2i n n o v a t i o n s 6 1 4o r g a n i z a t i o ns t r u c n l r e 6 c h a p t e r2d e e pw e b d a t as o u r c e sc l u s t e r i n g 8 2 1b a s i ck n o w l e d g e 8 2 1 1c l u s t e r i n ga l g o r i t h m s 8 2 1 2f e a t u r es e l e c t i o nm e t h o d s 一1 0 2 2e x t r a c t i o no fq u e r yi n t e r f a c ef e a t u r e s 1 2 2 2 1p a g e f o r mm o d e l 1 2 2 2 2e x t r a c t i o no fp a g ef e a t u r e s 1 2 2 2 3e x t r a c t i o no f f o r mf e a t u r e s 一1 6 2 3p r e p r o c e s s i n g 1 7 2 3 1s t a n d a r d i z a t i o n 1 7 2 3 2s e m a n t i cp r o c e s s i n g 1 8 2 4a ni m p r o v e dc l u s t e r i n ga l g o r i t h md w k - m e a n s 1 9 2 4 1r e l e v a n tk o n w l e d g e 1 9 2 4 2a n a l y s i sa n dd e s c r i p t i o no f t h ea l g o r i t h m 2 1 2 5e x p e r i m e n t a la n a l y s i s 2 4 2 5 1e v a l u a t i o nc r i t e r i a 2 4 2 5 2e x p e r i m e n t a lp r o c e s s 2 5 山东大学硕士学位论文 2 5 3e x p e r i m e n t a le v a l u a t i o n 2 7 2 6s u m m a r y 2 8 c h a p e r t3d e e pw e b d a t as o u r c e sc l a s s i f i c a t i o n 2 9 3 1b a s i ck n o w l e d g e 2 9 l 3 1 1c l a s s i f i c a 矗o nm e t h o d s 2 9 3 1 2o n t o l o g y 3 4 3 2o n t o l o g yc o n s t r u c t i o n 3 6 3 2 1r e l e v a n t 、r k s 3 6 3 2 2e s t i m a r i o no f d o m a i nw o r d s 3 7 3 2 3e x p a n s i o no f o n t o l o g y 3 8 3 2 4o n t o l o g yu p d a t e 3 9 3 3a ni m p r o v e dc l a s s i f i c a t i o na l g o r i t h md w c 4 5 4 0 3 3 1r e l e v a n tk o n w l e d g e 4 0 3 3 2w e i g h tc o m p u t i n g 4 2 3 3 3a n a l y s i sa n dd e s c r i p t i o no f t h ea l g o r i t h m 4 3 3 4e x p e r i m e n t a la n a l y s i s 4 5 3 4 1e x p e r i m e n t a lp r o c e s s 4 5 3 4 2e x p e r i m e n t a le v a l u a t i o n 4 6 3 5s u m m a r y 4 7 c h a p t e r4s u m m a r i z a t i o na n dp r o s p e c t 4 8 r e f e r e n c e s 4 9 a c k n o w l e d g e m e n t s 5 3 p a p e r sp u b l i s h e d 5 4 ;鼻, 一 i j i 东大学硕士学位论文 摘要 随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积 累。目前整个w e b 信息量已经超过了2 0 0 ,0 0 0 t b ,且随着人们业务的不断深入 和发展仍将不断增长。为了利用这些资源,尤其是d e e pw e b 资源,学界引入了 d e e pw e b 数据集成问题的研究。而d e e pw e b 数据源的分类作为d e e pw e b 数据 集成中的重要环节,需要更多关注和研究。 d e e pw e b 数据源分类有两种常用方法:预查询方法和提交查询方法。预查 询方法为基于d e e pw e b 查询接1 2 特征进行的分类,而提交查询方法则是在提交 查询后,针对返回的查询结果内容进行的分类。由于提交查询工作量和网络占用 过大,对结果操作费时,因此本文以查询接口为突破口,通过预查询的方法来进 行数据源的分类。当前的主要问题是:在d e e pw e b 数据源分类中,如何将待分 类数据源与数据源所在领域的知识结合起来,如何选用或改进聚类、分类算法等。 这些方面都需要进行相应的研究和扩展,以使得分类效果更好。 本文要解决的问题主要包括两部分:海量数据源的聚类和新发现数据源的分 类。为了解决这两个问题,使用了同义词词典以及本体,并且对现有的相关算法 进行了改进,使之更好地进行数据源分类。 简要说来,本文的主要贡献和创新如下: 1 提出改进的聚类算法d w k m e a n s 。本文基于页面表单模型,提出对页面 进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。之后进行 预处理,包括特征标准化以及利用同义词词典进行的语义处理。最终使用改进的 聚类算法d w k - m e a n s 进行聚类。之所以要改进k - m e a n s 聚类算法,是由于该算 法会产生疏松的簇,或者有些簇为相同领域,需要继续归入为一类。在 d w k m e a n s 算法中进行了后处理,以此分解疏松簇,并根据超链接进行同领域 簇的合并。实验发现:通过预处理,提高了聚类效果,而d w k - m e a n s 算法克服 了前面所述的缺点,最终取得了较好的聚类效果。 2 提出基于本体的分类算法d w c 4 5 。对d e e pw e b 数据源聚类后,为了对 新发现的d e e pw e b 数据源进行分类,本文提出了新的处理方法。首先建立本体, 山东大学硕+ 学位论文 然后根据由本体确定的各个属性的权重建立决策表。由于c 4 5 算法抗噪性较差, 为了在d e e pw e b 分类中产生更佳的决策树,引入粗糙集方法来改进c 4 5 算法。 实验发现:通过建立本体,可以有效区分领域概念,处理各属性间语义关系。基 于本体,采用改进的分类算法d w c 4 5 取得了较好的分类效果。 关键词:d e e pw e b 数据源分类;同义词词典;本体:k - m e a n s ;d w k - m o a n s ; c 4 5 :蹦c 4 5 n , e s p e c i a l l yt h ed e e pw e br e s o u r c e s ,a c a d e m i ci n t e r e s t si n t r o d u c et h er e s e a r c ho nd e e p w e bd a t ai n t e g r a t i o n d e e pw e bd a t as o u r c e sc l a s s i f i c a t i o n ,a st h ei m p o r t a n tp a r ti n d e e pw e bd a t ai n t e g r a t i o n ,n e e d sf u r t h e rc o n c e n t r a t i o na n ds t u d y t h e r ea r et w oc o m m o nm e t h o d st oc l a s s i f yd e e pw e bd a t as o u r c e s ,w h i c ha r e p r e q u e r ya n dp o s t q u e r y p r e q u e r yc l a s s i f i e sd a t as o u r c e sb a s e do nd e e pw e bq u e r y i n t e r f a c ef e a t u r e s p o s t q u e r yc l a s s i f i e sd a t as o u r c e sb a s e do nq u e r yr e s u l t s ,w h i c ha r e r e t u r n e da f t e rq u e r yw a ss u b m i t t e d b e c a u s ep o s t q u e r yc a u s e sh u g ew o r k l o a da n d n e t w o r ko c c u p a n c ya n di st i m e c o n s u m i n gi no p e r a t i n gr e s u l t s ,t h i sp a p e rt a k e sq u e r y i n t e r f a c ea s t h eb r e a k t h r o u g ha n dc o n d u c t st h es t u d yb ym e a n so ft h ep r e - q u e r y a p p r o a c h c u r r e n tp r o b l e m sa r em a i n l ya b o u th o w t oc o m b i n et h ed a t as o u r c e sr e a d y 幻b ec l a s s i f i e dw i t hi t sd o m a i nk n o w l e d g ea n dh o wt os e l e c to ri m p r o v et h e c l u s t e r i n ga n dc l a s s i f i c a t i o na l g o r i t h m s a l lt h e s ef i e l d ss h o u l db er e s e a r c h e da n d e x t e n d e di no r d e rt om a k eb e t t e rc l a s s i f i c a t i o n i nt h i sp a p e r ,t h e r ea r et w op r o b l e m st ob es o l v e d , w h i c ha r et h em a s s i v ed a t a s o u r c e sc l u s t e r i n ga n dc l a s s i f i c a t i o no fn e w l yd i s c o v e r e dd a t as o u r c e s c o m b i n e dw i t h t h e s a u r u sd i c t i o n a r ya n do n t o l o g y ,r e l e v a n ta l g o r i t h m sa r em o d i f i e di no r d e rt o c l a s s i f yd a t as o u r c e sb e t t e r b r i e f l ys p e a k i n g ,t h em a i nc o n t r i b u t i o n sa n di n n o v a t i o n so ft h i sp a p e ra r el i s t e d a sf o l l o w s 1 a ni m p r o v e dc l u s t e r i n ga l g o r i t h md w k - m e a n si sp r o p o s e d b a s e do nt h e p a g e f o r mm o d e l ,i ti sn e c e s s a r yt o e x t r a c tt h ef e a t u r e so ft h ec o n t e n tt e x ta n d h y p e r l i n k s ,a n dr e g u l a t et h ef e a t u r ee x t r a c t i o no nt h ef o r ma tt h es a m et i m e a f t e r i i i 山东大学硕士学位论文 p r e p r o c e s s i n g ,w h i c hi n c l u d e ss t a n d a r d i z a t i o no ff e a t u r e sa n ds e m a n t i cp r o c e s s i n g w i t ht h e s a u r u sd i c t i o n a r y ,t h ei m p r o v e dk - m e a n sc l u s t e r i n g a l g o r i t h mi su s e dt o c l u s t e rd a t as o u r c e s t h er e a s o nw h yk - m e a n si si m p r o v e di st h a ti tw i l lp r o d u c e l o o s ec l u s t e r s ,o rs o m ec l u s t e r sp r o d u c e db e l o n gt ot h es a m ed o m a i n ,w h i c hn e e dt o b ei n c l u d e di nt h es a m ec a t e g o r y s e q u e n t i a l l y p o s t p r o c e s s i n gi si n t r o d u c e dt os p l i t l o o s ec l u s t e r sa n dm e r g ec l u s t e r s b e l o n g i n gt ot h es a m ed o m a i na c c o r d i n gt o h y p e r l i n k si nd w k - m e a n sa l g o r i t h m e x p e r i m e n t sr e v e a lt h a tp r e p r o c e s s i n gi su s e f u l i ni m p r o v i n gc l u s t e r i n g p e r f o r m a n c ea n dd w k - m e a n sa l g o r i t h mc a no v e r c o m e f o r e g o i n gd r a w b a c k sa n df i n a l l yl e a dt ob e t t e rc l u s t e r i n gr e s u l t s 2 ac l a s s i f i c a t i o na l g o r i t h mb a s e do no n t o l o g yc a l l e dd w c 4 5i s p r o p o s e d a f t e rc l u s t e r i n gt h ed e e pw e bd a t as o u r c e s ,t h i sp a p e rp r o p o s e san e wm e t h o dt o c l a s s i f yn e w l yd i s c o v e r e dd e e pw e bd a t as o u r c e s i ti sn e c e s s a r yt ob u i l dd e c i s i o n t a b l ea c c o r d i n gt ot h ew e i g h to fe a c ha t t r i b u t e s u b je c tt oo n t o l o g y s i n c ec 4 5 a l g o r i t h mi sw e a ki nt h ef u n c t i o n o fa n t i - n o i s e ,r o u g hs e ti si n t r o d u c e dt oi m p r o v e c 4 5i no r d e rt op r o d u c eb e t t e rd e c i s i o nt r e ei nd e e pw e b c l a s s i f i c a t i o n e x p e r i m e n t s s h o wt h a ti ti su s e f u li nd i f f e r e n t i a t i n gd o m a i nc o n c e p t sa n dp r o c e s s i n gs e m a n t i c r e l a t i o n s h i p sa m o n ga t t r i b u t e sb yb u i l d i n go n t o l o g y ,a n dt h ei m p r o v e dc l a s s i f i c a t i o n a l g o r i t h md w c 4 5b a s e do no n t o l o g yl e a d st ob e t t e rc l a s s i f i c a t i o nr e s u l t s k e y w o r d s :d e e pw e bd a t as o u r c e so l a s s i f i c a t i o n :t h e s a u r u sd i c t i o n a r y ; o n t o i o g y :k - m e a n s :d w k - m e a n s :0 4 5 :d w c 4 5 一 一 , 山东大学硕士学位论文 第一章绪论 根据文献【1 】的估计,w e b 上大约有4 5 0 ,0 0 0 个可访问的d e e pw e b 数据库, 而且其数目正在以指数级快速增长。因此,如何利用d e e pw e b 数据集成来实现 对这些d e e pw e b 数据源的信息获取和有效利用成为一个迫切需要解决的问题。 而数据源分类作为d e e p w e b 数据集成的重要环节,是目前国内外研究的热点。 1 1 研究背景 随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生,并 且随着人们业务的不断深入和发展仍在飞速增长。人们要在海量的w e b 信息中 发现和利用相关信息,就必须进行此方面的综合分析和研究。目前,在互联网上, w e b 信息的载体多种多样,有文字、图表、视频、音频等多种信息形式。由于 其种类多样,相应的各自总量和规模也就参差不齐。而且,由于互联网是个开放 的全球互联平台,各个w e b 数据源的选择、实施、架设和内容更是复杂繁多。 这些因素导致了现实生活中互联网上的w e b 数据源的动态性和异构性。因此, 如何有效得获取和利用w e b 信息以及其潜在的知识,成为当前极具研究价值的 一项课题,需要进一步的研究和拓展。 当前研究认为,按照w e b 中所涵盖的信息的深度,可以将w e b 划分为s u r f a c e w e b 和d e e pw e b 。在此,所谓的s u r f a c ew e b 是指可以通过超链接被传统搜索 引擎索引到的静态网页的集合。而随着w e b 资源的不断深入发展,出现了某些 信息,这些信息是由后台w e b 数据库动态产生的,无法被网络爬虫( c r a w l e r ) 捕 获到,这就造成了搜索引擎无法搜到这些页面信息的情况。要想获取这些信息, 就必须通过查询接口表单的方式提交查询来获取。这一过程如图1 - l 所示。由于 这些页面是由数据库动态把结果返回给用户产生的,无法通过超链接指向它们, 也就是隐藏的,因此称为d e e pw e b 。同时,我们把可以在线访问的数据源称为 d e e pw e b 数据源。 为了深入了解d e e pw e b ,2 0 0 0 年7 月,b r i g h t p l a n e t l 2 1 宏观统计了d e e pw e b , 之后发布了关于d e e pw e b 的白皮书,其统计要点即为以下几个方面: 山东大学硕士学位论文 图卜1d e e p w e b 访l 司过程 ( 1 ) d e e pw e b 数据库中所存储的公共信息量是w o r l dw i d ew e b 中的信息量 的4 0 0 5 5 0 倍。 ( 2 ) 平均来说,d e e pw e b 网站每月信息的访问量比s u r f a c ew e b 网站的访问 量要高出大约5 0 左右,并且较之更大可能被访问到。 ( 3 ) d e e pw e b 中的内容超过5 0 是特定于某个领域的,这充分说明了其具有 较高的领域专一性。 ( 4 ) d e e pw e b 覆盖了现实世界中的各个领域,比如商业,教育,金融等各个 0 方面。更重要的一点是,d e e pw e b 上9 5 的信息是可以公开自由访问的,无需 付费和订制。 而之后,u i u c 大学( u n i v e r s i t yo fi l l i n o i sa tu r b a n a - c h a m p a i g n ) 在2 0 0 4 年4 月对d e e pw e b 进行了更为准确的估算,概括起来就是:w e b 上有3 0 7 ,0 0 0 个可以 提供d e e pw e b 数据库的网站,4 5 0 ,0 0 0 个d e e pw e b 数据库,其信息量超过 7 ,5 0 0 t b 。可以看出:d e e pw e b 数据库相比于b r i g h t p l a n e t 在2 0 0 0 年统计时的统 计数字,整整增加了6 倍多。这些调查结果不仅反映了d e e pw e b 的不断发展和 膨胀的状况,同时也证明了其应用的广泛性和研究的紧迫性。 因此,我们可以说:d e e pw e b 由于其信息量大、主题专一、信息质量好, 适合进行相应的信息获取和利用。而在现实中,由于d e e pw e b 信息的规模以及 业务变化快速,分布广泛复杂等原因,要想较好的实现其数据集成,需要做出很 多工作。而要在海量的d e e pw e b 中实现d e e pw e b 数据集成,首先需要做的是- 数据源发现,其次就是对这些数据源进行分类。而如何摆脱手工方式的桎梏,对 各个数据源分门别类,规划所属领域,从而进行资源的统一和整合,一直是当前 疋 专家学者的研究热点。 2 山东大学硕士学位论文 在针对d e e pw e b 的具体研究中,主要研究通过填写表单来形成对后台在线 数据库的查询而得到动态页面这种情况。这是因为由于大部分d e e pw e b 数据集 成的研究专注于结构化数据。因此,我们以表单,也就是结构化查询接口作为对 数据源分类的重要依据。在d e e pw e b 数据源分类问题上,如何根据d e e pw e b 结构化查询接口来确定d e e pw e b 数据源所属的领域,并将之进行分类,从而支 持进一步的d e e pw e b 数据集成,具有非常重要的应用价值。 1 2 国内外研究现状 国外对d e e pw e b 的研究只有l o 多年的时间。1 9 9 4 年,d r j i l le l l s w o r t h 提 出了隐形网( i n v i s i b l ew e b ) 的概念,即不可见网。就是指那些由普通搜索引擎难 以发现其信息内容的w e b 页面,但在当时并没有得到足够重视。而真正的对于 d e e pw e b 的研究则开始于1 9 9 8 年,l a w r e n c e 和g i l e s 这两位美国信息管理专家 提出了开发隐形网信息资源的构想。 直到2 0 0 0 年,b r i g h t p l a n e t 公司首创了“d e e pw e b ”术语,用它来表述那些 将信息内容存贮在检索数据库中而仅仅响应直接查询提闯的网站。由此开始,出 现了大量研究论文及研究成果,并迅速引发了各界热烈的讨论。也带来了学界对 于d e e pw e b 的百家争鸣,截至目前相关研究也没有达成共识。 2 0 0 1 年,c h r i s ts h e r m a n 和g a r yp r i c e 将d e e pw e l ) 定义为:虽然通过互联 网可以获取,但传统的搜索引擎由于受技术限制而不能或经过慎重考虑后不愿意 作索引的那些文本页、文件或其它通常是高质量、权威的信息。 由于d e e pw e b 包含的信息内容质量好、价值高,这就吸引了信息供应商和 信息服务商对它的强烈关注。各大搜索引擎均发展了其搜索技术以提高竞争力。 2 0 0 4 年2 月底,g o o g l e 声称其搜索数据库收录了6 0 亿个页面,一周之后,y a h o o l 网站介绍了其最新的“内容获取项目 ,试图通过接触大约1 0 0 亿到1 0 0 0 亿个 “d e e pw e b 页面,证明其搜索覆盖的全面性和有效性。但它只是通过手工组 织的方式对w e b 数据库进行了领域层次的划分,将之构建到y a h o o ! 1 i k e 层次 化分类模式中。 目前已经有了一些d e e pw e b 门户网站对w e b 数据库做了手工的收集,比 如c o m p l e t e p l a n e t 、i n v i s i b l e w e b 、t u r b o l 0 等。但它们也只收集了整个d e e pw e b 山东大学硕士学位论文 的小部分,即使宣称目前最大的d e e pw e b 仓库的c o m p l e t e p l a n e t ,它收集的w e b 数据库数量也只有整个d e e pw e b 的15 左右。 d e e pw e b 信息由于只能以查询接口作为w e b 数据库访问的唯一入e l ,因此 用户必须在查询接口上填写好表单,提交查询,通过数据库的反馈来获取查询结 果。目前针对d e e pw e b 的结构化数据,通常采用两种方法来进行数据源分类【3 i , 它们是预查询方法i f r e - q u e r y ) 和提交查询方法( p o s t - q u e r y ) 。预查询方法就是根据 表单和包含表单的页面进行分析,而提交查询方法就是提交一个或多个查询,根 据结果页面来对数据库进行分类。 提交查询方法基于关键字查询,利用探测技术对查询的结果进行检验,用来 验证结果所属的类别或领域。h e d l e y 利用文档采样的方法获得数据库摘要,通 过摘要与预定义概念集合的相似程度来实现领域的划分1 4 1 。但要看到,这种方法 难以用于结构化多属性接口分类中,因为目前的自动化填写结构化查询表单比较 困难,无法实时使用搜索引擎技术来进行查询匹配结果的分类。 预查询方法由于依赖于查询表单中的可视化特征,因此在分类时需要基于表 单的模式属性进行相应分类。b h e 首次提出了一种基于结构化查询接口模式特 一 征实现d e e pw e b 数据源聚类的方法,将模型区分度作为聚类目标函数,实现了 区分最大化。而文献【5 】则针对e - c o m m e r c e 中的w e b 数据库提出了一种聚类算法, 一 该算法利用了查询接口所在页面上的特征信息,譬如标志商品种类特征的信息进 行数据库分类,最终实验结果显示其p r e c i s i o n 和r e c a l l 均达到9 0 以上。同样, 文献【6 】则利用查询接e l 模式信息提出了将查询接口的模式信息作为d e e pw e b 数据源分类的依据。2 0 0 7 年,b a r b o s a l 等人提出用包含表的w e b 网页的文本内 容和表的标记词来一起参与对网页的聚类【7 1 ,最终加强对数据库聚类的准确性, 该方法被命名为上下文感知的表聚类法,即为c o n t e x t a w a r ef o r mc l u s t e r i n g 。它 的核心思想就是要把包含数据库表的网页中的文本信息作为数据库内容的上下 文。但是该方法只是将表的标记和h t m l 中全部词的文本用向量表示,若其中 包含噪声,则会严重影响聚类效果,同时它也缺乏对属性标记词的语义分析。 目前国内对于d e e pw e b 数据集成的研究尚处于起步阶段,而d e e pw e b 数 据源的分类研究由于其研究目前尚未成熟,大多在理论上进行了分析和改进。 ; 2 0 0 6 年,苏州大学赵朋朋等人提出基于查询接口特征的d e e pw e b 数据源自砖 动分类f 引,在文中首先要提取查询接口的特征,并将之标准化,随后使用c 4 5 4 山东大学硕士学位论文 决策树分类算法来对数据源进行分类,取得了较高的查全率和查准率。为了推动 d e e pw e b 数据集成在国内的发展,软件学报于2 0 0 8 年2 月发表了d e e pw e b 数据集成的专刊,汇聚了国内研究者的最新研究成果。其中马军教授等人的论文 基于网页上下文的d e e pw e b 数据库分类 9 1 采用分层模糊集合对给定学习实 力所发现的领域和语言知识进行表示和基于这些知识对标记词归一化。在这些预 处理之后,给出了改造的k n n ( k n e a r e s tn e i g h b o r s ) 分类算法,最终解决了噪声 和同义词的问题。而2 0 0 9 年,中南大学的金灵芝对于d e e pw e b 数据源自动分 类的研究【1 0 】,针对大部分结构化的d e e pw e b 数据,使用朴素贝叶斯分类的方法, 通过非提交的方法,在没有考虑通过查询进行分类的情况下,最终进行实验证明 了其有效性。 总而言之,目前的大多数d e 印w e b 数据源分类都集中于对查询接口的分类 研究中,将来的关注重点可以集中在对查询接口的内容和语义特征上。因此需要 继续进行研究,以提高分类的精度,拓展其适用性。 可以看到:d e e pw e b 数据源分类的研究仍有许多路要走。在d e e pw e b 数 据源分类中,如何将待分类数据源与数据源所在领域的知识结合起来,如何选用 或改造聚类、分类算法等,这些方面都需要进行相应的研究和扩展,以使得分类 效果更好。 1 3 主要工作及创新点 1 3 1 主要工作 在本文中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论