(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf_第1页
(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf_第2页
(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf_第3页
(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf_第4页
(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(通信与信息系统专业论文)网络教育资源的web挖掘和标准化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 在我国,网络教育发展迅速,其中,网络建设是基础,资源建设是核心。网络 教育资源是实施网络教育的关键问题之一,是实施网络教学、考试、学习内容管理 和其它相关管理的基础。但是,我国网络教育资源建墁r f i 存在着诸多问题,例如, 网络教育资源纷繁复杂、大量低水平重复丌发;获取缺乏智能:缺乏统一的标准等。 针对这些问题,本论文着重对网络教育资源的获取、分类和标准化描述模型进行了 研究。在比较了传统的网络教育资源获取方法的基础上,将数据挖掘技术引入到网 络教育领域,以网络教育资源标准化为宗旨,充分考虑网络教育资源的特征,结合 现有网络数据的特点,综合运用w e b 文本挖掘、特征化和标准化描述等理论和技术, 从网络上获取高质量的网络教育资源,并将其分类和标准化,以达到网络教育资源 的高水平、标准化和便于检索的目的。 首先,在分析了w e b 挖掘技术和任务分类的基础上,提出了网络教育资源的 w e b 文本挖掘模型及其相应的算法,有针对性的将数据挖掘技术应用到网络教育领 域,帮助在网络上获取高品质的网络教育资源,一定 基度i :解决了网络教育资源获 取缺乏智能的问题。其次,结合网络教育资源自身的属性特抓,捉l 了网络教育资 源的特征化模型和相应的面向属性的归纳算法,将网络教育资源进行有效的、标准 化的分类。然后,通过分析国内外学习对象元数据标准,提出了适合网络教育资源 的标准化描述模型及其x m l 绑定,将网络教育资源标准化,提高其可共享性和可 重用性。最后,应用上述模型,定义和设计了网络教育资源w e b 挖掘和标准化虑用 系统,通过该系统获取、分类和标准化网络教育资源。 实验结果表明了该系统方案的合理性、可行性和适用性,促进了优质网络教育 资源的获取和传播。 本论文工作对于推动我国网络教育资源的标准化具有重要的意义。论文所采用 的思想方法也可以被网络教育领域所应川。 关键词:网络教育资源:标准化;w e b 文本挖掘;学习对象元数据;向最空洲模捌 中国网络教育技术标准:数据概化 华中科技大学硕士学位论文 a b s t r a c t i no u rc o u n t r y , e l e a r n i n gh a sar a p i dd e v e l o p m e n t r e s o u r c eo fe - l e a r n i n gi soneo f t h es i x t y f o u r - d o l l a rq u e s t i o n st ob r i n ge l e a r n i n gi n t oe f f e c t h o w e v e r , n o wt h e r ea r e m a n yp r o b l e m si nt h er e s o u r c ec o n s t r u c t i o n f o re x a m p l e s ,al o to fc o m p l e xl o w l e v e l r e s o u r c e sa n dl a c k o fi n t e l l i g e n c ea n ds t a n d a r d i z a t i o n s t os o l v et h e s ep r o b l e m s ,t h e r e s e a r c hw o r km a i n l yf o c u so nt h ea c q u i r e m e n to fe - l e a r n i n gr e s o u r c e s ,t h ec l a s s i f i c a t i o n a n dt h es t a n d a r d i z a t i o nd e s c r i p t i o nm o d e l i no r d e rt og a i nt h eh i g h l e v e l ,s t a n d a r d i z e d e - l e a r n i n gr e s o u r c e s ,t h ed i s s e r t a t i o na p p l i e st h et h e o r i e sa n dt e c h n o l o g i e so fw e bt e x t m i n i n g ,c h a r a c t e r i z a t i o n a n ds t a n d a r d i z a t i o n d e s c r i p t i o nt og a t h e r t h e h i g h - l e v e l e l e a r n i n gr e s o u r c e sf r o mt h en e t w o r kb yc o m p a r i n gt h et r a d i t i o n a lg a t h e r i n gm e t h o do f e - l e a r n i n gr e s o u r c e s ,b r i n gi nt h ed a t am i n i n gt e c h n o l o g y , t a k i n gt h es t a n d a r d i z a t i o na sa t e n e t ,f u l l yc o n s i d e r i n gt h ec h a r a c t e ro fe o l e a r n i n gr e s o u r c e sa n dn e t w o r kd a t a f i r s to fa l l ,b a s e do nt h es t u d i e so ft h et e c h n o l o g ya n dc l a s m f i c a t i o no fw e bm i n i n g , t h ew e bt e x tm i n i n gm o d e lo fe - l e a r n i n gr e s o u r c e sa n dr e l e v a n ta r i t h m e t i cw e r ep r o p o s e d t oac e r t a i ne x t e n t ,i tw a sh e l p f t dt og a i nt h eh i g h l e v e le - l e a r n i n gr e s o u r c e sa n dr e s o l v e t h ep r o b l e mo fi n t e l l i g e n c e s e c o n d l y , c o n s i d e r i n gt h ea t t r i b u t ec h a r a c t e ro fe - l e a r n i n g r e s o u r c e s ,t h ec h a r a c t e r i z a t i o nm o d e lo fe - l e a r n i n gr e 鳅3 u r c e sa n dt h ea r i t h m e t i co f a t t r i b u t e - o r i e n t e di n d u c t i o nw e r ei n v e s t i g a t e da n dp r o p o s e d t h e n ,f o re n h a n c e m e n tt h e s h a r a b l ea n du s a b l eq u a l i t i e s ,t h es t a n d a r d i z a t i o nd e s c r i p t i o nm o d e la n dx m l b a n d i n go f e - l e a r n i n gr e s o u r c e sw e r ep r o p o s e da c c o r d i n gt ot h ea n a l y s i so ft h ee x t e r n a la n di n t e r n a l s t a n d a r d so fl e a r n i n go b j e c tm e t a d a t a ( l o m ) f i n a l l y , ad e m os y s t e mh a sb e e nd e s i g n e d a n di m p l e m e n t e dw i t ht h et h e o r i e sa n dm o d e l sd e s c r i b e da b o v e i tc a ng a i n ,c l a s s i f ya n d s t a n d a r d i z et h ee - l e a r n i n gr e s o u r c e t h er e s u l t si n d i c a t et h a tt h es y s t e ms c h e m ei sr e a s o n a b l e ,v i a b l ea n da p p l i c a b l ea n d i m p r o v e st h eg a t h e r i n ga n dp r o m u l g a t i o no fe - l e a r n i n gr e s o u r c e s t h ew o r ki nt h i sd i s s e r t a t i o ni s s i g n i f i c a n tf o rp r o m o t i n gt h es t a n d a r d i z a t i o no f e - l e a r n i n gr e s o u r c e a n dt h em e t h o d o l o g yi nt h i sd i s s e r t a t i o nc a nb eu s e di ne - l e a r n i n g f i e l d s k e yw o r d s :e - l e a r n i n gr e s o u r c e s ;s t a n d a r d i z a t i o n ;w e bt e x tm i n i n g ;l e a r n i n go b j e c t m e t a d a t a ;v e c t o rs p a c em o d e l ;c h i n e s ee - l e a r n i n gt e c h n o l o g ys t a n d a r d s ; d a t ag e n e r a l i z a t i o n 玎 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: r 期:沙拜r 月 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅平l i 借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和新i 编本学位论文。 保密口在l 年解密后适用本授权书。 本论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名暴纯 f i 期:珈爷厂月7 几 篙翥荔君一 戒 讳” 华中科技大学硕士学位论文 1 绪论 1 1 网络教育资源现状及存在的问题 网络教育资源的定义 r 1 r r h 络教育技术杯准( c el t s ) 体系小,“教仃资洲i 建设技术姚范 ( c e i t s 一4 ”将教育资源建漩分为1 1 4 个层次,如h1 i 所示。筇个层次足素材 类教育资源建设,1 :疆分8 人类,分) ;i j 腱媒f 小索利、i 式m 蜓试器、c 【:献资:| :| 、讲! 什、 案例、常见问题解答和资源f u l 录索引;第一:个f 最次足网络课袱建躞:筑j 个层次女 列资源建设的计价;第p q 个层次足教育资源1 乍州系统的 发n :这1j l ! 个崩久,h 刖 络课柞卡素材类教育资源建改足璀础,足需硬觇范f f ,j 呕点利核心。 i 斟| l 数f j t 资源地啦一:h h 络数f f 璇源即胆删络之f :f f j 微r f 资澎! ,。f j 除,j _ 心j i 和般数,f 资溯的 0 j ? i 干f ij ,:7 欠 ,i = ;j z 寺i 、,;士j - v ;幺j l 卜v i 叫,抖f | :j7 l i j l - 干| | y i c | ,j j ;。b 【j 0 义i 】川络敦f f 资渊f :小论逆l l l 涉,是| j i l 川络蚀r f 讲撕扶义n ,j | i ,l ! ij 川 络救f f 资_ ! ;! 业没,i ln ,j 讹tj ,:玖嵌利,:敝r 谈汕:川的f 4 、水t 4 华中科技大学硕士学位论文 1 1 2 网络教育资源在网络教育中的现状和地位 在我国,教育部高度重视网络教育资源建设,1 9 9 9 年9 月,“c e r n e t 高速主 干网建设项目”立项,目标是在2 0 0 0 年1 2 月以前完成c e t n e t 高速主干网的建设, 满足我国网络教育的需求。2 0 0 0 年7 月将网络教育试点院校范围扩大到3 1 所,对 高等学校建设网络教育学院进行支持。同年7 月3 1r 这3 1 所高校在北京成立了 “高等学校现代远程教育协作组”,以加强试点高校问的交流和合作,促进网络教育 资源的建设与共享,我国网络教育资源建设发展迅速。 网络教育资源纷繁复杂f 2 i 包括支持教师教学的多媒体课件;支持某一学科全 程学习的网络课件;支持学生进行电予作品创作的再种素材资源席;用于学k 自测 的试题库等。它们大量存在于网络教育相关网站和其它各类网站上,网络教育资源 相当丰富。 网络教育中,网络建设是基础,资源建设是核心f 3 i 。网络教育资源是实施网络 教育的关键问题之一,是实施网络教学、考试、学习内容管理和其它相关符理的基 础。没有柑当数量和质量的网络教育资源,网络教育就成了无米之炊,无源之水, 难以为继。同时,网络教育资源作为网络教育建设的一个重要组成部分,突破了传 统教育资源在人员、地域、时空卜的多蒂限制,提供大罱、令而、丌放的资源,为 网络教育的成功提供了必要保障。 1 1 3 网络教育资源存在的问题 我国网络教育资源的建设和分布存在多方丽的问题,这些问题成为严蕈网扰我 国网络教育继续发展的瓶颈: 网络教育资源内容凌乱,大量低水平重复:1 :发。f _ 1i i ,经常n j 以发现一个课仆 已经被一个学校开发过了,其他大量的学校和公司又重复,1 发,而日他们有一 个j g 同的特征就足根据自己的需要,符f i 为政进行j :发,网络教育资源凌乩、 粗糙,低水平重复开发现象严重,浪费了人量的人力和物力。徉个建设崭之州 缺乏交流和借鉴,部分的精品网络教育资源没有得到充分的j e 享和醺川,i i 利 于网络教育资源更新频率的加快。 华中科技大学硕士学位论文 获取网络教育资源困难,缺乏智能。我国网络教育资源相关技术发展不甲衡, 网络教育资源的建设水平参差不齐,这就需要从网络上获取人量、丰富的可以 利用的网络教学资源。但是,由于网络结构复杂,有用的网络教育资源分布在 网络的四面八方,这给网络教育资源的获取带来了困难。更晕要的是,i n t e r n e t 上的大量的网络教育资源都缺乏对自身的描述,所以很难在这样的网络建设的 基础上,直接开发智能化的应用,即使是现有的强大的搜索引擎也不能够准确 定位所需的网络教育资源。 网络教育资源缺乏统一的标准f “。基于i n t e r n e t 的网络教育其有地域广阔性、 结束复杂性、文化多样性等特点,使得人量的网络教疗资源构建标准各异,缺 乏统一的标准,难以实现共享。此外,搜索网络上大量网络教育资源的丰璎障 碍还在于不同领域的术语和描述习惯用法不同,所以需要对网络教育资源进行 规范化的统一的描述,使其具有更好的可;e 亭悱和可醺j l j f l ,实现网络教育的 实用性和经济性。 1 2 论文选题及研究意义 1 2 1 网络数据的特点与传统的获取方法 随着计算机技术和网络技术的应用,w w w 迅猛发展,我们已经被淹没在w e b 数据和信息的汪洋大海之中。大量的w e b 数据存在着以卜共同的特点l ,j = w w w 是一个巨大的、分布广泛的和全球性的信息服务巾心或信息存储阼。 它是一个超过8 亿页的超文本的载体,而且仍然在迅速增陡。在大约3 0 0 万个服务 器上有超过6 0 0 0 1 字节的数据。几乎每天都要增加1 0 0 ,j 个页而,而r 页而侮个月 就会更新次,因此,每个月会有几百g 字节的数据在改变。 w 曲还包含了丰富的和动态的超级链接信息。w w w 和弓之关联的分椰式信 息服务提供了丰富的、世界范围的联机信息服务,数据对象被链接在起,便j :交 吒和访问。用户通过链接,从一个对象到另一个对象,寻找有趣的信息。 几乎不可能去构造一个数据库来复制、存储或集成w e bf :的所有数据。r l : 多机构和社团都在把各自人孱的可访问信息胃j :网l :,这使得儿下不可能构造个 华中科技大学硕士学位论文 本地的数据库来复制、存储和集成w e b 上的所有数据。 w e b 数据提供的信息只有很小的一部分是与特定用户相关的或有用的。每个 人所关心的w e b 数据仅有很小一部分,w e b 数据所包含的其他信息对用户来说是不 感兴趣的,大概9 9 的w e b 数据对于9 9 的用户都是无用的。 w e b 的内容是半结构化的或非结构化的,缺乏统一的结构。尽管w e b 提供 了丰富的信息,并且看上去很好看,但这些w e b 页面缺乏统一的结构,包含了远比 任何一组书籍或其他文本文档多得多的风格和内容。w e b 数据实际上是高度非结构 化的,也可能是半结构化的数据,并且相互之间没有任何顺序关系,所以计算机很 难通过理解各种网页的语义把它们以有组织的形式结构化。 对于大量的w e b 数据,获取有用信息的传统方法是:基于索引的w e b 搜索引 擎。它主要是通过建立和存储大量的关键字对w e b 页而进行索引,从而完成对包龠 某关键字的w e b 数据的搜索。利用搜索引擎,有经验的用户可以通过提供组紧密 相关的关键字和词组,快速定位到所需的文档。 1 2 2 网络教育资源的w e b 挖掘和标准化 网络教育资源具有网络数据的所有特点,可以按照传统的方式,即通过搜索引 擎获取。但是,目前基于关键字的搜索 - j l 擎存在一些问题。酋先,搜索任范m 的 网络教育资源,都可能很容易地包含成百上千的文档。这会使得搜索引擎返回的文 档数过于庞大,其中很多内容与指定范围的网络教育资源的相关性并不大,或所包 含的内容质量不高。其次,很多内容与指定范围的网络教育资源的相关的文档可能 并不包含相应的关键字,因此无法被搜索引擎检索到。同时,随着w e b 上信息量的 不断增加,获得有用信息变得越来越麻烦。即使是像a l t av i s t a 和h o t b o t 这样最大 的搜索引擎,在1 9 9 9 年2 月也只能索引到不到1 8 的可访问w e b 页而。 数据挖掘是信息技术演化的结果,是从大最数据巾提取或“挖拥”知识。w e b 挖掘是使用数据挖掘技术在w e b 文档和服务中自动地发掘,f : _ j 提取有 l j 的信息,是 种全新的用于获取网络数据的方式。基于w e b 的数据挖掘技术不同于搜索引擎, 提供基于关键字的搜索引擎技术,不能理解特定网页的l :卜文,j i 能给用户提供有 4 华中科技大学硕士学位论文 限的帮助。基于w e b 的数据挖掘可以提供比w e b 搜索更多的帮助,网页上丰富的 超级链接包含了大量人类潜在的注释,可以用来帮助系统自动推断出内容的相关性: 同时,可以通过对w e b 页面文本数据的挖掘,理解非结构化的w e b 页丽的内容, 从而获得有用的描述信息。因此,应用w e b 挖掘技术对于从纷繁的网络信息中获取 有用的网络教育资源是具有重要意义的。 另一方面,中国的网络教育资源有其自身的特点,如内容凌乱,大量低水平重 复丌发;获取网络教育资源困难,缺乏智能;网络教育资源缺乏统一的标准等。因 此,网络教育资源的标准化问题也是只待解决的问题。 综上所述,基于w e b 的挖掘理论和算法研究,网络教育资源标准化都是网络教 育的重要研究方向,它能够有力促进网络教育资源的收集和高效利用,避免网络教 育资源的重复丌发,提高网络教育资源的可共享性和可重用性。本项同币足从这两 个方向着手进行研究和_ 丌发,因此,本项目的研究具有重要的学术价值和较大的现 实意义。 1 3 论文研究的关键技术与主要内容 1 3 1 论文的支持课题 本论文的研究是基于国家“十五”重大科技攻关项目“网络教育关键技术及示 范工程”“教育资源描述、组织与注册发现技术”项目;教育部“现代远程教育:l 程” 2 0 0 1 年中央财政专项“现代远程教育关键技术与支撑服务系统天地网缩合项同”“教 育资源的信息注册、发稚和检索系统”项目;教育部面向2 1 世纪教育振兴行动计 划“现代远程教育工程”2 0 0 1 年中央财政专项“中国网络教育技术标准研究”和 “标准测试甲台”项目以及与美国“s e n c o m ”公司合作的“桀_ r :于午的数据挖捌” 等项目。 1 3 2 论文研究的关键技术 论文针对网络上大量的信息,通过研究网络教育资源的w e b 文本挖掘理论和算 法,获取网络卜丰富的高质景的网络教育资源。研究和提 ;了网络教育资源特征化 华中科技大学硕士学位论文 模型和算法,将挖掘的网络教育资源按照中冈网络教育技术标准( c e l t s ) 进行合 理的标准化分类。结合学习对象元数据标准( c e l t s 3 ) 提出了网络教育资源标准 化描述模型及其x m l 绑定,将分类网络教育资源进行标准化描述。通过教育资源 注册、发现技术,将这些标准化的网络教育资源注册到“资源描述、注册和管理系 统”平台中,发布给用户进行检索。研究的关键技术包括: 中国网络教育技术标准( c e l t s ) 研究 基于w e b 和文本的复杂类型数据的网络教育资源挖掘模型和算法研究 基于网络教育资源的特征化模型研究 网络教育资源的面向属性归纳算法研究 网络教育资源标准化描述模型及x m l 绑定研究 1 3 3 论文的主要内容及组织 本论文是针对w e b 上的众多的数据,研究先进的w e b 文本挖掘技术和算法, 获取可以利用的网络教育资源;研究网络教育资源的特征化技术和算法,将网络教 育资源按照“教育资源建设技术规范( c e l t s 4 1 ) ”进行标准化分类;研究网络教 育资源标准化描述模型和x m l 绑定技术。将网络教育资源进行标准化,使其满足 中国网络教育技术标准( c e l t s ) ,实现真正意义上的网络共享和重用。 本文共分6 章,余下各章的主要内容及结构安排如图1 2 所示: 第二章,介绍了本文中涉及到的w e b 挖掘技术的基本概念和任务分类。同时, 在分析了w e b 页面的非结构化或半结构化特征的基石 i 上提了网络教育资源的 w e b 文本挖掘模型、“描述信息”的特征向量表示和w e b 文本分类算法,对“泛存 在于w e b 上的网络教育资源的获取提供理论依据和技术支持。并m 通过仿真的方 式验证了模型的可行性。 第三章,在深入了解数据挖掘特征化模式的基础上,提 ;了网络教育资源特征 化模型,并且利用面向属性的归纳算法,将所获得的网络教育资源进行了面向属性 的概化和分类。通过仿真的方式验证了模犁和算法的可行性。 第四章,在深入研究了国外学习对象元数据村i 关标准的基础l :,结合| 1 阿网络 华中科技大学硕士学位论文 教f f 十 术知j 、准赘j 会( ( 1 e l ,r s ( 、) ;t i t i ;i 巾矿,1 j 州j | j 数杯玳r1 ( m ,( i i :限一3 ) 提j 。m 络敦f r 资源扔:准化扪述f l 删肢l lx m i 。绑;t 将挖捌i 铆筻n q 络敬f r 饶 源进h 标玳化处弹,从l 町达到真i i ! 意义i :f i g | = 卅络教r i 谈濒j l 。w i i tj 。 筇h 章,j 离j n # 旧章的研究与论证,本皆。1 :哽是利川棚戈的捎j 和投术,定义、 设i ff j 娅川州络敦耵资溉iw e b 挖拥f 用l t j :“h e 系统。 第六节总结r 网络教疗资源的w e b 挖掘辨。法和标准化研究过雅一l t 所暾铲 的1 i 暖成粜,j f = 指f 伞史f 向创新点,艉i 列| 、j p 彤f 究1 作n 1j 埕单。 矧t 2 沦艾的内择扪吲 乃 华中科技大学硕士学位论文 2 1 引言 2 网络教育资源的w e b 文本挖掘 本章首先介绍了w e b 挖掘的基本概念,在此基础上,结合w e b 文本挖掘模式 和网络教育资源的特点,提出了网络教育资源的w e b 文本挖掘模型。根据现有的文 本挖掘算法,结合w e b 页面的特点,提出了网络教育资源的w e b 挖掘算法,并应 用实验仿真验证了模型和算法的可行性。最后,给出了实验仿真的结果分析。 2 2w e b 挖掘的基本概念 2 2 1w e b 挖掘的定义 w e b 挖掘o l 是一项综合技术,涉及w e b 、数据挖掘、计算机语言学、信息论 学等多个领域。本文从一般的角度出发,对w e b 挖掘作如i i 定义。 【定义2 1w e b 挖掘f 6 1 0 l :是指从大量w e b 文件的集合c 中发现隐含的模式p 。 如果将c 看作输入,将p 看作输出,那么w e b 挖掘的过程就是从输入到输f | 的个 映像亭:c p 。 w e b 挖掘从数据挖掘发展而来,冈此其定义与数据挖掘定义桐类似。然而,w e b 挖掘与传统的数据挖掘相比有许多独特之处:首先,w e b 挖掘的对象是大量、不同、 分散性的w e b 文件,如w e b 页面。其次,w e b 在逻辑上是一个由文件节点和超链 接构成的图形,因此w e b 挖掘所得到的模式可能是关于w e b 内容的也可能是关 于w e b 结构的。此外,由于w e b 文件本身是半结构的或无结构的,且缺乏机器可 以了解的语义,而传统数据挖掘的对象是针对数据库【 j 的结构化数据,并利j j 芙系 表格等储存结构来发现知识,因此有些数据挖掘技术并不能直接适用于w e b 挖拥, 这样,就需要对w e b 文件进行预先处理。 华中科技大学硕士学位论文 2 2 2w e b 挖掘任务分类 在逻辑上,可以把w e b 看作是位于物理网络之上的有向图g = ( ,e ) ,其中节 点集n 对应于w e b 上的文件,而有向边集e 则对应于节点之问的超链接。对节点 集作进一步的划分; ,n 。,) 。所有的非叶子节点n 。i 是h t m l 文件,其中除了 包含文本以外,还包含了标记,以指定文件的属性和内部结构,或者嵌入了超链接, 以表示文件问的结构关系。叶节点n l 可以是h t m l 文件,也可以是其他格式的文 件,例如d c l r 、w o r d 等文本文件,以及图形、音频等多媒体文件。如图2 1 所示, n 中每个节点都有一个u r l ,其中包含了关于该节点所位于的w e b 网站和目录路 径的结构信息。 文本文件 文奎文仲 多媒体文件 图2 1w e b 的逻辑结构 w e b 上信息的多样性决定了w e b 挖掘任务的多元化。按照处理对象的不同,将 w e b 挖掘分为三大类睁1 0 1 :w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘,如图2 2 所示。 w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 从w e b 文件的内容信息巾挖掘出知 识,用以帮助或改善信息的肖找或过虑。w e b 内容挖掘又分为对文木史什( 包 括t x t 、h t m l 等格式) 和多媒体文1 ,| :( 包括i m a g e 、a u d i o 、v i d e o 锋 媒体类型) 的挖掘。w e b 内容数据结构复杂,由非结构化数据,如自 i i 文本; 半结构化数据,如h t m l 文档:结构化数据,如表嗣ih t m l 页而乍成的数栅 9 华中科技大学硕士学位论文 库构成。w e b 内容挖掘有两种策略:直接挖掘文件的内容:或在其他工具搜索 的基础上进行改进。 w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 从w e b 文件的结构信息中推导知 识,挖掘w e b 链接结构中的潜在模型。模型建立在超链接的拓扑结构之上, 可以对超链接进行描述。该模型可以用束为w e b 页而进行分类,并且有利于 产生网站之间相似性关系的信息。w e b 结构挖掘不仅仅局限于文件之问的超链 接结构,还包括文件内部的结构、文件u r l 中的目录路径结构等。 w e b 使用挖掘( w e bu s a g em i n i n g ) 挖掘在网一i :冲浪的过程或行为所产卜 的数据。w e b 使用挖掘是从用户同w e b 进行交互时的行为入手,挖掘第二级 数据。这些数据包括访问w e b 服务器的同志、代理服务器的r 志、浏览器h 志、用户数据、注册数据、用户会话或交易、c o o k i e s 、书签数据以及仃何个人 同w e b 进行交互所产生的其他数据。w e b 使用挖掘有两个0 :要研究方向: 般的查找模式追踪和个性化的使用记录追踪。 w e b 挖捌l w e b 结构挖掘 w e b 内容挖抽i l w e bj i l l s 1 文本挖棚多媒体挖耱i f 图2 2w e b 挖掘的分类 本论文涉及到的w e b 挖掘的类型是w e b 文本挖掘,通过对w e b 页而文本内弈 的挖掘,寻找网络教育资源及其描述信息,并且获得多种类型的数据,如:文本、 图像、音频、视频、元数据以及超级链接等。 2 3 网络教育资源的w e b 文本挖掘模型 尽管与媒体债息桐比,文本信息鼹得比较许通,f r l 史本仍然足记载和f 橘信息 o 华中科技大学硕士学位论文 的最主要媒体。此外,j 。泛存在于互联网上的w e b 页而,主要是以h t m l 文木的 形式组织素材和内容。因此对文本挖掘技术的研究具有十分重要的意义和j l 泛的应 用前景。本论文涉及的网络教育资源的挖掘j 下是基于网络上的h t m l 文本的挖掘。 2 3 1w e b 文本挖掘的模式 文本挖掘是一个建立在文本分析基础上的新兴的功能集合,它的目的是寻找文 本中的语义模式。 w e b 文本挖掘是w e b 挖掘的一种方式,也是文本挖掘的一种形式。w e b 上的文 本挖掘和通常的平面文本挖掘的功能和方法比较类似,但是w e b 文件中的标记,例 女t l 、 等蕴含了额外的信息,可以利用这些信息来提高w e b 文本挖掘的 性能。 w e b 文本挖掘针对网络上大量的w e b 文本文件的集合t ,例如h t m l 文件,j s p 文件等对其进行文本分析和结构解析,从而挖掘出隐含的模式p ,以利于对w e b 文本数据的进一步处理。将t 看作输入,将p 看作输出,那么w e b 文本挖掘的过程 也可以表示为输入到输f i i 的映射亭:r - p 。 w e b 文本挖掘可以对w e b 上大量文本集合的内容进行分析,挖掘出以f 类型的 模式i m l3 l :特征化( c h a r a c t e r i z a t i o n ) 、分类( c l a s s i f i c a t i o n ) 、聚类( c l u s t e r l n g ) 、关 联分析( a s s o c i a t i o na n a l y s i s ) ,以及利用w e b 文件进行趋势预测( e v o l u t i o na n a l y s i s ) 等。 文本特征化( c h a r a c t e r i z a t i o n ) :是指从文件中筛选关键性信息,刚简洁的 形式对文件内容进行摘要或解释。这样,用户不需要浏览全文,就可以了解文件或 文件集合的总体内容。文本特征化在有些场合一| 分有丌j ,例如,搜索引肇祚il j h i ) 、 返回查询结果时,通常需要给出文件的摘要。目前,绝人部分搜索引擎采用的方法 是简单地截取文件的前几行。 文本分类( c l a s s i f i c a t i o n ) :足指按照预先定义的l :题式类别,为文件集合t i - 的每个文件确定一个类别。这样,用户不但能够方便地浏览文件而f 1 可通过限制 搜索范围来使文件的查找更为容易。利用文本分类技术可对大帚文件进行快速、有 华中科技大学硕士学位论文 效的自动分类。目前,文本分类的算法f j 很多种,比较常用的有t f i d f 和n a v e b a y e s 等算法。 文本聚类( c l u s t e r i n g ) :与分类的不同之处在于,聚类没有预先定义好的主 题类别,它的目标是将文件集合分成若干个簇,要求同一簇内,文件内容的相似度 尽可能地大,而不同簇问的相似度尽可能小。h e a r t 等人的研究已经证明了“聚类 假设”,即与用户查询相关的文件通常聚类得比较靠近,而远离与用户查询不相关的 文件,因此,利用文本聚类技术将搜索引擎的检索结果化分为若干个簇,用户只需 要考虑那些相关的簇,大大缩小了- 所需要浏览的结果数量。目前,有多种文本聚类 算法,大体可以分为两种类型:以g h a c 等算法为代表的层次凝聚算法,以k - m e a n s 等算法为代表的平面划分算法。 关联分析( a s s o c i a t i o na n a l y s i s ) :是指从文件集合中找f 不同语法之唰的关 系。b r i n 提出了一种从大量文件中发现一对词语出现模式的算法,并用来在w e bi : 寻找作者和书名的出现模式,从而发现了数千本在a m a z o n 网站上找不到的新书籍。 w a n g 等人以w e b 上的电影介绍作为测试文件,通过使用o e m 模型,从这些半结 构化的页丽中筛选词语项,进而得到一些关于r b 影名称、导演、演员、编剧的f i | 现 模式。 分配分析与趋势预测( e v o l u t l o na n a l y s i s ) :是指通过对w e b 文件的分析,得 到特定数据在某个历史时刻的情况或将来的取值趋势。f e l d m a n 等人使用多种分配 模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易 之间的相对分配,揭示了一些有趣的趋势。w u t h r i c h 等人通过分析w e b 上出版的权 威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。 本论文中涉及到的w e b 文本挖掘的模式为文本分类模式,即从大量的w e b 页 面的h t m l 文本文件中,按照与指定内容的相似度等级划分山不同的类别。 2 3 2 网络教育资源的w e b 文本挖掘模型 现有的w e b 文本挖掘巾,一般将每个w e b 页而看成是物理平而对象,而忽视 了其内部存在着或多或少的结构。本论文通过对w e b 文本文件的分析,发现j e 内容 华中科技大学硕士学位论文 之间存在的潜在模式,此外,利用w e b 文本巾存在的或多或少的结构信息进行分析, 从网上获取高品质的网络教育资源及其描述信息。 【定义3 】文本特征:指的是关于文本的元数据,分为描述性特征和语义性特 征,描述性特征例如文本的名称、只期、大小、类型等,语义性特征例如文本的作 者、机构、标题、内容等。描述性特征易于获得,而语义性特征则较难得到。 本论文结合w e b 文本文件的特征及网络教育资源在网上的分佰特点,提出了网 络教育资源w e b 文本挖掘模型”13 1 ,如图2 3 所示。该模型认为: 任何类型的w e b 页面,如:h t m l 、a s p 、j s p 、p h p 、a s p x 等,除去其巾的 动态脚本都可以看成是基予h t m l 的文本文件。并且,这些h t m l 文本义 件中蕴含了大量的描述信息和链接信息,可以利用这些h t m l 文本文件获得 网络上的丰富资源。 h t m l 文本文件不同于一般的文本文件,h t m l 语啬- r 1 的大景的标签可以提 供许多有用的信息。例如,标签 表示超链接, 表示链接的是一个图 片。同时,也可以快速剔除与分析主题无关的内容,提取出相关的捕述信息和 链接信息。 页面或者资源的语义信息可以通过w e b 页面的链接来反 畎。一个w e b 贞i h j t 含有大量的从一个页面指向另一个页而的超链接,超链接及其描述信息中晴龠 了大量人类潜在的语义。当一个w e b 页面的作者建立指向另一个页而的超链 按时,可以看作是该作者对另一个页面的批注。这样的语义信息往往比关键字 信息更能反映事物的本质。 华中科技大学硕士学位论文 图2 - 3 网络教育资源w e b 文木挖拥 模】钯 网络教育资源w e b 文本挖掘模型分为四层和个分析器,分别是页而层、信息 层、知u 层,手f l 应 j 层等四个层次以及t t t m l 叟本分析器。 页面层:山w e b 页丽组成,可以足以h t m 、a s p 、j s p 、a s p x 、p l i p 锋为 扩展名的文件。“页而层”将w e b 口i 而史件f f 的h t m f 源代鲋艾什抽墩f i 水作为 进步分析和挖掘的原始数据集合t 。 信息层:包含通过h t m l 。! : :本分析器,从w e b 呱而一 分析束们“荆i 述f ;、 息”、“链接信息”平| i “j e 它无哭信息”等。j 川t ,椭迷信息址时链接俯息的l “义椭 华中科技大学硕士学位论文 述。可以把每个链接信息的椭述信息看成是一段文本,因此,不同的链接都对应着 不同的文本段。此外,信息层还包括不同的隐含模式,如文本特征化模式、文本分 类模式、文本聚类模式、文本关联模式和趋势预测模式。将“描述信息”用特征向 量空间模型表示,通过选取不同的文本挖掘算法,导出“描述信息”的隐含模式p , 从而完成从输入页面层原始数据集合t 到输入隐含模式p 的映射。依据所导出的模 式,通过“过滤器”从链接信息中分离出u r l 和网络教育资源。每个u r l 又对应 一个w e b 页面,从而循环到页面层。用户可以设置阈值,控制w e b 页面的挖掘深 度。 知识层:是从大量的数字信息中挖掘出的有用的信息,即网络教育资源。信 息层中得到的隐含模式p ,指导链接信息通过过滤器,分离出网络教育资源的地址, 通过地址可以得到对应的网络教育资源。 应用层:基于网络教育资源之上的应用丌发。可以是对网络教育资源的标准 化描述,也可以是对网络教育资源的重新组织等。 m m l 文本分析器:不同于一般的文本分析器,它主要是充分利用了h t m l 的标签,通过h t m l 标签获得语义层的描述信息。此外,h t m l 文本分析器也不同 于一般的h t m l 分析器,它只要求对h t m l 中两类标签进行分析:第一类是与链 接信息相关的标签;另一类是与这些链接信息相关的文本标签。这样,将分析的目 标更加集中,有利于提高信息层数据提取的准确度。 2 4 网络教育资源的w e b 文本挖掘算法 在网络教育资源的w e b 文本挖掘模型中,“描述信息”的特征向最表示是整个 w e b 文本挖掘工作的基础,并且,论文选取文本分类模式作为该模型的挖拥模式。 下面将结合w e b 文本的特点,详细定义信息层中“描述信息”的特征向量表示和网 络教育资源的w e b 文本分类算法。 2 4 1 “描述信息”的特征向量表示 文本内容是人类所使用的自然语言,计算机很难处理。与数据库r f l 的结构化数 华中科技大学硕士学位论文 据相比,文本文件具有有限的结构,或者根本就没有结构。即使具有一些结构,也 是着重于显示格式,而非文本内容。w e b 页面也是基于页面显示格式的数据,其文 本数据基本没有结构。 在网络教育资源的w e b 文本挖掘模型中,首先,将w e b 页而看成是h t m l 文 本文件,然后,通过h t m l 文本分析器对h t m l 文本进行预先处理,筛选出链接 信息和与链接相关的描述信息文本,剔除特定网络教育资源无关的其它信息。h t m l 文本分析器是借助h t m l 文本中的标签,例如, 、 、 、 等,仅提取出链接信息和与其相关的描述信息文本,其它标签对应 的信息一律认为是无用信息,将其删除。最后,通过筛选出来的链接信息和描述信 息可以用结构化的形式保存,或者按照一定的规律保存,作为文件的中间表示形式。 为了对网络教育资源w e b 页面进行挖掘,本论文应用向量卒问模型,结合网络 教育资源w e b 文本挖掘模型的特点,对“信息描述”这一中问表示形式进行特征向 量表示”15 1 ,使其能够被计算机处理。 在本论文中,“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论