（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：45 大小：1.81MB 积分：12 举报 版权申诉

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf_第2页

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf_第3页

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf_第4页

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf_第5页

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着计算机和网络技术的快速发展，互联网在人们的日常生活中发挥着越来越重要的作用。信息检索作为互联网应用的重要组成部分，是用户获取信息的主要方法。目前，信息检索一般通过搜索引擎完成。由于技术原因，传统的搜索引擎只能发现静态网页内容，而无法获取w e b 数据库中的信息。如何能够充分利用w e b 数据库中丰富的资源，成为一个值得研究的问题。存储在w 曲数据库中、不能通过超链接访问的资源集合被称为d e e pw 曲。为自动获取d e e pw e b 背后众多w e b 数据库中的资源，需要建立d e e pw e b 数据集成系统，该系统的查询结果处理模块分为数据抽取和语义标注两部分。数据抽取是指通过技术手段将w e b 页面上的数据抽取出来，保存为x m l 文档或关系模式，作为下一步处理的基础。语义标注是指对抽取出的数据增加语义注释，便于计算机识别与处理，从而具有更高的利用价值。本文使用x p a t h 技术完成d e e pw r e b 数据抽取并提出一种基于中文词性和领域知识的语义标注方法。基于x p a t h 的数据抽取方法首先将d e e pw r e b 查询结果页面规范化为 x m l 格式，然后在遍历x m l 文档的过程中确定待抽取数据路径表达式，最后根据该表达式完成数据抽取并保存为x m l 格式。语义标注给抽取出的数据增加语义信息。本文所述语义标注方法借助中文分词工具得到抽取结果的词性，并根据词性或词性组合与语义建立映射规则，同时结合领域知识进行语义标注。实验表明，本文所述方法能够对 d e e pw r e b 查询结果准确抽取并对抽取结果进行语义标注，从而验证了方法的有效性。关键词d e e pw e b 数据抽取语义标注 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e ra n dn e t w o r kt e c h n o l o g i e s ，i n t e r n e ti sp l a y i n ga m o r ei m p o r t a n tr o l ei no u rd a i l yl i f et h e ne v e rb e f o r e a sa l li m p o r t a n tp a r to ft h ei n t e r n e t a p p l i c a t i o n s ，s e a r c h i n go n l i n eh a sb e c o m et h em a i nw a yt o o b t a i ni n f o r m a t i o nf o rm a n y p e o p l e a tp r e s e n t ，s e a r c h i n ge n g i n ei st h em o s tc o m m o n l y u s e dt 0 0 1 l i m i t e db yt e c h n o l o g y s u p p o r t s ，m o s tm a i n s t r e a ms e a r c he n g i n e sc a no n l yr e t u r nt h es u r f a c eo f s t a t i cw e b s ，b u tc a n n o td i r e c t l ya c q u i r ei n f o r m a t i o nf r o mw e bd a t a b a s e 。s ot h er e s e a r c ho nh o wt ou t i l i z et h e r e s o u r c e si nd e e pw e bi sm e a n i n g f u l d e e pw e bi sd e f i n e da st h ea g g r e g a t eo fr e s o u r c e si nw e bd a t a b a s e s ，w h i c hc a n n o tb e a c c e s s e db yt h eh y p e r l i n k ad e e pw e bd a t ai n t e g r a t i o ns y s t e mw i l lh a st ob ec r e a t e dt o o b t a i nr e s o u r c e si nd e e pw e b t h ed e e pw e bq u e r yr e s u l tp r o c e s s i n gm o d e li n c l u d e st w o p a r t s ：d a t ae x t r a c t i o na n ds e m a n t i ca n n o t a t i o n d a t ae x t r a c t i o n i st h em e a n so fe x t r a c t i n g i n f o r m a t i o ni naw e b p a g eb ys o m et e c h n i c a lm e t h o d sa n ds a v i n gi n f o r m a t i o n i nx m lf o r m a t o rr e l a t i o n a ls c h e m a , a st h eb a s i so ff u r t h e rp r o c e s s a n dt h et e r ms e m a n t i ca n n o t a t i o n i n d i c a t e sa d d i n gs e m a n t i ca n n o t a t i o no nt h ee x t r a c t e dd a t as ow h i c hw i l lb ee a s i l yr e c o g n i z e d b yc o m p u t e r sa n do b t a i nb e t t e ru t i l i z a t i o nv a l u e t h i sp a p e rp e r f o r m e dt h ed a t ae x t r a c t i o nb yu s i n gx p a t h ，a n dt h e np r o p o s e dad e e pw e b s e m a n t i ca n n o t a t i o nm e t h o db a s e do nc h i n e s ep a r t o f - s p e e c ha n dd o m a i nk n o w l e d g e i nt h i s x p a t he x t r a t i o nm e t h o d ，x m ls t a n d a r d i z a t i o ni sf i r s t l yp e r f o r m e do nt h es e a r c h i n gr e s u l t s ； t h e nt h ep a t he x p r e s s i o no fd a t at ob ee x t r a c t e di s c r e a t e dd u r i n gt r a v e r s i n gt h ex m l d o c u m e n t ；f i n a l l yt h ed a t ad e m a n d e di se x t r a c t e da n ds a v e di na nx m l f o r m a ta c c o r d i n gt o t h ee x p r e s s i o nc r e a t e di nt h ep r e v i o u ss t e p s e m a n t i ci n f o r m a t i o nw i l lb ea t t a c h e dt ot h ed a t a e x t r a c t e db ys e m a n t i ca n n o t a t i o n ac h i n e s es e g m e n tt o o lw a su t i l i z e di nt h i sm e t h o dt o o b t a i nt h ep a r t o f - s p e e c hf r o mt h er e t u r n e dr e s u l to fd e e pw e bq u e r y , b a s e do nw h i c ht h e m a p p i n gr u l e sb e t w e e np a r t o f - s p e e c hc o m b i n a t i o n sa n d t h e i rs e m a n t i cm e a n i n gw e r eb u i l tu p m e a n w h i l et h ed o m a i nk n o w l e d g ew a sa l s ou s e dt oc a r r yo u ts e m a n t i ca n n o t a t i o n t h er e s u l t s o fe x p e r i m e n ts h o wt h a tt h i sm e t h o dc a np e r f o r ms e m a n t i ca n n o t a t i o no nt h ed e e pw e bq u e r y r e s u l t s ，s ot h ee f f e c t i v e n e s sw a sv e r i f i e d k e y w o r d sd e e pw e b d a t ae x t r a c t i o ns e m a n t i ca n n o t a t i o n n 河北大学学位论文独创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名：日期：萼钆上月上日学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。本学位论文属于 1 、保密口，在年月日解密后适用本授权声明。 2 、不保密d 。 ( 请在以上相应方格内打“4 ) 保护知识产权声明本人为申请河北大学学位所提交的题目为的学位论文，是我个人在? 师( 五乞) 指导研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。本人声明如下：本论文的成果归河北大学所有，未经征得指导教师和河北大学的书面同意和授权，本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明，本人愿意承担相应法律责任。声明人：勉堡1 日期：二! l 年上月上日 i 作者签名：导师签名： e t 期：上丑年月j l 日期：丑年l 月旦日日期：卫年l 月旦日 ? 第1 章绪论 1 1 研究背景第1 章绪论中国互联网络信息中一i 二, ( c n n i c ) 在2 0 0 9 年1 月发布的第2 3 次中国互联网络发展状况统计报告e 1 i ：1 - 1 统计，截至2 0 0 8 年底，中国网民规模达已到2 9 8 亿人，居全球第一，普及率达到2 2 6 ，略高于全球平均普及率2 1 9 。互联网在网络媒体、互联网信息检索、网络通讯、网络社区、网络娱乐、电子商务、网络金融等多个领域发挥着重要的作用，成为人们工作和生活中不可或缺的一部分。 d e e pw e b 一般是指w e b 中可访i 口- j 的在线数据库，其内容存储在真j 下的数据库中【2 1 。根据u i u c 大学在2 0 0 4 年4 月所作的统计【3 1 ，d e e pw e b 的网站数量已经达到3 0 7 0 0 0 个，其背后的w e b 数据库数量已经达到4 5 0 0 0 0 个。w e b 数据库数量多，覆盖面广，蕴含着大量有用的信息，其价值远远超过了仅由网页构成的s u r f a c ew e b 。文献 4 指出，d e e pw e b 的内容主要包含4 个方面： ( 1 ) 通过填写表单形成对后台在线数据库的查询而得到的动态页面。 ( 2 ) 由于缺乏被指向的超链接而没有被搜索引擎索引到的页面，大约占整个比例的 2 1 3 。 ( 3 ) 需要注册或其他限制才能访问的内容。 ( 4 ) w e b 上可访问的非网页文件，比如图片文件、p d f 和w o r d 文档等。在实际中应用中，人们更关注于d e e pw e b 中的第一部分内容。这部分内容对结构化数据的集成更有意义，可以采用的技术也更丰富。现有的搜索引擎由于技术原因无法访问w e b 数据库，如果想访问多个w e b 数据库，必须人工打开不同网页并填写关键词后执行查询，这种操作方式显然费时费力，无法让用户方便的获得d e e pw e b 中高质量的信息。如何能够让用户方便的访问d e e pw e b 中的信息成为一个非常有意义的研究课题。 1 2 研究现状 1 2 1d e e pw r e b 国内在d e e pw 曲的研究尚处于探索阶段。中国人民大学在d e e pw e b 领域的研究处于 l 河北人学l ：学硕十学何沦文国内较为领先地位，该校刘伟等人的论文( ( d e e pw e b 数据集成研究综述【4 】为国内研究 d e e pw e b 研究提供了很好的参考，被国内许多论文引用。另外西北工业大学、东北大学、苏州大学、中南大学、山东大学、昆明理工大学等高校对d e e pw 曲进行了较为深入的研究。 2 0 0 8 年2 月，软件学报发行t d e e pw e b 数据集成专刊，遴选出具有代表性的9 篇研究论文。这些论文涉及t d e e p w e b 数据集成的若干关键问题，研究的内容注重理论创新与实际应用相结合，立足于国际上最新的研究和应用状况，真实反映了当前我国的 d e e pw e b 数据集成技术在重要科学领域的应用研究状况【5 1 。寇月等人分析了常见的实体识别方法【6 】，提出了一种基于语义及统计分析的实体识别机制，有效解决d e e pw e b 数据集成中数据纠错、消重及整合等问题。采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略，基于文本特征、语义信息及约束规则来不断精化识别结果；根据可获取的有限的实例信息，采用静态分析、动态协调相结合的自适应知识维护策略，构建和完善表象关联知识库，以适应w e b 数据的动态性并保证表象关联知识的完备性。徐和祥等人研究t d e e pw e b 集成环境中构件的依赖关系( 执行偏序依赖和知识依赖) ，并在此基础上提出了一种基于知识的环境变化的处理方法【7 】，包括d e e pw 曲集成环境变化处理模型以及适应d e e pw e b 环境变化的动态体系结构和处理算法，可以对大规模 d e e pw e b 集成的进一步探索和走向应用提供参考。马军等人讨论了提高d e e pw 曲数据库分类准确性的若干新技术【8 】，包括利用h t m l 网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程。其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征，而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程。采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法。基于上述预处理，给出了计算d e e pw e b 数据库的k n n 分类算法，其中对数据库之间语义距离计算综合了数据库表之问和含有数据库表的网页的内容文本之间的语义距离。国外在d e e pw e b 领域的研究起步较早，部分成果已经商业化。其中b r i g h tp l a n e t 公司的d q m 2 ( b r i g h tp l a n e t sd e e pq u e r ym a n a g e rt m ) ，可根据用户的指令对超过7 0 0 0 0 个深层网页专业数据库同时进行检索，并实时进行跟踪和监测为用户返回最新研究进展提示，用户也可根据自己的学科特色进行限制检索，检索到的结果可根据用户需要 2 第1 章绪论进一步管理制作，后续资料可进行追加，是一个较为理想的门户网站建设深层网页资源采集软件【9 1 。 e x c i t e 公司提供的购物搜索工具，能对3 0 0 多个网上商店进行访问。j a n g o 的f j 身是华盛顿大学s h o p b o t 10 1 ，由四部分组成： ( 1 ) 自然语言前端。将用户请求转换成产品描述的逻辑表示。 ( 2 ) 查询路由器。判定产品类别，找出相关的一系列网站。 ( 3 ) 集成引擎。平行向选定的网站提交查询。 ( 4 ) 过滤器。用类似于s h o p b o t 的方法，把信息抽取出来。在学习阶段，j a n g o 根据网上商店首页的u r l 和产品领域知识，学习如何在网站购物，能学得每个商店的产品描述的格式，获取价格等产品属性。在购物阶段，这些学得的描述将被用于抽取用户指定的产品信息。信息抽取是在线平行进行。结果以价格排序显示给用户【l l 】。斯坦福大学创建的j u n g l e e 使用虚拟数据库( v i r t u a ld a t a b a s e ，v d b ) 技术，利用h t m l 和x m l 的混合形式表示从多个网站中获取的信息 1 2 , 1 3 】。v d b 首先收集分散的数据，然后把收集的数据规范化并进行整合，最终为程序员提供一个单一数据库的界面。v d b 中数据整合系统负责数据抽取，数据发布系统负责定期完成数据库更新。哥伦比亚大学的q p r o b e r 1 4 】研究小组的p a n a g i o t i sgi p e i r o t i s 等人研究了将w 曲页面所连接的后台数据库自动分类的方法。首先使用机器学习技术生成一套基于规则的分类器，然后抽取分类器规则和基本u r l 组合成查询u r l ，对后台数据库进行查询探测，计算查询结果数，最后根据查询结果数对数据库进行分类。著名搜索引擎公g o o g l e 意识到现有g o o g l e 的查询结果页上只能呈现一些非常表面的内容，用户无法获得更深入的细节，如论文文献、购物目录等d e e pw e b 中的信息。针对这些问题，g o o g l e 已t f 始发展深度网络技术，希望通过新型的搜索引擎检索至u d e e p w e b 中的信息。 1 2 2 数据抽取技术数据抽取主要有两种：构造正则表达式和构建属性模板。正则表达式是用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串表达式。语义型文本是指查询结果页面中的说明性词语，如书籍查询结果中的书名、摘要、作者等。构造正则表达式的气河，l 匕人学。r 学硕f j 学位论文抽取方法首先借助文本识别工具识别语义型文本信息，然后对待抽取的数据编写相应的 f 则表达式，并根据这些正则表达式把实体从返回页面中抽取出来。由于正则表达式构造过程较为简单并且查询结果页面上的语义型文本数量较少，使用这种方法能够较为快速的构造抽取程序，保证较高的准确率。但是该方法缺乏通用性，如果返回页面发生变化，必须重新构造正则表达式。构建属性模板的抽取方法将返回页面解析成语法树，再由语法树生成抽取模板。模板元素是指从文本中抽取特定类型的实体信息，并将这些信息填写到预先定义的属性模板中。文档对象模型( d o m ) 0 0 的逻辑结构可以用节点树的形式进行表述。在网页信息抽取中，一般使用d o m 来生成语法树。对网页解析后，页面中的元素便转化为d o m 文档中的节点对象，生成d o m 树，而包含所有待抽耿节点的 d o m 树就是抽取模板。构造属性模板的抽取方法使用模板建立抽取对象和抽取程序的关联，具有较高的通用性，但模板对网页结构有较大的依赖性，因此仍然具有一定的局限性。除以上两类方法，还有一些其他信息抽取方法和模型，如基于语言模型的隐马尔可夫模型和最大熵模型、基于神经网络、本体以及基于元数据标引等抽取方法【l5 1 。 1 2 3 语义标注技术数据标注工作还处于初步阶段【4 】。数据标注的方法主要分为两类：启发式规则和模式匹配。文献 1 6 ，1 7 使用启发式规则方式进行语义标注，这种方法只能对部分抽取数据标注，且准确性较低，不能达到实际应用标准。文献 4 】提出了模式匹配标注方法，通过机器学习的方式预先在一组样本页面上训练形成一个自动添加语义的程序，学习出数据与对应语义之间的关系，从而能够处理新的页面。由于是在w e b 数据库集成系统的环境下，有的w e b 数据库的查询接口或结果中能够得到某个属性数据的语义，而有的w e b 数据库对这个属性的数据则没有语义注释，如果能够对各个w e b 数据库的模式之问建立匹配关系，利用预先建立的模式匹配关系就可以以互补的方式达到对数据语义的添加，但要保证语义的正确性，前提是要保证这种模式匹配关系的正确性，由于页面结构化程度很差，目前还很难保证在页面中模式匹配较高的正确性。文献 2 将本体用于查询接口和查询结果的分析，获得接口模式，并使用领域本体作为接口模式和结果模式之间的桥梁进行匹配。这种方法对查询接口有较大依赖，查询接口的多样性使接口模式的获取较为困难，进而使模式匹配的关系难于确定。 4 第l 章绪论 1 3 研究目标本文主要研究d e e pw 曲查询结果处理模块的数据抽取和语义标注部分。 ( 1 ) 数据抽取。由于各个网站采用不同的结构设计网页，d e e pw e b 查询结果页面表现形式呈现多样化，这给查询结果页面抽取带来困难。首先使用h t m l 扫描器和标签补偿器n e k o h t m l 处理查询结果页面，把不规范的h t m l 文档转换为规范化的x m l 文档，然后在遍历x m l 文档的过程中发现待抽取数据路径表达式，并根据该表达式完成数据抽取，最后把结果保存为x m l 文档，便于下一步使用。 ( 2 ) 语义标注。为给抽取出的数据增加语义信息，首先通过中文分词工具i c t c l a s 给抽取结果标注词性，然后根据词性或词性组合与语义建立映射规则，同时结合领域知识进行语义标注。 1 4 论文组织本文分为6 章：第1 章绪论。本章介绍了d e e pw e b 研究背景、研究现状和研究目标，并给出论文组织结构。第2 章相关知识介绍。本章首先介绍h t m l 、x m l 、d o m 等概念和特征，然后对d e e pw 曲数据集成进行较为详细的叙述，最后介绍中文分词和一种中文分词工具 i c t c l a s 。第3 章基于x p a t h 的数据抽取方法。本章介绍了一种从查询结果页面抽取信息的方法，该方法在遍历x m l 文件的过程中确定待抽取数据路径表达式，并根据该路径表达式完成数据抽取。第4 章基于中文词性和领域知识的语义标注方法。本章首先使用中文分词工具给抽取出的信息标注词性，然后建立词性或词性组合与语义的映射规则，并结合领域知识完成语义标注。第5 章实验与分析。通过实验证明本文所述方法的有效性，并分析实验结果。第6 章总结与展望。对所做工作进行总结并指出未来研究工作的重点和方向。 5 河北人学i j 学硕f j 学何沦文 1 5 本章小结本章介绍了本文的研究背景，并指出了研究d e e pw e b 的重要意义。首先介绍了当前国内外d e e pw e b 领域的研究现状，然后着重描述d e e pw 曲数据抽取和语义标注研究现状，最后结合研究背景和研究现状给出本文的研究内容，同时给出全文组织结构。 6 第2 章相关知i 只介绍第2 章相关知识介绍本文数据抽取方法主要针对h t m l 文档操作，并涉及到x p a t h 、d o m 和x m l 的一些标准和使用方法。语义标注部分的工作，需要借助中文分词工具i c t c l a s 获取待标注词语的词性，然后根据词性特征与语义建立映射关系。在本章中，我们将简单介绍以上内容。 2 1h t m l 2 1 1h t m l 简介 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 即超文本标记语言或超文本链接标示语言，是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言。1 9 8 2 年，t i m b e r n e r s l e e 为使世界各地的物理学家能够方便的进行合作研究，建立了最初的h t m l ，它以纯文字格式为基础，可以使用任何文字编辑器处理，并且文档仅有少量标记( t a g ) ，易于掌握运用。随着h t m l 使用率的增加，人们不满足只能看到文字。1 9 9 3 年，m a r c a n d r e e s s e n 在他的m o s a i c 浏览器加入标记，从此可以在w e b 页面上浏览图片。但人们认为仅有图片还是不够，希望可将任何形式的媒体加到网页上，因此h t m l 不断地扩充和发展。h t m l 后来发展成为国际标准，由万维网联盟( w 3 c ) 维护【1 8 1 。 2 1 2h t m l 标签 h t m l 标签是h t m l 语言中基本的单位，也是h t m l 语言重要的组成部分。标签名大多为英文单词或英文单词缩写，使用时用两个尖括号括起来，0 h 。h t m l 标签一般都有一个起始标签和一个结束标签，结束标签的名称前面有一个斜线( ) ，文本内容置于两个标签之间。例如，文本。部分标签可以单独出现，如。标签不区分大小写，与没有什么区别。常用的标签可分为以下几类： ( 1 ) 框架类标签。h t m l 定义文档，b o d y 定义文档体，h e a d 定义文档头信息，t i t l e 定义文档标题。 ( 2 ) 图像与链接类标签。a 定义链接标签，i m g 定义图像。 ( 3 ) 文字相关标签。h 定义标题，p 定义段落，d i v 定义层，s t r o n g 定义要强调显示的河北人倾一f ：学位沦丈内容。 ( 4 ) 列表标签。u l 定义h t m l 列表，l i 定义h t m l 列表内容。 ( 5 ) 表格类标签。t a b l e 定义表格，t r 定义表格行，t d 定义表格列。 ( 6 ) 表单类标签。f o r m 定义表单签，i n p u t 定义一个表单的输入域，s e l e c t 定义可选择的h t m l 表单，t e x t a r e a 定义一个多行的文字输入域。 2 1 3h t m l 特点 h t m l 文档制作简单、功能强大，支持不同数据格式的文件嵌入，其主要优点如下： ( 1 ) 简易性。h t m l 版本升级采用超集方式，灵活方便。 ( 2 ) 可扩展性。h t m l 采取子类元素的方式，为系统扩展带来保证。 ( 3 ) 平台无关性。h t m l 可以使用在多种平台上。但是，随着网络的发展，h t m l 也暴露出一些缺点： ( 1 ) 适用性差。不能适应现在越多的网络设备和应用的需要。如手机、p d a 、信息家电都不能直接显示h t m l 。 ( 2 ) 代码量大。h t m l 代码较为不规范，浏览器需要足够智能和庞大才能够正确显示。 ( 3 ) 数据与表现混杂。对不同的网络设备显示同样的数据需要制作不同的h t m l 。 2 1 4d h t m l d h t m l ( d y n a m i ch t m l ) 不是由万维网联盟( w 3 c ) 规定的标准，只是一个营销术语。网景公司和微软公司用来描述4 x 代浏览器应当支持的新技术。d h t m l 不是一种新的语言，是由h t m l 、c s s 和客户端脚本的一种集成，建立在原有技术的基础上，分为三个方面： ( 1 ) h t m l 。页面中的各种页面元素对象，它们是被动态操纵的内容。 ( 2 ) c s s 。c s s 属性也是被动态操纵的内容，目的是获得动态的格式效果。 ( 3 ) 客户端脚本( 例如j a v a s c r i p t ) 。实际操纵w e b 页上的h t m l 和c s s 。使用d h t m l 技术，可使网页设计者创建出能够与用户交互并包含动态内容的页面。实际上，d h t m l 使网页设计者可以动态操纵网页上的所有元素，甚至是在这些页面被装载以后。利用d h t m l ，网页设计者可以动态地隐藏或显示内容、修改样式定义、激活元素以及为元素定位。d h t m l 还可使网页设计者在网页上显示外部信息，方法是将元素捆绑到外部数据源上。所有这些功能均可用浏览器完成而无需请求w e b 服务器，第2 章相父知识介绍同时也无需重新装载网页。这是因为一切功能都包含在h t m l 文件中，随管对网页的请求而一次性下载到浏览器端。d h t m l 技术足一种非常实用的网页设计技术。实际上， d h t m l 早已广泛地应用到了各类大大小小的网站中，成为高水平网页必不可少的组成部分。当网页从w 曲服务器下载后无须再经过服务器的处理，而在浏览器中直接动态地更新网页的内容、排版样式、动画。它是一种通过各种技术的综合发展而得以实现的概念，这些技术包括j a v a s c r i p t 、v b s c r i p t 、d o m 、l a y e r s 和c s s 样式表等【1 9 1 。 2 1 5j a v a s c r i p t j a v a s c r i p t 是一种基于对象( o b j e c t ) 和事件驱动( e v e n td r i v e n ) 并具有安全性能的脚本语言。使用j a v a s c r i p t 的目的是与h t m l 超文本标记语言、j a v a 脚本语言( j a v a 小程序) 一起实现在一个w e b 页面中连接多个对象，与w e b 客户交互作用，从而可以开发客户端的应用程序等。j a v a s c r i p t 是通过嵌入或调入在标准的h t m l 语言中实现的，它的出现弥补了h t m l 语言的缺陷，是j a v a 与h t m l 折衷的选择【2 0 】。 j a v a s c r i p t 具有以下几个基本特点： ( 1 ) j a v a s c r i p t 是一种脚本语言。采用小程序段的方式实现编程，像其它脚本语言一样，j a v a s c r i p t 同样已是一种解释性语言，提供了一个简易的开发过程。j a v a s c r i p t 的基本结构形式与c 、c + + 、v b 、d e l p h i 十分类似，但j a v a s c r i p t 不像这些语言一样，需要先编译，而是在程序运行过程中被逐行地解释。j a v a s c r i p t 与h t m l 标识结合在一起，从而方便用户的使用操作。 ( 2 ) j a v a s c r i p t 是一种基于对象的语言。同时以可以看作一种面向对象的。这意味着 j a v a s c r i p t 能运用自己已经创建的对象。因此，许多功能可以来自于脚本环境中对象的方法与脚本的相互作用。 ( 3 ) 简单性。首先j a v a s c r i p t 是一种基于j a v a 基本语句和控制流之上的简单而紧凑的设计，从而对于学习j a v a 是一种非常好的过渡。其次j a v a s c r i p t 的变量类型是采用弱类型，并未使用严格的数据类型。 ( 4 ) 安全性。j a v a s c r i p t 是一种安全性语言，不允许访问本地的硬盘，并不能将数据存入到服务器上，不允许对网络文档进行修改和删除，只能通过浏览器实现信息浏览或动态交互，从而有效地防止数据的丢失。 ( 5 ) 动态性。j a v a s c r i p t 是动态的，可以直接对用户或客户输入做出响应，无须经过 w 曲服务程序。对用户的反映响应，j a v a s c r i p t 是采用以事件驱动的方式进行的。所谓 9 河北人i ：0 乏硕十。学何沦文事件驱动，就足指在主页( h o m ep a g e ) 中执行了某种操作所产生的动作，就称为“事件”( e v e n t ) 。比如按下鼠标、移动窗口、选择菜单等都可以视为事件。事件发生后，会引起相应的事件响应。 ( 6 ) 跨平台性。j a v a s c r i p t 是依赖于浏览器本身，与操作环境无关，只要能运行浏览器的计算机，并支持j a v a s c r i p t 的浏览器就可正确执行。综上所述j a v a s c r i p t 是一种新的描述语占，它可以被嵌入到h t m l 的文件之中。 j a v a s c r i p t 语言可以做到回应使用者的需求事件( 如f o r m 的输入) ，而不用任何的网路来回传输资料，所以当一位使用者输入一项资料时，j a v a s c r i p t 不用经过传给服务器端 ( s e r v e r ) 处理，再传回来的过程，而直接可以被客户端( c l i e n t ) 的应用程式所处理。 j a v a s c r i p t 和j a v a 很类似。j a v a 是一种比j a v a s c r i p t 更复杂的程序设计语言，而 j a v a s c f i p t 则是相当容易了解的语言。j a v a s c r i p t 创作者可以不那么注重程序设计技巧，所以许多j a v a 的特性在j a v a s c r i p t 中并不支持。 2 2x m l 2 2 1x m l 简介 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 最p 可扩展标记语言，它与h t m l 一样，都是 s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ，标准通用标记语言) 。x m l 是一种简单的数据存储语言，使用一系列简单的标记描述数据，而这些标记可以用方便的方式建立。在i n t e r n e t 环境中x m l 可以跨平台，是依赖于内容的技术，是当前处理结构化文档信息的有力工具。 x m l 与a c c e s s 、o r a c l e 和s q ls e r v e r 等数据库不同，数据库提供了更强有力的数据存储和分析能力，例如：数据索引、排序、查找、相关一致性等，x m l 仅仅是展示数据。x m l 与h t m l 的设计区别是：x m l 是用来存储数据的，重在数据本身，而h t m l 是用来定义数据的，重在数据的显示模式。 x m l 的简单使其易于在任何应用程序中读写数据，这使x m l 很快成为数据交换的唯一公共语言，虽然不同的应用软件也支持其它的数据交换格式，但不久之后他们都将支持x m l ，那就意味着程序可以更容易的与w i n d o w s 、m a co s 、l i n u x 以及其他平台下产生的信息结合，然后可以很容易加载x m l 数据到程序中并分析它，并以x m l 格 l o 第2 审相关知识介，j 式输出结果。 2 2 2x m l 语法规则 x m l 的文档和h t m l 的原代码类似，也是用标谚末标识内容。创建x m l 文档必须遵守下列重要规则【2 l 】： ( 1 ) 必须有x m l 声明语句。声明是x m l 文档的第一句，其格式如下：声明的作用是告诉浏览器或者其它处理程序：这个文档是x m l 文档。声明语句中的v e r s i o n 表示文档遵守的x m l 规范的版本；s t a n d a l o n e 表示文档是否附带d t d 文件，如果有，参数为n o ；e n c o d i n g 表示文档所用的语言编码，默认是u t f 一8 。 ( 2 ) 是否有d t d 文件。如果文档是一个有效的x m l 文档，那么文档一定要有相应d t d 文件，并且严格遵守d t d 文件制定的规范。d t d 文件的声明语句紧跟在x m l 声明语句后面，格式如下：其中： ”! d o c t y p e ”是指你要定义一个d o c t y p e ； ”t y p e - o f - d o c ”是文档类型的名称，由你自己定义，通常于d t d 文件名相同； ”s y s t e m p u b l i c ”这两个参数只用其一。s y s t e m 是指文档使用的私有d t d 文件的网址，而p u b l i c 则指文档调用一个公用的d t d 文件的网址。 ”d t d - n a m e ”就是d t d 文件的网址和名称。所有d t d 文件的后缀名为 d t d ”。我们还是用上面的例子，应该写成这样： ( 3 ) 注意大小写。在x m l 文档中，大小写是有区别的。和是不同的标识。注意在写元素时，前后标识大小写要保持一样。例如： d a v i d ，写成 d a v i d 是错误的。最好养成一种习惯，或者全部大写，或者全部小写，或者大写第一个字母。这样可以减少因为大小写不匹配产生的文档错误。 ( 4 ) 给属性值加引号。 l l 河北人学f ：学硕十。何沦文在h t m l 代码里面，属性值可以加引号，也可以不加。例如： w o r d 年l w o r d 都可以被浏览器正确解释。但是在x m l 中则规定，所有属性值必须加引号( 可以是单引号，也可以是双引号) ，否则将被视为错误。 ( 5 ) 所有的标识必须有相应的结束标识。在h t m l 中，标识可能不是成对出现的，l l 。而在x m l 中规定，所有标识必须成对出现，有一个开始标识，就必须有一个结束标识。否则将被视为错误。 ( 6 ) 所有的空标识也必须被关闭。空标识就是标识对之间没有内容的标识。l t , 女l j ，等标识。在x m l 中，规定所有的标识必须有结束标识，针对这样的空标识，x m l 中处理的方法是在原标识最后a n ，就可以了。例如：应写为；应写为 2 2 3d t d x m l 是一种元标记语言，是描叙语言的语言，定义标记的语法结构，从而生成新标记。而d t d 则是为新标记建立文档并进行规范说明，也就是说x m l 定义标记的语法结构是通过d t d 来定义，并指定文档结构的规范，而x m l 文档来使用标记。 d t d 定义了文档中的元素( 标记和属性) 、实体以及相互关系，它的数据和结构分离。通过d t d 可以验证x m l 文档的有效性，并能够为解析器提供了解析x m l 文档的依据。所以每个x m l 文档必须指定对于哪个d t d 有效。 2 2 4x p a t h x p a t h 于1 9 9 9 年1 1 月1 6 同成为w 3 c 标准。x p a t h 即为x m l 路径语言( x m l p a t h l a n g u a g e ) ，它是一种用来确定x m l 文档中元素位置的语言。x p a t h 基于x m l 的树状结构，提供在数据结构树中找寻节点的能力。起初x p a t h 的提出的初衷是将其作为一个通用的、介于x p o i n t e r 与x s l 间的语法模型，但是x p a t h 很快的被开发者当作小型查询语言【2 2 】。在x p a t h 中，有7 种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档( 根) 节点。x m l 文档是被作为节点树来对待的，树的根被称为文档节点或者根节点。x p a t h 使用路径表达式来选取x m l 文档中的节点或节点集。节点通过路径 o a t h ) 或者步( s t e p s ) 来选取。 1 2 筇2 市相芙知识介宝“ 2 2 5x h t m l x h t m l 是t h ee x t e n s i b l eh y p e rt e x tm a r k u pl a n g u a g e ( 可扩展超文本标识语言) 的缩写。h t m l 是一种基本的w e b 网页设计语言，x h t m l 是一个基于x m l 的置标语言，看起来与h t m l 有些相象，只有一些小的但重要的区别，x h t m l 就是个扮演着类似 h t m l 的角色的x m l ，所以，本质上说，x h t m l 是一个过渡技术，结合了部分x m l 的强大功能及大多数h t m l 的简单特性。 2 0 0 0 年底，国际w 3 c 组织( w o r l dw i d ew e bc o n s o r t i u m ) 组织公布发行了x h t m l1 o 版本。x h

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）deep+web数据抽取及语义标注研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档