




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)深网查询接口判定技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理i :人学硕十学位论文 摘要 深网是相对于表层网而言的,随着互联网信息的不断扩充和加深,越来越 多的信息资源通过动态网页技术与数据库技术相结合的方式提供给人们。但是, 传统的搜索引擎受技术等各种限制,无法获取在线数据库中的信息,导致大量 高价值和权威信息变成“不可见”的深网信息。由于查询接口是进入深网后台 数据库的唯一入口,用户只能通过向查询接口提交查询来获取深网信息,所以 对查询接口的j 下确判断和识别将是获取深网信息的关键所在。 围绕着深网查询接口的识别和判断,本文做了以下主要研究工作: 首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网 的概念、价值,以及深网信息的搜索方法等,并提出了本文的研究问题和方向; 其次,搜集不同领域的各种表单,对其特征进行d o m 解析和提取,并将提 取出来的特征保存到数据库中; 再次,对原始数据集做预处理操作,包括去除冗余和噪声,属性选择,格 式变换,离散化处理等; 最后,运用几种典型的分类算法对数据集进行分类和预测,包括决策树c 4 5 分类算法、支持向量机s v m 、k 一近邻算法和朴素贝叶斯分类器,在分类和预测过 程中,选择了随机取样中的保持法和十折交叉验证法,通过实验结果的分析和 比较,选出精确度最高的算法作为判断和识别深网查询接口的算法。 在本文结论中,提出了针对深网查询接口所要做的进一步研究工作。 对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断 深入,深网研究必将取得更大的突破和收获。 关键字:深网,查询接口,d o m 解析,决策树c 4 5 分类算法,十折交叉验证 a b s t r a c t t h ed e e pw e bi so p p o s i t et ot h es u r f a c ew e b a s t h ei n t e r n e tc o n t i n u e st oe x p a n d a n dd e e p e n ,m o r ea n dm o r ei n f o r m a t i o na r ea v a i l a b l et op e o p l et h r o u g ht h ew a y w h i c hu n i f i e st h ed y n a m i ch o m e p a g et e c h n o l o g y a n dt h ed a t a b a s et e c h n o l o g y h o w e v e t t h et r a d i t i o n a ls e a r c he n g i n e sc a l ln o tc r a w lt h eo n l i n ed a t a b a s e st oo b t a i n i n f 6 n n a t i o nd u et ot e c h n i c a lr e s t r i c t i o n s a n do t h e rr e a s o n s ,al a r g en u m b e ro f h i g h v a l u ei n f o r m a t i o ni n s i d et h ed e e pw e bb e c o m e si n v i s i b l e s i n c e t h eq u e r y i n t e r f a c e sa f et h eo n l ye n t r a n c et ot h ed e e pw e bd a t a b a s e s ,a n du s e r sc a no b t a i n i n f b n n a t i o nf r o mt h ed e e pw e bo n l yb ys u b m i t i n gq u e r i e s t ot h eq u e r y i n t e 血c e s ,c o r r e c t l yj u d g ea n di d e n t i f yt h eq u e r yi n t e r f a c e si sv e r yi m p o r t a n tt oo b t a i n i n f o r m a t i o no ft h ed e e pw e b s u r r o u n d i n gw i t ht h ej u d g e m e n ta n di d e n t i f i c a t i o n o ft h eq u e r yi n t e r f a c e s ,t h i s t h e s i sm a i n l yh a sd o n et h ef o l l o w i n gr e s e a r c h e s : f i r s t l y , s t u d yt h er e l a t e dk n o w l e d g eo f t h ed e e pw e ba n dt h er e s e a r c hs i t u a t i o na t h o m ea n da b r o a d ,i n c l u d i n gt h ec o n c e p t 、v a l u ea n d t h ei n f o r m a t i o ns e a r c hm e t h o d so f t h ed e e pw e b ,t h e ng i v et h er e s e a r c hq u e s t i o na n dd i r e c t i o no ft h i st h e s i s ; s e c o n d l y , c o l l e c tav a r i e t yo ff o r m sf r o md i f f e r e n td o m a i n s ,p a r s et h ef o r m si n t o d o mt r e e s ,e x t r a c tc h a r a c t e r i s t i c so fe a c hf o r m ,a n ds a v et h ec h a r a c t e r i s t i c s t oa d a t a b a s e ; t h i r d l y , m a k ep r e p r o c e s s i n go ft h ep r i m i t i v ed a t as e t s ,i n c l u d i n gt h er e m o v a lo f r e d u n d a n c y a n dn o i s e a t t r i b u t es e l e c t i o n ,f o r m a t c o n v e r s i o n d i s c r e t l z a t l o n p r o c e s s i n ga n ds oo n ; f i n a l l v ,u s es e v e r a lk i n d so ft y p i c a l c l a s s i f i c a t i o na l g o r i t h m st oc l a s s i f y a n d p r e d i e t t h ed a t as e t s t h ec l a s s i f i c a t i o na l g o r i t h m s i n c l u d ed e c i s i o nt r e ec a 5 c l a s s i f i c a t i o na l g o r i t h m ,s u p p o r tv e c t o rm a c h i n e ,k - n e a r e s tn e i g h b o rc l a s s i f i c a t i o n a l g o r i t h m a n dn a i v eb a y e s i a nc l a s s i f i e r i n t h e p r o c e s s o fc l a s s i f i c a t i o na n d p r e d i c t i o n h o l d o u to fr a n d o ms a m p l i n ga n d 1 0 - f o l dc r o s s v a l i d a t i o na r es e l e c t e d b a s e do nt h ea n a l y s i sa n dc o m p a r i s o no ft h ee x p e r i m e n t a l r e s u l t s ,t h eh i g h e s t i i 武汉理j :入学硕+ 学位论文 a c c u r a c ya l g o r i t h mi sc h o o s e dt oj u d g ea n di d e n t i f yt h ed e e pw e bq u e r yi n t e r f a c e s t h ec o n c l u s i o no ft h i st h e s i sp u t sf o r w a r ds e v e r a lp o i n t sf o rt h ef u r t h e rr e s e a r c h o ft h ec h o s e nt o p i c a l t h o u g ht h er e s e a r c ho ft h ed e e pw e bi so n l ya ta l le a r l ys t a g en o w ,t h ed e e p w e br e s e a r c hw i l l s u r e l y m a k eab i g g e r b r e a k t h r o u g ha n dh a r v e s t w i t ht h e u n c e a s i n g l ye x p l o r a t i o nb yp e o p l e k e y w o r d s :d e e pw e b ,q u e r yi n t e r f a c e ,d o m ,d e c i s i o nt r e ec 4 5c l a s s i f i c a t i o n a l g o r i t h m ,1 0 - f o l dc r o s s v a l i d a t i o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:奎刍:垒日期:竺型:竺 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生签名:垄至垒导师签名:近塑! 丝日期:塑2 :皇 武汉理f :人学硕+ :学位论文 1 1 深网简介 第1 章绪论 随着w o r l dw i d ew e b 的飞速发展,互联网广泛渗入到社会生活的各个领域, 其深度和广度己超出人们的一般想象。据估计,目前互联网的容积,比雅虎等 热门网站所覆盖的至少要大5 0 0 倍,传统的搜索工具只能掠过网络深海的表 面,而那些隐藏的丰富资源,很难靠搜索引擎搜寻得到,这令搜索者十分懊恼。 越来越多的信息被贮存到可以在线访问的数据库,例如:政府机构、企业单位 和高等学校的资料库,并且,这些巨大的资料库正在不断膨胀和演化。传统的 搜索引擎通过爬虫沿着超链接定期抓取网络上的网页,然后提取网页中相关信 息,但是,却无法爬行获取在线数据库中的信息,导致如此巨大的资料库对于 搜索引擎来说成了“看不见”的,因此,深网( d e e pw e b ) 的概念应运而生。 1 1 1 深网的概念 如果把整个w o r l dw id ew e b 按其所蕴涵信息的“深度”划分,可分成两大 部分:表层网( s u r f a c ew e b ) 和深网( d e e pw e b ) 。 表层网是指存储在w e b 空间,由超链接链接起来的静态网页、文件等资源, 一般来说通过超链接就可以访问到,并且,静态网页内容在一定时间内相对稳 定。这罩所说的表层网是指用网页搜索引擎可以索引到的w e b 内容。 深网又叫h i d d e nw e b 或i n v i s i b l ew e b 。1 9 9 4 年,美国的d r j i l l e 1 1 s w o r t h 乜3 率先使用“i n v i s i b l ew e b ”一词,指那些由普通搜索引擎无法发现 其信息内容的w e b 页面。2 0 0 1 年,c h r i s ts h e r m a n ,g a r yp r i c e 对深网定义 为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作 索引的那些文本页、文件或其它通常是高质量、权威的信息1 。 广义上来说,深网的内容主要包含以下4 个方面h : ( 1 ) 通过填写表单,形成对后台在线数据库的查询而得到的动态页面; ( 2 ) 由于缺乏被指向的超链接而没有被搜索引擎索引到的页面,大约占整 个比例的2 1 3 ; 武汉理l :人学硕十学何论文 ( 3 ) 需要注册或其它限制彳。能访问的内容; ( 4 ) w e b 上可访问的非网页文件,比如图片文件等。 在实际使用中,人们更关注的是第一部分,也就是在线数据库中的深网信 息,我们把w e b 中可访问的在线数据库也称为w e b 数据库,随着w e b 相关技术 的日益成熟和深网所蕴含信息量的快速增长,通过对w e b 数据库的访问逐渐成 为获取信息的主要手段,而对深网的研究也越来越受到人们的关注。 1 1 2 深网的价值 在2 0 0 0 年7 月,b r i g h t p l a n e t 哺1 公司发布了d e e pw e b 白皮书,指出深网资 源容量约为表层网的5 0 0 倍,而且包含着更多有价值的资源信息。 以下进行简述哺3 : ( 1 ) 深网包含的可访问公共信息容量是我们熟知的表层网的4 0 0 、5 0 0 倍。 ( 2 ) 深网包含7 5 0 0 t b 的信息,而表层网包含的信息容量只有1 9 t b 。 ( 3 ) 深网包含5 5 0 0 亿独立文档,相对应的表层网只包含1 0 亿个。 ( 4 ) 现有的深网站点估计超过1 0 0 ,0 0 0 个。 ( 5 ) 6 0 个最大深网站点就已包含7 5 0 t b 信息,超过表层网所包含信息的4 0 倍。 ( 6 ) 平均来看,深网站点的月访问量比表层网站点高出5 0 ,并且与表层 网站点相比有更多的链接。可是那些典型的大型深网站点在互联网搜 索领域却不知名。 ( 7 ) 深网是互联网新信息增长的最大来源。 ( 8 ) 深网站点在信息内容范围上比一般表层网站点更专更深。 ( 9 ) 深网包含的有效高质量内容总量至少是表层网的1 0 0 0 到2 0 0 0 倍。 ( 1 0 ) 超过一半的深网内容都保存在专业领域的数据库中。 ( 1 1 ) 9 5 的深网信息都是面向公共访问的,而不需要付费或者订阅。 该白皮书还指出,即使是当前最大的搜索引擎,也只索引了表层网中1 6 的信息量,如果再算上那些无法被传统搜索引擎索引的深网中的信息,那么一 般搜索引擎只能搜索0 0 3 的w e b 信息。由此可见,研究和挖掘深网信息对于 提高搜索覆盖率和准确率有着非常重要的意义。 2 武汉理i :人学硕十学位论文 1 2 深网信息搜索方法 深网蕴含着如此巨大的信息量,并且仍然在以不可思议的速度增加和扩 充到各个领域,如下表卜1 所示为深网覆盖的领域分布情况盯1 : 表卜1深网覆盖的领域分布 虽然传统搜索引擎的出现为人们提供了极大的便利,但是仍然有大量的深 网资源对用户而言是“不可见”的,也就是说这类资源没能被传统的搜索引擎 索引到,用户通过一般搜索引擎无法检索到这些信息。导致深网信息不可见的 原因主要有如下几个方面暗叫: ( 1 ) 没有超链接指向 传统的搜索引擎爬虫主要是通过跟踪网页内的超链接来提取新的u r l ( u n if o r mr e s o u r c el o c a t o r ,即统一资源定位符) ,如此循环往复。而w e b 数 据库资源的组织方式是以数据库为后台,动态网页技术与数据库技术相结合的 方式,所以,用户在w e b 数据库接口页面上输入检索词以后,获得的页面不是 预先就存在的静态页面,而是针对用户本次的检索词和其他一些限制条件动态 生成的网页。 ( 2 ) 爬虫无法填写接口表单 搜索引擎爬虫程序无法自动填写表单,更没有思考分析能力,自然访问不 了后台数据库,也就造成了深网资源的不可见。 ( 3 ) 搜索引擎技术限制 武汉理i :人学硕- :学位论文 搜索引擎受到资源、时间等技术限制,或者害怕掉入动态网页所设置的蜘 蛛陷阱程序而陷入死循坏中,不得不采用的排除索引策略,对某些网页或文档 不进行索引。 其实,深网资源的不可见,并不是天生就不可见,也不是永远都不可见, 比如,今天的不可见资源,到了将来也许就成为可见范围了,这也是广大研究 工作者的最终目标,将大量的不可见深网资源呈现给人们,使其对用户而言是 可见的资源。下面对已有的深网搜索研究成果进行介绍。 从国际国内研究工作看,对深网的研究逐渐受到了国内外专家和学者的高 度重视。已经有8 r i g h t p l a n e t 和d e e pw e b 以及i n v i s i b l ew e b 三家公司在w e b 数据库的大规模集成方面生产相关产品,但是,他们都采用半自动方式,人工 干预较多,而且,目前还没有中文深网信息服务n 引。 w a s h i n g t o n 大学的s h o p b o t n 3 1 研究小组:s h o p b o t 是一个针对消费产品的比 较代理,它利用特定领域的启发式方法来填写表单,以比较某领域内的商业产 品,其聚焦于处理卖主站点的表单提交页面所返回的产品列表。s h o p b o t 操作分 为两个阶段:离线学习阶段和在线产品比较阶段。在离线学习阶段,确定如何 填写站点表单,以及对产品站点结果页面进行分析,并获取其站点模式信息; 在线产品比较阶段,利用学习阶段得到的站点模式结构来抽取结果信息,寻找 满足用户要求的产品,最终将这些产品信息格式化输出。可以看出其研究领域 非常狭窄,不适用于大规模的信息集成。 s t a n f o r d 大学的h i d d d e nw e be x p o s e r ( h i w e ) 引:r a g h a v a n 和 g a r c i a m o li n a 专注于研究如何发现站点中的深度网络资源,设计了一种可以抽 取深度网络信息的爬虫h i w e ,在此系统中爬虫管理器负责管理搜集过程。它首 先对下载的w e b 页面进行分析,包含表单的页面被送到表单处理器中处理;然 后,表单处理器从页面中抽取表单结构,并从预先准备好的数据集中选择数据 自动地完成表单的填写:最后,再将合成的u r l 地址提交爬虫管理器去下载相 应的结果页面。由于系统是自动完成表单填写,所以,用户必须预先准备相应 的表单数据集。h i w e 只能面向特定的领域使用,而且必须在人工辅助下完成, 因此存在很大的局限性。 在集成系统方向上的w i s e i n t e g r a t o r n 5 1 :w i s e i n t e g r a t o r 是对商务领域 的深度网络进行数据集成的一个系统,接口的集成是该系统中的一个重要组成 部分,它是一个综合的解决方案。首先对每个查询接口进行分析,获取其中的 4 武汉理l :人学硕十学位论文 属性信息,在语义分析的过程中用到了一个很重要的工具w o r d n e t 3 ;接着是属 性匹配;在完成对所有查询接口的属性匹配后,要为匹配的属性在集成的查询 接口上确定它的全局名称、类型和取值范围,这样就得到了一个集成的查询接 口。 c o l o m b i a 大学的q p r o b e rn 6 1 研究小组:p a n a g i o t i sg i p e i r o t i s 等人研 究了自动地将w e b 页面所连接的后台数据库进行分类的方法。它首先使用机器 学习技术生成一套基于规则的分类器( c l a s s i f i e r ) ;然后抽取分类器规则和基 本u r l 组合成查询u r l ,对后台数据库进行查询探测,并计算查询结果数;最后 根据查询结果数对数据库进行分类。其研究工作只集中在文档数据库分类上, 但是,实际上大量的深网数据库提供的内容是结构化的数据,因此存在着局限 性。 a l c t s 的2 0 0 3 年度会议项目为:m e t a d a t ah a r v e s t i n g :u s i n gt h eo p e n a r c h i v e si n i t i a t i v ep r o t o c o lt oe x p o s et h ed e e pw e b ,该项目旨在利用o a i ( o p e na r c h i v e si n i t i a t i v e ) 协议把元数据的思想应用于深网,利用元数据 来标注深网资源,以便获得更好的检索效率,但是,这方面的研究还在初步阶 段。 目前国内对深网信息的搜索与挖掘方面的研究尚处于探索阶段,而且数据 源的分类还是一个刚刚起步的过程,查询接口的集成大多都是在已经手动分类 好的一些数据源基础上进行的研究。搜索引擎目前还不能提供对深网的搜索服 务,分类目录服务是目前检索深网的一个途径,虽然,国内也出现了一些深网 分类目录服务站点,但是,尚处于手工处理阶段,还不能实现自动化或半自动 化索引处理,所以,总的来说对深网数据的研究仍然处于刚刚起步的阶段,还 有大量关键的问题需要做深入细致的研究。 1 3 选题方向及其意义 深网中的信息量如此巨大,但由于种种原因,却不被主流搜索引擎索引。 由于w e b 数据库的访问只能通过其提供的查询接口进行,虽然包含查询接口的 网页很容易被找到,但是,要想获取隐藏在后台w e b 数据库中的信息,却只有 先向数据库提交查询,在与数据库进行交互之后,才能获得。目前的搜索引擎 还无法完成自动填写和提交查询接口动作,因此深网信息很难被一般搜索引擎 5 武汉理i :人学硕十学位论文 获取。 由于查询接口是进入深网后台数据库的唯一入口,而互联网上大多数的查 询接口都是以h t i l 语言编写的f o r m 网页表单形式出现,所以,正确判定一个 网页表单是否是查询接口对深网信息的获取将是至关重要的。但是,我们知道, 互联网上的任意网页之问并没有一个统一的格式,同时,并非所有以h t m l 语言 编写的f o r m 网页表单都是查询接口,这使得深网查询接口的判断工作面临很大 的困难。由于机器学习能从大量的数据中发现可能包含在其中的规律,并通过 概率统计给出误差和精度,所以,本文利用机器学习方法对互联网中的表单进 行学习,再用学习得到的结果来判断任意表单是否是深网的查询接口。查询接 口的识别是深网信息获取的第一步,也是最关键一步,只有在真正的深网查询 接口上才能作进一步的深网信息探索工作。 1 4 论文的主要研究内容和步骤 本文的主要研究工作就是采用不同的机器学习算法对网络表单实例进行学 习,学习过程包括分类和预测,再对学习结果分析和比较,并从中选出效果相 对较好的算法应用于深网查询接口的判断和识别。 以下是本文的主要研究步骤: 第一步:收集各种领域的表单实例,其中,包含深网查询接口和非深网查 询接口; 第二步:对每个实例表单进行h t m ld o m 解析,提取特征值,同时存入数据 库中; 第三步:在所有实例表单的特征值被存入数据库中以后,对原始数据集进 行初步整理; 第四步:将整理后的数据集随机分成几组训练数据集和测试数据集,其中 训练数据集约占整个数据集的三分之二,测试数据集约占整个数 据集的三分之一; 第五步:利用w e k a 系统中的几种分类算法分别对前面得到的几组训练数据 集和测试数据集进行分类和预测; 第六步:根据所得结果比较和分析几种分类算法的准确率以及稳定性,选 择其中准确率最高和稳定性最好的算法作为判断深网查询接口的 分类算法。 6 武汉理l :人学硕十学何论文 1 5 论文的结构 全文共分为5 章,各章的具体内容安排如下: 第l 章为本文的绪论部分,主要介绍深网的相关背景知识,具体包含深网 的概念、价值,以及深网信息的搜索方法,然后对本论文的主要研究工作进行 了阐述,并对论文的结构进行了描述。 第2 章是对涉及到的关键知识介绍,首先是h t m l 语言的结构和h t m l 表单 的控件和常用标签,然后对d o m 文档对象模型进行了概述,并列表给出了d o m 对h t m l 文档操作时常用的属性和方法,最后对几种分类算法和w e k a 系统进行 了简单介绍。 第3 章对本文的主要研究工作做了详细描述,首先介绍了如何提取深网表 单特征的过程,然后在提取特征后得到的原始数据上进行预处理操作,最后选 用不同的分类算法进行分类和预测,并根据分类和预测的结果选择准确率较高 的作为判断深网查询接口的分类算法。 第4 章是实验部分,对不同分类算法在不同数据集上的分类和预测结果进 行了展示和分析。 第5 章是全文工作的总结,并提出了进一步的工作和研究方向。 7 武汉理j :人学硕十学位论文 第2 章特征解析及分类算法 本章主要对判断深网查询接口时涉及到的几个关键技术进行了分析,其中 包括h t m l 表单、d o m 文档对象模型,以及w e k a 系统工具和几种分类算法。 2 1h t m l 接口表单 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ,超文本标记语言) 是一种在w o r l dw i d e w e b 上发布超文本的国际通用的标准标记语言,最初是由s g m l ( s t a n d a r d g e n e r a li z e dm a r k u pl a n g u a g e ) 标准通用标记语言发展而来。 从形式上看,h t m l 文件是标准的a s c i i ( a m e r i c a ns t a n d a r dc o d ef o r i n f o r m a t i o ni n t e r c h a n g e ) 格式的文本文件,但与普通的文本文件不同的是, 它加入了很多h t m l 标签,这些标签对应于h t m l 语言中的不同元素( e l e m e n t ) , 这些标签可用于组织文件的内容和指导文件的输出格式。 h t m l 表单就是由开始标签 和结束标签 表示,即标签 和 之间的内容,它是h t m l 语言的一个重要组成部分。表单是在w e b 网 页中用来给访问者填写信息,当访问者填写完信息后做提交操作,表单的内容 就从客户端的浏览器传送到服务器上,经过服务器上的a s p ( a c t i v es e r v e r p a g e ,动态服务器页面) 或c g i ( c o m m o ng a t e w a yi n t e r f a c e ,公共网关接口) 等处理程序处理后,再将用户所需要的信息传送回客户端的浏览器上,从而获 得用户所需信息,使网页具有交互的功能,由此可以看出,h t m l 表单实际上就 是一个人机交互接口。一个表单主要由表单标签和表单控件两个部分组成,下 面对它们加以介绍。 2 1 1h t m l 表单标签 表单标签用于声明表单,定义采集数据的范围,g o 和 里面包 含的哪些信息将被提交到服务器。 语法格式: f o r mn a m e = “f o r m n a m e a c t i o n = “u r l ”m e t h o d = “m e t h o d ” 8 武汉理i :人学硕十学位论文 e n c t y p e = “v a l u e ” 属性解释如下: n a m e = f o r m _ n a m e 为表单命名,通过它可以控制表单与后台程序之间的关 系。 a c t i o n = u r l 指定提交表单的格式,它可以是一个u r l 地址或一个电子邮 件地址。 m e t h o d = g e t 或p o s t 指明提交表单的h t t p 方法,具体解释如下: g e t :当不指明是哪种方法时,默认为g e t 方法,此方法将表单内容 附加在a c t i o n 的u r l 地址后面,所以对提交信息的长度进行 了限制,同时g e t 方法不具有保密性,而且不能传送非a s c i i 码的字符,一般不赞成使用; p o s t :此方法是将用户在表单中填写的数据包含在表单的主体中, 一起传送到服务器的处理程序,在浏览器的地址栏不显示提交 的信息,这种方法传送的数据没有限制。 e n c t y p e 指明用来把表单提交给服务器时的互联网媒体形式,其可取 值如下: t e x t p li n :以纯文本形式传送信息; m u l t i p a r t f o r m d a t a :使用m i d e 编码; a p p li c a t i o n x w w w f o r m u r l e n c o d e d :e n c t y p e 属性的缺省值。 t a r g e t 指定提交的结果文档显示的位置: 一b l a n k :将返回信息显示在新打开的浏览器中; 一p a r e n t :将返回信息显示在当前浏览器的直接父级浏览器中; 一s e l f :将返回信息显示在当前的浏览器中: 一t o p :将返回信息显示以最顶部的浏览器中。 2 1 2h t m l 表单常用控件 通过h t m l 表单的各种控件( f o r mc o n t r o l s ) ,用户可以输入文字信息,或 者从选项中选择,以及做提交的操作。 h t m l 表单的常用控件如下: ( 1 ) 单行文本输入框( t e x t ) 单行文本输入框允许用户输入一些简短的单行信息,比如用户姓名。 9 武汉理l :人学硕一卜学位论文 示例代码如下: f _ 一 浏览器中显示为: l ( 2 ) 单选框( r a d i o ) 使用单选框类似于做单项选择题,用户在一组选项罩只能选择一个。 示例代码如下: 男 女 浏览器中显示为:筘男r 女 用c h e c k e d 表示缺省已选的选项,同n a m e 的各个r a d i o 中只能有一个 使用或全不使用这参数,正如上例中m a l e 和f e m a l e 最多只能选中一 个。 ( 3 ) 复选框( c h e c k b o x ) 使用复选框类似做多项选择题,用户在组选项里可以选择一个或多 个。 示例代码如下: 红色 绿色 蓝色 浏览器中显示为:舻红色舻绿色舻蓝色 用c h e c k e d 表示缺省已选的选项,同n a m e 的各个c h e c k b o x 中至少要 选择一个,上例选中所有选项。 ( 4 ) 下拉框( s e l e c t ) 下拉框既可以用做单选,也可以用做复选。 单选示例如下: s e l e c t o p t i o n o p t i o n j a n u a r y v a l u e 2 “0 2 ”s e l e c t e d = “s e l e c t e d ” f e b r u a r y v a lu e = “0 3 ” m a r c h v a l u e = “0 4 ” a p r i l 1 0 武汉理i :人学硕十学位论文 浏览器中显示为:i f e b r u a r y 参数s e l e c t e d 表示该选项为默认被选项。 如果需要复选,可加m u l t i p l e ,用户用c t r l 来实现多选。 ( 5 ) 多行文本输入框( t e x t a r e a ) 多行文本输入框主要用于输入较长的文本信息,比如,在需要填写大量 资料时用。 示例代码如下: 其中c o l s 表示t e x t a r e a 的宽度,r o w s 表示t e x t a r e a 的高度。 浏览器中显示为: ( 6 ) 密码输入框( p a s s w o r d ) 密码输入框主要用于保密信息的输入,例如密码,所以用户输入的时 候,显示的不是真正输入的内容,而是符号“水”。 示例代码如下: r 。9 ”。一 浏览器中显示为:| 木料木木半 ( 7 ) 提交( s u b m i t ) 通过提交按键将表单罩的信息提交给表单里a c t io n 所指向的文件。 示例代码如下: l 浏览器中显示为:兰! 壁! ! i ( 8 ) 清除键( r e s e t ) 清除键将所有的表单控件恢复到初始值,它不向服务器发送任何东西。 武汉理j :人学硕十学位论文 示例代码如下: l 浏览器中显示为: :三:三:| ( 9 ) 图片提交( i m a g e ) 图片提交( i m a g e ) 在功能上相当于提交( s u b m i t ) ,不同的是,图片 提交以一个图片作为表单的提交按钮,因为由程式产生的按键区别不 大,而i m a g e 参数容许用户采用自己制造的个性化按键,所以,通常 用它取代提交( s u b m i t ) 及清除( r e s e t ) 两个按键。 示例代码如下: 此例代表的是s u b m i t 按键,其中s r c 属性表示图片的路径来源。 2 2d o m 文档对象模型 w o r l dw i d ew e b 委员会定义了一种标准的d o m ( d o c u m e n to b j e c tm o d e l ) 文档对象模型,简称w 3 cd o m n7 1 ,可以由n e t s c a p e6 和i e5 以上版本实现。根 据此规范,d o m 是一种与浏览器、平台、语言无关的编程接口,其主要目标是为 了处理由h t m l 或x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,即可扩展标记语言) 编 写的网页信息。 2 2 1d o m 表示的h t m l 文档 d o m 采用树状的模式来表示一个h t m l 文档,其中, 是根节点, 、 、 是予节点,互相之间是兄弟结点,树的叶节点是网页内的内容, 比如文本和图片等等,这种树形结构就构成了一颗d o m 树。 比如源文件如下: 文件头 1 2 武汉理l :人学硕十学位论文 将其解析后生成一颗d o m 树型结构如图2 1 所示: 图2 - id o m 树型结构 从图2 - 1 可以看出,h t m l 的标签被解析成d o m 中的一个个节点,由于节点 是d o m 中的基本对象,而这些节点组成了d o m 的整体结构节点树,所以, 接下来本文就节点树的操作进行分析。 2 2 2d o m 对h t m l 文档的操作 在d o m 树型结构中,每个节点都是一个对象,各节点对象都有自己的属性和 1 3 武汉理i :人学硕十学位论文 方法,通过这些属性和方法可以遍历整颗节点树,并且查询和修改其中的内容。 表2 一l 列出了h t m l 文档中常见的节点类型8 。: 表2 - 1h t m l 文档中常见节点类型 接口n o d e t y p e 类型n o d e t y p e 值说明 e l e m e n t n o d e e l e m e n t _ n o d e 1 元素节点 t e x tn o d e t e x tn o d e3 文本节点 d o c u m e nt n o d e d o c u m e n t n o d e 9 文档节点 c o m m e n t n o d e c o m m e n t _ n o d e 8 注释节点 a t t rn o d e a t t r i b u t en o d e2节点属性 d o c u m e n t f r a g m e n tn o d e d o c u m e n t _ f r a g m e n t _ n o d e 1 1 文档片断节点 d o m 树型结构中节点有两类属性:只读属性和读写属性。只读属性可以浏览 节点,并获得节点的类型及名称等信息;而读写属性则可以访问文字节点的内 容。表2 2 和表2 3 分别列出了节点对象的常用属性和方法n 引: 表2 - 2 节点对象的常用属性 属性访问说明 n o d e n a m e 只读返同该节点的标记名 n o d e t y p e 只读返回该节点的类型:卜标记;2 一属性;3 一文字节点 f i r s t c h i l d 只读返同该节点的第一个子节点对象集合,若无则为n u l l l a s t c h il d 只读返同该节点最后一个子节点对象集合,若无则为n u l l p a r e n t n o d e只读返同该节点的父节点对象,若没有父节点,则为n u l l p r e v i o u s s i b li n g只读返回该节点的左兄弟节点对象,如果没有这样的节点,则 返回n u l l 。 n e x t s i b li n g只读返网该:1 了点的右兄弟节点对象,如果没有这样的节点,则 返回n u l l 。 d a t a 读写如果为文字节点,则返回该节点的内容,否则返回 u n d e f i n e d 。 n o d e v a l u e 读写如果为文字节点,则返回该节点的内容,否则返同n u l l 。 1 4 武汉理l j 人学硕十学位论文 表2 - 3 节点对缘的常用方法 方法及语法说明 o b j p a r e n t a p p e n d c h il d ( o b j c h il d )为o b j p a r e n t 添加子节点o b j c h il d ,返网新增 1 了点对象。 o b j c h i l d a p p e n d e l e m e n t ( o b j p a r e n t )将o b j c h i l d 新增为o b j p a r e n t 的子+ 肖点。 o b j n o d e s e t a t t r i b u t e ( s n a m e ,v y a l u e ) 设置o b j n o d e 的属性名和属性值。 o b j n o d e c l e a r h t t r i b u t e s0清除o b j n o d e 的所有属性。 d o c u m e n t c r e a t e e l e m e n t ( s t r i n g )建立一个h t m l 节点对象,参数t a g n a m e 为标记 的名称。 o b j n o d e c l o n e n o d e ( d e e p )复制节点o b j n o d e ,若d e e p 为f a l s e ,则只复 制该节点;否则,复制以该节点为根的整个树。 o b j n o d e h a s c h il d n o d e s0判断o b j n o d e 是否有子节点,若有则返回t r u e , 否则返回f a l s e 。 o b j p a r e n t ,i n s e r t b e f o r e ( o b j c h i l d ,o b j b r o t在节点o b j p a r e n t 的子节点o b j b r o t h e r 之前插 h e r )入一个新的子节点o b j c h il d 。 o b j t a r g e t m e r g e a t t r i b u t e s ( o b j b r o t h e r )将节点o b j s o u r c e 的所有属性复制到节点 o b j t a r g e t 中。 o b j n o d e r e m o v e n o d e ( d e e p )删除节点o b j n o d e ,若d e e p 为f a l s e ,则只删 除该节点;否则,删除以该节点为根的子树。 o b j n o d e r e p l a c e n o d e ( o b j n e w )用节点o b j n e w 替换节点o b j n o d e 。 o b j n o d e l s w a p n o d e ( o b j n o d e 2 )交换节点o b j n o d e l 与o b j n o d e 2 。 2 3 分类算法 分类算法的分类过程一般都是通过对已经分好类的一组训练数据的学习来 自动创建分类模型,下面简单的介绍几种分类算法。 武汉理j :人学硕十学位论文 2 3 1 决策树分类算法 决策树( d e c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络域名安全保障承诺书5篇
- 疑问句类型与回答技巧解析:初一英语语法重点突破教案
- 高三物理复习备考指导与策略
- 小学阶段作文题库分类与写作指导
- 国际教育合作承诺书9篇
- 手工艺品设计与制作教程
- 公开课教案设计与课堂教学技巧
- 电子商务平台运营策略手册
- 2025年乡村医生考试题库:农村急救技能操作急救知识问答真题模拟解析模拟测试题库
- 2025年教师资格考试《综合素质》教育案例试题解析试卷
- 施工三方协议7篇
- 水生产处理工三级安全教育(班组级)考核试卷及答案
- 2025至2030中国魔芋行业项目调研及市场前景预测评估报告
- 2024新译林版英语八年级上Unit 3 To be a good learner单词表(开学版)
- DGTJ08-2310-2019 外墙外保温系统修复技术标准
- 软件开发分包管理措施
- 冬季四防培训课件
- 建筑公司研发管理制度
- Python编程基础(第3版)(微课版)-教学大纲
- 2024北森图形推理题
- 第三节集装箱吊具一集装箱简易吊具二集装箱专用吊具课件
评论
0/150
提交评论