




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)基于dom结构分析的手机浏览器优化技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 基于d o m 结构分析的手机浏览器优化技术 陈嘉彬 摘要 如今,越来越多的用户通过手机浏览器来访问互联网上的信息和服务。传统 互联网( w o r l d 晰d ew e b ,简写w e b ) 的内容是针对个人电脑终端( p e r s o n a l c o m p u t e r ,简写p c ) 来设计开发的。为了在资源有限的移动终端上也能像p c 浏览器一样正常地访问w e b 的内容,手机浏览器综合应用了多种页面内容优化 技术, 手机浏览器用户希望以较少的交互次数,较短的传输时延,较低的数据流量 和较好的页面展现效果来获取自己最感兴趣的信息。手机个性化浏览也有庞大的 需求。 本文主要研究基于网页结构分析的手机浏览器优化技术及其应用方案。针对 网页的功能类型和功能结构特征,提出了一种能快速抽取出网页d o m ( d o c u m e n t o b j e c tm o d e l ) 树的功能结构并进行分类标记的算法,以及把页面框架结构在手机 上可视化的算法,使得用户可在手机上对页面进行个性化定制。最后,针对各种 网页的功能类型,根据用户的喜好,列举了对网页的内容进行过滤、预读和版面 优化的可行方案。在不影响手机浏览器功能的前提下,增强了页面主要内容的展 现效果,并能帮助用户减少交互次数、等待时延和数据流量,提高了用户体验。 关键词:手机浏览器、d o m 结构分析、信息抽取、个性化浏览 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 o p ti m i z a ti o nb a s e do nd o ms t r u c t u r ea n al y sis a b s tr a c t f o rm o b i l eb r o w s e r j o y b i nc h e n n o w a d a y s ,t h em o b i l eb r o w s e ri sm o r ea n dm o r eu s e dt og e ti n t e r n e ti n f o r m a t i o n a n ds e r v i c e s ,a sd o n eo n ap c ( p e r s o n a lc o m p u t e r ) b u tt h ep cw e bb r o w s e r sa r e m a t c h e d 、析t i lt h et r a d i t i o n a lw o r l dw i d ew e b f o rm a k i n gm o b i l eb r o w s e r c o n v e n i e n tt ov i e wt h ew o r l dw i d ew e b p a g e sa n de a s yt oc o n t r o lo nm o b i l ed e v i c e s , m a n yo p t i m i z a t i o nm e t h o d sw e r ea p p l i e d f o rm o b i l ep h o n eu s e r s ,g e n e r a l l y , t h es p e c i a li n t e r e s t e di n f o r m a t i o ni sg e tf r o m w e b s i t es p e n d i n gl e s si n t e r a c t i v et i m e s ,s h o r t e rn e t w o r k d e l a y sa n dl o w e rd a t af l o w s t h a ti s ,p e r s o n a l i z ew e b b r o w s i n gi sab i gr e q u i r e m e n to nm o b i l eb r o w s e r a o p t i m i z a t i o nm e t h o da n di t sa p p l i c a t i o nf o rm o b i l eb r o w s e rb a s eo nd o m ( d o c u m e n to b j e c tm o d e l ) 咖c t i 鹏a n a l y s i si sd i s c u s s e di nt h i sp a p e r t h ew e b p a g e sa r ec l a s s i f i e di n t of u n c t i o n a lc a t e g o r i e sa n dp a r t s ,a n ds u m m a r i z e do nt h e i r d o ms t r u c t u r a lc h a r a c t e r i s t i c s af a s tc o r es t r u c t u r ee x t r a c t i n ga n dt a g g i n gm e t h o d f o rd o mt r e ei sp r o p o s e d am e t h o dt ov i s u a l i z ea n dr e t r a n s f o r ms u c hc o r es t i u c t i 鹏 o fd o mi sd e v e l o p e d t h ee x p e r i m e n ts h o w st h em e t h o db yt h i sp a p e rc a ns a v ec l i c k s ,i n t e r a c t i v et i m e s a n dd a t at r a n s p o r t s k e y w o r d s : m o b i l eb r o w s e r , d o ms t r u c t u r ea n a l y s i s ,i n f o r m a t i o ne x t r a c t i o n , p e r s o n a l i z e db r o w s i n g 桀于d o m 结构分析的手粤l 测览器优化技术 论文原创性声明内容: 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不包含任何其他个人或集体已经发表或撰写过 的作品成果。对本文的研究作出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 学位论文作者签名:储1 禹牝 日期:扣。吕年i1 月歹日 。 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送 交论文的电子版和纸质版,有权将学位论文用于非赢利目的 的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以 采用复印、缩印或其他方法保存学位论文。 学位论文作者签名班锋毳枢导师签名:煳 日期:z d 口2 ;年月厂日日期:泖p 年t 1 月,日 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 1 1 研究背景 第一章绪论 如果说计算机的出现改变了人类的工作方式,网络的出现改变了人类的沟通 方式,而手机的出现则改变了人类的生活方式。全球手机用户到2 0 0 7 年底已超 过3 3 亿,手机普及率为4 9 。2 0 0 5 年至2 0 0 7 年,非洲的手机用户数量每年以 3 9 的速度增长,亚洲为2 8 。印度和中国两国的手机用户分别增加了1 5 4 亿 和1 4 3 亿,全球平均年增长速度为2 2 e 。截至2 0 0 7 年9 月底,全国手机用户数 达5 2 3 亿户,手机普及率达到每百人3 9 9 部 2 1 。手机网络应用有广泛的用户基础, 具有庞大的消费群。越来越多的手机用户通过手机这种可以随身携带的移动终端 来访问互联网上的信息。在一些国家和特定群体,使用手机来访问互联网的用户 数量甚至超过了通过计算机来上网的用户【3 】。 手机访问的互联网主要是万维n ( w o d dw i d ew e b ,简写w e b ) 。它是分布在 全世界所有w e b 服务器上的互相连接的超文本文档( h y p e r t e x td o c u m e n t ) 的集 合。w e b 主要开发了以下三项基本技术: 指定网上信息资源地址的统一命名方法:统一资源地址( u r l i f o r mr e s o u r c e l o c a t o r , 简写u r l ) 。 存取资源的协议:超文本传输协议( h y p e r t e x tt r a n s f e rp r o t o c o l ,简写h t t p ) 。 在资源之间便于浏览的超文本链接技术:源于h y p e r t e x t 的h y p e r l i n k 。 浏览w e b 网页的软件被称为网页浏览器。在个人计算机( p e r s o n a lc o m p u t e r , 简写p c ) 上运行的网页浏览器,称之为p c 浏览器,而在手机上运行的网页浏 览器则称为手机浏览器。后者正是本文讨论的对象。 要了解手机浏览器,首先要了解p c 浏览器。人们在p c 浏览器上访问w e b 网页,其内容通常是以超文本标记语言( h y p e r t e x tm a k e u pl a n g u a g e ,简写h t m l ) 编写的网页。h t m l 定义了各种指示浏览器如何显示网页内容的标签。h t m l 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 支持脚本( s c r i p t ) 和层叠样式表( c a s c a d i n gs t y l es h e e t ,c s s ) 等复杂的功能元 素。脚本功能使得网页在被用户浏览的过程中,能根据浏览器的执行环境的不同 以及浏览器与用户的交互状态的变化,动态的变换实际显示的内容。c s s 功能能 根据网页元素选择符批量的设置指定网页元素的显示样式,并有一些动态交互的 特性。 可扩展标记语言( e x t e n s i b l em a k e u pl a n g u a g e ,简写x m l ) 是一种比h t m l 句法更严谨表达方式更加灵活的w e b 语言。h t m l 使用预先定义的标签来描述 网页中的元素,而x m l 语言则允许网页开发人员定义自己的标签。可扩展超文 本标记语言( e x t e n s i b l eh y p e r t e x tm a k e u pl a n g u a g e ,简写x h t m l ) 是使用句法严 谨的x m l 对h t m l 进行改造得到的新一代w e b 标准。 w e b 网页上的脚本和c s s 等动态元素,都要通过文档对象模型( d o c u m e n t o b j e c tm o d e l ,简写d o m ) 1 4 来实现对网页内容的访问和修改,它是关于网页文 档的编程接口规范。d o m 提供了一套与平台和语言无关的方法来实现对h t m l 和x m l 文档内容的访问和存取。d o m 是网页文档在内存中的逻辑结构。为了 实现复杂的动态网页应用,d o m 基于h t m l 和x m l 的语义定义了各种便利的 属性和功能。 w e b 网站是针对p c 浏览器来设计开发的,w e b 网页往往包含一些不常用 的额外的信息,并把大量的动态逻辑放在浏览器客户端来完成,以便充分利用 p c 机的运算性能和屏幕尺寸来减少客户端与服务器之间的网络应答次数和开 销。大部分w e b 网页功能强大但结构复杂,难以适应手机屏幕尺寸小、运行速 度慢、内存容量低、网络时延高、传输带宽窄的特点,故不适合在手机上直接使 用。 无线应用协议( w i r e l e s sa p p l i c a t i o np r o t o c o l ,简写w a p ) 是专为手机上网而设 计的无线通信方式5 , 6 , 7 1 。w a p 可以承载h t t p 以及其它常用的互联网协议。无 线标记语言( w i r e l e s sm a k e u pl a n g u a g e ,简写w m l ) 是在w a p l 0 规范里面专为 手机上网而设计的网页内容描述语言。w m l 是x m l 的子集,具备x m l 的各 种特性。大部分手机浏览器支持对w m l 网页的解析和显示。 手机互联网( w a p ) 是以w a p 协议和w m l 格式为基础发展起来的手机内容 站点集合。w a p 和w e b 的不同之处主要在于:w a p 网站是针对手机客户端屏 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 幕小和资源有限的特点来开发的,其网页内容主要以自动适应屏幕宽度的形式来 描述,在每个网页中通常会只包含必要的内容,并把动态的逻辑放在网站服务器 来实现。 随着w a p 的技术越来越成熟,内容越来越丰富,在一定程度上满足了部分 用户对手机上网的内容需求,但w e b 还是主要的互联网信息发布渠道和应用开 发平台。手机浏览器支持浏览w e b 网页需要解决w e b 网页的获取、解析和展 现显示这三个主要问题。目前,世面上常用的支持浏览w e b 内容的手机浏览器 主要包括国外的n e t f r o n t 引、o p e r am o b i l e 和o p e r am i n i t9 1 ,以及国内的 u c w e b t l 0 1 。 o p e r am o b i l e 和n e t f r o n t 等手机浏览器直接支持对w e b 网页的浏览,也就 是手机浏览器在手机终端完成对h t m l 网页的获取和解析,产生相应d o m 数 据结构,并通过d o m 接口完成网页指定的动态操作,最后根据d o m 结构生成 网页展现效果。 o p e r am i n i 和u c w e b 等手机浏览器是通过网络代理的方式间接的支持对 w e b 网页的浏览,也就是在互联网上架设网页内容转换中间件来获取w e b 网 页,在中间件完成对网页内容的解析和d o m 结构的生成和处理,再把需要显示 网页内容转成手机浏览器便于处理的数据格式,交给手机客户端来显示。 以目前国内常用的手机性能和移动网络特性,手机浏览器直接支持对w e b 网页的浏览在网页的获取和解析这两方面会有了不小的问题。首先是内容获取的 问题:由于国内手机网络传输的高时延以及移动网关不支持h t t p 协议里面的 k e e p a l i v e 特性,w e b 网页经常需要加载多个文件,这时客户端的响应时间就会 变得很慢。其次是内容解析的问题:由于d o m 结构比h t m l 文档更复杂,在 资源有限的手机客户端如果完整的实现h t m l 和d o m 的功能特性会导致性能 的问题,目前的折中方案是对一些可能带来性能问题或在手机上难以表现的页面 元素、属性和功能不予支持,这样实现的w e b 网页浏览效果能满足基本的阅读 需要,但有时会有内容残缺或功能不完整的问题。 通过网络代理的方式间接的支持对w e b 网页的浏览,可以把耗时的复杂运 算交给性能强大的网页转换服务器来完成,使得手机浏览器的客户端保持简单高 效,同时又支持w e b 的各种强大功能。这是当前实现手机上的w e b 网页浏览 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 最有效的途径,是目前被普遍使用的主流技术。通过网络代理的方式来实现手机 w e b 网页浏览功能,其技术核心是实现基于网络代理技术的w e b 网页内容转 换服务,称为手机w e b 浏览服务。 基于手机w e b 浏览服务,在客户端既可以利用部分低端手机支持直接测览 w m l 格式网页的特性,通过内容适配技术能够较容易的把w e b 网页浏览器服 务普及到这些的手机终端;也可以为高端手机发行专用的手机浏览器客户端程 序,以便实现各种保密和优化特性。通过专用的客户端程序可以使用专用的协议 和数据格式来传输浏览器请求和需要显示的网页内容,以便通过内容整合和数据 压缩等方式来降低网络交互次数和数据流量。 基于手机w e b 浏览服务,在网页内容转换中间件还能利用群体用户所带来 的规模效益,通过数据缓存和数据分享等方式,对网页内容的转换和网络传输做 进一步的优化,从而提供更好的用户体验。 无论直接还是间接的实现对w e b 网页的显示,手机浏览器都要解决屏幕适 配的问题,也就是如何把原本需要在大屏幕上才能完整显示的内容放到小屏幕上 来显示的问题。实现方式主要有两种【l l l :一种是将w e b 网页的内容消除横向排 版的特征,使得整个网页在手机屏幕宽度内自动折行,转换成类似于w a p 网页 的版面,从而避免了阅读每一行文字的时候都需要横向滚屏浏览的繁琐;另一种 是通过放大缩小的显示方式,力求在较小的显示屏幕上显示整个或部分w e b 网 页。论文【1 2 】描述了通过代理服务器来清除w e b 页面中横向排版的元素从而把 w e b 页面转换成w a p 页面的方法。论文【1 3 l 描述了如何将w e b 页面分成手机小 屏幕能够显示的小块,每块产生一个缩略图,组成顶层页面,显示在p d a 上, 然后点击某块缩略图就能导向具体的内容小块的方法。这两种方式侧重点不同, 分别以快速检索和方便阅读为主要目标。 1 2 研究目的和研究内容 本文的研究目的就是对手机w e b 浏览服务的系统架构进行扩展,使之具备 归纳和应用网页优化模板的能力,在此基础上使手机客户端具备网页内容定制的 能力,并结合网络日志统计分析等手段,为手机w e b 浏览服务的热点网页内容 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 提供默认的优化模板,从而提高手机w e b 浏览服务的总体性能、排版效果和交 互能力。 本文的研究内容可归纳为以下几个主要方面: 1 手机w e b 浏览服务与网页定制服务的系统架构; 2 w e b 网页的功能类型和功能结构特征分析; 3 根据w e b 网页的内容聚合特征进行框架结构抽取; 4 根据w e b 网页的功能结构特征对页面主要结构进行功能结构标记; 5 w e b 网页的框架结构在手机上的可视化 6 基于w e b 网页框架结构的网页个性化定制; 7 网页优化模板的生成与部署; 8 对手机浏览器优化前后的效果进行比较: 9 探讨手机浏览器可实现的网页个性化定制方式并展示定制效果; 1 3 论文的组织结构 本文按如下方式组织:第二章,简要介绍现有的手机w e b 浏览服务技术和 优化策略,并提出基于网页结构分析的手机浏览器的优化设想。第三章,详细分 析w e b 页面的功能分类和功能结构特征。第四章,讨论w e b 页面元素切分与 聚合,提出一种能快速抽取出网页d o m 树的功能结构抽取,并进行类型标注的 算法。第五章,描述页面框架结构的提取和可视化,以及网页在手机上的个性化 定制技术。第六章,描述页面结构分析算法对手机浏览器优化的实际应用实例。 最后一章给出算法总结、缺点和改进方向。 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 第二章手机w e b 浏览服务 2 1 功能特性 通过内容适配的方式来实现手机w e b 网页浏览器,其技术核心是实现基于 网络代理技术的w e b 网页内容转换服务,称为手机w e b 浏览服务。设计该服 务的主要目的是简化手机浏览器客户端的功能逻辑,使得客户端能在资源紧缺的 手机终端上能够流畅的运行,其次是要让手机浏览器能像p c 机浏览器那样毫无 障碍的访问w e b 上的各种网页内容和信息资源。 2 2 设计原则 为了让手机浏览器在资源紧缺的手机终端上能够流畅的运行,客户端的设计 需要针对手机终端的软硬件特性和网络特性对浏览器的各种功能特性进行取舍: 手机屏幕较小,手机浏览器需要消除h m t l 页面默认排版宽度所带来的 影响,或者使用不同的内容承载格式。 手机的输入设备较为简陋,手机浏览器需要在更大程度上发掘基于连接 点击操作来实现的页面交互能力。 手机的内存稀缺,手机浏览器需要精简程序自身的体积,并且中间件要 对大型网页进行分页输出以控制每次浏览的页面的体积。 手机处理器的运算能力较低而电池的续航时间有限,手机浏览器需要简 化页面解析和展现的工作,并尽可能避免页面重新排版所带来的开销。 移动网络的带宽较低且网络延迟较大,手机浏览器需要尽可能减少网络 数据流量和网络交互次数。 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 2 2 1 基本功能 在不增加客户端功能复杂性的前提下,为了让手机浏览器能像p c 机浏览器 那样访问w e b 上的各种网页内容和信息资源,手机w e b 浏览服务主要需要实 现以下功能: 支持常用的网络传输协议,例如h t t p 、h t t p s 、f t p 、s s l 、t l s : 支持常用的网页文件格式,例如h t m l 、) ( h t m l 、w m l 、x m l 、r s s , 需要实现其内容的解析并转换成客户端便于显示的格式; 支持常用图形文件格式,例如g i f 、p n g 、j p e g 、s v g 、i c o ,需要把 这些图形转换成客户端支持的图像格式; 支持c s s ,需要实现其规则和属性的解析和应用; 支持网页脚本功能,需要实现对d o m 的解析和操控,以及支持j a v a s c d p t 的事件触发和执行; 支持c o o k i e ,让网站可以追踪浏览者,需要实现用户管理,使得不同用 户的c o o k i e 数据得到独立的管理; 支持网页表单,需要实现常用的表单提交方式和数据编码方式; 支持文件的上传和下载,需要实现对m i m e 文档类型的识别和处理,并 为手机存储空间有限或无法访问手机存储的客户端提供网盘功能; 2 2 2 辅助功能 手机w e b 浏览服务只要完整的实现了以上功能就能使手机浏览器基本具备 了不亚于p c 浏览器的网页浏览能力。为了便于手机用户的使用,手机w e b 测 览服务还要考虑实现一些辅助的功能,例如: 提供首页导航和推荐网站 提供书签的网络同步与管理 支持浏览历史记录和客户端的网页内容缓存 透过第三方插件( p l u g i n s ) 支援多媒体 提供更多的个性化定制功能和选项 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 2 3 系统架构 手机w e b 浏览服务的基本工作原理是按照手机浏览器发过来的请求,通过 网页内容转换中间件来获取w e b 上的内容,再把h t m l 页面转成手机便于解析 显示的格式,再返回给手机浏览器来显示。 2 3 1 总体结构 手机w e b 浏览服务的基本系统架构如下图2 1 所示: 昏 图2 - 1 手机w e b 浏览服务的基本系统架构 从图中可以看到整个系统的基本架构可大致分为网络接入、任务调度、网络 调度、内容解析、内容适配和信息管理这六个主要的子系统模块。 2 3 2 任务调度子系统 任务调度是整个系统的核心,它根据请求任务的描述信息调度其它系统模块 完成网页内容的获取、解析和转换。在正常的情况下,任务调度子系统会确保该 请求所需要返回的各种数据都准备好,最后通知网络接入模块为客户端生成应答 信息。在服务繁忙或某些网络资源不可用的情况下,如果无法在指定的时限内获 日 园 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 得请求所需的所有数据,任务调度子系统需要中止与该请求相关的处理,并通知 网络接入模块根据已有的数据为客户端生成应答信息。 2 3 3 网络接入子系统 网络接入子系统的作用是在无线网络上开设服务端口,并实现与移动终端之 间的网络应答协议。网络接入子系统需要完成请求解析和应答生成这两个过程。 请求解析的过程从接受到移动终端发送过来的请求开始,网络接入模块要对请求 内容进行解析和预处理,并在任务调度队列中产生相应请求任务的描述数据结 构,然后等待任务调度子系统安排进行处理。应答生成的过程从一个请求所需要 返回的各种数据都准备好的时候开始,网络接入模块要把这些返回数据按照指定 的应答协议打包生成应答信息发送给客户端,并确保客户端完成整个应答数据的 传输。 2 3 4 网络调度子系统 网络调度子系统的作用是支持各种常用的网络传输协议,根据客户端每次请 求任务指定的网络配置完成对w e b 网站请求的发送和应答的解析。网络调度子 系统的设计原则就是合理利用网络资源,以最准确高效的方式获取请求所需的网 页内容,并通知任务调度模块尽快安排下一步的处理。网络调度子系统要负责识 别网站应答信息的文件类型,对支持解析的网络文件格式要触发其它系统模块进 行处理;对不支持的网络文件格式要触发文件下载的流程。 2 3 5 内容解析子系统 内容解析子系统的作用是对网页内容进行解析并生成相应的数据结构。内容 解析子系统主要包括网页内容解析、网页式样处理、网页脚本处理三个功能模块。 网页内容解析模块负责识别网站应答信息的文件类型,对支持的网页文件格 式进行解析并产生网页的d o m 结构。对不支持的文件格式要为浏览器客户端生 成下载提示信息。在进行网页内容解析的过程中,对网页上的框架子页面、图片、 脚本、式样表和嵌入式元素等各种外部连接,通过任务调度子系统申请获取更多 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 的网络内容并调用其它内容解析模块来完成其解析处理。 网页式样处理模块负责完成c s s 层叠式样表的解析,要生成式样属性信息 的查询数据库,并完成其它系统模块关于网页式样的查询工作。 网页脚本处理模块负责对网页脚本内容,主要是j a v a s c r i p t 脚本,进行解析 和处理,并实现对网页的d o m 结构的查询和修改。需要实现的主要特性包括: 支持在页面加载过程中的脚本功能执行; 支持通过网络事件来触发的脚本功能执行; 支持通过定时器来触发的脚本功能执行; 支持通过客户端的操作来触发的脚本功能执行; 2 3 6 内容适配子系统 内容适配子系统是整个w e b 浏览服务的关键模块,它需要实现对网页内容、 图片和嵌入式元素的适配,把它们转换成在移动终端上能够显示并且便于显示便 于操控的内容。 网页内容转换模块负责将网页的d o m 结构转换成手机浏览器客户端支持的 内容表现形式。对于内容较多的网页,网页内容转换模块要把它分隔成多个子页 面来输出,并为每个子页面生成分页导航栏,使得用户可以在网页的多个分页之 间进行跳转。 w e b 网页所定义的内容表现形式往往要多于手机浏览器可以支持的内容表 现形式。网页内容转换模块需要把网页的d o m 结构综合层叠式样表的规则属性 以客户端支持的表现形式转换成手机浏览器客户端支持的数据格式,而忽略那些 手机客户端无法表现的功能特性。 手机浏览器上可以表现的网页内容主要可分为文本信息和图片信息。对于文 本信息,客户端可以控制的效果主要有前景色、背景色、字体大小以及粗体、斜 体、下划线、上标、下标、居中和换行等特性。对于图片信息,客户端可以控制 的效果主要就是图片引用的外部文件及其显示尺寸。链接和表单输入控件其实也 是以文本或图片的方式来显示的,只是客户端需要知道在用户进行哪些操作的时 候需要触发怎样的交互功能。 网页内容转换模块还需要克服手机终端在输入设备和浏览器客户端能力方 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 面的不足,使得用户在有限的输入方式之下通过模拟或替代的方式,依然能够正 常使用网页在p c 浏览器上面才能具备的特殊功能。例如有不少h t m l 网页定义 了需要特殊鼠标操作触发的脚本功能,例如光标悬停、光标移入、光标移出,以 及拖曳等,但绝大部分手机的输入设备无法模拟这些信号,因此也就无法直接触 发这些功能的处理。为此要在输出页面的相应位置添加一个可以点击的图片,而 客户点击图片的时候触发鼠标悬停的相关脚本功能。 中间件与客户端之间的数据传输格式要便于在手机上解析、显示和操作,还 要适当地控制数据流量,通常会使用w m l 格式或者自定义的私有格式。w m l 格式的好处是其通用性,可被大部分的手机的自带浏览器直接解析和显示,能迅 速的普及手机对w e b 网页的访问。自定义格式的好处是其灵活性,能够支持更 加复杂的排版功能。尽管自定义的数据格式需要安装特殊的手机客户端来完成其 内容的解析和显示,但可以把数据结构定义得更加紧凑,能够大大提高内容解析 和排版的速度,还能把更多的数据打包发送,从而降低网络流量和应答时延。 图片转换模块负责把各种网络图片格式转换成客户端支持的图片格式,并且 通过图片等比缩小和有损压缩等方式既节省网络流量,又使得大图片在手机的小 屏幕上便于浏览。 嵌入式内容转换模块负责把网页上的音频、视频、动画等各种嵌入式元素, 以及w o r d 文档、e x c e l 文档、p d f 文档等常用的附件文件格式转换成客户端支 持的网页、图片、音频、视频和动画格式,使手机浏览器可以直接显示这些内容。 2 3 7 信息管理子系统 信息管理子系统的作用主要是对整个系统的运行中需要保存较长时间或需 要作分布式同步的数据结构和信息进行统筹管理。这主要包括对用户信息的管 理、对网页脚本运行环境的管理、对系统日志的管理。 用户信息管理模块负责为每一个用户实现安全性管理。它要在保证多个客户 端和多个用户之间的操作不会互相干扰的前提下,使得每个用户能像使用p c 浏 览器那样正常地访问和修改浏览器的各种配置参数和历史数据。它需要实现的功 能主要包括: 为每一个客户端分配唯一的身份标识和进行有效性验证; 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 根据身份标识对每个用户实现独立的c o o k i e 数据管理: 根据身份标识对每个用户实现独立的浏览器参数配置管理; 根据身份标识对每个用户实现独立的浏览历史信息管理; 支持通过网页脚本对系统信息进行安全受控的读写; 支持通过网页脚本对用户信息进行安全受控的读写; 支持通过网页脚本对同一用户的多浏览窗口进行安全受控的数据访问; 脚本运行环境管理模块负责对每一个网页加载之后产生的d o m 结构和脚本 运行环境进行管理。它要为每一次页面加载分配一个页面标识,以便客户端在必 要的时候可通过该标识来取回此网页的脚本运行环境并继续执行所需的脚本功 能。它还要实现一定的淘汰机制,释放过时的网页脚本运行环境以回收服务器执 行资源。 日志管理模块负责对用户浏览网页过程中产生的日志进行管理,以便在必要 的时候对日志信息进行统计或数据挖掘,以实现计费功能或为服务器优化提供目 标和依据。 2 4 系统优化 l l 户弦慰 数据庳 舒 8 圆 w e b 内容转换t i i j 件 w 曲内耜转挠凝务器系薛 圈圄 器圜饼幽 图2 - 2 优化的手机w e b 浏览服务系统架构 手机w e b 浏览服务基本功能架构中的各个主要功能模块能够相互配合完成 i慰理线甩俯锗系 昭9 圆 篙粉m :翎h h 甘审 固固 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 请求处理、网页加载和转换输出的流程,使得手机浏览器已经具备了近似于p c 浏览器的网页处理和显示能力。为了提供更好的用户体验,手机w e b 浏览服务 在维持系统架构和处理流程基本不变的情况下,又针对功能、性能和稳定性进行 了优化。优化的系统架构如图2 2 所示: 功能性方面的优化主要是增强手机浏览器的后台辅助功能和网页排版效果。 性能方面的优化主要是降低网络响应时间和网络数据流量并提升客户端响应速 度。稳定性方面的优化主要是提高服务的容错性。 2 4 1 辅助功能强化 对客户端的辅助功能的强化主要是增强用户信息的管理的个性化定制的功 能。目前架构下可以实现的主要包括以下方面的改进: 支持用户可定制的浏览器首页; 提供定时自动更新的推荐网站列表; 增强后台服务使得通过手机和p c 浏览器都能方便的管理用户信息: 支持客户端设置代理服务器以实现对更多受限的网络资源的访问; 支持通过插件来支持更多的功能。 2 4 2 排版效果优化 网页排版优化是让网页上的内容在手机上的显示效果主次分明,适合在手机 上阅读,方便用户迅速定位到自己感兴趣的内容。网页排版优化的主要策略一是 使网页内容适合屏幕尺寸,二是隐藏页面次要内容。现时的手机w e b 浏览服务 所做的网页排版优化主要有基于通用规则的网页内容局部变换,以及基于网页封 装器的页面定制这两种手段。 基于通用规则进行网页内容局部变换的基本原理是根据页面内容本身的结 构特点研究出一些可以让网页在手机上显示效果更好的内容局部变换的规则,这 些规则有明确的触发条件,当条件成立的时候在输出数据中添加特定结构或内 容,或者选择忽略或输出原页面特定的结构和内容。对页面内容的局部变换要通 常会使用一些比较保守的策略。其优点是可以应用于各种页面,并能在一定程度 上降低页面数据流量和页面排版的复杂度,缺点是精确性比较低,对复杂页面能 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 够产生的作用有限。目前可以实现的一些优化效果包括: 剔除多余的空行和连续空白字符; 限制每段文本的排版不超出屏幕宽度; 对尺寸较大图片进行等比缩放以便在手机屏幕内完整显示; 非横向排版输出时,隐藏或折叠不常用的导航连接: 横向排版输出时,消除页面内容板块之间的多余间距: 基于网页封装器的页面定制则是针对特定的页面开发页面适配程序和模板, 提取出页面的主要内容,再以适合手机浏览器的形式重新排版输出。其优点是可 以从手机浏览器运营人员的角度出发,针对某些结构复杂的页面根据手机浏览器 的特点做出最大限度的优化。其缺点是输出的页面抛弃了原页面的大量内容和功 能,最终的优化方案并不一定符合每个用户的使用习惯。其精确性依赖于手工的 定制,需要耗费大量人力资源,在原页面结构经常更新的情况下也难以维护。 2 4 3 排版性能优化 对客户端的排版性能优化主要是实现了网页内容简化和减少页面内容重新 排版的次数和范围。 无尺寸图片是造成客户端需要对网页进行重新排版的主要原因。网页上只给 出了连接地址而没有为其指定高度和宽度的图片就是无尺寸图片。客户端对于无 尺寸图片的处理在图片数据实际到达之前无法为其安排实际需要占用岁的屏幕 空间,而在图片数据被载入的时候又要根据图片的实际大小重新设定了此图片所 占的空间,结果影响了后面的网页内容的布局,使得在此图片后面出现的内容需 要重新排版。 减少网页重新排版的主要优化方法就是由中间件等待网页上所有的图片加 载完毕才开始转换输出网页的内容,在输出原先无尺寸的图片时根据图片的实际 大小为这些图片指定实际的尺寸,这样客户端在拿到网页内容数据的时候就可以 为每个图片预留好足够的屏幕空间,在之后实际载入图片数据的时候就不需要重 新排版了。 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 2 。4 4 网络性能优化 网络性能优化的主要方式是建立负载均衡的w e b 内容转换服务器集群、增 加网络数据缓存和进行网页次要元素过滤。 建立w e b 内容转换服务器集群及其负载均衡系统可以把请求分散到更多的 w e b 内容转换中间件来处理,减少由于资源争用而产生的等待耗时,同时也能 提高服务的整体稳定性。其需要解决的主要问题是实现用户数据的分布式同步, 为此在集群以外增设了用户数据管理服务系统来实现这样的功能。 设立网页源文件的数据缓存可以避免重复访问w e b 网站上的静态内容,从 而减少中间件到网站获取网页的连接时延和传输耗时。设立图片转换结果缓存可 以避免对同一图片做格式转换所需的耗时。设立网页转换结果缓存可以避免对静 态网页做重复的页面内容转换所需的耗时。 进行网页次要元素过滤的作用,一是避免加载网页上的次要元素所需的网络 等待时间,使得中间件能够根据页面的主要内容尽快向客户端生成应答;二是减 少网络数据流量和客户端的处理时间。实现页面次要元素过滤的难点在于找出一 个有力的证据来证明这些慢速页面元素的确是页面的次要内容,而不会因为少加 载了这些数据而导致丢失了对用户有用的页面内容或者造成了页面功能不正常 的现象。 网页上的次要元素主要包括广告信息、不可见的外部链接、用于页面排版修 饰的图片元素等用户不太感兴趣的内容或者不可见的内容。网页上的广告和用来 做页面访问统计的图片连接通常需要连接到第三方站点来访问的网页外部文件, 并且网站一般将这些内容声明为不可缓存来确保浏览器对其进行反复的访问,对 其优化通常是禁止加载。用于页面排版修饰的图片元素通常是一些尺寸很小的图 片或长宽比例悬殊的图片,对其优化通常是剔除不可点击的小图片,而把可点击 且带a l t 属性的小图片转成文本来显示。 网页转换结果缓存中可被缓存的网页需要保证其中每个被加载的页面元素 都是可以缓存的。尽管有不少网页元素是可被缓存的,但是整合到一个网页上能 够完全符合这一规则的比例就相当低了。有不少静态页面会在次要元素上加载一 些动态成分,进行次要元素过滤能够减少这些动态元素对页面转换结果的影响, 提高页面转换结果可被缓存的比例,从而提高页面转换结果可被缓存的命中率。 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 2 5 系统优化的瓶颈 目前设计手机w e b 浏览服务的基本出发点就是将整个互联网的内容都看成 了一个个单一的孤立的网页数据。目前的手机w e b 浏览服务认为网页数据在网 络上主要的标识就是一个u r l ,因此中间件要处理的事情就只是根据请求的 u r l 来请求和加载网页数据,然后转换输出。这样的好处是系统的架构比较简 单,整个处理流程也十分简单,但所能做的优化也只能局限于对各种网页类型无 差别的系统优化。 手机w e b 浏览服务目前所能采用的各种优化手段主要是根据网络浏览中即 时获得的局部数据来进行局部的优化。这种简单的优化模式只需通过相对简单的 数据收集过程来就能有效的改善手机浏览器的功能和性能。在设计优化规则的时 候,有些较为激进的优化策略在大部分网页上会取得更好的优化效果,但也可能 导致部分网页无法正常工作的。根据简单的局部信息无法识别出需要规避特定优 化规则的网页特例,也就无法使用此类激进的优化策略了。 例如对页面内容的局部变换可以折叠不常用的导航连接。但是目前采取折叠 策略的内容只限于网页上位于相同嵌套层次的内容的链接集合,且要求每个链接 的文本都不超过一定字符数。对于那些可能违反其中一两个条件的链接集合,譬 如其中某个链接的文本超过了指定的字符数,都不能应用这一优化规则。这样就 限制了这一优化规则的适用范围,使得优化的效果显得不过彻底,但至少保证了 不会把页面的主要内容折叠起来而影响用户的浏览器。 再如对缓存的管理,通过设立各种数据缓存的方式只能大幅降低访问各种静 态页面元素的耗时,但有不少页面元素在网站方面是声明不允许中间件对其进行 缓存的,尤其是一些动态生成的页面数据。缓存管理模块要保证所返回的内容的 正确性和有效性,在没有明确依据的情况下要遵循网站指定的缓存控制指令,而 无可避免的要重复获取一些网页数据,这依然要耗费不少的时间。 还有对页面次要元素的过滤,目前只能针对个别网页元素例如图片元素标签 和嵌入式框架元素标签 做出判断,判断的依据也只能是这些标签 本身的属性,而对于脚本标签 这种关联因素较多但对系统载入耗时带来 较大影响的网页元素则无能为力。 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 2 6 深入优化的构想 进一步的优化需要加强优化提示信息的收集,一方面可以在网页加载的同时 进行深入的网络数据分析,另一方面从用户的个性化定制操作中收集针对网页的 优化配置,为手机w e b 浏览服务积累更多更准确的网页优化提示信息。在此基 础上,不但之前所用的那些简单的优化方式能够获得更好的优化效果,而且能产 生其它更有效的优化方式。 图2 3 手机w e b 浏览服务的请求处理流程 进一步的优化主要方式是对网页次要内容过滤的功能进行增强和扩展。需要 识别出网页内容的主要组成结构,并确定各个网页内容组成结构的功能作用。对 于不同的网页内容功能结构,根据用户的喜好使用不同的内容过滤策略。此外, 还要对网页主要内容的显示位置和样式进行修正,以便在客户端得到更好的显示 中山大学硕士学位论文 基于d o m 结构分析的手机浏览器优化技术 效果。 对于进一步的优化,需要注意各个网页之间的关联和相似之处,并仔细了解 网站整体的设计策略和内部结构,以便收集到更多更有用的综合性优化提示信 息,根据用户的个性化设置进行有针对性的优化。优化后的系统架构应该把这些 针对不同类型网页的优化配置信息进行永久化存储和分布式同步,并对其进行更 新和衍变,不断提高精确度。 为了通过网页的d o m 结构分析和用户的网页个性化定制获得更多的优化提 示信息,需要对手机w e b 浏览服务的系统架构做出一些扩展。扩展后的系统架 构与图2 2 所示大致相同,但是在w e b 网页内容转换中间件之外增设了模板管 理系统,在信息管理子系统中增加了模板管理模块,在内容解析子系统中增加了 d o m 结构分析与标记的模块,在内容适配子系统中增加了d o m 框架结构可视 化的模块。对客户端请求的处理流程也相应的增加了一些处理流程,完整请求处 理流程如图2 3 所示。 在这个扩展的系统框架和请求处理流程下,实现一个用户驱动和统计数据驱 动相结合的按需优化模式。 中山大学硕士学位论文基于d o m 结构分析的手机浏览器优化技术 第三章互联网内容特性分析 现代w e b 互联网的内容开发是一个有目的有策略有组织的工业化生产过 程。绝大部分网页的产生是经过了用户定位、栏目策划、版面设计、内容采编、 信息发布等一系列的生产加工流程,最终才以一个整合的形式与用户见面的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 街道厂房转让合同范本
- 个体厂房转让合同范本
- 合同范本模板实习
- 务工合同范本怎么填写
- 屈辱的历史教学课件
- 青年创业活动摄影合同
- 年产3200吨石墨烯导热膜辊压生产线项目可行性研究报告
- 湖南省邵阳市2024-2025学年八年级下学期期末历史试题(含答案)
- 2025年猪肉行业人才选拔标准与模拟题设计思路
- 2025年煤气作业考试模拟题集
- 幼教拍摄培训
- 个股期权培训课件
- 肺结核痰菌阴转评估体系构建
- 船舶公司内务管理制度
- 体检院内感染管理制度
- 护理职业素养课件
- 2025年云南中考数学试卷真题解读及复习备考指导
- 数字身份认证伦理-洞察及研究
- 七年级道德与法治第九课增强安全意识
- 乡村振兴培训试题及答案
- CJ/T 486-2015土壤固化外加剂
评论
0/150
提交评论