已阅读5页,还剩64页未读, 继续免费阅读
(课程与教学论专业论文)基于ajax的点击流技术以及在电子政务中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网络的快速发展,以信息获取、科研交流类为主的基础网络服务正 逐渐发展为以休闲娱乐、电子商务和电子政务等三大类服务为主的扩展网络服 务,渗透到人们工作、学习和生活的各个方面。与此同时,人们在互联网上的行 为模式与特征也备受重视,越来越多的人开始从事这方面的研究。通过分析用户 的行为特征、兴趣爱好,可以提高应用系统的针对性,可以提供更加个性化的服 务;还可以更具这些数据构建决策支持系统。因而,网络用户行为获取、分类以 及在此基础上的分析研究的重要性日益凸显。 本论文在此领域主要工作成果如下: 在充分分析点击流的概念、作用和原理的基础上,将当前兴起的a j a x 技术 应用于点击流,构造了一个基于a j a x 技术的点击流采集系统。这种点击流数据 的采集方法与使用传统的采集方法不同( 传统的方式是直接利用w e b 日志文件作 为数据源) ,这种方法不仅能取得w e b 只志中的各种数据,还能获取更加丰富的 用户动作信息,如单击、双击、鼠标滚轮滚动、网页大小调整等等,是网页上用 户行为的探针和监听器。使用这种方法,可以极大丰富点击流的内容。 其次,根据基于a j a x 的点击流捕获工具取得的数据,建立服务器端点击流 数据库,并对这个点击流数据库中的数据进行分析,归纳用户在w e b 上的行为模 式,力图从用户的行为数据中挖掘更有潜力的决策信息。应用这些行为模式,可 以实现系统的用户行为跟踪、界面设计改进、审计、用户兴趣挖掘等。 最后,以先锋软件公司的电子政务系统为平台,将这个基于a j a x 的点击流 系统应用于电子政务领域,并给出了系统的总体设计和实施方案。 同时,这种点击流方法也可以用于其他基于w e b 的信息系统,如新闻门户系 统、信息检索系统、网络教学系统等所有需要用户行为数据的系统,用以提高系 统的个性化、智能化水平。 关键字:a j a x ;点击流;用户行为分析;个性化信息服务;电子政务系统; a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ,p r e v i o u s l ym a i n l yf o c u s i n go nt h e s c i e n c e - u s i n go ft h ef o u n d a t i o n a lw e bs e r v i c ei st u r n i n gt ot h ee x t e n s i v ew c b s e r v i c e p r i m a r i l yf o e u s i n g o nl e i s u r ea n da m u s e m e n t 、e - g o v e r n m e n ta n de - b u s i n e s s , p e n e t r a t i n gi n t ot h ew h o l eh u m a ns o c i e t y m e a n w h i l e ,m o r ea n dm o r ep e r s o nb e g i n s t os t u d yt h ep a t t e r na n dc h a r a c t e r i s t i c si np e r s o n so n l i n eb e h a v i o r b ya n a l y z i n g p e r s o n sb e h a v i o rs u r f i n go nt h ei n t e r n e t ,w ec a ng e tm a n y u s e f u la n di n t e r e s t i n gt i p s , f o re x a m p l e ,w ec a ng e tm o r ep o i n t e da p p l i c a t i o nc o n c e r n i n gt h eu s e r sn o ws u r f i n go n t h ei n t e m e t , b o o s t i n gt h ei n d i “d u a t i o nl e v e lo ft h ew e ba p p l i c a t i o n t h e r e f o r e , i ti s v e r yu s e f u la n di m p o r t a n tt os t u d yt h ew e bu s e r s b e h a v i o r sa c q u i s i t i o n ,c l a s s i f i c a t i o n a n da n a l y s i s t h i sp a p e rw o r k sm a i n l yo nt h e s es u b j e c t si nt h ef i e l da sf o l l o w s : f i r s t l y , o nt h ef o u n d a t i o no fa d e q u a t e l yu n d e r l y i n gt h eb a s i so fc l i c ks t r e a m , i n c l u d i n gt h ec o n c e p t ,f u n c t i o na n dp r i n c i p l eo fe l i c ks t r e a m ,b r i n gu pa na j a x - b a s e d c l i e ks t r e a mc o l l e c t i n gs y s t e m n i ss y s t e mu s e sa n o t h e rm e t h o dt oc o l l e c t i n gu s e r s c l i c ks t r e a md a t a d i f f e r e n t i a t i n gf r o mt h e t r a d i t i o n a l c l i c k s t r e a mc o l l e c t i n go fu s i n g w e bs e l v e rl o g s ,c o m p a r i n gw i t ht h et r a d i t i o n a lm e t h o d ,t h i ss y s t e mc a l lg e tm o r e d e t a i l e d ,g r a n u l a r i t yd a t ao fu s e rb e h a v i o r , i n c l u d i n gp e r s o n sc l i c kb e h a v i o r d o u b l e c l i c k ,s e l e c t i o nb e h a v i o lr e s i z eb e h a v i o r ,p r i n tb e h a v i o ra n ds oo n u s i n gt h i sm e t h o d , w ec a ng e tp e o p l e sb e h a v i o ri ni m m e n s ea b u n d a n c e s e c o n d l y , b a s e do nt h ed a t aw eg e tu s i n gt h em e t h o dm e n t i o ne a r l i e r , w ec o n s t r u c t ac l i c k s t r a md a t a b a s ei nt h es e r v e rs i d e u s i n gt h i sd a t a b a s e w eb r i n gf o f t hs e v e r a l a n a l y s i sa n ds t a t i s t i cm e t h o d ,t r y i n gt oi n c l u d i n gu s e rb e h a v i o rp a t t e r ni nt h ew e b p a g e f r o mt h e s ep a r e r u sw ec a nb u i l ds u p p o r td e c i s i o ns y s t e m sa n do t h e ru s e f u l i n f o r m a t i o n ,f o re x a m p l e ,u s e rt r a c i n gt h r o u g ht h ew h o l es e s s i o n ,u 1d e f a u l td e t e c t i n g , w h o l et i m ea u d i t ,u s e ri n t e r e s ta n a l y s i se t c t h i r d l ya n dl a s t l y , w ea p p l yt h ec l i c k s t r e a ms y s t e mt oa ne g o v e r n m e n tr e a l m , u s i n gx i a n f e n g “e g o v e n m e n t4 0 ”s o f t w a r ea sp l a t f o r m 。t r y i n gt ob u i l dp e r s o n a l i z e d , i n t e l l i g e n te g o v e r n m e n ts o f t w a r e ,a n dg i v et h ew h o l ed e s i g na r c h i t e c t u r e a n d i m p l e m e n t a t i o n m e a n w h i l e ,t h i sc l i c k s t r e a ms y s t e ma n du s e di n o t h e rw e b - b a s e ds y s t e m s , c o m p r i s i n gn e w sp o r t a ls y s t e m ,i n f o r m a t i o nr e t r i e v es y s t e m ,o n l i n et e a c h i n gs y s t e m a n ds of o r t h ,i no r d e rt oi m p r o v et h ei n t e l l i g e n c el e v e lo f t h es y s t e m k e y w o r d s :a j a x ,c l i c ks t r e a m ;i n t e l l i g e n te g o v e r n m e n ts y s t e m ;u s e rb e h a v i o r a n a l y s i s ,p e r s o n a l i z e di n f o r m a t i o ns e r v i c e i i l 1 1 研究背景和意义 i i 1研究背景 第一章引言 现有的点击流及其分析技术存在不足,迫切结合新技术对其进行改进。 ( 1 ) 现有点击流数据存在的问题。长期以来,w e b 使用挖掘一直使用w e b 日志作为 点击流数据源,但是w e b 日志文件存在着数据项内容太少、难以区分不同用户会话等难题, 制约着w e b 使用挖掘的发展和准确性。 ( 2 ) a j a x 等网络新技术的发展,对点击流技术的发展提出了新的机遇。随着g o o g l e 一系列基于a j a x 技术的产品的推出和广泛应用,a j a x 逐渐获得广泛的应用。应用a j a x 到点击流领域中,是一个值得研究的课题 电子政务系统是一项涉及计算机科学、计算科学和人工智能等多门学科的综合性课 题,其发展受到这些学科发展状况的影响,而这些学科的发展和进步也必将推动电子政务 系统的继续不断前进。 ( 1 ) 网络通信技术。网络通信技术的每一次发展都影响着电子政务系统。随着互联 网技术的持续深入发展,电子政务系统也开始使用互联网作为基础平台;随着w e b 2 0 时 代的到来,电子政务系统也需要随之前进。 因此,基于以上对于现有电子政务存在的不足和点击流相关技术领域的发展所提供的 技术背景,我们提出了基于a j a x 的点击流技术来构建智能电子政务系统这一课题。 i i 2理论及实际意义 1 1 2 1理论意义 随着互联网的不断发展和网络应用的普及,人们逐渐不满足于仅仅关注w e b 信息系 统的业务信息记录,更倾向于深层次地关注网络用户在w e b 上的各种行为,通过分析用 户的行为信息,改进信息系统的服务质量,以提供更加个性化的服务。因而对用户网络行 为的捕捉、分析和应用也在不断进行。 基于w e b 的应用系统都是通过互联网进行的,用户通过浏览器登陆w e b 服务器,通 过点击各种链接,浏览资源( 文字、图片、影像) 、提交、复制等各种行为,同时留下用 户的访问记录。从数据流的角度而言,这种用户点击网站的行为访问记录,一般称之为点 击流( c l i c k s t r e a m ) 数据。点击流( c l i c k s t r e a m ) 从字面意义理解就是每个访问者在站点 所作动作的记录。典型的点击流如服务器日志数据等。 对于点击流的收集,传统的方法是通过w e b 服务器的同志文件进行的。由于w e b 服 务器忠实而详细的记录了每个用户的访问资源名称、访问时间,通过配置还可以记录更多 的用户细节,因而日志文件成为w e b s i t e 行为的原始而又丰富的记录数据。 a j a x 技术是这两年来兴起的客户端技术,综合了j a v a s c r i p t 、d o m 模型和x m l 等各 种已经成熟发展的技术,是对传统的基于b s 架构的补充。a j a x 能够控制捕捉浏览器端 的各种事件,并能以异步的方式与服务器通信。利用a j a x 这种强大的页面端编程能力, 可以开发出强大的浏览器端程序。 将a j a 】【和点击流结合在一起,就是充分利用a j a x 的客户端编程能力,动态捕捉用 户的各种行为,并将这些数据在后台,在不影响用户和应用的情况下发送到服务器端,形 成点击流数据。 1 1 2 2 实际意义 随着时代的进步,信息技术和网络科技的发展日新月异,以互联网为代表的信息科技 得到了前所未有的发展,传统的政府管理模式也越来越落后于时代的发展。为了在新一轮 的国际竞争中占据有利地位,许多国家都将电子政务的建设作为增强国家竞争力的一项手 段。 电子政务( e g o v e r n m e n t ) 一词是相对于传统政务( g o v e r n m e n t ) 而言的,是快速发展 的现代电子信息技术与政府改革相结合的产物。它应用现代化的电子信息技术和管理理论, 对传统政务进行持续不断地革新和改善,以实现高效率的政府管理和服务。 我国的正式的电子政务建设起步尽管比较晚,但发展迅速。1 9 9 8 年1 1 月,我国国家 信息产业部开始在全国启动“政府上网工程”。经过一年的快速发展。“政府上网工程” 第一阶段目标已基本实现,绝大部分政府部门都已建立互联网站,7 0 0 o 以上的地市级政府在 网上设立了办事窗口。2 0 0 2 年7 月3 日,国家信息化领导小组又通过了我国电子政务建 设指导意见,给我国电子政务今后的发展指明了方向。意见实施以来,我国电子政 务系统取得了飞速进展,以金字为代表的多项工程取得了突破性进展。 我国电子政务信息系统大多以网络( 互联网、局域网) 为平台,使用b s 架构,在服务 器上放置政务信息系统。这些政务信息系统在网络连接上,既有完全在局域网内运行的内 部企业应用,也有连接i n t e m e t ,开展互联网业务的公共应用,但更多的是i n t r a n e t i n t e m e t 两种类型的应用。政府办公人员通过浏览器登陆政务系统,在线处理各种政务信息,在互 联网上则表现为一个门户网站,为公众提供信息服务。 随着电子政务的深入开展,越来越多的人开始在网络上办公和使用在线政务处理。电 子政务信息系统作为社会公共服务的基础信息设施,承担了越来越重的压力。为了更好的 发挥电子政务的社会公共服务功能,需要对用户的网络行为进行必要的记录和分析,以找 出系统的不足,提供更为优质的服务。 通过对用户网络行为分析,分析电子政务系统中用户的主要行为特点( 登陆时间、页 面驻留时间、页面) 和行为路径,能够优化电子政务信息系统的网页布局,提高信息发布 的有效性、准确性;同时使得网络上的用户行为透明化,能提高系统的审计水平,增强系 统的安全性;另外,对单个用户的行为分析,能够明确当前用户的信息需求情况,从而更 加个性化的信息服务。 1 2 研究内容 1 2 1 基于a j a x 的点击流系统 点击流传统上是指w e b 应用服务器的服务器日志数据,如a p a c h e 、i l s 等w e b 服务 器的同志文件;本文提出了一种新的点击流数据获取方法,通过应用a j a x 构建了一个用 户行为采集器,这个采集器在客户端捕捉和记录用户在w e b 上的行为,并将用户的行为 数据实时发送到服务器中。通过这种方式,提高了捕获行为的精度和粒度,能更好的记录 和分析用户的w e b 行为,获取更加详细的点击流数据。 1 2 2点击流在电子政务系统中的应用 上一部分提到的点击流系统,忠实记录了电子政务用户在电子政务系统中的各种行 为,但是这些点击流往往是零散的,还需要进一步加工处理。 在电子政务系统中应用这种基于a j a x 的点击流获取工具,通过对电子政务系统用户 各种行为的捕捉和记录,能够动态感知用户在电子政务系统中的行为,对于提高电子政务 系统的个性化、安全性和针对性,优化电子政务系统的页面布局,实现电子政务系统的在 线主动审计,具有重要的作用,可以说,基于a j s i x 的点击流获取工具,是电子政务系统 的在线“感知器”,对于提高电子政务系统的智能化、个性化具有积极的意义。 1 3 本论文的主要工作 我在本论文中做的主要工作有: 客户端的用户行为采集器 在客户端实现了一个基于a j a x 的用户行为采集器,用于收集用户的行为,并将这些 数据实时发送到服务器端。 服务器端的点击流数据收集 服务器端完成点击流数据的接受和整理,将整理好的点击流数据按照格式添加到数据 库中。 点击流在电子政务系统中应用 在先锋电子政务平台下,将收集到的用户的点击流数据进行分析,并结合电子政务系 统的特点进行应用。 1 4 本文的章节结构 本文共分七章,各章主要内容为: 第一章绪论,阐明了本文选题的背景和研究意义,并对与题目相关领域的国内外研 究现状进行综述,最后说明了论文的研究内容,即本人的主要工作,和论文的结构安排。 第二章从点击流的基本概念出发,详细论述了点击流的概念、作用、基本格式以及 实现方法,并讲解了两种不同的点击流采集方法及其不同之处。 第三章详细讲述了基于a j a x 的点击流系统在客户端的实现,主要介绍了基于a l a x 的点击流的获取和点击流数据的发送,完成了一个基于a j a x 的点击流数据采集器,这是 其他研究所没有实现的,也是本文的最大的创新之处。 第四章介绍了基于a j a x 的点击流系统在服务器端的实现,主要涉及到点击流数据的 保存和分析问题。服务器部分主要强调了基于a j a x 的点击流数据与传统的基于w e b 日志 的点击流数据的不同之处。 4 第五章分析了电子政务系统的特点和不足,将基于a j a x 的点击流系统应用于电子政 务系统,以国家重点科技攻关项目“基于国产软件的电子政务系统”( 国家电子信息产业 部发展基金支持项目。批准文号1 2 0 0 4 】4 2 ) 为依托,构造了一个基于点击流的电子政 务系统,并给出了电子政务系统的具体实现和关键技术分析。 第六章是研究结论,总结项目研究与开发的经历与经验,为相关课题研究的进一步 深入方向指明了道路。 第二章研究综述:点击流综述 2 1 点击流的基本概念 2 1 1 点击流中的相关术语 请求( r e q u e s t 或h i t ) : 向w e b 服务器请求一个文件的动作。当从服务器和客户两个不同的角度看时,它又 分别对应不同的含义,对于服务器来说,一次请求对应一条日志记录:对于客户来说,向 服务器发送请求的形式则表现为点中w e b 页面上的一个超链接,但点中一个超链接并不 意味着一次请求,这是因为一个w e b 页面中可能包含多个文件,如h t m l 文件、声音文 件、图像文件等,此时如果用户点中这样一个超链接则对应着多个请求,在w e b 日志中 也就有多行记录。 c o o k i e c o o k i e 最初是由n e t s c a p e 公司开发的一种用于追踪用户的机制,它是为弥补h t r p 协议的无状态缺陷而产生的。所谓无状态是指通过h t t p 协议发送的每一次请求,它们之 间是相互独立的,对于用户目前正在浏览的主页以及在此之前浏览过的主页没有任何保存 和了解。但是在实际应用中,往往希望浏览器能记住一些信息,如用户的身份信息等,以 便能自动地对用户进行识别以及更好地提供个性化服务,因而引入了c o o k i e 的概念。当 用户第一次访问站点时,w e b 服务器为其分配一个唯一的标识符并保存在用户的计算机 中,用户再次访问该站点时,w e b 服务器根据c o o k i e 值识别用户。 用户( u s e r ) 指通过浏览器访问服务器的个体。h 1 v r p 协议的无状态性、防火墙以及代理服务器的 存在,使得在实际应用中确定一个用户很难:因此,有时需要把服务器同志、代理日志、 引用日志结合起来确定一个用户 5 。 用户会话( u s e rs e s s i o n ) 某个用户阶段性的页面浏览所构成的点击流。本论文中的用户会话指一段时间内用户 对单个网站的访问请求。 6 2 1 2什么是点击流 “点击流”有广义与狭义之分。广义的“点击流”就是用户在i n t e r n e t 上的一系列 点击活动,而狭义的“点击流”则是用户访问某一站点的一系列点击活动 1 9 。本文所指 的“点击流”是一种狭义的“点击流”,特指站点“点击流”,是用户在页面上的各种与浏 览器的交互行为,如键盘输入、鼠标点击、双击、滚轮转动等,用户的这些行为引发了浏 览器和服务器之间的数据交换,从数据流的角度看,这些行为都引发了一系列的数据流动, 因而点击流就是用户在页面上的各种交互行为遗留的数据。 点击流是用户在页面上的各种行为的数据体现。在用户上网过程中,用户不可避免的 要同浏览器交互,一个典型的案例就是: 用户打开浏览器后,在地址栏输入w w w s i n a c o m 或从收藏夹中选择新浪的网址,等待 新浪首页完全载入后,用户转动鼠标或键盘上下键,寻找感兴趣的超级链接;点击超级链 接,进入新的页面查看具体内容;如果用户在新的页面发现比较有兴趣的内容,则用户还 会在新的页面继续点击链接,进入下一级页面继续浏览网页内容;如果看完本窗口链接后 还希望看其他的内容,则关闭这个页面后返回父窗口继续浏览 在这个过程中,用户的鼠标滚轮的滚动、点击、双击等动作都会有遗留下相应的数据, 如滚轮转动的大小、点击时的页面位置、点击的标题等,这些都属于数据流的概念。 同时,在用户溯览网页过程中,基于不同的用户阅读习惯和阅读方式,一些用户在阅 读文字内容时,会习惯性地、不自觉地用鼠标选择一些文字( 关键字) ,另一些用户则会 使用鼠标滚轮阅读;还有一部分用户则直接拖拽上下滚动条作快速阅读。阅读完后用户也 会有不同的动作,有些用户会复制拷贝内容,将这些内容存储到本地;另外一些用户则可 能会点击右键来查看网页的源文件等。在上述这些用户的上网行为中,鼠标选中的关键字、 鼠标滚轮滚动的大小、用户在页面上的复制粘贴内容,点击鼠标右键等,也都可以看作 是点击流。可以看出,点击流数据包括的用户行为十分广泛,包括:滚动网页滚动条、点 击链接、点击按钮、键盘输入、通过键盘或鼠标的复制粘贴、鼠标选择等。这些行为都会 留下行为记录数据信息,这些信息都称之为点击流数据。 点击流是用户与页面交互时的数据,是用户行为的体现,反映了用户的兴趣和意图, 是分析研究用户最有价值的资料。点击流忠实记录了用户的各种行为,尤其是某些体现用 户兴趣的个性化行为( 前面提及的用户用鼠标选择的关键字、复制的内容等) ,体现了用 户的个性化需要,对于用户群体划分,及早发现潜在有价值的用户、新闻推广和商业广告 宣传等有重要意义;同时,点击流分析对网站的建设起到一定的指导作用,能增加增强网 站的黏着度;对这些数据深层次分析能够使网站改善客户关系、培养顾客忠诚、增加网上 销售和提高服务质量。并且这些数据都是真实可信的,比目前网络上的各种投票等数据源 更加有信度。 2 2 点击流的作用 点击流是用户与浏览器交互、浏览网页时遗留的行为记录,是用户上网行为最直接、 最原始的记录数据,对大量用户的上网行为进行研究,可以获取用户最详细的上网行为数 据,分析这些数据,对于改善网页设计,提高网页内容针对性和吸引力,提高网站点击率, 提高系统的安全性,都具有重要的意义。 点击流的作用主要有以下几个方面: 深入了解用户的行为模式。 改进网页布局和设计。 提高网页内容针对性,提高网站点击率。 实现上网行为的全方位审计,实现网络犯罪和职务犯罪的事前审计。 实现主动防御的网络安全防范。 用户在线状态的实时检测和保存 下面分几小节,详细论述点击流的作用。 2 2 1深入了解用户的行为模式 互联网从开始到发展到现在,逐步经历了从信息为中心到以用户为中心的转变。现在, 随着w e b 2 0 的逐步深入发展,w e b2 0 已经成为互联网的下一个发展趋势。w e b2 0 的核 心价值观就是以用户为中心,而以用户为中心,就是要不断提高用户的用户参与积极性, 提高p a g e v i c w ,这就需要对用户的价值观、用户数量和质量有详尽的了解,而点击流一 一用户行为的数据记录,则成为了解用户的最直接的手段。 用户的上网行为模式,是用户在浏览网络内容时所体现出来的共性的行为倾向性 2 3 。这些行为模式是在大量用户行为中提取出来的,体现了用户行动的共同特点,反映 了用户的某种心理想象。通过研究这些行为模式,可以深入了解用户的内在需求和个性, 有效地提高网站和网页的内容针对性;并且可以根据个人的不同行为习惯定制网页,真正 实现以用户为中心,提供网页的个性化定制。 同时,深入了解用户的行为模式,还可以为电子商务的营销提供最直接的依据。以往 的电子商务营销往往是依赖于传统的用户信息收集手段,如网上宣传、网上投票等,但是 这些信息往往片面而不准确,难以反映用户的意图。通过分析用户的行为模式,可以根据 用户的行为模式,分析用户的群体情况,从而有针对性的指定营销方式和手段。a m a z o n 通过对顾客购买过的东西进行自动分析,然后因人而异地提出合适的建议,正是这种“真 正以个性化打动人心”的战略,得到了消费者的认同,其销售额正以每年超过3 0 0 的速 度增长,其中回头客的购买量占销售额的6 0 以上 2 1 1 。 2 2 2改进网站布局和网页设计 在互联网经济中,用户的注意力是至关重要的,一个布局合理、设计恰当的网站设计, 更容易引起用户的注意和反复登陆浏览。 但是如何评测网站的布局和网页设计并使之自动化,除了经验和发放问卷调查外,跟 踪用户的行为路径也是极为关键的一步。通过研究用户的行为路径,可以得出用户的最优 路径,从而为改进网站布局和网页设计提供最可靠的依据。 2 2 3 提高网页内容的针对性,提高网站点击率 网页的点击率( p a g c v i e w ) 始终是每个网站追求的目标,提高点击率有多种方法, 而提高网页内容的针对性和相似性,使网页内容更加适合读者,这无疑是提高网站点击率 的根本之道。 利用点击率提高点击率,就是分析用户行为路径的连续度和网页内容的关联度之怕j 的 关联。如果用户进入页面后,在阅读完网页的主要内容之后继续点击本网页中的其他链接 阅读,这就是用户行为路径的连续性。如果在一个页面中提供的链接有1 0 0 个,而用户在 这个页面中点击了其中的3 5 个进行阅读,那么就可以认为这个页面的连续度为3 5 ,即: 用户行为关联度= 用户点击链接数页面总链接数 用户行为的关联度和网页内容的针对性息息相关。目前网页内容的针对性是基于关键 词相似性的,根据用户浏览的网页内容的关键词,进行模糊匹配后提供相似链接。这种方 式是根据用户的上次浏览行为预测下次的浏览行为,但是没有考虑用户以前的历次浏览行 为,就难以得到准确的预测结果。再加上中文切词、划词方面的原因,这种方式往往会对 9 用户浏览的网页内容作多种模糊匹配,因此往往提供的相似结果往往是发散型的,没有提 供更加针对用户的相似链接;换言之,这种方式提供的是相似性匹配,而不是提供针对性 匹配,因而这种方式往往是不准确的。 利用点击率提供针对性匹配,就是根据记录到的用户的历次点击历史,根据用户历次 浏览的网页内容和在网页上的点击行为,推测用户浏览网页时希望寻找的信息,根据推测 到的结果,提供范围更小、针对性更强的针对性匹配,从而提高网页内容的针对性,提高 用户行为的关联度,进而吸引用户,提高网页的点击率。 2 2 4实现上网行为的全方位、全过程审计 在一些涉及机密重要信息的信息系统中,审计是这些信息中的重要部分。审计分为事 前审计、事中审计和事后审计几种类型,其中事前审计又称监控,是指对用户的每一个行 为,尤其是涉及重要信息的行为,都要做到有记录可查。事中审计是指对用户进行重要业 务的过程进行监控记录;事后审计是指在业务完成后执行审查功能。对于涉及重要、机密 的信息,事前、事中审计都是必不可少的。 在w e b 应用程序中,目前的审计工作大部分是在服务器端进行的,分为服务器r 志和 业务审计两种。服务器只志审计是指记录用户在和服务器交互过程中的信息,以日志的形 式保存在应用服务器中。业务审计是有信息系统开发人员开发的信息审计模块,对每一笔 重要的业务过程进行审计。由于这些审计工作是在服务器进行的,只记录用户和服务器的 交互行为,不记录在客户端发生的各种行为,会造成审计工作的不准确。 对于一个关注业务的信息系统而言,用户的上网行为包括业务有关行为和业务无关行 为。对于审计工作而言,需要审计的是业务相关的用户行为。但是业务无关行为有时候对 于审计也是相当重要,很多计算机犯罪,往往都有很长一段时间的信息探测,而这些探测 行为往往是业务无关的,如果能及时记录这些行为,并且在审计时考虑这些行为,那么就 有希望及时发现并制止这些犯罪行为。 使用点击流进行审计,就是利用点击流在客户端的记录能力,尤其是本文开发的基于 a j a x 的点击流记录工具在客户端强大的记录能力,记录用户在客户端的每一个行为,将 这些行为作为审计的依据,结合服务器的审计记录,这样就可以做到全面、详细的审计记 录。由于使用点击流能够记录用户的在客户端的各种行为,这就比较全面的记录了用户业 务相关的行为和业务无关的行为,根据这些信息,就可以有效的实现全方位的审计。 1 0 2 2 5实现主动防御的网络信息安全防范 网络信息安全是基于w e b 的信息系统的重要一环。网络信息安全包括的范围十分广 泛,但主要可以概括为连接互联网的存放网络信息系统的服务器的安全以及网络信息系统 自身的安全,服务器的安全包括操作系统漏洞、使用的w e b 服务器的漏洞以及数据库渥洞 等的安全防范;网络信息系统自身的安全是指在开发信息系统时遗留下的安全隐患和漏 洞,包括x s s 、s q l 注入、身份认证攻击等,在本文中主要讨论网络信息系统的信息安 全问题。 目前网络信息系统的安全防范主要是针对既有攻击的弥补和方法,也就是以被动的方 式去防范、弥补针对系统的攻击,没有主动的去发现、防御这些攻击。基于此,本文提出 了一个基于点击流的、能够实现主动发现、积极防御的安全模型,其优点在于能够主动发 现针对系统的攻击,从而实现主动防御的网络信息安全。 这种方法的原理在于,用户在和信息系统交互时都要留下点击流数据,如果不存在点 击流数据而和服务器交互,那么说明用户是使用其他客户端,而不是浏览器和服务器进行 连接,从而发现系统攻击者。另外,系统攻击者在攻击系统身份等信息时,往往会使用穷 举法进行暴力破解,通过研究点击流数据,就可以识别这些攻击,确保系统安全。 2 2 6用户在线状态的实时检测 在基于h t t p 协议的信息系统中,用户在线状态是通过服务器端的应用服务器产生一 个唯一的用户标识符,并将这个用户标识符相关的信息保存到服务器端的内存中( s e s s i o n 对象) ,然后服务器将这个用户标识符发送到客户端,保存到c o o k i e 文件中并保存一定的 时间,这个用户标识符在服务器内存中只保存定的时间( 具体时问由服务器设定,一般 是3 0 分钟) ,如果超过时间,服务器将删除内存中用户标识符关联的s e s s i o n 对象,这样 , 表现在客户端就是用户在线状态过期,用户必须重新登陆。 问题就出现在这个s e s s i o n 对象的保存时间上。由于服务器内存的限制,s e s s i o n 对象 不可能无限期的保存,必须有一个过期时间,如果用户超过这个时间,则删除内存中的那 个用户相关的s e s s i o n 对象。在正常的情况下,用户和服务器交互时,用户的交互请求信 息都携带用户的身份标识信息,如果超过或者即将超过保存时间时,可以设置更改s e s s i o n 的保存时间,让其重新计时。但是如果一个用户在下载了一个很长的文件后,一直在阅读 这个文件,甚至超过了服务器设定的保存时间都没有和服务器交互,那么由于服务器一直 l l 没有用户的交互信息,无法判断用户现在是在线,只有将这个用户相关的s e s s i o n 对象删 除,而实际上用户并没有下线。这样当这个用户再次浏览其他页面时,系统会提示他账号 在线状态已过期,要求他重新登陆。 还有一种情况就是用户在退出信息系统时,没有点击页面上提供的“注销”操作,而 是直接将所在的页面关闭。在这种情况下,在服务器端由于没有接受到用户下线的通知, 因而不会立即注销内存中的s e s s i o n 对象,直到该s e s s i o n 对象超过时间才会注销,浪费 了服务器的内存和系统的性能。而在客户端,由于c o o k i e 文件还没有销毁( 取决于具体 的w e b 服务器设置和浏览器设置,有些浏览器允许使用c o o k i e 文件,而有些用户不允许 使用c o o k i e 文件,对于不允许使用c o o k i e 文件的情况,c o o k i e 中的用户标识一般是保存 在客户端的浏览器内存空间中的) ,如果其他用户重新打开该信息系统,则有可能冒用用 户的账号登陆系统,造成信息系统的泄密。 上述两种情况的根源在于,服务器端的w e b 服务器无法确切知道用户在页面上的行 为,也就无法根据用户的行为及时调整w e b 服务器的状态。基于a j a x 的点击流系统,为 这个问题提出了一个完整的解决方案。由于基于a j a x 的点击流技术可以实时检测用户的 每一个行为,从而为服务器感知用户状态提供了翔实的资料。服务器可以根据用户的行为, 准确判断用户是否已经下线;对于用户直接关闭网页而不退出,也可以通过页面上的有关 事件感知这一动作,从而及时调整服务器的s e s s i o n 对象。 通过应用基于a j a x 的点击流技术,既可以避免客户端的信息安全带来的信息损害, 也可以有效调整服务器的性能,避免服务器的资源浪费。 2 3 传统的点击流实现原理【2 5 】 在了解传统的点击流之前,首先要了解当前w e b 应用程序的体系结构以及配置环境。 在第三、四小节详细描述了传统点击流技术的实现。 2 3 1 1 典型w e b 应用程序体系结构 2 s j w e b 应用程序是指运行于互联网之上,以网络浏览器作为终端应用的信息系统,这种 信息系统具有以下几个特点: 1 ) w e b 应用程序用户具有自治性。传统的基于c s 架构的信息系统对于终端用户具 有很高级别的控制能力,信息系统能控制所有终端用户应用的功能、数据访问权 1 2 限、安全级别等,对于环境的高度控制,最使得用户必须采用已预定好的方式进 行操作。但是在b s 架构下的w e b 应用程序与此恰恰相反,随着i n t e r n e t 时代的 到来,用户普遍采用网络浏览器作为首选的终端用户应用程序,这些浏览器不受 服务器端的信息系统的控制,因此用户具有极高的自治特性。 2 ) w e b 用户访问w e b 应用程序具有复杂的网络类型。在w e b 应用程序体系结构中, 用户既可能使用公用i n t e r a c t 访问,也有可能使用内部i n t r a n e t 访问,这与传统的 i t 体系结构采用严格控制的内部网络进行访问是不同的。在这种不受控制的环境 下,由于无法控制那些人会访问w e b 应用程序,这些服务器面临着内部和外部的 双重安全风险。 除了这两个方面的特点外,一个典型的c s 架构的w e b 应用程序具有以下几个组成 部分: 1 ) i n t e r a c t 服务提供商 在i n t e r n e t 环境下,网络用户系统需要通过i n t e r a c t 服务提供商( i s p ) 提供的网络服 务连接i n t e m e t 。i s p 拥有大批代理服务器以连接常用的媒介,如电话网、有线电视网和 卫星网等。普通用户可以通过电话线拨号、d s l 或者无线协议等来获取i s p 提供的服务, 然后,i s p 将这些请求发送给相应的w e b 服务器。在一个社团环境下,一个校园网、企业 网的局域网也可以为其用户提供一个指定的i s p 。 2 ) 多种物理w e b 服务器 为了防止大量用户访问造成的服务器压力和网络阻塞,大型应用系统会采用将网络内 容备份到多个物理w e b 服务器中的方法来应对,以实现负载平衡,这样网站的流量可以 由几个服务器均分,而不是某一个服务器来承载。 3 ) 不同类型的备份w e b 服务器 在一个w e b 应用环境中,通常存在多种类型的w e b 服务器,一个典型的网站基本上都 有至少一个像a p a c h e 或者m i c r o s o ri i s 的传统w e b 服务器。a p a c h e 是运行于l i n u x 和 u n i x 下的开放源码的自由软件,而m i c r o s o f ti i s 则是m i c r o s o f t 推出的与w i n d o w s 操作 系统捆绑的w e b 服务器,除了这些w e b 服务器外,一些网站还拥有下列服务器: 内部缓存w e b 页面服务器: 这些服务器将经常访问的一些页面存储到内存中,在满足用户页面请求时尽量避免查 找延迟。 安全服务器: 这些特定的服务器采用h t t p s 和s s l 等安全协议以完成w e b 用户和w e b 服务器之间 的安全h t t p 传输。安全传输的信息包括用户注册、登陆、财务和保密信息等。 w 曲应用服务器: 这些服务器一般由a p a c h et o m c a t 、b e aw e b l o g i c 、i b mw e b s p h e r e 等相应的供应 商提供。他们通常提供特定应用逻辑,以加速综合应用开发。这些服务器通常位于a p a c h e 或m i e r o s o t ti i s 等w e b 页面服务器的后面。 4 1 集群事务交易系统 为了提供2 4 7 强度的交易服务,商业交易服务器不能因为维护、病毒等原因停止对 外服务,因而需要一个集群环境。在集群环境下,w e b 应用的事务处理得到了极大的保 障。 5 ) 点击流数据库 所有的w e b 服务器用w e b 日志文件记录了用户的每一次点击活动,这些日志文件被 抽取并装载到数据库中,以便提供决策信息。来自事务交易的一些信息也会被添加到点击 流数据库中,以充实点击流数据。 典型的w e b 应用整体信息结构如下所示: 1 4 图2 3 - 1 典型的w e b 信息系统体系结构 2 3 1 2点击流数据源和w e b 服务器日志文件 目前,网络数据挖掘主要分为内容挖掘、结构挖掘和使用挖掘3 类。网络使用挖掘的 数据源是用户访问企业网站时留下的访问记录。即w e b 日志 2 4 。点击流简单说就是w e b 服务器上一系列有序的日志记录。随着w w w 应用以及电子商务的高速发展,电子商务 网站的w e b 服务器上自动收集了大量的用户访问信息记录,即所谓的w e b 日志 1 7 。 从上面这些论述中我们可以看出,一般w e b 使用挖掘使用的都是w e b 服务器日志文件 作为数据源,其中w e b 日志有三种主要的格式 1 8 ,1 1 :n c s a 的普通日志格式( c l f : c o m m o nl o gf o r m a t ) 、n c s a 的扩展日志格式( e c l f :e x t e n d e dl o gf i l ef o r m a t ) 和 w 3 c 的扩展日志文件( e x l f :e x t e n d e dl o gf i l ef o r m a t ) 。w 3 c 的扩展日志格式( e x l f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慎独精神与护理职业影响力
- 多发性骨髓瘤患者心理护理与支持
- 手术室护理研究进展
- 淀粉加工工班组协作水平考核试卷含答案
- 四氯化钛精制工岗前记录考核试卷含答案
- 化学试剂生产工安全知识竞赛评优考核试卷含答案
- 自来水生产工常识能力考核试卷含答案
- 水土保持监测工安全实操评优考核试卷含答案
- 化纤聚合工岗前成果考核试卷含答案
- 电子电气产品环境试验检验员岗前工作改进考核试卷含答案
- 2025年泌尿外科学(副高)考试试题常考点试题带答案
- 2026年安全生产月课件
- 2026年淮南师范学院专职辅导员公开招聘笔试备考试题及答案解析
- 2026山东小升初语文作文备考集训(范文+指导)
- 安徽省合肥市2026届高三物理第二次教学质量检测试题【含答案】
- 2026年高考生物考前20天冲刺讲义(一)(解析版)
- 2026年二级建造师之二建市政工程实务押题宝典题库及答案详解【基础+提升】
- 2026年军校招生面试常见问题及回答思路
- 2026年二级建造师考试建筑实务案例分析题
- 四川省2026届高三适应性考试语文模拟试题及参考答案
- 班子成员2026年学习教育个人查摆问题对照发言材料
评论
0/150
提交评论