统计学论文-网络读者访问流量统计分析系统的研究与实现 .doc统计学论文-网络读者访问流量统计分析系统的研究与实现 .doc

收藏 分享

资源预览需要最新版本的Flash Player支持。
您尚未安装或版本过低,建议您

统计学论文网络读者访问流量统计分析系统的研究与实现1前言随着数字图书馆的建设,图书馆馆藏资源数字化的快速发展,图书馆以网站的形式向读者提供信息资源的服务越来越多,这些服务有图书馆门户、馆藏资源检索、光盘数据镜像、电子书刊、网络数据库、自建数据库和虚拟参考咨询等等,为了揭示网络环境下读者对这些信息资源的浏览情况、阅读情况以及访问变化趋势,准确了解读者需求分布和需求增长等情况,从而对网络读者的信息资源寻求行为模式进行研究,以便能为读者提供更好的服务,图书馆须了解以下几个问题网络读者是如何访问网站的,这些信息资源是如何被访问使用的,如何评价这些信息资源的利用情况等等。为了回答这些问题,我们通过本系统对图书馆多个信息资源发布网站进行读者访问流量统计、热点网页访问统计、读者访问来源统计析及各项专题访问统计等研究,并根据统计结果反映的读者需求分布和需求增长等数据对信启、资源网站的架构、界面的设计、发布的内容加以修改和调整,以满足读者需求为目标,吸引了读者的目光,提高了图书馆信息资源建设和服务水平。本系统通过对信息资源的访问记录进行统计分析来了解读者的信息需求,这种量化的方法具有客观和经济的优点,还可配合调查研究法得到更实际的结果,并以此探讨网络信息计量学在对信息资源使用成效进行评估的应用,包括所遭遇的困难及应对之道,以期为信息资源的访问评估与改进寻找可行的方法。2系统的实现访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段1记录网站的访问数据;2分析记录数据;3为网站建设策略的改进提供依据。21系统原理由于网络发布站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源发布站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到发布数据库中发布出去。图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。22分析指标传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异4。参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标1读者到访人数和潜在读者人数的百分比;2到访读者表现了阅读的兴趣的百分比(采取明显的阅读行动);3可能的读者转为经常的读者的百分比(经常阅读、下载资料);4读者的持续度(重复到访读者);5读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);6读者停止阅读行为的百分比(阅读行为半途中止);7读者耗损率(现有读者中停止阅读行为者的百分比);8读者动摇率(耗损的读者/到访读者的总数);9读者最近到访时间(据上次到访的间隔时间);10读者到访频率(多久到访一次)。就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。23系统框图网络读者流量统计分析系统功能框图24工作方法本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。读者访问过程日志分析法优缺点量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。25技术实现1系统结构本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示读者访问日志统计分析系统结构框图2系统组成模块本系统有六个模块组成访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。3系统运行环境与开发平台本系统运行环境和开发平台如表2。读者访问日志统计分析系统模块表2系统运行环境及开发平台一览表软件类别软件名称数据库SQLSERVER2000FASTTRENDSDATABASE操作系统WINDOWS2000SP4SERVERAIX433WEB服务器软件IIS50APACHE30浏览器软件IE55网页制作FRONTPAGE2000JAVASCRIPTASP工具EDITPLUSTEXTEDITOR编程语言VISUALBASIC60图表软件EXCEL20004程序流程与代码实现该系统由MAINASP(主界面程序)、FLUXASP(小时、日、星期流量分析)、TARGETASP(被访页面分析)、VISITORASP(来访读者分析)、CHARTASP(统计分析图表)五个组成。我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。“被访页面分析”程序流程图相应代码<TABLE<TDCLASS=定义的表格形式及表头>SETCONNSERVERCREATOBJECTLADODBCONNECTIONCONNOPENDSNDSN_DBS;UIDXXX;PWDXXXSETRESERVERCREATOBJECTADODBRECORDERSETREACTIVECONNECTIONCONNDBNAMEAPPLICATIONLOGTIME数据表名称REOPEN“QL语句”DOWHILENOTREEOF执行RECORDSET操作,服务器进行统计计算RESPONSEWRITE写入统计表REMOVENEXTLOOPRECLOSE程序中一些代码说明①RECORDSET的OPEN方法允许用户向数据库发出请求,通常是运行SQL命令。如SQLQUERYSELECTLOGTIMEFROMINTEMETLOGWHEREDAYLOGTIMEDAYGETDATEANDMONTHLOGTIMEMONTHGETDATEANDYEARLOGTIMEYEARGETDATEDBRSOPENSQLQUERY,DBCONNECTION,3,3②RECORDSET的RECORDCOUNT属性可以取得当前在RECORDSET对象中的记录条数。如SETDBRSSERVERCREATEOBJECTADODBRECORDSETAMOUNTDBRSRECORDCOUNT③RECORDSET的MOVENEXT方法移动指针到RECORDSET对象的下一条数据。如DBRSMOVENEXT④RESPONSE的WRITE方法负责将字符串信息输出的用户端。如RESPONSEWRITE“页面总访问量“AMOUNT”<BR>⑤RECORDSET的CLOSE方法可以用来关闭指定的RECORDSET对象。如DBRSCLOSE26系统运行过程下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。首先我们用FTP工具抓取网址为HTTP//WWWLIBXJTUEDUCN的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。对日志分析系统进行运行参数设置读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆LOGO,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用EEXEL软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。3实际应用从2002年开始,我们从图书馆门户网站读者访问计数开始了网络读者访问统计工作,从最初的图书馆首页访问计数到现在应用网络读者访问流量统计分析系统到以信息资源发布站点、数据库为单元的访问利用上,取得了不少研究成果,下面我们介绍以2003年西安交通大学图书馆网站读者访问日志为统计对象,获得的一些统计分析结果。表3是2003年图书馆网站的资源浏览次数,访问次数与访问读者数的统计表,我们看到一年内资源的浏览次数是10,222,296,访问次数是1,617,166,访问读者是310,628,对照2003年西安交大统计公报教职工5341人,在校学生32766人的数据表明图书馆网站有很高的访问量。另外网络访问读者310,628远远大于学生和教职工的总和,表明有相当多的读者使用本馆的资源,这说明本馆的信息资源丰富,吸引了很多读者。网站不足之处是自建的外文资源很少。从表3看,来自国内访问占643,来自国外访问占001。综合以上资料,西安交大图书馆网站为校内外读者提供了方便、丰富的资源服务,吸引了大量的读者,但在国外的知名度很低,现有资源不能吸引国外读者,对此图书馆采取一些措施,来解决这个问题。①建设网站的英文版本;②把本校和本地一些有特色的文化资源数字化后,做成中英文全文数据库。如钱学森多媒体数据库、江南制造局多媒体数据库;③参与中外数据库合作建设项目,如中美百万图书项目。表3图书馆网络读者和资源浏览访问统计01/01/200312/31/2003浏览网页数网页访问数(资源)10,222,296平均每日的访问网页数28,006访问者会话数访问者会话数1,617,166平均每日访问者会话数4,430国际范围内的访问者百分比001未知区域内的访问者百分比3955来自CHINA的访问者百分比6043访问者数单一访问者数310,628接着我们看一年间网络读者常使用的网站资源与服务,图5显示的是读者最常使用的前十项网站资源与服务以及它们占全部浏览次数的百分比。从图中我们观察到前十项占了访问量的43,第一项是图书馆首页,然后依次是网络数据库、联机公共目录查询、中国期刊网,这说明图书馆网站的资源内容设计与规划合理,读者访问资源方便,相关信息更新及时,受到了读者的欢迎。另外,网络数据库和联机公共目录访问比例接近说明读者并重利用印刷型资源和数宇化资源,数字化资源对科研和教学的作用日益明显。从图5中我们还观察到所有的电子数据库访问所占比例值呈现出指数下降的趋势,这说明较少数数据库的访问量较大,而较多数数据库访问量较少,根据这个特点,图书馆在采购数据库时可采取不同的采购策略,对于使用量大的数据库保证数据的更新量和连续性,则可满足约80的读者信息需求,对于较多的使用量少的数据库可采用合伙采购共同使用的办法,来满足约20的读者信息需求。图书馆网站前十名资源与服务以及它们占全部访问次数的比例01/01/200312/31/2003接下来我们来分析常访问的读者及其来源,首先,图6中表示网络读者访问
编号:201312171331343999    类型:共享资源    大小:22.41KB    格式:DOC    上传时间:2013-12-17
  
2
关 键 词:
行业资料 农林牧渔 精品文档 统计学论
  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:统计学论文-网络读者访问流量统计分析系统的研究与实现 .doc
链接地址:http://www.renrendoc.com/p-233999.html

当前资源信息

4.0
 
(2人评价)
浏览:17次
docin上传于2013-12-17

官方联系方式

客服手机:17625900360   
2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   

精品推荐

相关阅读

人人文库
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

网站客服QQ:2846424093    人人文库上传用户QQ群:460291265   

[email protected] 2016-2018  renrendoc.com 网站版权所有   南天在线技术支持

经营许可证编号:苏ICP备12009002号-5