域名分析法的研究概念原理内容与应用_第1页
域名分析法的研究概念原理内容与应用_第2页
域名分析法的研究概念原理内容与应用_第3页
域名分析法的研究概念原理内容与应用_第4页
域名分析法的研究概念原理内容与应用_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

域名分析法的研究概念、原理、内容与应用邱均平/宋艳辉2012-9-28 14:00:34 来源:图书情报知识(武汉)2010 年 6期【英文标题】On the Domain Name Analysis:Concepts, Principles, Content and Application【作者简介】邱均平,1947 年生,教授,博士生导师;武汉大学中国科学评价研究中心,武汉,430072宋艳辉,1981 年生,博士研究生。武汉大学中国科学评价研究中心,武汉,430072【内容提要】在前期相关研究的基础上,对域名分析法的概念做了界定;对域名分析法的原理和基本流程进行了详细说明;确定了域名分析法应该包含网络日志、网络流量、网络引文等主体分析内容,并进一步阐述了网络日志分析的研究对象与方法、网络流量的分类与基本内容、网络引文分布及可获得性分析;最后对域名分析法的应用做出了归纳总结。Based on previous studies, the paper defined the concept of domain analysis; We detailed the principle and the basic process of domain analysis theory; We determined the domain analysis should include web logs, network traffic, network analysis of citations of the main content, and further explained the research object and methods of web log analysis, the classification and basic content of network traffic, the distribution and availability of web citation analysis; Finally, we summarized the application of domain analysis.【关 键 词】网络计量学/域名分析方法/网络日志/网络流量/网络引文Webometrics/Domain analysis/Web logs/Web traffic/Web citation域名作为网络时代的产物,对它的研究由来已久,几乎伴随了整个网络时代的发展,与域名相关的理论、技术方法、应用研究也很多。然而,在国内将域名分析方法作为一种独立的方法进行研究却很少,甚至关于域名分析方法的这种提法都不多见。但由于这方面的研究的日渐成熟,有必要吸纳域名分析法作为网络计量学的一种特征研究方法,并对其进行系统的研究。对域名分析法的系统研究,有利于形成网络计量学真正意义上的特征研究方法。我们认为,从网络计量学的角度出发,域名分析法应该包含网络日志、网络流量、网络引文等为主体的分析内容。1、域名分析法的概念在国内,对域名分析方法进行的研究很少。因此,还没有出现针对域名分析法的统一的定义。近年来,我们承担了“网络计量学研究”、“网上学术信息的分布与变化规律研究及其应用”等一系列与网络计量学相关的基金项目的研究,已经对网络计量学基本理论,链接分析法、网络内容分析法、社会网络分析法等技术方法,三大定律以及应用研究做了深入的探索。因此也对网络日志、网络流量、网络引文的概念、分类、研究对象以及主要方法有了更加深刻的认识。在以上研究的基础上,我们对域名分析法作出如下定义:域名分析方法是指在一定时间内,运用一定的定量研究方法对域名的用户广度、域名及其子域名下的资源规模、访问情况、网络影响力及技术因素等参数进行定量描述和统计分析,从而揭示出其中隐藏的客观规律,以便更好地进行研究与分析工作。2、域名分析法的原理与基本流程2.1 域名分析法的原理域名分析法是针对域名以及与域名相关的一系列事件而展开的分析方法,因此,域名的分析方法的基本原理是:首先,确定以网络服务器中的网络日志、网络数据流量以及学术论文后面所附的、其来源出处是因特网资源的网络引文为中心的研究分析对象;其次,对所选取的对象进行数据的初步整理,主要工作是选取适合进一步分析的规范化数据,保证下一步分析处理结果的准确度和可信度;接着运用统计分析、聚类、分类、关联规则、序列模式识别等方法对上一步经过预处理的数据进行分析;最后,分析挖掘得到的规则和模式,提取有意义的、感兴趣的规则和模式作为分析结果。2.2 域名分析法的基本流程为有效地运用域名分析法进行分析研究工作,我们把域名分析方法的基本操作流程定义为如下几个步骤:(1)选取分析对象。分析对象通常是由分析、研究的目的而确定的1。如果我们是在网站建成后,为了了解网站的运行情况、发现网站存在的不足或者检测网络设备的工作状态,通常就会选取网络流量作为研究对象;而如果我们是要了解网站中各页面的访问情况,根据各页面的点击率来改善网页的内容和质量、提高内容的可读性,通常的做法是选取网络服务器的日志文件作为分析和统计的对象。(2)预处理阶段。该阶段的主要工作是从选取的对象中获取规范化的数据,为进一步分析做好准备。原始数据往往是无序的,而且存在许多与计量没有关系的数据,它们的存在会干扰分析的过程、影响分析的结果。因此,为了保证分析处理结果的准确度和可信度,完全有必要对原始数据进行识别和净化处理。(3)统计分析。在上一步获取的数据的基础上,根据研究的目的,运用数学的、统计的、计算机软件等各种有效的分析方法,从各种指标或其他不同的角度进行分析。(4)作出结论。根据分析的数据,作出相应的结论。在域名分析法的基本步骤中,统计分析是最关键的一环。其中要用到各种定量的和定性的分析研究方法,也是最容易出现错误或者导致整个过程中断的环节。然而,我们无论采用哪种类型的分析方法,都必须在占有翔实、可靠、准确的数据的基础上进行。因此,预处理阶段是统计分析的前提。在进行统计分析之前,搜集数据时,首先必须选准统计对象,这也使得预处理阶段变得至关重要。从某种程度上说,它直接决定了整个分析过程的成败。3、域名分析法的内容虽然我们对域名分析法的定义侧重于从域名出发进行定义,但当论及域名分析法的内容,应该从域名分析的过程进行。而且在网络这样的大环境下,域名分析方法不应该仅仅局限于对单一域名的分析研究,而应该从宏观层次上去认识域名分析法。因此,我们认为,域名分析方法的内容包括网络使用记录即网络日志的分析内容、网络流量分析的内容和网络引文分析的内容。为进一步说明域名分析法,接下来我们将对域名分析法进行详细阐述。3.1 网络日志分析及其主要方法3.1.1 网络日志分析的研究对象网络日志分析的研究对象比较众多,但是最主要是集中以下几个方面:(1)Web 服务器日志。Web 服务器中的日志文件记录了用户访问站点的数据,它是由一条条的记录组成,一般情况下一条记录就记录了用户对 Web的一次访问。不同 Web服务器产品的日志记录格式不同,但一般都包括访问者的 IP地址、访问时间、访问方式(GET-POST)、被请求文件的 URL、HTTP 版本号、返回码、传输字节数、访问的页面、协议、错误代码等。每当站点被访问一次,Web 日志就在数据库中增加相应的记录2。服务器日志有两种格式存储,一种是普通日志文件格式,另一种是扩展日志文件格式。如果能够从这个文件中存储的一些项目语法上的分析,如 DNS,就可以知道用户来源的区域。例如,域名 edu被分析后可以知道用户来自于教育部门,通过数据挖掘分析,就知道了某一服务的用户多数是来自于教育部门,就可以根据此信息调整服务策略。扩展日志文件格式主要是支持关于日志文件元信息的指令,如版本号,会话监控开始和结束的是日期,被记录的域等。(2)注册信息。用户注册信息是指用户通过 Web页在屏幕上输入的、提交给服务器的相关信息。它具有信息比较全面、具体、客观等特点,在网络服务活动中起着非常重要的作用,特别是在安全方面或者对用户可访问信息的限制方面具有一定的意义。在 Web的数据挖掘中,用户登记信息可以和访问日志结合起来,以提高数据挖掘的准确度,从而能进一步了解用户的特点。(3)曲奇(Cookie)数据记录。Cookie 是一种软件构件,它能够在用户端存储用户访问服务器的信息,服务器软件上存储关于 Cookie的记录,就是Cookielogs,一般格式是:“name, expiry-date, path, domain, security-level”。Cookie 机制提供了解用户的需求,服务器利用 Cookie能够跟踪用户的活动。特别是网络文献服务网站,一切方便用户是其追求的目标,而 Cookie为分析挖掘提供了很好的工具。3.1.2 网络日志分析的主要方法网络用户使用记录的分析主要任务是从数据中发现模式,是关于用户行为及潜在用户信息的知识发现。通常实现方法是对 Web服务器日志和 Cookie等日志文件进行分析,发现用户访问行为频度和内容等信息,从而找出一定的模式和规则。主要包括关联规则、序列模式、网页聚类、频繁遍历路径等2。(1)统计分析。对网页的访问种类、时间、不同种类的统计(频率、均值、中值)分析,有助于改进系统性能、增强系统的安全性,便于网页的修改并能够提供决策支持。通过对日志访问频率分析,可以在一定程度上发现用户感兴趣的热点问题。(2)路径分析。路径分析可以用于确定在一个 Web站点中最频繁访问的路径。(3)关联分析。关联规则的发现可以用来找出某次服务器会话中最经常出现的相关网页。在网络信息服务中关联规则的发现也就是要找到用户对网站上各种文献之间访问的相互联系,这些文献之间可能存在或可能不存在直接的联系。(4)序列模式。序列模式的分析就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。找出会话间的模式,利用会话间的时间排序,预测未来的访问模式,可以用进行趋势分析、转折点检测和相似分析等。(5)分类规则分析。分类发现就是给出识别一个特殊群体的公共属性的描述,可以分析某些共同的特性。这个特性可以用来分类新的项。(6)聚类分析。聚类分析可以从 Web访问信息数据中聚集出具有相似特性的某些用户。具有相似模式的用户组成的用户群体,便于提供个性化服务。3.2 网络流量分析3.2.1 网络流量的分类为了进行网络流量分析,有必要对网络流量作出如下分类:(1)节点端口流量。网络节点端口流量指的是网络节点设备端口流入和流出的数据包的信息统计。它包括数据包的个数、字节数、包大小分布、丢包数等非常多的统计信息。监视节点端口流量的典型工具是 MRTG(Multi Router Traffic Grapher),另外,许多厂商的网管工具也提供这些功能,如 HP公司的即 Enview平台,Agilent 公司的 Firehunter等。MRTG 的功能单一,它使用SNMP协议访问网络节点获取 MIB信息(包括网络节点端口流量),然后通过用Web方式输出结果。MRTG 是一个非常实用的免费软件,在各个运营商的网管中心都作为最常用的网络监视工具来使用。其他类型的网管工具,如以上提到的用来监视网络节点端口流量。因此,当需要监视或分析更多的网络性能参数时,可以考虑用这些工具的强大分析功能与 MRTG结合一起使用。(2)端到端的 IP流量。端到端的 IP流量指的是在网络层从一个源到一个目的 IP包的统计信息,通过对它的分析,可以了解到网络中的用户都访问了哪些目的网络,是网络分析、规划、设计和优化的重要依据。采集端到端 IP流量的典型工具包括 Sniffer、Netflow、EtherPeek 和流量探针等,根据其不同的特点,它们分别适用于不同范围的流量采集。 (3)业务层流量。业务层流量除了包含端到端 IP流量的信息之外,还包含了第四层(TCP 层)的端口信息。显而易见,它包含了应用服务的种类信息,利用这些信息可以做更详细的分析。Sniffer、EtherPeek、Netflow 和流量探针等工具也实现了这个层次的流量信息采集。(4)完整的用户业务数据流量。完整的用户业务流量对于安全、性能等方面的分析非常有效。例如,捕获黑客的来访数据包可以制止某些犯罪行为或得到重要的证据;由于捕获完整的用户业务数据需要超强的硬盘存储速度和容量,因此利用 Sniffer和流量探针等都只能实现短时间内数据包的捕获和跟踪。某些软件如 Niksun公司 NetDetector产品能提供长时间的完整的用户业务流量采集4。3.2.2 网络流量分析的基本内容网站流量分析除了流量数据的收集和统计,更多的是对网站流量指标的科学分析,不同的人员从中获得的有效信息大不一样,这需要专业分析人员数据进行深度挖掘,研究不同指标对网络价值的贡献,找出影响网站运营的因素。这些并不是一个综合的定量指标能够计算出来的,因此网站流量分析应当采用定量与定性分析相结合的办法。(1)网络流量流向分析。流量流向分析通常部署在网络的各个接入点,如城域网IDO 接入点、其他网络接入点,从而可以对所有接入网络中的流量进行分析。网络流量流向分析对网络优化具有极其重要的作用,通过流量流向分析,使网管人员可以快速地对网络隐患进行分析处理,优化网络结构。流量流向分析及应用是在近年发展起来的一项网络分析技术,目前使用到的分析方法种类较少,本文在流量流向分析方面进行了简单的端口流量统计分析,为网络架构优化提供依据。随着流量流向分析技术的发展,相信将会有更多的分析方法涌现,使流量流向分析能在网络维护中起到更大的作用。(2)网络流量特征分析及流量协议分析。通过 MRTG流量监控软件,可以找出一个时间段内的网络流量分布规律,比如白天的流量从早上 8:3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论