




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要本文主要研究校园网用户行为的特征,便于校园网网络管理人员更好地从整体上了解校园网络行为,改进和优化校园网。同时,网络管理人员能够综合分析校园网络各方面的信息,及时了解校园网整体的运行状态,从而采取相关措施以实现网络管理的优化,更好地、方便地管理网络。本文首先对网络用户和网络行为建立了概念与分类体系,并在此基础上对用户进行了分类;其次,采集学校网络设备数据库中的数据集,选取研究所需的数据,标识出用户并进行分类;再次,运用数据挖掘和 WEB 数据挖掘的知识对采集到的数据进行挖掘和分析,本文主要使用一种基于 IP 地址的融合最长前缀匹配和最近邻近算法的混合聚类分析方法来分析用户行为;最后,按照不同专业、不同年级之间的行为进行分析从用户的上网时间、使用的网络服务、访问网站的偏好行为方面进行分析。关键词:网络用户行为,行为分析,数据挖掘,WEB 数据挖掘,聚类分析IABSTRACTThis paper studies the characteristic of the campus network users, for campusnetwork managers easy and better understand the overall behavior of the campusnetwork,improve and optimize the campus network。while the network managementcan comprehensive analysis of information on all aspects of the campus network,keep abreast of the campus network as a whole running in order to take relevantmeasures to achieve the optimization of network management,better and easilymanage their networks。In this paper,first established the network user and network behavior conceptsand classification system and classification of users on this basis;second,acquisitiondata sets of the school network equipment database,select the required dataresearch,identify and classify the user;third,by using the data mining and theknowledge of WEB data mining to mining and analysis the collected data。Thispaper using IP address based on the longest prefix matching and nearest neighboralgorithm for hybrid clustering method to analyze user behavior;finally,according todifferent professions and grade,analyze the behavior of Internet users from time、using the network services,、access to the site preference。Key words: network user behavior, behavioral analysis, data mining, WEB data mining,clustering analysisII学位论文独创性声明本论文是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。作者签名:日期:学位论文使用授权声明本人完全了解南京财经大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。作者签名:导师签名:日期:南京财经大学硕士学位论文第一章 绪论1.1 课题的研究背景和意义随着网络技术的迅猛发展和网络应用的日益普及,人们对网络的认识和掌握程度也在不断地提高,网络用户数量也随之增多。可见,互联网已经成为一种人们获取信息和资源的重要途径。如今,互联网已经发展为具有高的可扩展性和多层次的服务,取代了以前的简单接入,变得越来越复杂并多样化。随着网络用户对网络服务质量的要求越来越高,网络的管理难度相应地也随之增大。高校校园网可以看作为小型的互联网,校园网络的网络传输速率在不断的提高,各种新型的网络应用也在增多导致网络的复杂度随之增加。对校园网络中引进的新的传输技术、新的网络应用及网络环境进行充分了解和掌握,从而为以后改进校园网络的状况奠定可靠的基础。校园网用户行为分析的研究是通过对校园网络的测量和分析,挖掘和发现网络中呈现出来的各种行为规律,寻找各种行为和变化产生的原因并对其进行解释,从而对校园网络的状态作出正确的评测和作出相应的调整。由于校园网用户具有较多的知识,因此专业性和使用目的性比较强,这点有别于校外的其他网络用户,校外的一些网络用户可能是盲目的使用网络的服务没有明确性。同时校园网络用户各自的兴趣爱好和习惯有所差异,故用户在使用网络时关注的内容、使用网络的时间和服务也就不尽相同。及时了解整个校园网络的运行状态,才能科学和合理地利用校园网。对校园网络进行相应的实时监控才能对整个网络的运行动态进行定期或不定期的、大范围的预测和分析。对未来的校园网络结构进行科学地规划已成为校园网络管理的一个重要内容和方向,对校园网络分析则是了解当前网络的不合理之处以及存在的问题,为未来的校园网的建设和完善提供了良好的建议和手段。如何通过分析校园网络用户行为,从而合理分配网络流量、提高用户使用网络的效率己成为校园网络管理的一个急需解决的问题。通过对校园网络用户行为的分析和研究,可以为整个校园网的管理提供决策和支持具有一定帮助和指导。网络用户行为分析便于校园网的管理者对校园网用户的网络行为有足够的认识,对相应地行为进行相关的处理和控制,才能使校园网更好地服务于用户的学习和工作。通过对校园网络进行全面的监测和分析,才能更好的掌握整个校园网络的运行状况并发现规律,在对网络有了全面的掌握之下可以对网络中出现的网络行为进行规范和控制,从而对校园网络建立有效的管理机制,并提出下一步的网络调整计划以完善网络的功能。目前各高校在网络用户行为分析方面的研究工作的机构和人员也比较少,1南京财经大学硕士学位论文相应地所做的工作也比较少。大多数研究人员也只是进行小范围的监测和分析,而没有对校园网络环境下的整个网络运行状况进行相应的分析和研究工作,因此不能对校园网络运行的整体状况有很好地了解和掌握。通过分析和研究校园网络用户行为,可以帮助我们提高对校园网络行为分析方面的能力,根据网络的运行状况进行相关的调整使网络健康正常地运行,更好地服务于网络用户。本课题之所以选择校园网的用户行为作为研究对象,是因为能够采集到校园网用户使用情况的相关数据可以对其进行分析和研究。对这些数据的了解和分析将为规划校园网络、进行网络管理等许多相关研究工作提供重要的理论依据。目前,网络用户行为研究主要是研究用户个体的使用行为,而没有对用户进行相应地划分进行群体地研究。用户在对网络进行访问的时候,可以获取用户访问行为产生的全部数据,从中能够提取出用户行为的特征。对网络的使用状况的了解,可以指导用户合理的使用网络,同时还可以发现网络中的异常行为及时进行控制和调整。因此,对校园网用户行为了解和分析是用户行为分析方面一个需要解决的问题,同时本文也主要是研究校园网用户的行为。1.2 课题的研究现状国外对网络行为的研究已经有很好的基础,国外的研究最初只是研究用户行为的特征及规律,目的是为了实现网络监控和网站优化。90 年代初,美国开始对网络用户及用户的使用行为进行初步的统计和分析 31,试图发掘出网络用户行为的各种特征、网络用户所采用的各种方式以及对网络的影响,蒂洛森(Tillontson)等 3 人对多伦多大学的教职工和学生在使用网络的情况进行了调查和分析。目前 CADA( Internet 数据分析联合会) 和 IETF 的 IPPM (The IPProvider Metrics) 工作组正在对网络行为进行研究,研究内容未对网络行为在同一域内的情况进行研究,而主要集中在 P-to-P 的信道性能的研究上, 如点到点的延迟、可用带宽和响应时间等; 由于采集技术不断发展,使得对数据采集方面的研究进展快于对数据的分析;对数据的分析所使用的方法比较简单,主要是从简单的分类和摘要上进行分析,由于没有使用现有的数学工具,对较深层次的相关预测的研究也没有取得很好的结果;没有从网络行为的整体上进行研究,研究主要是集中在很微观的方面, 没有从用户具体的行为特征上升到整个网络的状态 1 。我国在网络用户行为方面的研究比较晚,研究的方向主要是通过对服务器日志上的原始数据进行分析,从中发现用户的一些浏览的行为,从而应用于网络入侵检测、网络行为的倾向及网络中特征的复杂性等方面,以预测网络行为、2南京财经大学硕士学位论文保障网络安全及对网站的服务进行改进等目标,但是研究用户行为所使用的方法不尽相同。可以把网络行为分成 4 大类 23 :信息获取类、交流沟通类、网络娱乐类、商务交易类四种,这种分法基本包括了目前的网络新闻、搜索引擎、即时通信、博客、网络游戏、网络音乐、网络购物、网上支付、网络金融等具体应用类型,这是对用户网络行为在应用层上进行分类的一种比较常用的分类方法。还可以从网络层对源 IP 地址和目的 IP 地址的不同组合来对网络用户行为进行分类和研究。网络用户行为的分析方法主要有以下几种 8 :(1)网站的点击率的分析方法:统计网页上不同区域的点击次数,通过点击次数来发现用户在访问网页时的习惯和特征。(2)对 IP 地址的分析:通过对用户使用网络时的源 IP 地址和目的 IP 地址的进行不同组合来对网络用户行为进行分类。(3)Web 日志上的分析:可以通过代理服务器产生的日志来分析网络用户行为,比如一种基于网络代理日志的校园网络性能和用户行为分析方法 22 ,通过对网络代理日志中客户端的访问目的地址、开始访问的时间、访问的状态信息等几项内容进行了综合分析,全面地了解了校园网络当前使用的状况以及用户的行为特征等,从而可以改善整个校园网络的性能和使用效率,校园网络的服务质量也提高了。运用数据挖掘技术,对数据进行分析,可以发现代理服务器中有用的数据,根据分析结果得出的用户特征来预测以后的网络运行状态。(4)神经网络方面的方法:分析网络日志,可以在分析时对日志中的会话进行划分,从会话的数据中找出出现次数最多的数据作为会话向量,合并处理后产生模式向量,运用 Kohonen 的 SOFM 模型进行聚类,最后可以得到网络用户的聚类 7。从用户对网站的点击率和喜爱程度方面来分析,对网站提供更好的服务、减少查找时间等都有很大帮助,然而还不能够对整个网络性能有很好的掌握,网络管理人员不能够对整个网络的运行状态有一个很好的认识。从 Web 日志方面进行的分析,可以从日志中提取出有价值的数据进行相关的研究,这有利于分析网络流量的使用情况、网络运行的状况、网络用户的行为的分析。对 Web采集代理服务器上的客户端数据对用户行为分析,对用户行为的总体行为特征没有什么作用。鉴于此情况,需要改进用户行为的分析方法,以便更好地分析网络用户的行为。在校园网络环境下,主要是通过采集网络设备上的日志来对用户行为进行分析。对代理服务器不能用对日志进行分析的方法进行分析,因此使用代理服3南京财经大学硕士学位论文务器的校园网络无法得到理想的分析效果 7。只有通过对网络代理日志所产生的数据进行全面和系统地分析,才能更好地掌握校园网络的运行状态并可以得到校园网络用户行为的特征规律。这便于提高校园网络服务质量和改善校园网络的性能。采用数据挖掘技术对数据进行分析,可以有效地挖掘出有价值的数据,减少相应地工作量。1.3 本课题的主要研究工作和论文的组织结构本文主要通过采集校园网宿舍网后台数据库中的记录获取分析的数据源,分析校园网络用户行为,从而了解整个校园网用户使用网络时间和服务的情况。本文的工作主要是对学生网络用户按专业和年级来区分,使用聚类分析方法分析这些校园网用户行为方面的特征,如:工作日和双休日上网人数之间的差异、在同一时间范围里各专业及各年级使用网络人数之间的差异、各专业及各年级使用网络服务之间的差异、访问网站的偏好之间的差异等,这也是本文的主要创新点。为了对校园网络用户行为进行分析,首先要对校园网络用户进行分类。高校校园网是一个由数万台机器组成的局域网,我们主要是对校园网的用户进行研究。校园网用户群体也较为复杂,如果不对这些用户进行分类而直接进行分析,可能无法得到所希望得到的用户行为规律,因为直接进行分析所得到的数据结果比较杂乱。因此需要先对整个校园网用户进行分类。校园里主要由教师,教工,家属,学生等组成,但本文主要分析的是宿舍网络用户的上网行为,所以只考虑不同专业和年级的学生。分析校内所有学生用户使用 IP 地址对校内外IP 地址的访问,所关注的内容等。以往主要是用 IP 地址来区分出网络用户,并对网络用户个体来进行行为分析。使用互联网的计算机都具有唯一的 IP 地址,可以根据 IP 地址准确得知计算机的出处。在本文的工作中,研究分析的对象是并非用户个体,我们将按照年级和专业来划分,每个年级的每个专业作为一个用户群体。根据学生宿舍开户数据,对 IP 地址和学生信息进行匹配,划分出专业和年级。全文共分为六章,后续章节的组织结构安排如下:第二章 网络用户及网络用户行为的概述。主要介绍网络用户及网络用户行为的概念、分类等。第三章 网络中用户行为数据的数据挖掘。介绍了数据挖掘及 WEB 数据挖掘的相关知识。第四章 网络用户行为分析的关键技术。介绍了本文对网络用户行为分析时所是用的方法。4南京财经大学硕士学位论文第五章 网络用户行为分析数据的预处理。介绍了对数据预处理的过程。第六章 校园网用户行为的具体分析。从时间、网络服务、访问网站的偏好等方面具体分析用户行为。第七章 总结与展望。对论文的总结并提出下一步的研究方向。5南京财经大学硕士学位论文第二章 网络用户及网络用户行为的概述2.1 网络用户2.1.1 网络用户的概念通常所说的网络的使用者即网络用户。至今对网络用户还没有一个标准的定义,按照不同的标准就会有不同的定义。中国互联网络信息中心(CNNIC) 23将我国网民(网络信息用户 )定义为:过去半年使用过互联网且平均每周使用互联网 1 小时以上的 6 周岁及以上的中国公民。根据网络用户的具体含义又有几种分法:(1)网络用户是通过互联网进行交流沟通或获取所感兴趣的信息的自然人,但这个定义不全面,这里的自然人是指个人没有包括群体用户。(2)网络用户指在一定条件下、一段时间内正在通过网络获得信息的个人或团体。这种分法认为网络用户不但包括个人也包括群体,但是它只指出了网络用户的现实特性,只有真正地发生通过网络获取到信息的动作自后才能算作网络用户,这忽略了潜藏在网络用户中没有暴露的特性,用户可能潜在地通过网络来获取自己所需要的信息;(3)网络用户是指在教学、科研、管理、生产和其它实践活动中利用和需要使用网络信息的群体或个体,此分法认为网络用户是具备使用网络的条件的所有人,同时也指出了潜在的用户的需求特征。结合以上分法,我们可以定义在通过网络资源下的实践活动来交流信息和获取信息的个人或群体为网络用户。在网络信息传播过程中网络用户具有很大的自主权,即网络用户的行为的各不相同,网络用户是根据自己的兴趣爱好来使用网络的,这就决定了网络用户行为的相异性,因此对网络用户行为进行分析是网络用户行为研究的前提 29。同时我国网民人数正以每半年翻一翻的速度急剧增长,因此网络用户的数量非常庞大,而且每个用户的文化程度、兴趣爱好、信息获取的意识、掌握的网络知识及运用网络的能力各不相同。网络用户与传统的文献读者相比具有独特的特点:一方面网络信息比用户实际所查阅的文献资料要丰富得多,网络交流很大地增进了人的主体性,促进了人们提升自己的创造价值;另一方面网络信息比较混乱,使网络用户很难再杂乱的信息中找到自己所需的信息,无法满足用户的真正需求。网络用户研究是网络信息发展的必要条件。网络优劣的划分是根据用户的使用亲身体验的结果去评价的,因此对网络用户的研究是今后网络信息发展的必要条件。只有不断的提高用户的网络道德和网络意识,不断地6南京财经大学硕士学位论文了解用户的网络习惯以及重视用户的信息反馈,才能够不断的完善网络,从而更有效的开发和利用网络资源并进行管理和维护。2.1.2 网络用户的分类对网络行为研究首先要对网络用户进行分类。网络用户不仅局限于一个体和群体来划分,还可以根据用户的性别、用户的年龄、受教育的程度、所从事的职业、所使用的介入网络的工具等方面来对网络用户进行分类,根据用户的所受教育的程度可以分为为大学生用户、高中生用户和初中生用户等;根据用户接入网络的方式可以分为宽带用户和手机用户。还有两种分类方法可以呈现出网络的发展对用户的影响的:一种方法是美国的学者按照使用网络时间的多少以及用户在家使用网络的频率分成把用户分成四大类型 29 ,分别是单纯地把网络当成一种协助的工具的用户、在工作和生活中都是用网络的用户、获得信息主要是通过网络的用户以及不经常使用网络的生手,网络对用户工作和生活方式上的影响可以通过这种分类方法反映出来;第二种方法是德国福瑞堡大学学者按照专业领域和网络使用经验将网络用户分为四种类型 28 ,分别是既不熟悉领域内知识又不熟悉 Web 检索方面的用户、既熟悉领域内知识又熟悉 Web检索方面的用户、不熟悉领域内知识但熟悉 Web 检索方面的用户、熟悉领域内知识但不熟悉 Web 检索方面的用户,用户领域知识和信息素质对用户的影响可以在这种分类方法中反映出来。本文主要是按照专业和年级对用户进行分类。2.2 网络用户行为2.2.1 网络用户行为的概念及特点在使用网络的过程中用户所呈现出的特征被称为网络用户行为,这是一个广义的概念。可以定性和定量地的把网络行为表示为所统计的特征量的特征或它们之间的关联关系。根据中国互联网信息中心(CNNIC)的调查报告显示 23 ,截止 2009 年 6 月 30 日,中国网民数量达到 3.38 亿,普及率达到 25.5%,超过全球平均水平,网民规模较 2008 年增长 4000 万人,半年增长率为 13.4%。中国网民规模依然保持快速增长之势。2008 年爆发于美国的金融危机对中国产生了一定的冲击,但并没有对中国的互联网发展产生过大影响,2009 年上半年网民规模稳步增长。对网络用户的特征了解可以分析影响其网络行为的因素,才能7南京财经大学硕士学位论文制定并调整策略保证互联网稳定发展。外国的研究人员进行了一系列的对联网用户行为的影响因素的研究,但缺少对网络行为之间的联系和影响网络行为的因素的研究,而只研究用户特征的影响因素。网络用户行为发生在虚拟空间中的,这与人们的现实社会中行为不一样。这种形成于网络中的空间不同于现实空间因此具有特殊性,同时具备一般的社会行为特征及基本的要素德网络用户行为,也有其自身的特点 13 :网络用户大都具有一定的计算机知识和网络应用能力,都能够熟练地操作电脑并能够通过网络开展一些活动、获取一些感兴趣的信息等等;网络用户行为之所以具有隐蔽性是因为:首先用户的身份的具有隐蔽性,因为任何人均可以在不需要任何登记的情况下,通过网络来传播各种信息,以达到他们的各种目的,网络中这种不记名传播信息的网络行为有很多;其次,行为本身也存在隐蔽性,这是因为信息在互联网上的以二进制的形式存在的,所有信息都必须转化为计算机能够识别的二进制数字信号,所以操作者可以在数据传输的过程中改变信息的内容及形式,访问一次超文本或访问多次超文本并没有区别,这样包含重要信息的数据容易丢失,操作者的行为证据也不容易获取;发生的网络用户行为的,对网络环境是自由依的,信息渠道的选择,所要对自身思维层次结构和随机发生的信息需求进行匹配,信息行为的差异性与复杂性的特征也可以因信息群之间的不同而表现出来;网络空间与现实世界一样复杂,因此网络行为的性质也呈现出各种特征。按不同的性质,可以把网络行为分为经济行为、政治行为等,各个领域的专业人士需要参与严格控制网络的行为,在网络上人们可以为所欲为;传播媒体在以往的交流方式中处于最重要的位置,高度侵占了信息的传播权,人仅仅能接收信息,而网络打破了以往交流方式的约束,成为了一种平台,在这个平台上大家均可以参与讨论交流。每一个用户在网络上既可以提供信息也可以接受信息,因个性化需要用户可以在互联网上制作自己喜欢的主页或博客等,这种网络行为使网络用户的个性得到了充分的体现,也突破了时间和空间上的限制。因为校园网不同于其他的网络环境,对校园网络中呈现出的用户行为的规律性进行研究,能够很好地控制并预测校园网络的运行状况,并且可以实现校园网络健康、稳定的发展。所说的校园网络行为就是在校园网络的特点、网络的构成及其在使用网络的过程所表现出来的各种行为特征。2.2.2 网络用户行为分析数据来源用于校园网络行为的分析数据类型众多且数据量大。所涉及到的数据源包括以下内容:8南京财经大学硕士学位论文(1)校园网 WEB 服务器日志:服务器日志记录了服务器返回用户访问的访问时间、页面大小、站点上停留时间、访问时采用的操作系统及浏览器类型及所使用的服务,并记录了用户的访问路径和状态等。(2)客户端的日志:客户端主要采用的是远程代理服务器、Plug-In、利用网页进行跟踪帧、修改用户的浏览器德软件等来较为准确的采集用户行为数据。(3)代理服务器的日志:与 Web 服务器和客户端服务器不同是,代理服务器可以看作是网络信息的中转站,可以代理网络用户取获取网络信息。浏览器通过发出请求到代理服务器而不用到 Web 服务器去采集网页,代理服务器接收到信号后按浏览器的请求取回信息传送给客户端的浏览器。可以把代理服务器看作一个具有很大的存储能力缓冲器,可以在本机的存储器上不断地存储取得的新数据。不重新从 Web 服务器取数据的情况是浏览器所请求的数据已经存在本机的存储器上而且是最新的,这时往用户的浏览器上直接传送将存储器上的数据,不仅提高了效率也提高了浏览器的速度。所访问站点上的任何访问行为信息都能够被代理服务器记录下来。引入了知识发现 5 (Knowledge Discovery in Database,KDD)的相关知识可以更好的处理数据。知识发现是指识别出数据集中新颖的、有效的、潜在有用的知识,最后生成的模式是可理解的这样的一个过程。知识发现可以将信息变为知识,将为知识经济的发展和知识创新作出贡献,蕴藏在数据矿山中的知识也可以通过知识发现找到。所谓的网络信息的知识发现是指从网络信息中提取隐含的、事先未知的、潜在有用的人们感兴趣的知识。网络行为的知识发现和分析,可以进行数据自身的维护,也可以用于管理校园网络的信息、优化查询方式等。数据挖掘是知识发现的最重要的部分。我们采集了学校的网络中大量数据,但这些数据大都含有噪声数据,通过数据挖掘技术提出取隐含在这些数据中的、潜在有用但事先不知道的信息。可能挖掘出来的是一些结构化的数据,也可以是半结构化的像 Cookie 记录的网络日志信息的数据。本课题主要研究的是网络日志,用来发现用户使用网络的时间、访问站点的习惯、常用的服务等,为校园网络管理员提供各种便于网络管理的信息。分析网络日志可以发现用户的需要、兴趣以及存在于网络中系统性能上的问题等。9南京财经大学硕士学位论文第三章 网络中用户行为数据的数据挖掘3.1 数据挖掘3.1.1 数据挖掘的概念数据挖掘就是从大量数据中获得有效的、有兴趣的、潜在有用的、最终可理解的模式的非平凡过程。广义上来讲:数据挖掘就是从存放在数据库、数据仓库或其他信息库中的数据中挖掘有兴趣知识的过程。近年来随着信息技术的迅猛发展,数据挖掘引起了信息界的关注,因为信息界中存在广泛可使用的大量数据,需要把这些数据转换成有用的信息。从大量数据中获得的知识可以用到其他领域。数据挖掘技术涉及了统计学、模式识别、神经网络等学科,因此是一门交叉型学科。3.1.2 数据挖掘的目的(1)发现知识:知识发现是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展做出贡献。知识发现是所谓数据挖掘的一种更广义的说法,即从各种媒体表示的信息中,根据不同的需求获得知识。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据源中提炼出有意义的、简洁的知识,直接向使用者报告。(2)使数据可视化:首先需要弄清楚数据库中存储的大量数据信息的真正含意。在做其他分析之前,要将待处理的数据变得人性化更易理解和分析,并探索用什么样的有效方法来更好的显示这些数据。(3)数据纠正:大型数据库的数据往往是不完整的,而且通常包含错误和矛盾的信息。数据挖掘需要用最稳定的方法来识别和纠正这些不完整及错误的数据。3.1.3 数据挖掘流程在实施数据挖掘之前,先制定采取什么样的步骤,每一步做什么,达到什么样的目的是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。数据挖掘的核心是人工智能、机器学习、统计学等,但一个数据挖掘系统不单单是多项技术的简单组合,而是一个完整的整体还需要其他辅助技术的10南京财经大学硕士学位论文支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。数据挖掘的过程可粗略的分为:问题定义、数据收集和预处理、数据挖掘算法执行以及结果的解释和评估 21。(1)定义问题:在开始知识发现之前首先要进行的,同时也是最重要的要求就是对数据和业务问题的了解,从而可以清晰地对业务问题进行定义,确定出数据挖掘的目的。(2)数据收集和预处理:数据准备可分为:数据的选取(Data Selection)、数据预处理(Data Preprocessing)、和数据变换 (Data Transformation)。数据选取主要是用来对所要发现任务的操作对象的一个确定,根据用户的需求从最初的数据库中采集一些数据作为目标数据。数据预处理主要是对噪声数据的处理、填补空缺的值、使数据具有一致性、转换相应的数据类型如整型数据转换为字符型或其他类型的数据、二进制数据转换为十进制或其他进制的数据类型等等。若对数据仓库数据进行挖掘时,数据预处理则在生成数据仓库时已经发生过了。数据变换主要是降低数据维数或减少维数,从原始的数据找到有价值的数据特征,从而可以减少数据挖掘所需要考虑的因素减少了工作量。(3)数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。(4)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。(5)知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。3.1.4 数据挖掘的方法数据挖掘方法分为统计分析方法、机器学习方法、神经网络方法和数据库方法等。(1)统计分析方法:在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系 (不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度 )、差异分析 (从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。(2)机器学习方法:机器学习包括归纳学习方法、粗糙集、范例的学习、11南京财经大学硕士学位论文遗传算法等。其中归纳学习方法包括决策树、规则归纳等(3)神经网络方法:神经网络具有很好的鲁棒性、自组织和自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分 3 大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以 hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以 art 模型、koholon 模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是 黑箱性,人们难以理解网络的学习和决策过程。(4)数据库方法:数据库方法主要是多维数据分析或 OLAP 方法。OLAP系统的数据库为了高效存储静态数据而构建。其存储结构的设计是为了高效检索数据。(5)遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。sunil 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和 bp 算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。(6)决策树方法:决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由 quinlan 提出的著名的基于信息熵的 id3 算法。它的主要问题是:id3 是非递增学习算法;id3 决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer 和 fisher 设计的 id4 递增式学习算法。(7)粗糙集方法:粗集理论是对不确定、不精确知识进行研究的数学工具。粗集方法具有一些优点:简化了表达空间信息的输入;无需列出额外的信息;算法比较简单且易于操作。类似于二维关系表的信息表是粗集处理的对象。现在成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用12南京财经大学硕士学位论文软件,如加拿大 regina 大学开发的 kdd-r;美国 kansas 大学开发的 lers 等。 (8)覆盖正例排斥反例方法:它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有 michalski 的 aq11方法、洪家荣改进的 aq15 方法以及他的 ae5 方法。 (9)模糊集方法:可以利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型-云模型,并形成了云理论。3.1.5 网络用户行为分析中运用数据挖掘技术从用户日常行为所留下的巨大的数据库中发掘出有用的信息就是用户行为分析。从大的数据库中查找出有用的信息的最有效的工具便是数据挖掘技术,那些无序地、繁杂的数据可以用数据挖掘技术进行数据的过滤和抽取之后再使用分析方法发现数据中规律特征。庞大、杂乱的数据集之中就隐藏着网络用户行为的各种行为特征,大多通过日志服务器和代理服务器的记录所获得这些网络用户行为的数据,网络的运行的状态也可以通过这些数据反映出来。但是虽具有这些海量的数据源但所能看到得到的信息有限,这就需要我们利用有效的工具和技术从中提取潜在的有用的信息,数据挖掘技术正好满足了这方面的需求,成为我们从中获取有用信息的重要工具和技术,便于我们进行用户行为分析的工作。3.2 WEB 日志挖掘3.2.1 Web 日志挖掘的概念万维网是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、广告、消费者信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web 还包含了丰富和动态的超链接信息,以及 Web 页面的访问和使用信息。数据库中的知识发现是从大型数据库中抽象有效的、不平凡的、具有潜在有用性的可理解的模式的一个过程。而 Web 挖掘是在人为构造的 WWW 上挖掘有兴趣的、潜在的、有用的模式及隐藏的信息。Web 是一个不断变化的非结构化的13南京财经大学硕士学位论文不同信息源构成的一个集合。Web 超链接可能使一个文档被多个用户链接,分层的、非结构化的、混沌的 WWW 不是一个结构化的数据库 7。Web 挖掘分为 Web 内容挖掘、Web 结构挖掘、Web 日志挖掘。Web 内容挖掘是指在 Web 上,从文件内容及其描述中获取有用信息的过程。Web 内容挖掘分为文本挖掘和多媒体挖掘两大类。Web 结构挖掘是指从人为的链接结构中获取有用知识的过程。Web 结构包括不同网页之间的超链接结构和一个网页内部的可以用 HTML,XML 表示成的树型结构,以及文档 URL 中的目录路径结构等。从 WWW 的组织结构和链接关系中推导知识。通过对 Web 站点的结构进行分析、变形和归纳,将 Web 页面进行分类,分析一个网页链接和被链接数量以及对象来建立 Web 自身的链接结构模式,确定不同页面间的相似度和关联度信息。定位相关主题的权威站点,可以极大的提高检索结果的质量。Web 日志挖掘是指在通过服务器端对用户访问网络的活动记录进行挖掘。通过挖掘 Web 日志记录,发现用户访问 Web 页面的模式。分析和探索 Web 日志记录中的规律,来识别潜在用户并改进 Web 服务器系统性能。Web 文档本身半结构化的特点,使得在 Web 上的内容挖掘和结构挖掘变得比较困难。而记录用户使用记录的 Web 日志却有着固定的结构。Web 挖掘涉及统计学、数据挖掘、机器学习、模式识别等领域的知识。目前主要的挖掘方法13有:统计分析、序列模式、关联规则、分类和聚类。3.2.2 Web 日志挖掘的过程Web 日志挖掘的流程为:日志数据的预处理、挖掘处理、模式分析。(1)日志数据的预处理:从用户日志文件中选取出供用户浏览模式发现算法使用的规范化数据,其结果将直接影响到算法处理结果的准确度与可信度。数据预处理阶段包括数据净化、用户识别、会话识别和路径补充等过程。数据净化就是删除挖掘过程中不需要的数据,用户识别是将用户和请求的页面相关联的过程,其中主要处理多个用户通过代理服务器或防火墙访问站点的情况。在用户识别的过程中,不仅需要服务器日志,还需要知道站点的拓扑结构,会话识别是将一个用户在一段时间内所有的请求页面进行分解以得到用户会话,路径补充过程就是将本地或代理服务器缓存所造成的遗留请求也补充完整。执行上面的操作后,就得到了事务识别阶段所需的输入信息一用户会话文件,该文件中包含访问 web 站点的用户,用户请求的页面及请求发生的顺序,每一页浏览的时间等信息。14南京财经大学硕士学位论文(2)挖掘处理:对数据预处理所形成的用户会话文件,利用数据挖掘的一些有效算法如关联规则、聚类、分类、序列模式等)来发现隐藏的模式、规则。(3)模式分析:在通过模式发现算法找到的模式集合中筛选出有意义的模式、规则。采用可视化技术提出有意义、感兴趣的规则与模式作为挖掘结果。15南京财经大学硕士学位论文第四章 网络用户行为分析的关键技术校园网后台数据库中的日志包括了校园网任何用户使用网络时所留下的记录,因此从中采集到的数据会很巨大。若不进行相应的处理很难获得想要的结果,而聚类正是把有用的相关的信息进行分类,便于我们进行分析。使用聚类分析可以大大缩短相应的工作量,而且分析效果会高于直接分析。对校园网络用户的特征进行聚类,分析聚类后的对象缩短了处理时间且可以得到理想的分析结果。4.1 聚类分析的概念聚类分析是指将物理或抽象对象的集合分成类似的对象类的过程成为聚类。聚类分析所划分的类是未知的,这点与分类不同。聚类是把数据分成不同的类或簇,不同类间的对象具有相异性,相同类间具有相似性。聚类分析是采用数学的方法来处理和分析给定对象的分类。聚类分析是根据相似度来对采集到的数据进行分类。聚类分析已经广泛的应用在商业、生物、地理、保险等行业上,因为在这些应用中聚类可以把数据中相似度大的数据划分为一个组,满足各领域不同的需要,从而获得有用的信息。比如:在电子商务领域上,可以通过分组聚类出浏览行为具有相似性的客户,分析这些客户的共同特征,便于电子商务服务商更好的了解自己客户并提供适合的服务。在保险业上,聚类分析可以通过比较消费者的消费水平来区别客户保单持有者的分类,同时还可以根据客户的住宅价值和类型来判断城市的房产分组情况。在商业上,聚类分析是对市场进行细分的一个有效工具,同时也可以用于分析消费者的行为特征,挖掘一些潜在的客户。对数据挖掘的研究工作已经集中在找到合适的方法来挖掘大型数据库的中有价值的数据。研究主题设计聚类方法的可伸缩性,高维数据的聚类分析技术和大的数据库中混杂的数据的聚类的方法。4.2 聚类分析方法的分类常用的聚类分析方法可划分为以下几类 5 :(1)划分法(partitioning methods):创建 k 个划分,k 的值要小于所需划分的对象的个数,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自考专业(护理)题库试题含答案详解【满分必刷】
- 2024年自考专业(汉语言文学)能力提升B卷题库及答案详解(新)
- 2025年田东县市场监督管理局选聘法律顾问的(1人)模拟试卷及完整答案详解1套
- 执业药师之《药事管理与法规》预测复习含答案详解(精练)
- 选煤厂安全员考试及答案
- 法语模拟测试试题及答案
- 2025关于企业经营周转借款的合同
- 2024-2025学年法律硕士考试历年机考真题集及参考答案详解(B卷)
- 考点攻克人教版8年级数学下册《平行四边形》定向训练练习题(含答案详解)
- 2024-2025学年粮油食品检验人员综合提升测试卷及完整答案详解(典优)
- 2025年宪法知识竞赛试题库(含答案)
- GB 5725-2025坠落防护安全网
- 脑出血康复期患者护理
- 2025中国银行校招笔试真题及答案
- 钢厂安全用电培训课件
- 2025年AI应用AI Agent架构新范式报告
- 超全QC管理流程图
- 2广告实务课程标准
- 001 比较思想政治教育(第二版) 第一章
- GB/T 2992.1-2011耐火砖形状尺寸第1部分:通用砖
- 中医门诊消毒隔离制度
评论
0/150
提交评论