硕士学位论文-网络服务智能监测平台的研究.pdf_第1页
硕士学位论文-网络服务智能监测平台的研究.pdf_第2页
硕士学位论文-网络服务智能监测平台的研究.pdf_第3页
硕士学位论文-网络服务智能监测平台的研究.pdf_第4页
硕士学位论文-网络服务智能监测平台的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

硕士学位论文-网络服务智能监测平台的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京交通大学硕士学位论文网络服务智能监测平台的研究姓名:薛涛申请学位级别:硕士专业:通信与信息系统指导教师:孟嗣仪20080601中文摘要摘要:随着近些年网络建设和相关技术的飞速发展,以及网络用户数量的同益增长,互联网逐渐成为一种大众化的信息交流场所。各大网站纷纷提供各种信息交流服务,来吸引广大网民对其网站进行访问。目前,最常见的网络交流平台就是论坛和博客。Web20技术的成熟和广泛应用,正在使互联网的内容提供者由网站的开发和运营方转变为广大的网络用户。而由于互联网的开放性和网络监管机制的发展水平滞后,网络上的内容呈现出良莠不齐的特点。如果不能及时进行舆论引导,正确的观点和事实的真相有可能被错误的信息埋没,给社会的和谐带来不良影响。要想对网络舆论进行正确引导,首先要对网络话题和网络事件进行监测和预警。该课题的研究目的就是要给网络舆情研究人员提供一个监测和预警的数据依据,提出一个可行性的方案。本文通过对国内外相关技术的研究,结合实验室研究人员的需求和北京市互联网宣传管理办公室的实际情况,设计了一个网络服务智能监测平台。这个平台把三个功能不同的子系统有效的组合在一起,形成了一个大型的监测平台。本文在对互联网用户的基本状况、网络服务的特征和现有网络监测软件进行深入分析研究的基础上,针对这个平台的设计原则和所要实现的功能,对多个方面的关键技术进行深入的研究,并结合系统本身的特点,对相关技术进行改进和优化,为系统各模块的具体设计打下基础。在完成上述准备工作的基础上,提出了网络服务智能监测平台的整体框架,并对框架中的各个模块从技术上和流程上进行说明。设计了网络服务发现模块,在这个模块中,提出了一种针对论坛和博客服务的发现方法,通过实际检验,证明这种方法的可靠性较高,可以作为此模块的核心方法。根据现有系统的优缺点,通过多种技术的综合,设计了网络信息采集模块。在循环监控算法的设计过程中,提出了对Google开发的PageRank算法进行改进的方法,并把它作为监控算法的一部分。经过理论分析,证明这种改进是有效的。最后,论文完成了对平台的整个设计。本论文共有图13幅,表7个,参考文献40篇。关键词:网络服务;信息采集;聚类;超链接分析;PageRank算法分类号:TP319:TP274ABSTRACTABSTRACT:Recentlywiththerapiddevelopmentofnetworkconstructionandrelevanttechnologies,andthegrowthofnumberofIntemetusers,IntemetisbecomingapubliccommunicationplacegraduallyAlotofwebsitesareinterestedtosupplykindsofcommunicationservicesinordertoincreasetheusersvisitsNowadays,thetwomostpopularplatsfornetworkcommunicationareforumandBiogThematurityandwidelyapplicationofweb20technologyarechangingtheISPfromwebsitefoundersandoperatorstovastusersWhile,becauseoftheopennessofIntemetandtheundevelopedmonitoringtothewebsites,theinationontheIntemetisunevenIfwecouldntconducttheopinion,thecorrectopinionsandthetruthwouldbeburiedbythewrongone,makingbadeffectonthesocialharmonyThefirstjoboncorrectconductiontotheopinionistosuperviseandearlyalertthenetworktopicsandincidentsTheresearchgoaloftheissueistoprovideotherresearcherssomedataonitoringandanavailableschglneThroughtheresearchondomesticandforeigntechnologies,thedissertationdesignsallIntelligentMonitoringPlatofNetworkService(IMPoNS),accordingtotheneedoftheresearchersinthelabandtheBeijingIntemetPropagandaandManagementOfficeThisplatcombinesthreesubsystemswithdifferenlfunctiontoalargescalemonitoringplatBasedondeepanalysisandresearchonthebasicconditionofInternetUSerS,characteristicofnetworkservicesandnetworkmonitoringsoftwareonhand,aimingattheprincipleandfunctionoftheplat,thedissertationdoesdeepresearchonseveraltechnologiesCorrespondingwithsomeself-featuresofthesystem,improvesandoptimizesrelevanttechnologies,whichisthebasisoftheconcretedesigntoeverysinglemodelofthesystemBasedonabovepreparations,thedissertationproposesthegeneralstructureofIMPoNS,andgivessomeexplanationsfromthetechnicalandflowsangleDesignthemodelofnetworkservicediscoveryInthismodel,thedissertationgivesaofforumandweblogdiscoveryAfteractuallytestingthisishighlyreliabletobethecoreoneAccordingtotheadvantagesanddisadvantagesofthesystemsonhand,designinationacquisitionmodelintegratedwithseveraltechnologiesDuringthedesignofcirculatingmonitoringalgorithm,dissertationgiveawhichimprovethePageRankalgorithmofGoogle,andletitbepartofthemonitoringalgorithmAftertheoreticalanalysis,thisimprovementiseffectiveIntheend,thedissertationfinisheswholedesignoftheplatThercarethirteendiagrams,seventablesandfortyreferencesinthisdissertationKEYWORDS:Networkservice;Inationacquisition;Clustering;Hyperlinkanalysis;PageRankalgorithmCLASSNo:TP319;TP274V学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名祷编签字日期:弘年多月工日导师签名:溯k签字日期:2哪矿年6月r-uE!独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文储签名:膂确签字嗍炒8年占月舢59致谢本文是在我的导师孟嗣仪副教授的精心指导下完成的,论文从构思,组织到成文凝结着导师的大量心血。在这里,首先,我要衷心感谢孟老师两年来对我的培养、关心和教育。在这两年的时间里,孟老师在学术上给了我悉心的指导,为我创造了良好的工作环境和自由的学习氛围,使我顺利完成从课程学习到科学研究的转变,她渊博的知识、敏锐的学术洞察力、忘我的工作精神、不断创新和严谨求实的科学态度使我受益匪浅。可以说,两年中我取得的每一点成绩和进步都离不开孟老师的教诲和指点。此外,在生活上,孟老师也给了我极大的关心和帮助,使我在离家求学的日子里倍感亲切。她高尚的师德和人品深深的影响了我。在这两年的学习生活中,刘云教授和张振江老师也给了我极大的帮助,特别是在论文的完成过程中,给了我不少有益的,指导性的建议,在此对刘云教授和张振江老师表示深深的感谢。我也非常感谢沈波老师,当我在写作过程中遇到困惑的时候,他都能从思路上给我指点,使我能够顺利的解决问题。同时,还要感谢实验室的毕红军老师、穆海冰老师、周春月老师,在科研和生活上都给予了我很多帮助。我还要感谢我的家人,感谢他们对我学习和工作的支持、养育我成人、督促我努力上进。最后,感谢在百忙之中为我评阅论文的专家、学者、老师,感谢所有关心、支持和帮助过我的人!1绪论11课题的来源和意义111互联网传播互联网,即计算机互联网络。它是由许多台地理位置不同并具有独立功能的计算机,通过特定的通讯设备和技术协议相互联结起来,以实现信息传输和资源共享的网络系统。目前,世界上最大的国际性互联网是因特网,它已覆盖世界绝大多数国家和地区,成为全球共用的计算机信息系统。所以如今互联网,因特网,国际互联网等概念已经互相通用。互联网是一种新兴的信息传播媒介,更是一个传播或交流信息的平台。通过互联网所进行的信息传输和交流,称为网络传播。这是一种以地空合一的信息高速通道作为传输渠道,以功能齐全的多媒体电脑作为收发媒体的,极具开放性的传播活动。这种网络传播是在二十世纪九十年代正式进入广大公众传播领域的【11。互联网的信息传播具有如下特点:各种传播形态并存。互联网把人际传播,群体传播,组织传播,大众传播等各种传播形式组合在一起,形成一种综合的传播形裂21。同时,在互联网中,结合各种传统媒体的特点,融入了多种传播方式。传播具有即时性。现实社会中发生的一些事情,尤其是一些重大事件,在报纸,杂志,广播电视等传统媒体没有报道之前,互联网上就已经能够在第一时间,以第一速度报道出来,而且在本条事件的基础上,公众还可以查阅到原先与之相关的新闻信息,以便全面,客观的了解事件发生的起因,经过,结果。这里体现的就是传播的即时性。传播具有交互性。这是网络传播与传统纸张传播,电波传播的最大不同之处。在这种互动的环境下,信息不再是从一方到另一方的单向传播,而是在双方的互动交流中进行信息交换。在互联网中,没有信息的主宰,只有信息的提供者和交流的参与者。信息的传受具有灵活性。互联网用户可以凭借一台联网的电脑,随时随地的发送信息,或者在条件允许的情况下,随时随地的查阅任何网络中的信息。这就是所谓的网络传播五个W(Whoever,Whenever,Wherever,Whomever,Whatever)21,即任何人在任何时间,任何地点都可以与其他任何人交流任何信息。信息传播的主题化。互联网上的信息看似杂乱无章,实际上它的主题性很强,尤其是在一些开放式的信息交流平台,比如论坛,社区等等,上面的信息都会被网站的管理者分门别类的放置。互联网用户往往也是找到相关主题的信息聚集地来发布和查阅信息。这种群体化,主题化的特点使得网络用户在互联网上形成一个个人际关系很强的互动网络,其中会包含大量的,具有很高价值的主题信息。较强的娱乐性。随着Web20技术和宽带技术的快速发展,互联网信息的传播也变得更具娱乐效果。一些企业或者个人为了推广自己的产品或者展示自己的某种理念,会邀请网民进行在线体验或者邀请他们在线参与相关的活动。与传统媒体不同的是,除了利用声光电等技术手段来保证这些信息的鲜活性之外,还提供了信息的上传和下载。这对于传受双方都是一种极大的便利。112网络舆论近些年,随着互联网建设的快速发展,据权威部门统计,我国网民的数量常年呈上升趋势。登录和使用互联网已经不再是一种时尚,而是一种平常的行为。而Web20技术的出现使得除了新闻等传统网络应用外,又出现了网络论坛(BBS)博客(BLOG)等新形态的信息交互模式。信息交互模式的增多导致了网络上舆论信息的大量增加,网络舆论在整个社会舆论中所处的地位越来越重要。网络舆论是通过互联网表达和传播的,公众对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪,态度和意见交错的总和【3】。它具有自由性与可控性,互动性与即时性,丰富性与多元性,隐匿性与外显性,情绪化与非理性,个性化与群体极性化等特点。主要通过电子邮件、新闻组、IM、BBS、BLOG和WiKi等途径传播。随着我国逐渐进入社会转型期,国内国外的形势变化很快,各项改革和制度不断深化和细化,社会生活趋向多样化,社会矛盾更为复杂化,人们的思想情绪和心理波动日益突出。而互联网的普及趋势和传播特点很容易使它成为人们思想情绪和心理波动结果的发泄地。各式各样的言论,观点,思想充斥其中。由于传播者和受传者的平等性,公众很容易就可以接触到这些观点。这样,一些不良或者消极的言论和观点对于国民思想的影响是巨大且迅速的,如果不能及时的预测和控制有害观点言论的传播,不及时纠正公众的舆论导向,那么后果将是十分严重的,甚至会危害到国家安全,阻碍国家经济建设的顺利进行。图11所示为网络舆情的基本结构。2图11网络舆情结构图Figure11StructureofOpinion相对于一般事件,社会突发事件更容易造成大的舆论事件,形成社会舆论焦点和热点,更容易造成大的影响。而且,在一些交互性较强的网站,网络信息可能被一些居心叵测的人操控,使信息向不良趋势发展。另外,网络上还有一些虚假信息。这些信息最容易蒙蔽一些不明真相的群众,给社会造成极大的危害。113网络舆情突发事件的监测分析面对网络舆情发展的严峻形势,提高应对网络突发舆情事件的能力成为了我国各级政府的一项重要任务。除了采取积极防御,综合防范的方针,掌握舆情的主动权,加速相关法律法规的建设,还应该利用科学技术来配合这项任务的完成,通过监测和分析,来对抗不良网络舆论。对突发舆情信息的监测与分析必须要浏览和查找海量的网络信息,从中提取出与突发事件相关的舆情信息,研究分析舆情信息的时空分布情况,再通过其他手段和方法来进行正确的舆论方向引导。可见,随着互联网技术的飞速发展,网络舆情的监测和分析必须通过相关技术手段来进行。12国内外的研究现状研究舆情的科技手段大部分是建立在拥有海量网络信息的基础上的,而这些海量信息是通过特定的网络工具获得的。目前与本课题相关的网络工具主要有以下几种:由NetlQ出品的AppManager套件,这种套件由3部分组成,分别实现三个方面的功能。第一个方面的功能是监测用户感兴趣的网络服务,比如ExchangeServer,SQLServer,IIS或者WindowsNT服务。这个功能是通过一组代理程序来实现的。第二个功能是信息发送,主要是向一些网络管理构架发送信息,比如向寻呼机或者向HP的OpenView等更复杂的网络构架发送信息。第三个功能是实现对系统本身的管理,负责监测系统的运行和发送警报信息。这款产品虽然可以对网络服务进行监测,但它所能实现的仅仅是对Server进行监测,不能对现有的网络互动交流平台进行监测。因为它是一个比较成熟的产品,而且不开源,这就使得对其改造和添加功能变得十分困难。此外,来自FreshWaterSoftware的Sitescope也可以实现上述功能,所不同的是,这款软件除了可以在Windows平台上运行之外,还可以在Unix平台上运行。由Xtream(中国)软件技术有限公司出品的XtreamServerMonitor。这款软件是基于Linux平台的,专门为IDC和中小企业服务的。这款软件采用了分布式技术,实现实时的网络服务监测。但是同前面介绍的那款软件一样,它也是对企业服务器的运行状况进行监测,提供准确的故障定位和实时告警通知,使用户能及时了解到自己服务器的状态,而并不能实现网络服务的发现,信息采集以及相关的数据处理工作。除了前面的两款软件之外,和网络监测相关的软件还有PingPlotter、Neotrace、WherelslP、MegaPing等等,但是它们共同的特点是功能比较单一,只能实现对于网络物理层或数据链路层层面的监测,不开源,兼容性和稳定性都比较差。总结现有网络监测软件的特点之后发现,仅有的几款网络工具的实际运行情况距离项目的研究要求相差较远,得到的数据对实验室的后续研究人员来说没有利用价值。而且这些网络工具都不是开源的,如果购买,就要付出一笔不菲的费用。因为不是开源的,所以软件的维护和故障检测比较困难,不利于实验室根据自身的需求调整功能和进行二次开发。另外,网络监测软件大部分都针对Unix系统和Linux系统,而且功能较为单一,分散,没有形成一个大型的系统,这对使用者来说是极为不便的。所以开发一款适合自己的,功能强大的,针对Windows系统的网络监测软件是非常必要的。13论文的主要内容本课题来源于北京市重点实验室项目“网络舆情分析系统”。在这个项目中,北京交通大学计算机通信实验室根据北京市互联网宣传管理办公室的要求,开发了一套具有自主知识产权的网络服务智能监测平台系统。网络服务智能监测系统作为这个项目的一个子系统,负责监测网站的开放情况,监测网站上所提供的4BBS,BLOG等网络服务情况,进一步说就是发现BBS,BLOG,并监测BBS,BLOG上的舆论信息,采集这些信息的数据,并进行数据整理,为后续研究人员利用这些数据进行舆论的分析,预测提供方便。本论文就是在研究、开发和总结这个项目的基础上完成的。本论文主要针对要实现的各个功能,提出解决方案,来解决市面上一些网络监测软件的不足,设计了一款适合实验室研究人员使用的网络服务智能监测平台,保证了研究数据的可靠性,提高了研究人员的工作效率和研究的准确性。具体完成的工作有:1)对网络服务监测技术,XIVIL技术和数据挖掘技术等相关技术进行深入的学习和研究,掌握这些技术的研究现状,发展趋势和优缺点,找到它们与本系统开发的结合点。2)在网络服务发现方面,提出了一种基于网络论坛和博客服务的发现方法,并且经过实际的搜索引擎分析测试,证明能够达到预期的效果。还提出了一种系统对网络服务进行循环监测的方案。3)在网络信息采集方面,通过对搜索引擎和网络爬虫程序进行研究和分析,提出了系统信息采集的方案。4)根据基于XIdL的数据挖掘技术和网络服务监测与信息采集技术的特点,确定了使用数据挖掘技术和聚类算法处理所采集的数据的方案,并且明确了方案的实施步骤。5)在系统方案构建和实施的过程中,除了完善系统的功能,还解决了采集的数据不规范,数据结构混乱,系统运行效率不高等问题。6)对整个系统进行总结,并为系统的某些方面在未来所需要的改进指明了方向。本论文的主要安排如下:第一章绪论。在这一章中,介绍课题的研究背景,国内外的研究现状,系统开发的必要性,并给出本文的篇章结构。第二章相关理论和技术支持。在这一章中,介绍了网络服务智能监测平台系统设计,开发所使用的语言工具以及相关理论。第三章网络服务智能监测平台的设计。在这一章中,给出了系统的整体设计原则和系统的整体框架。介绍了系统各模块的具体设计思路和设计过程,同时给出相关流程图和数据图表。第四章网络服务智能监测平台关键技术的研究。在这一章中,结合上一章中对系统各模块的设计,重点介绍网络服务的发现,信息采集,数据处理和监测。并且给出了在服务发现,信息采集,数据处理以及循环监测等方面的解决方案。5这一章中侧重于介绍所使用的技术的研究和具体的应用。三四两章是本文的重点,在这两章中,服务发现技术,信息采集技术和数据处理技术相结合,解决了论坛服务和博客服务的发现问题,网络信息采集问题,此外,还解决了系统功能不完善,采集数据不规范,不利于研究人员进行后续分析等问题。同时,也解决了系统运行效率不高的问题。第五章结束语。对论文所做的主要工作进行总结,并对未来要进行的研究工作进行展望。14本章小结本章细致的分析了信息在互联网这个新兴媒体中传播所具有的特点,并由此引发了对网络舆情监测问题的关注,用事实说明了研究网络舆情的重要性。同时,明确的指出利用科技手段来协助网络舆情分析的必要性,并引出本文所要介绍的核心内容一网络服务智能监测平台系统。在简要分析了国内外在此方面的研究成果之后,提出了现有成果的不足之处。最后对本课题的来源和研究背景以及本论文所完成的工作进行了说明,并展示了本论文的篇章结构。62相关理论及技术支持21Cjfj网络编程211C挣简介C撑【41(读作Csharp)是一套全新的程序设计语言,它不仅简单易用而且功能强大。C撑的基本语法等同于CC+。它不仅是一套面向对象的程序语言,同时它可以应用于WebBased环境及分布式的网络操作环境。C撑具有一些CC+所欠缺的内存自动管理,TypeSafe等特性。在使用中,不仅能将开发时程缩短,同时功能更强大,更稳定。总的来说,C拌具有简单,先进,面向对象,类型安全,强大的命名系统,集成性强等特性。212网络编程网络实际上就是一群计算机及连接设备的集合。在当今这个信息化飞速发展的时代,网络已经成为了家家户户的基本需求,人们可以通过它轻易的获取所需的信息。一般来说,网络应用程序可分为客户端程序(Client)和服务器端程序(Server),客户端程序负责显示数据并针对用户的需求送出请求给服务器,而服务器程序则针对客户端的要求运行相应的工作并送出所需的数据给客户端,借此提供用户服务pJ。213C网络编程相关的类C撑在网络编程方面提供了一些类【5】,我们可以通过调用这些类来方便的实现相关功能。这些类主要有:DNS类。在互联网上的每一台主机中,都会有各自的域名服务器设置,以便用户在输入域名时,可以通过域名服务器解读,同时,将其转换为服务器计算机主机实际的IP地址以便创建网络连接。DNS类就提供这样的功能,这个类中的方法都是静态的,可以直接调用。DNS类是在命名空间SystemNet之下。当调用其中的Resolve方法时,它会通过域名服务器去找出相应的口地址,并产生一个IPHostEntry对象。方法如下:IPHostEntryhost=DNSResolve(”WWWXXXYYYzz”):其他常用的方法还有GetHostByAddress和GetHostByNallle。7IPAddress类。在该类中有一个Parse()方法,可以把点分的十进制IP表示转化成IPAddress类。方法如下:IPAddressaddress=IPAddressParse(“19216801”);另外IPAddress类提供了4个只读字段:Any:用于表示本地系统可用的任何IP地址Broadcase:用于表示本地网络的IP广播地址Loopback:用于表示系统的回送地址None:用于表示系统上没有网络接口IPEndPoint类。IPEndPoint其实就是一个IP地址和端口的绑定,可以代表一个服务,用来进行Socket通讯。Socket类。在介绍Socket类之前,首先对Socket进行一下说明。所谓Socket通常也称作”套接字”,用于描述IP地址和端口,是一个通信链的句柄。应用程序通常通过”套接字”向网络发出请求或者应答网络请求。它就像是计算机背面的网络插槽,插槽上有一条与远程服务器直接相连的线路,可以通过这条线路将数据发送出去,而远程服务器也可以通过这条线路将数据发送过来【5J。Socket类所在的命名空间是SystemNetSockets。它的主要属性有:Connected属性。这是一个布尔变量,用来获取Socket对象的连接状态,若网络连接已经成功创建则返回true,否则返回false。这个属性可以用来测试网络主机的开通情况。ProtocolType属性。用来获取Socket对象所使用的通讯协议种类。在创建Socket对象时,可以按如下方法创建:SocketS=newSocket(AddressFamilyInterNetworkSocketTypeStream,ProtocolTypeTop);22HTML网页元素每个网页都有自己的源文件,源文件是由HTML组成的。HTML(HyperTextMarkupLanguage),即超文本标记语言或超文本链接标示语言,是WWW的描述语剖61。设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其它电脑上。HTML语言的特点就是采用了标签结构。下面就对一些与系统有关的重要标签进行说明。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。8标签。基本的HTML页面以开头,以结束。在他们之间,整个页面分为两部分:标题和正文。标签。标题在标签之间,在打开页面时,它出现在屏幕底部最小化的窗口上。标签。正文内容在标签之间,页面上显示的任何内容都包含在这个标签之间。标签。用于告知文档完整的URL信息。早面的内容一般为放置文档的主机的URL。标签。它是负责链接外部文件的标签。它是一个单独标签,只能嵌套在和标签之间使用,用来指定该文件与其他文件或资源之间的关系。但是这个标签并不实际链接到其他URL。标签有一个重要的属性是href它存放了链接外部文件的URL。标签。这是一个与链接有关的标签。它的格式是文本。在后面的网络信息采集中,会重点关注这个标签。标签。标签对网站来说是非常重要的,如果能设计一个好的标签,那么这个网页被搜索引擎搜索到的概率就会大大增加。标签一般用于鉴别作者,设定页面格式,标注内容提要和关键字,还可以设置页面,使其可以根据网站作者定义的时间间隔刷新页面等等。它主要分为两个部分:HTTPEQUIV和NAME变量。23XML技术InteInet提供了全球范围的网络互连与通信功能,Web技术的发展更是一日千里,其丰富的信息资源给人们的学习生活带来了极大的便利。XML6J(eXtensibleMarkupLanguage可扩展标识语言)是由W3C(互联网联合组织)于1998年2月发布的标准,它是SGML(StandardGeneralizedMarkupLanguage,标准通用置标语言)的一个子集【l51。它将SGML的丰富功能与HTML的易用性结合到Web的应用中,以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。这样组织起来的数据对于应用程序和人类都是友好的、可操作的。231XML的语法XML在语法上的要求比较严格,在结构上追求完整性【6】,具体要求如下:91)必须有XML声明语句。2)如果是一个有效的XML文档,那么文档就一定要有相应的DTD文件。3)区分大小写。4)所有的属性必须加引号。5)所有标识必须有相应的结束标识。6)所有标识“对儿之间没有内容的标识必须被关闭。232XML的文档内容XML的文档内容一般由下述四个方面组成:1)元素。元素是文档的主要逻辑部件,它们由开始标注和结束标注界定。比如:dinnerisready整体就成为一个元素。2)属性。属性是元素的性质。属性表达为元素的开始标注内的信息。例如可以给上述元素赋予一个属性dinnerisready。有时候在创建元素时,会考虑是将信息储存在属性中还是作为元素的内容。对于这种情况,一般的原则是,如果信息描述元素,则将信息储存在属性中。另一方面,提供实际数据的信息应是元素内容的组成部分。3)注释。几乎在所有的标记语言或者程序设计语言中,都可以在文档内留下注释,必备日后参考。对于XML文档来说,一条完整的注释应该是。4)处理指令。处理指令就是一种标记,它提供信息给软件应用程序使用。对于注释,分析器可能扫描也可能不去扫描,但对于处理指令是必须扫描的。233XML的优点XML的优势之一是它允许各个组织、个人建立适合自己需要的置标集合“。,并且这些置标可以迅速地投入使用。这一特征使得XML可以在电子商务、政府文档、司法、出版、CADCAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案。另一个优势在于它的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数据、结构以及显示方式。XML把文档的三要素独立开来,分别处理。首先把显示格式从数据内容中独立出来,保存在样式单文件中,这样如果需要改变文档的显lO示方式,只要修改样式单文件就足够了。XML的自我描述性质能够很好地表现许多复杂的数据关系,使得基于XML的应用程序可以在XML文件中准确高效地搜索相关的数据内容,忽略其它不相关部分。234HTML与XML的转换互联网上的数据是海量的。由于各个网站的网站结构和网页数据各不相同,即数据具有异构性。而HTML语言的语法规则较为宽松,所以页面的源文件结构很不整齐,解析起来非常困难,不利于研究人员从中获取所需要的信息。传统的数据库中的数据结构性很强,也就是说数据库中的数据是完全结构化的数据,每张数据表都由字段组成,数据排列十分整齐。而相对于数据库中的数据,网络上的数据就是半结构化的。因此,要想把数据库的表和网络上的数据很好的对应起来就需要用到XML技术。因为XML可看作是一种半结构化的数据模型,可以很容易的将XML的文档描述与关系数据库中的属性一一对应起来,进行精确的查询和数据抽取。现在使用比较多的转换手法有:1)使用HTMLtidy。2)使用Sgmlreader。3)使用htmlagilitypack。HTMLtidy是一种开源的HTML转换软件,它由W3C提供,现在被SourceForge上的一群志愿者进行维护和版本升级,这款软件可以在多个平台上使用,HTML的转换效果良好。一般适用于java开发。使用这个软件时,需进入DOS环境,用命令行对软件进行操作。目前,此款软件也出现了在Windows环境下的可视化版本。但是由于它的编程兼容性较差,所以本系统没有选择这种方法来进行转换。Sgrnlreader实际上是一个dll文件,sgmlreaderdlldll。这个文件可以在VisualStudio的编译环境中当成第三方控件进行引用。它所包含的类可以使用户方便的进行XML的转换。比使用dotNetFramework自带的类更便捷,效果更好。由于它对微软的VisualStudio编辑环境比较友好,便于在程序中操作,因此,本系统在进行HTML到XML的转换时,选用的就是这种方法。转换算法实例如图21所示:图21HTML转成XML算法Figure21AlgorithmsforTransationfiomHTMLtoXMLHtmlagilitypack是一个分析HTML的工具,它由codeplex提供,是一个原生的dotNet项目,不依赖VS中的MSHTML或者ActiveXCOM对象。其中的HtmlDocument可以加载任何HTML文件,然后可以使用类似于SystemXml的对象模型对文件进行查询。235XML与数据库数据库和XML有许多特点是相同的。比如,二者都提供了构造和存储信息的方法151。数据库以记录和字段的形式存储信息,它的特点在于字段和记录之间的顺序和关系并不需要一定有意义。同样,可以用构造XML文档的办法来储存信息,12这种存储方式与数据库是相似的。二者所不同的地方在于,在XML文档中,文档各个部分之间的顺序和关系总是有意义的,并且很重要。我们把XML格式的数据存到数据库中,通常的办法是解析XML文件,读出XML中的数据类型并根据它创建数据库表和表之间的关系,读出XML文档中的数据,存入数据库中。下面的语句可以得到节点的类型:LinkgetElementsByTagName(”link”)item(O)getFirstChild0getNodeTypeO转换示例如图22所示:xml文档:Jason18female转换后的数据表:n锄eagegenderJason18female24数据挖掘技术图22XML转换成数据表Figure22DataTableforXMLTransation241数据挖掘技术简介在这个网络时代,计算机技术和网络技术的飞速发展使我们处在一个信息量极大的环境当中,大量的信息给我们带来方便的同时,也带给我们系列问题,比如,信息过量,难以消化,信息的真实性和可靠性难以辨别,信息安全难以保证,信息形式不一致,难以统一处理等等。从大量的信息中提取出有用的,我们所需要的信息已经成为当前研究的一个热点问题。另外,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,使得我们所需要的信息隐藏在这些海量信息当中。这就需要一种手段或技术来解决这些问题。于是,数据挖掘技术就诞生了。数据挖掘也叫做数据库知识发现,即从大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中提取出隐含在其中的,可信新颖,人们又事先不知道,但又是潜在有用的模式的高级处理过程【sJ。它是个提取和展现新知识的流程,是由统计学,人工智能,数据库,可视化技术等多个13领域组成的交叉学科。数据挖掘技术的发展应该经历以下这个过程【8】:应用的探索,可伸缩的数据挖掘,数据挖掘与数据库系统,数据挖掘语言的标准化,可视化数据挖掘,复杂数据类型挖掘,Web数据挖掘,数据挖掘中的隐私保护和数据安全。数据挖掘可以分为分类或预测模型发现,数据总结,聚类,关联规则发现,序列模式发现,依赖关系或依赖模型发现,异常和趋势发现等。图23是数据挖掘的结构图:数据获取与预处理数据清洗H用户识别H会话识别H事物识别H路径补充h模式发现I统计分析关联规则序列模式分类聚类依赖性建模l模式分析可视化在线分析处理数据清沈图23数据挖掘结构图Figure23StructureofDataMining数据挖掘的几种常见实现方法有以下几种瞄】:1)关联规则挖掘。关联规则侧重于确定数据中不同领域之间的关系,找出符合给定条件下的多个域间的依赖关系。它的应用对象一般是大型的数据库。2)决策树方法。决策树是通过一系列规则对数据进行分类的过程。采用决策树能将数据规则可视化,其输出结果也容易理解。这种方法的精度较高,系统不需要长时间的构造过程。它的缺点是难以基于多个变量组合发现规则,不同决策树分支之间的分裂也不平滑。143)神经网络方法:可以对大量复杂的数掘进行分析,并完成对于人脑和其他计算机来说极为复杂的模式抽取及趋势分析。神经网络对于分类模型比较适合。但是神经网络需要较长的学习时间,所以当数据量较大时,容易影响性能。4)粗集方法。其特点是不需要预先给定某些特征或者属性的数量描述,而是直接从给定的问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找到问题的规律。5)统计推导。从统计意义上根据数据中的“如果”,“那么规则进行寻找和推导。242数据挖掘之聚类聚类又被称为无监督分类,是将相似相近的对象聚成一类,将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程【9】。聚类分析是数据挖掘的重要工具,通过对无标记的大型数据进行分析,根据样本之间的情况进行分组,使组内数据之间的性质互相靠近,而组间数据相似距离较大,从而发现数据集内在结构。聚类分析已经用于模式识别,数据分析,图像处理和市场分析。243聚类算法聚类一般是针对大数据集进行的,因此数据挖掘中的聚类方法应该满足以下要求【lol:聚类算法的可扩展性。算法既能满足大型数据集,也能满足小型数据集。具有处理不同类型属性的能力。比如,算法应该能处理二元类型,数值型,序数型及混合数据等类型。能发现任意形状的聚类。比如,球形簇,螺旋型簇等等。用于决定输入的参数应该最少。因为聚类的结果对于输入的参数非常敏感,并且由于输入的参数比较难确定,所以如果要求人工输入较多参数的话,就会增加研究者的工作量,也会影响聚类结果的准确性。能够处理空间中的聚类,也即能够处理高维聚类。能够处理噪声数据。实际数据集包含孤立点,空缺和未知数据或者错误,聚类算法应该能够降低这些噪声数据的影响。对输入数据的顺序不敏感,聚类算法应该与输入数据的顺序无关。聚类的结果可解释和可用。基于约束的聚类。一个完整的聚类过程应该包括如下几个步骤:1)数据准备。包括特征标准化和降维。2)特征选取。从最初特征中选取最有效的特征,并将其存储于向量中。3)特征提取。通过对所选取的特征进行转换形成新的特征。4)聚类。首先选择合适特征类型的某种距离函数进行接近程度的度量,然后执行聚类或者分组。5)聚类结果评估。对聚类结果进行评估。评估的方法有外部有效性评估,内部有效性评估和相关性测试评估三种。在数据挖掘领域,聚类算法可以分为以下几种【lo】:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。基于划分的聚类。其基本思想是把一个含有若干条记录的数据集划分成K个分组,每一个分组代表一个聚类。对于给定的K值,可以给出一个初始的分组方法,以后通过迭代来改进分组,每一次改进应该比前一次要好。因为这种方法要求将所有数据都装入内存,所以在处理大规模数据的时候显得有些力不从心。另外,由于需要研究者预先设定K值,这与在实际应用中聚类的个数未知相抵触,所以使用基于划分的方法进行聚类,其结果往往不能令人满意。基于层次的聚类。对给定的数据集进行层次似的分解,直到某种条件满足为止。层次聚类方法可分为自下而上和自上而下两种基本方法。自下而上方法是以数据对象作为原子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。自上而下方法是首先将所有数据对象作为一类,然后逐步分解成越来越小的类,直到满足终止条件。基于层次的方法要求用户给定一个合并或者分解的终止条件,比如聚类的个数或者两个聚类间的最小距离等。这种方法的优点在于算法能得到不同粒度上的多层次聚类结构,缺点在于一旦一个步骤完成,比如合并完成或者分裂完成,就不能被撤销。基于密度的聚类。其主要思想是:只要邻近区域的密度超过某个阈值,就继续聚类,数据稀疏区域中的数据点认为是噪音数据。这样的方法可以用来过滤“噪音”孤立点数据,发现任意形状的聚类。由于密度是局部概念,所以基于密度的方法又称为局部聚判10】。这种方法只扫描一次数据库,其优点就是扫描一次就可以在带有“噪声的空间数据库中发现形状任意,个数不定的聚类。基于网格的聚类。首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这种方法的优点是处理速度快,处理时间与数据对象的数目无关,仅与量化空间中的每一维上的单元数目有关。在使用这种方法的时候,要注意量化尺度问题,通常是从小单元开始寻找聚类,在逐步增大单16元的体积,重复多次,直到找到满意的聚类为止。基于模型的聚类。给每一个聚类假定一个模型,然后去寻找能够很好地满足这个模型的数据集。这个模型可能是数据点在空间中的密度分布函数,它由一系列的概率分布决定。25本章小结本章的主要工作是对网络服务智能监测平台开发所涉及到的C|网络编程,HTML语言,XML语言,数据库和数据挖掘聚类算法做了简要的介绍。这些理论知识和技术的选定源自于对系统需求和系统功能的深入理解,由于这些技术发展到现阶段已经比较成熟,所以可以改进的地方不是很多,关键是要把它们和系统本身的设计结合起来。在第三章的系统设计和第四章的关键技术中,本章所介绍的技术都融入其中。本章在介绍某些技术时,给出了一些实例。3网络服务智能监测平台的设计本章主要介绍了网络服务智能监测平台的整体设计原则和总体框架,并对各模块的系统结构以及设计方案加以说明,对部分模块的数据表设计予以展示。本章是本论文的重点章节。31平台的设计原则网络服务智能监测平台是为了配合实验室的重点项目“网络舆情分析”而设计开发的。它的创新之处在于提出了各子系统的设计方案并实现了网络服务的发现,采集和数据处理,并且把网络服务的发现,网络服务信息的采集和对所采集信息的处理融合在一起,为其他科研人员继续深入研究网络舆情,为有关部门进行舆论引导提供了极大的数据支持。而且,正因为这个系统把三个分系统综合在一起,大大的提高了研究效率,节省了实验室的研究资源。基于以上目的和互联网本身的特点,在设计本系统时,遵循了如下设计原则:1)系统的人性化设计:在人性化设计方面,系统的操作界面和功能设置在满足用户需求的前提下,尽量做到美观大方,并且符合用户的使用习惯。为了达到这方面的要求,在一些界面辅助控件的设计,使用和位置摆放上,系统参考了现有Windows操作系统中的一些设计,因为本系统所选用的开发语言C群也是Microsoft的产品,所以容易找到一些设计上的共同点。2)运行的持续性:鉴于网络信息传播的特点,要想对网络舆情有个比较准确的认识,并对其进行分析研究,就必须做到时时刻刻掌握网络上的信息。尤其是论坛和博客这两种舆论平台,他们的信息更新速度是非常快的。要想发现和采集到有时效性的信息,就要求系统必须能够持续运行,或者说间断的次数不能太多。一旦系统发生意外中断,要有断点保护,即恢复运行之后,原有数据不丢失,不必再从头开始运行。3)可控性。这点是特别针对信息采集模块而言的,可控的部分包括进行采集的线程数,采集深度等参数的控制。这样用户可以根据当前网络的状况来设置参与采集的线程数或者根据网页的权威程度来设定采集深度。另外还有采集的暂停与恢复等控制。4)数据呈现:这里指系统应该能够给用户提供一个直观的数据表示,使用户能够对当前情况一目了然,比如对于提供论坛服务的网站个数等等。在系统中,采用了C群所支持的统计图形插件来实现此功能。图31是网络服务智能监测平台的结构图:网络服务智能监测平台l网络服务发现模块网络服务信息采集模块网络服务信息处理模块网络服务监测模块l图31网络服务智能监测平台结构图Figure31S仃1lctIlreofIntelligentMonitoringPlat

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论