




已阅读5页,还剩59页未读, 继续免费阅读
(通信与信息系统专业论文)网络服务智能监测平台的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着近些年网络建设和相关技术的飞速发展,以及网络用户数量的同益增 长,互联网逐渐成为一种大众化的信息交流场所。各大网站纷纷提供各种信息交流 服务,来吸引广大网民对其网站进行访问。目前,最常见的网络交流平台就是论 坛和博客。w e b 2 0 技术的成熟和广泛应用,正在使互联网的内容提供者由网站的 开发和运营方转变为广大的网络用户。而由于互联网的开放性和网络监管机制的 发展水平滞后,网络上的内容呈现出良莠不齐的特点。如果不能及时进行舆论引 导,正确的观点和事实的真相有可能被错误的信息埋没,给社会的和谐带来不良 影响。要想对网络舆论进行正确引导,首先要对网络话题和网络事件进行监测和 预警。该课题的研究目的就是要给网络舆情研究人员提供一个监测和预警的数据 依据,提出一个可行性的方案。 本文通过对国内外相关技术的研究,结合实验室研究人员的需求和北京市互 联网宣传管理办公室的实际情况,设计了一个网络服务智能监测平台。这个平台 把三个功能不同的子系统有效的组合在一起,形成了一个大型的监测平台。 本文在对互联网用户的基本状况、网络服务的特征和现有网络监测软件进行 深入分析研究的基础上,针对这个平台的设计原则和所要实现的功能,对多个方 面的关键技术进行深入的研究,并结合系统本身的特点,对相关技术进行改进和 优化,为系统各模块的具体设计打下基础。 在完成上述准备工作的基础上,提出了网络服务智能监测平台的整体框架, 并对框架中的各个模块从技术上和流程上进行说明。设计了网络服务发现模块, 在这个模块中,提出了一种针对论坛和博客服务的发现方法,通过实际检验,证 明这种方法的可靠性较高,可以作为此模块的核心方法。根据现有系统的优缺点, 通过多种技术的综合,设计了网络信息采集模块。在循环监控算法的设计过程中, 提出了对g o o g l e 开发的p a g e r a n k 算法进行改进的方法,并把它作为监控算法的 一部分。经过理论分析,证明这种改进是有效的。最后,论文完成了对平台的整 个设计。 本论文共有图1 3 幅,表7 个,参考文献4 0 篇。 关键词:网络服务;信息采集;聚类;超链接分析;p a g e r a n k 算法 分类号:t p 3 1 9 :t p 2 7 4 a b s t r a c t a b s t r a c t :r e c e n t l y , w i t ht h er a p i dd e v e l o p m e n to fn e t w o r kc o n s t r u c t i o na n d r e l e v a n tt e c h n o l o g i e s ,a n dt h eg r o w t ho fn u m b e ro fi n t e m e tu s e r s ,i n t e m e ti sb e c o m i n g ap u b l i cc o m m u n i c a t i o np l a c eg r a d u a l l y al o to fw e b s i t e sa r ei n t e r e s t e dt os u p p l yk i n d s o fc o m m u n i c a t i o ns e r v i c e si no r d e rt oi n c r e a s et h eu s e r s v i s i t s n o w a d a y s ,t h et w om o s t p o p u l a rp l a t f o r m sf o rn e t w o r kc o m m u n i c a t i o na r ef o r u ma n db i o g t h em a t u r i t ya n d w i d e l ya p p l i c a t i o no fw e b 2 0t e c h n o l o g ya r ec h a n g i n gt h ei s pf r o mw e b s i t ef o u n d e r s a n do p e r a t o r st ov a s tu s e r s w h i l e ,b e c a u s eo ft h eo p e n n e s so fi n t e m e ta n dt h e u n d e v e l o p e dm o n i t o r i n gt ot h ew e b s i t e s ,t h ei n f o r m a t i o no nt h ei n t e m e ti su n e v e n i fw e c o u l d n tc o n d u c tt h eo p i n i o n ,t h ec o r r e c to p i n i o n sa n dt h et r u t hw o u l db eb u r i e db yt h e w r o n go n e ,m a k i n gb a de f f e c to nt h es o c i a lh a r m o n y t h ef i r s tj o bo nc o r r e c tc o n d u c t i o n t ot h eo p i n i o ni st o s u p e r v i s ea n de a r l ya l e r tt h en e t w o r kt o p i c sa n di n c i d e n t s t h e r e s e a r c hg o a lo ft h ei s s u ei st op r o v i d eo t h e rr e s e a r c h e r ss o m ed a t af o rm o n i t o r i n ga n d a na v a i l a b l es c h g l n e t h r o u g ht h er e s e a r c ho nd o m e s t i ca n df o r e i g nt e c h n o l o g i e s ,t h ed i s s e r t a t i o n d e s i g n sa l li n t e l l i g e n tm o n i t o r i n gp l a t f o r mo fn e t w o r ks e r v i c e ( i m p o n s ) ,a c c o r d i n gt o t h en e e do ft h er e s e a r c h e r si nt h el a ba n dt h eb e i j i n gi n t e m e t p r o p a g a n d aa n d m a n a g e m e n to f f i c e t h i sp l a t f o r mc o m b i n e st h r e es u b s y s t e m sw i t hd i f f e r e n lf u n c t i o n t oal a r g es c a l em o n i t o r i n gp l a t f o r m b a s e do nd e e pa n a l y s i sa n dr e s e a r c ho nt h eb a s i cc o n d i t i o no fi n t e r n e tu s e r s , c h a r a c t e r i s t i co fn e t w o r ks e r v i c e sa n dn e t w o r km o n i t o r i n gs o f t w a r eo nh a n d ,a i m i n ga t t h ep r i n c i p l ea n df u n c t i o no ft h ep l a t f o r m ,t h ed i s s e r t a t i o nd o e sd e e pr e s e a r c ho ns e v e r a l t e c h n o l o g i e s c o r r e s p o n d i n gw i t hs o m es e l f - f e a t u r e so ft h es y s t e m ,i m p r o v e sa n d o p t i m i z e sr e l e v a n tt e c h n o l o g i e s ,w h i c hi st h eb a s i so ft h ec o n c r e t ed e s i g nt oe v e r y s i n g l em o d e lo f t h es y s t e m b a s e do na b o v ep r e p a r a t i o n s ,t h ed i s s e r t a t i o np r o p o s e st h eg e n e r a ls t r u c t u r eo f i m p o n s ,a n dg i v e ss o m ee x p l a n a t i o n sf r o mt h et e c h n i c a la n df l o w sa n g l e d e s i g nt h e m o d e lo fn e t w o r ks e r v i c ed i s c o v e r y i nt h i sm o d e l ,t h ed i s s e r t a t i o ng i v e sam e t h o do f f o r u ma n dw e bl o gd i s c o v e r y a f t e ra c t u a l l yt e s t i n g , t h i sm e t h o di sh i g h l yr e l i a b l et ob e t h ec o r eo n e a c c o r d i n gt ot h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft h es y s t e m so nh a n d , d e s i g ni n f o r m a t i o na c q u i s i t i o nm o d e li n t e g r a t e dw i t hs e v e r a lt e c h n o l o g i e s d u r i n gt h e d e s i g no fc i r c u l a t i n gm o n i t o r i n ga l g o r i t h m ,d i s s e r t a t i o ng i v eam e t h o dw h i c hi m p r o v e t h ep a g e r a n ka l g o r i t h mo fg o o g l e ,a n dl e ti tb ep a r to f t h em o n i t o r i n ga l g o r i t h m a f t e r t h e o r e t i c a la n a l y s i s ,t h i si m p r o v e m e n ti se f f e c t i v e i nt h ee n d ,t h ed i s s e r t a t i o nf i n i s h e s w h o l ed e s i g no ft h ep l a t f o r m t h e r ca r et h i r t e e nd i a g r a m s ,s e v e nt a b l e sa n df o r t yr e f e r e n c e si nt h i sd i s s e r t a t i o n k e y w o r d s :n e t w o r ks e r v i c e ;i n f o r m a t i o na c q u i s i t i o n ;c l u s t e r i n g ;h y p e r l i n k a n a l y s i s ;p a g e r a n ka l g o r i t h m c l a s s n o :t p 3 1 9 ;t p 2 7 4 v 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名祷编 签字日期:弘年多月工日 导师签名: 溯k 签字日期:2 哪矿年6 月r - u e ! 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文储签名:膂确 签字嗍炒8 年占月舢 5 9 致谢 本文是在我的导师孟嗣仪副教授的精心指导下完成的,论文从构思,组织到 成文凝结着导师的大量心血。在这里,首先,我要衷心感谢孟老师两年来对我的 培养、关心和教育。在这两年的时间里,孟老师在学术上给了我悉心的指导,为 我创造了良好的工作环境和自由的学习氛围,使我顺利完成从课程学习到科学研 究的转变,她渊博的知识、敏锐的学术洞察力、忘我的工作精神、不断创新和严 谨求实的科学态度使我受益匪浅。可以说,两年中我取得的每一点成绩和进步都 离不开孟老师的教诲和指点。此外,在生活上,孟老师也给了我极大的关心和帮 助,使我在离家求学的日子里倍感亲切。她高尚的师德和人品深深的影响了我。 在这两年的学习生活中,刘云教授和张振江老师也给了我极大的帮助,特别 是在论文的完成过程中,给了我不少有益的,指导性的建议,在此对刘云教授和 张振江老师表示深深的感谢。我也非常感谢沈波老师,当我在写作过程中遇到困 惑的时候,他都能从思路上给我指点,使我能够顺利的解决问题。同时,还要感 谢实验室的毕红军老师、穆海冰老师、周春月老师,在科研和生活上都给予了我 很多帮助。 我还要感谢我的家人,感谢他们对我学习和工作的支持、养育我成人、督促 我努力上进。 最后,感谢在百忙之中为我评阅论文的专家、学者、老师,感谢所有关心、 支持和帮助过我的人! 1 绪论 1 1 课题的来源和意义 1 1 1 互联网传播 互联网,即计算机互联网络。它是由许多台地理位置不同并具有独立功能的 计算机,通过特定的通讯设备和技术协议相互联结起来,以实现信息传输和资源 共享的网络系统。目前,世界上最大的国际性互联网是因特网,它已覆盖世界绝 大多数国家和地区,成为全球共用的计算机信息系统。所以如今互联网,因特网, 国际互联网等概念已经互相通用。互联网是一种新兴的信息传播媒介,更是一个 传播或交流信息的平台。通过互联网所进行的信息传输和交流,称为网络传播。 这是一种以地空合一的信息高速通道作为传输渠道,以功能齐全的多媒体电脑作 为收发媒体的,极具开放性的传播活动。这种网络传播是在二十世纪九十年代正 式进入广大公众传播领域的【1 1 。 互联网的信息传播具有如下特点: 各种传播形态并存。互联网把人际传播,群体传播,组织传播,大众传播等 各种传播形式组合在一起,形成一种综合的传播形裂2 1 。同时,在互联网中,结合 各种传统媒体的特点,融入了多种传播方式。 传播具有即时性。现实社会中发生的一些事情,尤其是一些重大事件,在报 纸,杂志,广播电视等传统媒体没有报道之前,互联网上就已经能够在第一时间, 以第一速度报道出来,而且在本条事件的基础上,公众还可以查阅到原先与之相 关的新闻信息,以便全面,客观的了解事件发生的起因,经过,结果。这里体现 的就是传播的即时性。 传播具有交互性。这是网络传播与传统纸张传播,电波传播的最大不同之处。 在这种互动的环境下,信息不再是从一方到另一方的单向传播,而是在双方的互 动交流中进行信息交换。在互联网中,没有信息的主宰,只有信息的提供者和交 流的参与者。 信息的传受具有灵活性。互联网用户可以凭借一台联网的电脑,随时随地的 发送信息,或者在条件允许的情况下,随时随地的查阅任何网络中的信息。这就 是所谓的网络传播五个w ( w h o e v e r , w h e n e v e r ,w h e r e v e r , w h o m e v e r , w h a t e v e r ) 2 1 ,即任何人在任何时间,任何地点都可以与其他任何人交流任何信息。 信息传播的主题化。互联网上的信息看似杂乱无章,实际上它的主题性很强, 尤其是在一些开放式的信息交流平台,比如论坛,社区等等,上面的信息都会被 网站的管理者分门别类的放置。互联网用户往往也是找到相关主题的信息聚集地 来发布和查阅信息。这种群体化,主题化的特点使得网络用户在互联网上形成一 个个人际关系很强的互动网络,其中会包含大量的,具有很高价值的主题信息。 较强的娱乐性。随着w e b 2 0 技术和宽带技术的快速发展,互联网信息的传播 也变得更具娱乐效果。一些企业或者个人为了推广自己的产品或者展示自己的某 种理念,会邀请网民进行在线体验或者邀请他们在线参与相关的活动。与传统媒 体不同的是,除了利用声光电等技术手段来保证这些信息的鲜活性之外,还提供 了信息的上传和下载。这对于传受双方都是一种极大的便利。 1 1 2 网络舆论 近些年,随着互联网建设的快速发展,据权威部门统计,我国网民的数量常 年呈上升趋势。登录和使用互联网已经不再是一种时尚,而是一种平常的行为。 而w e b 2 0 技术的出现使得除了新闻等传统网络应用外,又出现了网络论坛( b b s ) 博客( b l o g ) 等新形态的信息交互模式。信息交互模式的增多导致了网络上舆论信 息的大量增加,网络舆论在整个社会舆论中所处的地位越来越重要。网络舆论是 通过互联网表达和传播的,公众对自己关心或与自身利益紧密相关的各种公共事 务所持有的多种情绪,态度和意见交错的总和【3 】。它具有自由性与可控性,互动性 与即时性,丰富性与多元性,隐匿性与外显性,情绪化与非理性,个性化与群体 极性化等特点。主要通过电子邮件、新闻组、i m 、b b s 、b l o g 和w i k i 等途径传 播。 随着我国逐渐进入社会转型期,国内国外的形势变化很快,各项改革和制度 不断深化和细化,社会生活趋向多样化,社会矛盾更为复杂化,人们的思想情绪 和心理波动日益突出。而互联网的普及趋势和传播特点很容易使它成为人们思想 情绪和心理波动结果的发泄地。各式各样的言论,观点,思想充斥其中。由于传 播者和受传者的平等性,公众很容易就可以接触到这些观点。这样,一些不良或 者消极的言论和观点对于国民思想的影响是巨大且迅速的,如果不能及时的预测 和控制有害观点言论的传播,不及时纠正公众的舆论导向,那么后果将是十分严 重的,甚至会危害到国家安全,阻碍国家经济建设的顺利进行。图1 1 所示为网络 舆情的基本结构。 2 图1 1 网络舆情结构图 f i g u r e1 1s t r u c t u r eo fo p i n i o n 相对于一般事件,社会突发事件更容易造成大的舆论事件,形成社会舆论焦 点和热点,更容易造成大的影响。而且,在一些交互性较强的网站,网络信息可 能被一些居心叵测的人操控,使信息向不良趋势发展。另外,网络上还有一些虚 假信息。这些信息最容易蒙蔽一些不明真相的群众,给社会造成极大的危害。 1 1 3网络舆情突发事件的监测分析 面对网络舆情发展的严峻形势,提高应对网络突发舆情事件的能力成为了我 国各级政府的一项重要任务。除了采取积极防御,综合防范的方针,掌握舆情的 主动权,加速相关法律法规的建设,还应该利用科学技术来配合这项任务的完成, 通过监测和分析,来对抗不良网络舆论。 对突发舆情信息的监测与分析必须要浏览和查找海量的网络信息,从中提取 出与突发事件相关的舆情信息,研究分析舆情信息的时空分布情况,再通过其他 手段和方法来进行正确的舆论方向引导。可见,随着互联网技术的飞速发展,网 络舆情的监测和分析必须通过相关技术手段来进行。 1 2 国内外的研究现状 研究舆情的科技手段大部分是建立在拥有海量网络信息的基础上的,而这些 海量信息是通过特定的网络工具获得的。目前与本课题相关的网络工具主要有以 下几种: 由n e t l q 出品的a p pm a n a g e r 套件,这种套件由3 部分组成,分别实现三个 方面的功能。第一个方面的功能是监测用户感兴趣的网络服务,比如e x c h a n g e s e r v e r ,s q ls e r v e r ,i i s 或者w i n d o w sn t 服务。这个功能是通过一组代理程序来 实现的。第二个功能是信息发送,主要是向一些网络管理构架发送信息,比如向 寻呼机或者向h p 的o p e n v i e w 等更复杂的网络构架发送信息。第三个功能是实现 对系统本身的管理,负责监测系统的运行和发送警报信息。这款产品虽然可以对 网络服务进行监测,但它所能实现的仅仅是对s e r v e r 进行监测,不能对现有的网 络互动交流平台进行监测。因为它是一个比较成熟的产品,而且不开源,这就使 得对其改造和添加功能变得十分困难。此外,来自f r e s h w a t e rs o f t w a r e 的s i t e s c o p e 也可以实现上述功能,所不同的是,这款软件除了可以在w i n d o w s 平台上运行之 外,还可以在u n i x 平台上运行。 由x t r e a m ( 中国) 软件技术有限公司出品的x t r e a ms e r v e r m o n i t o r 。这款软件是 基于l i n u x 平台的,专门为i d c 和中小企业服务的。这款软件采用了分布式技术, 实现实时的网络服务监测。但是同前面介绍的那款软件一样,它也是对企业服务 器的运行状况进行监测,提供准确的故障定位和实时告警通知,使用户能及时了 解到自己服务器的状态,而并不能实现网络服务的发现,信息采集以及相关的数 据处理工作。 除了前面的两款软件之外,和网络监测相关的软件还有p i n gp l o t t e r 、n e o t r a c e 、 w h e r e l s l p 、m e g a p i n g 等等,但是它们共同的特点是功能比较单一,只能实现对于 网络物理层或数据链路层层面的监测,不开源,兼容性和稳定性都比较差。 总结现有网络监测软件的特点之后发现,仅有的几款网络工具的实际运行情 况距离项目的研究要求相差较远,得到的数据对实验室的后续研究人员来说没有 利用价值。而且这些网络工具都不是开源的,如果购买,就要付出一笔不菲的费 用。因为不是开源的,所以软件的维护和故障检测比较困难,不利于实验室根据 自身的需求调整功能和进行二次开发。另外,网络监测软件大部分都针对u n i x 系 统和l i n u x 系统,而且功能较为单一,分散,没有形成一个大型的系统,这对使用 者来说是极为不便的。所以开发一款适合自己的,功能强大的,针对w i n d o w s 系 统的网络监测软件是非常必要的。 1 3 论文的主要内容 本课题来源于北京市重点实验室项目“网络舆情分析系统”。在这个项目中, 北京交通大学计算机通信实验室根据北京市互联网宣传管理办公室的要求,开发 了一套具有自主知识产权的网络服务智能监测平台系统。网络服务智能监测系统 作为这个项目的一个子系统,负责监测网站的开放情况,监测网站上所提供的 4 b b s ,b l o g 等网络服务情况,进一步说就是发现b b s ,b l o g ,并监测b b s , b l o g 上的舆论信息,采集这些信息的数据,并进行数据整理,为后续研究人员 利用这些数据进行舆论的分析,预测提供方便。本论文就是在研究、开发和总结 这个项目的基础上完成的。 本论文主要针对要实现的各个功能,提出解决方案,来解决市面上一些网络 监测软件的不足,设计了一款适合实验室研究人员使用的网络服务智能监测平台, 保证了研究数据的可靠性,提高了研究人员的工作效率和研究的准确性。具体完 成的工作有: 1 ) 对网络服务监测技术,x i v i l 技术和数据挖掘技术等相关技术进行深入的学 习和研究,掌握这些技术的研究现状,发展趋势和优缺点,找到它们与本 系统开发的结合点。 2 ) 在网络服务发现方面,提出了一种基于网络论坛和博客服务的发现方法, 并且经过实际的搜索引擎分析测试,证明能够达到预期的效果。还提出了 一种系统对网络服务进行循环监测的方案。 3 ) 在网络信息采集方面,通过对搜索引擎和网络爬虫程序进行研究和分析, 提出了系统信息采集的方案。 4 ) 根据基于x i d l 的数据挖掘技术和网络服务监测与信息采集技术的特点,确 定了使用数据挖掘技术和聚类算法处理所采集的数据的方案,并且明确了 方案的实施步骤。 5 ) 在系统方案构建和实施的过程中,除了完善系统的功能,还解决了采集的 数据不规范,数据结构混乱,系统运行效率不高等问题。 6 ) 对整个系统进行总结,并为系统的某些方面在未来所需要的改进指明了方 向。 本论文的主要安排如下: 第一章绪论。在这一章中,介绍课题的研究背景,国内外的研究现状,系统 开发的必要性,并给出本文的篇章结构。 第二章相关理论和技术支持。在这一章中,介绍了网络服务智能监测平台系 统设计,开发所使用的语言工具以及相关理论。 第三章网络服务智能监测平台的设计。在这一章中,给出了系统的整体设计 原则和系统的整体框架。介绍了系统各模块的具体设计思路和设计过程,同时给 出相关流程图和数据图表。 第四章网络服务智能监测平台关键技术的研究。在这一章中,结合上一章中 对系统各模块的设计,重点介绍网络服务的发现,信息采集,数据处理和监测。 并且给出了在服务发现,信息采集,数据处理以及循环监测等方面的解决方案。 5 这一章中侧重于介绍所使用的技术的研究和具体的应用。 三四两章是本文的重点,在这两章中,服务发现技术,信息采集技术和数据 处理技术相结合,解决了论坛服务和博客服务的发现问题,网络信息采集问题, 此外,还解决了系统功能不完善,采集数据不规范,不利于研究人员进行后续分 析等问题。同时,也解决了系统运行效率不高的问题。 第五章结束语。对论文所做的主要工作进行总结,并对未来要进行的研究工 作进行展望。 1 4 本章小结 本章细致的分析了信息在互联网这个新兴媒体中传播所具有的特点,并由此 引发了对网络舆情监测问题的关注,用事实说明了研究网络舆情的重要性。同时, 明确的指出利用科技手段来协助网络舆情分析的必要性,并引出本文所要介绍的 核心内容一网络服务智能监测平台系统。在简要分析了国内外在此方面的研究成 果之后,提出了现有成果的不足之处。最后对本课题的来源和研究背景以及本论 文所完成的工作进行了说明,并展示了本论文的篇章结构。 6 2 相关理论及技术支持 2 1c j f j 网络编程 2 1 1c 挣简介 c 撑【4 1 ( 读作c s h a r p ) 是一套全新的程序设计语言,它不仅简单易用而且功能强 大。c 撑的基本语法等同于c c + + 。它不仅是一套面向对象的程序语言,同时它可 以应用于w e b b a s e d 环境及分布式的网络操作环境。c 撑具有一些c c + + 所欠缺的 内存自动管理,t y p e s a f e 等特性。在使用中,不仅能将开发时程缩短,同时功能 更强大,更稳定。总的来说,c 拌具有简单,先进,面向对象,类型安全,强大的 命名系统,集成性强等特性。 2 1 2 网络编程 网络实际上就是一群计算机及连接设备的集合。在当今这个信息化飞速发展 的时代,网络已经成为了家家户户的基本需求,人们可以通过它轻易的获取所需 的信息。一般来说,网络应用程序可分为客户端程序( c l i e n t ) 和服务器端程序 ( s e r v e r ) ,客户端程序负责显示数据并针对用户的需求送出请求给服务器,而服 务器程序则针对客户端的要求运行相应的工作并送出所需的数据给客户端,借此 提供用户服务p j 。 2 1 3c 网络编程相关的类 c 撑在网络编程方面提供了一些类【5 】,我们可以通过调用这些类来方便的实现 相关功能。这些类主要有: d n s 类。在互联网上的每一台主机中,都会有各自的域名服务器设置,以便 用户在输入域名时,可以通过域名服务器解读,同时,将其转换为服务器计算机 主机实际的i p 地址以便创建网络连接。d n s 类就提供这样的功能,这个类中的方 法都是静态的,可以直接调用。d n s 类是在命名空间s y s t e m n e t 之下。当调用其 中的r e s o l v e 方法时,它会通过域名服务器去找出相应的口地址,并产生一个 i p h o s t e n t r y 对象。方法如下:i p h o s t e n t r yh o s t = d n s r e s o l v e ( ”w w w x x , x y y y z z ”) : 其他常用的方法还有g e t h o s t b y a d d r e s s 和g e t h o s t b y n a l l l e 。 7 i p a d d r e s s 类。在该类中有一个p a r s e ( ) 方法,可以把点分的十进制i p 表示转化 成i p a d d r e s s 类。方法如下: i p a d d r e s sa d d r e s s = i p a d d r e s s p a r s e ( “1 9 2 1 6 8 0 1 ”) ; 另外i p a d d r e s s 类提供了4 个只读字段: a n y :用于表示本地系统可用的任何i p 地址 b r o a d c a s e :用于表示本地网络的i p 广播地址 l o o p b a c k :用于表示系统的回送地址 n o n e :用于表示系统上没有网络接口 i p e n d p o i n t 类。i p e n d p o i n t 其实就是一个i p 地址和端口的绑定,可以代表一 个服务,用来进行s o c k e t 通讯。 s o c k e t 类。在介绍s o c k e t 类之前,首先对s o c k e t 进行一下说明。所谓s o c k e t 通常也称作”套接字”,用于描述i p 地址和端口,是一个通信链的句柄。应用程序 通常通过”套接字”向网络发出请求或者应答网络请求。它就像是计算机背面的网络 插槽,插槽上有一条与远程服务器直接相连的线路,可以通过这条线路将数据发 送出去,而远程服务器也可以通过这条线路将数据发送过来【5 j 。s o c k e t 类所在的命 名空间是s y s t e m n e t s o c k e t s 。它的主要属性有: c o n n e c t e d 属性。这是一个布尔变量,用来获取s o c k e t 对象的连接状态,若网 络连接已经成功创建则返回t r u e ,否则返回f a l s e 。这个属性可以用来测试网络主 机的开通情况。 p r o t o c o l t y p e 属性。用来获取s o c k e t 对象所使用的通讯协议种类。在创建s o c k e t 对象时,可以按如下方法创建: s o c k e ts = n e ws o c k e t ( a d d r e s s f a m i l y i n t e r n e t w o r k s o c k e t t y p e s t r e a m ,p r o t o c o l t y p e t o p ) ; 2 2 h t m l 网页元素 每个网页都有自己的源文件,源文件是由h t m l 组成的。h t m l ( h y p e r t e x t m a r k u pl a n g u a g e ) ,即超文本标记语言或超文本链接标示语言,是w w w 的描述 语剖6 1 。设计h t m l 语言的目的是为了能把存放在一台电脑中的文本或图形与另 一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具 体信息是在当前电脑上还是在网络的其它电脑上。h t m l 语言的特点就是采用了 标签结构。下面就对一些与系统有关的重要标签进行说明。h t m l 的结构包括头 部( h e a d ) 、主体( b o d y ) 两大部分,其中头部描述浏览器所需的信息,而主体则包含 所要说明的具体内容。 8 标签。基本的h t m l 页面以 开头,以 结束。在他们之间, 整个页面分为两部分:标题和正文。 标签。标题在 标签之间,在打开页面时,它出现在屏幕底 部最小化的窗口上。 标签。正文内容在 标签之间,页面上显示的任何内容都 包含在这个标签之间。 标签。用于告知文档完整的u r l 信息。早面的内容一般为放置文档的 主机的u r l 。 标签。它是负责链接外部文件的标签。它是一个单独标签,只能嵌套在 和 标签之间使用,用来指定该文件与其他文件或资源之间的关系。 但是这个标签并不实际链接到其他u r l 。 标签有一个重要的属性是h r e f , 它 存放了链接外部文件的u r l 。 标签。这是一个与链接有关的标签。它的格式是 文本 。在后面的网络信息采集中,会重点关注这个标签。 标签。 标签对网站来说是非常重要的,如果能设计一个好的 标签,那么这个网页被搜索引擎搜索到的概率就会大大增加。 标签 一般用于鉴别作者,设定页面格式,标注内容提要和关键字,还可以设置页面, 使其可以根据网站作者定义的时间间隔刷新页面等等。它主要分为两个部分: h t t p e q u i v 和n a m e 变量。 2 3x m l 技术 i n t e i n e t 提供了全球范围的网络互连与通信功能,w e b 技术的发展更是一日千 里,其丰富的信息资源给人们的学习生活带来了极大的便利。x m l 6 j ( e x t e n s i b l e m a r k u pl a n g u a g e 可扩展标识语言) 是由w 3 c ( 互联网联合组织) 于1 9 9 8 年2 月 发布的标准,它是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用置标 语言) 的一个子集【l5 1 。它将s g m l 的丰富功能与h t m l 的易用性结合到w e b 的 应用中,以一种开放的自我描述方式定义了数据结构,在描述数据内容的同时能 突出对结构的描述,从而体现出数据之间的关系。这样组织起来的数据对于应用 程序和人类都是友好的、可操作的。 2 3 1x m l 的语法 x m l 在语法上的要求比较严格,在结构上追求完整性【6 】,具体要求如下: 9 1 ) 必须有x m l 声明语句 。 2 ) 如果是一个有效的x m l 文档,那么文档就一定要有相应的d t d 文件。 。 3 ) 区分大小写。 4 ) 所有的属性必须加引号。 5 ) 所有标识必须有相应的结束标识。 6 ) 所有标识“对儿 之间没有内容的标识必须被关闭。 2 3 2x m l 的文档内容 x m l 的文档内容一般由下述四个方面组成: 1 ) 元素。元素是文档的主要逻辑部件,它们由开始标注和结束标注界定。比 如: d i n n e ri sr e a d y 整体就成为一个元素。 2 ) 属性。属性是元素的性质。属性表达为元素的开始标注内的信息。例如可 以给上述元素赋予一个属性 d i n n e ri sr e a d y 。 有时候在创建元素时,会考虑是将信息储存在属性中还是作为元素的内 容。对于这种情况,一般的原则是,如果信息描述元素,则将信息储存在 属性中。另一方面,提供实际数据的信息应是元素内容的组成部分。 3 ) 注释。几乎在所有的标记语言或者程序设计语言中,都可以在文档内留下 注释,必备日后参考。对于x m l 文档来说,一条完整的注释应该是 。 4 ) 处理指令。处理指令就是一种标记,它提供信息给软件应用程序使用。对 于注释,分析器可能扫描也可能不去扫描,但对于处理指令是必须扫描的。 2 3 3x m l 的优点 x m l 的优势之一是它允许各个组织、个人建立适合自己需要的置标集合“。, 并且这些置标可以迅速地投入使用。这一特征使得x m l 可以在电子商务、政府文 档、司法、出版、c a d c a m 、保险机构、厂商和中介组织信息交换等领域中一展 身手,针对不同的系统、厂商提供各具特色的独立解决方案。另一个优势在于 它的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数 据、结构以及显示方式。x m l 把文档的三要素独立开来,分别处理。首先把显示 格式从数据内容中独立出来,保存在样式单文件中,这样如果需要改变文档的显 l o 示方式,只要修改样式单文件就足够了。x m l 的自我描述性质能够很好地表现许 多复杂的数据关系,使得基于x m l 的应用程序可以在x m l 文件中准确高效地搜 索相关的数据内容,忽略其它不相关部分。 2 3 4h t m l 与x m l 的转换 互联网上的数据是海量的。由于各个网站的网站结构和网页数据各不相同, 即数据具有异构性。而h t m l 语言的语法规则较为宽松,所以页面的源文件结构 很不整齐,解析起来非常困难,不利于研究人员从中获取所需要的信息。传统的 数据库中的数据结构性很强,也就是说数据库中的数据是完全结构化的数据,每 张数据表都由字段组成,数据排列十分整齐。而相对于数据库中的数据,网络上 的数据就是半结构化的。因此,要想把数据库的表和网络上的数据很好的对应起 来就需要用到x m l 技术。因为x m l 可看作是一种半结构化的数据模型,可以很 容易的将x m l 的文档描述与关系数据库中的属性一一对应起来,进行精确的查询 和数据抽取。 现在使用比较多的转换手法有: 1 ) 使用h t m l t i d y 。 2 ) 使用s g m l r e a d e r 。 3 ) 使用h t m la g i l i t yp a c k 。 h t m l t i d y 是一种开源的h t m l 转换软件,它由w 3 c 提供,现在被s o u r c e f o r g e 上的一群志愿者进行维护和版本升级,这款软件可以在多个平台上使用,h t m l 的转换效果良好。一般适用于j a v a 开发。使用这个软件时,需进入d o s 环境,用 命令行对软件进行操作。目前,此款软件也出现了在w i n d o w s 环境下的可视化版 本。但是由于它的编程兼容性较差,所以本系统没有选择这种方法来进行转换。 s g r n l r e a d e r 实际上是一个d l l 文件,s g m l r e a d e r d l l d l l 。这个文件可以在v i s u a l s t u d i o 的编译环境中当成第三方控件进行引用。它所包含的类可以使用户方便的进 行x m l 的转换。比使用d o tn e tf r a m e w o r k 自带的类更便捷,效果更好。由于它 对微软的v i s u a ls t u d i o 编辑环境比较友好,便于在程序中操作,因此,本系统在进 行h t m l 到x m l 的转换时,选用的就是这种方法。 转换算法实例如图2 1 所示: 图2 1h t m l 转成x m l 算法 f i g u r e2 1a l g o r i t h m sf o rt r a n s f o r m a t i o nf i , o mh t m lt ox m l h t m la g i l i t yp a c k 是一个分析h t m l 的工具,它由c o d e p l e x 提供,是一个原生的 d o tn e t 项目,不依赖v s 中的m s h t m l 或者a c t i v e x c o m 对象。其中的 h t m l d o c u m e n t 可以加载任何h t m l 文件,然后可以使用类似于s y s t e m x m l 的对 象模型对文件进行查询。 2 3 5 x m l 与数据库 数据库和x m l 有许多特点是相同的。比如,二者都提供了构造和存储信息的 方法1 5 1 。数据库以记录和字段的形式存储信息,它的特点在于字段和记录之间的 顺序和关系并不需要一定有意义。同样,可以用构造x m l 文档的办法来储存信息, 1 2 这种存储方式与数据库是相似的。二者所不同的地方在于,在x m l 文档中,文档 各个部分之间的顺序和关系总是有意义的,并且很重要。 我们把x m l 格式的数据存到数据库中,通常的办法是解析x m l 文件,读出 x m l 中的数据类型并根据它创建数据库表和表之间的关系,读出x m l 文档中的 数据,存入数据库中。下面的语句可以得到节点的类型: l i n k g e t e l e m e n t s b y t a g n a m e ( ”l i n k ”) i t e m ( o ) g e t f i r s t c h i l d 0 g e t n o d e t y p e o 转换示例如图2 2 所示: x m l 文档: j a s o n 18 f e m a l e 转换后的数据表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 打牌跑得快比赛活动方案
- 教育技术创新引领未来人才培养方向
- 手绘草帽活动方案
- 手工制作康乃馨活动方案
- 托育机构市场活动方案
- 手工发簪活动方案
- 打折促销酒活动方案
- 扶志感恩活动方案
- 托班圣诞节活动方案
- 教育技术政策的实施效果与反馈
- 《铃儿响叮当的变迁》教学设计(江苏省市级优课)-九年级音乐教案
- 装修常用数据手册(空间布局和尺寸)
- 处方销毁申请登记表
- 河南省2014年中考语文现代文阅读真题
- 外研版一起小学英语四下《Module-6Unit-1-Ill-draw-the-pictures》课件
- 三明市公安局招聘警务辅助人员考试历年真题
- 冷镦机 质量要求技术条件
- 卫生部手术分级目录(2023年1月份修订)
- LY/T 2121-2013檀香栽培技术规程
- 骨科出科试题带答案
- 河道基槽土方开挖专项施工方案
评论
0/150
提交评论