(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf_第1页
(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf_第2页
(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf_第3页
(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf_第4页
(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机软件与理论专业论文)基于“中间人”的信息获取技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 信息获取j “义卜n 讲是对各种有序或者无序信息的收集,狭义上讲是指对因特网上的 各种有序或者无序信息的收集。现有的信息获取技术从主动性上分为 动信息获取和被 动信息获墩。弘动的信息获取也称为信息采集,比如w e b 信息采集、b f i s 信息采集等。 被动信息获取指摹j 。捕包的信息获取。 木文提出厂一种新的信息获取方式:以某种方式制造一个通信的汇聚点,然后在该 汇聚点有选择的转发、修改或者生成某个方向的通信内容,以此来影n 向,j | 一个方向的 通信内容,并有选择的获取另方向的通信内容。本文称这种信息获耿方式为基于“中 间人”的信息获取。基于“中间人”的信息获取是一种半主动、半被动的信息获取方式。 基_ r “t 刈人”的信息获取与主动信息获取相比,最大的优势在于只需要部分知晓通信 协议:与被动信息获取相比,优势在于,同样是知晓部分通信协议的情况卜_ ,获得了一 定的主动性。 本文还洋细介绍了一个具体的基于“中问人”的信息获取系统q q 聊天室信息 采集系统的具体实现。该系统分为控制端和采集端两部分,采用集中控制、分布采集的 方式自动的采集用,r 设置的q q 聊天室。 关键训:信息歌取,中间人,q q 聊天室 基于“中间人”信息歌取投术科究 “m a n i n t h e m i d d l e b a s e di n f o r m a t i o na c q u i s i t i o n w e tj u n p i n g ( c o m p u t e rs o f t w a r ea n dt h e o r y ) d i r e c t e db yb a ts h u o f r o mg e n e r a l i z e dv i e w , i n f o r m a t i o na c q u i s i t i o ni sc o l l e c t i n go fv a r i o u s o r d e r e do r d i s o r d e r e di n f o r m a t i o n f r o man b r r o ws e n s e ,h f f o r m a t i o na c q u i s i t i o ni sc o l l e c t i n go f v a r i o u s o r d e r e do l d i s o r d e r e di n f o r m a t i o nf r o mt h ei n t e r n e t ,i n f o r m a t i o na c q u i s i t i o nt e c h n o l o g yi n e x i s t e n c ec a nb ec l a s s i f i e di n t ot w os o r t s :a c t i v ei n f o r m a t i o na c q u i s i t i o na n dp a s s i v e l n l b r m a t i o na c q u i s i t i o n a c t i v ei n f o r m a t i o na c q u i s i t i o ni sa l s on a m e di n f o r m a t i o ng a t h e r i n g s u c ha sw e bc r a w l i n ga n db b sg a t h e r i n g p a s s i v ei n f o r m a t i o no a t h e r i n gi ss n i f f e rb a s e d g a t h e r i n g t h i sd i s s e r t a t i o n p u t f o r w a r dan e wi n f o r m a t i o n a c q u i s i t i o nm e t h o d :c r e a t i n g a c o m m u n i c a t i o ni n f l u xb ys o m ew a y , o nt h ei n f l u x ,r e l a y , c h a n g eo rg e n e r a t ec o m m u n i c a t i o n c o n t e n to fo n ed i r e c t i o nt oi n f l u e n c ec o m m u n i c a t i o nc o n t e n to ft h eo t h e rd i r e c t i o n ,t h e ns a v e s e l e c t e dc o n t e n to ft h eo t h e rd i r e c t i o nt h i sd i s s e r t a t i o nc a l lt h i s m e t h o d “m a n i n t h e m i d d l e ”b a s e di n f o r m a t i o n a c q u i s i t i o n “m a n i n t h e m i d d l e b a s e d i n f o r m a t i o na c q u i s i t i o ni sh a l fa c t i v e ,h a l fp a s s i v ei n f o r m a t i o na c q u i s i t i o n c o m p a r e dw i t h a c t i v ei n f o r m a t i o na c q u i s i t i o n ,t h ea d v a n t a g eo f “m a n i n t h e m i d d l e b a s e d i n f o r m a t i o n a c q u i s i t i o ni s i tn e e d so n l yp a r t l yk n o w i n gp r o t o c 0 1 c o m p a r e dw i t hp a s s i v ei n f o r m a t i o n a c q u i s i t i o n 、t h ea d v a n t a g eo f “m a n i n t h e m i d d l e ”b a s e di n f o r m a t i o na c q u i s i t i o ni si ti s p a r t l ya c t i v e t h i sd i s s e r t a t i o na l s oi n t r o d u c ea “m a n i n t i l e m i d d l e ”b a s e di n f o r m a t i o na c q u i s i t i o n s y s t e m ,q qc h a t r o o mg a t h e r i n gs y s t e mi nd e t a i l t h i ss y s t e mi n c l u d e sac o n t r o lp a r ta n da n u m b e ro f g a t h e r i n gp a r t s t h es y s t e mi sa “c e n t r a l i z e dc o n t r o la n dd i s t r i b u t e dg a t h e r i n ” s y s t e m ,i t c a l lg a t h e ru s e r s p e c i f i e dq q c h a t r o o m s a u t o m a t i c a l l y k e y w o r d s :i n f o r m a t i o n a c q u i s i t i o n ,m a n i n t h e - m i d d l e ,q qc h a t r o o m 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究i :作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 1 i 包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作 r 明确的说明并表示了谢意。 作者签名:卫,灸早日期:驯:7 j 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 储签名:卫傻午新虢扣东嗽砂j 、7 、; 引言 11 信息获取概述 第1 章引言 信息获取( i n f o r m a t i o n a c q u i s i t i o n ) 广义上讲是对各种有序或者无序信息的收集川, 狭义上讲是指对因特网( i n t e m e t ) 上的各种有序或者无序信息的收集。本文讨论的是狭 义的信息获取。 随着因特网的发展,一方面网络上的信息种类不断丰富,现在凶特网 = 的信息包括 遵循h t t p 、t e l n e t 、f t p 等标准协议的信息,也包括象i c q 、o i c q 、g n u t e l l a 等各 种应用程,自定义的信息;另一方面,信息的总量也在飞速的增长。仅以w w w 网页 为例,根据c y v e i l l a n c e 公司的研究“s i z i n gt h ei n t e m e t ”,截止2 0 0 0 年7 月,因特网上 有2 l 亿个对公众丌放的网页,这个数字在以每天7 0 0 万的速度爆炸性增长1 2 t 。而且该研 究认为,这个增长速度将来还会被突破。 因特网上的信息是膨胀乱序的,而人们的需求是对信息的有效利用。对膨胀乱序的 信息进行有效的处理、整合和组织是解决矛盾的关键。面对信息进行处理的第一步就是 信息的获取l lj 。以搜索引擎为例,搜索引擎由信息获取、信息处理和信息搜索三部分组 成,这三个部分共享一个知识库,如图1 1 所示。信息获取部分利用网络蜘蛛( s p i d e r ) 以一定的策略从因特网上采集网页;信息处理部分对采集到的网页进行处理,建立索引; 信息搜索部分根据用户的查询条件查询索引,找到特定的信息。信息获取是信息处理和 信息搜索的前提。 好的开始是成功的一半,信息获取作为整个信息检索不可缺少的部分,有其重要 的地位。然而,对于整个信息检索技术而言,信息获取是理论研究相对薄弱的一部分。 原因是多方面的。首先,信息获取关心的是高速的获取信息和存储信息,这使得它本身 更多接触的足数据传输的协议和抓取策略,而不涉及获取信息的语法语义,而后者才是 理论研究的核心。其次,信息获取相对于整个信息检索各部分而言,并不是最大的瓶颈。 但是,信息获取仍然相当大的影响整个信息检索系统,特别是对系统的时空代价,信息 的及时性和有效性有相当的影响。 綦于“中间人”的信息秋取技术研究 1 2 本文安排 图11 搜索引擎基本结构 第2 章将介绍信息获取的研究现状。第3 章首先介绍了中间人的概念,然后将中间 人引入信息获取领域,提出基于“中闻人的信息获取。第4 章将介绍一个实际的基于 “中间人”的信息获取系统一q q 聊天室信息采集系统。第5 章将对本文进行总结,并 展望下一步的研究工作。 信息获取研究现状 一一一 第2 章信息获取研究现状 信息获墩的方式从主动性上可以分为两类:主动信息获取和被动信息获取。习惯f t 动的信息获取也称为信息采集。下面将分两节分别介绍主动和被动的信息获取。 21 主动的信息获取 211w e b 信息采集 w e b 信息采集( w e bc r a w l i n g ) ,主要是指通过w e b 页面之间的链接关系,从w e b 上自动的获墩页面信息,并且随着链接不断向所需要的w e b 页面扩展的过程。实现这 过程主要是由w e b 信息采集器( w e bc r a w l e r ) 来完成的。根据应用习惯的不同,w e b 信息采集器也常称作w e bs p i d e r 、w e br o b o t 和w e bw o r m 。粗略的说,它t 要是指这 样个程序,从一个初始的u r l 集出发,将这些u r l 全部放入到个有序的待采集队 列罩。而采集器从这个队列里按顺序取出u r l ,通过w e b 上的协议,获取u r l 所指向 的页面,然后从这些已获取的页面中提取出新的u r l ,并将他们继续放入到待采集队列 罩,然后重复 二面的过程,直到采集器根据自己的策略停止采集u j 。 目前,w e b 信息采集技术的发展正如火如荼,在传统的w e b 信息采集技术的基础上, 又出现r 许多轻型的各具特色的采集技术。我们根据国内外流行的看法,结合我们在这 方面长期积累的实际经验,把w 曲信息采集的发展方向分为以下几种:基于整个w e b 的信息采集( s c a l a b l ew e bc r a w l i n g ) ,增量式w e b 信息采集( i n c r e m e n t a lw e bc r a w l i n g ) , 基丁主题的w e b 信息采集( f o c u s e dw e bc r a w l i n g ) ,基于用户个性化的w e b 信息采集 ( c u s t o m i z e dw e bc r a w l i n g ) ,基于a g e n t 的信息采集( a g e n tb a s e dw e bc r a w l i n g ) ,迁移的 信息聚集( r e l o c a t a b l ew e bc r a w l i n g ) ,基于元搜索的信息采集( m e t a s e a r c hw e b c r a w l i n g ) p j 。实际系统往往是以上几个采集技术的结合。下面分别予以介绍。 21 11 基于整个w e b 的信息采集 这种信息采集在圈外也常口q 做s c a l a b l ew e bc r a w l i n g ,是一种较传统的采集思想。 主要是指同标为从一些种子u r l 扩充到整个w e b 的信息采集。这种信息采集主要是作 为f 】户搜索引擎和大型的w e b 服务提供商的数据收集部分。对于这类信息采集来说, 山t 采集的范罔和数量都非常巨大,所以对采集速度和存储空间要求很高;i j i i 于目标是 采集整个w e b ,所以对采集页面的顺序要求相对较低;由于待刷新的页面太多,尽管并 行很多的采集器,但仍需数闰乃至数月的时间来刷新一次,而且,随着并行采集器数量 綦于“中问人”的信息获耿技术研究 一一 的增加,整个系统能力的提高越来越小,稳定性却越来越低。但是,这类信息采集又不 能没有,人们小光有个性化需求和具体主题的需求,还有许多广泛主题的需求,而出这 类w e b 信息采集器构建的搜索引擎,恰恰适合搜索广泛的主题a 事实上,这类信息采 集仍有很强的应用需求,目前在实际应用中占较为主流的地位。下面以g o o g l e i 4 为例来 【 2 剜这类信息采集。 g o o g l ec r a w l e r 是一个分布式的基于整个w e b 的采集器,主要在美国s t a n f o r d 大学 用c c + + 设计。它并没有采用多线程技术,而是采用异步0 管理事件来实现并行。它 有一一个专门的u r l s e r v e r 来为并行的多个采集器维护u r l 队列。为了保持高速的获取 页由l ,每个采集器一次同时打开大约3 0 0 个连接。在使用4 个采集器时,系统的峰值速 度人约是每秒1 0 0 页,相当于每秒大约6 0 0 k 的数据。由于d n s 解析压力很大,o o o g l e 为每个采集器分配个d n sc a c h e ,这样不需要在每次采集页面时都做一次d n s 解析。 o o o g l e 还使用了许多算法对系统性能进行优化,最著名的就是p a g e r a n k 算法。在权衡 了时窄代价后,g o o g l e 选用了z l i b 压缩格式压缩采集到的数据1 3 】。 21 12 增量式w e b 信息采集 这种信息采集在国外也常叫做i n c r e m e n t a lw e bc r a w l i n g 。传统上,w e b 采集器根据 自己的需要采集足量的信息后停止采集,当一段时间后这些数据过时后,它会重新采集 一遍来代替原有的采集信息,这种采集器称作周期性w e b 采集器( p e r i o d i cw e bc r a w l e o 。 而另外一种方法,对待旧的页面采用增量式更新,也就是说,采集器只需要采集新产生 的或者已经发生变化的页面,而对于没有变化的页面不迸行采集。和周期性信息采集相 比,增量式信息采集能极大地减小数据采集量进而极大地减小采集时空开销,因此它成 为实际采集系统的酋选i jj 。 前面所说的o o o g l e 也是增量式信息采集系统。i b m 设计完成的信息采集器 w e b f o u n t a i n 是一个典型的增量式系统口】。它采用了一个优化模型来控制采集策略。这 个模型没有对w 曲页面变化的统计行为做任何假设,而是采用了一种适应性的方法, 根据先前采集周期早采集到的结果的实际变化率进行调整。 21 13 基于主题的w e b 信息采集 这种信息采集器在国外叫做f o c u s e dc r a w l e r ,是指选择性的搜寻那些与预先定义好 的主题集相关页面的采集器,对它的研究现在比较热门。印度理工大学s t ) 和i b m 研 究中一心的研究人员丌发了一个典型的基于主题的w e b 信息采集器【6 l 。它的主题集是用样 本文件来描述的。为了达到采集时主题制导的目的,设计者设计了两个文本挖掘的部件 柬指导采集。 个是分类器( c l a s s i f i e r ) ,用于评价采集文本是否与主题相关。另个是 精炼器( d i s t i l l e r ) ,用于识别能够在较少的链接内就连接到大量相关页面的超文本节点。 采集系统首先保存一个经典的主题分类( 例如y a h o o 的主题分类) ,并且为每一个主题 分类都保存若干个内容样本,用于详细的刻画这一类主题。用户在使用本采集器搜索与 信息获取硼,c 现状 一 主题相关的页面时,必须在系统的主题分类树中先选择一个主题,用于指导采集”1 。 211 4 基于用户个性化的w e b 信息采集 小唰的片j 户对一个搜索引擎提交同一个检索词,他们期望的返回结果是不同的,然 而搜索引擎却只能返回相同的检索结果,这显然不能完全满足用户的需要。为此,采集 系统的设计者把目光投向了基于用户个性化的w e b 信息采集( c u s t o m i z e dw e b c m w l i n 曲。这是一种轻量级的采集系统,它的目标就是通过用户兴趣制导或与用户交互 等灵活的手段束采集信息。系统根据实际需要可以直接把采集结果提供给用户,也可以 先存储起来等到以后再提供。这种个性化信息一般有两个来源,第一个是用户手工在系 统提供的个性化设置页面里设置,这里主要考虑的问题是如何全面灵活简单的提供这种 设置,使得用j 。的各种喜好都能够表达。第二个是系统自动获取,通过跟踪用户的浏览 刿惯和兴趣等【3 1 0s p h i n x 是一个j a v a 工具包组成的环境交互式信息采集器f 7 】。它是一 个典型的此类采集系统,用户的个性化设黄嵌在工作台里,并针对指定的站点进行个性 化采集。k r a k a t c ac h r o n i c l e 1 ”是一种新闻的个性化采集,这是个性化和主题采集应用结 合的个实例。 21 15 基于a g e n t 的信息采集 随着智能a g e n t 技术的发展,a g e n t 与信息采集相结合的技术也逐渐热门起来,这 种采集技术叫做a g e n tb a s e dc r a w l i n g 。智能k g e r t 系统是指一种处于一定环境下包装 的计算机系统,为了实现设计目的,它能够在该环境下灵活地自主地活动。它除了具有 自治 胜( a g e n t 运行时不直接由人或其它东西控制,它对自己的行为和内部状态有一定的 控制权) 、社会能力( 多个a g e n t 体之问信息交换和协作) 、反应能力( 对环境的感知和影响) 和自发行为( a g e n t 的行为是自主的) ,还具有一般人类所有的知识、信念、意图和承诺 等心智状态,这使得智能a g e n t 系统具有人类的社会智能。它的这些特点使得它在面临 诸如基于主题和用户个性化的采集时,更加方便灵活和适应力强。比如说在基于用户个 性化的采集中,它能像人一样感知用户的兴趣变化,自主地灵活地智能地调整采集策略 1 3 1 。 美围的爱荷华大学进行的a r a c h n i d 研究项目就是这方面的典型代表。它主要通 过模拟一个生态系统的发展和演变来设计w e b 信息采集器i n f o s p i d e r s m 。系统的目标 是从用户的角度在刚上搜索最有效的页面。它的采集原理如下:以一个用户的书签作为 采集起点,通过分析这些起点周围的小区域和链接关系来发现新的要采集的页面。它通 过对采集到的页面是否真的跟采集前的相关性预期相符,来增加和减少能量,当能量很 商时,还可以生出新的子树,而当能量过低时,它就死亡。它的大好处是杜绝了过期 页简。但缺点也较明显。因为它是临时到网上去搜索,而不是在已完成的索引上直接匹 配,所以尽管搜索精确度更好,速度却比较慢。因此,它的定位是作为门户搜索引擎的 仃效补充。 纂于“中间人”的信息获取技术研究 2 116 迁移的信息采集 这种信息采集器也叫r e l o c a t a b l ew e bc r a w l e r 。在采集时,它并不像其他采集器在 本地向w e b 站点服务器发页面请求,而是将自己上载到它所要采集的服务器中,在当 地进行采集,并将采集结果压缩后,回传到本地。这样做的一个明显优点是大量的节省 了w e b 资源,大量的剪裁工作将在被采集对象的服务器上完成。但明显的一个不利是 采集器可能并不被被采集对象所信任,因为这样被采集站点会出于绘访问者权限太大两 易遭到病毒攻击。解决的办法是建立一种信任机制,采集器由权威的信任机构评估并授 权。还有另一种方法,采集器先迁移到离被采集站点很近的地方实施采集,这种方法是 迁移到被采集站点方法和不迁移方法的折衷。s p h i n x 信息采集器就是这种思路的尝试 f 7 1 。 21 17 基于元搜索的信息采集: 元搜索引擎( m e t a s e a r c h ) 的研究一1 直是搜索引擎研究的一个热点。它是这样一种 搜索引擎系统,对用户提交的查询请求通过多个领域或门户搜索引擎搜索,并将结果整 合后以统一的界面提交个用户。一傲冗搜索引擎并不保存w e b 页面的索引文件,但对 丁= i 一些复杂的元搜索引擎,它要保存为它服务的每个搜索引擎的信息特征,以便能够在 用户查询到来后做出好的搜索引荤选择。作为搜索引擎先头部队的信息采集器,在元搜 索引擎中有相当的退化,但仍为w e b 采集的一个方向,叫做基于元搜索的信息采集 ( m e t a c r a w l e r ) 。 2 1 1 8 采集系统实例 2 1 1 8 1 m e r c a t o r 信息采集器 m e r c a t o r 信息采集器是一个由康柏研究中心研制的面向整个w e b 的分布式多线程 信息采集系统【l “。它的基本结构如图2 1 所示,采集步骤是从1 ) 到8 ) 不断循环。步骤1 ) 就是从多个线程共享的u r lf r o n t i e r 中移出绝对路径的u r l 来。绝对路径的u r l 中指 明了这个u r l 采用什么方式下载。具体和协议相关接口的实现在p r o m c o l m o d u l e s 中。 用户可以逗过设嚣文件来告诉系统装载哪些协议接口。 在步骤2 ) 中,系统选择了相应的协议,通过了d n s 解析并从w e b 上下载了页面, 然后将页面放入3 ) r e w i n d l n p u t s t r e a m ( r i s ) 中,r i s 相当于一个缓存,能够多次快速 的读内容。 旦文件被放进r i s ,这个工作线程就启动内容检测模块看足否此页面已经 被采集过,这就是步骤4 ) 。如果采集过,系统就抛弃此页并跳至步骤1 ) 。 如果此页没有采集过,就进入步骤5 ) p r o c e s s i n gm o d u l e s ,在这里对页面进行初步的 分析,比如提取标题、摘要和链接。缺省状况下,页面中的所有链接都被提取出来,并 转换成绝对u r l 。然后进行步骤6 ) ,也就是根据用户要求对u r l 进行过滤f f i l t e r i n g ) 。如 果u r l 通过了过滤器,则检查此u r l 是否已经在u r l 待采集库中( 步骤7 ) 。如果此 信息获取研究现状 一一 u r l 没有,则将它加入到u r lf r o n t i e r 中,等着被选中进入下一轮循环( 步骤8 ) 。 图2 1m e r c a t o r 信息采集器结构 21 18 2 天罗w e b 信息采集系统 天罗信息采集系统【习是在国家“8 6 3 ”计划支持下由曙光公司开发的智能导航系统的 子系统。如图2 2 所示,天罗w e b 信息采集系统从功能上看可分为两个部分:采集器部 分和控制部分,中间的竖立虚线将他们分开。采集器部分主要负责实际采集,它分为三 个部分。1 ) 站点采集。把整个w e b 以站点为单位划分成若干个连通子图是合乎人们的 浏览习惯的,并且也是利于存储的。天罗w e b 信息采集系统的设计就是根据这一点, 对w e b 上的页面以站点为单位进行采集。2 ) 页面采集。尽管系统从耜粒度上看,采集 是以站点为单位的,但是从细粒度上讲,每次只采集一页。这个部分考虑的重点就是对 采集每页相关的协议的处理和实时网上异常的处理。3 ) 存储库,主要存储采集到的数据、 站点结构信息以及相关的有用信息。 控制部分主要负责采集以外的协调、策略以及与应用的接口。它分为五个部分。1 1 采集系统设嚣,主要用于系统管理员对采集系统的控制,包括设置采集起点和采集策略。 2 ) 采集系统控制,这是采集系统最具有全局观念的一个子系统,它主要负责总体控制和 其他各子系统之阳j 的协调和连接,另外它还集中式的控制多个采集器并行。3 ) 存储库, 主要负责存储一致化处理后的各项数据以及在此基础上进行索引等处理的数据。4 1 采集 策略处理,负责处理采集系统在理论上最难的一个部分如何有效的采集和动态的刷 新。5 ) 安全开关,在实际应用系统中,采集器往往直接和w e b 相连,而同刚又与内部 的应用服务器相连,如果不加安全处理,w e b 对于应用服务器是非常危险的。为此,本 采集系统漩训r 低成本高效率的安全开关。当与应用系统交换数掘时,采集系统与w e b 娃于:! 竺尘:竺竺璺苎竺苎查竺兰 一 一一 断丌;当在w e b 上采集数据时,采集系统与应用系统断开。这也是本采集系统的特色 之。圉中的箭头描述了数据流向e 2 i ,2 b b s 信息采集 图2 2 天罗信息采集系统结构 与众多的w e b 信息采集研究相比,b b s 信息采集方面的研究要少得多。但b b s 作 为一个除w e b 外的重要的信息源,研究b b s 信息的采集具有广泛的应用前景。 中科院计算所软件室在“国家信息安全保障持续发展计划”支持下的“基于i n t e r n e t 的海量信息处理系统”预研项目中对b b s 信息的采集进行了有益的探索,并实现了一 个b b s 信息采集系统。该b b s 采集系统结构如图2 3 所示,其中右边虚线框为t e l n e t 客 户端协议处理模块:左上为b b s 采集模块;左下为用户设置模块【i2 1 。t e l n e t 客户端协议 处理模块实现了t e l n e t 客户端协议,该模块从b b s 采集模块获得反馈命令,将相应的命 令发送到b b s 服务器,然后将返回的文本交给b b s 采集模块处理。用户设置模块提供 存储设置、b b s 特征设置( 用来判定状态) 和采集任务设置功能。b b s 采集模块对b b s 服务器返回的文本进行格式化处理,判断当前状态,并根据当前的状念和当前的任务生 成下。步动作( 一串反馈命令) ,同时拷贝文本并存储。这里所说的任务指的是用户指 定的采集任务,比如下载某讨论区等。每个任务由一串动作来完成,如下载某一个讨论 区就涉及以下动作:移动到第一篇文章,进入文章查看状态,回到文章列表,移动到下 一篇文章。 信息_ 扶取研究现状 2 2 被动的信息获取 图2 3 计算所b b s 采集系统结构 被动的信息获取是指基于捕包的信息获取。该类信息获取系统一般安装在关键的路 由节点如i s p 处。系统首先捕获通过该节点的所有网络流,然后进行以太网包的还原, i p 包还原,i p 分片重组,接着进行t c p 流和u d p 数据报的还原,最后有选择的进行应 用层协议的还原。 f b i ( 美国联邦调查局) 的电子邮件监视工具c a r n i v o r e 是该类信息获取系统的典型 代表。c a , 。n i v o r e 在应用层协议还原环节只还原电子邮件有关的协议。 基于“中间人”的信息获取技术研究 31 关于中间人 第3 章基于“中间人”的信息获取 中阳j 人我们每个人都不陌生,在同常生活中,我们每天要接触很多个中问人。超市 足中州人,小商小贩是中间人,各种各样的中介如房屋中介、婚姻介绍所、职业介绍所 都是中问人。 在计算科学领域,中间人概念的引入,来自于密码学中著名的- 辛问人攻击 ( m a n i n l t h e 。m i d d l ea t t a c k ) 。简而言之,中问人攻击( m a ni nt h em i d d l e ) 或者t c p 劫持( t c p f l i j a c k i n g ) 是这样的:攻击者窃听网络包,对包进行一定的修改,再将网络 包插入到网络中“中问人攻击的程序或者公开的源代码很少,t - s i g h t 和h u n t 是其中的 两个。h u n t 是由k r a 型 四幽开发的,h u n t 的源代码可以从 壁n z 鱼p :g n z :z ! 卫女b ! i n 女墨4 篁墅:! 趔:! :g ;f 载。 图3 1 中间人攻击网络结构 l0 基于“中间人”的n i 息秋取 中间人攻击涉及三个主机:攻击主机( a t t a c k e r ) ,牺牲主机( v i c t i m ) 和目标主机 ( t a r g e l ) 。攻击主机是攻击者用来实施攻击的主机,牺牲主机是牺牲者用来与目标主机 建市i - e l t l e t 连接的主机,目标主机是攻击者想要入侵的主机,该主机上运行着t e l n e t d : 护进穰。 图3 1 所示的网络结构巾,攻击主机和牺牲主机在同一个网络中,而曰标主机可以 吞任何地方( 实际 二,牺牲主机或者目标主机任何一个与攻击主机在同一个网络中就可 以) 。 攻击要怨成功,牺牲者必须在使用t e l n e t 、r l o g i n 、f 砸或者其它没有加密的t c p i p 应用程序。智能i 和其它基于信物的双向验证无法防止中间人攻击,因为攻击者大可以 在验汪通过以后再实施攻击。 f 面我们柬看看利用h u n t 进行中间人攻击的步骤l l ”。 l攻阡者:设法得到同标主机和牺牲主机的i p 地址。信任关系可以用s a t a n 、 f i n g e r 、s y s t a t 、r w h o 等应用程序获得,也可以通过以前窃取的账号( 或者普遍 存在的“g u e s t ”类账号) 运行w h o 、p s 或者l a s t 命令获得。 2 攻击者:以r o o t 权限在攻击主机上运行h u n t ,等待h u n t 找到一个会话。 3攻击者:启动a r p r e l a y d a e m o n ,准备r s t d a e m o n 供将来使用,方便起见,设 置选项允许主机名解析。 4 牺牲者:用t e l n e t 登录目标主机。运行p i n e 命令去读写e m a i l 。 5 攻击者:发现有新的连接;列出所有的活动连接,看看是否对新连接感兴趣。 如果感兴趣,攻击者可以窃听也可以截取这个会话。在这里决定截耿。 6 牺牲者:看到奇怪的命令提示符。试着按回车键,搞不清怎么回事。试着用浏 览器,发现浏览器工作正常( 说明不是网络问题) 。不知道该怎么办。 7 攻击者:发现这是一个普通用户权限的会话,决定放弃这个会话( 重新同步 t c p i p 流) 0 8 牺牲者:看到了按键提示符,运行一些命令,返回结果- i _ f 常。有些困惑,决定 用r o o l 账号登录看个究竟。 9 攻击者:启动r s t d a e m o n ,阻止新的连接建立,等待劫持r o o t 会话。 l o 牺牲者:运行s s u 命令获得s e c u r l d 保护下的r o o ts h e l l 。 l i 攻击者:看到r o o t 登录后,完成t c p 劫持。 1 2 牺牲者:看到奇怪的命令提示符。试着按回车键,结果同前( 6 中的结果) 。试 着用浏览器,结果同前( 6 中的结果) 。尝试新建一个t e l n e t 会话,失败。尝试 f l p 连接,失败。 1 3 攻击者:设置后f ,禁止命令记录,重置会话,关闭r s td a e m o n 。 1 4 辆牲者:最终成功建立一个新的会话。老的会话消失了。认为是网络断线或者 w i n d o w s t c p i p 栈崩溃。重新启动机器,一切“正常”。 桀于! 望尘:竺! ! 苎竺竺竺查竺塾 一一 1 5 攻击者:等待所有的r 。t 会话消失( 可能管理员晚上回家了) ,利用后门登录目 标主机。安装更多的后门,清除l o g 文件。 f 耐介绍上晰提到的两个d a e m o n 的作用。 a r p r e l a yd a e m o n a r p r e l a yd e a r f l o n 被用束进行a r p 欺骗。输入源i p 地址、目标i p 地址和伪造 的源m a c 地址,目标主机将被欺骗,认为源i p 地址的m a c 地址为伪造的源 m a c 地址。 r s t d a e m o n r s t d a e m o n 被用来自动的重置h u n t 发现的难在进行握手的连接。可以用源( 目 标) 地址( 掩码) 和源目标端口来设置要重置哪些连接。 3 2 基于“中间人”的信息获取 3 2 1 概念的提出 第。j ,章巾介绍的信息获取的研究从主动性上可以分为两类:主动信息获取和被动信 息获取。b b s 信息采集属于主动采集。w e b 信息采集虽然种类繁多,但也都属于主动信 息获耿。而基于捕包的信息获取显然属于被动信息获取。 现实社会中中间人的角色和密码学中的中间人攻击给我们一个有益的启示:对于一 些部分知晓通信协议的应用程序( 特别是采用了加密的方式进行身份验证的情况) ,我 们可以以某种方式创造一个通信的汇聚点,然后在该汇聚点简单的转发不知道通信协议 的包,而对知晓通信协议的包进行一定的修改或者自己生成一些符合该程序通信协议的 包,以此来影响另一个方向的通信内容,并有选择的获取另一方向的通信内容。我们称 这种信息获取的方式为基于“中间人”的信息获取。 3 22与其它信息获取方式比较 表3 1 基于“中国j 人”的信息获取与其它信息获取方式比较 广获墩方式 主动信息获取被动信息获取基于“中间人”的信息获取 旧则_ it 动一沣主动被动半主动、_ 被动 通信协议要求完全知晓部分知晓部分知晓 l 安装地点要求低高低 f 可扩展性幕好 由 f 耐我们来比较下基于“中间人”的信息获取与别的信息获取方式,见表3 1 。从 主动性j 一看,因为基于“中间入”的信息获取可以主动的生成或者修改部分通信内容, l2 皋于“中问人”的信息扶墩 一 所以说它介于主动信息获取和被动信息获取之间,是一种半主动、半被动的信息获取方 式。从对通信协议的要求来看,主动信息获取因为要实现全部通信协议,所以要求完全 知晓通信i 办议;被动信息获取和基于“中间人”的信息获取只要求部分知晓即可,被动 信息获取可以忽略不知道协议的通信内容,而基于“中间人”的信息获取j 以转发不知 道协议的通信内容。从安装地点的要求来看,被动信息获取要求安装的地点比较苛刻, 只能在关键的路由节点实施,而主动信息获取和基于“中间人”的信息获墩没有要求。 从i = i 扩展性( 纳入其它协议的获取) 来看被动信息获取最好,只需要在应用协议还原 的部分增加相应的模块即可;基于“中间人”的信息获取次之,因为制造“中恻人”的 方式具有定的通用性;而主动信息获取最差,因为需要针对每一种协议丌发获耿程序。 | _ = 此可见,基于“中间人”的信息获取与主动信息获取相比,虽大的优势在于只斋 要部分知晓通信协议:与被动信息获取相比,优势在于,同样是知晓部分通信协议的情 况f ,获碍r 定的主动性。 基于中问人的信息获取系统的按接入位置可分成偏向客户端的( 客户代理) 、偏向服 务器端的( 反向代理) 和基于第三方网关的三种;按接入手段可分成公丌的和隐蔽的两 种。这罩有3 * 2 共6 种组合。表3 - 2 详细的列出了各种类别的特点。 表3 2 基于“中间人”的信息获取系统分类 厂 偏向客户端偏向服务器端基丁第三方踊关1 r 公开需客户端的配合须服务器端的配台舰琏”者管理肴的蚍 对服务器端透明对客户端透明台,对c s 透明j f膀敲注入客户端主机或注入服务器端主机或注入通信必经的第三j 网络,并隐蔽工作网络,并隐蔽工作方网关,并隐敞1 ,。作 统。 r 一章将介绍一个实际的基于“中间人”的信息获取系统一q q 聊天室信息采集系 撼于“中问人”的信息获取技术研究 41 背景 第4 章q q 聊天室信息采集系统 a 即时i 通信软件领域,深圳腾讯公司的q q 异军突起,q q 聊天室的人气也是水涨 船商。图41 是腾讯公司2 0 0 3 年3 月2 8h 发布的数据,q q 的注册用户数已经突破 亿,最高矧刚在线人数达到了3 4 0 万,而q q 聊天室最高同时在线人数为5 3 0 8 9 。这些 数字还在0 i 断的增加中。与此相比,教育网内最受欢迎的b b s 水木清华最高的一t j 线 人数仪为l 1 0 0 0 多。可以税q q 聊天室已经成为一个不容忽视的信息源。 艚讯q 日最瓤2 4 小时在城及注册数据 腾讯用户数:1 0 5 。9 3 0 t l 最高在螋3 4 0 t 6 鞲聊天皇3 4 5 9 4 5 3 0 0 9 倒4 1q q 在线人数统计 正因为如此,国家信息管理部门可能要对q q 聊天室发布的信息进行有效的管理: 某些公司和社会学研究者可能有兴趣对q q 聊天室的聊天信息进行各种统计,以掌握各 种统数据或者单个用户的兴趣。而因为聊天信息的一过性( 即只有在聊天信息发布时 在同聊_ 灭室的其他用户能够看到) ,要进行上述工作,前提就是有一个可以将聊天信 q q 聊天室信息采集系统 4 2 系统功能 h i 此,我们提出系统要实现的功能为:获取q q 公共聊天室的聊天内容并保留与 聊天内容有关的元信息。 43q q 聊天室登录过程 q q 】1 9 | | 天室登录过程涉及到q q 客户端( 图4 2 ) 、q q 聊天室客户端( 图4 3 ) 、q q 主服务器和q q 聊天服务器。具体过程如图4 4 所示。 聊天按髓 图4 2q q 客户端 泉十“中问人”的信息获取技术研究 一一 图4 3q q 聊天室客户端 图4 4q q 聊天室登录过程 其中各步分别介绍如下: 1 q q 客户端生成登录请求包,其中包括q q 号、密码、登录方式等,用随机生成 的密钥加密,将密文和密钥发给q q 主服务器。 2q q 主服务器验证密码,返回登陆成功包和会话密钥。 3 成功登录后,用户点击q q 客户端的聊天按钮时,q q 客户端启动q q 聊天室客 户端。 4 :1 j 用户在q q 聊天室客户端中浏览聊天室树状目录,然后点击聊天室名称想登 聊天室时,q q 聊天室客户端向聊天服务器发送登陆聊天室请求包。 5 q q 聊天服务器向主服务器查询用户的会话密钥。 6 q q _ q - = :n 务器将会话密钥传给q q 聊天服务器。 7 q q 耳卯天服务器验证登陆请求,如果合法返回登录聊天服务器成功包。 i6 q q 聊天室信息采集系统 需要注意的是,o o 客户端和q q 主服务器间的通讯采用u d p 协议,而o o 聊天室 客,、端平u 聊天服务器的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论