(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf_第1页
(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf_第2页
(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf_第3页
(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf_第4页
(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(通信与信息系统专业论文)即时消息用户行为和网络特征的分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

韭鏖窑道太堂硒堂焦j 金塞生塞埴垩 中文摘要 摘要:即时通信软件的出现极大改变了人们的生活方式。随着上网人数的增长, 即时通信使整个互连网变成了一个虚拟的社会。因此,对即时通信用户行为和网 络特征的研究具有重要意义。 基于对即时通信软件之一q q 的协议分析,通过寻找和探测其主要服务器的 信息,观察到q q 用户登录服务器的过程。总结了三种识别q q 数据包的方法:端 口识别法、k e e p - a l i v e 追踪识别法以及l o g i n 追踪识别方法。经比较发现k e e p - a l i v e 追踪识别法准确率最高。 用k e e p - a l i v e 追踪识别法从网络测量数据筛选出q q 数据包,对q q 在线用户 数、q q 通信流量进行了统计。发现两者的变化趋势相似,但并不完全一致。两者 都符合人的作息和上网习惯,但是q q 用户在进行即时通信的时间较短,处于在 线状态的时间较长。因此q q 服务器在维持连接时的开销占主要的q q 通信流量。 通过对q q 用户登录次数的统计,发现q q 用户登陆服务器的频度反映了网络状况 的好坏。 对q q 用户挑选q q 服务器的方式进行了数学建模和验证,发现q q 服务器被 用户选中的概率分布并不服从伯努利分布。q q 服务器的分配机制和q q 软件的设 计造成了服务器负荷的不均衡。 q q 用户网络连通度分布的统计结果显示q q 用户节点所处的网络兼有两种类 型网络的特点。分析了q q 服务器负荷和网络时延的关系后发现q q 服务器的登陆 时延的变化反映了其负荷能力的变化。 关键词:即时通信;q q ;数据分析;数据包识别;数学建模;服务器负荷;网络 时延 分类号: 拙瘟銮适厶堂亟堂位i 金塞旦s 至r ! a b s t r a c t a b s t r a c t :t h ep o p u l a r i t yo fi n s t a n tm e s s a g i n gh a sc h a n g e dal o tt h ew a y p e o p l el i v e w i t ht h ei n a 铘i n gi n t e r n e tu s e r s ,i n s t a n tm e s s a g i n gg r a d u a l l yc o n n e c t e d t h eu s e r si n t oav i r t u a ls o c i e t y a sar e s u l tt h ea n a l y s i so fu s e rb e h a v i o ra n dn e t c h a r a c t e r i s t i c so f i n s t a n tm e s s a g i n gi ss i g n i f i c a n t t h i sp a p e rf i r s tp r e s e n t st h ea n a l y s i so fq qp r o t o c o la n dt h em o n i t o r i n go ft h e l o g i np r o c e s so fq qu s e l s w ei n t r o d u c et h r e em e t h o d o l o g i e st oi d e n t i f yq qp a c k e t s t h e ya r ep o r ti d e n t i f i c a t i o n ,k e e p a l i v e t r a c ei d e n t i f i c a t i o na n d l o g i n t r a c e i d e n t i f i c a t i o n k e e p - a l i v et r a c ei d e n t i f i c a t i o nc a l li d e n t i f yt h eq qp a c k e t st h em o s t c o r r e c t l yc o m p a r e dt ot h eo t h e rt w om e t h o d o l o 垂鹤 b a s e do nt h eq qp a c k e t ss o r t i n gb yk e e p - a l i v et r a c ei d e n t i f i c a t i o n ,w eg i v et h e s t a t i s t i c so nt h ea m o u n to fq qo n l i n eb s f g f 8a n dt r a f f i c t h e yh a v es i m i l a rv a i l a t i o n t r e n d s ,w h i c hc o n f o r mt ot h ep e o p l e sh a b i t so fl i v ea n dn e tu s i n g h o w e v e r , t h e yd o n t b e h a v et h es a n l ew a ys o m e t i m e i ti sb e c a u s et h el a s t i n gt i m eo fq qu s e l sc h a t t i n gi s m u c hs h o r t e rt h a nt h a to fo n l i n e t h et r a f f i cq qu s e 倦s p e n di nk e e p i n ga l i v ew i t l l s 渊i sm a i np a r to ft o t a lq qi r a f f i c t h es t a t i s t i co i lt h ea m o u n to fq qt l s c r $ l o g i n i n d i c a t e st h a tt h ef r e q u e n c yo f q qu s e r sl o g i nr e f l e c tt h es i t u a t i o no f n e t w o r k t h r o u g ht h em a t h e m a t i c a lm o d e l i n ga n dv e r i f i c a t i o no f t h ew a yq qu s e r ss e l e c t i n g s e r v e r s , w ef i n dt h a tt h ep r o b a b i l i t yd i s t r i b u t i o ni s n tb e r n o u l l i t h em e c h a n i s mo f $ e 目r v e rd i s t r i b u t i o na n dt h ed e s i g no f q qd i e n ts o f t w a r et c l u s ct h ei m b f l a n c eo f s e r v e r s l o a d t h es t a t i s t i co nt h ec o n n e c t i v i t yd e g r e eo fo qu s e rn o d e si n d i c a t e st h a tt h e n e t w o r kh a sc h a r a c t e r i s t i c so ft w ok i n d so fn e t w o r k s t h ea n a l y s i so fr e l a t i o n s h i p b e t w e e ns e r v e rl o a da n dn e t w o r kd e l a ya l s od e m o n s t r a t et h a tt h ed e l a yr e f l e c tt h e v a r i a t i o no f s e r v e rl o a d k e y w o r d s :i n s t a n tm e s s a g i n g ;q q ;d a t aa n a l y s i s ;p a c k e ti d e n t i f i c a t i o n ;m a t h e m a t i c a l m o d e l i n g ;s e r v e rl o a d ;n e t 、0 v o r kd e l a y c 1 a s s n o : 致谢 本论文的工作是在我的导师陈常嘉教授的悉心指导下完成的,陈常嘉教授严 谨的治学念度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 陈老师对我的关心和指导。 胡师舜老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向胡老师表示衷心的谢意。 郭宇春老师、师兄贾靖康、胡毅同学对于我的科研工作和论文都提出了许多 的宝贵意见,在此表示衷心的感谢。 在实验室工作及撰写论文期间,刘斯伟、高贺、胡毅、罗丹等同学对我论文 中的研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 1 绪论 1 1 选题背景和意义 美国在线日前公布的项网民调查发现,即时通信使用习惯已经成为区分网 络青少年和成人的分水岭。在1 3 岁到1 8 岁的少年中,使用即时通信工具的比例 高达4 8 ,这个比例比成年网民高出一倍。四分之三的成年人网民在使用即时通 信的同时保留着发送电子邮件的习惯,与之形成对比的是,四分之三的青少年使 用即时通信的数量已经超过了电子邮件。 即时通信的用户主要是青少年,q q 、m s n 已成为时尚的代名词。作为网上交流 沟通的工具,人们也越来越多地享受其给生活和工作带来的便利。 腾讯公布,截止到2 0 0 6 年9 月底,腾讯即时通信活跃账户数为2 2 亿。腾讯 提供多种在线服务,如q q 空问、q q 秀、q q 宠物、q q 游戏等。赛迪顾问预测, 2 0 0 6 年中国即时通讯市场规模将达到2 5 8 亿元,待3 g 牌照发放,捆绑于移动即 时通信之上的包括彩信、彩铃、图片、博客、手机电视等应用都会得到充分发展。 现在对q q 的研究很多,研究范围主要包括以下几种: l 、q q 用户的秘密:q q 用户密码、聊天记录、m 地址; 2 、q q 对用户的骚扰:q q 广告,t e n c e n te x p l o 懈| ; 3 、q q 漏洞、q q 病毒木马以及反病毒木马: 4 ,q q 扩展:q q 的机器人、表情图片、消息内容和字体、消息群发、界面 和皮肤、代理服务器; 5 、q q 协议和通信:q q 协议、通信方式、加密方式、数据传输方式。 以上的研究通常局限于q q 软件的应用,研究方法也局限于单终端探测。现 在即时通信已经成了人们在网上联络的主要方式之一,其服务节点不断增加,即 时通信流量在网络流量中所占的比例逐渐增长。因此,研究即时通信的网络特征 有很大意义。本论文基于对即时通信软件之一q q 的协议研究,总结对o q 数据包 的识别方法,并将此识别方法用于对网络测量数据的统计,分析即时通信用户的 网络行为和网络特征。 用网络测量的实验方法来观测用户的网络行为,推测网络应用的发展趋势, 并把看似杂乱无章的网络用户行为用一种数学模型抽象出来,期望将这个模型广 泛应用于对类似网络行为的分析。如果通过这样的研究可以对复杂多变的网络特 征找到一种描述的方法,或者是发现其规律,会在将来对数据挖掘、网络的智能 j e 峦窑煎厶堂亟堂垃i 金塞绪逾 化的建设有深远的影响,并且具有很大的商业价值。 1 2 论文工作和结构介绍 本文通过对即时通信协议之一q q 协议的分析,总结对q q 数据包的识别方法, 利用这些识别方法对网络测量数据中的即时消息应用数据进行统计和特征分析, 发现即时通信网络主要应用和规模,分析和总结其用户行为和网络特征。围绕所 作工作,论文结构组织如下: 第二章简述即时通信的发展过程、即时通信的主要网络架构以及未来发展中 的关键技术; 第三章介绍属于主流即时通信协议之一的q q 通信协议的分析,包括对q q 服 务器服务模式的探测过程和分析结论; 第四章介绍即时通信的网络测量平台、网络数据分析方法的背景和形成过程。 第五章中介绍了三种q q 数据包识别方法,给出了对于q q 在线用户数、q q 通信流量、q q 登陆用户数的统计和分析,并对q q 用户挑选q q 服务器的方式进 行了数学建模和验证; 第六章通过对q q 用户节点连通度的统计和q q 服务器登陆时延、登陆用户数、 服务用户数的统计,给出了对即时通信网络特征的分析和结论,包括网络模型、 服务器负荷和网络时延的关系等。 第七章概括总结了本文的研究工作和分析结论。 2 j e 瘃銮通叁堂熊堂垃论塞鲤鲢通信圆鳖袈翅塑差毽拉苤 2 即时通信网络架构和关键技术 2 1 即时通信的发展 全球第一个即时通信软件i c q 在1 9 9 6 年推出之后,受到了广大互联网用户的青 睐。庞大的市场规模引发了激烈的市场竞争,微软公司1 9 9 5 年8 月推出m s n 网络在 线业务后,不断向全球市场进军,在开通的自仃6 天就获得了7 0 多万用户。调查显示, m s nm e s s e n g e r 已成为了1 1 个国家的第一即时通信软件。 现在即时通讯已经成为上网用户使用率最高的软件之一,甚至还被认为将取 代电子邮件成为主流的互联网通信工具。即时通信软件除了能够进行交谈和信息 传递,还集成了文件共享、语音聊天、网络会议等多方面的功能,越来越多的用 户开始使用即时通信所提供的语音、视频、数据等各种服务。 据美国在线调查结果显示,2 7 的即时通信用户都在工作时使用即时通信服 务;在工作时使用即时通信软件的用户中,7 0 的人主要利用即时通信软件与同 事进行联络;6 2 的用户在工作时间使用即时通信系统与家人和朋友联络,3 4 的用户利用它与客户进行沟通,仅1 的办公室即时通信用户使用即时通信来避 免与别人面对面沟通可能带来的尴尬。 r a d i c a t i 预计,全球的即时通信服务账户到2 0 0 7 年将会从现阶段的5 9 亿 增长到1 4 3 9 亿,每天发送的即时通信消息数量由目前的5 8 2 0 亿条增长到1 3 8 0 0 亿条,即时通信市场将由2 0 0 3 年的6 8 0 万美元猛增长到2 5 7 0 万美元。 腾讯q q 已经成为国内用户最多的即时通讯软件。据报道,q q 年利润已达到了 4 5 亿人民币并在香港的成功上市。腾讯公司公布,公司目前拥有2 3 亿q q 注册用 户,交费q q 会员约3 0 0 万,同时在线可达2 0 0 0 万。 用户规模的不断扩大,促使即时通信软件的被逐渐应用于办公期问与异地同 事、合作伙伴的沟通以及数据文件的往来,并由此而催生出全新的市场企业 即时通信与个人即时通信不同,企业即时通信关键是要提高企业r r 管理所需要 的安全性和可管理性。系统而有效的企业即时通信管理,能为企业带来良好绩效。 o a r t n c r 公司明确指出企业即时通信的正确实旌将给公司带来1 5 - 2 5 的收入增长 至2 0 0 6 年底,企业的即时通讯市场规模已达3 0 亿美元,全世界每三个办公室员 工就有一个在用即时通讯软件与他人联系。 易观国际日前进行的调研显示,在办公环境下最常使用的i m 软件中,腾讯q q 以6 8 的比例占据首位,惦n 以2 2 位居第二,腾讯t m 以6 占据第三位。这一调 查结论也是第一次明确划分了目前国内商务i m 的市场格局,腾讯q q 在国内i m 领 3 j e 塞窑适厶堂绣堂位j 佥塞墅吐适篮豳鳖袈控塑羞毽燕苤 域已占据无可争议的霸主地位。 2 2 即时通信的网络架构 即时通信的网络架构一般有两种模式,一种是用户服务器模式,即发信用户 和收信用户必须通过服务器来交流。m s n 、i c qa i m ,y a h o om e s s e n g e r 等主流即 时通信软件使用的是用户服务器的模式,文本消息通过服务器中转发送。 如图2 一l 所示,以一台注册域名的服务器为总调度台。每个即时通信客户端通 过己注册的用户i d 和密码登陆服务器,密码信息一般都通过加密后传送。通过服 务器验证通过后,服务器返回通过验证的信息给客户端,同时附加一些信息,负 责中转连接的服务器i p 、端口号、客户端的好友信息等。客户端利用服务器返回 的验证信息和获得的i p 地址及端口号与中转服务器建立t c p 连接。连接建立成功后 就通过中转服务器与上线的好友互发消息。文本消息传输一般是建立在t c p 协议基 础之上,服务器通过提供固定的服务端口被动地与客户端进行通讯,起到消息中 转的作用。 用户l用户2用户3 图2 - 1 即时通信网络架构的用户服务器模式 f i g u r e2 - 1i n s t a n tm e s s a g en e t w o r ks t r u c t u r eu s e r c l i e n tm o d e 另种是用户用户模式,即服务器给每对用户建立个t c p 通道,用户间的 交流在这个t c p 之上进行而无需通过服务器。如图2 - 2 所示。q q 对能建立直接通信 连接的客户端采用这种用户用户模式,对不能建立直接通信连接的客户端采用用 户服务器的模式。 4 e 巫变通叁茔亟主堂僮论塞:耻盟遵值囝缝鍪控垂! 羞毽基苤 圈2 - 2 即时通信网络架构的用户用户模式 f i g u r e2 2i n s t a n tb e s s a g en e t l o r ks t r u c t u r eu s e r u s e rm o d e 随着互联网的普及和计算存储能力的不断提高,收集隐私信息j e 在变得越来 越容易。网络安全中的隐私保护逐渐受到重视。由于目前的互联网的通用协议不 支持隐藏通信端地址的功能,攻击者可以通过监控用户的流量特征获得i p 地址, 甚至可以利用跟踪软件直接从i p 地址追踪到个人用户。 因此用户服务器模式这种架构有很高的安全风险。而在用户用户模式这种 架构中,由于信息的传输分散在各节点之间进行而无需经过某些集中的节点,用 户的隐私信息被窃听和泄漏的可能性大大降低此外,所有的节点都可以进行中 继转发,提高了匿名通信的灵活性和可靠性,为用户提供了更好的隐私保护 2 3 即时通信未来发展的关键技术 为了保持在未来的发展中融合更多的业务、提供更便捷、更快速,更安全的高 质量服务,即时通信在不断地更新换代中采用了许多先进的技术,例如p 2 p 技术、 防火墙穿透技术、安全技术等。 2 3 1防火墙穿透技术 一些企业禁止员工在工作的时候使用即时通信软件,会设是防火墙过滤即时通 信软件消息包,比如通过禁止q q 软件的8 0 0 0 服务器端口或服务器i p 地址。 现在出现了许多穿透防火墙的技术,例如i p 欺骗、端臼伪装等等。 5 北塞窑通叁堂亟堂位盈塞鲤盟煎值匦垡塞掐垂! 差毽拉鲞 一种利用代理穿透防火墙的技术,比如利用h t t pt u n n e l 软件。该软件的工 作原理是:将发向腾讯服务器的信息包再加上一层信息,让包先伪装成为正常的 h t t p 包出去,到达h t t p t u n n d 的服务器,然后进行拆解,再转发到腾讯的服务器, 腾讯的服务器将信息发回到h t t pt u n n d 的服务器,然后h a pt u n n e l 的服务器将信 息构造成为h 仳p 的包传回到局域网的主机。 一种是利用i c m p 协议来突破防火墙的限制的技术。i c m p 协议( i n t e r n c tc o n t r o l m e s s a g e sp r o t o c 0 1 网际控制报文协议) 是一种多功能的协议,在网络上被广泛应 用,比如i c m p 扫描,拒绝服务攻击,隧道攻击,以及常用的p i n g 程序等。而现 在i c m p 协议还可以被用来转送u o p 或t c p 数据,穿透禁止了u d p 或t c p 协议的防 火墙。 一般的防火墙都是过滤了来自外部主机的回送请求报文,也就是p i n g 数据报 文。但为了让内部主机能够探测外部主机的当前状态,防火墙大都不会过滤回送 应答数据报文,而且i c m p 报文可以在广域网上传送,于是i c m p 报文就可以被利 用来突破网关的种种限制。基本原理和过程是这样的:先将u d p 或t c p 数据报以 i c m p 的形式发送到网关,然后网关再将它解码,构造成u d p 或t c p 数据报发送到 我们的目的服务器;同样,服务器发送来的u d p 或t c p 数据报被网关所接收,网 关将其解码后,以i c m p 的形式发送到本地主机,本机再解码构包后发送到客户端 程序,这样就实现了对网关限制的突破,一次发送或接收共需要两次解包和构包。 2 3 2安全技术 即时通信在给用户带来方便的同时也带来了很多安全隐患。据美国反病毒公 司赛门铁克的研究人员测试,i m 病毒在3 0 秒内能传播到5 0 万台电脑上。到目前 为止,研究人员在i m 程序上已经发现了大约6 0 个安全漏洞。o a r t n e r 近日发布的 研究报告特别指出,尽管i m 服务安全漏洞频频出现,但到目前为止,安全问题仍 然没有引起足够重视,m s nm e s s e n g e r 上的安全漏洞对用户造成巨大威胁。国内 q q 软件的病毒也曾经在网上流行过一段时间,给用户带来了一定的损失 由于即时通信软件通常使用弱加密甚至不加密的数据传输方式,这使得即时 通信信息很容易被截获和窃取。机密信息的泄漏给企业带来的将是巨大的商业安 全威胁、经济损失甚至企业的瘫痪。目前即时通信软件受到的威胁已经得到了各 方面的重视,许多软件供应商也在努力推出适合企业应用的即时通信软件。现在 一些方案被提出来致力于通过改造现有的即时通信系统来传递机密信息。 一种方案1 5 蝇出来在v p n ( 虚拟专用网) 上运行即时通信软件。如果企业构 建了虚拟专用网,则在该网上不同地点的用户使用即时通信软件进行消息传递是 6 e 座窑通厶堂亟堂僮论塞鲤吐邋焦圈终裂抱垂! 羞毽拉垄 有一定安全保障的,受到外部攻击的可能性也就要小一些。v p n 是一种基于不安 全的公共数据网直接连接到单位局域网的安全连接技术,定义为采用加密和认证 技术在公共网络上建立安全专用隧道的网络。v p n 使用的安全技术有隧道技术、 加解密技术和身份认证技术,提供了比传统方法更强的安全性和可靠性。但是进 行实时通信的两台计算机必须处于同一个虚拟专用网上。通常,企业的很多客户 并不可能联入该企业的v p n 。所以此种方案在应用推广上受到一定的限制。 些大公司投入许多资源致力于实现端到端的数据加密。现在已有一些即时 通信软件在公共网络上实现了加密会话的功能,例如i ma g es o f t w a r e 的i m p o l i c y m a n a g e r ,该软件在公共i m 客户端增加了管理层。发送数据前要求公共l m 用户 下载安装一个小的应用程序以实现两端的加密。 近年来还出现了一种叫信息隐藏的文件加密技术,基本思路是:将一个机密 信息隐藏在另一个信息载体中。在基本不改变载体的外部特征及使用价值的情况 下,被隐藏的信息就消失得无影无踪,类似于特洛伊木马。信息隐藏技术使得被 隐藏的信息不引起攻击者的注意和重视,从而能减少被破译的可能性。现在国外 已经有了一些这类的软件出售,采用各种各样的加密算法把要加密的文件隐藏在 m p 3 、w a v 、b m p 、j p e g 等格式的载体中。 q q 目前使用的加密算法来源于一种称为t e a ( t m ye n c r y p t i o na l g o r i t h m ) 加 密算法。这是在1 9 9 4 年由英国剑桥大学的d a v i d w h e e l e r 和r o g e r n e e d h a m 所发 明的一种加密方法,使用1 2 8 b i t 密钥加密6 4 b i t 数据产生6 4 b i t 输出。这种算法的 可靠性是通过加密轮数而不是算法的复杂度来保证的。q q 使用1 6 轮的加密。 2 3 3p 2 p 技术 目前比较流行的i m 软件都采用集中式的客户服务器模式,即需要通过大量 的服务器资源进行信息集中存储、通信协调等。在这种传统的客户服务器架构中, 系统能够容纳的用户数量和提供服务的能力主要受服务器的资源限制为支持互 联网上的大量用户,需要在服务器端使用大量高性能的计算机,铺设大带宽的网 络。为此机群、簇等技术纷纷上阵。集中式服务器之问的同步、协同等处理产生 了大量的开销,限制了系统规模的扩展。 p 2 p 技术【4 j 相当于把每个客户端作为服务器资源,尤其是非集中式p 2 p 网络在 很多方面优于传统的客户h a 务器模式的网络。这种网络可以无限的扩展,并且不 会因为扩展而导致搜索时间的延长和费用的增加。它利用终端用户机器的处理能 力和网络带宽,即每增加一个节点,p 2 p 网络的处理能力和网络带宽就相应增加。 目前很多公司正努力将p 2 p 的技术应用即时通信软件的开发中,已经推出了一 7 j e 立交道厶堂亟堂焦途塞婴盟堑信睡缝絮拉塑差鳇拉苤 些产品。由于其具有成本低廉、平均事务处理能力较高、可动态扩展等优良品性, 并能够有效地提高信息交流和沟通效率,未来p 2 p 技术在即时通信领域有着很好 的应用前景。另外一个很有前景的应用就是基于p 2 p 方式的网络游戏。目前已经 有些公司开始关注这方面的研发工作。 p 2 p 网络系统的开发,除了涉及传统的安全性的领域:身份识别认证、授权、 数据完整性、保密性和不可否认性,还有一系列特殊问题亟待解决,并且在p 2 p 共享网络中普遍存在的知识产权保护问题。 8 韭盛交道厶里硒堂岔论塞qq 煎信垃邃塑! 厦堡盆盘 3q q 通信协议和原理分析 3 1q q 总述 腾讯公司一直致力于即时通信技术的开发与应用,并依托庞大的用户资源, 利用本地化优势,将q q 软件整合成多种通信平台( 互联网、电信网络,移动网络、 手持设备及各种通信终端) ,并已逐步形成包括基础服务、无线增值服务、基础增 值服务、企业i m 服务、广告服务、形象授权服务在内的六大服务体系,在国内即 时通信软件领域的垄断地位难以动摇。图3 一l 中列出了q q 成为国内最常用即时 通信软件的原因统计 图3 一lq q 成为国内最常用即时通信软件原因统计 f i g u r e3 - 1r e a s o ns t a t i s t i c sw h yq qi st h em o s tp o p u l a r 即时通信软件最主要功能是依靠网络提供了一个很好的平台供网络使用者问 进行方便快捷的交流。如果每天都在使用q q 或者m s n 并连续几年以上,q q 、 m s n 就成为用户的人际关系列表,与手机电话簿类似。在紧迫的工作压力和生存 压力的今天,受各种各样的环境的影响,每个人的价值观产生了很多的差异。有 相似价值观的人们聚集到同一个即时通信软件用户的好友列表里。在各种论坛也 会经常看到针对不同研究和讨论主题建立的q q 群,有相同兴趣爱好和追求的人 9 北塞变通叁堂殛堂位趁塞qq 煎信垃遨垂! 厘理盆扳 通过这样一个即时通信平台互相交流、互相学习。图3 - 2 列出了q q 用户使用q q 的主要目的。图3 - 3 列出了q q 用户对除网上聊天外其他服务使用程度。 图3 - 2q q 用户使用q q 的主要目的 f i g u r e3 2m a i ns e r v i c eq qu s e r su s e d 图3 3q q 用户对除网上聊天外其他服务使用程度 h g u r c3 - 3s i t u a t i o no f o t h e r8 i 自啊o e sq qu s u s e db e s i d e sc h a t t i n g 1 0 北塞銮煎厶堂亟堂鱼监奎qq 塑篮垃遮型厘堡盆扳 3 2q 0 通信协议研究 q q 协议是保密的,不像m s n 或者i c q 协议都已经官方公布了。虽然已经有 了基于q q 协议所写成的第三方软件f o i c q ,q qp l u g i n sf o rg a i m ,l u m a q q ,但都是 基于二进制的协议,过于复杂。所以基于q q 网络协议的研究资料甚少。 3 2 1q q 协议概述 为了从网络测量数据中识别出q q 数据包,首先必须了解q q 协议和报文格式 经研究发现,q q 协议分成以下几类: 1 、文字聊天协议族( t c p f ,t e x tc h a t t i n gp r o t o c o lf a m i l y ) : 支持q q 客户端间进行的文字聊天最开始使用的传输层协议只是u d p 协议, 后来也支持t c p 协议。u d p 数据包中的第一个字符o x 0 2 为这个协议族的标识。服 务器默认使用端口号8 0 0 0 ,q q 客户端软件一般从4 0 0 0 号端口开始尝试使用。 2 、数据传输协议族( d t p f ,d a t at r a n s f e rp r o t o c o lf a m i l y ) : o q 客户端除了与t c p f 服务器通信以外,还与其它服务器使用u d p 或t c p 进行 通信,但使用与t c p f 不同的端口号。这个通信过程传递的是q qs h o w 的图片数据、 q q 广告等等。 3 、语音、视频聊天协议: q q 直播、q q 语音聊天采用目前流行的p 2 p 技术。 虽然近些年来q q 软件不断修改协议和实现,不断推出和整合了很多娱乐休闲 的功能,q q 聊天仍然是q q 用户使用最多最频繁的功能。所以,本文所做的研究和 工作主要围绕着q q 的文字聊天协议族。 3 2 20 0 文字聊天协议族 q q 文字聊天协议族,即t c p f ,主要支持文字聊天功能。t c p f 是以请求一 响应模式工作的。即客户端发出一个请求,服务器端会给出一个相应的响应;服 务器向客户端发送信息,客户端也会给服务器相应的响应。请求和响应通过相同 的序列号来进行配对( 请求代码也应该相同) 。而且每种请求的发起方都是相同的。 t c p f 包我们把它分为5 类: l 、登录请求包,由客户端向服务器发出登录请求的数据包 2 、登录应答包,由服务器响应客户端登录请求的数据包。 3 、注销请求包,由客户端向服务器发出注销登录请求的数据包,服务器对这 j e 塞銮道厶堂硬堂位论塞qq 煎信逊这独愿理盆蚯 个包不作应答。 4 、客户端其它包,由客户端向服务器发送的其它包。 5 、服务器其它包,由服务器向客户端发送的其它包。 其基本的报文结构如表3 1 所示。 表3 - 1q q 文字聊天协议族报文格式 t a b l e3 - im e s s a g es t r u c t u r eo f t e x t c h a t t i n g 字节内容及说明 o报文开头,所有报文均以0 x 0 2 开头 1 - 2以网络字节序表示的q q 版本号 3 - 4 以网络字节序表示的命令序号 5 - 6发送序号,接收回应时必须校验这个序号。此序 号有可能是随机生成。 7 一n这里的数据视情况而加密 n + i 报文的结束,o x 0 3 所有t c p f 包的静7 个字节是包头,包头可以识别t c p f 包的内容。包头中 的第0 个字节为t c p f 包标识,都为o x 0 2 。 包头的第1 2 字节为发送者标识。如果为0 x 0 1 0 0 就表明是由服务器发送。客 户端的标识与所使用的q q 版本有关,如版本q q 2 0 0 3 的标识为0 x 0 a i d 。具体的 协议的格式还与这个字段所标识的客户端版本有关。 包头的第3 - 4 字节为命令编号。具体的命令编号含义在附录中有描述。例如, 命令编号为0 x 0 0 0 1 表明这是一个注销请求包,命令编号为0 x 0 0 2 2 且而发送者标 识为o x o l o o 表明这是一个登录应答包。其它的命令代码表明是其它包。 包头的第5 - 6 字节为命令序列号客户端和服务器都有各自的当前发送序列 号。每初始发出一个指令的时候,使用当前的序列号,然后把当前序列号加一, 如果超过0 x f f f f ,就绕回。如果是响应对方发出的命令,则使用这个命令的序列 号。例如,客户端当前的序列号为o x l l l 0 ,它向服务发送一个o x 0 0 1 6 命令,它使 用o x l l l 0 这个序列号,服务器收到以后,返回一个序列号为o x l l l 0 的o x 0 0 1 6 命 令响应。下一次,客户端又发送一个0 x 0 0 2 6 命令,这一次它使用加一了的序列号 0 x l l l l ,服务器也响应0 x 1 1 1 1 序列号的一个0 x 0 0 2 6 命令响应如果这是服务器要 向客户端发送o x 0 0 1 7 命令,它使用它自己的当前序列号,比如说0 x 2 2 2 0 ,客户端 收到以后,也响应一个序列号为0 x 2 2 2 0 的o x 0 0 1 7 命令应答我们可以通过序列 号来判断发出的指令是否已经得到了应答,如果没有,可以重发。服务器对收到 的命令的序列号顺序没有要求。服务器也不会一定按照发出的顺序给予应答。 所有的t c p f 包都以0 x 0 3 作为包尾。在包头和包尾中间的包数据则不同类型 j t 豆奎煎厶堂亟 茔焦监塞qq 堑信垃邀塑厘堡岔垣 的包有所不同。 3 3q q 通信原理研究 3 3 10 0 用户登录过程 在q q 通信中用户必需要登录后才可以进行互相发送信息等,所以q q 的登录 过程很关键。在对q q 通信原理和协议的研究中,对q q 用户登陆过程的探测和揭 示是一个备受关注的热点。 q q 服务器分为三类。 表3 _ 2q q 的服务器分类列表 t a b l e3 - 2q qs e r v e rc a t a l o g u d p 服务器:使用默t c p 服务器:使用h t t p 8 0 和4 4 3会员v i p 登陆服务 认的8 0 0 0 端口端口连接器:使用h t t p4 4 3 安全连接 s z 2 t e n c e n t c o m t c p c o n n t e n c e n t c o m s z 3 t e n c e n t c o l n t c p c o n n 2 t e n c e n t c o f l l s z 4 t e n c e n t c o m t c p c o n n 3 t e n c e n t c o i n s z 5 t e n c e n t c o m t c p c o n n 4 t e n c e n t c o n l s z 6 t e n c e n t c o m s z 7 t e n c e n t c o m 在单机上安装q q 客户端,用网络协议分析软件e t h e r e a l 在单机上抓包。通 过抓取q q 数据包并解析数据包应用层内容,发现q q 登录过程分析如图3 - 4 示。 j 塞奎适太堂硒堂位论塞qq 墟信垃邀垂! 厘理盆赶 图3 - 4q 0 用户登录服务器流程图 f i g u r e3 4q qu s e rl o g i np r o c e s s q q 这9 个域名所对应的i p 地址并不是唯一的。 观察到q q 客户端登陆服务的详细过程如下( 这里认为每个服务器对应一个唯 一的i p 地址) : 1 、首次登陆( d n s 缓存中没有q q 服务器的记录) ,会对腾讯9 个域名发d n s 查询; 2 、从九个d n s 查询回复的对应的几十个弹地址中的9 个中随机选择一个m 地址为登陆服务器; 3 、对此服务器发联系信息包; 4 、服务器发送回应消息包; 5 、用户发登陆请求包; 6 、通常这个服务器会另外指定一个别的i p 地址为新的登录服务器,即回应 重定向服务器的消息包; 1 4 韭塞奎埂占堂亟堂位论奎qq 煎信怂i 5 【墨! 厦理盆蚯 7 、重复步骤3 、4 、5 、6 ; 8 、若仍然登陆不上新的服务器,继续被指定到另一个新的服务器,再重复步 骤3 、4 、5 、6 ; 9 、服务器发送回应包,此时登陆请求成功; 1 0 、若本次登陆成功,q q 客户端会将此登陆服务器的i p 地址纪录在一个配置 文件中,用户再次登陆直接登录到此i p 指向的服务器,不会重发d n s 请求; 由此可见,服务器的分配机制基本由腾讯方提供,猜测服务器的挑选是基于 其的性能,而性能由时延来表征。即当服务器服务的q q 用户数少,负担轻时, 时延就小,就被挑选去服务新上线的q q 用户:当服务器服务的q q 用户数多了, 负担重了,时延就相应变大,其服务的用户数增长变慢。服务器时延和负载的关 系将在第六章有详细分析。 在以后的分析中可以看到,现在的q q 服务器已经增加到上百个。q q 登录申请 是用u d p 或t c p 发出的。没有完整的数据库,登录和搜索指令都被转发给了1 0 0 个服务器,这些服务器是专门用来登录和搜索的。如果搜索到了,就直接给用户 发响应信息,而搜索不到的,就当场放弃。 3 3 2 通过代理登陆q q q q 用户还有另外一种特殊的登录方式,发生于在某些情况下,比如网络不通畅, 无法与q q 服务器连通,用户可以通过代理服务器来登录q q 。 l 、代理服务器的定义 代理服务器是互联网链路级网关所提供的一种重要的安全功能,它的工作主 要在开放系统互联模型的对话层。它是介于浏览器和w e b 服务器之问的一台服务 器,就是个人网络和因特网服务商之问的中问代理机构,负责转发合法的网络信 息,并对转发进行控制和登记。 举个例子,通过代理服务器上网浏览时,浏览器不是直接到w e b 服务器去取 回网页而是向代理服务器发出请求,由代理服务器来取回浏览器所需要的信息并 传送回给的浏览器。大部分代理服务器都有很大的存储空间,不断将新取得数据 储存到本机的存储器进行缓冲,如果浏览器所请求的数据在它本机的存储器上已 经存在而且是最新的,那么它就不重新从w e b 服务器取数据,而直接将存储器上 的数据传送给用户的浏览器,这样就能显著提高浏览速度和效率( 速度会随着代理 服务器地理位置的不同以及网络传输情况而改变) 2 、代理服务器的工作机制 代理服务器的工作机制很象生活中常常提及的代理商,假设客户的机器为a 1 5 j e 塞窑煎厶堂亟堂僮i 金室qq 煎信控i 5 :塑厦理筮扳 机,客户想获得的数据由服务器b 提供,代理服务器为c ,那么具体的连接过程如 下: i ) a 机需要b 机的数据,a 直接与c 机建立连接; 2 ) c 机接收到a 机的数据请求后,与b 机建立连接; 3 ) c 下载a 机所请求的b 机上的数据到本地; 4 ) c 将此数据发送至a 机,完成代理任务。 3 、代理服务器的作用 代理服务器处在客户机和服务器之闻,对于远程服务器而言,代理服务器是 客户机,它向服务器提出各种服务申请;对于客户机而言,代理服务器则是服务 器,它接受客户机提出的申请并提供相应的服务。也就是说,客户机访问因特网 时所发出的请求不再直接发送到远程服务器,而是被送到了代理服务器上,代理 服务器再向远程的服务器提出相应的申请,接收远程服务器提供的数据并保存在 自己的硬盘上,然后用这些数据对客户机提供相应的服务。 4 、用代理登录q q 1 ) 寻找速度快的代理服务器地址:由于腾讯公司的服务器在深圳( 属于电信) , 所以网通、联通线路的用户在登录q q 、下载群共享的文件、下载网络硬盘的文件、 和电信用户q q 视频连接困难、无法正常登录q q 、突破端口封锁限制以及访问 q q c o m 站点时,速度会非常慢。要想提高访问电信站点的速度,必须找一个电信( 或 者铁通) 的代理服务器,而且这个代理服务器的运行速度要快,才能解决网通、联 通访问电信速度反应慢的问题。并且查找到的代理服务器是必须选择可以匿名访 问的,即在登录代理服务器时,不需要用户名和密码的。 2 ) 测试代理服务器的工作是否正常:在0 ( 2 0 0 5 正式版登录窗口的左下角高 级设置网络设置类型,选择h t t p 代理,选择好代理服务器后,请先点击 “测试”按钮测试下代理服务器是否可以正常使用。 当系统返回“代理服务器工作正常”的提示后,则证明该代理服务器可以使 用。可以根据系统测试的时问,来判断代理服务器的速度快慢。 5 、使用代理服务器的安全问题 使用专业网络服务商的代理服务器时,路由和流程均有可能被记录在案,如 果网管有心的话,甚至可以完全监控q 。通信的全过程,探视到包括上网时间、路 由、提交的各种申请、反馈的所有信息等等,因此有可能导致秘密的泄漏虽然 对于网上其他用户和目的服务器来说是安全的,可是对于代理服务器本身来说却 被一览无余,代理服务器的管理员或者通过其他手段拥有代理服务器管理权限的 人能够轻而易举的拥有用户的秘密。 1 6 北童銮通_ 厶堂亟宝位论窑qq 亟接班理狸厘理盆蚯 3 3 3q q 聊天通信过程 q q 的聊天通讯信息是加密的,每次登陆时q q 客户端会向服务器获取一个会 话密钥,以后的通讯数据都会通过此密钥来进行加密。 q q 客户端问进行聊天有两种方式,一种是q q 客户端之问直接建立t c p 或 u d p 连接进行聊天交互,如图3 5 所示。用户从q q 服务器上获取好友列表,以建 立点对点的联系。用户在建立直接的连接之前和服务器有很多报文交互,在这些 报文中通知自身的连接方式、外部口地址、端口、第一个监听端口、真实m 、第 二个而监听端口、发送者q q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论