




已阅读5页,还剩66页未读, 继续免费阅读
(通信与信息系统专业论文)移动互联网的用户行为分析系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
t、til 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 獐丝压匕 日期: 趔q :至:f 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 獐继立日期:丝壶:主 导师签名:二墨葛二1 1 日期:奂掣i ;= _ 一 2 0 0 8 年,我国开始3 g 的商用,据统计,移动互联网用户每天的 增速正在超过传统互联网用户;传统电信运营商与用户之间单向的业 务收费的运营模式转变成了以用户为中心的多元盈利模式,运营商的 竞争对手来自互联网,来自终端厂商,运营商要在新的通信行业的发 展下保持领导地位,不能仅仅作为通道,必须应用自己已有的资源向 用户提供新增长点的内容与业务,那么如何和用户提供高附加值的业 务? 其中一个热点的方向就在于对移动用户的行为进行分析,得到用 户的行为特征与分类,在保护用户隐私的前提下为之提供精准的目标 服务,从而在提供带宽的同时,为用户提供高附加值的目标服务,实 现运营商与用户的双赢。 在此背景之下本论文设计一个基于移动互联网的用户行为分析 系统,系统位于中国移动或者中国联通的核心网分组域中的s g s n 与 g g s n 之间g n 口或者g g s n 与分组i p 网之间的g i 口,处于封闭式 或者半开放式网络当中,在安全性上较为有保证;系统选取用户具有 代表性的w e b 浏览行为作为研究对象,对用户数据进行采集,加以 过滤,运用d p i ( 深度包检测) 的思想对数据内容进行分析,采用数据 挖掘中的支持向量机( s v m ) 算法对内容进行分类,得到用户行为 特征与分类;此外,用户行为分析系统可以与运营商的业务生成模块 直接相连,具体来说,与目标广告分发子系统相连,从而实现可能的 精准目标广告。 论文首先分析了3 g 时代电信运营商面对的全新的业务挑战的背 景,提出了基于移动互联网的用户行为分析系统的系统框图。系统由 数据采集模块,数据d p i 模块,内容分类模块,用户特征数据库等模 块组成;对系统中的数据d p i 模块,内容分类模块,用户特征数据库 进行了详细设计。最后对本系统进行实验环境搭建,给出实验结果与 分析。最后总结了论文的特点以及不足之处,并提出了对前景的展望。 关键词:用户行为分析移动互联网深度包检测s v m u d e s i g no f u s e rb e h a v i o ra n a l y s i ss y s t e m b a s e d0 nm o b i l ei n t e r n e t a b s t r a c t 3 gw a sa p p r o v e di nc h i n ai n2 0 0 8 a c c o r d i n gt os t a t i s t i c s ,t h ed a i l y g r o w t hr a t eo fm o b i l ei n t e r n e tu s e r si sm o r et h a nt h et r a d i t i o n a li n t e r n e t u s e r s t h eo n e - w a yp a y m e n tm o d eo ft h et r a d i t i o n a lt e l e c o mo p e r a t o r s a n du s e r sh a st r a n s f c i r m e di n t oan e wm o d e l w h i c hi sau s e r - c e n t r i c m u l t i p r o f i t m o d e l t h eo p e r a t o r s c o m p e t i t o r sw i l lc o m ef r o mt h e i n t e r n e t ,f r o mt h et e r m i n a lm a n u f a c t u r e r s i nt h i ss i t u a t i o n ,i ft h eo p e r a t o r w a n tt ob et h el e a d e ro fn e wt e l e c o m m u n i c a t i o n si n d u s t r y , i tn o t o n l yb ea c h a n n e l ,b u ta l s ou t i l i z et h e i ro w nr e s o u r c e st o p r o v i d et ou s e r sf o rn e w m o d eo fc o n t e n ta n ds e r v i c e s h o wc a nt h e o p e r a t o r sp r o v i d eh i g h v a l u e a d d e db u s i n e s s ? o n eo ft h eh o ts p o t si st h em o b i l eu s e rb e h a v i o r a n a l y s i s ,w h i c hr e c o r d st h eu s e r sb e h a v i o rt op r o v i d et h ep r e c i s et a r g e t s e r v i c e ,p r o v i d et h eh i g hv a l u e a d d e ds e r v i c e st ou s e r s ,b yw h i c ht h e o p e r a t o r sa n du s e r sc a na c h i e v ew i n - w i ns i t u a t i o n a g a i n s tt h i sb a c k g r o u n d ,t h i sp a p e rt od e s i g na u s e rb e h a v i o r a n a l y s i ss y s t e m ,w h i c hi sl o c a t e db e t w e e nt h es g s na n dt h eg g s n ,o r b e t w e e ng g s ni p p a c k e t n e t w o r k si ng r p sp a c k e tc o r en e t w o r k s t r u c t u r e ,i nas e m i o p e nn e t w o r kw h i c h ,t h es e c u r i t yi sm o r ea s s u r e d ; s y s t e mr e s e a r c h e sr e p r e s e n t a t i v ew e bb r o w s i n gb e h a v i o r , c o l l e c t su s e r d a t at ob ef i l t e r e d ,u s i n gd a t am i n i n ga l g o r i t h m so fs v mf o rc l a s s i f i c a t i o n ; i na d d i t i o n ,t h eu s e rb e h a v i o ra n a l y s i ss y s t e md i r e c t l yc o n n e c t sw i t h b u s i n e s s g e n e r a t i n g t h e m o d u l e ,m o r es p e c i f i c a l l y , w i t ht a r g e t e d a d v e r t i s i n gd i s t r i b u t i o ns u b - s y s t e m ,t h u sa c h i e v i n ga c c u r a t et a r g e t e d a d v e r t i s i n g f i r s tt h ep a p e ra n a l y z e st h en e wc h a l l e n g e so ft e l e c o mo p e r a t o r si n m t h e3 ge r a ,u n d e rt h eb a c k g r o u n do fw h i c ht h es y s t e mo fm o b i l ei n t e r n e t u s e rb e h a v i o ra n a l y s i si sp r o p o s e d t h es y s t e mi sc o n s i s t e do fd a t a a c q u i s i t i o nm o d u l e ,d a t ad p im o d u l e ,c o n t e n tc l a s s i f i c a t i o nm o d u l ea n d t h eu s e rc h a r a c t e r i s t i cd a t a b a s em o d u l e t h el a s tt h r e em o d u l e so ft h e s y s t e ma r ed e s i g n e di nd e t a i l a n dt h e nt h ee x p e r i m e n t a le n v i r o n m e n ti s b u i l tt og i v ee x p e r i m e n t a lr e s u l t sa n da n a l y s i s f i n a l l yt h ec h a r a c t e r i s t i c s o ft h ep a p e ra sw e l la ss h o r t c o m i n g sa r es u m m a r i z e d ,f u t u r ep r o s p e c ti s a l s op r o p o s e d k e y w o r d s :u s e rb e h a v i o ra n a l y s i s s y s t e m m o b i l ei n t e r n e t d e e pp a c k e ti n s p e c t i o n s v m i v 北京邮电人学硕,i :学位论文 移动互联网的用户行 目录 第一章绪论 1 1 电信网络业务发展趋势 1 2 研究意义 1 3 朋户行为研究现状 1 4 用户行为研究的关键问题 1 5 论文研究内容。6 1 6 论文组织安排。8 第二章相关理论知识9 2 1 移动互联网9 2 2 移动w i d g e t 1 1 2 3 深度包检测1 1 2 4 数据挖掘与分类算法1 2 2 4 1 数据挖掘1 2 2 4 2w e b 挖掘概念1 3 2 4 3s v m 算法1 5 第三章用户行为分析系统总体设计2 1 3 1 系统设计原则2 1 3 2 系统逻辑结构设计2 1 3 2 1 系统框图21 3 2 2 系统内部接口定义。2 3 3 3 系统外部接口设计2 6 3 3 1 网络设备部署接口2 6 3 3 2 外部广告子系统接口设计2 7 第四章用户行为分析系统详细设计3 1 4 1 数据采集模块3 1 4 2 数据d p i 模块3 1 4 2 1g t p 包解析3l 4 2 1w a p 包解析。3 3 4 2 3h t t p 包解析3 6 4 3 内容分类模块4 0 4 3 1 网页分类过程4 0 4 3 2 改进的网页特征提取算法4 1 4 3 3 数据预处理4 3 4 3 4 多类别s 分类4 4 4 3 5 反馈学习阶段4 5 4 4 用户特征数据库4 6 4 4 1 用户特征数据库设计原则4 6 4 4 2 数据库模型设计与e - r 设计4 7 4 4 2 数据库详细设计4 9 第五章用户行为分析系统模块的部分实现5 3 北京邮i 乜人学硕上学位论文 移动互联网的用户行为分析系统的没计j 实现 5 1 开发环境5 3 5 2 数据结构5 5 5 3 实验环境5 7 5 4 实验结果5 7 结束语5 9 参考文献6 0 2 用户。由原来的单一价值链条,转变为以消费者为核心的价值网,从而使终端制 造商和内容提供商可以直接面对客户,运营商面临的竞争加剧。运营商的竞争对 手来自互联网,来自终端厂商,运营商要在新的通信行业的发展下保持领导地位, 不能仅仅作为通道,必须应用自己已有的资源向用户提供新增长点的内容与业 务,那么如何和用户提供高附加值的业务? 其中一个热点的方向就在于对移动用 户行为进行分析,得到用户的行为特征,在保护用户隐私的前提下为之提供精准 的目标服务,从而在提供带宽的同时,为用户提供高附加值的目标服务,实现运 营商与用户的双赢。 互联网经过了w e b l 0 ,w e b 2 0 ,直到现在向w e b 3 0 进军。在w e b 3 0 阶段【2 i ,一个新兴的概念是指传统的互联网与移动通信实现了完美的结合,使得 用户不论在哪里都可以接入互联网。在这一阶段,一个重大的变革是通道和应用 实现了分离,从而导致在应用层面,业务和平台从封闭走向了开放,移动网络和 互联网之间的隔阂没有了,世界变平了。从竞争的角度来看,这是革命性的变化, 在某种意义上来说,电信运营商与互联网企业突然变成了针尖对麦芒的竞争对手 除非运营商甘心只做通道。通俗一点讲,对于移动互联网,谁都有机会,谁 都有可能,运营商面临着巨大的挑战。 终端手机随着3 g 的发展开始商务化,我们以前能够在p c 上做的办公活动, 现在基本上都能在手机上实现,终端手机开始多功能化,手机不仅仅是通信工具, 它已经成为我们生活中必不可少的伴侣,比如我们可以进行支付,还可以进行远 3 北京邮电大学硕士学位论文移动互联网的用户行为分析系统的设计与实现 程的医疗,这些都是我们手机发生的变化。我们原来依赖于我们通讯网络来主要 进行语音通信,现在随着移动互联网的i p 化,我们丌始使用手机进行大量的数 据通信。 总之,移动网络与互联网之间的障碍没有了,传统电信运营商与用户之间单 向的业务收费的运营模式转变成了以用户为中心的多元盈利模式,运营商的竞争 对手来自互联网,来自终端厂商,运营商要在新的通信行业的发展下保持领导地 位,不能仅仅作为通道,运营商必须做出转型。 1 2 研究意义 那么在新环境下,运营商如何才能出奇制胜? 要做到这一点,运营商必须基 于原有的优势,实现原有优势的迁移,并且顺应移动互联网发展的大势,进一步 强化自身的优势。电信运营商的优势是什么? 巨大的用户规模优势和资源优势, 运营商首先要解决的就是怎样将这一优势迁移到移动互联网的运营当中。电信运 营商可以推出基于移动互联网的各种新产品,其中一个非常具有创新意义的方案 则是建立用户行为分析系统,在此基础上实现目标广告推送服务。对传统的互联 网来说,用户享受免费的内容,广告盈利是其最好的收入来源,那么电信运营商 采用该盈利模式是一种创新,慢慢转向基础业务免费,增值业务收费的模式。运 营商通过一些应用来强化手机号码作为认证的手段,如飞信、手机邮箱等基于手 机号码的粘性新业务,将手机号码打造成未来的“网络身份证。 本论文研究的基于移动互联网的用户行为分析系统正是迎合了电信网络的 这一发展趋势,它同时也是一个创新的移动互联网的产品,遵循的指导原则就是 一个:基于并发挥手机和互联网的整合优势。采用深度包检测技术与数据挖掘的 s v m 算法来实现用户分类,精细化运营,使得目标广告与b 2 b 成为可能,有利 于加速运营商的业务创新,提高用户体验,实现双赢。 1 3 用户行为研究现状 用户行为分析系统意义与目的对于不同的运营商不同的服务商是不一样的。 据研究表明,百分之七十以上的带宽被免费的p 2 p 流量占据,有的用户行为分 析系统则针对于这种情况注重于检测区别用户行为,对违规的流量加以控制。这 一类应用主要使用协议区分功能,以限制泛滥的p 2 p 流量或者限制别的协议流 量,相对来说,对用户流量的内容进行精细分析的应用具有更大的挑战与意义, 也就是另一种用户行为分析系统,注重于挖掘用户的潜在需求;本论文研究的用 4 北京邮电大学硕士学位论文移动互联网的用户行为分析系统的设计与实现 户行为分析系统则属于这一种。 不同的用户行为分析系统选取的用户行为的对象和采用的技术手段也有很 大的不同,总体来说,用户行为分析系统都是针对用户的网上行为。有的系统分 析w e br 记,有的系统分析w e b 内容,有的系统分析p 2 p 流量内容等等,采 取不同的数据挖掘方法对用户行为分析进行分类。 在移动互联网越来越普及的情况下,很多通信设备商都推出用户行为分析产 品引导运营商的业务方向。爱立信推出了带有用户行为分析功能的w e b 网关, 可以实现移动用户的用户行为分析。据爱立信统计,在2 0 0 8 年1 0 月国外已经部 署了6 6 套商用系统,涵盖用户超过2 亿。华为也推出了上网行为管理路由器, s i g ( s e r v i c ei n s p e c t i o ng a t e w a y ) ) u 务监控网关,重点识别不同协议并进行相关控 制,以遏制p 2 p 流量为主,为运营商提供保值、增值业务,确保运营商的利益 不受侵害。中国移动和中国联通目前已经有相关的应用,其中,联通新出的 a d s l 就含有了目标推送等业务,这是主要针对固定宽带网络的产品。在3 g 发 放牌照过去一年,各大运营商将主要精力用于发展3 g 用户,随着新一代移动通 信系统的成熟普及,基于用户行为分析基础上的精准的目标服务将给运营商带来 新一轮的效益增长。 总的来说,用户行为分析系统是一个综合了各种技术的研究领域。除了计算 机数学领域,还包括了个体的特征的分析,群体的特征分析,以及内容与群体, 个体之间的对应关系,此外还有心理学领域,包括了对用户的情感和态度,以及 人格个性研究。 1 4 用户行为研究的关键问题 与传统的互联网的用户行为分析的产品相比,本论文所研究的基于移动互联 网的这类的用户行为系统具有以下关键的特征与技术问题1 3 l : 第一,用户的标志更加明确。由于移动用户大多数一人一卡,口地址多变, 但是m s i s d n 号,即手机号码通常在一定时间内不会有变更,对于用户的推送 服务目标性强。此外,还可以从v l r 或者h l r 中得到某些用户较为固定的注册 信息,例如年龄,籍贯,性别等信息。 第二,与传统互联网相比,移动互联网具有低密度信息量的特点。由于传 统互联网的p c 终端具有屏幕大,流量收费较低,用户上网时间较长,消费内容 也具多样性,因此,在一定时间内可以从用户得到高密度的信息量。而移动互联 网的手机终端由于体积,屏幕等局限,浏览内容受到局限,手机上网收费较高, 移动用户在不方便实现p c 上网的情况下才会使用手机上网,因此移动上网目前 5 北京邮电大学硕士学位论文移动互联网的用户行为分析系统的设计与实现 作为传统冲浪的补充行为,具有不受地点限制的无缝接入的优点,同时也有用户 上网时问零散,消费内容有限的缺点,信息量密度较低。 第三,收集用户数据与筛选工作。用户在网上可以进行w e b 浏览,玩游戏, 下载音乐,p 2 p 下载等行为,面对五花八门的用户数据,如何进行有效的筛选与 鉴别,通过协议分析过滤相关数据,对数据进行预处理,得到最有信息量的数据, 并进行相关的分析是一个技术上的难点。 第四,如何解决计算的高维和复杂性。如何表示信息? 以一个网页或者一个 文本为例,可以使用向量空间模型( v s m ) 来一个高维向量,一个文档是由千 百句话组成,一句话又由若干个词组组成,其中各个维度的值就是能够表征文本 特征的词组。在本系统中采用s v m 支持向量机分类算法,也采用向量空间模 型来表示网页或者文本,使用高斯核函数计算向量内积,从而能够有效地解决高 维计算问题。 第五,如何量化并且优化用户体验。用户在手机上进行体验的模式与在大屏 幕的p c 上进行体验是有很大不同的,如何改善用户的体验并且进行量化跟踪需 要进一步的研究。 第六,保护用户隐私【4 l ,对于用户来说,行为习惯被跟踪,是一件令人心里 不舒服的事情,如果隐私遭到泄露,很有可能被不法分子利用,可能造成用户人 身上安全与精神上的困扰。对于中国的移动用户来说,隐私没有得到很好的保证 已经是一个屡见不鲜及待解决的问题,据统计,百分之九十的用户平均收到3 个骚扰电话及若干条骚扰短信。因此,在实际的系统中,考虑运用技术与法律手 段来保护用户隐私是重中之重的考虑。 第七,如何对不同终端类型不同操作系统提供统一的服务。随着智能手机的 流行与普及,终端呈现出五花八门的景象,有的用户使用诺基亚的s y m b i a n 系统, 有的用户使用微软的w i n d o w sm o b i l e 系统,有的用户使用g o o g l e 的a n d r o i d 系 统,此外,还有p a l m 的系统,各个终端的操作系统不一,浏览器类型不一, 那么对用户的终端提供统一的服务,就需要建立起一套与各个操作系统相兼容的 推送接口嗍。 1 5 论文研究内容 本论文旨在基于移动互联网设计实现一个用户行为分析系统。该系统的目的 在于通过深度包检测技术与数据挖掘算法分析移动用户的w e b 浏览行为得到用 户的特征分类,使得精准的目标广告成为可能,从而为移动运营商生成高附加值 的业务,提高用户的业务体验与运营商盈利能力。 6 北京邮电大学硕士学位论文 移动互联网的用户行为分析系统的设计与实现 本论文设计的系统选取中国移动与中国联通的g r p s 分组网域为例作为研究 背景,而不是中国电信的分组网结构。在我国,g s m 运营商在2 g 网络过渡到 3 g 的时候,原有的接入网结构由基站b s 变成n o d e b 和r n c 的结构,采取了不 同的物理层接入技术,而在电路域与分组域的核心网结构没有太大变化,在分组 域仍然采用g t p 协议在g g s n 与s g s n 之问以及s g s n 与s g s n 之问传递信令 与数据。系统置于s g s n 与g g s n 之间的g n 口,处于封闭网络当中,或者位于 g g s n 与i p 分组网的g i 口,处于半开放网络当中,系统的安全性和稳健性得到 了保证。 论文首先设计用户行为分析系统的系统框图,将独立的功能组成模块,主要 包括数据采集模块,数据d p i 模块,内容分类模块,用户特征数据库等。论文 选取w e b 浏览作为主要的用户行为对象加以分析是由于w e b 浏览行为始终是 主流的网上行为,可以体现用户的行为方向,可以反映用户的兴趣意向,从技术 的角度上看主要是对w e b 页面内容的进行深层次挖掘,建立在对w a p 协议或 者h t r p 协议的解析的基础之上。 数据采集模块的主要工作在于采用高速的硬件处理器采集用户的数据,并加 以过滤得到承载h t r p 或者w a p 的g t p 数据。数据d p i 模块则主要进行g t p 数据包的深层次解析,w a p 数据包的深层次解析以及h 1 曙数据包的解析。在 这里d p i 的概念是深度包检测,意思是对数据的应用层内容进行解析,只有分 析到具体的内容才可以得到精准的用户行为分类。从数据d p i 模块可以得到用 户的标识,i m s i 和m s i s d n ,用户访问的网页u r l 和访问页面的关键字和描述 等内容,数据d p i 模块可以完成对用户数据的第一轮分析。对于没有关键字与 描述的网页的分类,则需要内容分析模块采用数据挖掘算法进行进一步的挖掘分 类,本论文中应用多类s v m 算法进行对w e b 页面内容的分类,s v m 算法是一 种机器学习方法,采用结构风险最小化原则,由于其出色的学习性能,成为国际 机器学习领域的研究热点,这也是本论文采用它进行内容分类的原因。内容分类 模块将分类结果一方面输出到用户特征数据库,另一方面将高准确度的分类结果 建立起分类模型数据库,例如u r l 与类别的对应关系,便于以后的分类。用户 特征数据库既是用户行为分析系统的最终结果,同时提供了与外部广告分发子系 统的输出接口,通过该接口,外部广告分发子系统可以得到目标用户群的标识并 对之发放精准的目标广告。 论文同时对广告分发子系统做了简单的设计,这是由于将用户行为分析系统 与广告分发子系统结合起来,是本论文针对移动运营商提出的创新的业务解决方 案。广告分发子系统包括它的基本功能包括用户鉴权,广告下发同步,获取用户 广告需求,获取广告内容。广告分发系统与用户互动接口功能。包括w a p 方式, 7 北京邮电大学硕士学位论文移动互联网的用户行为分析系统的设计j 实现 w e b 方式,m m s 彩信方式,重点描述移动w i d g e t 方式。 1 6 论文组织安排 本论文在第一章节着重介绍论文的研究背景及意义。第二章重点介绍理论背 景,理论背景包括移动互联网所采用的技术,深度包检测,数据挖掘概念,s v m 分类算法。第三章节将对用户行为分析系统进行总体设计,对该系统的组成框图 以及内部接口进行详述,对外围接口,特别是与广告子系统的接口进行详述。第 四章节则对各个模块的流程进行设计,主要包括数据d p i 模块,内容分类模块 以及用户特征数据库的设计实现。第五章节,给出基于用户w e b 浏览行为的系 统d e m o 进行观察演示。第六章节,为结束语,则对论文进行总结与展望。 8 北京邮电人学硕士学位论文 移动互联嘲的用户行为分析系统的设计与实现 第二章相关理论知识 在这一章节将对论文中涉及到的技术背景与知识作介绍。系统研究的是基于 以3 g 为承载的移动互联网的用户行为分析系统,因此首先将介绍移动互联网的 概念,运营商在移动互联网上形成新的业务模式,借助于用户行为分析系统来实 现目标广告,移动w i d g e t 当前正成为运营商计划中的定制服务的工具,利用它 在终端上为用户呈现精准目标广告以及后续的b 2 b 业务是可行的。 对于本论文中设计的用户行为分析系统,有几个关键技术与概念在本章节加 以阐述,分别是移动互联网,移动w i d g e t ,深度包检测,数据挖掘,w e b 挖掘, 分类算法s v m 支持向量机。 2 1 移动互联网 随着网络技术和无线通信设备的迅速发展,人们迫切希望能随时随地从 i n t e r n e t 上获取信息。针对这种情况,i n t e m e t 工程任务组( m t f ) 于1 9 9 6 年开 始制定支持移动i n t e r n e t 的技术标准。目前,移动i p v 6 的正式标准 ( m i p v 6 r f c 3 7 7 5 ) 和相关标准:移动i p v 6 的快速切换( f m i p v 6 r f c 4 0 6 8 ) 、 层次移动l p v 6 的移动性管理( h m i p v 6 r f c 4 1 4 0 ) 、网络移动( n e m o r f c 3 9 6 3 ) 已经出台,相关的各项开发工作都在进行中。 互联网和电信技术的快速发展,移动和互联网的融合是大势所趋,本文中“移 动互联网”特指的是以3 g 为承载的移动互联网,接入方式采用3 g 无线通信, 继而连接到口分组网。3 g 的商用也是顺应了这一发展大势应运而生。移动互联 网继承了移动随时随地和互联网分享、开放、互动的优势,是整合二者优势的“升 级版本 ,移动互联网就是下一代互联网啊e b 3 o 。互联网的发展之前经历了 萌芽期、w e b l 0 时代、w e b 2 0 时代。 在w e b l 0 时代,最突出的问题是内容奇缺,因此,门户网站,g o o g l e 、百 度等搜索引擎公司大行其时,随着互联网的进一步发展,人们渐渐发现,与以往 任何媒体不同的是,互联网是最大的舞台,一个人人可以参与的舞台,至此, w e b 2 0 悄然而至,社区、博客、c 2 c 电子商务大行其道,他们共同的特点是: 搭建一个平台,方便用户的参与用户参与创建内容、提供信息、进行交易、 进行传播。从互联网的发展历程来看,互联网是在不断“进化,而在进化的过 程中,是围绕一个“中心一一个“特征一展开的一个“中心 就是。以用户 9 北京邮电大学硕十学位论文 移动互联网的用户行为分析系统的设计与实现 的需求”为中心,一个“特征”就是互联网特征:开放、平等、分享、互动、创 新。互联网将不再局限于办公室或者家罩的p c ,而将延伸至p c 和任何可移动 终端,手机、p d a 、m p 3 、手持游戏终端等等真正实现人类沟通和数字化生 产的大解放。 手机,p d a 等终端最初实现上网,体现的仅仅是手机随时随地的优势,而 没有体现互联网分享、开放的优势。可以把第一阶段叫做基于w a p 的、封闭的 移动互联网。这一阶段的典型代表是手机新浪网、3 g 门户和移动梦网。严格意 义来说,w a p 阶段只能算是移动互联网的雏形,而第二阶段手机和互联网的融 合才是真正的移动互联网,先进的物理层技术使得无线终端得以实现高速率的数 据传输,使得前文所说的w e b 3 0 成为现实在这罩,实现了移动通信和互联 网的“胜利会师, 下一代移动通信的核心网是基于i p 分组交换的,而且移动通信技术和互联 网技术的发展相互融合。2 0 0 9 年1 月,工信部开始颁发3 g 牌照,中国移动获得 了t d s c d m a 牌照,中国联通获得了w c d m a 牌照,中国电信获得了 c d m a 2 0 0 0 牌照,此举意味着第三代移动通信系统正式全面商用,3 g 高速的数 据传输速度使得移动互联网在国内开始大规模的发展普及。此外,在国外, w i m a x 作为3 g 标准之一,也相继在韩国,台湾等地部署发展。4 g 移动通信技 术紧锣密鼓地发展,第四代移动通信系统的核心网将实现全口化,它所采用的 o f d m ,m i m o ,软件无线电与智能天线技术将使得数据传输速率理论值高达千 兆级别。到了4 g 普及的时候,民众可以携带自己的手机终端,随时随地享受高 速率的网络接入。而运营商在这一技术发展趋势以及行业发展趋势之下,业务发 展模式也发生着翻天覆地的变化。 移动互联网并不是再建一张网络,而是在现有的移动网和互联网的基础上, 为用户提供移动互联网业务的网络和服务体系。 中国移动则试图从产业组织方式上布局,其广泛参与到终端、操作系统、业 务环境、服务平台的全环节中去。由于3 g 服务推出较晚,中国联通的移动互联 网战略还没有浮出水面,不过其也开始考虑打造运营商自己的移动互联网生态环 境。 2 0 0 9 年,中国移动联合多家终端企业推出内置o m s 手机操作系统的 o p h o n e ,通过统一操作系统和联合开发j i l w i d g e t ,控制移动互联网的业务开发 环境,从而在将用户的移动互联网体验打上中国移动的烙印上迈出第一步。下一 小章节就移动w i d g e t 作简要的介绍。 1 0 展 移动w i d g e t 结合了移动终端和移动互联网应用的特点,为手机用户带来良 好的呈现方式和互联网体验。其具有界面个性化、小巧轻便、开发门槛低、潜在 开发者众多、跨平台运行等特点,有助于降低业务或应用开发和部署的成本,并 极大丰富移动互联网应用的种类和数量。 中国移动从2 0 0 7 年下半年开始研究浏览器技术与w i d g e t 技术,提出并研发 了移动互联网应用解决方案b a e ( b r o w s e rb a s e d a p p l i c a t i o ne n g i n e ) ,作为终端 上支持m o b i l ew i d g e t 应用的运行环境( 也称作w i d g e te n g i n e ) 。j i l 成立之后, 中国移动将前期基于b a e 进行的研究成果,包括产品需求、m o b i l ew i d g e t 格式 定义、w i d g e ta p i 初稿等成果贡献到j i l ,与合作运营商一同开展j i lm o b i l e w i d g e t 系统的创新工作,包括: 1 ) 参考国际标准,制定全球统一的跨终端操作系统的m o b i l ew i d g e t 系列规 范( j i l w i d g e te n g i n e ,w i d g e ta p i 、w i d g e t 格式、w i d g e t 安全、运营商网络资 源访问接口等) ; 2 ) 根据规范基于1 2 个终端软件平台开发j i l w i d g e te n g i n e 软件参考实现。 3 ) 开发j i lm o b i l ew i d g e t 应用的开发工具s d k ; 4 ) 成立了全球开发者社区,对全球的开发者提供技术支持; 5 ) 设计并实施w i d g e t 开发者与终端推广计划;同时,设计并实施j i l w i d g e t e n g i n e 兼容性计划,保证j i l 规范在推广过程中j i l w i d g e te n g i n e 软件的兼容性。 2 3 深度包检测 前两个小节简单陈述了本论文的背景知识,移动互联网与移动w i d g e t 。下 面将对实现本文中的用户行为分析系统的两个关键技术:深度包检测与数据挖掘 北京邮电大学硕士学位论文移动互联嘲的用户行为分析系统的设计与实现 分类算法作一番描述。系统采用深度包检测技术,也就是d p i 技术【8 1 ,来实现对 用户数据包的内容进行提取分析。 d p i 全称为“d e e pp a c k e ti n s p e c t i o n ”,称为“深度包检测”。所谓“深度”是和普 通的报文分析层次相比较而言的,“普通报文检测”仅分析i p 包的4 层以下的内 容,包括源地址、目的地址、源端口、目的端口以及协议类型,而d p i 除了对 前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。 d p i 的技术关键是高效的识别出网络上的各种应用。普通报文检测是通过 端口号来识别应用类型的。如检测到端口号为8 0 或者8 0 8 0 时,则认为该应用代 表着h t t p 应用。而当前网络上的一些非法应用会采用隐藏或假冒端口号的方式 躲避检测和监管,造成仿冒合法报文的数据流侵蚀着网络。此时采用l 2 l 4 层 的传统检测方法已无能为力了。d p i 技术就是通过对应用流中的数据报文内容 进行探测,从而确定数据报文的真j 下应用。因为非法应用可以隐藏端口号,但目 前较难以隐藏应用层的协议特征。 d p i 在国内典型的应用就是p 2 p 流量识别与控制,v o i p 业务检测与控制。 事实上基于应用层协议分析的d p i ,适用于几乎全部的互联网应用层业务识别、 流量分析和业务控制。但是在本篇论文中d p i 技术将进一步用于识别协议的具 体内容,结合s v m 分类算法,得到内容分类结果从而得到用户的行为特征。 2 4 数据挖掘与分类算法 在本小节中重点介绍实现用户行为分析系统另外一个最关键的技术手段,即 数据挖掘中的分类算法s v m 。 2 4 1 数据挖掘 数据挖掘是一门综合交叉学科,它综合了机器学习,统计分析和数据库技术, 它把人们对数据的应用从低层次和的简单查询,提升到从数据中挖掘知识,提供 决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术, 人工智能技术,数理统计,可视化技术,并行计算等方面的学者和工程技术人员, 由于数据挖掘的交叉学科的特性,使得不同的学者对其有着不同的定义,其 中最具影响的是f a y y a d 对知识发现的定义。f a y y a d 等对数据挖掘的定义是:从数 据集中识别出有效的,新颖的,潜在有用的,并且最终可理解的模式的非平凡过 程。 另种比较公认的定义是w j f r a w l e y ,g p i a t e s k y s h a p i r o 等人提出的,他们 指出数据挖掘是从大量的数据中提取人们感兴趣的知识,这些知识蕴涵了数据中 1 2 2 4 2w e b 挖掘概念 w e b 挖掘1 6 i 是一项综合技术,涉及w e b ,数据挖掘,计算机语言学,信息 学等多个领域。不同研究者从自身的领域出发,对w e b 挖掘的含义有着不同的 理解,项目开发也各有侧重点。 w e b 挖掘从数据挖掘发展而来,因此其定义与传统的数据挖掘的定义相类 似。但是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。 首先,w e b 挖掘的对象是大量,异质,分布的w e b 文档。 其次,w e b 在逻辑上是一个由文档节点和超链接构成的图,因此w e b 挖 掘所得到的模式可以是关于w e b 内容的,也可以是关于w e b 结构的。 此外,由于w e b 文档本身是半结构或无结构中,缺乏机器可以理解的语义, 数据挖掘的对象局限于数据库的结构化数据,因此有些数据挖掘的技术并不适用 于w e b 挖掘,使用数据挖掘的方法需要建立在对w e b 文档进行预处理的基础 之上。 根据挖掘的对象不同,网络信息挖掘可以分为w e b 内容挖掘,w e b 结构 挖掘以及w e b 使用挖掘。w e b 内容挖掘是指对w e b 页面内容进行挖掘,从 w e b 文档内容信息中抽取知识。内容挖掘又分为文本挖掘( 包括t e x t ,h t m l 等格式) 和多媒体挖掘,包括i m a g e , a u d i o ,v i d e o 等媒体类型。w e b 内容挖 掘是指对w e b 页面内容进行挖掘,从w e b 文档的内容信息中抽取知识。w e b 内容挖掘的重点是页面分类和聚类。w e b 页面的分类是根据页面的不同特征, 将其划归于事先建立起来的不同的类。w e b 页面的聚类是指在没有给定主题类 别的情况下,将w e b 页面集合若干个簇,并且同一簇内容相似性尽可能大,而 簇间相似度尽可能小。w e b 内容挖掘的主要方向在文本挖掘。 北京邮电大学硕士学位论文移动互联网的用户行为分析系统的设计j 实现 w e b 结构挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新能源光伏发电项目有限合伙人合作协议
- 直播电商绿幕虚拟场景搭建与市场拓展合作合同
- 矿产使用权转让与开发合同
- 医药行业供应链金融合规性审查合同
- 外籍技术专家项目引进与实施合同
- 商业航天测控员劳务输出与风险防范合同
- 婚前个人健康保险保单权益转移协议
- 急救培训总结
- 护理三甲迎评工作汇报
- 国开(河北)《外国文学基础#》形考任务1-4答案
- 船舶维修合同协议书
- 《比亚迪品牌历史课件》课件
- 2025年4月自考00160审计学答案含评分参考
- 购买木地板合同协议
- 严重开放性肢体创伤早期救治专家共识解读
- 速卖通开店考试最权威答案
- 输液导管相关静脉血栓形成中国专家共识 课件
- 国企岗位笔试题目及答案
- 建设项目全过程工程咨询-终结性考试-国开(SC)-参考资料
- 小红书种草营销师(初级)认证考试真题试题库(含答案)
- DZ∕T 0173-2022 大地电磁测深法技术规程(正式版)
评论
0/150
提交评论