




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的电信宽带预处理系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着电信业的迅速发展 宽带接入网业务已成为电信的支柱产业之一 如 何保障宽带接入网业务的正常运转 已成为电信部门的首要任务 电信员工使 用宽带预处理系统可以对宽带接入网业务中的各类障碍进行预处理和对线路进 行集中整治 节约了人力 财力 提高了工作效率 而数据挖掘技术也逐渐成 为电信的研究前沿技术之一 正发挥着越来越大的作用 本文从目前宽带接入网业务背景和需求出发 设计并实现了宽带预处理系 统 该系统已投入实际生产应用 其次 以该系统为平台 应用数据挖掘的知 识与技术 设计和实现了线路不达标原因知识库 第三 对数据挖掘中关联规 则相关知识进行了研究 在详细分析关联规则算法的基础上 讨论了其a p r i o r i 算法存在的若干不足 进而提出了适合于关系数据库的 效率更高的 基于多 维关联规则的算法d g p 并且将d g p 和f u p 算法结合形成了适合于知识库更 新的增量关联规则算法d g p f u p 本文主要工作 1 设计和实现了基于数据仓库 线路不达标原因知识库和w e b 服务的宽 带预处理系统 2 采用数据挖掘中的关联规则挖掘算法对线路不达标数据进行挖掘 3 提出了适合关系数据库的多维关联规则挖掘算法d g p 和增量关联规 则算法d g p f u p 将其用于用户线路不达标原因的分析 关键词 宽带接入网 预处理 数据挖掘 关联规则 a p r i o r i 算法 知识 库 d g p 算法 d g p f u p 算法 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft e l e c o m a d s u sb u s i n e s sh a sb e c o m eo n eo ft h e p i l l a ri n d u s t r i e so ft e l e c o m m u n i c a t i o n s h o wt oe n s u r e t h ea d s l sb u s i n e s si nt h e n o r m a lo p e r a t i o ni sa t o pp r i o r i t yo fs t a f fi nt e l e c o m sd e p a r t m e n t t e l e c o m ss t a f f m a k eu s e ro ft h ea d s lp r e t r e a t m e n ts y s t e mt op r e t r e a tt h et y p e so fb a r r i e r sa n d c o n s t r a t et ol i n er e g u l a t i o n s a v i n gt h eh u m a na n df i n a n c i a lr e s o u r c e s i m p r o v i n gt h e w o r ke f f i c i e n c y t h ed a t am i n i n gt e c h n o l o g yh a sb e c o m eo n eo ft h el e a d i n g e d g e t e c h n o l o g yo f t e l e c o m 谢mp l a y i n gt h em o r ea n dm o r er o l e s t h i sp a p e r sd e s i g na n di m p l e m e n tt h ea d s u sp r e t r e a t m e n ts y s t e mi nt h e b a c k g r o u n da n dn e e d so fc u r r e n ta d s u sb u s i n e s s t h es y s t e mh a sb e e np u ti n t o a p p l i c a t i o n s e c o n d l y m a k i n gt h es y s t e ma sap l a t f o r ma n da p p l y i n gt h ed a t am i n i n g k n o w l e d g ea n dt e c h n o l o g y t h ek n o w l e d g eb a s ew a sd e s i g n e da n di m p l e m e n t e d t h i r d t h ea s s o c i a t i o nr u l e s k n o w l e d g eo fd a t am i n i n gw a sr e s e a r c h e d i nt h eb a s eo f a n a l y s i s i n gt h ea s s o c i a t i o nr u l e s a l g o r i t h mi nd e t a i l a p r i o r ia l g o r i t h m sl a c k sw a s d i s c u s s e d t h e nt h ed g pa l g o r i t h mw h i c hb a s eo nt h em u l t i d i m e n s i o n a la s s o c i a t i o n r u l ew a sp r e s e n t e d i th a sm o r ee f f i c i e n ta n di tw i l lb eu s e di nt h er e l a t i o n a l d a t a b a s e a n dc o m b i n i n gt h ed g pa l g o r i t h ma n df u pa l g o r i t h mt of o r m i n gt h e i n c r e m e n t a lu p d a t i n ga l g o r i t h md g p f u pw h i c hi sm o r es u i t a b l ef o ru p d a t i n gf o r k n o w l e d g eb a s e t h em a i nj o bo ft h ea r t i c l ei sb e l o w 1 t h ea d s l sp r e t r e a t m e n ts y s t e mb a s e do nd a t aw a r e h o u s e w e b s e r v i c ew a s d e s i g n e da n da c h i e v e d 2 t h i s p a p e r sm a d et h eu s eo ft h ea c c o c i a t i o nr u l e sa l g o r i t h m so fd a t a m i n i n g t om i n i n gt h ed a t aw h i c hs h o wt h el i n en o tr e a c ht h es t a n d a r d 3 t h i sp a p e r sp r o p o s e dd g pa l g o r i t h ma n dd g p f u pa l g o r i t h mw h i c hi s s u i t a b l ef o rt h er e l a t i o n a ld a t a b a s ea n dm u l t i d i m e n s i o n a la s s o c i a t i o nr u l e sm i n i n g a n d a p p l y i n gi tf o ra n a l y z i n gt h er e a s o l l sf o ru s e r s l i n ew h i c hn o tr e a c ht h es t a n d a r d k e y w o r d s a d s la c c e s sn e t p r e t r e m e n t d a t a m i n e a s s o c i a t i o nr u l e s a p r i o d n a b s t r a c t a l g o r i t h m k n o w l e d g eb a s e d g pa l g o r i t h m d g p f u pa l g o r i t h m i i i 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 据我所知 除了文中特别加以标注和致谢的地方外 论文中不包含 其他人已经发表或撰写过的研究成果 也不包含为获得直昌太堂或其他教育 机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名c 矧阀能叮蝴期 7 彬肛日 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂有关保留 使用学位论文的规定 有权 保留并向国家有关部门或机构送交论文的复印件和磁盘 允许论文被查阅和借 阅 本人授权直昌盍堂可以将学位论文的全部或部分内容编入有关数据库进行 检索 可以采用影印 缩印或扫描等复制手段保存 汇编本学位论文 同时授 权中国科学技术信息研究所将本学位论文收录到 中国学位论文全文数据库 并通过网络向社会公众提供信息服务 保密的学位论文在解密后适用本授权书 学位做作者签名 手写 同欲磅导师签名 手写 阅组矿 答 tn 期 跏夕7 年 2 月矽日 签字日期 2 一矿7 年 2 月三夕日 第1 章引肓 第1 章引言 我国电信业迅速发展 其用户越来越多 作为电信产业的支柱业务之一 宽带接入网业务经历了前几年的高速发展的高潮后 目前已进入了平缓的发展 阶段 在无线业务不确定的大环境下 固网宽带业务在相当时间内仍然是中国 电信可以依靠的业务发展重点和业务收入增长的主要动力 l 当前 有许多因素正制约着宽带业务的发展 其中包括宽带营销管理薄弱 缺少个性化网络应用内容 宽带终端产品单一 宽带i p 网急需优化 数据 九 七 系统薄弱 2 各种宽带障碍等 其中 宽带障碍是影响宽带业务质量的重要 因素 由于宽带业务涉及面广 涉及部门多 所以宽带障碍种类繁多 包括设 备障碍 用户障碍 线路障碍等 因此 对宽带障碍高效的处理在宽带业务中 扮演着极为重要的角色 直接关系电信各运营商务发展和用户的网络体验质量 大力发展宽带业务障碍预处理技术 具有非常重要的现实意义 1 1 研究背景 宽带障碍处理是一个包含内容很广泛的技术领域 而障碍处理的效率直接 影响着宽带业务的运作 传统的宽带障碍处理的方法就是当用户申告障碍后 1 0 0 0 0 号等部门派出工单 然后社区经理进行上门维修 维修完后再回单报告障 碍原因 其过程较为繁杂 并且有时会涉及测量台等其他部门的参与 可是有 些原因不需要维修人员上门就可以解决 所以传统的宽带障碍处理有着耗时 耗人力 效率低下的缺陷 宽带预处理是一种新的处理宽带障碍的技术 即对大部分的宽带障碍进行 粗略的筛选 3 对不需要上门维修的故障 可以直接处理 或电话指导用户操作 或者远程操作予以解决 对需要上门维修的障碍 要标明障碍原因后再交给其 他部门处理 3 1 这样通过宽带预处理后不仅可以缩短宽带修障时间 而且有力的 配合了其他部门的维修工作1 3 宽带预处理的另外 个方面即排除潜在的有问题的宽带用户 对所有用户 的线路质量分析的时候 若发现线路承载能力很低或者线路不达标 可以对这 些线路进行集中整治 提高线路关联的用户的宽带质量 从而消除了这些用户 第1 章引言 发生障碍的潜在隐患 宽带预处理成功的关键之一取决于预处理人员能否做到 快 字 3 1 对于用 户申告的障碍来说的 这时宽带预处理处于用户申告障碍和维修之间 如果速 度很慢的话 则会使用户反感 第 n 是预处理能否做到 协调 两字 宽带 障碍有着很多原发的因素 涉及到多个点和多个部门 如何把这些点联系起来 也是宽带预处理成功的重要因素 第三则是预处理能否做到 准确 两字 宽 带预处理过程中 必须准确给出障碍原因或者是线路不达标原因 这对于维修 人员和线路整治人员也是很重要的 1 2 课题来源 本课题来自于导师主持的电信项目课题 江西电信宽带预处理系统 为了 使该系统能提供宽带障碍原因和线路不达标原因 准确处理障碍和对线路进行 针对性地整治 需要在海量数据中 使用数据仓库和数据挖掘技术发现知识以 指导电信工作人员对障碍处理和线路整治 本课题的主要研究任务是 研发江 西电信宽带预处理系统 并将数据仓库中的相关知识和数据挖掘中的关联规则 技术用于系统当中 属于理论与应用相结合的研究课题 1 3 研究现状及课题意义 将数据挖掘中的关联规则技术用于宽带预处理方面目前在国内较为少见 特别是基于数据仓库和关联规则分析的宽带预处理系统的研究与实现 关联规 则分析作为数据挖掘中的一个重要的组成部分 其算法主要是将事物数据库的 频繁出现的k 项集找出然后求出相应的关联规则 现在许多的关联算法都是在 传统的关联算法上进行改进 其中包括算法的效率 挖掘的交互性 挖掘语言 的研究和增量挖掘研究等 4 1 而使用关联规则的领域也非常广泛 包括心理分析 4 1 电信网络告警分析 3 4 医院 学生成绩分析 图书馆 3 3 1 气象 8 生物工程 1 3 0 图像 2 6 1 等 涉及的算法主要是a p f i o r i 算法 生成频繁项集产生关联规则 在此基础上改进的算法包括基于划分 p a r t i t i o n 算法 基于h a s h 哈希函数 算法 基于采样的算法 f p g r o w t h 算法 a g r a w a lr s r i k a n tt 的快速关联规则 挖掘算法 2 4 施化吉 丁云磊的多维关联规则算法a b c d t l 3 徐燕伟的增量关 联规则算法u w p 4 3 等 宽带预处理在我国起步较晚 现在全国电信正大力推行宽带预处理这项工 2 第1 章引言 作 但是到现在为止还未形成真正的独立的 自成体系的系统 因此 研发实 用的宽带预处理系统具有重要的意义 宽带预处理系统通过数据采集机可以采 集d s l a m 设备 宽带接入网设备 上面的各项指标数据 其数据存入数据库后将形 成海量数据 每天都有1 0 0 多万线路质量数据存入数据仓库 所以宽带线路质 量的变化都蕴含在数据仓库中 例如下行配置速率的变化可能导致下行实际速 率也发生相应的变化 所以通过关联规则可以得出线路不达标时下行配置速率 与下行实际速率之间的影响关系 如果得出的规则是下行配置速率过高而下行 实际速率较低 则可以将配置速率降低以免掉线 如果是下行配置速率过低而 引起下行实际速率不达标 则应提速 而在以前没获取这种知识时 只有通过 无目的的去排查 甚至直接换线 则浪费了人力 物力和财力 除了讨论以上 影响因子 还可以讨论下行可达速率的变化与线路衰减的变化之间的关系 设 备类型与噪声容限 衰减之间的关系等 这些影响因子之间地关系间接地反映 了用户宽带线路不达标的可能原因 通过将数据挖掘技术应用于宽带预处理系 统后可以挖掘出线路不达标原因 并将其存入知识库 1 0 0 0 0 号工作人员不但可 以通过系统中的重启端口解决用户由于未知障碍不能上网的问题 而且如果用 户线路不达标 可以通过知识库查询线路不达标原因 而客段中心工作人员可 以通过数据挖掘形成的知识库分析线路不达标原因 对线路进行有目的的集中 整治 这些功能在一定程度上提高了宽带接入网业务的工作效率 具有深远的 意义 由于本系统使用的数据库为o r a c l e 数据库 属于多维关系数据库 所以本 研究在传统的a p r o n 算法上 拟选用基于多维关联规则挖掘技术的相关知识对 其进行了改进 可以有效地克服传统a p r i o r i 算法的缺点 在大数据量的情况下 依然能大幅度的提高挖掘效率 使得宽带预处理的知识库能实时或定时更新 从而保证知识库数据是最新的 因此 拟提出的新算法在线路质量分析等研究 中也具有广泛的应用价值 1 4 本人主要工作 1 建立面向宽带预处理系统的线路质量数据仓库 能够定时抽取线路质 量数据对数据挖掘源进行更新 抽取线路质量数据后 进行数据清洗和数据转 换后形成数据挖掘库 以上数据仓库的处理工作可通过0 r a c l e 中的存储过程机 制自动完成 使系统真正具有0 l a p 特征 第1 章引言 2 在阅读大量文献的基础上 深入研究数据挖掘中关联规则的相关技术 原理 算法及其应用 分析目前关联规则的算法种类 特点及存在问题等 3 对关联规则算法中的a p r i o r i 及相关改进算法进行深入研究 根据系 统的特点提出基于多维关联规则的改进算法一d g p 算法 并将d g p 算法和现有 的增量关联规则算法结合形成了d g p f u p 算法用于关联规则知识库的维护与更 新 4 设计并实现基于b s 结构的电信宽带预处理系统 该系统融合了 n e t 0 r a l c e 数据库 w e b 服务 多线程等多项技术 实现了带宽预估 障碍预处理 线路质量分析及预处理等多项功能 1 5 论文组织结构 本文章节安排如下 第一章 引言 介绍了宽带预处理及数据挖掘技术研究现状 课题的研究背景 来源 现 状及研究意义 以及本人所完成的主要工作 第二章 电信宽带预处理系统模型 构建了宽带预处理系统的模型 另外还包括数据来源 获取方式以及数据 库模型的构建 第三章 基于宽带预处理系统的数据挖掘的相关理论 介绍了本文将用到的数据挖掘的相关理论 数据预处理 数据仓库等知识 以及关联规则经典算法和相关改进算法 第四章 d g p 算法设计和实现 在现有的关联规则理论和a p r i o r i 算法基础上 进一步研究多维关联规则的 知识 讨论了h p r i o r i 算法用于关系数据库中的若干不足 并针对其不足之处提 出了改进算法d g p 并进行了测试 第五章 基于d g p 算法的增量关联算法d g p f u p 的设计 将d g p 算法与增量关联规则经典算法f u p 相结合形成d g p f u p 算法 并 将其用于关联规则知识库的构建和实现 第六章 宽带预处理系统的设计与实现 在现有的数据仓库和数据挖掘的理论的基础上 结合o r a l c e n e t w e b 服 4 第1 章引言 务 多线程等多项技术 设计并实现了宽带预处理系统其中的大部分基本功能 第七章 总结与展望 对课题所做的研究工作进行总结 指出了工作的不足和需要继续努力的方 面 5 第2 章电信宽带预处理系统模型 第2 章电信宽带预处理系统模型 2 1 前言 全面建设宽带接入网业务的预处理系统是江西省电信规划中的重大项目 而宽带预处理问题也成为国内电信研究的一个重要问题 该问题有两个难点 一是障碍数据的缺乏 要做好预处理 就必须在故障发生时或发生前准确的判 断发生的故障原因是什么 以此来减少社区经理上门的概率 但是由于电信缺 乏故障和故障原因数据 无法运用数据挖掘对其进行挖掘来形成知识库 所以 此部分障碍预处理停留在远程对宽带用户的d s l a m 设备 宽带接入网设备 端口 重启的操作上 但是效率较高 也可以屏蔽大量的未知的障碍 二是线路不达 标时得出线路不达标原因 找到线路不达标原因后对不达标线路进行整治 以 此来预防潜在的宽带障碍 由于电信障碍部分数据缺乏 本文在数据挖掘方面 只实现了对线路不达标原因的预处理 宽带预处理系统涉及的部门繁多 属于综合性应用平台 系统必须将各个 部门的数据汇集起来 所以要与多个部门的其他系统进行通信 因此 根据信 息技术的发展 发展在异构环境下的跨平台通信具有重要的意义 现在流行的 接口技术包括s o c k e t c o r b a w e b s e r v i c e 等 从简易 方便 功能性强等特点来 说 w e b s e r v i c e 都要强于s o c k e t c o r b a w e b s e r v i c e 是由2 0 0 0 年微软提出一种 全新的分布计算环境 通过使用开放标准w e b s e r v i c e 技术可以将企业的业务能 力方便快捷的向外界提供 在遵循w e b s e r v i c e 标准的情况下 外界可以通过互 联网同样方便的 快捷的调用企业发布的业务能力 形成新的业务应用 4 2 而 宽带预处理系统综合了多个业务 因此自然地想到如何在宽带预处理系统中引 入w e b s e r v i c e 接口 使宽带预处理系统能够与各个异构平台的系统进行通信 获取数据和发送数据 w e b s e r v i c e 适于传送实时的 单个对象 而对于数据集或者大数据量 则需 用到数据库接口 由于电信各部门为了增强相关数据的安全性 数据库对外界 不开放 故不能对其直接进行调用 所以如果宽带预处理系统要使用其它部门 的数据库时 必须先与对方达成协议 然后对方提供一个数据库链接 宽带预 处理系统通过此数据库接口将其数据库导入到本地数据库 以确保数据的一致 6 第2 章电信宽带预处理系统模型 性 而每天的导入是通过数据库中的j o b 机制完成的 本系统涉及1 1 个地市 多个部门 每个地市的电信工作人员都可以使用此 系统对宽带进行预处理 采用省 地市管理模式 系统有一个系统管理员 每个 地市有一个地市的管理员 其中宽带用户和线路数据全部来自省c r m 部门 线 路质量数据来自于省网络支撑部 使用此系统的主要用户为1 0 0 0 0 号工作人员 和电信其它部门的工作人员 2 2 宽带预处理系统总体设计 江西省宽带预处理系统建设的框架为 采用w e b s e r v i c e 接口为宽带预处理 系统与各部门数据的主要通信方式 其次是数据库接口 主要与c r m 部门进行 数据通信 1 0 0 0 0 号工作人员主要对宽带用户进行相关操作 通过输入用户的宽带帐号 可以查询用户的相关信息 其中包括c r m 信息 线路质量信息和r a d i u s 信息 通过宽带用户的线路质量特征值去查找知识库 然后可以得出线路不达标原因 如果1 0 0 0 0 号工作人员可以直接解决宽带用户的相关问题 可以直接对宽带用 户的端口进行重启操作以改善宽带用户上网质量 或者将线路不达标原因反馈 给用户 与用户进行沟通并指导用户进行可行相关操作直到最终解决相关问题 否则 把具体情况和原因给用户解释清楚 然后将将线路不达标原因以自动发 邮件和短信的方式反馈给其他部门 虽然只有线路不达标原因而没有其它的障 碍原因 但通过以上操作也可以提升用户的认可比例 省网络支撑部的口综合网管系统在每个地市设置了线路数据的采集机 各 个地市的采集机每天对所有宽带用户的d s l a m 设备端口进行扫描 一天扫描四 次 扫描的结果存入文本文件中 宽带预处理系统再将其导入本地数据库形成 线路质量数据仓库 通过对数据仓库进行数据挖掘得出线路不达标原因知识库 客端中心通过宽带预处理系统对线路质量进行质量分析 输入参数 宽带 预处理系统将返回线路质量情况报表 如果线路不达标 则宽带预处理系统将 给出线路不达标的预处理结果 则客端中心工作人员可以有目的的对线路集中 整治 降低宽带障碍发生的概率 图2 1 是基于i n t e m e t 技术的宽带预处理系统解决方案原理图 7 第2 章电信宽带预处理系统模型 图2 1 宽带预处理系统解决方案原理图 2 3l p 综合网管系统中的线路质量数据采集子系统 i p 综合网管系统中的线路质量采集子系统主要负责线路质量数据的采集 其采集的数据文件是宽带预处理系统中线路质量分析仓库的主要数据源 i p 综 合网管系统的线路质量采集子系统结构示意图如图2 2 8 第2 章电信宽带预处理系统模型 网络设备 网络设备 1 1 个地市 图2 2i p 综合网管系统结构示意图 9 第2 章电信宽带预处理系统模型 图2 2 中表示了各地市的线路质量文件形成的过程 在每个地市配置采集 机 每天分四个时段定时对各个地市的d s l a m 设备端口进行扫描 获取的每个 端口的信息 信息包括这个端口的d s l a m 设备i p 地址 端口号 上行配置速率 下行配置速率 上行实际速率 下行实际速率 上行可达速率 下行可达速率 上行噪声容限 下行噪声容限 上行衰减 下行衰减 日戳 每个城市的所有 用户的端口信息形成一个文件 然后文件将通过网络传送到宽带预处理系统进 行处理 2 4 宽带预处理系统数据库服务器 宽带预处理系统数据库服务器主要实现宽带c r m 信息 线路质量信息 系 统用户信息的统一管理 数据分析 高级应用 并实现宽带预处理的数据仓库 和知识库的建立与更新 宽带预处理系统数据库服务器分为两个部分 一部分是线路质量数据仓库 和线路质量知识库 另一部分是宽带预处理系统所使用的c r m 数据和使用系统 的用户和部门信息 线路质量数据仓库可以对宽带用户的线路质量进行统计分 析 线路质量知识库可以得出线路不达标原因 用于线路整治和宽带接入网业 务实时预处理 c r m 数据包括宽带用户的用户信息和线路信息 宽带预处理数据库服务器的基本应用功能包括 1 数据的获取与数据仓库的形成及更新 通过数据库的j o b 机制从远程数 据库中将c r m 信息有计划的更新至本地数据库服务器 而每天通过存储过程的 方法将i p 综合网管提供的1 1 个地市的线路质量文件导入至本地数据库中 并与 c r m 数据进行关联形成线路质量数据仓库 2 线路质量知识库的形成 对线路质量数据仓库使用关联规则的方法进行 数据挖掘 第一次挖掘整个库 对知识库进行初始化 由于数据仓库在不断地 更新变化中 所以相应的知识库也要随之变化 为了节省时间 避免继续对整 个库进行数据挖掘 第一次挖掘整个库以后则使用增量关联规则的方法对数据 仓库进行数据挖掘 3 应用 数据库服务器的应用主要面向的电信用户包括1 0 0 0 0 号客服和客 端中心 其模型如图2 3 所示 1 0 第2 章电信宽带预处理系统模型 图2 3 宽带预处理数据库模型 第3 章基于宽带预处理系统的数据挖掘的相关理论 第3 章基于宽带预处理系统的数据挖掘的相关理论 3 1 数据挖掘相关知识 3 1 1 数据挖掘定义 数据挖掘是人们长期对数据库技术进行研究以及开发的结果 1 6 概言之 数据挖掘是指从大量数据中提取或 挖掘 知识 数据挖掘一般被视为知识发 现的过程 整个过程包括数据清理 数据集成 数据选择 数据变换 数据挖 掘 模式评估 知识表示等 5 o 从数据仓库的观点看 数据挖掘可以视作联机分析处理 o l a p 的高级阶 段 5 o 3 1 2 数据预处理 数据挖掘前要对挖掘对象即数据库进行数据预处理 其中包括描述数据特 征 数据清理 数据集成 数据变换 数据归约等相关内容 3 1 2 1 描述数据特征 描述数据特征可以用来识别数据的性质以及总体的分布 然后可以根据数 据的总体特征对数据进行处理使数据转变成易于挖掘的数据 包括数据的中心 趋势和离中趋势特征两个概念 本文中使用到的是中心趋势度量的均值方法 例如下行可达速率 为了获得所有宽带用户的下行可达速率的整体分布 采用 均值的方法 设下行可达速率为d n a t t s p e e d 则 d n a t t s p e e d 1d n a t t s p e e d s 一j 0 1 f l 3 1 2 2 数据清理 数据清理就是将有问题的数据清除 填充缺失的值或者光滑噪声 处理的 方法主要有 忽略元组 人工填写缺失值等 对于大数据量的数据集 如果缺 失属性值的元组数所占百分比不大 可以考虑比较简便的忽略元组方法 本文 所采用的数据清理方法就是忽略元组的方法 如果元组有属性为空 则将其删 1 2 第3 章基r 宽带预处理系统的数据挖掘的相关理论 除 3 1 2 3 数据集成 数据集成是形成数据仓库或数据挖掘必不可少的步骤之一 合并来自多个 数据源的数据 存放在统一的数据表或数据仓库中 这些数据源可能包括本地 数据库的多个表 远程的多个数据库或其他的数据文件 本文所形成的数据仓 库所涉及的表包括c r m 部门的用户信息表和线路信息表 i p 综合网管传送过来 的1 1 个地市的线路质量文件 城市信息表以及测量台信息表等 3 1 2 4 数据变换 数据变换就是将数据转换成适合于挖掘的形式 数据变换可能涉及如下内 容 光滑 聚集 数据泛化 规范化 属性构造 5 1 聚集就是对数据进行汇总和聚集 本文用到的聚集是利用均值的方法对 数据进行聚集 因为从p 综合网管系统传送过来的线路质量数据文件是采集机 每天对d s l a m 设备扫描四次所得 则会有某一个端口被重复扫描到 所以线路 质量数据文件中存在一个宽带帐号对应多条记录的情况 为了便于分析 并且 能够较真实的反映宽带用户的线路质量 故采用均值的聚集方法对线路质量数 据进行聚集 使得一个宽带帐号对于一条记录 但是本文的聚集方法与传统方 法略有不同 本文是动态聚集 就是对哪些记录进行聚集由系统使用人员决定 因为当中包含时间因素 例如南昌客端中心的工作人员要查找9 月份南昌的线 路质量情况 则系统就对9 月份的线路质量数据中的所有连续属性值进行均值 计算 所以数据仓库中存储数据比较偏向于原始的线路质量数据文件 即仓库 中存在一个宽带帐号对应多条记录的情况 均值计算是实时的 计算范围由工 作人员决定的 本文中涉及的数据挖掘方面的均值计算则是静态的 即在挖掘 前就对所有的线路不达标的记录进行均值计算 2 数据泛化就是将较低层次的概念替换成较高层次的概念 例如本文中的 数据预处理步骤中将南昌市的测量台泛化成市区和市郊两个较高层次的概念 3 属性构造就是为了便于数据挖掘 在属性集中构造新的属性 本文中为 了研究下行实际速率和下行配置速率之间的距离与其它影响因子之间的关系 构 造了新的属性d e v i a t i o i ld n 其值由下行配置速率与下行实际速率之间的差值 第3 章基于宽带预处理系统的数据挖掘的相关理论 所得 表示为d e v i a t i o n d n d n c f g r a t e d n c u r r a t e 3 1 2 5 数据规约 数据规约主要用来对海量数据进行压缩来减少数据挖掘时间 提高挖掘效 率 数据规约的策略主要包括数据立方体聚集 属性子集的选择 维度规约 数值规约 离散化和概念分层产生 5 1 本文用离散化的方法将挖掘对象中的连续 型数值对象转换为适用于数据挖掘的离散型数值对象 3 1 3 数据挖掘的主要功能和方法 数据挖掘主要功能分为 关联分析 分类和预测 8 聚类分析 时间序列 孤立点分析和演变分析 由于数据挖掘涉及的知识面广泛 功能很多 所以数据挖掘使用的方法也 有很多种 数据挖掘的主要方法分为以下几类 1 关联规则挖掘方法 数据关联是数据库中存在的一类重要的可以被发现的知识 即两个或多个 变量的值之间存在某种关联 关联可分为简单关联 时序关联 因果关联 8 当 今关联规则挖掘及其改进算法已成为数据挖掘中研究热点 是因为该算法具有 以下优势1 9 j 可理解性 应用邻域的特点 具有高效的算法 2 回归分析方法 回归分析方法主要用于对一个或多个连续值建模并进行预测分析 回归分 析包括线性回归和非线性回归 3 人工神经网络 人工神经网络就是模拟生物学中的神经元 将处理单元像神经元一样互联 起来形成的网络系统 神经网络通常用于分类当中 4 决策树方法 决策树具有树的结构 又具有流程图中i f e l s e 的特点 其中非叶子节点表 示在一个属性上进行测试 每个分支对应 个输出 每个叶子节点代表一个类 所以决策树可以与分类规则相互转换 已经在用的算法包括 i d 3 1 3 9 1 c 4 5 m c a r t 3 s l 5 支持向量机 支持向量机是以统计学习理论为基础发展而来的一种新型机器学习方法 1 4 第3 章基于宽带预处理系统的数据挖掘的相关理论 其良好的泛化能力已在数据挖掘等众多领域里得到了应用i 1 0 1 6 遗传算法 遗传算法以生物学中的达尔文进化论为基本思想 生物发生变异以适应自 然竞争以避免被淘汰 这就是自然选择 其中包含两个要点 遗传和变异 由 于遗传算法对适应度函数没有连续可微的要求 并且其中操作对象是编码个体 可以处理诸如矩阵 树和图等结构形式的对象 所以在解决高维复杂优化问题 上显示出很强的生命力 在实际中得到了较广泛的应用i l 3 1 4 数据仓库 数据仓库是一种大型的 集成多个数据源的 用于分析而不是事务处理的 数据存储 知识工人 指业务分析人员 通过数据仓库可以方便的 快捷的 得到数据的总体视图 然后根据得出的结果对业务做出相关的决策 数据仓库提供了更新驱动的方法将数据集成后装入数据仓库 虽然其中的 数据不一定是最新的 但集成了异构数据源的数据仓库却比源数据规范 具有 分析意义 并支持复杂的多维视图展现 所以 现今数据仓库在电信等各行业 已经非常流行 本文建立的数据仓库主要功能是面向线路质量的数据分析 所 以数据仓库中存储的都是各个地市的线路质量数据的集成的数据 使用线路质 量数据仓库较多的部门是客端中心 通过线路质量数据仓库对线路质量数据进 行分析 获得线路质量的总体或部分印象 以及各个流量的宽带用户分布情况 或线路不达标用户的情况 在此基础上加上知识库以后 使得电信工作人员有 可能准确的 快速的将线路不达标的原因定位 对线路进行有目的的集中整治 3 1 4 1 多维数据模型 数据仓库的模型可以是一维模型 但一般都采用多维的数据模型 多维数 据模型指数据仓库将其数据视为一个立方体 从不同的维度观察数据集可以得 出某一维的数据视图 通常多维数据由事实表和维表组成 事实表就是最基本 的表 可以理解为数据集成后的 张大的宽表 包括数据仓库中所有的主要属 性 维表就是对事实表的某些关键属性的聚集所形成的表 多维数据模型的构 建通常以数据仓库的主题为标准 多维数据模型可以分为星型模式 雪花形模式或事实星座形模式 5 j 最常见 的模型是星型模式 这种模式的数据仓库包括一个事实表和一些附属于事实表 第3 章基丁宽带预处理系统的数据挖掘的相关理论 的维表 可以通过度量对其进行计算 度量相关的聚集函数可以分为分布的 代数的和整体的 多维数据模型可以进行o l a p 操作 其中包括 上卷 下钻 切片和切块 等操作 上卷操作通过对现有的立方体模型按维度进行聚集 聚集后多余的维 将去除 上卷后的维度范围将更大 下钻与上卷的过程相反 它是在现有的立 方体模型的基础上添加维度使现有的立方体中添加更多的细节数据 切片和切 块表示将立方体的一部分切下来分析 意思就是对立方体的维度进行选择后再 聚集 线路质量数据仓库以及数据挖掘方面使用的就是多维数据模型 其中包括 上面所说的模式与操作等 后面第六章将会详细介绍这部分的设计与实现 3 1 4 2e t l 技术简介 e t l e x t r a c tt r a n s f o r ml o a d 即数据抽取 转换 装载的一个过程 是构 建数据仓库的重要环节 6 e t l 的质量评价主要表现为数据的正确性 完整性 一致性 完备性 有效性 实效性和获取性等几个特性 7 数据抽取指从本地 数据库 远程数据库或者其他的文本文件获取数据源 装载就是获取后将其存 入本地数据库的过程 装载后就要对其判断j 如果属性不一致则需要将其转换 或者为了数据分析方便也要对数据进行转换 e t l 对不同的数据源其数据抽取方式也会不同 如本文所设计的线路质量 数据仓库由于加载的数据量大且数据源的不唯一性 会多次进行数据抽取操作 所以线路质量数据仓库的e t l 过程中会用到临时表 并且使用多线程技术加快 e t l 对海量数据的处理 3 2 关联规则理论 3 2 1 基本概念 设i 0 是数据库事务表的所有项的集合 设数据d 是事务表中 事务的集合 其中每个事务t 又是项的集合 其中满足丁 j 每个事务有一个 唯一的标识符用t i d 表示 项集是项的集合 设项集中项的数目为k 则此项集 为k 项集 设a b 是两个项集 a b 可能是事务t 的子集 可以研究这个事 务中a b 两个项集的关联关系 关联规则是形如ajb 的模式 其中各自满足 1 6 第3 章基于宽带预处理系统的数据挖掘的相关理论 的条件如下acj r b c a n b 西 如果ajb 是一个关联规则 则它必须满 足支持度s 和置信度c s 表示s u p p o r t c 表示c o n f i d e n c e 支持度s 是事务表 中统计每个事务后同时包含项集a 和b 的事务数占总事务数的百分比 用 尸 彳u b 表示 对于a b 的置信度c 是以规则前件a 作为考察对象 整个 事务表中包含a 同时又包含b 的事务数占总事务数的百分比 这是条件概率p b i a 支持度和置信度用公式表现如下 s a 召 p au 功 c ajb p 1 3i 么 s 4ub s a c o u n t aub c o u n t a 置信度的公式中可以通过直接计数直接求出 满足支持度的k 项集被称为频繁k 项集 一旦求出频繁k 项集 就可以通 过置信度的公式求出此频繁k 项集涉及的关联规则 3 2 2 a p r i o r i 算法 3 2 2 1 算法思想 a g r a w a l 等人在1 9 9 3 年设计了一个目前最具有影响 最经典的挖掘单维 单层 布尔型的关联规则挖掘算法 它是一个基于频繁项集的两阶段方法 将 挖掘关联规则分解成两个子问题 1 找出所有的频繁项集 即支持度大于给定的最小支持度的项集 2 在所有的频繁项集中产生强关联规则 即置信度大于给定的最小置信 度的规则 3 2 2 2 核心算法 输入 事务数据库d 或者关系数据库d s u p p o r t 支持度 输出 l 频繁项集 m a i np r o c e d u r e 1 l 1 f r e df r e q u e n t 1i t e m s e t s d 产生频繁一项集 2 f o r k 2 l i l o k 3 4 c k a p r i o r i g e n l i i 5 f o re v e r yt r a n s a c t i o nt d 1 7 第3 章基丁 宽带预处理系统的数据挖掘的相关理论 6 7 c f s u b s e t c k t 得到候选子集 8 f o r e v e r y c ec f 9 c c o l n t 1 0 1 1 厶 c qic c o u n t s u p p o r t 1 2 1 3 r e t u r nl a p r i o r i g e n 子过程伪代码如下 p r o c e d u r ea p r i o r i g e n 厶一l 频繁k 一1 项集 1 f o r i 0 i k 1 i 2 f o r j l i k l i 3 i f 1 月 2 1 l j 2 人 七一2 l j 七一2 4 k 1 j 一l 5 6 c f q 7 i f h a s u n f r e q u e n t s u b s e t c 三h 8 d e l e t ec g aa p r i o r i 性质 剪枝 删除非频繁候选 9 e l s ec 量肌掰 c 将c 存为候选k 项集 1 0 1 1 r e t u r nq 判断候选k 项集的子集是否含有非频繁k 1 项集的子过程 h a su n f r e q u e n ts u b s e t 如下 p r o c e d u r eh a s u n f r e q u e n t s u b s e t c t 1 1 求出c 的子集s 2 f o re v e r ys o f c 3 i f s 萑厶一l 4 1r e t u r nt r u e 5 r e t u r nf a l s e 子过程h a su n f r e q u e n t s u b s e t 利用a p r i o r i 性质在候选k 项集扫描数据库之 前就对其进行筛选 可以减少扫描数据库的次数 压缩搜索空间 提高算法效 1 8 第3 章基于宽带预处理系统的数据挖獭的相关理论 率 3 2 2 3 相关改进需求 a p r i o r i 算法经典 简洁易懂 但是也存在着一些缺点 1 对事物库或者数据库扫描次数频繁 如果事务库或数据库的事物和记 录较多 每形成频繁k 项集就要对全库进行扫描 效率低下 2 可能产生大量的候选项集 4 1 随着频繁k 1 集的数量增多 产生的候 选k 项集的数量也急剧增加 并且可能是成几何级数增长的 3 算法使用具有局限性 也只能考虑在单维的事务数据库中使用 而实 际使用中 通常都是多维的量化的属性居多 而a p r i o r i 算法并不适用于多维的 关系数据库中 针对以上a p r i o r i 经典算法的缺点 许多专家学者提出了改进的方法 事务 压缩 划分 基于散列技术 f p g r o w t h 由于电信的数据具有多维的性质 而且有计划地进行更新 所以现有的 a p r i o r i 算法以及相关改进算法在实际运用上很难适合电信的业务需求 需要从 其他方面对a p r i o r i 算法进行改进 1 9 第4 章d g p 算法设计与实现 第4 章d g p 算法设计与实现 4 1 线路质量数据分析 本节针对线路质量数据仓库进行分析 分析了其性质是多维 连续性的 稠密数据的规则挖掘问题 通过分析此类问题的特点 比较其可能的优化方式 为后面提供优化方案作准备 4 1 1 数据来源与特点 本文使用的测试数据 来源于宽带预处理系统中的线路质量数据仓库 该 数据仓库包括了全省所有地市的线路质量数据 本文主要测试对象为江西省南 昌市2 0 0 9 年9 月份的线路不达标数据 4 1 1 1 数据预处理 分析和挖掘任务 首先要从数据预处理开始 包括清理噪声 一致性检查 等 从大量的表中选择出需要的内容并且转换成挖掘算法所要求的格式 数据 预处理直接决定着数据的质量 也在一定程度上关乎挖掘任务的成败 4 3 1 1 数据提取 从线路质量数据仓库中将南昌市2 0 0 9 年9 月的不达标数据提取出来进行关 联分析 首先对其进行均值处理 即相同的用户中的各参数求平均值 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 模流分析考试及答案
- 儿科试题及答案
- 批判现实主义科学课件
- 扭矩扳手检定规程课件
- 2025年高级钳工考试题目及答案
- 旧厂房加固施工组织设计(苏州项目)
- 厦门辅警考试题库
- 情景交际引荐与介绍课件
- 数学考试销售题库及答案
- 恐龙绘画课件
- 4人合股合同协议书范本
- 2023-2025年高考生物试题分类汇编:孟德尔两大遗传定律原卷版
- 2025年机器人标准化行业发展趋势分析报告
- 2025年军考政治时事政治热点试题题库含答案
- 2025年村医笔试重点题库
- 2025-2026学年人音版(简谱)(2024)初中音乐七年级上册教学计划及进度表
- 养生艾灸直播课件
- 2025年徐州市中考语文试题卷(含答案及解析)
- 云南省2025年校长职级制考试题(含答案)
- 幼儿园美术教师个人工作计划范文
- 2025年中国电信福建公司春季招聘80人笔试参考题库附带答案详解
评论
0/150
提交评论