基于SVM的电信客户欺诈检测技术应用研究.pdf_第1页
基于SVM的电信客户欺诈检测技术应用研究.pdf_第2页
基于SVM的电信客户欺诈检测技术应用研究.pdf_第3页
基于SVM的电信客户欺诈检测技术应用研究.pdf_第4页
基于SVM的电信客户欺诈检测技术应用研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校代号 学号 密级 1 0 5 3 2 G 0 9 2 4 6 2 7 8 普通 湖南大学工程硕士学位论文 基于S V M 的电信客户欺诈检测 技术应用研究 堂僮由遗厶娃名 迭褒魍 昱 巫姓名壁驱整 囱查强熬援巫篡涠硒窥员 墙差望僮 筮i 生堂院 童些名整 筮鲑工猩圆终笾搔友囱 诠宴握童旦期 2 Q 生 Q 目 目 诠窒筌避日期 2 Q 生 至旦 Q 目 筌避委员金圭虚 奎正良数援 S V M b a s e dT e l e c o mC u s t o m e rF r a u d D e t e c t i o nT e c h n o l o g yR e s e a r c h b y F U Y i f a n B E H u n a nI n s t i t u t eo fS c i e n c ea n dT e c h n o l o g y 2 0 0 8 At h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e R e q u i r e m e n t sf o rt h ed e g r e eo f M a s t e ro fE n g i n e e r i n g S o f t w a r eE n g i n e e r i n g i nt h e G r a d u a t eS c h o o l H u n a n U n i v e r s i t y S u p e r v i s o r P r o f e s s o rX I A N G Z h i q i a n g R e s e a r c h e rD E N G J i x i a n g O c t o b e r 2 0 1 1 炉 柙 J川i 牲劳 湖南大学 学位论文原创性声明 本人郑重声明 所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果 除了文中特别加以标注引用的内容外 本论文不包含任何其他个人或 集体已经发表或撰写的成果作品 对本文的研究做出重要贡献的个人和集体 均 已在文中以明确方式标明 本人完全意识到本声明的法律后果由本人承担 作者签名 1 1 煳 忙 1日期 矽f 年f 尹玛 S 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论 迂的规定 同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅 本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索 可以采用影印 缩印或扫描等复制手段保存和汇编本学位论文 本学位论文属于 作者签名 导师签 1 保密口 在年解密后适用本授权书 2 不保密囤 请在以上相应方框内打 僻中如 f 色 阂目 日期 刃77 年 F II J l 幽 年 I v 只t 3 n 协只 3 F t 毫蠹 萍 鲻靛 珏篓 l 器 黪 j 蘩 l 赫 飘 颡 鬻 疃C I n L 怖稿 托 震蕊藉越黉 羹崔母鲤W 毫 技 小o f 篓 妊 甜毒 n 迫 一 仁 卜 砷醚k 傅心 f d 洚 摘要 近年来 随着电信市场的快速发展 电信行业中的客户欺诈行为与日俱增 为了预防和检测欺诈行为的发生 解决电信运营商的客户关系管理问题 电信客 户欺诈检测系统利用模式识别 数据挖掘等工具对电信客户的消费过程进行具体 解析 在对客户进行分类 结合电信客户行为的基础上 完成电信客户欺诈检测 模型的建模 进行欺诈行为的检测 从而减少电信客户欺诈带来的危害 减少电 信运营风险 本论文阐述了电信客户欺诈行为所带来的危害以及进行电信客户欺诈系统研 发的重要性和紧迫性 介绍了研发电信客户欺诈系统所涉及到的诸如机器学习 统计学习理论等相关理论知识 提出了用单向量支持向量机进行初次分类 再利 用支持向量机进行二次分类 基于单向量支持向量机 用于电信客户欺诈检测模 型的分类方法 分析了电信客户欺诈检测的建模以及验证过程 论文研究表明 基于S V M 的电信客户欺诈检测技术应用研究 具备广阔的市场 前景 检测模型能智能规避潜在的风险行为 对客户的欺诈行为进行识别 继而 对电信客户欺诈行为中规模小 分散性大的行为进行检测 关键词 电信客户欺诈 支持向量机 单向量支持向量机 用户模型 l 盥煳幽般 黔 一 一 一r 一广奸州 两旁 连二 一 二一J 一z 1 1 l l 焉 灞 r r j 鼍蜘硎 卜 j i LI j I 戮 一j 蛐新 i 辫溺 I 蚝越鼍r W 避翘 0 i 0i 勰 豁 i 科争霸 一 o 2 毫 由j 触I 确 1 lt 1 i l l j i I 疆 霉 I 7 i0 妒t 粥 圈 萄 懿 黔 矗 黔 道 勰童 l 曼 l I 1 一i 吼 册l锄 j id黼i嘲 l i翻咎El i 斯 I 捌 i 氅 一 一 斌期 矗 I l j 门 雹 j I 蕊卿斟群 i 瞩誊 船l 蕊 溺 一 1 n f 翌 蛐 i 譬 j l l 震 猷 铲一 一趔蛹鳓 l 电 r 篮I H 器 偶i H 鼍 磊量 黼爹 j0I 茎 l 量 T I j i 霪雾霞 瓯 o 灞 I 蚕 融 8 j j i i 瀚碧 j 8遴 i 翔 黪8 j 4 I期臻 毒嶂由一扛 ti 蠢j U 删啊哪 畦 0 叫溻强翮l j 一 蝇 唧一 一 j o j j j j 一 j j j j A b s t r a c t I nr e c e n t y e a r s w i t h t h er a p i d t e l e c o m m u n i c a t i o n si n d u s t r yc u s t o m e r s d e v e l o p m e n t o ft h et e l e c o mm a r k e t t h e i nt h ef r a u da l s oi ni n c r e a s i n g I no r d e rt o D r e v e n ta n dd e t e c t i o no ff r a u dO c c u r s s o l v ec u s t o m e rr e l a t i o n sm a n a g e m e n to f t h e t e l e c o m o p e r a t o r s t e l e c o m c u s t o m e r sf r a u dd e t e c t i o ns y s t e mu s i n gp a t t e r n r e c o g n i t i o n d a t am i n i n gt o o l ss u c ha st e l e c o mc u s t o m e r st o t h ec o n s u m p t i o no ft h e s p e c i f i ca n a l y t i c a lp r o c e s s t oc u s t o m e r si nc l a s s i f i c a t i o n c o m b i n e dw i t ht h et e l e c o m c u s t o m e rb e h a v i o r a n do nt h eb a s i so ft e l e c o mc u s t o m e r sc o m p l e t ef r a u dd e t e c t i o n m o d e l i n g f r a u dd e t e c t i o n S Oa s t or e d u c et h eh a r mo ft e l e c o mC U s t o m e r sf r a u d r e d u c et h et e l e c o m m u n i c a t i o no p e r a t i o nr i s k T h i sp a p e re x p o u n d st h et e l e c o mc u s t o m e r st h ed a m a g ec a u s e db yf r a u da n d t e l e c o mc u s t o m e r sf r a u ds y s t e mr e s e a r c ha n dd e v e l o p m e n to ft h ei m p o r t a n c e a n d u r g e n c y I n t r o d u c e dt h er e s e a r c h a n dd e v e l o p m e n tt e l e c o mc u s t o m e r sf r a u ds y s t e m i n v o l v e ds u c ha sm a c h i n el e a r n i n g s t a t i s t i c a ll e a r n i n gt h e o r y a n dr e l a t e dt h e o r y k n o w l e d g e B a s e do nt h es i n g l ev e c t o rs u p p o r t v e c t o rm a c h i n ew a sf i r s tc l a s s i f i c a t i o n u s i n gs u p p o r tv e c t o rm a c h i n e st os e c o n d a r yc l a s s i f i c a t i o n b a s e do ns i n g l e r e c t o r s u p p o r t v e c t o rm a c h i n e u s e df o rt e l e c o mc u s t o m e r s f r a u dd e t e c t i o nm o d e l c l a s s i f i c a t i o nm e t h o d A n a l y z e st h et e l e c o mc u s t o m e r sf r a u dd e t e c t i o nm o d e l i n ga n d v a l i d a t i o np r o c e s s R e s e a r c hs h o w st h a t t h et e l e c o mc u s t o m e r sb a s e do nS V M f r a u dd e t e c t i o n t e c h n 0 1 0 9 ya p p l i c a t i o nr e s e a r c h h a sb r o a dm a r k e tp r o s p e c t s D e t e c t i o nm o d e l c a n a v o i dt h er i s ko fp o t e n t i a li n t e l l i g e n tb e h a v i o rt ot h ec u s t o m e rt oi d e n t i f yf r a u d a n d t h e nt ot e l e c o mc u s t o m e r si nf r a u ds m a l ls c a l e t h ec o n d u c to f t h el a r g ed i s p e r s i o n t e s t K e yw o r d s t e l e c o mc u s t o m e r sf r a u d S u p p o r t v e c t o rm a c h i n e S V M S i n g l ev e c t o rs u p p o r tv e c t o rm a c h i n e S V M T h e u s e rm o d e l I I I f 以E 0 1 融城f j 峥 忙j I I f 卜 声 惜 一瞧蘑器v 妊1L彤牡枉凸nk 卜i1啦 r j o 瓣崇 壤雠嚣融国冰甍霖 rjdi n 一代j j自 t 基于S V M 的电信客户欺诈检测技术应用研究 目录 湖南大学硕士学位论文原创性声明与学位论文版权使用授权书 I 摘要 I I A b s t r a c t I I I 插图索引 V I 附表索引 V I I 第1 章绪论 1 1 1 研究背景和研究意义 一1 1 2 研究现状 一2 1 2 1 关于电信客户欺诈检测的研究 2 1 2 2 相关领域的欺诈检测的研究 3 1 3 研究思路与研究内容 4 1 3 1 研究思路 4 1 3 2 研究内容 4 1 4 研究方法 5 第2 章支持向量机发展及相关理论基础 8 2 1 支持向量机的发展过程 8 2 2 支持向量机相关理论 9 2 2 1 最优分类超平面 1 1 2 2 2 广义最优分类超平面 1 2 2 2 3 核函数 1 2 2 2 4分类支持向量机的构造 1 3 2 3 机器学习相关理论 1 3 2 4 统计学习相关理论 1 4 2 4 1V C 理论 1 5 2 4 2 结构风险最小化准则 1 5 2 5 本章小结 1 6 第3 章基于O V S V M 的数据集分类方法 1 7 3 1 单向量支持向量机 1 8 3 1 1 基于超平面的O V S V M 1 9 3 1 2 基于超球体的O V S V M 1 9 3 2 随机选择算法 2 0 3 3 基于O V S V M 的分类过程 2 1 3 3 1 I 数据约简 2 2 T V 嗤嚣尊h一堪藩缝 扩 d 栅 1 u j j ipeH 程硕士学位论文 3 3 2O V S V M 训练 一2 2 3 3 3 数据恢复 一2 3 3 3 4S V M 分类 一2 3 3 4 实验结果 2 4 3 5 本章小结 2 5 第4 章S V M 在电信客户欺诈中的应用 2 6 4 1 电信欺诈定义 分类与模型建立的需求 一2 6 4 1 1 电信欺诈的定义 2 6 4 1 2 电信客户欺诈的分类 一2 6 4 1 3 模型建立的需求 2 7 4 1 4 目标定义 一2 8 4 2数据预处理 2 8 4 2 1 数据采集 2 8 4 2 2 数据清洗 一2 9 4 2 3 数据转换 一3 0 4 2 4 特征选择方法 3 0 4 3 建立用户模型 3 1 4 4 欺诈检测建模 一3 4 4 5 本章小结 3 5 第5 章检测模型的应用测试 3 6 5 1 系统检测环境 3 6 5 2 模型评价 3 8 5 3 本章小结 4 0 结论 4 1 参考文献 4 3 致谢 4 9 牵卸却 一耐 一开 叁 芦争l 1 l 暑 幸 零 冕 6 L I 队 砷j 童 埔 V 1 钮 t o 置 置h 两璺一士 小j 一 临盼 K柚 虹墨霞猎博社靳 盯 j i i j i i j 畀 i h j i 渊釜 L 二c j 曳 一 磊 一了裂黑 妒琏 j I 銎翊 塾I I j J 卜0囊 戳调 0l 硐 I 蚤7 1 i l jE 鏊 灞 1 r 一一 潮黧 娥 l i 0 I 霹 豳 i l 二 T 4 7 一 I q 鳓 泌8 8 濯霍 濯l l赴 f 循 l 二 一i l 爨 壤 霆 黪杂 I j 骖 0 I 竭 囊般彰 一0 0 0 I 书I 字 鐾 雾 圜 图 苍镧 ii 啁礴鳜 j 1 1 j 一1 l 寸 4j j 一 7 一 j i o j 一 幸 一 r l l 基于S V M 的电信客户欺诈检测技术应用研究 插图索引 图2 1 最优分类超平面 1 1 图2 2 机器学习的一般模型 1 3 图2 3 结构风险最小化示意图 1 6 图3 1 采用高斯核的基于超平面O V S V M 1 9 图3 2 基于超球体O V S V M 分类 1 9 图3 3 随机选择过程 2 1 图3 4 数据约简 一2 2 图3 5O V S V M 训练结果 一2 3 图3 6S V M 分类结果 一2 3 图4 1 日通话特征向量 3 1 图4 2 用户模型的特征序列 3 2 图4 3 移动通信欺诈检测系统框架 3 4 图4 4 电信客户欺诈检测模型的流程图 3 5 图5 1R B F 核函数的G a m m a 参数 3 9 图5 2S V M 算法C o s t 参数 3 9 草蛀 l n t I 猕 i 隔 矿 冀 1 5 一 J 甄 静 纂 嚣 t 毒 l l r 一 7 7 璃 l 越 r j 7 I 7 弘一埠 1 羔 j 鞑 黝霞 l 呻 1 i j j 黼恕 l 0 t j r r 11 l I I 二畸1 跨 鏊 L o 聂j 土 鬻 菇 辩量 一删一 灞 寻 雉 j 一 r j i 摧iL 1 删 P 碍 I Hi 嘎 囊 i 翟麟 一0 臻 嚣 p 牛 嘲 T 0 然 一越逡 卜Hr h 蕊 一一一 替 q擘 蜘 一转 虻 蹬 棼 啦 0I o 一0玉 掣 龟一t 0 一 K I立IT 一 h 薄一 毒囊 誓殪 一 o r j v r j i j 一 广 砸 1 1 H 0 7 唯l 叮l 卜j F n薯U 一 h r龌 麻 嗣 j L 冀 一基嘴犯龉落 J f J h o J 1 一 j i i F 二 昏科 F t 萋拳r H t o 黔 i鼻体 十1lr 拈 1圳爿静H 三 景 群黼骠i 驾鬻囊 淄 似 0 Fv r ii p 二 li 1 tUi n 一 叩0 甜刚凯筑饼r J i t j fL L一1 fj En H 工程硕士学位论文 附表索引 表3 1 基于O V S v M 分类的结果 2 4 表3 2 与L I B S V M 二阶S V M 的比较 2 4 表4 1 电信客户的话费详单 3 1 表4 2 训练样本集的各特征 3 3 表5 1 认证服务器测试环境 3 6 表5 2 模型评估标准 3 8 表5 3 数据对电信客户欺诈模型的评估结果 4 0 彳 年 卜 r 川踅 jj l 蝌 j j 诛 姆 h 尊 一 r 秽 j f 航 f L L 1 1 ju 0 gJ L 搿 n r i j j i 一 L ij i 虬 毒 一 I t Z j 七 掣 4 jq il iiK卅L昌 器 jn l 广 肫h H 卅珧寸斗 忆 厂 1 i陌K恬卜 r 二 l一 h 牛 r f a矿 q 工程硕士学位论文 1 1 研究背景和研究意义 第1 章绪论 近年来 随着电信技术的迅猛发展 电信市场中的客户欺诈行为日渐增多 伪造身份注册 拖欠拒交话费 电话盗打及网上商业诈骗等电信客户欺诈行为使 电信行业蒙受了巨额的经济损失 据测算 因客户欺诈行为造成的损失在全球电 信业中每年高达几十亿美元 在西方列国 电信企业的损失占电信收入总额的 3 6 在中国 每年因欺诈行为造成的损失在电信业也超过2 0 0 亿元人民币 电 信企业的发展受到了严重制约 电信行业主管部门和电信运营商们面对电信客户欺诈行为产生的大量经济损 失开始寻找解决这一问题的有效途径 他们开始多角度分析客户欺诈产生的原因 进行各种针对电信客户欺诈的检测和预防 电信客户欺诈的解决方法主要可分为 两类 一类是行政防御 另一类则是技术检测和预防 行政防御主要是指电信企 业组织行业协会 依托国家法律和行业制度来牵制欺诈行 为的发生 尽管在一定 程度上起到了积极作用 但同时也损害了电信客户的忠诚度 伤害了正常用户的 利益 技术检测和预防主要是指从技术角度出发 通过数据挖掘 模式识别等工 具挖掘客户行为特征 能有效减少行政防御给用户所带来的不便 从而积极改善 运营商与客户之间的关系 优化企业竞争力 所以当前电信运营商解决电信客户 欺诈问题的最佳选择是采用技术对电信客户欺诈进行检测 和预防 现阶段 对电信客户欺诈行为进行检测的主要途径有两种 一种是引入欺诈 检测的模块进入通信设备终端 实施动态的客户欺诈行为检测 在取得不错的效 果前提下仍无法防止用户自盗 无法对非法用户从其他角度进行的欺诈行为进行 检测 第二种方法则是加入如信令系统附加参数等欺诈检测功能模块在通信网中 虽然也有一定的效果 但弊端也比较明显 一是严重影响了原有系统的性能 通 信网的负担加重 二是不能够对于大量 长期的欺诈行为进行正确分析 纵观已 有的欺诈检测技术 主要存在以下四个问题 1 客户欺诈检测系统不能较好的维护客户信任度 如果电信客户在短时间 内的消费行为发生较大的变化 电信客户欺诈系统往往会错误的将其识别为欺诈 行为 这将严重影响正常电信客户与电信运营商之间的信任度 电信运营商的市 场竞争力将会因此受到削弱 2 欺诈检测模型的直观性不强 现有的各种客户欺诈检测模型在电信客户 关系管理 C R M C u s t o m e rR e l a ti o n s h i pM a n a g e m e n t 中大都是面向基层的 高 层决策难以得到支持 信息的处理智能了 但市场决策缺乏参与 客户关系管理 的各种决策缺乏基层依据 基于S V M 的电信客户欺诈检测技术应用研究 3 数据仓库系统的建立针对性不强 目前 大部分电信客户欺诈检测系统 建立的数据仓库系统 并没有根据出现的问题而建 往往选择重新新建全新数据 仓库 无法兼顾问题的特殊性和针对性 而且搭建数据仓库往往需要耗费几年的 时间 电信运营商的财政负担也因此大大加重 4 客户行为数据的完整性不强 目前 我国的电信企业于1 9 9 7 年人工记录 保存的各种客户详细数据在自数据库真正建立 并投入使用后 诸多数据已经不 完整 而对于客户基本信息和行为信息等记录的记载至今还存在缺漏 各地市级 电信企业的信息处理技术目前仍停滞不前 他们通过纸质报表传输使与客户相关 的有关信息得不到充分利用 相关业务部门之间的联系比较孤立 销售 营销 客户服务和业务支撑等都独立操作 如何开发系统而智能化的电信客户欺诈检测技术 对客户欺诈行为进行有效 的检测和预防 带来更大的经济效益和社会效益 需要进行电信欺诈韵各种行为 模式的深入研究 对不同类别的欺诈类型进行全面分析 才能提出并建立比较完 善的电信客户欺诈检测模型 1 2 研究现状 目前针对欺诈检测提出的方法中 计算机入侵检测是其主要研究的领域 本 论文主要从两方面对国内外欺诈检测的研究现状进行概述 一是电信客户欺诈检 测的研究现状 二是相关领域欺诈检测的研究方法 1 2 1 关于电信客户欺诈检测的研究 移动通信中的用户欺诈行为是电信客户欺诈检测主要研究内容 采用基于规 则的方法 贝叶斯网络 人工神经网络 支持向量机等方法 利用数据挖掘 机 器学习方法自动检测欺诈行为在已有的很多关于电信客户欺诈检测的文献中普遍 进行过记载 1 9 9 6 年B a r s o n 等人首次在异常用户中采用有监督学习的前馈神经网络来进 行检测 1 模型两类数据集通过不同长度时间窗获得 神经网络的输入以检测用 户的历史行为和近期行为为主要依据 同期 F a w c e t t 和P r o v o s t 采用基于规则 方法设计了欺诈检测模型 引 之后M o r e a u 和V a n d e w a l l e 采用在模型中加入阈值 用来检测电信行为中的滥用行为 1 1 9 9 7 年K e n n e t h 和S t e p h e n 等人通过用户界 面来建立不同区域用户通话的图形来检测国际漫游通话中的欺诈 主要采用人工 检测与计算能力强的该机器结合可视化方法 1 E z a w a 则采用基于导向的贝叶斯 网络模型哺1 用于甄别电信网中尚未检测到的坏账数据 M o r e a u 和B a r t 等人则在 细致的用户模型中 通过全面的的分析 用来高效检测用户通话的异常 采用的 是基于规则的系统和人工神经网络方法结合 1 但因该系统需要给出精确的类标 注而未能获得广泛应用 E s t e v e z 等人以预防订购欺诈在模糊规则的人工神经网 程硕士学位论文 络基础上建立了模型阳1 S h a w e T a y l o r 和B u r g e 在B a r s o n 提出的属性集基础上采用H e l l i n g e r 距离 进行分析 对用户的近期行为数据与历史行为相比有突出变化时发出预警 采用 无监督学习方法以通话记录的序列为单位建立了用户模型阳3 之后B u r g e 又和 M o r e a u 合作 创立了有监督和无监督学习相融合的模型n 引 继而算法组合的研究 陆续出现 1 9 9 8 年H o w a r d 和G o s s e t 在有监督学习和无监督学习的用户模型中n 1 采用基于规则的方法生成单个决策 之后在逻辑回归的结合下得到总体决策 完 成欺诈行为的识别 M i c h i a k i 等人在结合构建电信欺诈智能检测下采取三种算法 n 2 一是用于检测出异常行为的高斯混合模型建立用户历史行为数据的概率密度 模型 二是对用户进行分类的基于有监督学习的前馈神经网络 采取统计理论生 成非线性判别函数 三是用于估算给定的用户存在行为欺诈可能性的贝叶斯网络 R o s s e t 等人建立了基于规则方法的用户模型n3 并在带阈值的贪婪算法基础 上建立规则集 但其难以建成完整的系统 主要原因是基于规则分析的模型要求 数据准确 并且构建时间长 随着数据的持续递增 性能就会显著下降 近年来 王栋等人构建了基于支持向量机分类机的移动通信检测系统n4 该系统主要识别 新用户的欺诈行为的方法是将采集到的用户历史信息采用主成分分析法 P C A 进 行属性归约 然后再用S V M 分类建立检测模型进行检测 1 2 2 相关领域的欺诈检测的研究 欺诈检测最早被广泛应用于计算机系统领域 2 0 世纪7 0 年代中期国际上就 运用审计跟踪方法开展了入侵检测的相关基础理论研究 入侵检测的概念于1 9 8 0 年由A n d e r s o n 正式提出1 1 5J 随后D e n n i n g 提出通过统计的方法来发现用户的异 常操作行为 建立的实时入侵检测模型 1 6 J 可以判断检测攻击 基于主机的入侵 检测系统的核心思想由此确立 在这些早期研究成果的基础上 检测系统中植入 人工神经网络迅速崛起 F o x 和H e n n i n g 等人又采用异常系统状态 它经由自组 织映射识别历经专家系统处理而形成 1 7 1 另外用于区分计算机入侵行为的前向神 经网络在T a n 构造的入侵检测系统中的方法也被提出 1 8 2 0 世纪9 0 年代末 D u m o u c h e l 采用转移矩阵表示用户下一可能行为的转移概率 通过转移矩阵构建 用户模型 1 9 1 H o l l m e n 则建立了用于检测已建立模式的突变和欺诈模式 它主要 是在呼叫数据中利用人工神经网络和概率模型学习中得到模式 2 2 0 0 7 年孙刚提 出了具备很强的适应性 自学习性和鲁棒性的入侵检测模型 这是基于协议分析 和特征分析的S V M 多分类器组合的一种模型 采用增量学习使其更具优势1 2 1 I 当前欺诈检测应用最广泛的领域是信用卡领域 信用卡领域决策周期十分有 限 另外信用卡运营商数目十分庞大 在信用卡系统中应用最多的是人工神经网络 算法 H a n a g a n d i 等人在信用卡的欺诈检测系统中引入径向基核函数 R B F 神经 网络 2 2 之后基于人工神经网络的欺诈检测系统被A l e s k e r o v 等人提出 2 引 基于S V M 的电信客户欺诈检测技术应用研究 1 3 研究思路与研究内容 1 3 1 研究思路 论文对电信客户欺诈检测模型研究主要分四个步骤进行 1 研究O V S V M 分类模型 论文针对大型数据集提出了一种基于单向量支持向量机的分类方法 首先在 类标注基础上进行数据分离 对每一类训练集主要通过随机选择算法进行约减 超球体利用O V S V M 将样本映射到特征空间生成后 寻找类与类之间的边界领域 即超球体交汇中的样本 样本邻域中的原始数据得以恢复保存 进一步利用支持 向量机训练对边界进行分类 2 建立电信用户模型 用户交换机的呼叫详单记录中大都保存了用户的行为数据 包括主叫号码 被叫号码 通话时间 呼叫日期及时间等 为了容易区别正常或异常用户行为 电信用户模型基本上是通过选择适宜的用户行为特点构建的 论文拟以天为单位 将用户行为数据进行处理建立模型 3 构建用户欺诈检测模型 基于O V S V M 模型 对用户历史数据进行适当训练构建欺诈检测模型并进行 效果评估 实现对新输入数据的检测 4 算法的实现 效果检验 对提出的O V S V M 算法进行实验 主要采用M a t l a b2 0 0 9 b 检验 并和现有的 典型算法进行类比 通过实验结果检验算法的合理性 评测模型检测的覆盖率和 精准率 1 3 2 研究内容 论文由以下五章组成 第一章阐述了本课题的研究背景和研究意义 着重描述了电信业及相关领域 欺诈检测方法的研究现状 指出了电信客户欺诈检测系统中目前普遍存在的若干 问题 最后详细介绍了本论文主要的研究思路及研究内容 第二章介绍了支持向量机的发展及相关理论基础 重点介绍了支持向量机的 发展过程 相关理论以及机器学习 统计学习理论 第三章重点阐述了基于O V S V M 的大型数据集分类方法 首先指出当前支持 向量机存在的普遍问题 提出对数据进行约简的一种随机选择算法 之后提出了 O V S V M 和S V M 相融合的方法进行分类的分类方法 最后采用M A T L A B2 0 0 9 b 完成实验检验 第四章论述如何建立电信客户欺诈检测模型 首先定义了电信客户 欺诈及其 分类 拟计划以天作为计量单位 在选择诸如通话计费时间 主被叫号码 呼叫 4 程硕士学位论文 日期及时间等用户行为特点的基础上 对用户行为的关键数据进行再处理 构建 模型 之后在继有的基础上设计出电信客户欺诈检测模型 第五章论述检测模型的应用测试环境与方式 首先对系统检测的环境进行分 析 对模型进行了评价 将达标的模型用于最终的欺诈检测 结论部分对论文的研究内容 研究成果进行了综述 并对接下来的工作作了 进一步的展望 1 4 研究方法 在建模前要进行数据预处理的准备工作 它是建模数据的准确性和有效性的 有力保障 同时可以保证有效数据更加符合建立模型的需要 增强数据的有用信 息 体现信息的真正价值 数据预处理主要经历如下几个阶段 数据的采集 数 据的清洗 数据的转换 特征的选择等等 A 数据的采集 数据的采集主要分为输入变量选择 目标变量选择 建模数据的选择这三项 工作 输入变量共分为静态数据 动态数据两类 静态数据是指长期处于静态 变化不多的数据 如客户的基本信息 服务的类别 服务的时间等 动态数据是 指长期处于运动改变中的数据 如交费记录 消费金额等 目标变量是在业务目 标定义的基础上 选择出来的一个或多个已知量的集合 输入变量就是模型中的 自变量 建模的过程就是找寻自变量与目标变量之间的内在联系 确定规则 构建正常和欺诈行为模型 评估模型的检测准确率 这依赖于大批量呼叫数 据的采集 一般情况下 包括通话信息等在内的动态变量是电信客户欺诈检测模 型所普遍采用的一种数据采集方法 采集的数据主要是反馈用户通话行为中的交 换机中的C D R 它的主要功能是用作监测网络使用的具体数据 主要包括 主叫 识别码 被叫识别码 通话的时间 通话的时长等十几种属性 一般情况下正常用户的通话数据最容易获取 但是欺诈用户的电信通话数据 不多 很多欺诈客户欺诈的方法是对正常电信客户的行为进行模仿 电信企业对 于正常与欺诈用户的甄别难度加大 另外很多用户数据的采集要涉及到用户数据 的隐私限制 采集的困难增大 欺诈数据往往需要从众多的呼叫数据样本中进行 甄别查找到欺诈客户 继而进行标识 B 数据的清洗 数据的清洗是清除错误信息 保证数据的正确率的重要手段 数据清理的主 要工作是补充缺失值 将不完整的信息样本进行处理以及纠正众多数据中的错误 信息 处理缺失值问题通常的方法有 1 采取全局常量填充缺失值 简单易操作具体方法是用替换法 在缺失值 基于S V M 的电信客户欺诈检测技术应用研究 的属性值和同一个常数之间进行替换 这个方法虽然简易但不切实际 如果缺失 值都用同一个词汇进行替换 程序就会做出误判 结果会认同它们存在同值的情 况 所以存在一定的弊端 2 采用忽略元组 如果有多个属性缺少值出现在同一个元组中时一般都会 选用删除这个元组 但采用忽略元组的弊端还是比较明显 一旦在数据集中单个 属性缺少值的百分比几率处于变化比较大的情况下 采用忽略元组的方法的效果 非常差 3 采用同一属性的平均值补充缺失值 不过这种方法的不利操作之处是模 式识别存在问题 缘于这种方法容易在缺失值比较多的状态下会使样本间的差异 减小 4 采用人工填充缺失值 这种方法只适用极少的数据面临缺失的状态 如 果数据量很大 缺失值较多的情况下 需要耗费大量人工来进行补充工作 在现 实操作中这类方法不可行 5 采用给定的元组中界定为同一种类型的样本的平均数值 实际情况是电 信客户中分类较多 之间又无明显差异 无法进行更加精细的分类 采用此类方 法存在较大的风险 6 缺失值由近似值进行填充 这种算法相对可靠 但算法最为复杂 它使 用现有数据的多数信息来估计缺失值 可以利用回归 聚类 判决树 主成分分 析等算法估计缺失值 与以上方法相比 鉴于电信用户的数据特征 样本数量庞大 种类较多而且 差异不明显的特点 又由于模型的核心算法为S V M 因此忽略元组法为最方便 最简洁的的缺失值处理的方法之一 由于用户系统种类繁多 信息数据数量庞大 针对电信客户欺诈检测模型的 研究急需对客户的数据进行重新整合 需要分析和切换客户基本信息 通话行为 等数据 挖掘出欺诈检测的相关特点由此构建客户欺诈检测模型 以此检测未知 电信用户是否存在欺诈的可能性 做好市场决策的引导 C 数据的转换 应答通话的数据包含在呼叫详单记录中 而每一次呼叫都涵盖在同一属性集 中 欺诈检测模型在应用前 适合模型的数据形式需要通过这些属性转换而成 3 种数据转换方法主要包括 1 动态呼叫数据的表示方法 本文在描述数据的丰富度为最小化下的基础上设计采集的时问间隔 移动电 信用户的短期行为通过时间间隔为单位表示 这种方法捕捉了移动用户的短期行 为特征 同时可以建立动态的呼叫行为模型 但是由于采集的数据量庞大 存储 不便 分析面临困境 这种方法在欺诈检测中使用效果不佳 工程硕士学位论文 2 定期采集数据特征化 对特征进行提取主要采用模式识别中输入数据的方法 一般来说是用少量的 数据来表示定义域的知识及统计数量进行特征提取 特征变量从呼叫数据集取得 采集数据以天为单位进行 通话数据通过特征 定时顺序映射给特征空间继而更换为特征值 用户的每日账单详单 通话的次数 通话的时长等信息均在特征反映中显现出来 3 离散化的表示方法 把定义域的信息传送给模型是特征变量的本质 但模型的类别有时会因属性 表示受到影响 进而破坏对定义域的准确描述 这时采用离散化的表示方法来处 理数据最为简洁 D 特征选择方法 数据的可靠性 模型的准确率是进行欺诈检测模型的设计中必须要考量的指 标 这需要对样本的属性进行进一步选择和整理 信息熵理论 粗糙集理论 O L A P 分析 数理统计学习等方法是特征选择通常采用的方法 主要用来分析数据特征 和数据分布 与所建模型相关的属性被发现和保留下来 与模型无关 影响模型 准确度的属性被丢弃 以上就是属性特征选择的全部过程 基于S V M 的电信客户欺诈检测技术应用研究 霉 第2 章支持向量机发展及相关理论基础 支持向量机 S V M S u p p o r tV e c t o rM a c h i n e 是一种基于统计学习理论进化 而来的机器学习方法 建立于统计学习理论中的V C 维理论 结构风险最小化原理 之上 其显著特点是在非线性 小样本 高维输入的空间和局部最小点等问题上 具有较好的处理能力 近年来 关于S V M 的研究与应用已经成为当前继人工神经 网络算法之后的又一机器学习领域的热门研究方向 虽然关于S V M 的研究起步较 晚 但是其在回归估计 模式识别 函数逼近与数据挖掘等领域中都显示出明显 的竞争力 在人脸识别 语音识别 欺诈检测 网页分类 时间序列预测等问题 中都已被成功运用 2 1 支持向量机的发展过程 统计学习理论在小样本状态下为人们开展系统地机器学习领域研究建立了良 好的理论基础和市场应用基础 V a p n i k 等人在上世纪6 0 7 0 年代就开始进行统 计学习理论 S L T S t a t i S t i c a lL e a r n i n gT h e o r y 研究 统计学习相关理论在 2 0 世纪9 0 年代中晚期仍旧处在初级研究阶段 直至1 9 9 5 年 V a p n i k 提出了一种 支持向量机理论 从此为统计学习理论研究开创了新局面 从统计学习理论开始建立到S V M 被提出 支持向量机的发展经历了四个阶段 2 4 第一阶段 提出机器学习理论 1 9 5 8 年 由R o s e n b l a t t 建立了首个学习机 模型一感知器模型 这成为利用学习过程开展数学研究的崭新阶段 而感知器模 型的特点是将一个模型用计算机程序呈现出来 进行简单的模型试验就可能将其 进行市场推广 但遗憾的是 由于当时只有理论研究的基础 关于感知器模型的 建立最多只能完成构造指定目标实验中的硬件系统 感知器模型的相关研究为机 器学习 模式识别这类新型的学科发展开创了新的局面 也为统计学习理论中学 习模式规则识别研究奠定了基础乜5 2 6 第二阶段 建立统计学习理论基础 C h e r v o n e n k i S 和V a p n i k 于1 9 8 6 年提出 了知识函数集的V C 维与V C 熵 V C 维是V a p n i k 和C h e r v o n e n k iS 维的缩写 的统 计学习理论一部分的主要概念比引 他们在利用V C 维发现泛函空间的大数定律的 基础上 随后研究出了与机器学习之间的内在联系 获得了收敛速度非渐进界的 相关结论 结构风险最小化 S R M S t r u c t u r a lR i s kM i n i m i z a t i o n 准则这类崭 新的归纳原理由此在这些重要的研究成果上产生 从1 9 7 6 年到1 9 8 1 年 从指示 函数集推广到实函数集的研究 构建了依赖关系估计新的理论 之后V a p n i k 凭借 经验风险的最小化 E R M E m p i r i c a lR i s kM i n i m i z a t i o n 准则和最大似然一致 程硕士学位论文 性充要条件的新发现 对经验风险最小化进行了理论分析 28 l 而算法复杂度 最 小描述长度归纳推理被S o l o m o n o f f 2 引 K o l m o g o r o v 阳们等人在同时期提出 统计学 习理论的研究随着机器学习研究的发展取得了重大成果 第三阶段 发展人工神经网络算法 1 9 8 6 年 由L e c u n 创立的的构造感知器 的所有神经元向量系数的神经网络后向传播算法 B P 算法 问世 川 人工神经 网络理论也由S i g m o i d 函数梯度计算方法的发现被正式创立 从此 统计学习理 论在人工智能领域中被广泛的重视起来 第四阶段 创立支持向量机理论 1 9 9 5 年最优超平面算法由V a p n i k 等人研 究开创 算法在基于统计学习理论的机器学习算法的构造之后成功将软间隔超平 面的概念引入到统计学习理论的机器学习构造中心2 从而对置信范围和经验风险 实现了同时调整 该算法的提出标志着S V M 学习机器算法的建立凹3 在人工神经 网络等学习方法在理论上缺乏实质性的进展的背景下 S V M 理论不断发展和日趋 成熟使其在越来越广泛的领域受到重视 这给机器学习理论发展带来了新的机遇 2 2 支持向量机相关理论 S V M 基本的思想是 通过定义恰当的内积函数来实现非线性变换后 将其从 一个输入空间映射到达高维特征空间 随后求解获得最优的分类超平面 S V M 的 优势体现在对分类中出现的小样本 高维数据 非线性等问题具有一定的解决能 力 其主要通过求解一个线性约束二次规划中的问题以克服 维数灾难 获得全 局的最优解 对二次规划问题进行求解是S V M 训练算法的根本 但首要前提是训练集规模 要控制在一定规模以下 否则计算机系统无法完成这一工作过程 所以 当前对 于S V M 研究的重点是怎样更进一步地提高S V M 对大规模训练集训练的能力以及训 练的速度 C o r t e s 和V a p n i k 在1 9 9 5 年提出了C h u n k i n g 算法 狮1 将大型的Q P 问题分成 无数个小型Q P 问题 依次解决这些小问题 所有非零的L a g r a n g e 乘子都要找到 并且保留下来 原始的Q P 问题从而得到解决 C h u n k i n g 算法使计算量大大降低 算法可以将矩阵的大小从训练样本集数的平方减少到具备非零L a g r a n g e 乘子的 样本集数的平方 但C h u n k i n g 算法在训练集的支持向量数量庞大时会无能为力 随后O s u n a 提出了被应用于人脸检测中的一种分解算法 3 这种算法针对S V M 训 练速度不快 程序繁琐等问题而提出 训练样本在该算法中分为工作集B 和非工 作集 B 的样本个数为q 并且g 远小于训练集样本的总个数 每次只针对B 中 的口个样本进行训练 中的样本保持不变 该算法为以后的研究打下了一定的 基础 C h a n g 在系统地研究了分解算法收敛过程和速度后 发现了O s u n a 的不严 谨性 提出了找寻最优工作集的一种选择算法 悄3 同期 1 0 a c h i m s 提出了一种新 基于S V M 的电信客户欺诈检测技术应用研究 颖的S V M 学习算法 S V M I i g h t 算法口9 这个算法中不符合K K T 条件的样本均以特 定方式选取q 个样本来确认工作集j 5 I 接着在B 内求解Q P 问题 一直到所有样本 均满足K K T 条件 1 9 9 8 年 S M O 算法被P l a t t 提出了之后 和C h u n k i n g 算法进行 了一个对比 这类算法中工作集B 仅有2 个样本 可得到有解析解形式的二次规 划问题 解决了在多样本下的数值解存在耗时及不稳定等问题 特别适用稀疏样 本 为寻找等待优化的样本变量 需要通过两个相互嵌套的循环来实现 外循环 寻找不符合K K T 条件的样本 然后选择第二个样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论