已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2007/4/20 東北大学工学部 橋本研究室 A General Framework for Mining Concept-Drifting Data Streams with Skewed Distributions 生分布偏 対一般的枠組 出典:SIAM Conference on Data Mining 2007(SDM07) 著者:J.Gao, W.Fan,J.Han,P.S.Yu 発表者:橋本研究室年 西村聖 所属:東北大学工学部 発表日:2007/4/20 2007/4/20 東北大学工学部 橋本研究室 2 目次 n背景 n既存手法問題 n予測誤差原因 n提案手法誤差削減 n実験方法結果 n考察 背景 n分類:大量予決()分 例.不正検出 毎日大量履歴,不正僅 分 布偏 ,不正手段日変化( ) 不正見逃大変! 分布偏, 対応手法必要 2007/4/20 東北大学工学部 橋本研究室 3 2007/4/20 東北大学工学部 橋本研究室 4 基本的型分類学習流 学習用 学習 分類 12 分類 分類 発生構築 発生 2007/4/20 東北大学工学部 橋本研究室 5 既存手法問題点 n分布取,安定 仮定 生分布偏仮定 n条件付確率変化捉 実際観測,結合確率 結合確率変化条件付確率変化,生 起確率変化分 結合確率変化捉, 詳細分析 x:事例 y: 2007/4/20 東北大学工学部 橋本研究室 6 予測誤差関係 n予測誤差 n発生結合確率変化 表種類 予測誤差発生指標, 対応既存手法同様 最新再構築必要 変化 予測誤差変化 変化 変化変化 分類予測 2007/4/20 東北大学工学部 橋本研究室 7 分類結果含誤差種類 n 予測誤差誤差(真分類誤率)+分散 q:分類用制約 q分散:異学習用場合分類予測差 大学習精度 小学習結果安定 適切設定 提案手法学習C4.5用, 枝刈適度保 提案手法流 学習 学習 分類 12 分類 分類 再構築 最新発生 過去少数 学習用 2007/4/20 東北大学工学部 橋本研究室 8 学習最新用, 分布偏過去少数再利用, 多数数減分布偏 図流 少数分類事例 多数分類事例 過去少数 最新 2007/4/209 東北大学工学部 橋本研究室 2007/4/20 東北大学工学部 橋本研究室 10 分散削減 n利点:過去少数用,事例不足 分散減 n欠点:過去事例用,現在異 増,増 ,多数事例現在反映, 数十分上昇僅 見予測精度上昇 2007/4/20 東北大学工学部 橋本研究室 11 学習 複数分類用 予測精度向上計 学習結果, 分類 予測平均,事例x 少数属確率 :分類数 :学習結果 :各分類予測結果 学習 学習用k学習用 分類分類 結果平均 学習用 分類k 2007/4/20 東北大学工学部 橋本研究室 12 学習分散削減 学習結果誤差用表現 分散項分散以下 分類数k大分散分散小 ,精度上 2007/4/20 東北大学工学部 橋本研究室 13 実験方法目的 n提案手法他手法比,提案手法分布偏 対優位性示 表2提案手法他手法 n提案手法 SE(Sampling+Ensemble) 分類数5個 n比較手法 NS(No sampling +Single model) SS(Sampling+Single model) SENSSS 有無有 有無無 2007/4/20 東北大学工学部 橋本研究室 14 人工 n実現 q11個作 q1000 n実現 q間 各次元値,重変 P(x),P(y|x)変相当 q変化方向10%確率反転 n分布偏実現 q少数全体1%設定 生,分布偏 実現 2007/4/20 東北大学工学部 橋本研究室 15 条件付確率,生起確率変化 nP(x)変化 事例x正規分布従,x各次元平均値変化 ,x分布変化 nP(y|x)変化 事例x小数c割当条件付確率 表 ()x各次元値次元重関数, 分布偏(少数全体%)設定 2007/4/20 東北大学工学部 橋本研究室 16 人工ROC曲線 Figure2-(a)人工ROC曲線 n提案手法他手法遥 縦軸:検出率 少数正 分類確率 横軸:誤検出率 多数 誤分類確率 左上近 理想的分類 2007/4/20 東北大学工学部 橋本研究室 17 人工精度-再現率 Figure2-(b).人工精度-再現率 n提案手法他手法精度再現率高保 縦軸:精度 少数 予測中正確率 横軸:再現率(検出率) 精度再現率経験的 2007/4/20 東北大学工学部 橋本研究室 18 n既存手法対応分布偏 対,提案手法 ,学習用対応 n既存手法同様,分類再構築 対応,対詳細分析 課題 n問題,多問題対応 2007/4/20 東北大学工学部 橋本研究室 19 考察 n毎回再構築,現在 変化対応再構築 方法,再構築頻度減 2007/4/20 東北大学工学部 橋本研究室 20 静聴 2007/4/20 東北大学工学部 橋本研究室 21 予測精度比較 Decision Tree Nave Bayes Logistic Regression SENSSSSENSSSSENSSS Synthetic10.94640.51750.69440.95320.8220.95250.88010.83630.8737 Synthetic20.93370.4840.66110.95580.83550.95560.89920.81020.8854 Thyroid110.99990.99990.99820.99790.99820.99770.97740.9909 Thyroid20.99980.99980.99960.95510.90540.91450.99490.95930.993 Opt0.99420.94950.97770.99260.97220.98980.99710.9940.9953 Letter0.99310.94670.97820.93950.93890.93890.95450.94480.9517 Covtype110.99990.99970.99950.99970.99950.99890.9994 補助表AUC比較 2007/4/20 東北大学工学部 橋本研究室 22 実 (UCI machine learning repository公開) n偏分布実現 使,分布偏加工 少数,残多数 n実現 偏分布保 分 n実現 実現為,元 分同士微妙異 実現,程度弱 補助表実 種類事例数属性数 少数 事例 数 分割数 分割 Opt5620645546936 実 補助表実 2007/4/20 東北大学工学部 橋本研究室 23 種類事例数特徴数 少数 分割数分割後 Thyroid68322116661138 Opt562064554-5726936 Letter200001613163332 Covtype2860454274112599 2007/4/20 東北大学工学部 橋本研究室 24 実ROC曲線 Figure3-(a)実ROC曲線 n実程度激,人工程提案 手法改善見 ,提案手法最優 2007/4/20 東北大学工学部 橋本研究室 25 実精度-再現率 図実精度-再現率 n程度激人工差, 提案手法一番精度再現率高保 2007/4/20 東北大学工学部 橋本研究室 26 人工詳細 ROC曲線 少数確率密度 多数確率密度 0%
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厂家电商合作合同范本
- 厂房买卖居间合同范本
- 版权转让协议及样本
- 共同投资居间合同范本
- 卖菜水果配送合同范本
- 协议合同模板制作模板
- 养殖蘑菇出售合同范本
- 厂房土地抵押合同范本
- 化工产品销售合同
- 养鸭出租转让合同范本
- 2025年山东省招聘社区工作者考前冲刺卷(附答案)
- 2024北森图形推理题
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 麻精药品培训课件
- 土壤微量元素含量分级与评价
- GB/T 4688-2020纸、纸板和纸浆纤维组成的分析
- GB/T 19638.1-2014固定型阀控式铅酸蓄电池第1部分:技术条件
- 隧道工程施工技术及质量控制要点培训
- 社区营养学-第二章营养调查与监测课件
- 食品加工操作流程图
- 文书档案的收集与整理
评论
0/150
提交评论