《数据挖掘、机器学习和Weka》.ppt_第1页
《数据挖掘、机器学习和Weka》.ppt_第2页
《数据挖掘、机器学习和Weka》.ppt_第3页
《数据挖掘、机器学习和Weka》.ppt_第4页
《数据挖掘、机器学习和Weka》.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘实用机器学习技术及Java实现,原书 英文版Data MiningPractical Machine Learning Tools and Techniques with Java Implementations,新西兰 Ian H. Witten、Eibe Frank著 Weka An open source framework for text analysis implemented in Java that is being developed at the University of Waikato in New Zealand. http:/www.cs.waikato.a

2、c.nz/ml/weka/ ,概念:KDD、ML、OLAP与DM,KDD(Knowledge Discovery in Database) 是一种知识发现的一连串过程。 ML(Machine Learning) KD,不限于Database的数据 过程:挖掘数据模式表示验证预测 OLAP(Online Analytical Process) 是数据库在线分析过程。 数据挖掘(data Mining) 只是KDD/ML的一个重要组成部分。 DM用在产生假设 ,而OLAP则用于查证假设,概念:DM与DB,Data Preparation要占Data mining过程70工作量 Data base

3、Data mining会说话的数据库,概念:Data Mining,概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程 Key Characteristics of Data Mining: Large amount of data Discovering previously unknown, hidden information Extracting valuable information Making important business decision using the information DM/ML的一些要点 The data is stored

4、 electronically and the search is automated by computer; About solving problems by analyzing data already present in databases; Defined as the process of discovering patterns in data; This book is aboutTechniques for finding and describing structural patterns in data. structural patterns表示法:表、树、规则,概

5、念:Machine Learning,To learn: to get knowledge of study, experience, or being taught; to become aware by information or from observation; to commit to memory; to be informed of, ascertain(确定); to receive instruction Shortcomings when it comes to talking about computes Its virtually impossible to test

6、 if learning as bean achieved or not. This ties learning to performance rather than knowledge,简单例子:天气问题*,天气数据:weather.nominal.arff 运行Weka,载入数据,选择算法id3 预测(决策树) outlook = rainy | windy = TRUE: no | windy = FALSE: yes 测试方法:采用10 Cross-validation的 测试结果:Confusion Matrix(P.138)和准确率 a b - classified as 8 1

7、| a = yes 1 4 | b = no Correctly Classified Instances 12 85.7143 % Incorrectly Classified Instances 2 14.2857 % 其他算法:Neural Network 数据挖掘的过程步骤:见回顾:DM的步骤,输入:Concepts, Instances, Attributes,Concept 四种基本的学习类型 Classification, association, clustering, numeric prediction 不考虑类型,我们把要学习的称为Concept,而把学习的输出成为con

8、cept description Instance:数据样本记录 Attribute:数据字段 Nominal:outlook: sunny = no Ordinal:距离无法度量,如hot mild cool Interval:距离可度量,如整数 Ratio:如58.1%,输入:Preparing the input*,Gathering the data together The data must be assembled, integrated, and cleaned up(Data Warehousing) Selecting the right type and level of

9、 aggregation is usually critical for success 属性类型: ARFF文件格式(备注:weather.nominal.arff) 支持两种基本类型:nominal and numeric,尽可能用前者 属性值 Missing value:去掉该样本、替代、(用?来表示字段值) Inaccurate value:一粒老鼠屎需要领域知识! Getting to know your data! 数据清理一个耗时、费力,却很重要的过程, Garbage in, garbage out!,输出:Knowledge representation,Decision t

10、ables Decision trees Classification rules If a and b then x Association rules:多个结果 If then outlook=sunny and humidity=high Rules with exceptions (P.66) If then exceptelse except Trees for numeric prediction Instance-based representation Clusters,算法:The basic methods,Simplicity-first:simple ideas oft

11、en work very well Very simple classification rules perform well on most commonly used datasets (Holte 1993) Inferring rudimentary rules (算法:1R、1-Rule) Statistical modeling(算法:Nave Bayes) 使用所有属性,假设属性无关、且同等重要 Divide and conquer: Constructing decision trees 循环选择一个属性来分割样本 (算法:ID3、C4.5) Covering algorith

12、ms:Constructing rules(算法:Prism) Take each class in turn and seek a way of covering all instances in it, at the same time excluding instances not in the class. Covering approach导出一个规则集而不是决策树,算法:The basic methods,Mining association rules: 参数:coverage(support),accuracy(confidence) Linear models(参考cpu.a

13、rff例子) 主要用于值预估和分类(Linear regression) Instance-based learning 算法:Nearest-neighbor, K-Nearest-neighbor,评估可信度*,三个数据集: Training data:用于导出模型,越大则模型越好 Validation data:用于优化模型参数 Test data:用于计算最终模型的错误率,越大越准确 原则:测试数据无论如何也不能用于模型的训练 问题:如果样本很少,如何划分? 方法: N-fold Cross-validation,(n=3,10) Leave-one-out Cross-validat

14、ion Bootstrap (e=0.632): best for very small datasets Counting the cost: Lift charts (Respondents /Sample Size) 、ROC curves (P.141) The MDL principle (Minimum Description Length) Occams Razor:Other things being equal, simple theories are preferable to complex ones. 爱因斯坦:Everything should be made as

15、simple as possible, but no simpler.,实现:Real machine learning schemes (略),参考阅读: Ch6.1 Decision tree Ch6.2 Classification rules Ch6.3 Extending linear classification: Support vector machines Ch6.4 Instance-based learning Ch6.5 Numeric prediction Ch6.6 Clustering,改进:Engineering the input and output,数据工

16、程 Attribute selection Discretizing(离散化) numeric attributes Automatic data cleaning Combining multiple models Bagging Boosting Stacking Error-correcting output codes,未来:Looking forward,大数据集 可视化:输入、输出 Incorporating domain knowledge Metadata often involves relations among attributes 文本挖掘 挖掘Web,回顾:目录,DM

17、综合的技术领域 DM的功能分类 DM的具体应用 DM的步骤 DM的理论技术和算法 DM的常用分析工具,回顾:DM综合的技术领域,Database systems, Data Warehouses, OLAP Machine learning Statistical and data analysis methods Visualization Mathematical programming High performance computing,回顾:DM的功能分类,分类方法一 分类(classification) 估计(estimation) 预测(prediction) 关联分组(affi

18、nity grouping) 聚类(clustering) 分类方法二 Classification Regression Time-Series Forecasting Clustering Association Sequence Discovery,回顾:DM的具体应用,市场-购物蓝分析 客户关系管理 寻找潜在客户 提高客户终生价值 保持客户忠诚度 行销活动规划 预测金融市场方向,保险欺诈侦察 客户信用风险评级 电话盗打 NBA球员强弱分析 信用卡可能呆帐预警 星际星体分类,回顾:DM的步骤*,一种步骤划分方式 理解资料与进行的工作 获取相关知识与技术(Acquisition) 整合与查

19、核资料(Integration and checking) 去除错误、不一致的资料(Data cleaning) 模式与假设的演化(Model and hypothesis development) 实际数据挖掘工作 测试与核查所分析的资料(Testing and verification) 解释与运用(Interpretation and use) 另一种步骤划分方式(见本页的备注!) 不管那种方式,前期数据处理占很大比率,回顾:DM的理论技术和算法,统计分析方法(Statistical Methods) 决策树(Decision Tree) 人工神经网络(Neural Network) 规

20、则归纳法(Rules Induction) 遗传算法(Genetic algorithms) 常用的分析DM工具,回顾:DM的常用分析工具,Case-based Reasoning Data Visualization Fuzzy Query and Analysis Knowledge Discovery Neural Networks,典型案例:英国Safeway,公司简介 英国Safeway的年销售量超过一百亿美金,员工接近七万名,是英国第三大的连锁超级市场,提供的服务种类则达三十四种。 问题 在英国市场运用传统的技术,如更低的价位、更多的店面、以及更多种类的产品,竞争已经越来越困难了 问题确认: 必须以客户为导向,而非以产品与店家为导向。 必须了解六百万客户所做的每一笔交易,以及这些交易彼此之间的关连性。 英国Safeway想要知道哪些种类的客户买了哪些种类的产品以及购买的频率,以建立个人导向的市场,典型案例:英国Safeway,数据来源 公司开始发信用卡给客户,客户用这种信用卡结帐可以享受各种优惠,这种信用卡就成为该公司在500家店面搜集六百万客户资料的网 使用工具: 使用IBM Intelligent Miner 从数据库中取得商业知识 。 根据客户的相关资料,将客户分为150类。然后再用Association的技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论