




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学科研数据挖掘流行病学与卫生统计学系陈大方联系方式 公卫楼520房间电话 82802644 O 邮箱 dafangchen 尿布和啤酒 发生在沃尔玛的故事 数据挖掘应用案例之一 关联规则挖掘 关联规则挖掘过程主要包含两个阶段 第一阶段从原始资料集合中 找出所有高频项目组 高频的意思是指某一项目组出现的频率相对于所有记录而言 必须达到某一水平 第二阶段是从高频项目组产生关联规则 即找出最小支持度和最小置信度的关联规则 在所有的交易纪录资料中 至少有5 的交易呈现尿布与啤酒这两项商品被同时购买的交易行为 在所有包含尿布的交易纪录资料中 至少有70 的交易会同时购买啤酒 课程内容安排数据挖掘概述 1 数据挖掘方法 3 数据挖掘实例 2 文章思路分析 1 数据挖掘概述数据挖掘产生背景数据挖掘应用领域数据挖掘的定义和特点数据挖掘基本过程数据挖掘任务数据挖掘方法数据挖掘所发现的知识分类数据挖掘在医学领域的应用数据挖掘未来研究热点 一 数据挖掘产生背景在1989年8月举行的第一届KnowledgeDiscoveryinDatabase KDD 国际学术会议上提出 现实需求许多领域搜集积累了大量的数据 数据背后隐藏了许多具有决策意义的信息 为更好的利用这些数据 需要对其进行更高层次的分析 基础技术条件 1 计算机技术和网络时代 强大的多处理器计算机 2 超大规模数据库的出现 海量数据搜集 3 数据挖掘算法 二 数据挖掘应用领域 三 数据挖掘的定义和特点定义从大量的 不完全的 有噪声的 模糊的 随机的 实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 它是在没有明确假设的前提下去挖掘信息 发现知识 没有假设 盲目特点是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程 数据挖掘的过程是一个 发现 的过程 而不是 发明 的过程 四 数据挖掘基本过程 数据的选择 搜索所有与业务对象有关的内部和外部数据信息 并从中选择出适用于数据挖掘应用的数据 数据的预处理 研究数据的质量 为进一步分析作准备 并确定将要进行的挖掘操作的类型 数据的转换 将数据转换成一个分析模型 这个分析模型是针对挖掘算法建立的 建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键 数据挖掘 对所得到的经过转换的数据进行挖掘 结果分析 解释并评估结果 其使用的分析方法一般应作数据挖掘操作而定 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去 为什么要预处理数据 存在不完整的 含噪声的和不一致的数据 预处理数据可以改进数据的质量 从而有助于提高其后的挖掘过程的精度和性能 不完整数据的出现可能有多种原因 有些感兴趣的属性 如销售事务数据中顾客的信息 并非总是可用的 其他数据没有包含在内只是因为输入时认为是不重要的 相关数据没有记录可能是由于理解错误 或者因为设备故障 与其他记录不一致的数据可能已经删除 此外 记录历史或修改的数据可能被忽略 缺失的数据 特别是某些属性上缺少值的元组可能需要推导出来 数据含噪声 具有不正确的属性值 可能有多种原因 收集数据的设备可能出故障 人或计算机的错误可能在数据输入时出现 数据传输中的错误也可能出现 不一致的数据可能是由命名约定或所用的数据代码不一致 或输入字段 如日期 的格式不一致而导致的 数据的预处理主要包括数据描述 数据清理 数据集成和变换 数据归约四个步骤 数据描述 对于获得数据的总体印象至关重要 描述性数据汇总技术可以用来识别数据的典型性质 突显哪些数据值应当视为噪声或离群点 度量数据的中心趋势和度量数据的离散程度 数据清理 是指填充缺失值 光滑噪声并识别离群点 纠正数据中的不一致 数据集成 是指合并来自多个数据存储的数据和可能需要转换成适于挖掘的形式 数据归约 数据归约技术可以用来得到数据集的归约表示 它接近于保持数据的完整性 但数据量比原数据小得多 与非归约数据相比 在归约的数据上进行挖掘 所需的时间和内存资源更少 挖掘更有效 并产生相同或几乎相同的分析结果 五 数据挖掘任务 数据挖掘的任务主要是关联分析 聚类分析 分类 预测 时序模式和偏差分析等 关联分析 associationanalysis 关联规则挖掘是由rakeshapwal等人首先提出 两个或两个以上变量的取值之间存在某种规律性 就称为关联 数据关联是数据库中存在的一类重要的 可被发现的知识 关联分为简单关联 时序关联和因果关联 关联分析的目的是找出数据库中隐藏的关联网 一般用支持度和可信度两个阀值来度量关联规则的相关性 还不断引入兴趣度 相关性等参数 使得所挖掘的规则更符合需求 聚类分析 clustering 聚类是把数据按照相似性归纳成若干类别 同一类中的数据彼此相似 不同类中的数据相异 聚类分析可以建立宏观的概念 发现数据的分布模式 以及可能的数据属性之间的相互关系 分类 classification 分类就是找出一个类别的概念描述 它代表了这类数据的整体信息 即该类的内涵描述 并用这种描述来构造模型 一般用规则或决策树模式表示 分类是利用训练数据集通过一定的算法而求得分类规则 分类可被用于规则描述和预测 预测 predication 预测是利用历史数据找出变化规律 建立模型 并由此模型对未来数据的种类及特征进行预测 预测关心的是精度和不确定性 通常用预测方差来度量 时间序列模式 time seriespattern 时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列 挖掘的目的是才时间序列数据库中找出频繁出现的子序列 时间序列周期分析是指对周期模式的挖掘 即在时序数据库中找出重复出现的模式 偏差分析 deviation 在偏差中包括很多有用的知识 数据库中的数据存在很多异常情况 发现数据库中数据存在的异常情况是非常重要的 偏差检验的基本方法就是寻找观察结果与参照之间的差别 关联分析法决策树人工神经网络遗传算法聚类分析序列模式分析 六 挖掘方法 关联分析法从关系数据库中提取关联规则是几种主要的数据挖掘方法之一 挖掘关联是通过搜索系统中的所有事物 并从中找到出现条件概率较高的模式 关联实际上就是数据对象之间相关性的确定 用关联找出所有能够将一组数据项相联系的规则 这种规则的建立并不是确定的关系 而是一个具有一定置信度的可能值 即事件发生的概率 人工神经网络 Artificialneuralnetwork ANN 神经元网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集 从待分析的数据集中发现用于预测和分类的模式 神经元网络对于复杂情况仍能得到精确的预测结果 而且可以处理类别和连续变量 但神经元网络不适合处理高维变量 其最大的缺点是不透明 因为其无法解释结果是如何产生的以及在推理过程中所用的规则 神经元网络适合结果比可理解性更重要的分类和预测的复杂情况 可用于聚类 分类和序列模式 决策树 DecisionTree DT 根据训练数据 集中数据的不同取值建立树的分支 形成决策树 与神经元网络最大的不同在于其决策制定的过程是可见的 可以解释结果是如何产生的 决策树一般产生直观 易理解的规则 而且分类不需太多计算时间 适合对记录分类或结果的预测 尤其适合于当目标是生成易理解 可翻译成SQL或自然语言的规则时 决策树也可用于聚类 分类及序列模式 其应用的典型例子是CART 回归决策树 方法 遗传算法 Geneticalgorithm GA 其基本观点是适者生存原理 用于数据挖掘中则常把任务表示为一种搜索问题 利用遗传算法强大的搜索能力找到最优解 实际上遗传算法是模仿生物进化的过程 反复进行选择 交叉和突变等遗传操作 直至满足最优解 遗传算法可处理许多数据类型 同时可并行处理各种数据 常用于优化神经元网络 解决其他技术难以解决的问题 但需要的参数太多 对许多问题编码困难 一般计算量大 聚集分析 Clusteranalysis CA 聚集是把整个数据库分成不同的群组 它的目的是要群与群之间差别很明显 而同一个群之间的数据尽量相似 此外聚类分析可以作为其他算法 如特征和分类等 的预处理步骤 之后这些算法再在生成的簇上进行处理 与分类不同 在开始聚集之前不知道要把数据分成几组 也不知道怎么分 依照哪几个变量 因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义 很多情况下一次聚集得到的分群对某个业务来说可能并不好 这时就需要删除或增加变量以影响分群的方式 经过几次反复之后才能最终得到一个理想的结果 聚类方法主要有两类 统计方法和神经网络方法 序列模式分析序列模式分析和关联分析相似 但侧重点在于分析数据间的前后序列关系 序列模式分析描述的问题是 在给定交易序列数据库中 每个序列是按照交易时间排列的一组交易集 挖掘序列函数作用在这个交易序列数据库上 返回该数据库中出现的高频序列 在进行序列模式分析时 同样也需要由用户输入最小置信度和最小支持度 七 数据挖掘所发现的知识分类数据挖掘将数据转化为知识 其目的是从数据中揭示一些新的 有用的信息 数据挖掘所发现的知识最常见的有以下几类 1 广义知识 generalization 广义知识指类别特征的概括性描述知识 根据数据的微观特性发现其表征的 带有普遍性的 较高层次概念的 中观和宏观的知识 反映同类事物共同性质 是对数据的概括 精炼和抽象 2 关联知识 association 它反映一个事件和其他事件之间依赖或关联的知识 如果两项或多项属性之间存在关联 那么其中一项的属性值就可以依据其他属性值进行预测 3 分类知识 classification clustering 它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识 4 预测型知识 prediction 它根据时间序列型数据 由历史的和当前的数据去推测未来的数据 也可以认为是以时间为关键属性的关联知识 5 偏差型知识 deviation 偏差型知识是对差异和极端特例的描述 揭示事物偏离常规的异常现象 如标准类外的特例 数据聚类外的离群值等 八 数据挖掘在医学中应用数据挖掘在生物医学中的应用DNA序列模式分析 对分别来自带病的和健康组织的基因序列进行比较以识别两类基因间的差异 基因序列识别的关联分析 关联分析方法可用于帮助确定在目标样本中同时出现的基因种类 此类分析将有助于发现基因组和对基因间的交叉与联系的研究 不同阶段的致病基因的路径分析 引起一种疾病的基因可能不止一个 不同基因可能在不同阶段起着作用 DNA序列分类 区分DNA序列中的外显子和内含子 数据挖掘在疾病诊断中的应用在临床中有些疾病错综复杂 数据挖掘的有关分类分析可以应用于疾病的诊断 数据挖掘在疾病相关因素分析中的应用在病案信息库中有大量的关于病人的病情和病人的个人信息 包括年龄 性别 居住地 职业 生活情况等 对数据库中的信息进行关联规则分析可以发现有意义的关系及模式 数据挖掘在疾病预测中的应用根据病人的病史预测病情的发展趋势 确定某些疾病的发展模式 从而有针对性的预防疾病的发生或估计疾病的预后 数据挖掘在医学图像中的应用医学领域中越来越多地应用图像作为疾病诊断的工具 如CT MRI等数据挖掘可以应用于医学图像的分析 数据挖掘在医院管理中的应用随着医疗制度改革的深入开展 医院管理者比以往更关心医疗及管理的质量以及费用 效益情况 数据挖掘可以帮助发现有关提高临床服务效率 质量以及效益潜力的证据 数据挖掘在公共卫生领域中的应用数据挖掘还可以用于传染病流行的预报 利用数据的分类与聚类 趋势预测等技术对时序数据和序列数据进行数据挖掘 开展灾变预测 数据挖掘在其他方面的应用数据挖掘在毒理学 新的药物副作用发现 卫生经济评价等方面都有广阔的用途 九 数据挖掘未来研究热点网站的数据挖掘 Websitedatamining 随着Web技术的发展 各类电子商务网站风起云涌 建立起一个电子商务网站并不困难 困难的是如何让您的电子商务网站有效益 要想有效益就必须吸引客户 增加能带来效益的客户忠诚度 而电子商务网站每天都可能有上百万次的在线交易 生成大量的记录文件 Logfiles 和登记表 如何对这些数据进行分析和挖掘 充分了解客户的喜好 购买模式 甚至是客户一时的冲动 设计出满足于不同客户群体需要的个性化网站 进而增加其竞争力 几乎变得势在必行 生物信息或基因的数据挖掘生物信息或基因数据挖掘则完全属于另外一个领域 在商业上很难讲有多大的价值 但对于人类却受益非浅 例如 基因的组合千变万化 得某种病的人的基因和正常人的基因到底差别多大 能否找出其中不同的地方 进而对其不同之处加以改变 使之成为正常基因 这都需要数据挖掘技术的支持 与通常的数据挖掘相比 无论在数据的复杂程度 数据量还有分析和建立模型的算法而言 都要复杂得多 从分析算法上讲 更需要一些新的和好的算法 现在很多厂商正在致力于这方面的研究 但就技术和软件而言 还远没有达到成熟的地步 文本的数据挖掘 Textualmining 人们很关心的另外一个话题是文本数据挖掘 举个例子 在客户服务中心 把同客户的谈话转化为文本数据 再对这些数据进行挖掘 进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息 从这个例子可以看出 无论是在数据结构还是在分析处理方法方面 文本数据挖掘和前面谈到的数据挖掘相差很大 文本数据挖掘并不是一件容易的事情 尤其是在分析方法方面 还有很多需要研究的专题 目前市场上有一些类似的软件 但大部分方法只是把文本移来移去 或简单地计算一下某些词汇的出现频率 并没有真正的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省莆田市仙游第一中学2025-2026学年高二上学期开学质量检测政治试题(含解析)
- 2025年光伏行业投资策略分析报告:长风破浪会有时策施暖霭起新程
- 幸福航空安全培训课件
- 2025年公募QDII 香港互认基金投资策略分析报告:多管齐下机遇全球 资产
- 巡察宣传课件
- 岩土工程勘察安全培训课件
- 输液速度课件
- 电商平台跨境电商用户权益保护合同
- 互联网医疗平台股权投资与医疗服务协议
- 城市综合体商铺代理销售与商业品牌组合合同
- 虚拟服装培训教程课件
- 2025年国防教育知识竞赛试题(附答案)
- 非车主押车借款合同范本
- GJB2220A-2018 航空发动机用钛合金饼、环坯规范
- 中国邮政储蓄银行2025年反洗钱知识考试题库(带答案)
- 2025年医院三基三严试题题库(附答案)
- 医院消毒供应中心控感管理规范
- 2025年部编版语文新教材三年级上册第六单元大单元教学及课时教案
- 贸易安全管理办法
- 国企总经理竞聘面试题8套和专业题22问及答案
- 酒店室内装饰工程施工组织设计方案
评论
0/150
提交评论