版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
青岛理工大学
课程设计川报告
院(系):理学院
专业:信息与计算科学
班级:―计科082_____学号:
学生姓名:
指导教师:
完成日期:2022年12月22日
目录
第一章:数据挖掘基础知识.......................................................3
第二章:系统分析...............................................................3
2.1系统背景..................................................................3
2.2健康管理中数据挖掘技术的应用...........................................3
2.3基于决策树的数据挖掘......................................................4
第三章:数据采集...............................................................5
第四章:数据预处理.............................................................5
第五章:数据挖掘...............................................................6
第六章:数据挖掘结论的体现.....................................................7
第七章:个人体味...............................................................7
2
第一章:数据挖掘基础知识
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数
据,可以广泛使用,并且迫切需要将这些数据转换成实用的信息和知识。获取的信息
和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科
学探索等。特殊地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高
性能(并行)计算的技术在处理海量数据集方面往往是重要的。分布式技术也能匡助
处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KDD),也有人
把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以卜三个阶段
组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或
者知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管
理系统查找个别的记录,或者通过因特网的搜索引擎查找特定的Web页面,则是信
息检索领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,
但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而
有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能
力。可以分为
两类:直接数据挖掘;间接数据挖掘1.直接数据挖掘目标是利用可用的数据建立
一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属
性,即列)进行描述。2.间接数据挖掘目标中没有选出某一具体的变量,用模型
进行描述;而是在所有的变量中建立起某种关系。分类、估值、预言属于直接数据
挖掘;相关性分组和关联规则、会萃、描述和可视化、复杂数据类型挖掘属于间接数
据挖掘。
第二章:系统分析
2.1系统背景
随着社会进步和科学发展,人口老龄化及生活水平的提高,人们越来越关注自身
的健康状况。健康管理的概念最早起源于美国。1929年美国洛杉矶水利局成立了世
界上第一个健康管理组织(HealthManagementOrganization,HMO),该组织通过注
重预防的全面健康管理的方式,有效降低会员疾病发病率,提高人们的健康水平。健
康管理系统中积累大量的数据资料,如何从海量的数据中提取隐含在其中的事先
未知的、潜在的、深层次、有价值的信息,辅助专家或者群众个体进行诊断决策,是
健康管理系统必须考虑的问题,而这正是数据挖掘的长处。本文主要针对中老年慢
性病的管理的需求,以糖尿病为例,采集居民的健康档案信息指标,利用决策树方
法生成对当前数据有效的模型,并对模型进行分析,筛选高危人群,提高糖尿病的
早期发现率,使人们不断提高对健康的认识程度,疾病要以预防为主,减少身体及
经济上的负担。
2.2健康管理中数据挖掘技术的应用
3
健康管理系统是对个人或者人群的健康危(wei)险因素进行全面检测、分析、
评估以及预
3
测和预防的全过程的系统。它普通由以下几部份组成:基本信息管理(含基本项管理)、
体检项目管理(含健康评估、健康报告、健康指导)、个人(企业)健康档案数据采
集、信息查询、综合数据分析和系统管理。健康管理系统的总体结构如图2.2.1所示:
图2.2.1
在这个系统中,输入用户(病人)的各项生理参数,诸如身高,体重,心电,血压,
血氧,体温等,这些参数将与用户的个人信息,社区信息一起被存档,作为个人的病
史记录。针对以上的记录,数据挖掘可以应用在以下两个方面:一是用户根据个人的
生理参数,寻求合适的保健方法或者治疗方法。此外一方面是相关科技工作者,社区
医疗组织,计生人员主动到系统上去搜寻必要的信息,然后根据用户的病症,治疗
过程以及治疗结果挖掘出更有效的治疗方法等。比如社区医务人员可以通过系统查
看本辖区的慢性病表征情况,筛选出慢性病的高危人群,挖掘出引起慢性病的主要
因素,提醒居民对健康情况引起注意。
23基于决策树的数据挖掘
2.3.1决策树ID3算法
ID3算法[1]是由Quinlan提出的一种基于信息增益的典型的自上而下决策树归纳算
法,主要特征是在一个结点上使用最大的信息增益量,作为启示式来决定应用选择哪
一个属性来进行树的展开。ID3算法的基本原理如下:已知训练例子集E,设训练例
子集E中含有p个正例和n个反例,则一个例子属于正例集PE的概率为P/P+n,属性
于反例集NE的概率为n/Pin,一棵决策树可以看做正、反例集的消息源,所需要的
I(p、〃)-log—-------log---
信息燧为:P+〃P+〃P+〃P+”设属性A取V个不同的值{A1,
A2,...Av},它们将E划分为V个子集{尸乂,尸也,…,尸MJ,假设E中含有Pi个正例和n
个反例,那末子集iE所需要的期望信息是I(Pi,ni),并且以A为根的树所需要的期望
及4)=±旦旦/(入力)
信息为各子集所需要的期望信息的加权平均值,即HP+N,以A
4
为根的信息增益是:Gain(A)=I(p,n)-E(A)ID3算法选择Gain(A)最大的属性A作为根
结点,对A,的不同取值疝应的E的V个子集iE递归调用上述过程生成的A,子结点B1,
B2,…Bvo健康管理系统的档案数据记录庞大,对应的属性值较多,ID3算法是基于
所有属性值都确定的情况下分类的,而实际应用中时常浮现有些记录的属性值缺失或
者空白的情况,ID3算法就直接抛却数据库中所有丢失数据的样本,在建模数据挖
掘时就不能对健康档案数据进行正确的分类或者预测。同时ID3算法对健康管理进
行数据挖掘时确定树根节点时选择居民的年龄(有7种值)作为首选判断的属性根
节点,但实际中医学专家却认为这个属性在判断糖尿病诱因时不是最重要的,ID3
算法往往选择取值较多的属性作为测试属性。健康管理系统进行数据挖掘时ID3算
法每选择一个分裂节点,算法都要经过多次的对数运算,影响了决策树的生成效率。
2.3.2决策树ID3的算法改进
针对以上ID3算法在健康管理系统应用中存在的问题,提出以下几方面的改进方
案:1)对属性值缺失或者空白情况的处理,通过对训练集中其他完整的实例,进行
比较来选择一个较优的填充值,在构造决策树之前,对训练集中缺失或者空白的属
性进行填充。2)对算法要经过多次对数运算,影响决策树生成效率的处理,对信息
增益公式的对数运算进行转换,找到一种属性选择的新方法,使算法生成决策树的
时间大大减少,提高决策树分类的效率,提出了简化埔的计算方法。3)ID3算法
根据每一个属性信息端的值来判断数据集中的分裂属性,信息燧反映每一个属性对
整个数据集的不确定程度,TD3往往选择取值较多的属性,为克服这一缺点,我们
为每一个属性的信息端引入一个权值,来平衡每一个属性的不确定程度,更符合实
际的数据分布。但要保证决策树生成效率,这里选择对每一个属性的简化煽引入一
个权值,权值为每一个属性在数据集中的取值个数:再用该权值乘以简化端,使信
息崎的结果还依赖于属性的取值个数,乘积结果称为加权简化烯,再通过比较加权简
化焙的大小来选择最优的属性作为决策树的分裂节点构造决策树,这样既克服了倾
向属性选择较多值的问题,又可以提高决策树的构建速度。
第三章:数据采集
本系统采集了某地区多个社区2005年1月1日到2022年12月31两年居民健康
档案数据,包括居民基本信息、、病史、家族史、生活方式(每日膳食、运动锻炼、吸
烟、饮酒等)、体检信息等,共5531人。为了确保实验结果,保留2005年1月1日
到2022年12月31两年的档案数据为筛选因素属性数据,从2022年1月1日到2022
年12月31口期间,更新的居民健康档数据中糖尿病诊断或者检查结果作为结局数据,
两年内糖尿病患者总共有53人,根据个人ID号,将筛选因素数据表和结局数据表连
接成一张大表,将所有记录随机分为训练集和测试差两组。
第四章:数据预处理
数据预处理,需要对连续的属性进行离散化处理,并要去掉一些对挖掘来说没有
意义的属性,在进行挖掘时,应该根据不同的数据有选择的选取挖掘属性,比如说去
掉一些居民的基本家庭信息、联系方式等等。本系统根据数据库中数据选用了其中12
个属性、属性的取值(即离散值)和人数进行数据挖掘,如表4.1所示:
5
属性取值(离散)人数
年龄大于4。3253
小于等于402278
体育锻炼缺失3
缺少5001
偶尔57
经常470
ttaI_________男2714
女2817
舒张压高181
低2
正常范围5374
缺失1
心率心率过快68
心率正常5463
高血压史有645
无4886
________________正常3620
超标20%1911
食脂肪多的食物(天)<12684
1-21904
3-4388
5-779
不详476
食甜食(天)<12580
1-21809
3-4538
5-7131
不详473
感到压力轻松1851
尚可2790
有压力410
精神紧张有102
无5429
表4.1
随机抽取原始数据中的3500条记录作为训练数据集,剩余数据作为测试数据集。应
用改进算法克服属性选择多值化的办法构建决策树,计算化简信息燧值及加权简化焙
值,选取加权简化嫡值最小的属性作为决策树的根结点,递归调用这种方法建立各棵
子树。
第五章:数据挖掘
为验证改进算法的有效性,对测试数据进行分析,见表2所示:
6
表2两种克法结果对比
符合规
信息计算
检测误检率准确则的平
增益时间
率®(%)率®)均覆盖
))ms
率(%)
原
算63.3512.35283.3548.4342.54.58
法
改
进
70.658.54387.3757.4863.73.65
算
法
由以上分析结果可以看出,改进的算法优于原算法,充分说明改进算法,能够以更快
的速度及准确率构造决策树,基本达到实验要求,更适合健康管理系统的挖掘工作。
根据决策树对居民健康档案数据进行挖掘得出结论:具有高血压病史的人、脂肪饮食
不详的人或者体重超标2佻、体育锻炼缺失的人、年龄大于40岁的人可能患有糖尿病
的高风险。
第六章:挖掘结论的呈现
本文通过对决策树ID3算法进行研究,针对ID3算法在健康管理系统中,应用存
在的一些问题提出了改进算法,克服属性选择多值性、处理属性值空白或者缺失的情
况及提高决策树构建速度等方法。本文使用决策树对居民健康档案数据进行糖尿病
诱因的数据挖掘,得出「可能得糖尿病的相关属性,结果和实际数据及患病背景知
识相一致,证明使用其进行数据挖掘得出的结论是有效的。在其他慢性病的预防及
治疗中也起到了重要作用。
第七章:个人体味
1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品
具有代表性的SPSSClementine,SASEnterpriseMiner,IBMIntelligentMiner;SQL
Server2005属于集成为了挖掘模型类的,挖掘算法与SQL数据库产品密不可分
2、数据挖掘过程的重点绝对是数据预处理,普通认为预处理工作会占60%-80%
时间不等,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是
展现,还要做分析和预测(无非现阶段不少B1项目确实只是在做展现,最多加点多
维分析)。BI概念提出之初就是辅助战略决策的产物,固然向操作型BI发展的趋势这
7
里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史
数据的展现和分析过程中得到实用知识,不管你是通过报表或者多维分析得到企业各
领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这
一切都是基于企业历史数据的。没有数据质量基砒的保证,展现得多华丽的走势图
表都是垃圾。
(1)如果是基于数据仓库或者数据集市的挖掘,那末可直接在仓库或者数据集
市中建立挖掘模型源输入(也可叫暂时宽表,这个表是根据挖掘业务需求对其他维度
表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没
有仓库或者集市这一数据基础,那末就需要一个针对挖掘业务需求字段属性的简单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校消防安全管理制度
- 莎车县伊什库力乡2026年阔依其(17)村农村道路建设以工代赈项目水土保持报告表
- 泥江口镇竹产业园配套锅炉房集中供热项目环境影响报告表
- 中职《精神病学(人卫 第8版)》同步课件 第16章 睡眠 觉醒障碍
- 2026佛教招聘面试题及答案
- 2026干细胞技术员面试题及答案
- 2026安顺社工面试题及答案解析
- 中考作文九大主题-情景开头结尾45例
- 第十课 翻新老照片-照片处理之修复技术教学设计初中信息技术(信息科技)八年级上浙教版(广西、宁波)
- 第4课 春夏的色彩教学设计小学美术赣美版二年级下册-赣美版
- 农村兄弟二人分家协议书范文
- 小吃店食品安全规章制度
- 装修现场临时用电施工方案
- 初中人教版历史教学大纲
- 2024年湖北高考化学试卷(真题+答案)
- DL-T5496-2015220kV-500kV户内变电站设计规程
- 两办意见八硬措施煤矿安全生产条例宣贯学习课件
- 机器学习实战:基于ScikitLearn
- 《儿童福利机构社会工作服务指南》
- 炼钢理论基础(炼钢工艺)
- 汽煤柴油加氢装置操作工(技师)考试复习题库宝典(含答案)
评论
0/150
提交评论