数据挖掘学习汇报_第1页
数据挖掘学习汇报_第2页
数据挖掘学习汇报_第3页
数据挖掘学习汇报_第4页
数据挖掘学习汇报_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2016/11/15秦华妮五邑大学数学与计算科学学院关于数据挖掘的学习汇报现在是1页\一共有32页\编辑于星期五一暑期学习介绍二数据科学三案例现在是2页\一共有32页\编辑于星期五1.1课程名称和主讲教师(北京大数据研究院暑期学校)一、暑期学习介绍现在是3页\一共有32页\编辑于星期五1.2专题:fundamentaltechniquesinBigData(李平)现在是4页\一共有32页\编辑于星期五现在是5页\一共有32页\编辑于星期五现在是6页\一共有32页\编辑于星期五现在是7页\一共有32页\编辑于星期五用数据的方法研究科学的最典型的例子:开普勒的关于行星运动的三大定律二、数据科学开普勒模式与牛顿模式现在是8页\一共有32页\编辑于星期五2.2从数学的角度研究数据?数据数据建模整个数学模型相关性、排序、分类、聚类度量结构网络结构代数结构拓扑结构函数结构表格、点集、时间序列、图像、视频、文本等概率分布、随机过程、随机场、图模型等算法及实现(数据分析的困难)降低算法的复杂度分布式计算现在是9页\一共有32页\编辑于星期五数据科学数学统计学行业知识机器学习物联网云计算数据挖掘2.3数据挖掘的综合技能现在是10页\一共有32页\编辑于星期五数学的基础知识计算机科学的基础知识算法方面的基本知识数据的模型专业课程其它专业课程微积分计算机语言数值代数回归图像处理生物信息学线性代数数据库函数逼近分类时间序列分析天体信息学概率论数据结构优化理论聚类视频处理金融数据分析可视化技术蒙特卡洛方法参数估计自然语言处理网络算法文本处理计算几何语音识别推荐系统另外,随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论的基础知识。

数学系不需要一门一门的开设,而是可以开设一些新的“高等数学”课程来覆盖这些方面的内容2.4北大数据科学专业的探索现在是11页\一共有32页\编辑于星期五2.5数据挖掘的10个重要算法(1)K均值(K-means)方法(2)支持向量机(SVM)方法(3)期望最大化(EM)算法

(4)网页排序算法(PageRank)(5)贝叶斯方法(6)K近邻方法(7)AdaBoost(8)决策树算法(9)关联规则Apriori算法(10)协同过滤方法(CollaborativeFiltering)其他数据分析过程中常用的方法还有:降维(主成分分析、线性判别分析)、随机森林、Bagging方法、序列标注模型(隐马模型、条件随机场)、EM和高斯混合模型(2006年IEEE国际挖掘会议选出)现在是12页\一共有32页\编辑于星期五2.6数据挖掘的一般过程:数据清洗数据集成数据变换数据规约分类与预测聚类分析关联规则时序模型预测正确率模型解释性数据预处理数据模型训练模型性能评估现在是13页\一共有32页\编辑于星期五三、案例案例1、

智慧餐饮案例2

、中医辅助决策案例3、商圈分析现在是14页\一共有32页\编辑于星期五餐饮企业的信息化管理(传统部分):(1)客户关系管理(2)前厅管理系统(3)后厨管理系统(4)财务管理系统(5)物资管理系统

餐饮企业的数据挖掘(创新部分):菜品智能推荐、客户价值分析、新店选点优化、热销/滞销菜品分析销量趋势预测案例1、智慧餐饮现在是15页\一共有32页\编辑于星期五餐饮企业某一个月菜品的销售数据如下:现在是16页\一共有32页\编辑于星期五(1)销售数据的帕累托柱状图:分析可知:畅销菜:A1,A2,A3;滞销菜:A8,A9,A10;并且,A1~A7占菜品份额的70%,但是总盈利占月盈利额的85.0033%,可以增加投入。现在是17页\一共有32页\编辑于星期五结果第一行解释为:客户同时点e与a的概率时30%,而点了e必点a的概率是100%.

餐饮企业某段时间的点餐清单:(2)根据Apriori算法,可得如下规则:现在是18页\一共有32页\编辑于星期五消费行为特征数据如下:(3)消费客户群的价值分析:现在是19页\一共有32页\编辑于星期五客户群体1的R、F、M的概率密度函数图:客户群体1特点:R间隔相对较小,主要集中在0~30天;消费次数集中在10~25次,消费金额在500~2000元现在是20页\一共有32页\编辑于星期五客户群体2的R、F、M的概率密度函数图:客户群体2特点:R间隔相对较小,主要集中在0~30天;消费次数集中在0~12次,消费金额在0~1800元现在是21页\一共有32页\编辑于星期五客户群体3的R、F、M的概率密度函数图:客户群体3特点:R间隔相对较大,主要集中在30~80天;消费次数集中在0~15次,消费金额在0~2000元现在是22页\一共有32页\编辑于星期五客户价值分析如下:智慧营销策略:客户群体1:资源优先保持,差异化管理,提高这类客户的忠诚度与满意度,尽可能延长这类客户的高水平消费;

客户群体2:加强促销手段,加强满意度,提高他们转向竞争对手的转移成本,逐渐使其成为忠诚客户;

客户群体3:采取一定的营销手段,重点联系,争取延长客户的生命周期。客户群体1:高消费、高价值人群;客户群体2:一般客户人群;客户群体3:价值较低的客户群体。现在是23页\一共有32页\编辑于星期五采用TSNE数据降维将数据进行可视化其中红色代表客户群体1,绿色代表客户群体2,蓝色代表客户群体3现在是24页\一共有32页\编辑于星期五案例2、中医辅助决策肝气郁结证型系数热毒蕴结证型系数冲任失调证型系数气血两虚证型系数脾胃虚弱证型系数肝肾阴虚证型系数0.1750.6820.1710.5350.4190.4470.30.7730.2930.3720.4420.132………………………………0.10.0910.2930.2790.1630.395证型系数=各证型得分/各证型总分患者编号肝气郁结热毒蕴结冲任失调气血两虚脾胃虚弱肝肾阴虚TMT分期0017307231817H400212341216195H4…………………………………………930441212715H4现在是25页\一共有32页\编辑于星期五模型构建:1.中医证型关联规则模型(1)设置参数:最小支持度、最小置信度,读入数据(2)以关联规则算法对建模数据进行分析,调参运行结果:现在是26页\一共有32页\编辑于星期五2.模型分析XX=>Y规则编号范围标识1范围表示2支持度(%)置信度(%)1A3F47.8587.962C3F47.5387.53B2F46.2479.45结果分析:(1)说明肝气郁结证型系数处于(0.258,0.35],肝肾阴虚证型系数处于(0.353,0.607]范围内,TMT诊断为H4的可能性为87.96%,这种情况发生的可能性为7.85%(2)C3、F4=>H4支持度为7.53%,置信度为87.5%,分析类似(3)B2、F4=>H4支持度为6.24%,置信度为79.45%,分析类似现在是27页\一共有32页\编辑于星期五案例3、基于移动通信基站定位数据的商圈分析基站小区为六边形历史定位数据整理得到样本数据:现在是28页\一共有32页\编辑于星期五谱系聚类图:可将数据分成3类,即三个商圈现在是29页\一共有32页\编辑于星期五商圈类别1分析:工作日人均停

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论