




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务智能 电子商务专业09级本科课程 姜元春电子商务研究所ycjiang 内容回顾 1 商务智能整体架构数据 知识 行动2 数据仓库基本知识4方面特征 基本过程 ETL的任务3 OLAP一个特征 三种操作 切 钻 转 电子商务专业09级本科课程 数据展现 数据管理 数据获取 数据迁移 作业分配数据清洗 数据仓库元数据管理 数据集市管理 安全性 分析管理 企业商务智能体系架构规划 最终用户 数据源 ETL EII 数据存储管理 业务模型 数据展现 数据分析 赛博公司数据仓库系统 实时交易 交易历史 顾客信息 售后服务 产品数据 网站信息 评论信息 顾客 销售 服务 产品 市场需求数据集市 售后服务数据集市 客服部门 销售部门 ETL过程 抽取转换装载 数据仓库 数据集市 业务数据 OLAP简介 钻取 数据聚集 旋转 数据挖掘概述 1 数据挖掘的概念2 聚类分析 相似度度量 电子商务专业09级本科课程 淘宝买家2012年3月一次购买的订单规模和订单金额 数据挖掘 引例 数据挖掘 引例 数据挖掘 引例 数据挖掘 引例 80 的买了相机包的消费者同时也买了滤镜 数据挖掘概念 数据挖掘是从大量的数据中抽取出潜在的 不为人知的有用信息 模式和趋势 JiaweiHan 为什么需要数据挖掘 知识贫乏 数据爆炸 数据挖掘过程 数据选择 从数据库中提取与分析任务相关的数据数据预处理 数据变换或统一成适合挖掘的形式 包括标准化 离散化和属性约简等操作数据挖掘 基本步骤 使用智能方法提取数据模式模式评估 根据某种兴趣度度量 识别提供知识的真正有用的模式知识表示 使用可视化和知识表示技术 向用户提供挖掘的知识 数据预处理 标准化 目的 消除变量量纲的影响 数据预处理 离散化 目的 适应不同算法的需求 降低后续分析的复杂度 数据预处理 属性约简 目的 减少属性维度 降低算法分析复杂度 数据预处理 属性约简 目的 减少属性维度 降低算法分析复杂度 模式评估 5000个学生中3000打篮球3750喝可口可乐2000既打篮球又喝可口可乐打篮球 喝可口可乐 40 66 7 打篮球的学生普遍喜欢喝可乐打篮球 不喝可口可乐 20 33 3 更有用 模式评估 关系数据库文本数据多媒体数据WEB数据 数据挖掘分类 数据类型 DataWarehouse 数据挖掘分类 WEB挖掘 数据挖掘分类 WEB挖掘 数据挖掘分类 WEB挖掘 数据挖掘分类 WEB挖掘 数据挖掘分类 知识类型 聚类挖掘分类挖掘关联挖掘序列模式挖掘 数据挖掘概述 1 数据挖掘的概念2 聚类分析 相似度度量 电子商务专业09级本科课程 聚类 聚类 Clustering 就是将对象集合分成为多个类 Cluster 的过程 聚类分析是一种重要的人类活动 早在孩提时代 人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗 动物和植物 聚类分析无处不在 如果你是一个淘宝店铺的老板 谁经常光顾店铺 谁买什么东西 买多少 按消费者的性别 年龄 职业 浏览次数 浏览时间 购物种类 金额等变量对消费者进行聚类这样淘宝店铺可以 识别顾客购买模式 如那些人喜欢 习惯周末时一次性大采购 需要针对不同的人群 制定不同的关系管理方式 以提高客户对公司商业活动的响应率 聚类分析无处不在 如果你是银行的客户经理 利用储蓄额 刷卡消费金额 刷卡次数 诚信度等变量对客户聚类 找出谁是银行信用卡的黄金客户 谁是容易流失的客户这样银行可以 制定更吸引的服务 留住客户 比如 一定额度和期限的免息透资服务 百盛的贵宾打折卡 在他或她生日的时候送上一个小蛋糕 聚类分析无处不在 如果你是社会性网站的站长 把每个用户想象成图中的一个节点 如果用户A对用户B有互动行为 转发 评论等 在用户A和用户B之间建立一条有向边这样网站可以 基于用户的互动信息 构建用户兴趣的挖掘算法 发现网站中具有相同兴趣的用户群体 聚类分析原理 引例 我们看看以下的例子 有16张牌如何将他们分为一组一组的牌呢 聚类分析原理 引例 分成四组每组里花色相同组与组之间花色相异 花色相同的牌为一副 聚类分析原理 引例 分成四组符号相同的牌为一组 符号相同的的牌 聚类分析原理 引例 分成两组颜色相同的牌为一组 颜色相同的配对 聚类分析原理 引例 分成两组大小相近的牌为一组 大配对和小配对 聚类分析 基本过程 基本过程选择合理的相似度计算方法计算个体之间的距离或相似度 构建距离矩阵或相似度矩阵基于相似性 采取某种聚类方法进行聚类对不同类别的对象特征进行分析基本原则类内对象相似性尽可能大 类间对象相似性尽可能小 聚类分析 基本过程 聚类分析 基本过程 距离计算 连续型属性 欧氏距离 Euclideandistance 曼哈顿距离 Manhattandistance 明考斯基距离 Minkowskidistance 距离计算 连续型属性 选用的度量单位直接影响聚类分析的结果 因此需要实现度量值的标准化 将原来的值转化为无单位的值 给定一个变量f的度量值 可使用以下方法进行标准化 最大 最小值方法z score方法变量指数法 距离计算 连续型属性标准化 a a min max min 连续型属性标准化 最大 最小值方法 距离计算 连续型属性 计算均值绝对偏差其中计算标准化的度量值 z score 连续型属性标准化 z score方法 距离计算 连续型属性 变量指数法把属性值除以该属性所有取值的均值 距离计算 离散型属性 属性值的个数是有限的 如性别 学历 职业等二元变量标称变量序数变量 距离计算 离散型属性 二元变量变量取值只有两种状态 0或1 二元变量分为对称二元变量和非对称二元变量 二元变量 对称的如果一个二元变量的两个状态是同等价值的 起发生具有相似的概率 则可以任取其中一种状态编码为1或者0 对于对称的二元变量 采用简单匹配系数来评价两个对象之间的相异度 Objecti d 1 2 0 5 Objectj 二元变量 非对称的如果变量的两个状态不是同样重要的 则称该变量是不对称的 将比较重要通常也是出现概率比较小的状态编码为1 将另一种状态编码为0 对于非对称的二元变量 采用Jaccard系数来评价两个对象之间的相异度 二元变量的相异度计算 gender是一个对称的二元变量其它的都是非对称的二元变量 根据Jaccard系数计算得 标称变量 NominalVariables 标称变量是二元变量的推广 它可以具有多于两个的状态 比如变量 学历 可以有研究生 本科 本科以下等多种状态 有两种计算相异度的方法 方法1 简单匹配方法m是匹配的数目 p是全部变量的数目方法2 使用二元变量为每一个状态创建一个新的二元变量 可以用非对称的二元变量来编码标称变量 标称变量 NominalVariables d 1 2 1 3 d 2 3 3 3 标称变量 NominalVariables 序数型变量 一个序数型变量可以是离散的也可以是连续的离散的序数型变量类似于标称变量 除了它的M个状态是以有意义的序列排序的 比如职称 连续的序数型变量类似于区间标度变量 但是它没有单位 值的相对顺序是必要的 而其实际大小并不重要 比如比赛排名 序数型变量 将xif用它对应的秩代替将每个变量的值域映射到 0 0 1 0 上 使得每个变量都有相同的权重 这通过用zif来替代rif来实现用前面所述的区间标度变量的任一种距离计算方法来计算 序数型变量 c1 0 0 5c2 0 5 1 混合类型的变量 一个数据库可能包含多种类型的变量 用以下公式计算对象i j之间的相异度 其中 p为对象中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行知识试题及答案
- 银行业务英语试题及答案
- 银行信用卡员招聘试题及答案
- 卫生专业遴选试题及答案
- 银行小组类面试题及答案
- 烹饪专业试题及答案
- 机车专业试题及答案
- 水专业试题及答案
- 黑龙江省大庆市2025-2026学年高三第一次教学质量检测地理试题(含答案)
- 河北省唐山市2025-2026学年高三上学期开学物理试题(含答案)
- GB/T 29340-2012锅炉用水和冷却水分析方法氯化物的测定硫氰化铵滴定法
- 2国际船舶货物系固手册
- 沥青搅拌站实验室全套仪器设备配置清单
- 2021年康平县工会系统招聘笔试试题及答案解析
- 一生一特长·一师一专长实施方案
- 游标卡尺的使用flash动画演示教学课件
- 石油钻井用钻具培训讲义课件
- 管理层财务基础知识培训
- 整理词根词缀法初中英语学习
- 立式储罐重量表
- (高清版)建筑楼盖结构振动舒适度技术标准JGJ_T 441-2019
评论
0/150
提交评论