下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于粗糙集的关联规则挖掘在餐饮信息化中的应用(1) 摘 要 关联规则挖掘是数据挖掘中的一个重要问题,在最近几年被广泛研究。本文将粗糙集理论及方法引入顾客消费水平评价中,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的应用领域做出了有益的探索。 关键词 粗糙集;关联规则;餐饮信息化;区分矩阵;属性约简 1 引言 粗糙
2、集理论(Rough Set)是由波兰数学家Z.Pawlak 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数,总结出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。 关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以分析,如何有效的得到有意义的关联规则成为研究热点。本文以酒店行业为应用背景,将基于粗糙集理论的数据挖掘技术应用于餐饮部门顾客消费记录,通过属性约简方法,将
3、餐饮信息数据库中杂乱、无序的原始数据,化简为对企业有用的信息,为企业的决策提供新的解决方法。 2 基本概念 2.1 粗糙集理论的基本概念 粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。 定义1粗糙集理论中定义信息系统为一个如下四元组:S = (U,A,V,F),其中U = (x1,x2,xn) 是对象集,即论域;A 是属性集合,A = CD,且CD = ,其中C为条件属性,D为决策属性;V 为属性A的值域;F 是U ×A V 的映射,
4、它为U 中各对象的属性指定唯一值。S又被称为决策表。 定义2 在信息系统S 中,对于一属性集I A,可构造对应的二元等价关系。IND (I) < x,y > U ×U | a I,有a(x) = a(y) ,称IND (I) 为由I 构造的不可分辨关系。不可分辨关系实际上就是I上的等价关系。因此,针对属性集I上的不可分辨关系,U可划分为几个等价类,用U/IND(I)表示。 定义3 约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集C的简约是C的一个非空子集C,
5、C和C必须满足以下两个性质: (1) ind(C,D) =ind(C,D),不存在C C有ind(C,D) =ind(C,D) 。 (2) 一个决策表可能同时存在几个约简,C 的简约的集合记作Red(C) 。 这些约简的交集定义为决策表的核(Core),Core (C) =Red(C) 核中的属性是影响分类的重要属性。 定义4 信息系统S中关于属性集C的区分矩阵M(C)=(mij)n×n定义为 &
6、#160; M(C)=(mij)n×n是代表了区分xi,xj的完整信息。 2.2 关联规则 关联规则是在交易数据、关系数据或其他信息载体中查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。 定义6 设I = i1,i2,in 是项的集合。包含K个项的项集称作K项集。设D是数据库记录的集合,其中每个事务T是项的集合,且T I。设X是一个项集,事务T包含X当且仅当X T。
7、160; 关联规则是形如 的蕴涵式,这里,且XY=。X称为规则的左部或规则的前提(简记LHS),Y称为规则的右部或结论(简记RHS)。 度量规则的参数是支持度(Support)与置信度(Confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为: 其中P(
8、X)表示是指X在数据D中出现的概率,其余雷同。Support()指X、Y在D中同时出现的概率;Confidence()表示在X出现的前提下Y出现的条件概率。如果得到的规则同时满足支持度部小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。 3 基于粗糙集的关联规则挖掘模型 将基于粗糙集的关联规则挖掘的算法应用于酒店顾客消费数据库,整个挖掘过程分为三步:即数据预处理,属性约简,关联规则的挖掘,见图1。 (1) 数据预处理:通过对餐饮部门的初始数据进行清洗,缺失值处理,转换及数据选择,获取初始信息表
9、,且初始表转换为粗糙集形式,并明确条件属性集和决策属性; (2) 属性约简:对条件属性进行约简,删除多余属性,用分辨矩阵来完成约简和求核,在此基础上生成约简属性集,合并相同行,进行属性约简; (3) 关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理论文献6中的算法,进行关联规则的挖掘。 4 数据挖掘在餐饮信息化中的应用 在全面信息化的21 世纪,我国酒店业面临加入WTO 带来的难得机
10、遇与严峻挑战。酒店企业要在这一全新的竞争环境中生存与发展壮大,信息技术的作用举足轻重。而数据挖掘是企业信息化的灵魂所在,利用它能提升企业信息服务的层次,实现企业信息共享,进而为决策者提供依据。 4.1 典型应用 酒店是一种提供特殊服务的企业,它出售的商品可以概括为“空间” 、“时间”和“服务”。其中,最重要的经营产品就是客房和餐饮,餐饮信息化是酒店信息化的重要组成部分。数据挖掘技术在餐饮部门中的典型应用包括交叉销售和个性化营销等。 (1)交叉销售。利用数据挖掘技术从数据库所存储的客户信息,尤其是以前
11、消费行为的信息中,寻找影响客户消费行为的关键因素,并建立预测模型对客户将来的消费行为进行预测分析,分析哪些客户最有可能对企业的产品感兴趣、会对哪些相关产品感兴趣、客户购买某些产品的可能性有多大等,以决定对哪些客户进行交叉销售,并向这些客户提供适合其需求的产品。 数据挖掘中的关联分析经常被用来帮助企业发现一些隐含的、微妙的且极具商业价值的关系。这种挖掘过程一般分为两步:首先,发现所有的频繁项集,这些项集的频度要大于等于最小支持度,从而找出所有可能被一起购买的关联产品;其次,根据所获得的频繁项集产生相应的
12、强关联规则,这些规则必须满足最小置信度阈值,从而找出一起购买可能性足够大的关联产品。 (2)个性化的市场营销 近年来,餐饮营销成为现代餐饮管理的重中之重。餐饮营销就是以市场为起点,以顾客需求为焦点,寻求更多次地与客户达成交易。餐饮专职销售作为新的营销理念正在被一些大型酒店所青睐。所谓餐饮专职销售指餐饮专职销售人员对自己的餐饮产品有着深刻的了解,并且通过长期与客户打交道,拥有一批比较固定的客户群。数据挖掘可以把大量的用户分成不同的类,每一类里的用户具有相似的属性,不同类里的客户属性也不同。成功的市场营销必须依赖于对客户的了解,让每次的营销活动都具有
13、针对性,进行个性化营销,这样可以降低营销成本,提高用户的效应率。 数据挖掘的聚类分析技术、粗糙集理论等可以对数据库中收集、加工和存储的大量客户信息进行分析和处理,根据客户的消费心理、消费习惯、偏好程度、消费频率、收入水平等因素把大量的客户进行分类,酒店企业可以根据不同客户群的特征,提供差异化营销策略。下面本文就以人均消费水平评价为例,说明基于粗糙集的关联规则挖掘的实施过程。 4.2 基于粗糙集的关联规则挖掘在餐饮信息化中的应用 根据上述构建的数据挖掘模型,利用启发式属性约简算法对餐饮数据进行约简,先进
14、行数据预处理,再求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最终提取规则应用于新对象的分类。 1)获取初始信息表 通过数据提取和离散化,获取如表1的数据,表1是某大型酒楼餐饮部门有关高档型,较高档,中档,低档型四种人均消费类型的部分调查记录。该表中论域U=1,2,19,条件属性C=A1,A2,A3,A4,A5,决策属性DD1。其中,A1:班次,A2:餐厅地点,A3:客人数,A4:总金额,A5:付款方式,用D1表示决策属性人均消费水平档次。
15、160;表1 某酒楼餐饮部门消费者的部分记录 A1班次值1、2、3分别表示早餐、午餐和晚餐;A2餐厅地点表示为10:美食广场,11:零点餐厅,12:包厢,15:西餐厅;把初始数据按照实际需要进行离散化处理和分类,将A3客人数分为四类,0:少,1:中,2:较多,3:多;A4总金额分为五个等级,0:低,1:较低,2:中,3:较高,4:高;A5付款方式表示为1:RMB人民币现金,2:TOA转前台帐户,3:TOR转AR帐。 决策属性A6人均消费分为0:低,1:中,2:较高,3:高四个等级。
16、60; 2)属性约简 容易看出,该表是相容决策表。首先利用区分矩阵求出核,核为Core A4,A5,然后计算其它属性的重要性分别为A1:0.25、A2:0. 7、A3:0.35,将属性重要性最大的A2加入,得到约集R=A2,A4,A5,则表1通过属性约简后的决策表如表2所示: 表2 属性约简后的决策表 3)关联规则挖掘 根据上面得到的约集,用属性A2、A4、A5之间的隐含关系来挖掘关
17、联规则,设支持度阈值30%,置信度阈值80%,可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有: rule 1. (A4 = 0) & (A5 = 2) => (D1 = 0) ; rule 2. (A4 = 2) => (D1 = 1); rule 3. (A4 = 3) => (D1 = 2); rule 4. (A2 = 12) & (A4 = 4) &
18、amp; (A5 = 1) => (D1 = 2); rule 5. (A4 = 4) & (A5 = 3) => (D1 = 3); rule 6. (A4 = 1) & (A5 = 2) => (D1 = 2). 将A2,A4,A5的含义带入,则得到完整的决策规则,如: (总金额小于75元) and (付款方式为转前台帐户) (人均消费小于10元);
19、160; (325=<总金额<800) (10=<人均消费<70); (800=<总金额<1600) (70=<人均消费<150); (餐厅地点在包厢) and (1600=<总金额<20000) (70 =<人均消费<150); (1600=<总金额<20000) and (付款方式为转AR帐) (150=<人均消费<1500); (总金额<75) (人均消费<10)。 由以上规则可以得出: 总金额消费低时,人均消费低;当就餐地点在包厢,且消费额度较高时,人均消费水平为较高档次;而当总金额消费高,且其付款方式为转AR帐户时,其人均消费水平高,也就是说当消费者为单位消费时,其消费水平档次高。 5 结束语 粗糙集以其独特的优势正得到越来越多研究者的关注,由于许多成功的应用,使得它的声望越来越高。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026秋季国家管网集团华中公司高校毕业生招聘考试参考试题(浓缩500题)附参考答案详解(精练)
- 2025国网江苏省电力校园招聘(提前批)笔试模拟试题浓缩500题含答案详解(考试直接用)
- 2025国网黑龙江省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题附答案详解(完整版)
- 2026秋季国家管网集团华南公司(广东省管网公司)高校毕业生招聘笔试参考题库(浓缩500题)带答案详解
- 2026秋季国家管网集团山东分公司高校毕业生招聘考试备考题库(浓缩500题)及答案详解【夺冠】
- 2026国网黑龙江省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题及一套完整答案详解
- 2026国网宁夏电力公司高校毕业生提前批招聘笔试参考题库浓缩500题及答案详解(有一套)
- 2026国家管网集团甘肃公司秋季高校毕业生招聘25人笔试参考题库(浓缩500题)带答案详解(考试直接用)
- 2025国网贵州省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题(含答案详解)
- 2026秋季国家管网集团山东分公司高校毕业生招聘笔试模拟试题(浓缩500题)含答案详解(b卷)
- 电商直播运营策划方案
- 中学生作文写作技巧提升
- 2025年水运监理工程师考试(港口工程)历年参考题库含答案详解(5套)
- 儿童白血病常见化疗药物
- (2025年标准)探伤委托协议书
- 药物过量中毒护理查房
- 湿性愈合护理课件
- 肝癌患者健康宣教
- 2025年合肥市庐阳区海棠社区医院(社区卫生服务中心)招聘9人考试模拟试题及答案解析
- 医院陪护工管理制度
- 2025年图书管理员职称考试试题及答案
评论
0/150
提交评论