数据挖掘-毕业论文.docx_第1页
数据挖掘-毕业论文.docx_第2页
数据挖掘-毕业论文.docx_第3页
数据挖掘-毕业论文.docx_第4页
数据挖掘-毕业论文.docx_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文封面毕业论文(设计)题目:学生姓名:_学 号:_专业班级:XXXXXX专业 09?班 指导教师:_职称_指导教师:_职称_起止时间: 2013.92014.5诚 信 声 明我声明,所呈交的毕业设计作品和论文是本人经过近四年的基础课程与专业课程学习的基础上,在指导老师的指导下,经过几个月集中的毕业设计学习、实践和努力工作所取得的成果。据本人查证,除了文中特别加以标注和致谢的地方外,设计作品和论文中不包含其他人已经发表或撰写过的研究成果。我承诺,设计作品和论文中的所有内容均真实、可信。学生签名: 签名日期:2014年月 日一级标题:三号宋体,居中,加粗,1.5倍行间距,段前后0.5行间距计算机与信息学院本科毕业论文(设计)选题审批表毕业设计(论文)题目指 导 教 师职 称指 导 教 师职 称题 目 来 源(科学研究项目、教学改革项目名称或企事业合作单位名称)选题的依据: (题目背景及可行性分析,要求具体指出该课题所对应的相应知识点) 150字左右教研室审核意见教研室主任签字: 2013年9月15日系审批意见系主任签字: 2013年9月20日四号宋体字,加粗,单倍行间距。计算机与信息学院一级标题:三号宋体,居中,加粗,1.5倍行间距,段前后0.5行间距本科毕业论文(设计)任务书题目:天猫用户对其品牌的行为分析1主要内容及基本要求任务书要求填满两页,行间距可根据字数调整,一定要使页面饱满,不要出现半页纸的现象。1、图书馆及上网搜集相关数据挖掘的书籍文献作为研究参考及一些思路的借鉴;2、从聚类和关联分析几个方面探索天猫用户购物数据的信息,先用excel做简单的初步分析,再用sas做进一步的数据挖掘工作及检验结果,以及写下每个研究阶段过程中的日志;3、得出一个具有意义的结论,在18w条数据中挖掘出有用的信息,并做出简要的分析和解释。2进度计划2014年11月初,完成在上述内容要求中的数据搜集及开题报告;2014年12月初,重点参考相关文献,初步拟定论文框架;2014年12月底之前完成论文初稿;2015年2月底之前完成外文翻译和文献综述;2015年3月-2015年5月,完善作品,修改论文;2015年5月初-2013年5月中旬,论文打印;2015年5月30 日以前答辩完毕并提交所有电子材料。3主要参考文献1彭剑芳.基于数据挖掘的网络购物行为的分析D.云南:云南大学,2011.5.1. 2毛国君.数据挖掘技术与关联规则挖掘算法研究D.北京:北京工业大学,2003.5.1.3李菁菁,邵培基,黄亦潇,等.数据挖掘在中国的现状和发展研究J.管理工程学报,2004(03):1015.4毛国君,等.数据挖掘原理与算法M.北京:清华大学出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.数据挖掘导论M北京:人民邮电出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 数据挖掘原理J 北京:机械工业出版社,2009,09(12):1721-1741.指导教师签名:_ 2013年9月29日学 生 签 名:_2013年9月30日(此表为教师填写,内容打印,签名必须手写。学生要保存好该任务书,与开题报告一同上交指导教师,以备装订。)40装订 线 浙江万里学院 毕业论文(设计)报告纸计算机与信息学院一级标题:三号宋体,居中,加粗,1.5倍行间距,段前后0.5行间距凡是学生所写东西的页面,必须有此页眉。四号宋体字,加粗,单倍行间距。本科毕业论文(设计)开题报告论文中文题目天猫用户对其品牌的行为分析论文英文题目Analysis Tmall users to its brand behavior学生姓名沈哲培专业班级信息与计算科学专业112班1 题的背景和意义阿里巴巴是中国最大和世界第二大网络公司,并在2014年9月9日赴美上市,马云净财富达219美元成为中国大陆首富,在2013年的双十一节日中,1小时67亿,6小时不到突破100亿;13小时实现191亿,追平去年成绩;21小时达到300亿,超过阿里巴巴官方预期,在2014年的双十一再创新高,达到了571亿元,如此大的交易数据正是我们研究分析的最好对象。阿里巴巴如此大的交易,肯定会有不小的回头客,而我们做数据挖掘可以挖掘潜在客户,以及做出一定的预测,在一定的时期或者时间段,进行及时的促销活动,挽留住潜在客户,挖掘出新的客户,并在其中分析出他们的购物规律,偏好,需求并根据这个做出相应的预测,使得未来的利益达到更大化,也更加从容的应对客户需求的变化。针对品牌企业,通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的广告收益。小标题是小四号加粗宋体字,表格内文字要求:小四号仿宋体,首行缩进2字符。2 题基本内容,拟解决的主要问题课题基本内容是:通过对用户行为监测获得的数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而找出网站、推广渠道等企业营销环境存在的问题,有助于企业发掘高转化率页面,让企业的营销更加精准、有效,提高业务转化率,从而提升企业的广告收益。拟解决的主要问题:前期主要通过excel等统计分析软件,对源数据进行初步的统计及分析,去除一些不必要的数据项,对有关联的数据项进行简单的分析他们的几何关系,之后主要通过sas软件进行数据挖掘分析,数据导入,关联分析,建立模型,分析预测,得出结论,主要解决的问题就是针对于天猫官方的,分析用户购物的心理及相应规律后,可以快速的反应出每位客户的需求,我们就可以根据这些需求,相对应的插入相关的购物链接(类似广告性质),达到利益更大化。开题报告字数不少2000字,行间距可根据字数调整,一定要使页面饱满,不要出现半页纸的现象。写作方法参见附录。3 题研究方法及技术路线课题研究方法:1、图书馆及上网搜集相关数据挖掘的书籍文献作为研究参考及一些思路的借鉴;2、从聚类和关联分析几个方面探索天猫用户购物数据的信息,先用excel做简单的初步分析,再用sas做进一步的数据挖掘工作及检验结果,以及写下每个研究阶段过程中的日志;3、得出一个具有意义的结论,在18万条数据中挖掘出有用的信息,并做出简要的分析和解释。技术路线:通过对数据的研究,我们可以找到数据之间的联系。比如,我们可以通过用户ID和对品牌ID之间的关系,可以预测用户下次会不会购买这个品牌的东西。通过对淘宝海量的数据研究,可以挖掘其中的一些关联,从而使我们对用户推送一些更有针对性的广告,使用户在淘宝上更方便的找到自己想要的商品。同样,也能使商家更方便的找到自己的用户。这样能使用户和商家之间更有效率。4.研究的总体安排和进度计划小标题加粗仿宋体小四号。总体安排:我写的论文题目是天猫用户对其品牌的行为分析所以在空余时间去收集相关资料,并努力完善论文,在专业中积极跟上全班的总体论文进度,积极与辅导员及相关辅导老师沟通,不拖拉,在规定时间完成相应的任务,并在最后交上让老师满意的作品。进度计划:2014年11月初,完成在上述内容要求中的数据搜集及开题报告;2014年12月初,重点参考相关文献,初步拟定论文框架;2014年12月底之前完成论文初稿;2015年2月底之前完成外文翻译和文献综述;2015年3月-2015年5月,完善作品,修改论文;2015年5月初-2013年5月中旬,论文打印;2015年5月30 日以前答辩完毕并提交所有电子材料。5.主要参考文献不少于10个,具体要求同文献综述。1彭剑芳.基于数据挖掘的网络购物行为的分析D.云南:云南大学,2011.5.1. 2毛国君.数据挖掘技术与关联规则挖掘算法研究D.北京:北京工业大学,2003.5.1.3李菁菁,邵培基,黄亦潇,等.数据挖掘在中国的现状和发展研究J.管理工程学报,2004(03):1015.4毛国君,等.数据挖掘原理与算法M.北京:清华大学出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.数据挖掘导论M.北京:人民邮电出版社,2010.12.10.6David Hand,Helkki Mannila,Padhraic Smyth. 数据挖掘原理J.北京:机械工业出版社,2009,09(12):1721-1741.7李嶶,李宛州.基于数据仓库技术的进销存系统的设计与实现J.2001(10):93-948Jiawei Han.数据挖掘概念与技术M.机械工业出版社2001,8 9W.H.Inmon.数据仓库M.机械工业出版社2000,510林字等编著.数据仓库原理与实践M.北京:人民邮电出版社,200311张春阳,周继恩,刘贵全,蔡庆生.基于数据仓库的决策支持系统的构建,计算机工程J.2002(4):249-25212陈德军,盛翊智,陈绵云.基于数据仓库的OLAP在DSS中的应用研究J.2003(1):30-3113朱明,数据挖掘M.合肥:中国科技大学出版社2002,514 陈京民等.数据仓库与数据挖掘技术M.北京:电子工业出版社,2002.15 陈文伟等.数据挖掘技术M.北京:北京工业大学出版社,2002.指导教师意见指导教师签名: 2013年 11月 1日系(教研室)评议意见系(教研室)主任签名: 2013年 11月 2 日注:开题报告内容可以打印,但导师和系(教研室)意见及签名必须手写。计算机与信息学院四号宋体字,加粗,单倍行间距。一级标题:三号宋体,居中,加粗,1.5倍行间距,段前后0.5行间距本科毕业论文(设计)文献综述 四号宋体字,加粗,1.5倍行间距,段前段后各0.5行间距。浅谈数据挖掘0前言随着网络的迅猛发展,依托于网络的网络购物做为一种新型的消费方式脱颖而出,在全国乃至全球范围内都在迅猛的发展。网络购物行业也越来越得到更多人的关注,与此同时,各种研究方法、数据分析方法也被运用到了关于网络购物的研究当中。数据挖掘技术作为一种新的数据分析方法逐步应用到网络购物的分析中,获取数据、抽取规律、预测趋势、建立模式,这对促进网络购物行业的健康、有序发展是十分有益的。本研究使用数据挖掘的方法,借助SAS工具,以阿里巴巴大数据竞赛的真实数据为基础,对天猫用户购物行为进行了研究分析。1什么是数据挖掘 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。在较浅的层次上,它利用现有数据库管理系统的查询、检索及数据挖掘功能,与多维分析、统计分析方法相结合,进行联机运算分析处理,从而得出可供决策参考的统计分析数据的一个有商业意义的结果,这个结果可以出售给需要的卖家,这就是所谓的大数据分析。在深层次上,则从数据库中发现前所未有的、隐含的知识。例如:在大街上川流不息的车流量,在普通人眼里,当你通过一个十字路口时,可能会看到除了塞车就是车祸,亦或者没有事的安全通行,没有其他的信息可能会有,如果是一个数据挖掘人员就会发现其中的数据信息,一小时会有横向会有多少车流量,竖向会有多少车流量,这样可以得到一组数据,通过数据挖掘分析后得到更有的结果,十字路口的红绿灯就可以根据车流量设置时间长短。而从另一个角度,如果在十字路口进行路线测绘的话,就可以得到类似地图的数据,手机中的导航软件就是通过这样实现的,所以我们生活中数据挖掘无处不在,只是在我们不认识数据挖掘时,不会去发现。2数据挖掘的任务 数据挖掘的两个高层目标是建立模型和预测。前者指用一些变量或数据库的若干已知字段通过相应的数据挖掘分析软件,以及某些情况下需要实地考察,再结合团队间的分析,结合数据挖掘的相应模块导出一个比较合理性、可行性、具有预测性的模型,而后者是建立在前面的分析好后,通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预测。从这种意义上说,预测的目的就是对未来未知变量的预测,这种预测需要时间来验证,所以他需要更加具体化的分析出一些较为能大众接受的信息,分析出相应的规律,总结出相关的报告,来确认验证这一预测。 3数据挖掘的特点 数据挖掘技术具有以下特点:(1)数据挖掘基本分为3步骤:数据准备、规律寻找和规律表示。 (2)数据的主要分析方法有:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。(3)需要处理的数据规模十分庞大,达到GB、TB数量级,甚至更大,所以数据挖掘常被较为“大数据挖掘”。 (4)在许多些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。(5)数据挖掘往往需要把一些无规律,大数量级的,含有偏离点的(因特殊因素而导致的不正常的数值),在有效的时间内转换成有规律,无瑕疵的,主要预测动向的模型。(6)在某种角度上,数据挖掘也是可以与用户知识库交互,从用户的数据中寻找规律,并且规律是可视化的。4 数据挖掘的过程 数据挖掘的步骤会随不同领域的应用可能有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,所以首先需要明确业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构同样是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会得到理想的结果的。(1)数据的准备与选择。搜索所有与研究对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(例:在中国统计局官网上就可以搜索到往年的与国家经济有关的数据资料)官方的数据也较为真实可靠,具有挖掘价值。(2)数据的预处理。主要是分析并提高数据的质量,排除一些因某些特殊因素而引起的特殊值,会影响整个数据组的最后预测效果。 (3)模型的建立。通过数据挖掘软件(例如:SAS)将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。(4)数据的预测。建立模型之后,在模型上会有一些本来用于分析的数据,也会有未来的一些经过分析后预测的数据,通过这些数据,我们就可以知道一些即将发生的现象或者问题,并对其进行提前预防,或其他措施。(5)数据预测的结论整理。数据挖掘这项任务的工作者,往往不是最后的执行者,所以我们需要将预测的结果整理成一份通俗易懂的报告,最好附上图表,让上司或领导更易理解,这也是十分关键的一步,一个好的结论没有表述好,可能就会被抛弃。5天猫用户数据挖掘的分析及作用 数据挖掘如果运用到天猫、淘宝上,那么他就目的只有一个就是盈利。我们都知道双十一网购狂欢节,今年2014年1分钟就交易额突破了1亿,如此巨大的交易额,不光需要他庞大的用户量,还需要就是分析他们的需求信息。天猫用户那么多,首先一点就是需要明确每一个用户需要买什么东西,这就是我们数据挖掘需要做的,在我们上网点击的过程,其实就是他们数据采集的过程,他们通过你点击浏览的网站就预测你的喜好及可能还会去点击的网站,并在一个栏目对你播放相对应的广告,促使你更有欲望去购买这些东西。 6数据挖掘的应用领域及前景 与国外相比,国内对DMKD的研究稍晚,1993年国家自然科学基金首次开始支持对该领域的研究项目。近年来发展迅速,进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。国内从事数据挖掘研究的机构主要在大学,也有部分在研究所或公司。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。 5 结论 数据挖掘技术是一个让你从无知到有知的探索,商业利益的强大驱动力将会不停地促进它的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入,他也将变得更加具有交互性、可视性。 参考文献1彭剑芳.基于数据挖掘的网络购物行为的分析D.云南:云南大学,2011.5.1. 2毛国君.数据挖掘技术与关联规则挖掘算法研究D.北京:北京工业大学,2003.5.1.3李菁菁,邵培基,黄亦潇,等.数据挖掘在中国的现状和发展研究J.管理工程学报,2004(03):1015.4毛国君,等.数据挖掘原理与算法M.北京:清华大学出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.数据挖掘导论M北京:人民邮电出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 数据挖掘原理J 北京:机械工业出版社,2009,09(12):1721-1741.7陈京民,等.数据仓库与数据挖掘技术M.北京:电子工业出版社,2002.8陈文伟,等.数据挖掘技术M.北京:北京工业大学出版社,2002.9史忠植.知识发现D. 北京:清华大学出版社,2002 10蔡元龙.模式识别D.西安:西北电讯工程学院出版社,1986.6通过系统地查阅与所选课题相关的国内外文献,进行收集、整理和加工,从而制定的综合性叙述和评价的文章(见P42)。字数:20003000字。五号宋体字,1.5倍行间距,除了参考文献是顶格以外,其余都是首行缩进2字符。参考文献不少于10个,具体要求同P19正文一致。计算机与信息学院一级标题:三号宋体,居中,加粗,1.5倍行间距,段前后0.5行间距凡是学生所写东西的页面,必须有此页眉。四号宋体字,加粗,单倍行间距。本科毕业论文(设计)外文文献翻译外文文献译文数据挖掘2应用领域数据挖掘是广泛用于一系列科学学科和业务场景。一些值得注意的例子:管理、机器学习贝叶斯-伊恩推理、知识获得专家系统、模糊逻辑、神经网络和遗传算法。在日常业务场景的例子:包括航空公司、数据库营销面板数据的研究和创造,基于定制的贸易出版物为数百种不同的用户数据用户组。Piatetsky-Shapiro与相关学术人员在99年提供一个详细的进一步的使用领域的概述。是另一个国际米兰毛利分析美国东部时间在数据挖掘领域的研究。现代成本会计的帮助下软件公司可以对个人所得税进行多维分析物品。由于大量引用(e.g.产品客户托马、销售渠道、区域)和需要的对象的数量检查控制器需要方法自动识别数据模式。在这种情况下,这些模式的组合属性值(e . g。“DIY商店”和“力量训练”)以及(e . g .毛利率)措施。一个公司,开发数据挖掘程序必须也考虑到大量数据参与。即使在一个中型公司是很常见的,成百上千项流入每月损益表。基于案例的推理(CBR)是其中之一数据最小的有趣的例子荷兰国际集团(ING)和机器学习在一起。CBR组件尝试跟踪当前问题的问题已经解决了过去。帮助桌子,协助澄清的问题客户有购买产品,是一个实际的使用类型的过程。尽管一些公司使用帮助台支持他们的电信电话热线,其他人给他们定制-人通过远程数据的直接访问转移。可以非常价值数据挖掘在这种情况下,因为它巩固聚集在成千上万的信息关键的发现个人历史病例老年男性。这种方法的优点是较短的过程,寻找先例可以用来回答当前客户的问题。3方法有许多不同类型的方法分析和分类数据。一些常见的方法包括聚类分析、贝叶斯推理和归纳学习。可以使用聚类分析基于数值以及措施概念聚类的形式。数据挖掘系统的结构天生是非常不同的,当然这些都很常见的:因为分析方法,识别和分析模式,是系统的核心。因为输入可以包括组件原始数据等信息数据字典、知识的使用场景中,或缩小用户条目搜索过程。因为输出包含发现措施,规则或信息在一个适当的形式呈现给用户,纳入系统作为新知识或集成成一个专家系统。3.1聚类分析不论在其传统的形式还是概念聚类,聚类分析试图分裂或合并一组数字基于误码率的对象组接近这些对象之间的存在。集群分组以便有大的对象之间的相似之处类以及大型之间的异同不同的类的对象。3.1.1传统聚类分析不管的缩放级别对象变量,有多种方法衡量相似性和区别的距离。基本的例子包括欧几里得(即平方根总平方差异)和曼哈顿差异(即绝对的总和个体差异变量)。在我们可以检查指标,名义以及不同数据集的混合距离测量。当对象有不同的类型的属性,例如,考夫曼和Rousseeuw推荐计算个人名义的差异为0属性值是相同的,和不同的是不同的。指标变量,我们第一次需要建立之间的区别对象的值。然后我们标准化把他们的最大区别。结果是一个0和之间的差异。然后我们计算总差异两个对象之间的向量的总和个体差异(考夫曼和Rousseeuw 990)。我们可以使用这种类型的测量(最终延长individ的重量性属性)集群生产总值(gdp)数据集边际分析。这些包含名义属性(如产品、客户、地区)以及数值(收入或措施毛利率)。有一个普遍的分化在划分和层次之间分类方法。简而言之,合适的婚姻对象一对迭代方法试图最小化一个给定的初始分配的异质性表示“状态”的对象到集群。分层方法,这几乎是重要的,采取一种完全不同的方法。最初,每一个对象都位于自己的俱乐部怪兽。然而,对象,然后结合先后,因此只有最小程度的同质性是迷失在每一个步骤。我们可以很容易地生成的层次结构嵌套的集群在一个所谓的系统树图。3.3归纳学习让我们假设有一个给定的一组对象(即一个训练集)类。归纳学习试图定义一个规则,基于其组织一个新对象属性到一个现有的类。一个常见的方法是可视化作为一个决策树学习规则。树叶而树的代表类主要降低分支机构代表测试分别检查一个属性值。每个测试接收的可能的结果自己的分公司,反过来,导致到另一个分支或熊一片叶子。的ID算法,一个著名的例子这种方法,从这一段开始训练集,我们可以在几个迭代建立一个树与0000集对象和50属性。ID子结果把剩下的对象的训练集,如果分类不正确,算法将重启一个训练集的扩展部分的对象是不正确的分类(昆兰986)。银行,例如,可以使用一个方法构建和维护这样一个专业的系统检查的信用评级个人客户。如果一个训练集包含一个大客户群体高或低信用评级,该算法可以使用规则来评估未来的贷款申请,银行员工可以处理在系统中。4关键因素以下部分概述了一些与数据挖掘相关的问题。在我们认为,这些关键因素的成功将为未来打下坚实的基础研究和发展。4.1算法的效率关于数据挖掘的效率算法,我们应该考虑以下方面。jCalculation时期是一个关键因素。如果算法的计算时间增长速度比线性依赖关系的平方数的数据记录搜索,我们可以假设他们不会适合更大应用程序。我们可以提高计算时间通过限制搜索区域通过用户输入或减少通过有针对性的搜索数据量(如基于用户)选择和压缩。最近的进展显示,算法的计算时间将变得不那么相关了由于技术发展(e . g .更快的过程-传感器、并行计算机)。因为算法必须足够健壮处理不完整和/或有缺陷的数据。这里的问题是有缺陷的数据产生明显的模式。如果一个销售区域有不小心遗忘了计划收入的一系列文章,该系统应诊断极高budget-actual方差。然而,系统不应该呈现这些类型的语句的一部分正常的分析结果,而是检测真实性检查和报告在一个单独的不完整的部分报告。1、字数要求:2000汉字,可以是2篇文档。2、五号宋体字,首行缩进2字,1.5倍行间距。外文文献原文Data Mining四号宋体,加粗,居中。一定要指明出处,作者名。翻译的外文文献应主要选自学术期刊、学术会议的文章、有关著作及其他相关材料,应与毕业论文(设计)主题相关,由指导教师对外文文献的选择把关,可直接复印。格式要求:(1)打印稿:五号罗马字体(Times New Roman),首行缩进4英文字符,1.5倍行间距。(2)复印稿:用A4纸复印,要清晰,并留出装订线。2 Usage scenariosData mining is widely used in a range of scientific disciplines and business scenarios. Some noteworthy examples include findings in the areas of database management, machine learning, Bayesian inference, knowledge gain for expert systems, fuzzy logic, neural networks, and genetic algorithms.Examples in everyday business scenarios include database marketing for airlines,panel data research as well as the creation of customized trade publications based on subscriber data for hundreds of different user groups. Frawley and Piatetsky-Shapiro (Frawley et al. 99) offer a detailed overview of further areas of usage.Gross margin analysis is another interesting field of research in data mining.With the help of modern cost accounting software, companies can perform multidimensional analysis on individual income items. Fig. 2 lists a few sample questions related to this topic. Due to the numer-ous reference objects (e. g. products, customers, sales channels, regions) and the resulting number of objects that need to be examined, controllers require methods that automatically identify data patterns.In this case, these patterns are a combination of attribute values (e. g. “DIY stores” and “power drills” in Fig. 1) as well as measures (e. g. gross margin). A company that develops a data mining program must also consider the large volumes of data involved. Even in a midsize company, for example, it is common that several hundred-thousand items flow into a monthly income statement.Case Based Reasoning (CBR) is one interesting example of how data mining and machine learning could work together. CBR components attempt to trace current questions to problems that have already been solved in the past. Help desks, which assist in clarifying the questions a customer has about purchased products, are one practical usage of this type of procedure. While some companies use help desks to support their telephone hotlines, others give their customers direct access through a remote data transfer. Data mining can be very valuable in this context because it consolidates the information gathered in thousands of individual historical cases into key findings. The advantage of this procedure is the shorter process of searching for precedents which can be used to answer the current customers question.3 MethodsThere are many different types of methods to analyze and classify data. Some common methods include cluster analysis,Bayesian inference as well as inductive learning. Cluster analysis can be used based on numerical measures as well as in the form of conceptual clustering.The structures of data mining systems are very different by nature. The following configuration, however, is very common:jThe analysis method, which identifies and analyzes patterns, forms the core of the system.jThe input can include components such as raw data, information from adata dictionary, knowledge of the usage scenario, or user entries to narrow the search process.jThe output encompasses the found measures, rules or information which are presented to the user in an appropriate form, incorporated into the system as new knowledge or integrated into an expert system.3.1 Cluster analysisWhether in its traditional form or as conceptual clustering, cluster analysis attempts to divide or combine a set number of objects into groups based on the proximity that exists among these objects.The clusters are grouped so that there are large similarities among the objects of a class as well as large dissimilarities among the objects of different classes.3.1.1 Traditional cluster analysisRegardless of the scaling level of the object variables, there are multiple ways to measure the similarity and difference of the proximity. Basic examples include the Euclidean (i. e. the square root of the total squared difference) and Manhattan differences (i. e. the sum of the absolute differences of individual variables). In general, we can examine metric, nominal as well as mixed data sets by varying the proximity measure.When objects have different types of attributes, for example, Kaufman and Rousseeuw recommend calculating a difference of 0 for the individual nominal attributes when the values are the same,and a difference of when they are different. In the case of metric variables, we first need to establish the difference among the object values.To standardize them we then divide them by the maximum difference.The result is a difference between 0 and.We then calculate the total difference between two object vectors as the sum of the individual differences (Kaufman and Rousseeuw 990).We can use this type of measure (eventually extended by the weight of an individual attribute) to cluster data sets in grossmargin analysis. These contain nominal attributes (e. g. product, customer, region)as well as numerical measures (revenues or gross margin).There is a general differentiation between the partitional and hierarchical classification methods. Simply put, partitional methods try to iteratively minimize the heterogeneity of a given initial allotment of objects into clusters. Hierarchical methods, which are practically significant,take a completely different approach. Initially, each object is located in its own cluster. The objects, however, are then combined successively so that only the smallest level of homogeneity is lost in each step.We can easily present the resulting hierar- chy of nested clusters in a so-called dendrogram.3.1.2 Conceptual clusteringAs described above, traditional forms of cluster analysis can identify groups of similar objects but cannot describe these classes beyond a simple list of the individual objects. The objective of many usage scenarios, however, is to characterize the existing structures that are buried among the volumes of data. Instead of representing object classes through simply listing their objects, conceptual clusters intentionally describe them using terms which classify the individual objects through rules. A group of these rules forms a so-called concept.A basic example of a concept is a program that automatically and logically links individual attribute values. Advanced systems can even establish concepts and concept hierarchies with classification rules.The different concepts in partitional methods of conceptual clustering compete with each other. Ultimately, we have to choose the clustering concept that best meets the performance criteria for a specific method. Some performance criteria include the simplicity of the concept (based on the number of attributes involved) or the discriminatory power (as the number of variables that have values do not overlap beyond the different object classes.)Similar to traditional cluster analysis, there are also hierarchical techniques that form classification trees in a topdown approach. As described

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论