




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在 品审计中的应用与研究 数据挖掘技术在 品审计中的 应用与 研究 摘 要 随着时代的发展,如今的企业已大多进入了“无纸化”的办公时代。原有的手工信息输入与分析已无法适应如今日益增多的信息数据。可以说,企业每天都面临着大量的商业信息,而如何利用 、 分析好这些数据从而为企业的发展提供指导就显得尤其重要。 对于 是一家专门为制造业提供企业解决方案的软件供应商,它在全球范围内的九十多个国家拥有超过六千多个客户。每一年,它都会对每个客户使用公司软件产品的情况进行审计。在每个客户审计的过程中,自然会产生大量 的数据。对于公司而言,所有客户的审计数据将是百万级的。面对如此庞大的数据,如何从这些数据中获取公司所需的信息,分析出审计的结果,并得出一定的指导性结论就显得尤其重要。 为此,本文提出了一种基于 联机分析处理( 数据挖掘技术 的审计信息分析的设计 。 数据挖掘技术 是近年来数据库领域和人工智能领域研究的热点,它通过对大量数据进行分析和处理,得到隐含在这些数据背后有用的信息和知识。 本项目实现了基于 008 分析服务( 审计信息立方体之上的 维数据分析和 查询,并 利用决策树、神经网络等数据挖掘算法对审计信息数据进行挖掘,得出有用的知识。 为实现上述目标,首先需要决定存储分析后的审计信息的数据库版本与类型以及最终生成审计结果报表所需使用的报表生成工具。为此,针对数据库的选择提出了以下几种可行的解决方案: 据库、 据库、 据库和 据库。根据实际需求,分别比较了以上四种数据库的优缺点,最终权衡之后选择了 据库作为本项目的关系数据库服务器。同样,针对报表生成工具,也提出了以下几种可行的解决方案: 司自己实现的报表生成框架、微软的 具和微软的 具。分析了以上几种工具使用的便捷性以及代价考虑,最终选择了大家比较常用且比较轻量型的为我们最终的报表生成工具。 在选定了数据库和报表生成工具的解决方案之后,便要对历史审计数据进行一定的整理、分析以及数据提取和存储工作。 审计数据是由公司产品所提供的功能菜单运行后自动生成的,客户在对这些多种多样的报表整理时,可能根据自身的习惯进行不同的打包方式。因此公司从客户手上得到的审计数据结构则是复杂繁多的,没有一定的规律性可循 ,这对我们进行历史审计信息的提取造成了一定的困难与阻碍。经过对历史审计数据的详细分析之后,找到了所需要的两个审计文件: 应用使用详细报告和许可权使用情况报告。其他诸如数据库使用报告等日志文件目前对我们来说并没有太大的意义。因此我们的目标只是在每个客户的审计数据文件夹下找到这两个文件,分析提取数据,并存入数据库中。在实践中,发现如果不对历史数据进行处理,直接运行数据分析提取程序,则效率十分低下。究其原因是因为 程序每次都需要遍历每个文件来确认该文件是否为所需的那两个报告文件, 数据挖掘技术在 品审计中的应用与研究 因此要花费大量的时间。为解决这一问题, 就需要在程序之上再加上一层数据预处理的程序,即将不需要的历史数据文件过滤,按照原有的目录结构,只留下所需的那两个文件。这样,在数据预处理的基础上,程序运行的效率将大大提高。解决了这一问题之后,便是要将分析出的数据存入数据库中。 根据历史审计数据信息及相关的外部数据信息,按照需求,共设计了 六 张数据表。 该数据库将为后面的 供高效的数据源。 有了关系数据库源,便可利用 审计数据进行维度建模。本文重点论述了 审计信息数据的概念模型设计和逻辑模型设计,包括度量、维度和粒度的设计,事实表和维表的设计,同时采 用了雪花模型构造了逻辑视图,最终生成了审计信息的多维立方体,供最终生成审计结果报表和数据挖掘提供了多维数据源 ,完成了 生成审计结果报表时,使用 的透视表,建立数据库连接,选择建立的多维数据源,便可读取多维数据中的内容。为了方便客户审阅,特别定义了十多个报表模板,可供客户选择,基本涵盖了所有的审计结果,且客户可以自主选择想要查看的内容,对数据进行一定的钻取等,十分方便。 最后,便是使用数据挖掘技术对审计数据进行一定的挖掘任务研究。传统的数据挖掘过程往往基于关系数据库 。本文探讨了基于 数据挖掘技术在产品审计中的应用, 分别使用了决策树算法和神经网络算法对同一个挖掘模型进行了挖掘,并利用提升图比较了两个算法的挖掘准确性。本文所建立的挖掘模型为分析客户选择 司不同产品类型组合的因素,意在发现一个行业领域内使用 司产品组合的最佳实践,为不同的客户在选择公司产品组合时提供一定的建议。 由于时间及精力的有限,只是粗略探索了数据挖掘在公司审计中应用的可能性。相信可以利用该技术挖掘出更多对公司经营决策有指导性意义的知识。 本文的研究和结果表明, 数据挖掘技术在 司产品审计中的应用是可行的,而且是便捷高效的。它不仅从企业管理的角度为公司决策层与销售人员提供了更为智能的分析方法和途径,还为审计分析人员提供了新的手段和视角,来挖掘出更多数据背后隐藏的有用的知识。 关键词: 数据挖掘, 维数据分析, 008 分析服务 , 产品审计 数据挖掘技术在 品审计中的应用与研究 F N of of t of be of to to to of is AD is a to ,000 0 be by In of be of be of it is to to to a AD a of of It DX on 008 in to To we to to is to to to of on to of QL as 数据挖掘技术在 品审计中的应用与研究 by as of it it is it is of to We to be in is by on to of So on is no to of we of as so to us So is to in to in In we if we of s is it is it to in to is us or is to to is or a of is To it to a of is to be of be to on of of it is to to in in we a we to of of a of of a So AD In to we to 数据挖掘技术在 品审计中的应用与研究 we of In to be to to a on of at be to do on is on in it of in a to s a to of AD in to a a of AD in a be of in to of I a of of of in to it is be to of AD is it is It of of of to 008 数据挖掘技术在 品审计中的应用与研究 目 录 第一章 绪论 品审计问题简述及分析 究目的与意义 内外研究现状 文研究内容 二章 解决方案比较与 选定 据库的选择 据库 据库 据库 据库 表工具的选择 表生成框架 微软 微软 表 章小结 三章 数据处理与存储 据的分析与处理 历史数据结构与内容概述 历史数据处理 据的存储 章小结 四章 应用 术概述 度、度量及立方体的设计 维度的设计 度量的设计 事实表和维表的设计 立审计多维数据模型 计信息 计信息统计报表生成 章小结 五章 数据挖掘的应用 据挖掘技术概述 于决策树算法的数据挖掘应用 决策树算法的基本原理 使用决策树算法 数据挖掘技术在 品审计中的应用与研究 于神经网络算法的数据挖掘应用 神经网络算法的基本原理 使用神经网络算法 章小结 六 章 结论 文总结 8 望 考文献 辞 数据挖掘技术在 品审计中的应用与研究 第 1 页 共 31 页 第一章 绪论 品审计问题简述及分析 企安达 ) 公司是国际上著名的 件公司,它于 1979 年在美国加州成立,是一家专门为制造业提供企业解决方案的供应商。目前在全球范围内,已有遍布 90 个国家的 6000 个制造商企业使用了 产品。 随着企业规模的扩大及公司 件使用客户数的增多,每年对产品使用情况作一次审计就显得非常有必要。其产品审计的作用主要表现在以下两方面: 一方面, 产品是 通过软件许可权( 行收费的,客户根据自身需求可以选择记名和并发两种许可权方式,通过购买一定数量的许可权 ,对软件进行使用。但在实际使用过程中,为了不影响客户的日常工作, 许客户有违反许可权的行为存在,比如同时使用软件的人数超过了所购买的许可权数量。为此,就十分有必要通过每年的产品审计,发现那些有违反许可权使用情况的客户,对他们进行额外的补收费,以保证公司方面的利益。 另一方面,由于产品审计的数据是由客户通过产品软件的内置菜单自动生成,再由客户将这些数据打包给公司,因此产品审计这一前期的数 据搜集过程是需要客户的支持的。为了激发客户的积极性使得能更好的配合审计,公司认为可以对这些产品使用数据进行一定的分析,生成相应的使用情况分析报表提供给客户,让他们明白自己在软件的使用过程中,哪些模块并未得到充分的利用 等。同时公司自身的销售与执行管理层也希望通过审计的结果,了解目前产品和模块在不同领域、不同区域的客户处的使用频率与使用量,从而能更好的指导新产品的开发方向,更是希望能从中得出每个领域的最佳实践,以此来指导公司的客户更好的使用产品,使他们物尽其用,物更有所值,最终达到双赢的目的。 基于以上两点,同 时考虑到历史数据量的巨大性,因此公司特地建立了 个项目,并 希望能通过 此 来较好的实现这些目标,并且尽可能的高效、简单,便于操作。 究目的与意义 计算机科学与信息技术的飞速发展,使得人类可以借助计算机为自己解决许多问题。但随之而来,是我们每天面对的信息量不断增多扩大。在这样的大环境下,对于一个企业而言,要想保持自己在行业内的竞争优势,没有处理大量数据的能力是不行的,以往的手工数据录入、分析在海量的数据面前也是无能为力,更是低效 ,跟不上时代节奏的表现。于是乎,人们想到了数据库技术,它能对现实世界存在的大量数据进行有效的组织与管理。但是随着数据库应用的规模、范围和深度的不断扩大,随着数据和数据库的急剧增长,仅仅依靠数据库管理系统的查询检索机制和统计学分析方法已远远不能满足现实需要,它迫切的要求自动、智能地将待处理的数据转化为有用的信息和知识。 就是在这种背景下,使得 数据挖掘( 称 了迎合这种要求而产生并迅速发展起来。 使用 数据 挖掘技术,对产品审计数据进行多方面的综合分析,从中可以发现对公司业务决策所需的知识,并以直观易懂的形式将分析结果展示给客户与公司管理层, 数据挖掘技术在 品审计中的应用与研究 第 2 页 共 31 页 为他们 的决策提供了客观依据。通过对产品审计信息数据库进行数据联机分析,更可以方便的生成多种形式的报表,使软件的开发商与使用商都能快速的了解软件使用的各项统计信息。 另外,通过研究本课题,经过最终结论的证明,更可以将 数据挖掘技术更多更好地应用在相类似的行业中,使本课题的研究更具有实用价值和广阔的发展前景。 内外研究现状 数据挖掘技术是目前 国际上数据库、数据仓库和信息决策系统领域最前沿的研究方向之一 , 引起了国内外众多领域科学家和工商界的广泛关注 。对于这方面的应用与研究,国外比国内领先许多,这里主要以国内现状阐述为主。 国内对 研究起步较晚,主要是对数据立方计算、存储,多维数据查询和物化视图等关键技术的研究,以及基于国外 务器产品的 用。国内企业对于决策分析需求大部分都是通过开发一些功能单一的专用程序来完成 1。 近些年随着国 内企业信息系统的不断完善与发展 和 数据的持续积累,各行各业已经普遍关心数据挖掘技术的应用。国内应 用数据挖掘的企业还是以通信企业(移动、联通、电信)为首,应用的深度和广度都处于领先地位,原因主要是行业竞争比较激烈、直接,另外通信业的数据质量和数量都还不错 。 除了通信业,国内的银行、保险、证券使用数据挖掘技术的意愿也比较强烈,这跟国际趋势相吻合,未来几年金融领域的数据分析应用一定会从传统的统计分析发展到大规模数据挖掘应用。 但跟国外相比,国内零售业对数据挖掘的应用好像并不太热衷,这可能与客户信息的完整性有关,也就是说 “啤酒和尿片 ”的故事需要再过几年才能在国内零售业发生。 我国政府部门中使用数据挖 掘 技术比较领先的是税务系统,国税总局对信息系统建设及数据分析应用工作也越来越重视。 随着电子商务的普及,各大商务网站已经大规模使用数据挖掘技术,并且迅速从中取得商业价值。比如,国内好多网上商城已经开始使用数据挖掘技术进行客户聚类或者商品关联推广。 另外, 个人 认为搜索引擎企业使用数据挖掘技术的需求也非常迫切。从技术角度讲,他们需要使用数据挖掘算法发现 面之间的关联与结构关系,更好的进行网页推送;从商务角度讲,各大搜索引擎需要取得更多的广告收入,需要对点击流数据进行分析,以实现最大的商业 利润 。 虽然数据挖掘已经在移动通信、保险、证券、银行、电子商务等相关行业进行了较为成功的应用,但在企业日常业务信息系统中的应用,如产品审计信息等目前还处于起步阶段,需要更多的研究与应用。 文研究内容 数据挖掘 各有所长,但是也各有缺陷,而若能将二者结合起来使用,发展一种建立在 础上的,针对多维数据的数据挖掘技术,则更能适合实际的需要。本课题拟在探讨一种将 数据挖掘相结合的方法,使之能运用到 司的产品审计分析中。 针对以上的研究内容,本课题将提出一种基于 数据 挖掘技术的软件使用信息数据的多维分析系统的设计,研究使用基于 008 分析服务( 用户审计数据仓库之上的 维数据分析和 维数据查询,并研究使用神经网络 规则,决策树等数据挖掘算法及改进算法对模块及程序使用情况进行数据挖掘,得出有用的知识,从而帮助指导客户更好更高效的使用公司产品,也可使公司对现有产品有更好的了解与规 数据挖掘技术在 品审计中的应用与研究 第 3 页 共 31 页 划。 具体的主要研究内容如下: 1 利用 术和数据挖掘技术的基本理论知识、多维分析方法及数据立方体的存储结构,分析其在 品审计中的具体运用 。 2. 对历史数据进行过滤、分析、提取并存入预先定义的数据库表中。 3. 完成产品审计信息多维立方体的分析、设计,采用维度建模的方法建立了产品使用信息的 多维立方体。 4. 进行产品审计数据结果的访问设计,定义 表模板用于显示数据分析结果、查询等。 5. 对数据挖掘中决策树算法、神经网络 算法等进行分析,并进行改进,利用这些算法对产品审计信息进行数据挖掘,使用 数据挖掘功能来实现并得到有用的知识。 数据挖掘技术在 品审计中的应用与研究 第 4 页 共 31 页 第二章 解决方案比较与 选定 据库的选择 由于已确定了使用 数据挖掘技术对 品审计信息进行分析与研究,但在具体实现上仍需要有对多个可行方案进行比较选择,最终选择最为合适的解决方案,存储历史数据信息的数据库的选择就是其中之一 。如下 列 举了几个可选的数据库方案,并依次分析它们的优点与缺点,最终按照比较 的结果确定最可行的方案。 据库 使用 数据库的优势非常显而易见。 件 的 基础编程语言是 就是说大部分的产品都是用 写而成,其使用 的也是 数据库 。这样一来,对于分析存储历史数据时,集成起来会相对容易些。 但同时它的缺点也很明显 并且对本项目来说可能是致命伤。由于 据库的普及性并不高, 在编程与连接数据库时会要求一定的专业知识,这可能会造成一定的潜在麻烦 ,并且 据库可能得不到其他
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广告策划面试题及答案
- 2024商业美术设计师考试秘笈试题及答案
- 2024年纺织材料改性技术试题及答案
- 2024年广告设计师文化传播试题及答案
- 平台测评面试题及答案
- 电工技能操作试题及答案
- 数字转型对广告传播的深远影响分析试题及答案
- 大学数学试题题库及答案
- 2014四川试题及答案
- 安全保护法试题及答案
- 2024年游泳初级指导员认证理论考试题库(浓缩500题)
- 结直肠腺瘤中西医结合防治指南-公示稿
- 2024秋期国家开放大学《可编程控制器应用实训》一平台在线形考(形成任务4)试题及答案
- 买卖合同法律知识及风险防范培训课件
- 脑出血患者术后护理论文
- 9.2严格执法 (课件+视频)(部编版)
- 《运输方式和交通布局与区域发展的关系》
- 建筑电气武校刚课后参考答案
- 广东省2024年高考物理试题(附答案解析)
- 中国南水北调集团新能源投资有限公司招聘笔试题库2024
- 围手术期深静脉血栓预防的术中护理
评论
0/150
提交评论