研究生论文--开题报告-基于隐私保护的多源数据挖掘高效算法研究__本科论文_第1页
研究生论文--开题报告-基于隐私保护的多源数据挖掘高效算法研究__本科论文_第2页
研究生论文--开题报告-基于隐私保护的多源数据挖掘高效算法研究__本科论文_第3页
研究生论文--开题报告-基于隐私保护的多源数据挖掘高效算法研究__本科论文_第4页
研究生论文--开题报告-基于隐私保护的多源数据挖掘高效算法研究__本科论文_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、研究生学位论文开题报告题目名称:基于隐私保护的多源数据挖掘高效算法研究姓 名: 学 号: 专业名称: 研究方向: 攻读学位: 学 院: 导师姓名: 导师职称:填表时间填表说明1. 开题报告是研究生培养的重要环节,研究生需在认真完成。2. 完成时间:硕士研究生的开题报告应于第三学期末前完成3. 打印要求:此表用A4纸双面打印。4. 此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院,参加中期考核13一、课题来源,国内外研究现状、水平及发展趋势,选题的研究意义、目的,参考文献(一)课题来源 1问题的提出数据挖掘,顾名思义即是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、

2、 事先未知的、潜在的、有用信息,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘要处理的问题,就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些 有意义的信息归纳成结构模式,提供给有关部门决策时参考。目前已经提出的常用方法有关 联规则、决策树、聚类、神经网络等方法。然而,在对数据进行挖掘的时候,都不可避免的会出现敏感信息泄露的问题,随着数据 挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。为了保护数据的隐私,人 们不愿提供正确的信息给服务商,以免个人信息泄露造成不必要的麻烦,但是数据挖掘结果 准确的重要前提是提供的数据正确。由于数据挖掘主要任务是对汇总数据的模式开发,

3、这使 得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。目前,基于 隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域,国内外已有很多成熟的研究算 法和技术。通过众多文献比对我们发现,目前已有的这些基于隐私保护的数据挖掘算法和技术大多 是针对单源数据库进行挖掘和保护,而在实际应用中,有很多情况必须面对多个数据源。例 如,许多大型企业、跨国公司都拥有过个子公司,每个子公司都有自己相应的数据库。这就 迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。已有的国内外文献中, 针对多源数据进行挖掘的模型和算法已经出现,但是基于隐私保护技术的多源数据挖掘研究 却很少提及。这

4、可能是由于多源数据挖掘本身的技术局限性,导致在对多个数据源进行挖掘 时,泄露敏感信息都成为了不可避免的操作。因此,本文在对当前已有的多源序列模式挖掘 技术研究的基础上,分析结合并行和隐私保护技术的特点,提出新的基于隐私保护的多源数 据挖掘高效算法,使得在多源环境下既可以高效率高准确度的挖掘出高投票率模式(全局模 式),又可以隐藏敏感序列模式,达到较好的隐私保护效果。(二)国内外研究现状、水平及发展趋势1隐私保护技术的研究进展关于数据的隐私保护问题,首次是由Adam N等学者在Security-control methods forstatistical databases: A com par

5、ison study2文中提出,文章中提出了一种用扰动的方式来 解决数据的隐私保护。所谓“扰动”就是发布数据集失真,数据获得者无法通过其他途径构 建出原始数据集,但是这个失真的数据集又仍然保持数据获得者所希望保留的某种特性。基 于数据失真的技术还有随机扰动、阻塞和凝聚等。目前常用的隐私保护技术大多都是以统计模型和概率模型为主理论,应用在较低层次的数据隐私保护。在分布式环境中,Clift on C等提出使用SMC (Secure Multi-party Computation)安全多方计算加密技术保证数据的通信安全 ,这种基于加密的隐私保护技术可适用于科学计算、分布式安全查询、几何计算、分布式数

6、 据挖掘等应用。当前,关于SMC的研究主要集中在减低计算开销、以SMC为工具解决问题以及优化分布式计算协议。在国内,关于隐私保护技术的研究主要集中在基于数据失真或数据 加密技术方面的研究,如基于隐私保护分类挖掘算法、关联规则挖掘、分布式数据的隐私保 护协同过滤推荐、网格访问控制等。(国内研究现状)对数据进行隐私保护,主要可分为在数据发布过程中和在数据挖掘过程中进行。目前已 有的针对数据发布的隐私保护技术已经有很多,本文主要讨论数据挖掘中的隐私保护技术。2、隐私保护数据挖掘的研究进展数据挖掘中的隐私保护主要考虑两个方面的问题,一个是敏感的原始数据,一个是从数 据库中提取出来的敏感知识。这两种信息

7、都应当在挖掘的时候进行删除,因为可能导致隐私 泄露问题。因此,隐私保护数据挖掘的主要目的就是用某种技术改进已有的数据挖掘算法来 修改原始数据,使得敏感的数据和知识不被泄露。目前,针对隐私保护数据挖掘的研究,国 外已经有很多方法。文献4采用数据扰乱技术,从训练数据中重构一个决策树分类器从而解 决数据挖掘中隐私保护问题。文献提出了一种基于随机化的方法一一随机响应技术,禾U用这种源于统计学研究中隐私保护的方法,来实现在不泄露隐私数据的情况下进行一定精度的 建模,文中主要探讨了与ID3决策树算法结合进行分类的方法。文献6讨论了一个利用不确定性符号进行数据阻塞并应用于关联规则挖掘的具体例子,这种情况下支

8、持度和置信度分别 用支持度区间和置信度区间代替。文献7提出一个利用添加噪声数据对待挖掘数据库进行有效分类的框架,满足了对数据集中敏感信息方差和协方差的有效保护。对于如何很好的平衡 隐藏限制模式和揭露非限制模式,文献8中提出了一个基于隐私保护的频繁项集数据挖掘框架,对原始数据库进行了一定程度的安全清洗。文献9针对交易型数据库,提出一个新的仅需要一遍扫描数据库的算法对原始数据库数据进行处理,使得既能达到保护隐私数据,又能 挖掘出准确的关联规则,保留关联规则挖掘的益处。由于在关联规则挖掘中,很容易从非敏 感信息和原始未分类数据中推测出敏感信息,因此文献10提出了一个新的算法来平衡关联规则挖掘中的隐私

9、保护和知识发现。该算法对原始数据库进行两次扫描,不用考虑数据库大 小和限制性关联规则数目。针对分布式数据环境进行挖掘和隐私保护的研究是当前国内主要热门研究领域之一。 献11中,从基于随机扰动、基于安全多方计算以及基于限制查询三个层次分类别讨论了现 有的针对分布式隐私保护数据挖掘方法,对比各自优缺点,总结未来发展方向。文献12中,总结了在分布式数据库特有环境下,如何解决数据安全性计算效率问题。文献13中,结合随机数生成器和RSA公钥加密技术,提出了PPD-ARBSM算法。该算法引入数据挖掘服务器和密码管理服务器,保证了敏感数据的安全性。文献14中,针对分布式数据共享及计算中的隐私保护问题,提出了

10、一种适用于大规模分布式环境的隐私保护计算模型(PPCMLS),该模型的核心为隐私安全模块,将计算划分为本地计算和全局计算。通过综合运用同态加密、安 全点积协议、数据随机扰乱算法等多种安全技术,在实现了多个节点在一个互不信任的分布 式环境下合作计算的同时,任何节点无法获取其他节点的隐私信息及敏感中间计算结果。总 体而言,这些研究还都处于起步阶段,具有广阔的发展空间。文献15中提出一种分布式匿名数据扰乱方法APM,该算法是匿名数据交换机制下的数据挖掘隐私保护方法,在高密度共谋攻击的半诚实环境中有较好的鲁棒性,与SMC相比具有显著的效率优势和较高的灵活性和通用性,能应用于关联规则挖掘和聚类等多种场合

11、。然而现有的隐私保护研究大都是在关联规则方面,很少有针对序列模式方面。序列模式 挖掘包含时间因素,即每一个模式的元素之间存在先后顺序关系,因此序列模式挖掘增加了 时间顺序的因素,在某些情况下的应用能挖掘出关联规则所无法挖掘的模式,提供更有效的 挖掘结果。本文提出的就是在多数据源环境下针对序列模式的数据挖掘算法,并尽可能的达 到隐私保护效果。目前国内外研究中,针对序列模式的挖掘算法和模型已有一些。文献16在假设参与方都是半诚实基础上,强调了在一个类似二维站点的模式中隐私保护频繁模式挖掘出现的问 题,提出一种基于半参与和不涉及加密的序列模式挖掘新方法。针对已有的序列模式挖掘方 法都是在数据库数据不

12、发生任何改变的基础上进行的。文献17中基于数据可随时更新的数据库动态变化,提出一种新的改进的序列树PS-tree,以解决改进的序列模式挖掘中出现的问题。文献18利用密码学中同态加密和数字信封技术来达到在多方参与中不共享隐私数据的 协同序列模式挖掘。文献19以PrefixSpan算法为基础,结合分布式计算的特点,研究并提出了一种分布式序列模式挖掘算法DSP (Distributed Seque ntial P attern Mi ning),并针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进。研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(Curr

13、ent Least Sequences Delete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏敏感信息的目的。基于隐私保护的序列模式挖掘算法研究目前还比较少,文献20中首次提出了三个敏感序列隐藏算法一 MSA、MSRA和SDRF。这三种算法借鉴了关联规则隐藏的思想,通过删除 原始序列降低支持数的方式实现了敏感序列的隐藏。但MSA和MSRA算法在选择被删除序列时没有做任何优化,SDRF对候选删除序列只进行了基本的筛选,仍存在删除原始序列过多的问题,而且算法引入的预期最低支持度可能会导致敏感序列隐藏失败情况的出现。已有的 这三种敏感序列隐藏算法均采用了预期最低支持度来保证敏感序列的隐

14、藏,它们在删除过程 执行之前就确定好了被删除的原始序列,不能够动态反映出已删除序列对未删除序列的影 响,没有考虑先删除序列对后删除序列的影响,会删除掉一些不必要删除的序列。因此针对 这一特点,文献21提出一种有效的敏感序列隐藏算法CLSDA ( current least sequences deletealgorithm ),该算法对候选序列加权,在删除序列的过程中随时更新权值,使用贪心算法获得局部最优解,尽可能减少对原始数据库的改动。文献22提出一种基于隐私保护的序列模式挖掘算法PP-SPM。算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原 则,首先构建SPAM序列树,根据一

15、定的启发式规则,从中获得敏感序列,再进一步在原始 数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗。文献23中提出一个基于数据清洗的敏感序列模式隐藏算法,该算法通过计算事务组影响权值,选取对非敏感序列模式 影响最小的事务组进行清洗,从而在确保隐藏敏感序列模式的同时,尽量减少对非敏感模式 集的影响。从以上两个大的数据挖掘发展现状分析,可以看到大多是针对单一数据源提出的各类算 法和技术,然而随着互联网信息的高度共享和实际应用的需求,多源数据挖掘已经逐渐成为 数据挖掘领域新的进展方向,针对此领域的研究,将更好的应用于金融安全等各个行业和组 织。3、多源数据挖掘的研究进展目前对于多数据源数据挖掘

16、问题的研究,国内外文献中涉及的都比较少。对于多源数据 挖掘,为了有效从多数据库挖掘全局序列,必须首先挖掘每个本地DB的信息,在本地层次上总结整合。一般情况下,多源数据挖掘可分三步进行:1)对多数据源进行分类;2)挖掘每个数据库的知识;3)把同类数据库挖掘到的知识进行合成。由于多源数据挖掘中必须面临 众多不同大小的数据集,文献 24提出一个可供选择的多源数据挖掘技术,仅选择支持度大 于给定阈值的若干相关性大的数据库进行挖掘搜索。该方法主要针对多源数据挖掘步骤中第 一步分类进行,有效的缩短了搜索代价。随后,文献25中又提出一种根据用户查询从多源数据库中搜索用户感兴趣知识的方法,这一过程仅在被选择数

17、据库中进行挖掘检索信息。以 上所采用的方法和技术构成了目前已有的针对多源数据环境进行挖掘的主要模式,我们将其 称为传统的多源数据挖掘技术。总结可知,其挖掘过程可分为三步进行:1)通过数据选择从众多数据库中选择其中有相关性的若干数据库;2)利用数据合成技术将这些选中数据库现有合为一个单一数据集;3)对这个巨大的单一数据集采用单源数据挖掘算法,得到最终的模 式集。文献26介绍了一种将INLEN系统扩展到多源数据环境下进行知识发现的方式。 的并行挖掘技术有些也可以用来解决多源数据挖掘问题27-31。多源数据挖掘中的模式主要可分为四类:1)局部模式;2)高投票率模式,高投票率模式也就是通常所说的被用来

18、制定全局决策的全局模式;3)异常模式;4)支持模式。通过比较分析发现,传统的多源数据挖掘技术对于鉴定多源数据库中出现的两类新的模式(高投票率模式和异常模式)非常不适用。因此,文献32综述性的阐述了多源数据挖掘中的若干问题和难点,介绍了多源数据挖掘和单源数据挖掘的差别,提出了针对多源数据挖掘的基础框 架MDM和只在多数据源挖掘中才可挖掘出的具有深度意义的高投票率模式和异常模式的概 念。新型的多源数据挖掘框架MDM对传统的多源数据挖掘过程的不足进行了改进,它更关注于局部模式分析。具体分三步进行:1)寻找全部数据库的较好的分类;2)从局部模式中鉴定出两种新模式类型:高投票率模式和异常模式;3)根据权

19、重合成局部模式。文献33基于之前工作提出了从多个统计类和交易类数据库中挖掘特性模式的方法。这一特性模式不 同于异常模式,它代表了所有局部数据库中某一普遍模式。当前的局部模式分析可以从多源数据库中发现高频率的模式,但是仍然存在两个关键问 题妨碍其扩展应用范围:1)从因特网收集的数据质量较低,无法区分是否为有用模式,且大多数据是不一致的,这就需要分布式数据挖掘技术来解决,并且必须在数据挖掘之前解决 数据不一致,于是提出了数据预处理的需求;2)多源数据库中鉴定出潜在有用模式的有效算法仍未提出,传统的多源数据挖掘是利用单源数据挖掘技术(即将从相关数据源中获得的 所有数据全部聚集到一个大型数据集中进行挖

20、掘),这将破坏有用模式,并且利用局部模式分析时,将产生大量局部模式,时间空间消耗大。传统的基于支持度的序列模式挖掘不能总 结出局部信息,效率较低。为了解决这一问题,文献34中提出一个可选择的本地挖掘方法在多DB中发现本地DB中的近似序列模式一一近似序列模式挖掘ApproxMAP算法。该算法的挖掘步骤是:根据相似度聚合序列;通过多序列比较从每个聚群中挖掘一致模式; 针对人造和真实数据进行试验系统研究算法的性能。目前对于从多源数据库中挖掘全局关联规则的方法已经有不少学者研究提出相关算法。 文献35提出一种根据权重从不同数据来源数据库中发掘合成高频率关联规则,文献36是从多数据源中鉴定发现全局异常模

21、式。文献37提出一种在多源数据挖掘库中挖掘异常模式的有效策略,其挖掘时间复杂度和空间复杂度分别为20(m nl)和O(mnl),其中m代表数据库分类个数,n代表每个分类中局部模式数,I代表分类中长度最长的数据库的长度。国内方面 对于多源数据挖掘的研究还很少,文献38应用聚类思想,提出一种独立于应用的数据库分类方法,有效的在多源数据挖掘初始步骤将多数据库合理划分成若干类。文献39主要针对多源数据挖掘中第三个步骤模式合成提出了一个新的算法,对多源数据先进行预处理,选取 有用规则,删除掉冗余和噪声之后,在利用各个规则的权值来合成多数据源中的关联规则。 文献40提出了一种基于聚类技术的多数据源记录匹配

22、算法,该算法运用了专门针对大型数 据聚类的罩盖聚类技术,大大减少了计算量,提高了多源环境下记录匹配的效率。然而对于从多源数据库中挖掘出全局序列模式的研究仍旧为空,因此这也是本文和今后 将要研究的重点所在。分析可知,已有的许多著名的序列模式挖掘算法,如GSP41、PrefixSpan42、SPADE43TSPAM44等,都能够有效的挖掘出满足最小支持度的序列模式。 可是当将这些算法移植到多源数据环境中后,由于序列模式大量积累产生的内在局限性使得 这些算法对于多源数据库并不适用。主要存在以下三方面问题:1 )许多常规方法挖掘序列模式的完整集合,容易产生大量、琐碎的短模式,近来挖掘相对紧凑的序列模式

23、表达式已经 被逐渐提出45 ; 2)常规方法挖掘序列模式需要精确匹配,但实际中并不是所有客户的购买 习惯都完全相同,必然在模式之间会存在一定差异度,若只进行精确匹配,很容易挖掘出大 量繁复的无可借鉴价值的短模式;3)仅支持度不能够区分统计上显著的模式和随机事件,许多短模式均意外更改,这种机率发生比较频繁。文献33提出的一些诸如周期性、随机依赖关系和模式等在多源数据库中都是隐藏不可发现的,不能够简单的使用单一挖掘方法进 行。因此文献34中提出了可借鉴的近似序列模式匹配算法,即将从各个局部数据库中挖掘 出的局部模式做近似匹配,得到具有满足一定支持度阈值的近似一致模式,以这个模式作为局部数据库的代表

24、,来进而构造全局模式。并在挖掘中得到高投票率模式和异常模式两类有 用模式序列。文献46提出一种针对多源数据环境的数据库分类技术。文中将多数据库中的 所有局部数据库根据其两两之间的相似度划分成若干聚类,再根据算法得到最优分类。实验 可知,相比较传统的从每个局部数据库中挖掘局部序列模式再进行合成的步骤而言,文中提 出的从这些分类中再进行局部序列模式挖掘,可以从很大程度上减少搜索代价。为了在多源 数据库中挖掘出更加有价值的信息,发现高投票率模式和异常模式的局部模式合成技术已经 在很多文献中被提出,如前面提到的35,36,37等。综上所述,对于多源数据挖掘的研究,未来的研究方向将在如何评估全局序列模式

25、挖掘 和如何在挖掘的同时保证隐私信息不被泄露。考虑到真实的携带有用全局模式的序列数据在 众多可得到数据中都是非常小的,即使在局部序列模式挖掘中其挖掘难度也是非常大的。因 此,未来对于全局挖掘算法的更加系统有效的评估方法还有待研究,并且对于如何从真实多 源数据库中生成有用全局模式还有很大的研究空间。实际生活中,由于多数据源数据挖掘和 隐私保护同样重要,因此更加需要在多源数据环境下保证数据安全,所以今后的研究重点将 在基于隐私保护技术的多源数据挖掘技术和方法领域展开。(三)选题的研究意义与目的随着数据挖掘技术的日趋成熟,其应用范围已逐渐从已有的单一数据源逐步向多数据源 发展。考虑单数据源和多数据源

26、差异,针对多源数据库独有特点提出的多源数据挖掘算法和 技术已经是当前数据挖掘领域的一个新兴研究热点。然而,分析可知,当前已有的多源数据 挖掘算法技术主要存在以下两方面空缺:一是这些已有算法大多是针对关联规则提出的,对 于带有时间顺序的序列模式挖掘研究还较少,且只保证挖掘精度而未考虑挖掘速度;二是在 这些已有多源数据挖掘算法中几乎没有涉及考虑隐私保护问题。针对以上两个特点,本文的 研究一方面着眼于将已有成熟的序列模式挖掘算法进行改进,结合并行技术设计研究多源环 境下高效、高准确度的序列模式挖掘模型和算法,另一方面考虑在多源数据挖掘有效高投票 率模式(全局模式)的同时,结合隐私保护技术,将敏感序列

27、模式进行隐藏,达到既从多源 数据环境中挖掘有用序列模式,又在一定程度上进行敏感信息保护的目的。(四) 参考文献1 Jiawei Han, Micheline Kamber. Data Mining Concept and Techniques. 数据挖掘概念与技术M.北京:机械 工业出版社,2001.2 Adam N, Wortmann J. Security-control methods for statistical databases:A comp arison studyA. ACMCom pu ting Surveys, 1989, 21(4) :515-556.3 Clifton

28、 C, Kantaricioglou M. Tools for privacy preserving distributed data miningA. ACM SIGKDDEx plorations, 2002, 4(2):28-34.4 R.Agrawal, R.Srikant. P rivacy -p reserving data-miningC. /P roceedings of ACM SIGMOD on Management ofData. Dallas,2000:439-450.5 W.Du, Z.Zhan. Using randomized respo nse techniqu

29、es for p rivacy -p reserving data miningC. /P roceedings ofThe 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington DC,2003:505-510.6 Yucel Saygin, Vassilios S.Verykios, Ahmed K.Elmagarmid. Privacy p reserving association rule miningC./P roceedings of the 12th I

30、nternational Worksh op on Research Issues in Data Engineering. 2002:151-158.7 Md. Zahidul Islam, Ljiljana Brankovic. A Framework for P rivacy P reserving Classification in Data MiningC./P roceedings of the second worksh op on Australasian information security, Data Mining and Web Intelligence, and S

31、oftware Internationalisation - V olume 32, P ages 163-168.8 SRM Oliveira, OR Za? ane. Privacy Preserving Frequent Itemset MiningC. /Proceedings of the IEEEinternational conference on Privacy security and data mining - V olume 14, Pages 43-54.9 SRM Oliveira, OR Za? ane. Protecting Sensitive Knowledge

32、 By Data SanitizationC. /Proceedings of the 3th IEEE International Conference on Data Mining(ICDM03), pages 613-616. Nov 2003.10 SRM Oliveira, OR Za? ane. Algorithms for Balancing Privacy and Knowledge Discovery in Association Rule11121314MiningC. /P roceedings of the 7th International Database Engi

33、neering and App lications Symp osium, p ages 54-63. July 2003.刘英华,杨炳儒等.分布式隐私保护数据挖掘研究J.计算机应用研究.2011,28(10):3607-3609. 张宏壮,王建民.分布式数据库保持隐私挖掘方法 J.计算机工程与设计.2008, 29(14):3684-3686. 桂琼,程小辉,饶建辉.基于RSA的隐私保护关联规则挖掘算法J.计算机工程.2009, 35(17):138-140.余智欣,黄天戍等.一种新型的分布式隐私保护计算模型及其应用J.西安交通大学学报.2007,41(8):955-958.马进,李锋等.分

34、布式数据挖掘中基于扰乱的隐私保护方法J.浙江大学学报.2010,44(2):276-282.1516 Ada Wai-Chee Fu, Raymond Chi-Wing Wong, Ke Wang. Privacy -P reserving Frequent P attern Mining AcrossP rivate DatabsesC. /P roceedings of the 5th IEEE International Conference on Data Mining(ICDMO5).Houston. 2005.17 Jen-Wei Huang, Chi-Yao Tseng, Jia

35、n-Chih Ou, Ming-Syan Chen. On P rogressive Sequential P atternMiningC. /CIKM 06. Virginia. 2006.18 Justin Zhan. P rivacy -P reserving Collaborative Sequential Pattern MiningJ. ACM. 2006(06):12-22.192021常鹏.基于隐私保护的分布式序列模式挖掘算法研究D.江苏:江苏大学硕士学位论文,2008.陈肇勳.序列模式探勘的隐私保护D.中国台湾:静宜大学硕十学位论文,2006.朱玉全,胡天寒,陈耿,常鹏.序列

36、模式挖掘中的隐私保护方法研究J.计算机应用研究.222009,26:2489-2491.燕彩荣,朱明,史有群.基于隐私保护的序列模式挖掘J.小型微型计算机系统.2008,7(7):1241-1244.23华蓓,钟诚等.通过计算影响权值实现敏感序列模式隐藏J.小型微型计算机系统.2010,8(8):1647-1651.24 H. Liu, H. Lu, J. Yao. Identifying Relevant Databases for Multi-database MiningC. / Proceedings ofP acific-Asia Conference on Knowledge Di

37、scovery and Data Mining, pages 210-221, 1998.25 J. Yao, H. Liu. Searching Mult iple Databases for Interesting CompI exesC. /P roceedings of PAKDD, p ages198-210, 1997.26 J. Ribeiro, K. Kaufman, L. Kerschberg. Knowledge discovery from mult iple databasesC. /P roceedings ofKDD95, pages 240-245. 1995.2

38、7 J. Chattratichat, etc. Large scale data mining: challenges and respo nsesC. /P roceedings of InternationalConference on Knowledge Discovery and Data Mining, pages 143-146. 1997.28 D. Cheung, J. Han, V. Ng and C. Wong. Maintenance of discovered association rules in large databases: anincremental up

39、 dating techniqueC. /P roceedings of International Conference on Data Engineering, p ages106-114. 1996.29 A. P rodromidis, S. Stolfo. Pru ning meta-classifiers in a distributed data mining systemC. /P roceedings of the1st National Conference on New Information Technologies, pages 151-160. 1998.30 A.

40、 P rodromidis, P. Chan, and S. Stolfo. Meta-learning in distributed data mining systems: Issues andapp roachesJ. In Advances in Distributed and Parallel Knowledge Discovery, H. Kargupta and P. Chan (editors), AAAI/MIT P ress, 2000.31 T. Shintani, M. Kitsuregawa. Parallel mining algorithms for genera

41、lized association p atterns with classificationhierarchyC. / Proceedings of ACM SIGMOD, pages 25-36. 1998.32 S. Zhang, X. Wu, and C. Zhang. Multi-Database MiningJ. In IEEE Comp utational Intelligence Bulletin 2(1):pages 5-13. June 2003.33 N. Zhong, Y . Yao, and S. Ohsuga. Peculiarity oriented multi-

42、database miningC. /Proceedings of PKDD,p ages 136-146. 1999.34 HC Kum, JH Chang, W Wang. Sequential P attern Mining in Multi-Databases via Mult ip le AlignmentJ. DataMining and Knowledge Discovery,12, pages 151-180, 2006.35 X. Wu and S. Zhang. Synthesizing High-Frequency Rules from Different Data So

43、urcesJ. IEEE Trans.Knowledge Data Engineering 15(2): pages 353-367. 2003.36 C. Zhang, M. Liu, W. Nie, and S. Zhang. Identifying Global Exce ptional P atterns in Multi-database MiningJ.In IEEE Comp utational Intelligence Bulletin 3(1): pages 19-24. Feb 2004.37 S. Zhang, C. Zhang, and J. X. Yu. An eff

44、icient strategy for mining exce ptions in multi-databasesJ. In383940Information System 165(1-2): pages 1-20. 2004.唐懿芳,牛力,钟智.多数据库挖掘中独立于应用的数据库分类研究J.广西师范大学学报(自然科学版).2003,21(4):32-36.唐懿芳,牛力,张师超.多数据源挖掘中的模式合成技术J.菏泽师专学报.2002,24(2):1-4.唐懿芳,钟达夫,严小卫.基于聚类模式的多数据源记录匹配算法J.小型微型计算机.2005,26(9):1546-1550.41 R. Srikan

45、t and R. Agrawal. Mining sequential p atterns: Generalizations and p erformance imp rovementsC./P roceedings of the 6th Intl. Conf Extending Database Technology (EDBT), pages 3-17. Mar 1996.42 J. Pei, J. Han, et al. PrefixS pan: Mining sequential p atterns efficiently by p refix -p rojected p attern

46、 growthC./P roceedings Of International Conference on Data Engineering (ICDE), pages 215-224. April 2001.43 M. J. Zaki. Efficient enumeration of frequent sequencesC. /P roceedings of the 7th International ConferenceInformation and Knowledge Management, p ages 68-75. Nov 1998.44 J. Ayres, J. Flannick

47、, J. Gehrke, T. Yiu. Sequential p attern mining using a bitma p rep resentationC./P roceedings of the ACM International Conference on Knowledge discovery and data mining (SIGKDD),pages 429-435. July 2002.45 X. Yan, J. Han, and R. Afshar. CloS pan: Mining Closed Sequential P atterns in Larege Dataset

48、sC./P roceedings of the 3rd SIAM International Conference on Data Mining (SDM), pages 166-177, San Fransico.CA, 2003.46 X. Wu, C. Zhang, and S. Zhang. Database classification for multi-database miningJ. In Information System30(1): pages 71-88. 2005.二、研究内容(解决的问题),独创或新颖之处,拟采取的研究方法,预期成果,论文框架(一)研究内容(解决的

49、问题)1. 研究内容与目标(1)对已有的序列模式数据挖掘算法和多源数据挖掘算法进行研究,分析单源和多源数 据环境中数据存储形式及模式的区别、传统多源数据挖掘过程中的局限性,根据局部模式平 均支持度、模式全局支持度,预期最低支持度等参数,提出一种新的适用于多源数据环境下 的高投票率模式(全局模式)挖掘模型。(2)在(1)的基础之上,综合考虑多源序列模式数据挖掘特点和并行技术特点,研究 算法的并行化方案,设计一种高效率、可扩展性好的多源数据环境下高投票率模式(全局模 式)挖掘的算法。(3)在(1)( 2)的基础上,结合隐私保护技术,根据局部模式平均支持度、模式全局 支持度、敏感模式支持事务组、非敏

50、感模式权值和事务组影响权值等参数,研究适用于多源 数据环境下的敏感序列模式隐藏方法,设计实现基于隐私保护的多源数据挖掘模型和算法,使得算法既能快速高效挖掘出全局序列模式,又能很好的隐藏敏感序列模式。2. 待解决的关键技术问题(1)分析考虑单源和多源两种数据环境的主要区别,结合现有多源环境下序列模式挖 掘算法,根据局部模式平均支持度、模式全局支持度、预期最低支持度等参数,提出新的加 入并行思想的快速高效的多源数据环境下全局序列模式挖掘模型。(2 )结合相关数据清洗技术,在对多源数据进行挖掘的初始步骤之前,考虑如何消除 各个数据库中低于最低支持度的子模式和异常模式,得到“干净”数据库。(3)充分利

51、用多源序列模式数据挖掘特点和并行技术,设计更加高效的在多源环境下 挖掘全局序列模式的算法。考虑在对数据库进行划分过程中采用何种技术以达到划分效果和 速度最好。(4)如何在快速高效挖掘从多源数据环境中挖掘出全局序列模式的同时,隐藏支持敏感项集的敏感序列模式。根据局部模式平均支持度、模式全局支持度、敏感模式支持事务组、 非敏感模式权值和事务组影响权值等参数,设计多源环境下敏感序列模式隐藏模型。(5)在多源序列模式挖掘初始数据清洗时以何种策略删除支持敏感序列模式的部分或 者全部敏感项集,并在挖掘之后各个局部模式进行合成步骤时如何解决合成过程再次出现敏 感序列的情况。(二)独创或新颖之处(1)在考虑单

52、源与多源两种数据环境的主要不同基础上研究高效的多源环境下高投票 率模式(全局模式)挖掘技术。(2)对多源数据挖掘中数据清洗和数据库分类过程耗时较大情况下,充分考虑多源数 据库分布存储特性,通过设计有效方法在共享存储机器系统上进行并行执行清洗和分类过程 来提高算法的挖掘效率。(3)根据局部模式平均支持度、模式全局支持度、敏感模式支持事务组、非敏感模式 权值和事务组影响权值等参数,研究提出基于隐私保护的多源数据挖掘模型,设计实现高效 和高保护精度的多源环境下敏感序列隐藏算法。(三)拟采取的研究方法(1)对已有的单源环境下的序列模式挖掘算法、多源数据挖掘算法进行研究和分析, 针对多源数据环境特点,借

53、鉴已有的多源序列模式挖掘算法,对其进行并行化,设计多源全 局序列模式挖掘模型,使得在保证挖掘准确度的同时尽可能提高挖掘速度。(2)利用并行技术,在已设计出的多源序列模式挖掘模型基础上,研究设计高效率、 可扩展性好的多源全局序列模式挖掘算法。通过挖掘准确度和挖掘速度与已有算法进行对比 实验分析。(3)结合隐私保护技术,根据局部模式平均支持度、模式全局支持度、敏感模式支持 事务组、非敏感模式权值和事务组影响权值等参数,设计针对多源数据挖掘的敏感序列隐藏 模型。(4)针对敏感序列和多源数据环境特性,研究提出适用于多源数据环境下的基于隐私 保护技术的敏感序列模式隐藏算法。结合单源隐私保护数据挖掘算法有

54、效性的评估指标(隐 藏失败率、误隐藏率、伪模式率)来评估本文提出的多源环境下基于隐私保护的序列模式挖 掘算法。(5)在多核计算机、LinUX操作系统上,采用 C语言和OpenMP并行编程的方法实现所提出的基于隐私保护的多源数据挖掘高效算法,利用IBM公司的人工数据生成器 AssocGen自动生成若干包含不同序列模式和最小支持度的数据库数据作为实验数据进行实验,记录实验结果,与已有多源序列模式挖掘算法进行算法速度和准确度比较,并根据隐私保护数据挖 掘算法的若干评估指标进行实验性能测试与分析评估算法对于敏感模式的隐藏情况。(四)预期成果(1)根据局部模式平均支持度、模式全局支持度、预期最低支持度等参数,建立适用 于多数据源环境下的全局序列模式挖掘数学模型,旨在保证高准确度挖掘的前提下更快速的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论