


全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈如何做好建设工程档案编研工作 摘 要:介绍了关联规则,应用Apriori算法对图书馆读者借阅记录进行分析,发掘存在其中的关联规则,在图书馆提供的个性化服务中具有很大的价值。 关键词:数据挖掘;关联分析;Apriori算法 紧跟着教育体制的不断改革深化的步伐,高等院校办学的规模也随之扩大,相应的图书馆藏书也日益丰富起来。不断扩充的藏书容量在提供大量知识的同时,人们查找自己所需信息的难度也在逐渐增大,在信息时代迅猛发展的今天如何给读者提供方便快捷的搜索方式也已摆在管理者眼前。鉴于高校图书馆目前广泛采用了信息化的管理系统,会产生大量借阅数据资源,如果发掘这些海量数据资源中的关系和规则,寻找出背后隐藏的借阅信息,进而可对不同的读者提供具有针对性的个性化服务。数据挖掘经过近些年的逐步发展,在提供关联分析等方面能够便于发现隐藏在大量数据后的有用资源,可为读者提供更为主动地服务,提高知识的利用效率。 1 关联规则的相关概念 1.1 关联规则 关联规则(association rule)是是数据挖掘的主要技术之一,它对数据库中的数据项的依存性和关联性进行描述,从而在已知项的基础上对未知项进行预测,是形如X Y的表达式,其中X和Y是不相交的项集,即X Y= 。关联规则的强度可以用它的支持度(support)和置信度(confidence) 来度量。支持度代表该规则所代表的事例(元组)占全部事例(元组)的百分比;而置信度代表该规则所代例占满足前提条件事例的百分比。即: 使用支持度和置信度是由于一方面支持度是一种重要度量,低支持度概率的规则可能仅为偶然出现,多数是无意义的,通常可将其删去。另一方面,置信度度量通过规则进行推理具有可靠性。对于给定的规则X Y,置信度越高,Y在包含X的事务中出现的可能性就越大。但由关联规则做出的推论只表示规则前件和后件中的项明显地同时出现,而不能说明其必然蕴涵因果关系。 关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值。 挖掘关联规则的一种原始方法是:把每个可能存在的规则的支持度和置信度都计算出来。但是这种方法将会花费相当大的代价,从包含d项的数据集提取的规则的数目可以达指数级3395988.png ,但最终大部分规则将被丢弃。因此,对规则事先进行剪枝并拆分其支持度和置信度要求可免于将它们计算出来。例如,涉及同一个项集的甲,乙,丙的规则:甲,乙 丙,甲,丙 乙,乙,丙 甲,甲 乙,丙,丙 甲,乙,乙 甲,丙。如果能够判断出项集甲,乙,丙是非频繁的,则可以将这6个候选规则给剪掉,从而能够有效地减少算法开销。因此,通常?用将挖掘任务分解为如下两个主要的过程的挖掘算法: (1)频繁项集产生:寻找满足最小支持度阈值的所有项集作为频繁项集(frequent itemset)。 (2)规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则作为强规则(strong rule)。 1.2 Apriori算法 Apriori算法采用通过候选项集产生频繁项集的基础上再由频繁项集产生关联规则的方法,来达到系统地控制候选项集指数增长的目的。首先扫描事务数据库,从中寻找出频繁项集1的集合L1,然后用L1寻找频繁二项集2的集合L2,再用L2找出L3,直到不能再找到频繁项集K为止,来完成了频繁项集的挖掘,其中连接和剪枝是两个最关键的步骤。 1.2.1连接(join) 合并筛选后的候选k-项集与L k-1,产生下一个项集支持度。即为寻找L k,通过L k-1与自己合并候选k-项集的集合。 1.2.2剪枝(prune) 由于C k是L k的超集,可能有些元素不是频繁的。C k很大是会带来巨大的计算量,为减少C k的规模,Apriori遵从下列性质:任何非频繁的(k-1)项集必定不是频繁k-项集的子集。所以,当候选k-项集的某个(k-1)子集不是L k-1中的成员时,则该候选项集不可能是频繁的,可以从L k-1中移去。 2 Apriori算法在图书馆推荐服务中的应用 2.1 数据预处理 对于大量的借阅数据来说,借阅次数较少的读者产生的借阅记录对于关联分析分析没有太大的参考价值,因此在录入数据库时要剔除借阅量少于十本的读者记录,而仅将活跃读者的借阅数据信息录入到数据库中;将在架图书按标准的中图法进行编号归类,分为基于类型的多个借阅记录来避免出现一个较大的数据库,减少一次数据库扫描的容量;在借阅记录中出现借阅两本完全相同的概率很小,关联中只考虑到类别的书籍,而推荐出在此类别中借阅记录最高的一本来处理。设置最小支持度0.0255和最小置信度0.85。 以下是部分经提取后的读者借阅信息: 将获得到的数据进行变换和分类,得出每个读者的借阅记录 2.2 对处理的数据通过Apriori算法的处理,可得到以下规则 2.3 对规则作出分析 查阅书号从关联规则中可知,有2.58%的人同时借阅了O182(数学建模、控制论、分析基础类的书籍,而且在这些人中借阅了数学建模、控制论后有86.5%的人同时借阅了分析基础类的书籍;有2.55%的人同时借阅了工程力学和机械原理类的书籍,而且在这些人中借阅了机械原理后有88.2%的人同时借阅了工程力学类的书籍;有2.59%的人同时借阅了考古学和世界史类的书籍,而且在这些人中借阅了考古学后有89.1%的人同时借阅了世界史类的书籍通过对算法处理结果进行分析,我们可以很直观地发现读者借阅信息中存在的某些信息,读者会倾向于在选择某类书籍的同时捎带上另一类或几类需要的书籍。因此,我们可以建立一种数字化图书馆的推送业务,对借阅了数学建模、控制论后的读者推送分析基础;对借阅了机械原理的读者推送工程力学;对借阅了考古学后的读者推送世界史等等,这样虽然可能不适用于小部分群体,但方便了大部分读者,为他们创造了方便。同时,我们还可以尝试调整这些书籍的放置位置,将具有关联性质的书籍放置在互相靠近的地方,使读者能够一次性借阅到自己所需要的书籍,从而减少去各个不同类型的书籍场馆借阅所带来的不便,更好的发挥出这些数据的潜在价值。 3 总结 为找出存在于读者中的谱遍性阅读习惯,本文对图书馆的读者借阅记录采用Apriori算法分析了其中可能存在的关联规则,为图书馆的读者借阅提供方便的图书推送业务和图书关联放置模式;同时,也要发现存在的某些不足:由于存在读者帮别人借阅书籍的情况,会使相互关联性存在误差,影响到对个体行为的分析以及总体的关联情况,导致降低了数据分析的普适性,因此,需要在数据的录入阶段需要对这种读者的节借阅波动性建立滤波矩阵,予以滤除这种“噪声”的干扰,以便更加精准的分析可能存在的关联规则。后续的研究中还可对不同的年级的学生、教员建立单独的借阅数据库,以便能够发现关联性更强的准则,做出更加精准的预测,为广大读者提供针对性更强的服务。 参考文献 Mehmed Kantardzic 数据挖掘:概念、模型、方法和算法M.闪四清,陈茵,程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年统编版(2024)小学语文三年级上册第一单元测试卷及答案
- 管理咨询公司合同付款管理办法
- 防暴反恐知识技能培训课件
- 城市文旅融合发展探索
- 2025年最简单土石方运输合同3篇
- 2025年高考政治总复习文化生活模块全套知识清单
- 知识图谱辅助关系抽取方法-洞察及研究
- 四川省成都市2025-2026学年七年级语文上学期第一次月考复习试卷(含答案)
- 2025-2026学年湖南省长沙市名校联考联合体高二(上)第一次联考(暨入学模拟考试)物理试卷(含答案)
- 部门生产安全培训纪要课件
- 辽宁省沈阳市2025-2026学年七年级上学期第一次月考数学试卷(含答案)
- 小学生日常行为规范知识竞赛试题(附答案)
- 2025年食品安全员考试题库及答案
- 岭南版小学美术四年级上学期教学进度计划
- 管廊运维招聘题库及答案
- 江西省2025年高考物理真题及答案解析
- 高三一轮复习课件
- 驾驶员安全教育培训考试试卷含答案
- 2025广东河源市暨南大学附属第五医院急需紧缺人员招聘117人(第二批)笔试参考题库附答案解析
- 2025江苏航空产业集团有限责任公司人才招聘备考试题及答案解析
- 污水处理站运行记录台账范本
评论
0/150
提交评论