全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(实验项目) DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章)合著者关系。解决问题的大致过程:1. DBLP数据集是一个XML文件,先对XML文件解析,得到一个超过1G的TXT文件,处理文件数据格式,并截取前20000行数据,格式如下图: 2. 使用FP-Tree算法,设置支持度为3,得到的满足条件的频繁项集如下图: 说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的22的相依表(显示期望值) Yufei Tao 非(Yufei Tao) 和 Dimitris Papadias 26(0.0045) 60(86) 86非(Dimitris Papadias) 59(84.9955) 1609994(1609968) 1610053 和 85 1610054 16101391. 使用提升度的相关分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5提升度为P(A,B)/(P(A)P(B) )=1.61e -5/(5.28e -55.28e -5)=5775 2. 使用2进行相关分析 2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609994-1609968)2/1609968 = 150238 3. 全置信度 P(A|B) = 26/85 = 0.306 P(B|A) = 26/86 = 0.302 all_conf(A,B) = minP(A|B),P(B|A) = 0.302 4. 最大置信度 max_conf(A,B) = maxP(A|B),P(B|A) = 0.306 5. Kulczynski Kulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046.余弦 Cosine(A,B) = P(A|B)P(B|A) = 0.304比较6种模式评估度量: 上述6种模式评估中,提升度和2的计算受零事务的影响很大,在上面的例子中,AB表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A和B发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski,余弦)结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得出的结论却是正相关,而根据Kulczynski和余弦的结果,则两者被视为中性。(c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A和B满足频繁项集的要求,并且A发表过的论文不小于30篇,B发表过的论文不超过5篇,则我们可以认定A为导师,B为学生。2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A为导师,B为学生,并且他们的合著次数满足频繁项集的支持度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026湖南省湘潭医卫职业技术学院公开招聘工作人员5人笔试备考题库及答案解析
- 2026年黄山市徽城投资集团有限公司招聘3名考试备考题库及答案解析
- 2026广西南宁市消防救援局招聘政府专职消防员111人笔试备考题库及答案解析
- 2026贵州云开投资有限公司招聘考试备考题库及答案解析
- 2026年镉镍电池行业分析报告及未来发展趋势报告
- 2026江苏扬州市职工生活管理协会招聘工作人员2人笔试参考题库及答案解析
- 摄像机工程施工工艺、方法
- 2026年核苷酸行业分析报告及未来发展趋势报告
- 2026年叶片钢行业分析报告及未来发展趋势报告
- 2026青岛啤酒股份有限公司招聘88人笔试模拟试题及答案解析
- 牛场安全防疫培训课件
- 卫生院保密工作自查自评报告
- 氧气筒吸氧技术
- 2026年中国化工经济技术发展中心招聘备考题库带答案详解
- 网络信息茧房的形成机制与破局路径研究毕业答辩
- 2026初级会计《经济法》三色笔记与真题演练
- 政府审计部门审计专员的面试问题集
- 道路运输企业重大事故隐患排查表
- 消渴目病中医辨证施护体系与临床护理方案
- 数控机床可靠性现状及其改善对策研究
- 25秋国家开放大学《人文英语4》形考任务参考答案
评论
0/150
提交评论