




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在科技期刊网站中的应用论文 随着互联网技术的快速发展,学术研究环境较以前更加开放,对传统的科技出版业提出了开放性、互动性和快速性的要求;因此,以信息技术为基础的现代数字化出版方式对传统的科技出版业产生着深刻的影响。为了顺应这一趋势,不少科技期刊都进行了数字化建设,构建了符合自身情况、基于互联网B/S结构的稿件处理系统。 以中华医学会杂志社为代表的部分科技期刊出版集团均开发使用了发行系统、广告登记系统、在线销售系统以及站。这些系统虽然积累了大量的原始用户业务数据;但从工作系统来看,由于数据本身只属于部的业务数据,因此一旦相关业务工作进行完毕,将很少再对这些数据进行分析使用。 随着目前人工智能和机器学习技术的发展,研究人员发现利用最新的数据挖掘方法可以对原始用户业务数据进行有效分析和学习,找出其中数据背后隐含的内在规律。这些有价值的规律和宝贵的经验将对后续科技期刊经营等工作提供巨大的帮助。 姚伟欣等指出,从STM期刊出版平台的技术发展来看,利用数据存取、数据管理、关联数据分析、海量数据分析等数据挖掘技术将为科技期刊的出版和发行提供有力的帮助。通过使用数据挖掘(datamining)等各种数据处理技术,人们可以很方便地从大量不完全且含有噪声或相对模糊的实际数据中,提取隐藏在其中有价值的信息,从而对后续科技期刊出版工作起到重要的知识发现和决策支持的作用。 1数据挖掘在科技期刊中应用的现状 传统的数据库对数据的处理功能包括增、删、改、查等。这些技术均无法发现数据内在的关联和规则,更无法根据现有数据对未来发展的趋势进行预测。现有数据挖掘的任务可以分为对数据模型进行分类或预测、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系发现、异常或例外点检测以及趋势发现等,但目前国内科技期刊行业利用数据挖掘方法进行大规模数据处理仍处在起步阶段。张品纯等对中国科协所属的科技期刊出版单位的现状进行分析后发现,中国科协科技期刊出版单位多为单刊独立经营,单位的规模较小、实力较弱,多数出版单位不具备市场主体地位。这样就导致国内大部分科技期刊既没有能力进行数据挖掘,也没有相应的数据资源准备。以数据挖掘技术应用于期刊网站为例,为了进行深入的数据分析,期刊经营人员需要找到稿件与读者之间、读者群体之间隐藏的内在联系。目前,数据挖掘的基本步骤为:1)明确数据挖掘的对象与目标;2)确定数据源;3)建立数据模型;4)建立数据仓库;5)数据挖掘分析;6)对象与目标的数据应用和反馈。 2期刊数据的资源整合 部从稿件系统、发行系统、广告系统、站等各个系统中将相关数据进行清洗、转换和,然后加载到数据仓库中。进一步,根据业务应用的范围和紧密度,建立相关数据集市。期刊数据资源的整合过程从数据体系上可分为数据采集层、数据存储处理层和数据展现层。 要获得能够适合企业内部多部门均可使用、挖掘和分析的数据,可以从业务的关联性分析数据的准确性、一致性、有效性和数据的内在关联性。 3期刊数据的信息挖掘 信息挖掘为了从不同种类和形式的业务进行抽取、变换、集成数据,最后将其存储到数据仓库,并要对数据的质量进行维护和管理。数据挖掘可以有效地识别读者的阅读行为,发现读者的阅读模式和趋势,对网站改进服务质量、取得更好的用户黏稠度和满意度、提高科技期刊经营能力有着重要的意义。作为一个分析推荐系统,我们将所分析的统计结果存储于服务器中,在用户或决策者需要查询时,只需输入要找寻的用户信息,系统将从数据库中抽取其个人信息,并处理返回到上网时间分布、兴趣点所在、适配业务及他对于哪些业务是有价值客户,甚至包括他在什么时段对哪类信息更感兴趣等。只有这些信息才是我们的使用对象所看重和需要的。 网站结构挖掘是挖掘网站中潜在的链接结构模式。通过分析一个网页的链接、链接数量以及链接对象,建立网站自身的链接结构模式。在此过程中,如果发现某一页面被较多链接所指向,则说明该页面信息是有价值的,值得期刊工作人员做更深层次的挖掘。网站结构挖掘在具体应用时采用的结构和技术各不相同;但主要过程均包括预处理、模式发现和模式分析3部分。为了反映读者兴趣取向,就需要对数据库中的数据按用户进行抽样分析,得到兴趣点的统计结果,而个人的兴趣分析也可基于此思路进行。下面以中华医学杂志为例做一介绍。 由于服务器同时部署了多个部网站,这就要求工作人员必须对得到的访问.nmjc.日志,去除由爬虫软件产生的记录。这些记录一般都会在日志结尾包含“Spider”的字样。同时,还需要去除不是由GET请求产生的日志以及请求资源不是页面类型的日志。最后,工作人员还需要去除访问错误的请求,可以根据日志中请求的状态进行判断。一般认为,请求状态在(200,300)范围内是访问正确的日志,其他如403、400和500等都是访问错误的日志。用户识别可以根据用户的IP地址和用户的系统信息来完成。只有在IP地址和系统信息都完全一致的情况下,才识别为一个用户。会话识别是利用面向时间的探索法,根据超时技术来识别一个用户的多次会话。如果用户在一段时间内没有任何操作,则认为会话结束。用户在规定时间后重新访问,则被认为不属于此次会话,而是下次会话的开始。 利用WebLogExplore分析日志、用户和网页信息在获得了有效的日志数据后,工作人员可以利用一些有效数据挖掘算法进行模式发现。目前,主要的数据挖掘方法有统计分析、关联规则、分类、聚类以及序列模式等技术。本文主要讨论利用Apriori算法来发现科技期刊日志数据中的关联规则。本质上数据挖掘不是用来验证某个假定的模式的正确性,而是在数据库中自己寻找模型,本质是一个归纳的过程。支持度(Support)的公式定义为:Support(AB)=P(AB)。支持度可以用于度量事件A与B同时出现的概率。如果事件A与B同时出现的概率较小,说明事件A与B的关系不大;如果事件A与B同时出现非常频繁,则说明事件A与B总是相关的。置信度(Confidence)的公式定义为:Confidence(AB)=P(A|B)。置信度揭示了事件A出现时,事件B是否也会出现或有多大概率出现。如果置信度为100%,则事件A必然会导致事件B出现。置信度太低,说明事件A的出现与事件B是否出现关系不大。 对所有的科技期刊日志数据进行预处理后,利用WebLogExplore软件可得到日志汇总表。表中存储了所有用户访问网站页面的详细信息,工作人员可将其导入数据库中。以查看到所选择用户访问期刊页面的详细信息。 同样,在WebLogExplore软件中选择感兴趣的页面,可以查看所有用户访问该页面的统计信息,如该页面的访问用户数量等。工作人员可以对用户访问排名较高的页面进行进一步的模式分析。 步骤1:将图2日志信息汇总表中的数据导入数据库中,建立日志总表。 步骤2:在数据库中建立一个新表命名为tj。 步骤3:通过查询程序得到日志总表中每一个用户访问的页面,同时做distinct处理。 步骤4:将查询得到的用户访问页面记录进行判断。如果用户访问过排名前20位的某个页面,则在数据库中写入true,否则写入false。依次循环判断写入数据库中。 步骤5:统计每个访问排名靠前页面的支持度,设置一维项目集的最小阀值(10%)。 步骤6:统计大于一维阀值的页面,写入数组,并对数组内部页面进行两两组合,统计每个组合2个页面值均为true时的二维项目集的支持度。 步骤7:设置二维项目集支持度的阀值,依次统计三维项目集支持度和置信度(AB),即当A页面为true时,统计B页面为true的数量,除以A为true的数量。设置相应的置信度阀值,找到访问排名靠前页面之间较强的关联规则。 4数据挖掘技术应用的意义 1)对频繁访问的用户,可以使用用户识别技术分析此用户的历史访问记录,得到他经常访问的页面。当该用户再次登录系统时,可以对其进行个性化提示或推荐。这样,既方便用户使用,也可将系统做得更加友好。很多OA期刊网站,不具备历史浏览记录的功能;但浏览记录对用户来讲其实十分重要,隐含了用户对文章的筛选过程,所以对用户经常访问的页面需要进行优化展示,不能仅仅提供,需要将文章题名、作者、关键词等信息以列表的方式予以显示。 2)由数据挖掘技术而产生的频繁项目集的分析,可以对网站的结构进行改进。支持度很高的页面,说明该页面的用户访问量大。为了方便用户以及吸引更多的读者,可以将这些页面放置在更容易被访问的位置,科技期刊的网站内容一般以年、卷、期的形式展示。用户如果想查看某一篇影响因子很高的文章,也必须通过年卷期的方式来查看,非常不方便而且页面友好性不高。通过数据挖掘的分析,部可以把经常被访问或者高影响因子的文章放在首页展示。 3)对由数据挖掘技术产生的频繁项目集的分析,可以发现用户的关注热点。若某些页面或项目被用户频繁访问,则可以用这些数据对用户进行分析。一般来说科技期刊的读者,每个人的专业和研究方向都是不同的,部可以通过数据挖掘技术来判断读者的研究方向和感兴趣的热点,对每一个用户进行有针对性的内容推送和消息发送。 4)网站管理者可以根据在不同时间内频繁项目集的变化情况对科技期刊网站进行有针对性的调整,比如加入更多关于该热点的主题资源。目前大多数科技期刊网站首页的内容,均为部工作人员后台添加、置顶、高亮来吸引用户的;通过数据挖掘技术,完全可以摈弃这种展示方式。部网站的用户访问哪些页面频繁,系统便会自动将这些页面的文章推向首页,不需要部的人工干预,整个网站实现自动化运行。 5后记 本文重点讨论了数据挖掘技术与科技期刊网站页面之间的关系。其实我们还可以从很多方面进行数据挖掘,比如可以对网站的用户和内容进行数据挖掘,通过分析可以为后期的期刊经营做好铺垫。 有一点很重要,没有一种数据挖掘的分析方法可以应付所有的需求。对于某一种问题,数据本身的特性会影响你的选择,需要用到许多不同的数据挖掘方法以及技术从数据中找到最佳的模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025综合购销合同书
- Unit 1说课稿-2025-2026学年小学英语第一册朗文国际英语
- 粤教版信息技术选修二《多媒体技术应用》第五章《5.1声音的采集与加工》教学设计 高二下册
- 棉花纺织厂原料采购合同
- 2023四年级语文下册 第1单元 3 天窗配套说课稿 新人教版
- Review 9 10 11 12说课稿-2025-2026学年小学英语Level 2剑桥国际少儿英语(第二版)
- Lesson 33:Let's Go to the Zoo!说课稿-2025-2026学年初中英语冀教版2012七年级上册-冀教版2012
- 关于清明祭祖的演讲稿
- 公司职员工作总结范例
- 阳泉市检察院招聘考试真题2024
- 地表形态的变化第一课时课件高中地理湘教版选择性必修一
- 贸易公司合伙合同协议
- 人教PEP版五年级下册英语完形填空专项练习10篇-(含答案)
- 《内蒙古自治区安全生产条例》解读培训课件
- 婚外情人协议书范本
- 工厂合同管理制度
- 2025年腾讯电子签合同模板格式
- 阿尔茨海默症的护理诊断与措施
- 血液透析患者自我管理与健康教育
- 建筑工程施工管理培训课件
- DB14-T 1737-2024 医疗护理员培训机构服务规范
评论
0/150
提交评论