




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
web数据挖掘技术分析与研究 1Web数据挖掘面临的问题 目前面向Web的数据挖掘面临的问题,主要有两个方面: 1.1数据库环境的异构型 Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。其次,有关Web上的数据查询。 1.2数据结构的半结构化 Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。虽然Web上的数据形成半结构化数据。这些问题是进行Web数据挖掘所面临的最大困难。 2XML技术在Web数据挖掘中的优势 Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据的处理提供了有用的途径。利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。基于XML的Web数据挖掘技术,能够使不同的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。 2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点: 2.1.1集成异构数据源 XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。XML可以搜索多个不同数据库的问题,以实现集成。 2.1.2和异构数据进行交换 在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。XML的出现解决了数据查询的统一接口。 2.1.3过滤信息并显示 XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和以适应不同用户的需求。以不同的浏览形式提供给不同的用户。 3基于XML的Web数据挖掘模型 我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web数据挖掘模型通过提供一个Web数据挖掘的集成环境,提高数据挖掘系统的整体性能。工作流程如下:系统根据用户要求搜集Web资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘。通过系统的维护我们可以加入新的挖掘算法,实现升级。 3.1各模块具体功能 3.1.1数据收集 从Web站点上采集数据并存储,获得挖掘内容。针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据库。 3.1.2转换器 对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据。 3.1.3挖掘器 不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入,知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法。314结果生成与评估以直观的方式提交挖掘结果,便于用户的评估。通过模式分析和兴趣度度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘。 3.2系统各模块实现方法 3.2.1数据收集 数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源。最终形成较新和有效XML文档。 3.2.2数据的转换处理 数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理XML结构数据检要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储。目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据。XML数据,可以直接将它们提交给下一个模块。对于非XML数据,本文的实现方法是用到Tidy以改正HTML文档中的常见错误并生成格式编排良好的等价文档,还可以使用Tidy生成XHTML(XML的子集)格式的文档。通过构造相应的Java类完成将数据从HTML到XML的转换。 3.2.3挖掘方法 (1)文本分类:文本分类是指按预先定义的主题类别,把集合中的每个文档确定一个所属类别。这样,用户能够方便地浏览文档,并限制搜索范围来使查找更为容易。利用文本分类技术对大量文档进行快速、有效地自动分类。有关的算法通常采用TFIDF和NaiveBayes等方法。 (2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要预先定义好的主题类别,它是将把文档集合分成若干个簇,要求同簇内文档内容相似度最大,而不同簇间的相似度最小。Hearst等人研究表明聚类假设,即与用户查询相关的文档通常会聚类比较靠近,而远离与用户查询不相关文档。可以利用文本聚类技术把搜索引擎检索结果分成若干个簇,用户只要考虑那些相关的簇,就能够缩小所需要浏览的结果数量。目前,常用的文本聚类算法,分为两种:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法。 (3)关联分析:关联分析是指从文档集合中发现不同词语之间关系Brin提出一种从大量文档中查找一对词语出现模式算法,在Web上寻找作者和书名的模式,从而发现数千本在Amazon网站上查找不到的新书。 (4)模式评价:Web数据挖掘中十分重要的过程就是模式评价。常用的方法有预留法和交叉实验法,将数据分成训练集和测试集两部分,学习和测试反复进行,最后用一个平均质量模型来确定模型质量的好坏。 (5)预留法:从数据集合随机抽取预定大小一个子集作为测试集,其他数据则作为训练集。 (6)交叉验证法:把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集,在每次循环中,选取其一个子集作为测试集,其它子集并集则作为训练集。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- bsci考试题及答案
- 2025年氟化工艺考试试题(含答案)
- 医学基础知识试题题库(带答案)
- 消防安全知识的考试题及答案
- 医院三类射线装置辐射工作人员考核试题(附答案)
- 2025年执业药师之药事管理与法规基础试题库和答案
- 2024年全国保密知识竞赛题库和答案
- 2025网络安全知识竞赛题库和参考答案
- 标准文献分类法培训课件
- 化验室培训专业知识课件
- 2025年医疗器械不良事件培训考试试题(有答案)
- 第1课 互联网和物联网 课件 2025-2026学年七年级下册信息技术浙教版
- 信息技术在课堂教学中的应用
- 江苏省宿迁市沭阳县如东实验学校2024-2025学年七年级下学期期末数学试卷(含答案)
- 2025年湖南省高考真题卷政治和答案
- 额叶胶质瘤护理查房
- 菜鸟驿站标准化运营流程
- 危险废弃物及固体废物管理培训
- 徒手整形培训课件
- 乡镇密码电报管理制度
- 村级络监控安装方案(3篇)
评论
0/150
提交评论