web数据挖掘.doc_第1页
web数据挖掘.doc_第2页
web数据挖掘.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈Web数据挖掘学院:计算机与电子信息学院 专业:计算机应用技术学号:1007301005 姓名:王芳问题的提出当前网络发展迅速 ,各种网站比比皆是,它容纳了海量的各种类型的原始信息,因此Web已经成为1个巨大的信息库,成为人们获得信息的重要手段。但随着Web站点的规模和复杂度的增加,站点设计和维护工作变得越来越困难。作为网站经营者,希望根据用户的访问兴趣、访问频率、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务以更好地满足访问者的需求而从访问者的角度出发,他们希望用最简洁的方式得到最精确的信息,希望得到个性化的服务。Web数据挖掘就是为顺应这种需求而发展起来的数据处理技术,即利用数据挖掘的思想和方法,在Web上挖掘出有用的信息。问题的定义1 Web数据挖掘的概念Web Mining(Web挖掘)是由Oren Etzioni在1996年首先提出的,“因特网的数据挖掘”、“Web知识发现”、“网络信息挖掘”、 “Web信息挖掘”等也可以认为是Web挖掘的同义词。一般,对Web数据挖掘做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射。Web数据挖掘是一项综合技术。是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法。从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。2 Web数据挖掘的分类Web挖掘的对象包括一切通过Web形成的数据。根据挖掘对象的不同,可将Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。3 Web挖掘流程典型Web挖掘的处理流程如图1所示:资源发现信息选择和预处理模式识别模式分析图1 Web数据挖掘的工作流程1)资源发现(Resource Finding):是指从Web获取并返回文本资源的过程。文本资源最常见的是HTML文档,其他的还有电子邮件、新闻组、BBS、网站的日志数据或通过Web形成的交易数据库中的数据等。2)信息选择和预处理(Information Selection and Preprocessing):是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如,从Web文档中自动去除广告链接、去除多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。3)模式识别(Model Identify):这个阶段主要运用数据挖掘技术和统计方法,从Web使用记录中挖掘知识。实现算法可以是统计分析、路径分析、关联规则、序列模式以及分类聚类等。4)模式分析(Model Analysis):这个阶段的任务是采用合适、成熟的技术和工具,进行模式的分析,从而辅助分析人员的理解,使采用各种工具挖掘出的模式得到很好的利用。目前常用的方法有:采用类似SQL的形式化查询进行分析;先将数据导入多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。可视化技术被经常应用到模式分析的结果显示。Web挖掘的应用领域目前,数据挖掘技术已经广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,而它在web中的应用也正在成为1个热点。Web数据挖掘的应用涉及到电子商务、网站设计和搜索引擎服务等方面。1)电子商务 运用Web数据挖掘技术能够从Web Server的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。2)网站设计 通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息。例如采用自动归类技术实现网站信息的层次性组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务。3)搜索Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。而实际上,网络信息挖掘是目前网络信息检索发展的1个关键,如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;同时,通过用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果;另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。Web挖掘的未来发展方向 在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点。 1)高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”。如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。 2)Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。 3)Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页,如何抽取动态网页中的数据,如何在分布的Web中获取信息,如何在指定网页中快速定位所需的数据区,如何利用数据库和数据仓库技术查询和存储Web内容等。结束语本文讨论了Web数据挖掘的概念,阐述了Web数据挖掘的分类、工作流程、应用领域及未来的发展方向。如何进一步发展Web资源,势必要进行更加深入的研究,Web数据挖掘的研究将充满挑战又极富发展潜力。参考文献:1 Colley,Mobasher,Srivastava. Web Mining:Information and Patter Discovery on the World Wide Web.(A Survey Paper) (1997),in proceedings of the 9th IEEE International Conferece on Tools with Artificial Intelligence(ICTAI97),November 1997.2Raymond Kosala,Hdendrik Blockeel. Web Mining Research: A Survey SIGKDD Exploration,2(1),2000.3Stumme,Hotho,Berendt. Usage Mining for and on the Semantic Web.2003.44Mobasher,Jain,Han,Srivastava. Web Mining: Pattern Discovery from World Wide Web Transaction.Technical Report 96-050(1996.3)5Han J,Kanber M. Data Mining: Concept and Techniques.San Mateo,CA: Morgan Kaufmann,20006Lawrence Setal,Searching the World Wide Web. Science,1998,2008(5360):98-1007张蓉.Web挖掘技术研究J.计算机工程,2006,32(15)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论