




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Web挖掘基础,提纲,Web挖掘的概念 Web内容挖掘 Web结构挖掘 Web日志挖掘,Web 挖掘的挑战,Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的,Web挖掘与IR,Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 Web挖掘是智能化的IR,IR出现早,技术成熟。,Web挖掘概念,Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:CP 。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。,Web挖掘分类,Web内容挖掘,基于网页内容或其描述中抽取知识的过程。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。,日志的预处理,Web文本挖掘,Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。,Web文本挖掘的方法,文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。 文本分类 :把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。 文本聚类:根据文本的不同特征划分为不同的类。 从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。,Web文本挖掘的应用,搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。 自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。,文本挖掘在垃圾邮件过滤中的应用,Web多媒体挖掘,Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。 多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。,多媒体挖掘系统的结构,多媒体挖掘的典型应用,视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。 在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。,Web结构挖掘,有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。 Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。,Web结构挖掘主要方法,PageRank算法 HITS算法,PageRank算法,PRi :the PageRank value of page i PRj : the PageRank value of page j kj :number of the pages j refer to d:a parameter ranging 0,1.,Web结构挖掘的应用,信息检索 社区识别 网站优化,Web日志挖掘,Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。 理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。,Web日志挖掘的应用,获取用户访问模式信息,理解用户的意图和行为 分析用户的存取模式,为用户提供个性化的服务 确定网站的潜在客户群,合理制订网络广告策略等 改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整 对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等 利用关联规则确定相关Web查询(查询修正),隐私保护数据挖掘,数据挖掘可能会违反用户的隐私 在原始数据库中,类似于标识符、姓名、地址和喜好等数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年Z世代消费行为对新兴品牌成长路径影响报告
- 2024年演出经纪人之演出经纪实务考试题库带解析答案
- 广东绿道工程监理规划
- 一岗双责及新安法重点解读安全教育培训
- 第22课《礼记二则-大道之行也》课件
- 农产品质量安全追溯体系
- 2025届高考物理大一轮复习课件 第六章 第28课时 动能定理在多过程问题中的应用
- 化学●安徽卷丨2024年安徽省普通高中学业水平选择性考试化学试卷及答案
- 2025年全国注册会计师考试审计知识全真模拟试卷及答案(共三套)
- 消防初级试题及答案
- 农场转让合同协议书模板
- 2024-2025学年人教版数学一年级下学期期末模拟试卷(含答案)
- 2025-2030中国共享单车服务行业市场现状供需分析及投资评估规划分析研究报告
- 安徽省合肥一中2025届高三最后一卷英语试题及答案
- 有关工厂实习心得体会模版
- 2025年法律职业资格(客观题)重点考点大全
- 2025年组织行为学专业考试试题及答案
- 不寐的中医护理常规
- 2024年直播电商高质量发展报告
- 创新设计思维
- 客诉处理培训课件
评论
0/150
提交评论