WebminingWeb挖掘基础商业智能_第1页
WebminingWeb挖掘基础商业智能_第2页
WebminingWeb挖掘基础商业智能_第3页
WebminingWeb挖掘基础商业智能_第4页
WebminingWeb挖掘基础商业智能_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络挖掘基础,赵卫东,博士,复旦大学软件学院,概要,网络挖掘概念,网络内容挖掘,网络结构挖掘,网络日志挖掘,网络挖掘的挑战,网络数据量太大:服务器级收集,客户端级收集和代理级收集比传统的文本文档更复杂。网络是一个动态的信息源。网络面临着广泛的用户群体。网络上只有一小部分信息是相关的或有用的。网络挖掘和信息检索是网络挖掘的一个方面,它只对信息进行排序。网络挖掘是智能信息检索,出现较早,技术成熟。网络挖掘是从大量的网络文档集合中发现隐藏的有用模式的过程。Web挖掘主要处理半结构化和非结构化数据,如文本、图形和图像,这些数据分布在Web文档、Web服务器日志、用户cookies等中。网页挖掘分类、网

2、页内容挖掘、基于网页内容或其描述提取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘,其挖掘对象包括文本、图像、音频、视频等各类数据。日志预处理、网页文本挖掘、网页文本挖掘针对各种网页数据,包括网页内容、网页结构和用户访问信息,并应用数据挖掘方法寻找有用的知识,帮助人们从大量的网页文档中发现隐藏的模式。Web文本挖掘方法,文本摘要:从文本(集合)中提取关键信息,并以简洁的形式总结文本(集合)的主题内容。例如,当搜索引擎向用户返回查询结果时,它通常需要给出文本摘要。文本分类:以一些标注的文本为训练集,找出文本属性与文本类别之间的关系模型,然后用这种关系模型来判断新文本的类别。召回率和精确度

3、。文本聚类:根据文本的不同特征将其分为不同的类别。从大量的文献中,我们可以找到一对词的出现模式的关联分析,并预测特定数据的未来情况。网络文本挖掘在搜索引擎领域的应用:利用网络文本挖掘可以更合理地组织搜索结果:根据网页之间的相似性,可以将其分为几个聚类。自然语言理解领域:结合自然语言处理技术和网络文本挖掘技术。文本挖掘在垃圾邮件过滤、网络多媒体挖掘、网络多媒体挖掘中的应用是通过综合分析视听特征和语义,从大量的多媒体数据中发现隐藏的、有价值的、可理解的模式,获取事件的趋势和相关性,为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘。多媒体挖掘系统的结构、多媒体挖掘的典型应用、视频挖掘:

4、从视频数据(如电影和监控视频)中提取视频场景内容和运动对象的特征及其时空位置变化,并发现场景的内容特征、运动对象的行为模式和事件模式等。在线诊疗系统:对新生成的医学图像进行分类,从而对患者的疾病进行诊断。有用的知识不仅存在于网页之间的链接结构和网页的内部结构中,还存在于网址中的目录路径结构(网页之间的目录结构关系)中。网页结构挖掘是指挖掘网页链接结构模式,即通过分析网页链接的数量和对象,建立网页链接结构模式。网页结构挖掘的主要方法,网页排名算法HITS算法,网页排名算法,PRI:网页排名值PRJ :网页排名值J KJ:网页数量J参考D:参数范围0,1。应用网络结构挖掘、信息检索社区识别网站优化

5、、网络日志挖掘、网络日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息。),即通过分析网络日志数据,找到访问者访问网页的模式。了解用户行为,改善网站结构,发现潜在用户,为用户提供个性化服务,增强网站竞争力。网络日志挖掘的应用可以获取用户访问模式信息,了解用户的意图和行为,分析用户的访问模式,为用户提供个性化服务,确定网站的潜在客户群,合理制定在线广告策略等。并改进网站的结构,使网站点可以随着时间和用户需求的变化不断调整和统计日志数据。包括经常访问的页面、单位时间的访问频率、访问的时间分布等。使用关联规则来确定相关的Web查询(查询修正),隐私保护数据挖掘,数据挖掘可能会侵犯用户的隐私。在原始数据库中,像标识符、姓名、地址和偏好这样的数据应该作为用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论