已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.第6章文本和网络挖掘,主要教师:魏宏喜(博士,副教授)电子邮件:cswhx,2,第6章文本和网络挖掘,6.1引文6.2文本挖掘6.3网络挖掘,3,第6章文本和网络挖掘,6.1引文6.2文本挖掘6.3网络挖掘,4,6.1引文, 中国女子乒乓球队获得第33枚金牌超过雅典奥运会创造历史正文1神舟六号轨道模块已正常运行60天获得大量科学数据正文2乒乓球男单决赛中国三虎大将获得金、银、铜牌正文3这三个正文中哪一个内容更接近? 如果前两个文本分别代表一个类别,第三个文本应该属于哪个类别?5,第6章文本和网络挖掘,6.1引文6.2文本挖掘6.3网络挖掘,6,6.2文本挖掘,6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要,7,6.2文本挖掘,6.2.1文本信息检索6.2.2文本分类6.2.3自动摘要,8,6.2.1文本信息检索,信息检索:指用户从包含各种信息的文档集中搜索所需信息或知识的过程。1.信息检索模型2。信息检索的性能评价。基于相似性的检索。文档间相似性计算示例,9,1。信息检索模型,布尔模型:用户查询被表示为一个由关键字和“与”或“非”组成的布尔表达式。检索过程在倒排索引中实现。向量空间模型:有一组特征表示,通常是单词或单词。用户的查询和文本被表示为特征向量,其中每个维度是一个特征,每个特征由权重表示。概率模型:最简单的概率模型是二进制独立检索模型(BIR)。BIR模型可以根据用户的查询将所有文档集中的每个文档分为两种类型。一种类型与查询相关,另一种类型与查询无关。信息检索精度的性能评价是检索文档中相关文档占所有检索文档的百分比,它衡量检索系统的准确性。召回是检索到的文档中相关文档占所有相关文档的百分比。它衡量检索系统的全面性。基于相似性检索,给定一个文档集D和一个项目集T,每个文档可以表示为T维空间中的特征向量V。向量v中的第j个值是相应文档中第j个项目的权重(例如tf或tf*idf)。两个文档之间的相似性可以通过下面的公式来计算:12,4。文档间相似度计算示例:字典:北京大学、体育馆、乒乓球、团队、决赛、中国队、总分、奥运会、金牌、女队、雅典奥运会、男单、测试数据、神舟六号、轨道模块、太空、科学实验、金融、银行、监管、市场、管理、国际、货币、人民币v1=1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1文本分类的关键问题是获得一个分类模型,该模型可以用来对其他文档进行分类。典型的文本分类模型:在SVM有了一个模型之后,需要人工标记和训练来确定这个模型的参数,然后才能对文本进行自动分类。15、6.2文本挖掘、6.2.1文本信息检索、6.2.2文本分类、6.2.3自动摘要、16、6.2.3自动摘要、自动摘要是利用计算机对文档进行处理,选择最能代表文档中心思想的句子或段落,并经过修改和重组形成最能反映文档内容的文本;或者通过理解文档,重新生成能够表达文档主要内容的文本。1.自动摘要分类2。自动摘要的步骤17。1.自动摘要分类,主题摘要摘要,主题摘要评论摘要,18。2.自动摘要的步骤。预处理,过滤,分词(中文)统计分析,摘要提取,摘要输出,摘要评估,19。6.2文本挖掘,6.2.1文本信息检索,6.2.2文本分类,6.2.3自动摘要,20。第6章文本和网络挖掘,6.1引用示例6.2文本挖掘6.3网络挖掘,21,网络挖掘的概念和分类,网络数据挖掘是利用数据挖掘技术自动发现和提取网络文本和服务器中有趣的、有用的模式和隐含的信息。22,6.3网络挖掘,6 . 3 . 1网络内容挖掘,6 . 3 . 2网络结构挖掘,6 . 3 . 3网络使用挖掘,23,6.3网络挖掘,6 . 3 . 1网络内容挖掘,6 . 3 . 2网络结构挖掘,6 . 3 . 3网络使用挖掘,24,6 . 3 . 1网络内容挖掘,1,网络内容挖掘的主要内容,2,主流网络搜索引擎,25,1。网页内容挖掘的主要内容是对搜索引擎的查询结果进行进一步处理,以获得更准确、更有用的信息,从而增强搜索引擎的内容查询功能。挖掘HTML页面内容:对页面中的文本进行文本挖掘;对页面中的多媒体信息进行多媒体信息挖掘。26,2,主流网络搜索引擎,谷歌(谷歌)必应(必应)百度(百度)搜狗(搜狗),27,6.3网络挖掘,6 . 3 . 1网络内容挖掘,6 . 3 . 2网络结构挖掘,6 . 3 . 3网络使用挖掘,28,6 . 3 . 2网络结构挖掘,1。什么是网络结构挖掘2。页面排序算法3。网络链接结构的局限性。1.什么是网络结构挖掘?网页结构挖掘:挖掘网页潜在的链接结构模式,从万维网的组织结构和链接关系中获取知识。网页结构挖掘通过分析网页链接和链接网页的数量和对象来建立自己的链接结构模型。该模型可用于对网页进行分类,总结网站和网页的结构,从而获得不同网页之间的相似性和相关性信息。30,2,页面排名算法,一个页面被多次引用,也就是说,很多页面都有链接到它,那么这个页面就非常重要。虽然一个页面没有被多次引用,但如果它被一个重要的页面引用,这可能是很重要的。一个页面的重要性被平均分配并传递到它所引用的页面。该算法是由谷歌提出的。(1)并非每个超链接都具有批准的性质。有些是为其他目的而创作的,如导航或付费广告。这些不具有批准性质的超链接不应用于结构挖掘。(2)在当今激烈的商业竞争中,很少有网页指向其竞争领域的权威页面。32,6.3网站挖掘,6 . 3 . 1网站内容挖掘,6 . 3 . 2网站结构挖掘,6 . 3 . 3网站使用挖掘,33,6 . 3 . 3网站使用挖掘,1,什么是网站使用挖掘,2,网站使用挖掘使用的手段,3,网站使用挖掘的三个阶段,34,1,什么是网站使用挖掘,用户在网站上的业务活动和浏览访问信息都记录在日志文件中。Web日志挖掘是从服务器的日志文件或其他数据(如Cookie)中分析用户的访问模式。35,2,网络使用挖掘方法,关联规则挖掘聚类分析.36,3,网站使用挖掘三个阶段,数据预处理阶段将原始日志文件经过一系列数据处理后转化为方便的数据格式,供数据挖掘阶段使用;在数据挖掘阶段,利用数据挖掘的相关算法对数据预处理后形成的数据发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土建工程师岗位职责与要求
- 企业网络销售的智慧之道成功计划的制定与执行
- 监理工程师土建面试重点解析
- 产品经理需求分析到上线全流程实战
- 宠物店员高级面试预测
- 文员工作计划中的员工培训与发展计划
- 品牌年度增长目标与策略部署指南
- 岗位轮换项目结束证券经纪人工作总结
- 碳金融合规操作手册
- 工程师工作部署策略产品设计阶段解析
- 2025年直通链路测距和定位白皮书
- 市政工作台账管理制度
- 2025年中国苯乙烯类热塑性弹性体行业市场前景预测及投资价值评估报告
- 面向边缘计算的安全解决方案-全面剖析
- 制造业数字化转型数据驱动的质量管理培训课件
- 城管干部培训课件
- CN101664072A-奶皮子及其生产制作方法配方专利技术
- 光伏发电设计合同范本
- 急诊急救三基知识
- 2025年广西玉林市自来水公司招聘笔试参考题库含答案解析
- 跨文化视域下的过程写作:发展、比较与反思
评论
0/150
提交评论