基于领域知识库的信息推荐系统智能文本篇章_第1页
基于领域知识库的信息推荐系统智能文本篇章_第2页
基于领域知识库的信息推荐系统智能文本篇章_第3页
基于领域知识库的信息推荐系统智能文本篇章_第4页
基于领域知识库的信息推荐系统智能文本篇章_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2013届

毕业论文答辩数学科学学院基于领域知识库的文本信息推荐系统演讲者:谷林指导老师:林荣德--智能文本篇章分析概述系统框架用户兴趣模型智能文本篇章分析和信息推荐系统测试结果总结与展望一二三四五六概述一网络高度发达的今天,网络信息的量也正以几何级数的方式增长。有些时候,您是否发现对信息的选择有些困难呢?概述一该如何选择我感兴趣的信息呢?概述一

这个时候信息推荐系统来了!信息推荐系统InformationRecommedationSystem概述一推荐系统是一种为解决Internet上成千上万的信息过载而设计的智能的代理系统。它能从Internet上大量的信息中向特定用户自动推荐符合其个人兴趣偏好或需求的信息,从而实现个性化的推荐服务。信息推荐系统概述一基于领域知识库的文本信息推荐就是根据知识点之间的相关性和用户的兴趣来推荐用户感兴趣的文章信息。项目简介推荐信息分类:个人热点推荐公共热点推荐概述一本项目需要解决的三个问题建立用户兴趣模型并进行动态更新;抓取网页文本,并对文本篇章进行智能分析;依据用户个人的兴趣知识库产生推荐文本信息。系统框架二数据库后台分析程序Web推荐系统读取用户个人信息以及推荐信息反馈用户的浏览记录读取所有用户的浏览记录和每个用户的所有关键词存储推荐信息以及动态更新的用户兴趣返回搜索结果搜索用户关键词访问推荐的网页Internet2.1信息推荐系统的框架图系统框架二2.2后台台分分析析程程序序数数据据处处理理流流程程后台台分分析析程程序序处处理理过过程程分分为为两两个个功功能能模模块块::从用用户户浏浏览览记记录录中中挖挖掘掘用用户户兴兴趣趣搜索索用用户户关关键键词词产产生生推推荐荐信信息息用户兴趣模型三兴趣趣模模型型的的定义义:用户户兴兴趣趣模模型型是将将用用户户感感兴兴趣趣的的事事物物抽抽象象出出其其概概念念,,并并且且用用特特定定的的表表达达形形式式表表示示出出用用户户兴兴趣趣的的一一种种方方案案。。用户兴趣模型三3.1用户户兴兴趣趣模模型型的的表表示示方方法法向量量空空间间模模型型是将将用用户户兴兴趣趣模模型型表表示示成成一一个个n维特特征征向向量量,每每一一维维向向量量表表示示如如下下::主概念子概念相似或包含关系值fatherchildp用户兴趣模型三3.2用户户行行为为的的数数据据收收集集用户户行行为为的的数数据据收收集集是是一一个个获获取取与与用用户户特特征征、、偏偏好好或或活活动动相相关关的的信信息息的的过过程程。。一般般有有两两种种方方式式::显性性隐性性>体育>读书>游戏>娱乐>汽车领域域智能文本篇章分析和信息推荐四4.1领域域知知识识库库智能文本篇章分析和信息推荐四4.1.1公共共知知识识库库实实例例以体体育育领领域域为为例例,,树树形形结结构构图图::智能文本篇章分析和信息推荐四4.1.2个人人知知识识库库实实例例个人人知知识识库库看看作作公公共共知知识识库库树树的的一一棵棵子子树树,,简简单单的的用用户户知知识识库库实实例例如如图图::NBA专题题体育育网球球足球球国际际足足球球英超超梅西西个人人知知识识库库树树形形结结构构图图::智能文本篇章分析和信息推荐四4.5计算算子子概概念念对对某某关关键键词词贡贡献献度度主概概念念子概概念念贡献献度度wID2(主概念)wID1(子概念)P(关联值)uID(用户编号)体育足球0.70921121010足球国际足球0.50921121010以体体育育领领域域为为例例,,树树形形结结构构图图::体育育125610113748129131415假想想兴兴趣趣树树遍历历访访问问的的顺顺序序为为::123451514131211109876NBA专题题体育育网球球足球球国际际足足球球英超超梅西西NBA专题题对体育育的贡贡献献度度为为:0.8*0.5=0.4梅西西对国际际足足球球的贡贡献献度度为为::0.5*0.5*0.6=0.15智能文本篇章分析和信息推荐四自动搜索关键词提取有效网页地址提取网页中的文章文章评分智能文本篇章分析和信息推荐四4.6文章章评评分分和和信信息息推推荐荐按如如下下公公式式对对文章章进行行评分分:智能文本篇章分析和信息推荐四4.7推荐荐信信息息的的动动态态更更新新推荐荐的的信息息超超过过3天后后,,默默认认为为此此文文章章已已经经失失去去时时效效性性,,故故予予以以删删除除,,从从而而达达到到减减少少数数据据冗冗余余。。智能文本篇章分析和信息推荐四4.8用户户个个人人知知识识点点兴兴趣趣度度变变化化的的勒勒夏夏特特列列原原理理“知识识点点兴兴趣趣度度的的时时间间修修正正:快开开始始,,慢慢减减少少”的思思想想,,效效果果如如图图:系统测试结果五5.1.1百度度搜搜索索““体体育育””的的结结果果本次次仅仅以以关关键键词词““体体育育””为为例例,,来来测测试试后后台台分分析析程程序序的的运运行行结结果果。。系统测试结果五5.1.2搜索索结结果果的的网网页页源源代代码码本次次仅仅列列举举第第一一条条信信息息的的网网页页源源代代码码,,如如下下图图::系统测试结果五5.1.3分析析提提取取有有意意义义网网页页地地址址的的结结果果测试试网网页页地地址址系统测试结果五5.1.6文章章最最终终评评分分结结果果以以及及产产生生的的推推荐荐信信息息系统测试结果五5.2用户户兴兴趣趣的的挖挖掘掘和和个个人人知知识识库库的的动动态态生生成成系统测试结果五5.2.1读取取用用户户浏浏览览记记录录点击击信信息息表表中中的的一一条条记记录录如如下下体育足球梅西5.2.3动态态生生成成用用户户个个人人兴兴趣趣关关键键词词之之间间的的包包含含关关系系结论与展望六本项项目目基基本本实现现了了::建立立用用户户兴兴趣趣模模型型并并进进行行动动态态更更新新;智能能文文本本篇篇章章分分析析;依据据用用户户个个人人的的兴兴趣趣知知识识库库产产生生推推荐荐信信息息。结论:结论与展望六将来有如下下几个方面面值得个性性化推荐系系统及用户户兴趣模型型相关研究究者关注::面向用户多多兴趣的模模型研究;面向用户群群体的建模模研究;用户长期和和短期兴趣趣的集成研研究;用户建模过过程可视化化技术的研研究和实现现。展望:TheendThankyou!从用户浏览览记录中挖挖掘用户兴兴趣的数据处理理流程图搜索用户关关键词产生生推荐信息息的数据处理理流程图智能文本篇章分析和信息推荐四4.2自动搜索关关键词,提提取有效网网页地址搜索引擎自动搜索关键词从搜索结果的HTML源文件中提取所有网页地址剔除贴吧、图片等无效网址获取有效网页地址并存储智能文本篇章分析和信息推荐四4.2自动搜索关关键词,提提取有效网网页地址关键技术::正则匹配配智能文本篇章分析和信息推荐四4.3网页文本提提取思路及及算法正则匹配提取标题将网页分割成块,取出网页里的div和td块的文字剔除超链接文字数量和汉字数量比例超过百分之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论