数据相关性与知识化服务研究.ppt_第1页
数据相关性与知识化服务研究.ppt_第2页
数据相关性与知识化服务研究.ppt_第3页
数据相关性与知识化服务研究.ppt_第4页
数据相关性与知识化服务研究.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、相关性和知识化服务,提纲,引子 关于相关性研究 图书馆的数据组织 引文关系和链接关系 内容相关 用户行为相关 结束语,问题的提出,获取文献信息的困惑 选择什么网络数据库,图书馆员的困惑 用户的困惑 面对大量文献信息的困惑 如何取舍 判断权威和重要的信息的标准 谁是权威,谁有影响力 内容可靠吗,关于相关性的研究,系统相关性-Taube 检索出的文献就是与查询相关的文献,主题相关 关注噪音、索引、词汇的语义语法描述 用户相关- Vickery 用户检索相关信息的愿意程度 Gradra和katter研究用户兴趣领域与主题以及文献之间的关系,系统输出和用户需求之间的关系 Rees和Schultz研究显

2、示个体差异对相关性判断影响很大 Maron和Kuhns用概率论的方法判断实现相关性排序,关于相关性的研究,Goffman基于集合论探讨查询表达式和文献信息间的相关关系 Goffman和Newill提出流行病学理论,相关性作为接触有效性的度量 Cooper的逻辑相关性理论 Wilson的情境相关理论 Harter的心理相关理论 Schember、Barry等人基于用户的相关性实证研究,对相关性涉及到方面深入论述,认为相关性可以归结为论题的、面向用户的、多维的、认知的和动态的 Saracevic提出信息检索的分层交互模型,小结,关于相关性 从系统为中心到用户为中心,user-central 用户的

3、认知 用户的差异 用户的需求 从单维向多维,包括信息、环境、系统、用户 从静态到动态的变化 从单向输出到交互,图书馆的数据组织,图书馆书目系统 元数据的累积 单一的用户检索系统 分类和主题 相关性判断缺乏支持力度 缺少用户的参与 SirsiDynix代表在IFLA会上表示随着数字全文内容的逐渐普及和网络化数字挖掘能力和关联能力的日益提高,真正有意义的将不再是元数据本身,而是 关于用户行为(user-tagging, collabarative filtering)、 用户过程(用户教育研究管理的环境流程等) 内容关联的组织机制(引用、链接、逻辑语义),引文关系和链接关系,引用关系和链接关系是广

4、泛用来建立相关关系的方法 引用和被应用 链接和被链接 同引和同被引 同链接和同被链接 引用强度,耦合强度是计量关系强度的值,引用关系和链接关系,修正: 即时引用情况,最新链接情况 引用和链接权重,有影响力的引用和有影响力的链接应比影响力小的引用更具代表性 自引的影响 vs 恶意的链接 引用和链接关系的深化 研究前沿和热点 研究路径探索,同时该论文的作者或合作者还有什么文献 与该论文相同主题的文献有哪些,Web of Science、ScienceChina等基于引文的系统发现一篇论文引用了哪些文献,该论文被哪些文献引用了,强度如何;该论文和哪些论文共同引用相同参考文献,耦合度是多少,Googl

5、e,百度等的PR( page rank)基于链接关系的强度和修正,让我们在一个搜索中可在首页发现重要的信息,基于引用和链接关系的系统,参考文献n,引证文献,相关关系,引文统计,单篇文献: 题名 作者 文摘 出处 关键词,年 1900 1930 1960 1990 2000 2002 2004 2006 2007,相关文献: 作者相关 关键词相关 参考文献相关,拆分、规范、归一化处理,内容概念相关,引用关系和链接关系体现的相关关系从某种程度上说是从形式上发现和计量相关关系,从文献信息内容看 共词:关键词和主题词 Tag,用户的标识词 概念抽取,算法和模型 聚类,cluster,用户行为相关,说的

6、和做得那个更可靠? Yahoo 统计到的用户行为证明用户做的和说的表现得非常不一致 数字图书馆的用户呢?从counter统计看,用户的使用和当初的强烈需求有一段不小的差距 在网络上更信任陌生人的推荐和意见 权威受到了挑战 关心看了这篇文章的人还看了什么文章 关于这篇文章有什么样的评论,好评和差评是多少 我要标记这篇文章的tag,谁的tag和我的一样 用户日志分析出的关系更为重要,用户行为的一些统计数字,用户查询行为 查询的长度主要指的是用户提交的查询中包含几个词语或字(用空格隔开的) 搜索引擎的分析结果表明,长度不超过3个词的查询占了总查询数的93.15 % ,平均长度为1.85个词,这说明用

7、户输入的查询通常都比较短 一个session 指的是同一个用户在某一小段时间内的连续查询 对每个session 中所含的查询个数进行了分析,得出的结果中在同一个session 内查询的平均个数为1.75 ,有66.46 %的session 只含有一个查询,即在那小段时间内,大部分用户只提交了一个查询且没有对该查询进行修改,用户行为的一些统计数字,用户对待查询结果的行为 实验数据显示约85%的用户只翻看搜索引擎返回结果的前10 个结果,即返回结果页面的第一页,所以传统的基于整个结果集合查准率和查全率的评价方式用户信息检索的评价,需要着重强调在评价指标中有关最靠前结果文档与用户查询需求的相关度最高的的部分 搜索结果的金三角现象,搜索引擎营销公司Enquiro、Did-it以及专门研究人们眼睛运动行为的公司Eyetools联合完成,通过对用户观察Google搜索结果页面时眼睛的运动来确定对搜索结果内容的关注程度,用户行为的一些统计数字,用户对于搜索结果页面的关注的范围呈现英文字母“F”的形状,也可以描述为“金三角”现象,用户行为的分析,中科院用户下载网上文献和引用文献有相关关系吗? 随机选择了10种期刊,看下载数量和引用数量的相关关系,测量相关关系为高度相关 使用文献的目的或称情境的情况下包括写综述、获取最新研究动态、获取一种实验方法、查询研究者工作、查询研究机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论