




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 2 14 1 信息组织与检索 2020 2 14 2 课程的目标 信息管理的核心技术之一是信息检索理论信息组织和管理的实践和理论基础应用信息检索系统的设计 开发和使用基础 2020 2 14 3 两个主题 信息组织和设计模型预处理信息检索处理查询搜索索引结果表达 排序 2020 2 14 4 课程安排 1概述42数据形式及其特性23信息检索模型44多媒体内容及其模型25信息预处理和媒体结构化26用户查询接口27搜索和索引4 2020 2 14 5 课程安排 8并行与分布信息检索29多媒体信息检索210Web信息检索211数字图书馆2 专题讨论8 10 考试 课程报告形式 2020 2 14 6 教材和参考资料 教材李国辉 汤大权 武德峰 信息组织与检索 科学出版社 北京 2002 参考资料RicardoBaeza Yates Moderninformationretrieval AddisonWesleyLongmanPublishingCo Inc 1999 KeithV Rijsbergen InformationRetrieval Thesecondediton Butterworths London 1979 2020 2 14 7 参考资料 杂志 JournaloftheAmericansocietyofinformationscience WileyandSons ACMTransactionsonInformationSystems ACM Magazine InformationProcessing Management ElsevierScienceLtd http www elsevier nl inca publications store 2 4 4 Magazine InformationSystems ElsevierScienceLtd http www elsevier nl locate is 2020 2 14 8 参考资料 杂志 Magazine InformationRetrieval KluwerAcademicPublisher 2020 2 14 9 国际会议 ACMSIGIRInternationalConferenceonInformationRetrieval ACMInternationalConferenceonDigitalLibraries ACMDL ACMConferenceonInformationKnowledgeandManagement CIKM TextRetrievalConference TREC http trec nist gov 2020 2 14 10 第一章概述 问题 什么是信息检索 信息检索与数据库的查询有什么区别 信息检索领域的背景 总体看 信息检索系统是什么样子 如何评价检索性能的好坏 2020 2 14 11 第一章概述 什么是信息组织和检索信息检索的发展信息检索系统信息检索的过程检索性能的评价 2020 2 14 12 1 1什么是信息组织和检索 Web网站的设计和使用的例子什么是信息 信息如何度量 信息的生命周期 信息组织 信息检索 2020 2 14 13 1 1 1Web网站的设计和使用的例子 网站的设计内容设计导航设计表现设计网站的使用浏览搜索 2020 2 14 14 1 1 1Web网站的设计和使用的例子 crawltheweb createakeywordindex storethedocuments createfilesofmetadata CheshireII 内容组织 2020 2 14 15 1 1 1Web网站的设计和使用的例子 CheshireII resultsshowntouser serveraccessesthedatabases userquery 网站使用 2020 2 14 16 1 1 2什么是信息 什么是数据 数据是按某一规格化方式对事实和概念的一种表示 适于人或自动装置进行通信 解释或处理 它是任何有意义或可以赋予含义的表达形式 例如字符或数字 基本数据类型 文本 图像 视频 音频等 2020 2 14 17 1 1 2什么是信息 什么是信息 newsorfactsaboutsomething通知 告知 告知的事情 新闻Definedataasconventionalrepresentationsoffactsorideas andinformationasthemeaningthatpeoplegivetodata 什么是知识 通过经验获得的认识 是个人的信息范畴 是理论或实践上的理解 是对已知事实的经验总结 2020 2 14 18 1 1 2什么是信息 信息的层次观点最下层是数据 是信息的来源和原始资料 用数据可以表达信息 信息是经过处理 组织和表现出来的数据 读 听 看 理解的信息 经过归纳和总结得出知识 最高层为智慧 是提炼和综合出来的知识和理解 它建立在知识之上 2020 2 14 19 1 1 2什么是信息 Wisdom Knowledge Information Data 2020 2 14 20 1 1 2什么是信息 我们是否在学习知识中是否忽略了智慧 在获取信息后 是否进一步提炼出知识 而在数据的海洋中是否知道如何获取有价值的信息 2020 2 14 21 1 1 2什么是信息 信息的特性信息可以通过广播和网络进行电子化交流因此信息容易复制和实现共享直观上看 信息与事物和事实有关 也许是一种物质 能量或抽象的概念信息是新闻 因此重复以前接收到的消息不是信息不正确的或反面的事实是错误的信息 2020 2 14 22 1 1 2什么是信息 从人的角度看信息人的认知处理有多种级别 感知观察 关注推理 形式推论和理解人通过知识来判断信息的真实性人们接受信息的过程通过参考某些正面的观点 结合观察的事实和推理过程 产生归纳的结果 2020 2 14 23 1 1 2什么是信息 从人的角度看信息并不是世界上产生的所有信息都是每个人关注的不同的人关注不同的信息例如 昆虫学家关心蚂蚁间的通信和信息交流 自然保护组织关心城市建设中树木被砍伐的情况等 一个人不可能接受所有的信息 他 她只关心与自己有关的信息 2020 2 14 24 1 1 2什么是信息 信息的含义和形式含义和形式是信息的两个不同的层面同一个信息含义可以用不同的形式表达信息的含义需要媒体的表示 向信息接受者呈现 表现 信息的内容 2020 2 14 25 1 1 3信息的度量 对消息的接受者来说 事件的信息量与事件发生的概率有关 事件发生的概率越小 其包含的信息量越大 反之亦然 事件是必然的 概率为1 则它包含的信息量为0 事件是不可能的 概率为0 则它含有无穷的信息量 2020 2 14 26 1 1 3信息的度量 信息量I与事件概率P x 的关系 信息量的单位a 2 比特a e 奈特nat 约等于1 443比特A 10 笛特det 2020 2 14 27 1 1 4信息的生命周期 从产生到被利用 信息具有一个完整的生命周期产生检索利用 2020 2 14 28 1 1 4信息的生命周期 2020 2 14 29 1 1 5信息组织和检索概念 组织 organization 就是把数据按照一定的结构 顺序 排列方式组织起来信息组织就是按照信息检索的需要 对数据及其特性进行组织检索 retrieval 就是重新获得或恢复 是进行搜索 定位及读出数据的过程信息检索就是从大量的文档集中获取用户需要的相关信息 2020 2 14 30 1 1 5信息组织和检索概念 数据检索数据库的查询用到的是数据检索的概念数据检索就是根据数据库的结构化属性来搜索 确定哪些文档的属性中包含用户查询的关键字数据检索语言的目标就是检索出满足定义条件的所有对象是一种精确匹配例如 查询 run 将只匹配run 而不匹配runs或running 2020 2 14 31 1 1 5信息组织和检索概念 信息检索检索出有关某个主题 用户的信息需求 相关的信息检索到的对象可以不太精确 部分匹配 允许有一些小的不明显的偏差以某种方式 解释 文档库中数据单元的内容 并把检索的结果按照与用户查询的相关程度来排序 相关性 relevance 是信息检索的核心之一 2020 2 14 32 1 1 5信息组织和检索概念 数据检索与信息检索信息检索涉及到用户的信息需求和提交的查询不总是结构化的 而且具有语义模糊性数据检索系统 例如关系数据库系统 涉及的数据具有完好定义的结构和语义 2020 2 14 33 1 1 5信息组织和检索概念 信息检索的一种规范定义从大量收集的数据或文档集C中 找到与给定的查询请求q相关的恰当数目的数据或文档子集A 2020 2 14 34 1 2信息检索的发展 可以追溯到4000年前经典的方法 目录和索引手工到计算机计算机化到网络网络到无处不在 未来 2020 2 14 35 1 2信息检索的发展 三个阶段人工管理的计算机化阶段 上世纪50到60年代 利用计算机来对图书馆馆藏资料进行管理文本信息检索阶段 上世纪70到80年代 从基于文档元数据的查询 发展到能够基于全文内容进行文本信息的检索 网络化信息检索阶段 上世纪90年代开始 有Web搜索引擎 数字图书馆 多媒体信息检索 并行和分布信息检索 2020 2 14 36 1 2信息检索的发展 Web逐步成为人类知识和文化的环球库 允许前所未有的思想和信息的共享这种无边际的Web中 如何找到有用的信息 不仅仅是文本表示的 还有多媒体表示的信息 如何真正找到用户感兴趣的信息 而不是把有价值的信息淹没在一大堆的应答文档中 如何把信息检索与浏览和数据库查询结合起来 为Web信息环境提供一种综合的信息存取手段 2020 2 14 37 1 3信息检索系统 数据源文档预处理和媒体结构化文档集用户查询接口搜索和索引 2020 2 14 38 1 3信息检索系统 2020 2 14 39 1 3信息检索系统 检索任务数据检索信息检索浏览过滤检索是从一堆文档中抽取一部分相关的信息 而过滤是把不相关的信息排斥掉从统一的角度看 过滤任务也可以看作是一种文档不断进入到系统中来的信息检索任务 2020 2 14 40 1 3信息检索系统 文档逻辑视图文档的内容的一种抽象表示文本文档索引项或关键词表示全文逻辑视图人工或自动产生文本处理 分词 非用词去除 获取词干 减到公共的语法根 等 2020 2 14 41 1 3信息检索系统 文档逻辑视图多媒体文档视觉和听觉特性时间和空间分布和结构运动特征视频对象和音频对象特征关系 对象的语义媒体特征处理和结构化 人工和自动方式多媒体内容描述 2020 2 14 42 1 3信息检索系统 文档逻辑视图在文档中的可检索实体 用索引项 查询项来统一表示 检索任务作用于文档的逻辑视图 而不是直接作用在原始文档上 作用在原始文档上 称为模式匹配这时不需要辅助搜索的数据结构 2020 2 14 43 1 3信息检索系统 2020 2 14 44 1 4信息检索的过程 三大步骤 预处理 内容描述 检索 2020 2 14 45 1 4信息检索的过程 2020 2 14 46 1 5检索性能的评价 用户向检索系统提交查询后系统返回一组查询结果问题是这组结果是否满足用户的信息需求 满足的程度如何 这就涉及到检索系统的性能评价问题 2020 2 14 47 1 5检索性能的评价 检索性能的评价 给定一种检索策略S 对于每个示例的信息请求 对相似性进行定量分析 相似性是指采用检索策略S检索到的文档集合与专家提供的相关文档集合之间的相似性 检索性能评价的考虑交互式还是批处理式的检索任务 测试环境是实验室还是真实的运行环境 2020 2 14 48 1 5检索性能的评价 经典的评价方法 查准率和回调率对于某个测试参考集 设信息请求样本为E E对应的相关文档的集合为R 记 R 为该集合中的文档数目 给定一种检索策略S 我们对该检索策略进行评价 检索策略S处理信息请求E 并产生出一个文档应答集合A 记 A 为该集合中的文档数目 另外 计 RA 为集合R和A交集中的文档数目 2020 2 14 49 1 5检索性能的评价 2020 2 14 50 1 5检索性能的评价 经典的评价方法 查准率和回调率回调率 查全率 定义为应答集合中相关文档数与总的相关文档数的比值 它表示检索到的相关文档的比例 2020 2 14 51 1 5检索性能的评价 经典的评价方法 查准率和回调率查准率 定义为应答集合中相关文档数与应答集合中文档数的比值 它表示检索到的文档中相关文档的比例 2020 2 14 52 小结 信息检索有其特定的含义 它不同于常规数据库中的查询 要求的是根据用户的信息需求 从文档集中搜索出与用户的查询要求相关的一组文档 把文档看成是一种数据和信息的容器 是可以包含文本 图像 视频 音频 动画等复杂非结构化数据的综合文档 信息检索实际上包括二个大的方面 信息组织和信息检索 2020 2 14 53 小结 问题 在动态的Web世界和大型数字图书馆中 什么技术可以更好地实现高质量的检索呢 快速索引技术和大规模信息检索技术 如何把用户行为的理解有效地用于检索任务当中去 个性化检索 基于位置的检索 无线网络 可穿戴计算 无处不在计算环境喜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护士中医相关试题及答案
- 河南公务员面试题及答案
- 2025年废弃矿井资源再利用技术创新路径解析报告
- 2025年智慧城市交通系统实施方案报告
- 涉水服务相关知识培训课件
- 2025年社区心理健康服务公益项目实施与效果评估报告
- 涉毒人员管控培训课件
- 2025年城市生活垃圾分类处理公众参与模式创新与长效机制研究报告
- 2025年线下演出市场复苏演出市场人才培养与职业规划报告
- 薪酬透明度声誉效应分析-洞察及研究
- 中国脑小血管病诊治指南2023版
- 房地产中介服务操作手册
- 水质-氯化物的测定验证报告
- 2024年全国职业院校技能大赛中职组(水利工程制图与应用赛项)考试题库(含答案)
- 2024至2030年中国纪录片市场投资方向及未来运行状况监测报告
- 托管班安全责任承诺书
- 江苏省南京市鼓楼区2023-2024学年八年级下学期期末英语试卷(含答案解析)
- 盘扣式卸料平台计算书
- 天然气管网SCADA系统方案建议书
- 成人氧气吸入疗法-2020版指南解读
- 《医药电子商务》1-电子商务概述
评论
0/150
提交评论