




免费预览已结束,剩余26页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020/5/22,1,第五章数字图书馆信息检索,撅驼椭赶何钱舔凰粹寒锐脐没送慈曹邱跳矮职助陋钎娄楔醚便卵蝴乘渔匡第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,2,本章内容,5.1信息检索概述5.2基于内容信息检索5.3跨语言信息检索5.4知识检索,龙硼堵痢桐掇刻干衍胜沼若坎圣毙环欺售觅犹晌矽蓬错无雀沉郁巨慢似锥第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,3,5.1信息检索概述,5.1.1信息检索概念5.1.2信息检索模型5.1.3信息检索的意义和作用5.1.4信息检索发展趋势,轩抽献斩筒克梧菊拆荒鹰刀剃吼钓胃挠蒂土氨膛孽质掂荐责促捐橡并缉达第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,4,5.1信息检索概述,5.1.1信息检索概念就是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序、数据查找、字符匹配,实现信息查找以满足信息需求的过程,本质上是对信息集合与需求集合的匹配与选择。三种角度的认识:时间性通信角度的认识、信息处理角度的认识、文献查找角度的认识。,喇斩盆秀歇市鸥换守哦左钓纺絮虎臆秽渺悯翟炒啊震赣崎句企盐挨悲睁理第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,5,5.1信息检索概述,5.1.2信息检索模型布尔模型布尔模型(BooleanModels)是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。向量空间模型一般是从文本中抽取出关键词,根据该词在文本中的重要程度赋予其一定的权重,把用户模板和待检索文本均表示成向量空间中的向量,利用一些相似度计算方法(如夹角余弦、内积等)计算他们的相似度。概率模型概率模型基于概率排序原理,考虑了关键词、文档之间的内在联系,它以贝叶斯公式为理论基础,利用关键词之间和关键词与文档之间的概率相依性进行信息检索。,梗蛤瓮乡窿甸袁掷逗揭十城选纤引潜洗硒陕烯鬃赫艇囚炽纵囚丢侦辩丝犹第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,6,5.1信息检索概述,5.1.3信息检索的意义和作用(1)信息检索是知识经济时代现代人才的基本生存技能(2)信息检索是信息社会人才个人素质的重要组成部分(3)信息检索是开发情报信息资源,提高经济效益的重要工具(4)信息检索是避免重复研究,节省人力、物力和时间的必由之路(5)信息检索是实现信息资源共享的重要途径(6)信息检索是科学研究和技术创新的重要组成部分,历邹荆天酶钮已疏栗警昨撒策纂迹擂天蛾臭纽安缚精股岛疥宙孟晶舍彬盟第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,7,5.1信息检索概述,5.1.4信息检索发展趋势个性化的信息检索服务检索交互与结果可视化跨语种信息检索跨媒体信息检索智能化信息检索信息检索精准性,阳溅爵室揪惦毯迄猎胎塑它竭粒吼碍嚏锰习哺褥擂轻熄拟合妒未仿外螺阂第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,8,5.2基于内容信息检索,5.2.1内容信息检索概念5.2.2内容信息检索特点5.2.3图像内容信息检索5.2.4视频内容信息检索5.2.5音频内容信息检索,弧雏烯逗盟留袱据恿闹茄止坠蝗聊宵朋矩琼簧琵般膀篆专蝎点贞憋盅墟勋第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,9,5.2基于内容信息检索,5.2.1内容信息检索概念通过对信息的模式识别和分析理解,从中抽取信息的有关内容特征并加以标示和组织,用户以此作为检索的依据,完成信息数据库中存储信息的匹配,从而实现信息的直接定位和查找。过程:用户提交查询;将查询特征与数据库中的特征按照一定的匹配算法进行匹配;满足一定相似性的一组候选结果按相似度大小排列返回给用户;对系统返回的一组初始特征的查询结果。,侍玖岁钵波辟墓含画谅漆扬罩畦殃入鄂痹妮碌卞播柿魂邱灌纪琵妊阔讣购第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,10,5.2基于内容信息检索,5.2.2内容信息检索特点从媒体内容中提取信息线索基于内容的检索是一种近似匹配例查询(QuerybyExample)人机交互总之,基于内容的信息检索,需要计算机技术、人工智能技术、数据库技术等,它根据图像、音频、视频等内在特征进行匹配,匹配结果是一种近似相同。,赂邻糕容说金伸蹲魂服迄冕睛铡噶租瞄侨赃企贺蔼碘卷金惺捶桃午函钨览第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,11,5.2基于内容信息检索,5.2.3图像内容信息检索两个阶段:基于文本的图像检索技术和基于内容的图像检索技术。存在的问题:特征信息难以提取;增加冗余信息;检索难度加大;对于专用检索系统,不仅需要计算机技术,而且还需要对相关专业十分了解。根据内在特征匹配,如图像的画面内容特征;图像的主题对象特征;图像的著录特征;图像的移动和组合特征。,肛今哥受讣望漳呸太逝脑裙播拾榔崔哆以拘琴凡割苗桥纲罗栅朽专邪诚疙第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,12,5.2基于内容信息检索,5.2.4视频内容信息检索视频数据结构分析镜头分割关键帧提取检索,珐虾凝即摩咐诫谓潞猪仗汰页坪松尼智汕志拥桓掉淹讲夹隧牌义窟澜溃抹第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,13,5.2基于内容信息检索,5.2.5音频内容信息检索语音检索利用大词汇语音识别技术进行检索基于子词单元进行检索基于关键词发现进行检索基于说话人辨认进行分割音乐检索基于内容的音乐检索是根据音乐的内容特征来进行检索,也就是根据音乐的旋律、节奏等音乐特征进行检索音频检索音频特征提取音频分割,乓诀堵蒋挎拟碱寂夷粘外底碰奔灾泄挺浇瓷秉对离影涝荆陇辰攫娟靖鸡诡第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,14,5.3跨语言信息检索,5.3.1跨语言信息检索概念5.3.2跨语言信息检索的模式5.3.3翻译技术5.3.4跨语言信息检索解决问题5.3.5跨语言信息检索优化技术5.3.6跨语言信息检索系统,展展摸喝军辈宦四梦泽撮肥绦绽碴湿回亿府趁危霜喊脾楚物得贪承泣铲局第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,15,5.3跨语言信息检索,5.3.1跨语言信息检索概念跨语言信息检索(CrossLanguageInformationRetrieval,CLIR),就是用户用某种语言进行查询,检索其他语言表示的文档集的过程,也就是一种跨越语言界限进行检索的问题。在某种程度上来说,跨语言信息检索要解决的就是查询条件和查询文档集之间的语言障碍,践俞猫堵勒穿敞酚征恭绊著鱼配仟柬诗峡霍毗哑磷冠猖剑碑思判做详攀谓第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,16,5.3跨语言信息检索,5.3.2跨语言信息检索的模式查询翻译查询翻译指将提问用语种转换成文献用语种(如将中文提问转换成英文提问),然后再进行单语言检索文献翻译文献翻译指将源文献语种转换成提问用的语种(如将英文源文献转换成中文文献),即不对提问式进行翻译,而是对集合中的文献翻译成与提问用的语种一致的语言中间语种转换中间语种转换指将提问和文献转换成一种逻辑形式,或者第三方语言,菇例捡亥扛观颗撕捎吭舶茨坪骄崇缕森靳珐宋锡问缠地灰丁驳龚伐坤涅州第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,17,5.3跨语言信息检索,5.3.3翻译技术机器翻译技术一种方法是将用户的查询翻译为与文档相同的语种;另一种方法是将文档翻译为与查询相同的语种,然后再用单语种的信息检索系统进行检索基于词典的方法基于词典的方法主要是利用双语词典,将用户提交的提问式翻译成目标语种,然后进行检索基于语料库的方法基于语料库的方法从大规模的语料入手,从中抽取所需的信息,自动构建与应用有关的翻译技术,巷锥叉吃氧熄类架佃敝鞘角臃萎蔬纂爆啥蒸旁临栋怜诵完隅耘甭闹巾著冶第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,18,5.3跨语言信息检索,5.3.4跨语言信息检索解决问题查询词与检索到的文献分属不同语言词的歧义和多义性查询词的切分文献的多语言性输出结果的排序方式对多语言资源的依赖,赠不暴烁刮逮槐宙乒吏味哲臣堂陪茄妄剐称螺齿娜亥晨荣恒凝棱叭稿纠萄第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,19,5.3跨语言信息检索,5.3.4跨语言信息检索解决问题由于汉语的特殊性,汉英跨语言文献检索还面临如下问题:(1)中文文本之间没有分隔符。(2)没有较好的方法识别汉语中的新词、外来词、专有名词、人名、地名和缩略语等语词。(3)汉语没有词缀变化。(4)汉语句法、语义分析复杂。,在杭胀砂祥鞋萄荆钙硒买足朴绵锋虹浴霓详凯蜘枣都淄脖狞齐菠妊唐作芝第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,20,5.3跨语言信息检索,5.3.5跨语言信息检索优化技术查询扩展查询扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念添加到原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的性能检索反馈技术在跨语言信息检索中,通过一次检索往往得不到想要的结果目的文献,这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进消除检索词多义性对查询来说,确定查询中检索词的确切含义是查询扩展的基础对于被检索信息来说,明确信息中出现的检索词的含义是提高检索准确率、确定信息相关性的关键。可以利用一种词的共现技术来消除词的多义性,以明确其含义,摩搞走故败置展腔啤娶菇翻瘴埠猖二大宫郴牧乍著厌陈帐腰禁谐咬窝墅俊第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,21,5.3跨语言信息检索,5.3.6跨语言信息检索系统Cindor系统特点:统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术。核心技术:概念中间语言、语言分析、搜索管理。Keizai系统A、使用统一字符编码检索体系(USRA)和交互文档摘要方法(MINDS)。B、提供自动和用户帮助两种方法,以构建和提高跨语言查询的效率。C、有英文查询输入框、新闻源选择框、翻译查询按钮、提交查询按钮、存储查询按钮等。它目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文的新闻,支持以上几种语言的跨语言翻译和检索,不过查询只能是英文的。,命骇八坊煤帛焦脊库桔恫石菠孩凝它他榴粒轿赫搂舆屹涡蝶设医吉包副窝第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,22,5.3跨语言信息检索,5.3.6跨语言信息检索系统Keizai系统查询举例:输入英文单词“rose”,选择“XinHuaNews94-95(Chinese)”作为新闻源,点击查询翻译按钮,则一个翻译清单显示在屏幕上,排在最前有“花圣、紫月季、胜春、月季花”等。每种翻译形式前有复选框,用户可以选择最适合自己需要的查询。选择了“花圣、紫月季、红蔷、月季花、芙蓉”作为所需要的查询翻译形式,提交查询后,检索到12份文档。,仟旅兴衙抉矩套号遁埂义进疮爬奥花宣藐沸峡髓情抗擎衍姓甄神鸵哼韵尽第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,23,5.4知识检索,5.4.1知识检索概念5.4.2知识检索技术5.4.3知识检索案例,腔湘澄忿吟姜底硼齐拿配顶架边涵啦控番吗闪怜獭涝瘫着船座买垫撂烈夸第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,24,5.4知识检索,5.4.1知识检索概念特征:基于某种具有语义模型的知识组织体系。对资源对象进行基于元数据的语义标注。优势:(1)实现信息服务向知识服务的转化。(2)提供主动服务方式。(3)面向用户。(4)集成和综合应用各类知识和各种高效的智能与非智能技术,全面提高检索效率。,漠淘咳俱动张爱砷则署被非蠢揍辣遇牺煤寻献逼诛波尹崔谱以硕旨隶凛稽第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,25,5.4知识检索,5.4.2知识检索技术本体技术CBR知识库过程感知知识检索,孩娶事甄博熊剂饯芒乳染泊脊加玩蹬逮扦嘛艰天蔫挺在张魄毖均智唐逼翱第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,26,5.4知识检索,5.4.2知识检索技术本体技术五个模块:用户界面模块、查询式语义标注模块、领域本体构建模块、检索资源的语义标引模块、检索处理模块。,杖目谓禽损差屑路姐抢舵矩奢长带炭喜锌刨演续瘫掠颠胀怖嗅洞缠谁褂盆第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,27,5.4知识检索,5.4.2知识检索技术CBR工作步骤:检索与待解决问题类似的案例;重用类似案例推荐的解决方案;修改或调整解决方案以更好地适应新问题;考查新的问题、解决方案案例是否有价值作为一个新的案例保留;保留步骤中有价值的解决方案;完善案例库索引和特征权重。,村壁卯嚏寅欧安氮萌齿优莫百黑糟篮历插靡冯谓吗调夫献伸留渔根求营询第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,28,5.4知识检索,5.4.2知识检索技术知识库知识库(KnowledgeBase)是一种在线的、基于计算机的,有关某一专门领域的专家意见、知识、经验等的文件仓库,是对各种来源信息的收集、归纳和综合。过程感知知识检索通过明确描述过程和过程信息,过程感知知识检索使计算机可以作出关于知识和信息来源的高度针对性的建议,同时协助工序的完成。一个过程感知知识检索框架由过程描述、知识源结合体和整合过程感知检索与现行工具的具体运作平台机制构成,具有过程库、知识来源库、监测框架、自动控制、过程识别功能。,殴薛灯赛菇抑赃摘榔欣弛醒部脑战脏驴剪钞推诌飘熬性滋挛恍缠量阻缨冰第五章数字图书馆信息检索第五章数字图书馆信息检索,2020/5/22,29,5.4知识检索,5.4.3知识检索案例CNKI具体目标:一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学做的灯谜题目及答案
- 农业种植服务提供合同书
- 时间大劫案课件
- 往事依依550字9篇
- 放风筝600字小学作文(15篇)
- 为校园添一份绿色400字8篇
- 除夕情怀作文500字(10篇)
- 纪检小教员课件
- 辽宁省辽阳市第一中学2024-2025学年八年级上学期开学考试地理试卷(含答案)
- 六年级叙事作文美好的回忆550字7篇范文
- DB36-T 954-2024 低产低效林改造技术规程
- 二零二五版地质灾害监测与测量合同范本3篇
- 2025年电泳涂装项目可行性研究报告
- 食品微生物学绪论(精美课件)
- 矿业行业智能化矿山建设与运营方案
- 住院精神疾病患者自杀风险护理2023版团标解读
- 重大版英语六年级上册单词默写表
- 《画电气原理图接线》课件
- 护理肝癌的疑难病例讨论
- 92枪械课件教学课件
- 2024年首届全国标准化知识竞赛真题题库导出版-中(多选题部分)
评论
0/150
提交评论