




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜XX擎和信息检索的关系【跨语言信息检索在搜XX擎中的应用】 跨语言信息检索在搜索引擎中的应用 摘要:简单介绍了跨语言信息检索在搜索引擎中应用的必要性、重要性和最近的国内外应用状况。指出了对应用中存在的不足和缺陷,并相对应提出了改进建议。最后对跨语言信息检索在搜索引擎中的应用趋势进行了展望。 关键词:跨语言信息检索 CLIR 搜索引擎 1 概述 所谓跨语言信息检索(Cross-language Information Retrieval,CLIR),系指用户以一种语言(通常是自己的母语)提问,检出另一种或几种语言描述的信息资源的信息检索技术和方法。CLIR中,用户用以表达自己的信息需求、构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标语言(Target Language)。网络用户检索信息主要通过搜索引擎来达到其目的。就中国来说,NIC发布的第25次中国互联网络发展状况统计报告显示,截至xx年12月31日,中国网民规模达到3.84亿人。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6%。搜索引擎的使用率为73.3%,较xx年增加了5.3个百分点,超过了即时通信成为网民使用互联网的第三大应用1。然而,网络资源语种的多样性和差异性成为了网络用户存取的巨大障碍。网络信息语种分布和网络用户语言分布不平衡。据Inter World Stas统计,截止xx年12月31日,目前全球18亿多网络用户所使用的语言依次为:英语27.7%,中文22.6% ,西班牙语7.8%,日语5.3%,葡萄牙语4.3%,德语4.0%,阿拉伯语3.3%,法语3.2%,俄语2.5%,韩语2.1%,其他语言17.2%。虽然笔者没有找到最近Web网页所使用的语言比率,根据Netcraft统计显示,截止xx年6月全球共有2亿多个网站2。而根据第25次中国互联网络发展状况统计报告统计结果,中国网站数量仅为232万个,比率刚刚超过10%,由此可见一斑。因此,CLIR是全球共享的关键因素,是跨越地理 2 跨语言信息检索在搜索引擎中的应用现状 搜索引擎按语种分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。它主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问的翻译和不同搜索引擎检索结果的集成。 2.1 跨语言搜索引擎 2.1.1 国内外概况。国外多数主流的搜索引擎一般具有跨语言检索的功能,如Google、Yahoo!、AltaVista和ixquick等。另外,对检索结果的翻译功能是CLIR技术的一个有机组成部分,是检验CLIR是否成熟以及是否具有实用性的重要指标4。此外,Google和AltaVista还能够实现网页翻译,极大地便利了网络用户浏览外文网站。如AltaVista的Babel Fish翻译个人网页多达10000个,当用户点击链接时,链接的网页也会自动翻译。 而具有CLIR功能的中文搜索引擎则较少。就笔者所知的只有传承自Yahoo!的雅虎中国搜索。另外,搜狗具有在线翻译功能4。 2.1.2 支持语种数量。Google Translate目前支持52种语言之间的任何翻译,Yahoo!也可以进行13种语言之间翻译整个网站的文字或短文的检索,AltaVista则可以在19种语言之间进行翻译。但是这些标榜CLIR的搜索引擎大多其实只是多个单语言模式搜索的集合,只有Google Translate可以算是真正意义上的跨语言搜索引擎。这仍将是CLIR发展的一个重要方向5。 2.1.3 工作流程。跨语言搜索引擎的工作流程可以简单的概括为:用户向系统提交检索词,形成一个源语言的搜索式。系统对搜索式进行语言识别,识别出语种后,就进行提问式 的词法分析和结构分析,然后把这些分析过的搜索式翻译成各种语言的搜索式。最后把这一系列的搜索式提交给系统进行检索。系统再将检索到的结果反馈给用户。 Google Translate则在它的帮助文档中提到的:“Google Translate是一个自动翻译器,也就是说,它不受人类翻译的干预,而是以国家最先进的技术代替。现在大多数使用中的商业机器翻译系统已经开发了基于规则的方法,并且需要大量的工作来定义词汇和语法。我们的系统采用不同的方法,我们提供数十亿字词的文本给计算机,同时包括目标语言的集成文本,和由各种语言之间人类翻译实例构成的对齐文本。然后,我们应用统计学技术,来建立一个翻译模型。”可见,不同于传统的基于规则的方法,Google Translate的检索策略是基于语料库的方法。它用统计学方法从大规模语料中分析和归纳语言现象和规律,再用得到的统计规律或语言模型来处理自然语言。不过在实际使用中,效果差别不大。 2.2 搜索引擎的在线翻译工具 无论搜索引擎是否具有跨语言检索功能,但是它们提供的各种各样的翻译资源也是很重要的研究工具。除了现有的各种词典外,还有不少的在线翻译工具。另外,如AltaVista提供的在线翻译工具Babel Fish,可以为用户翻译一段字数多达150字的文本。搜狗百宝箱中的在线翻译也可起到辞典和翻译短文的作用。 3 不足与改进建议 跨语言搜索引擎现正处于方兴未艾的状况,因此也存在许多不足与缺陷。找出它们的问题所在,并提出改进的建议,才是推进CLIR的实际措施。 3.1 跨语言搜索引擎的不足 3.1.1 实用性方面,如今CLIR的技术已经取得了长足的进步,但即使是最好的CLIR系统的性能整体上和发展成熟的单语言检索系统仍有差距。在真实语境下跨语言检索系统及其相关工具还是非常缺乏,现有技术离真正的实用化还有一段距离6。 3.1.2 交互性方面,大多数跨语言搜索引擎都没有做到与用户的良好互动。单语言搜索引擎在检索结果下方显示相邻和相关词汇的功能,跨语言搜索引擎就不具备。在急需词义消歧的情况下,搜索引擎的交互性显得更加重要。 3.1.3 准确性方面,由于使用商业机器翻译系统,跨语言搜索引擎和在线翻译工具的翻译准确程度显然跟不上用户的需求,当翻译语法结构复杂的文本时更是如此。而真正意义上的CLIR应该是在文档层次进行翻译的。翻译精度不高往往会造成用户对检索结果难以理解。 3.1.4 灵活性方面,传统的基于规则的方法灵活性较差,容易忽略语言中那些性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象。 3.2 改进建议 3.2.1 加强跨语言搜索引擎的系统交互性,采用查询扩展。许多检索词在双语词典中的译项并不唯一,且这些译项所表达的意思有时相差甚远。查询扩展则是在用户输入检索提问后,采取一定策略,对用户的检索要求进行扩充。这样一来,就可以提高检索结果的检全率。同时,要建立用户反馈机制,以求改善CLIR系统。 3.2.2 加强通用商业机器翻译软件的研究,提高机器翻译的质量。在CLIR中,解决语言障碍的基本方法是两种语言之间的翻译,而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。目前的通用商业机器翻译软件普遍质量较低。成为制约CLIR在搜索引擎中广泛应用的一个关键因素。同时,要逐步从限制性强的基于规则的策略过渡到基于语料库的策略。 3.2.3 加强Web语料库的建设。语料库是大量文本的集合,由相互对应的两种语言的素材构成。通过建立语料库收集大量单语或双语语料和词典,可以从中获取语言知识和翻译知识。另一方面,还要克服Web资源种类繁多、数量庞大、所涉及的语种众多,以及Web 资源版权保护等给Web语料库建设带来的困难。 4 结语 CLIR研究真正活跃起来并取得成果,是在Inter迅猛发展的20世纪90年代后期,一些实验性CLIR技术相继问世7。然而经过十几年的发展,跨语言搜索引擎还是很少,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿化项目移交申请报告(3篇)
- 与酒店合作合同(标准版)
- 绿化租地合同(标准版)
- 留厂值班申请报告(3篇)
- 领取空白证件申请报告(3篇)
- 取消合同中止合同(标准版)
- 争吵公开课课件
- 学校(幼儿园)应急物资储备应急预案
- 2025年银行业专业人员职业资格技师考试及答案
- 2025“安全生产月”全员安全知识考试题库附答案
- 学堂在线 军事理论 章节测试答案
- 《工程勘察设计收费标准》(2002年修订本)
- GB 31644-2018食品安全国家标准复合调味料
- 航运管理实务整套课件汇总完整版电子教案(全)
- 国际商法完整ppt课件全套教学ppt教程
- 小箱梁运输及架设施工危险源辨识及分析
- 科技论文写作与学术规范PPT通用课件
- 汉语拼音字母描红(A4打印)
- 构建“可视化”数学课堂促进学生深度学习
- 财务报销流程培训PPT课件:日常费用报销
- 聆听京剧唱腔联奏
评论
0/150
提交评论