现有数学搜索引擎对比.ppt_第1页
现有数学搜索引擎对比.ppt_第2页
现有数学搜索引擎对比.ppt_第3页
现有数学搜索引擎对比.ppt_第4页
现有数学搜索引擎对比.ppt_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MathSearch简介 现有数学搜索引擎对比 数学标记语言简介 数学查询语言MQL简介,MathSearch简介,MathSearch的设计目标 MathSearch的设计思想 MathSearch的研究内容,MathSearch的设计目标,MathSearch是一个可进行数学内容检索的基于公式的网络数学搜索引擎。 MathSearch使用语义检索方式,不仅可以实现基于字面显示结构的数学公式检索,同时可以实现基于数学公式语义的检索。 MathSearch能够实现对含有数学公式、数学符号的网页、文档、资料的搜索。 MathSearch支持的具体查询有:结构查询,语义查询,通配符查询,组合查询,抽象查询,MathSearch的设计思想,Mathsearch利用一系列爬虫进程从网络上收集信息,并判断其是否含有数学相关的内容,如果有则开始下载相应的文档,并从文档中提取所需数学公式、数学符号或数学相关内容。 为了同时支持基于数学显示方式的查询和基于数学公式语义的查询,Mathsearch为这些公式、符号和数学内容分别建立面向数学公式显示的Presentation索引和面向数学公式语义的Content索引。 用户表达查询需求时,既可以通过所见即所得的GUI窗口输入要搜索的内容,也可以直接输入数学查询语言MQL来表达搜索需求。 MathSearch对MQL进行解析,查找相应的数学内容,通过合理的算法对这些网页连接建立PageRank,将结果排序显示,并将查找内容突出显示。,MathSearch的设计思想(续),图:MathSearch设计思想,MathSearch的研究内容(),数学搜索数据源的界定及表达方式之间的转换研究 MathSearch搜索数学公式的主要搜索目标格式为MathML格式,OpenMath格式,中缀格式以及LaTex格式。这几种格式在表示方法上存在较大差异,MathSearch主要研究不同格式的数学公式的等价性及它们之间的相互转换方法。 MathSearch在数学公式编辑器MathEdit基础上研究数学公式转换器,针对目前Web中比较常见的数学公式标记语言MathML,OpenMath,LaTex和Infix进行转换,采用标准的JavaScript,DOM及XSL实现,提供可视化的图形界面,方便用户编辑、转换和提取负责的数学公式。该研究可以有效应用于网络数学搜索引擎中。,MathSearch的研究内容(2),数学公式查询语言的研究 数学搜索引擎的关键在于查询,在数学信息检索系统中,定义一种直观的通用的有力的查询表达方式是一项重点研究内容。 MathSearch使用了一种基于MathML格式的扩展表达方式作为数学查询语言,通过该查询语言用户可以有效便利地对查询需求进行描述。该查询语言除支持常规结构化查询需求描述外,还支持组合查询表达和抽象查询表达,增强了查询表达力度。,MathSearch的研究内容(3),数学公式索引的研究 索引是针对顺序查找的低效率而创建的一种方法。索引是指能把一个关键码与它对应的数据记录的信息相关联的一种数据结构。由于数学公式本身往往具有丰富的语义和特定的结构,当前数学搜索主要研究以数学公式的布局特征和语法结构进行的搜索。目前,索引技术主要有以下三种:倒排索引、后缀数组和签名文件。其中,倒排索引技术是当前大多数的信息检索系统中采用的索引建立技术,它对于关键词的搜索非常有效。 为了兼顾数学公式的显示和语义,MathSearch提出同时为数学公式建立面向公式结构的Presentation索引和面向公式语义的Content索引。 在建立基于数学公式语义的Content索引时,为了增强语义支持,对于网络爬虫搜集到的每一数学公式,要首先对其进行相应规范化。为了实现细粒度的数学公式查询,对于网络爬虫搜集到的每一数学公式,要分为若干N-grams的数学子公式,并对每一子公式按照权重计算方法赋予一定权重并建立索引。另外,为了增强数学搜索系统的语义支持,对于Content索引内容,还要连接到计算机代数系统进行计算转化,并对所有计算结果赋予一定权重并建立索引。 在建立基于数学公式结构的Presentation索引时,由于Presentation MathML表示的数学公式不同于Content MathML表示的数学公式,它们本身不包含语义信息,也无法从语义层面进行数学子公式划分。因而,在建立Presentation索引时,重点考虑数学公式的布局及显示方式,因而直接按其本身字面建立索引 。,MathSearch的研究内容(4),数学搜索系统性能与质量的研究 搜索引擎提供的结果集中页面质量的好坏以及高质量的页面能否在结果集中有较好的排名,对搜索引擎用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标,所以对页面进行重要性评估并按重要性排序是搜索引擎要解决的技术核心。 在数学搜索中,要考虑的一个重要问题是相关度Relativity。相关度是指检索出的内容与查询条件之间的匹配程度。因此,加入以下两个方面的因素的考虑: 第一,在数学公式中,不同的数学符号、数学公式具有不同的重要度。 第二,对于同一公式,有时具有多种语义,多种表示方式和多个计算结果 。 另一方面,在搜索时为了明确用户需求,系统可以针对不同的用户记录历史操作,以跟踪用户行为,总结用户偏好,建立用户日志。使得在下一次搜索中可以根据用户的习惯搜索并显示可能符合用户意图的相关结果。,MathSearch的研究内容(5),搜索结果的返回显示研究 搜索引擎强调命中显示、突出查询关键项显示的主要目的是便于用户查看和评测返回结果。 对于内容较多的文件,系统需要在查询返回结果中显示若干摘要信息并突出显示匹配查询条件的关键项。一方面,这样可以使用户在结果文件中快速定位查询条件中关键项,便于查看。另一方面,也可以作为搜索引擎性能的一个评估标准,检测搜索结果是否符合查询需求以及符合程度。,现有数学搜索引擎对比(1),现有数学搜索引擎分两大类: -不支持数学内容识别的 通过查找已提供的元数据,可以执行比普通全文搜索引擎更好的数学内容搜索,但不能处理数学操作。 -支持数学内容识别的 根据他们的数学识别方法又分为: 基于语义的方法 基于语法的方法,现有数学搜索引擎对比(2),MathDex MathDex是最早的能够进行数学内容识别的全文检索引擎,是基于Apache的Lucene搜索引擎 。关键特性有以下几点:支持无语义数学内容文档的查询;支持不同数学编码数学内容的查询;同时支持数学符号和文本的检索,尽可能满足用户的查询期望而不仅仅针对字面查询。MathDex对于所有检索到的文件首先将其转换成XHTML+MathML格式。文件根据结构及与查询项的语法相似程度进行排序。MathDex提出N-grams匹配方法以提高精确度。在索引建立阶段,不仅为每个公式建立索引,同时记录其子公式出现的频率信息。子公式出现的频率对增加复杂公式的匹配度有很大意义。 另外一个提高精确度的方法是将文件分为多个域,比如题目、正文等,并给予不同权重。出现在标题中项的权重应高于出现在正文中项的权重。MathDex存储表达式的不同部分以进行并行查询,从方程不同部分匹配到的项具有不同的权重。不同公式可具有分子域、上标域、行域等。输入公式被解析,定义合适的域,然后查询被重写,在所选择领域匹配子项。越多子项匹配,相关度越高。MathDex不能处理数学操作和等价性匹配。,现有数学搜索引擎对比(3),DLMF Search DLMF Search是为美国国家标准与技术研究所(National Institute of Standards and Technology)的数学公式数字图书馆(Digital Library of Mathematical Functions)而建立的一个检索系统。 DLMF Search的目标公式格式主要针对于TeX/LaTex格式,查询语言也是基于LaTex。查询描述阶段,为了使用户能够表达模糊查询需求,DLMF Search在LaTex格式基础上进行扩展,定义一系列元数据,这种查询语言是一种文本化的查询语言。在索引建立阶段,DLMF Search扩展文本信息检索的索引方法。首先对数学对象进行线形化,即将所有非字母表中的数学符号都对应到字母表中的一个字。其次界定并序列化数学对象的子项及表达式,最后按顺序将各子项化为标准规范形式,即转化为已定义的规范顺序以免表述风格的不一致导致的查询错误。该引擎的核心仍是基于文本的检索,与传统文本检索系统在本质上没有差别。,现有数学搜索引擎对比(4),LeActiveMath LeActiveMath是一个基于Web的智能数学学习环境,主要目标是根据用户的前期工作及实际知识水平为其提供个性化内容。目前,这个学习系统并未向公众免费开放,而且并未查找到其可用的搜索系统。它是基于Apache Lucene搜索引擎的。 显然,这样的教育系统是需要一个搜索引擎的。该系统针对的数据源是OMDoc编码的具有语义的数学文件。索引阶段依赖于特殊的OMDoc格式,其包含语义信息以及其他的元数据。应用于现有真实文档则仍有一定问题。然而,使用特殊的OMDoc格式可以提高文档的相关度,使得搜索引擎在特殊环境更加有效。OMDoc具有把文件分为被称之为项的内容单元的特性。这些项包括:定理,练习,证明,定义等等。它们可以通过单一的标志符来定位,这有利于开发它们之间的关系。索引阶段,将OMDoc的公式转换为特殊的包含信息深度的文本化标记。子公式的深度信息包含于索引字符串中。搜索阶段将输入公式转化为具有深度级别的表达式。目前,他们解决这一问题的办法是迭代索引库中从1到最大深度的公式。,现有数学搜索引擎对比(5),EgoMath EgoMath是一个基于Egothor v2的可识别数学内容的全文本搜索引擎。它的主要目的是适用于现实世界中不包含隐含语义信息的数学内容。它支持Presentation MathML和Content MathML表示方式,更侧重于针对Presentation MathML表示方式。对于PDF文件,用Infty转换器转换为Presentation MathML标记的数学文件。EgoMath同时支持文本化查询和数学公式查询,这对于现实应用更具有效性。 EgoMath并不是用一个单独的项来表示一个数学公式,复杂的公式往往由一个项的有序集合来表示。后一个表达式可以由前一个表达式通过应用归纳和变形来得到。这些规则试图降低全文索引库的最大缺陷静态特性。每个集合中后面的公式都是由归纳而来的,因而可以匹配更多的表达式。在搜索阶段,用户输入被分为简单文本查询和数学查询。然后,采用和索引阶段相同的算法处理数学查询。算法产生n个表达式,这些表达式通过“AND”操作符附加到简单文本查询上。结果是执行n个连续的查询操作。出于后面的查询项被匹配到的可能性更大,因为后面的项比前面的更具有普遍性。每个数学文件都被分为数学部分和文本部分进行存储。否则类似于“sin”的模糊查询就会即返回包含数学公式“sin”的文档,又返回包含字符串“sin”的文档。 EgoMath中查询语言采用类似于LaTex的表示方式。EgoMath由于UI设计仍未完成直至目前仍未公布。,现有数学搜索引擎对比(6),MathWebSearch MathWebSearch是一个不依赖于全文检索引擎的数学搜索引擎。进行数学搜索时,MathWebSearch采用了非文本化的查询方法。该方法中表达式被解析为置换树,结果是产生一个类似于树的结构,节点包含了对父节点的置换。为了进行子公式的查找,它将每一公式的所有子公式单独的加入索引库中。尽管MathWebSearch是最好的数学识别搜索引擎,但它仍存在一定问题。一方面,具有相同语法的公式可能具有不同的语义,另一方面,语法不同的公式可能具有相同的语义。 另外,公式的每一次查找都要转换为置换树,这可能带来性能问题。由于该搜索引擎不支持全文本的查找,因而在实用性上仍存在一定缺陷。目前,它可索引Content MathML文件,受限制的Presentation MathML, OpenMath格式的文件。该数学搜索引擎前端Web搜索界面非常类似于MathDex但是查询语言有所不同,它的查询语言扩展自MathML。,现有数学搜索引擎对比(7),数学标记语言简介(1),TeX/LaTex TeX第一个高质量的电子排版系统 ,它提供了一套功能强大并且十分灵活的排版语言,多达900多条指令,并且TEX 有宏功能,用户可以不断地定义自己适用的新命令来扩展TEX 系统的功能。 LaTex是当今世界上最流行和使用最为广泛的TEX宏集。TeX可以看作是一种专门用来排版的命令语言, LaTex实际是TeX的宏命令。使用LaTex基本上不需要使用者自己设计命令和宏等,因此,即使使用者并不是很了解TEX,也可以在短短的时间内生成高质量的文档。和Word等流行的编辑软件比较, LaTex在编排公式时不需考虑公式的位置和公式中字符的大小,LaTex会自动的将这些工作严格按照国际标准给出。即TeX 系统的排版结果 DVI(DeVice Independent)文件与输出设备无关。DVI 文件可以显示、打印、照排,几乎可以在所有的输出设备上输出。TeX 排版源文件及结果在各种计算机系统上互相兼容。目前有很多科技文献中的公式都是用LaTex来描述的。,数学标记语言简介(2),MathML MathML完全采用XML的定义规范,继承了XML的大部分优点,具有强大的数学公式表达能力。 MathML用于描述数学公式的结构和内容,它的出现使数学公式不仅可以在Web上建立与传输,而且可以在其它应用程序中实现再利用和转换,满足用户对数学公式的各种处理需求。MathML提供两种描述数学公式的标记:Presentation标记和Content标记。 Presentation标记大约有30个,附带50多种属性,主要目的是用来描述抽象数学符号的二维结构,相当于一个数学符号构造器,把数学符号的语法结构表现出来。每一个表现标记都对应着唯一的一种符号模式 。Content标记大约有120个,其中大部分是空标记,附带的属性只有简单的12 种。 Presentation标记和Content标记都可以完整地描述任何一个数学公式,但是它们的侧重点不同:前者用来描述数学表达式的二维布局结构,它更注重表达式的显示方式;后者描述用于计算和处理的数学信息,它更关注表达式的内在含义。Presentation标记和Content标记使得Web中的数学信息不仅是机器能读的,而且是机器能理解的。为了同时从结构和语义两方面描述一个数学对象,二者还可交叉使用形成混合编码,但不能相互替代。,数学标记语言简介(3),OpenMath OpenMath也是一种XML应用。区别在于,MathML最初是处理数学对象的显示和交付,而Open-Math则着眼于数学语义或内容。OpenMath继承了XML的固有特征,用OpenMath编码的数学对象可以在浏览器中显示、在系统之间交互、在数据库或文件中进行存储或检索,甚至可以对其数学合理性进行验证。尽管MathML和OpenMath之间具有很强的互补性,但人们更加关心的还是数学对象的语义及内容而并非数学表达式的显示问题。数学结构的OpenMath表示方法就是OpenMath对象,通常OpenMath对象或Open

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论