




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XML 文档检索技术研究 XML 文档检索技术研究 姓 名: 向 永 清 学 号: 10748345 年 级: 智能 07 硕士 指导老师: 张 岩 日 期: 2008 年 1 月 智能科学系 北京大学信息科学技术学院 摘要摘要 随着互联网上信息量的急剧膨胀,互联网上的信息量每天在以数百万 GB 的速度增加。 人们已经不能仅仅依靠人力来有效的处理这些信息了, 这就必须依靠计算机来有效组织和利 用这些信息,利用信息首先必须高效准确的获取信息,然后才能对其加以利用。目前存在的 信息获取工具中,人们使用最多的就是 HTML 网页搜索引擎了,例如百度和 google,是目 前人们比较喜欢的两款网页搜索引擎产品。但是,这些 HTML 文档搜索引擎有明显的几个 缺点就是:首先,HTML 检索的准确度不高,我们在用搜索引擎时,要精确找到想要的信 息不是件太容易的事情。其次,HTML 检索只是平面的文档检索,检索主要针对文章的内 容, 而忽略了文章的结构信息, 而文章的结构信息在对信息的处理和利用过程中是非常有效 的,这又主要是由于 HTML 语言本身的缺陷造成的,HTML 标签只有显示信息的能力,即 把信息以什么形式展示给用户,而没有描述信息的能力,这极大的局限了 HTML 文档的应 用。 为了改变 HTML 只能展示信息而不能描述信息这一现状,W3C 机构提出了一种全新的 信息描述语言标准XML 标记语言,XML 和 HTML 有许多相似之处,比如,XML 和 HTML 都是由标签组成的,他们都由 SGML 发展而来的,但是 HTML 结构不严谨,能够表 示的信息非常有限,XML 正是为了克服 HTML 这些不足而出现的。XML 语言有非常严谨 的结构,能够表示丰富的语义信息,非常容易扩展,而且相对 SGML 来说,又非常简洁, 描述数据和表示数据的能力都非常强大。既然 XML 语言有这么多优点,那我们怎么来利用 它呢?首先我们必须掌握获取 XML 文档的技术,目前的 HTML 检索虽然也可以用作 XML 文档检索,但是这种检索没有体现 XML 的结构和语义描述能力的优势。为此,本文提出了 一些针对 XML 文档检索的模型和方法,并与 HTML 文档检索作了相关比较,对 XML 检索 的未来做出了一些展望。总而言之,XML 是互联网发展的一种趋势,必将得到大规模的应 用,XML 检索也将成为互联网信息获取的重要手段之一。 关键词关键词 XML HTML SGML 信息检索 1. XML 文档检索概述文档检索概述 1.1 XML 文档简述文档简述 XML 是英文 eXtensible Markup Language 的英文缩写,中文全称叫做可扩展标记语言。 XML 第一个版本于 1998 年发布,是 SGML(Standard Generalized MarkupLanguage,标准 通用置标语言)的一个简化子集。由于它将 SGML 的丰富功能与 HTML 的易用性结合到了 Web 的应用中, 以一种开放的自我描述方式定义了数据结构, 在描述数据内容的同时能突出 对结构的描述, 从而体现出数据之间的关系。 这样所组织的数据对于应用程序和用户都是友 好的、可操作的。自 1998 年 W3C 发布 XML1.0 标准以来,迅速得到软件开发商的支持和 程序开发人员的喜爱,显示出其强大的生命力。虽然 XML 数据比普通的二进制数据要占用 更多的空间,但是它的数据处理中非常方便,目前已经广泛应用于基础数据的描述,异构系 统间数据的交换和系统集成,电子商务等重大信息科学领域。 以下是一个简单的 XML 文档程序示例,通过这个示例我们可以了解 XML 和 HTML 的 一些区别。 JSP 程序设计习题册 向永清 清华大学出版社 18.00 JSP 程序设计 向永清 清华大学出版社 38.00 通过上面的示例,我们了解到,在结构上 XML 和 HTML 很相似,但是 XML 的机构比 HTML 更规范,更容易处理,也能够表达更多信息,其主要的区别如下: (1) XML 中的标签必须成对出现,即每个标签必须有个结束标签,而 HTML 没有这种 限制,导致 HTML 使用起来很麻烦。 (2) XML 中所有的属性必须有值,而且必须用双引号括起来,但是在 HTML 中某些属 性值可以为空。 (3) XML 必须按照合适的顺序进行嵌套,而 HTML 中没有这些限制,导致标签结构非 常混乱。 (4) XML 标签很容易根据实际应用进行扩展,比如,我们可以为金融行业制定一个金 融业的 XML 数据标准,用于金融数据的交换和集成。 XML 有很严谨的结构,但是同数据库中的关系数据比较起来,XML 数据又不是那么完 整, 因此, XML 数据被成为半结构化数据, XML 数据的结构主要通过 XML Schema 和 DTD 来指定。一般而言,描述 XML 数据结构的模型有图模型和树模型两种,为了简化处理,在 XML 检索中一般使用的有序树模型,例如,上面 XML 文档用有序树表示如图-1 所示。 图-1 XML 树状模型图 从上面的介绍,我们得知,XML 在数据处理和交换方面有如下的一些优势: 首先,XML 具有非常广泛的开放性,它允许各个组织、个人建立适合自己需要的置标 集合, 并且这些置标可以迅速地投入使用。 这一特征使得 XML 可以在电子商务、 政府文档、 司法、出版、CAD/CAM、保险机构、厂商和中介组织信息交换等领域中一展身手,针对不 同的系统、厂商提供各具特色的独立解决方案。 第二,XML 的分离性使 XML 的数据存储格式不受显示格式的制约。一般来说,一篇 文档包括三个要素:数据、结构以及显示方式。对于 HTML 来说,显示方式内嵌在数据中, 这样在创建文本时, 要时时考虑输出格式, 如果因为需求不同而需要对同样的内容进行不同 风格的显示时,要从头创建一个全新的文档,重复工作量很大。此外 HTML 缺乏对数据结 构的描述,对于应用程序理解文档内容、抽取语义信息都有诸多不便。 第三,XML 把文档的三要素独(数据、结构、显示方式)立开来,分别处理。首先把显 示格式从数据内容中独立出来,保存在样式单文件(StyleSheet)中,这样如果需要改变文 档的显示方式,只要修改样式单文件就行了。 第四,XML 的自我描述性质能够很好地表现许多复杂的数据关系,使得基于 XML 的 应用程序可以在 XML 文件中准确高效地搜索相关的数据内容,忽略其他不相关部分。XML 还有其他许多优点, 比如它有利于不同系统之间的信息交流, 完全并有希望成为数据和文档 交换的标准机制。 1.2 XML 检索简介检索简介 XML 的出现无疑是互联网发展史上一个非常重要的里程碑,随着 XML 应用的成熟, 大量的 XML 文档被用来传递和存储和交换数据,用户如何有效的检索并且利用这些数据成 为了互联网应用的又一重大挑战,此外,在最近研究很热的语义网中,XML 也是处于一个 基础核心的地位,因此,XML 检索对实现基于语义网的语义检索也有非常重大的意义。虽 然目前的 HTML 搜索引擎也都可以用于 XML 文档的检索, 但是这些搜索引擎都不能够体现 XML 文档的优势,因此,对基于 XML 文档的检索研究就成了一件非常有意义的事情。 XML 搜索引擎与传统搜索引擎的区别和带来的新的挑战主要表现如下: (1) 在进行 XML 文档检索时候,不仅要考虑文档的内容,更重要的是要考虑文档的机 构, 这样才能体现 XML 比 HTML 在结构上的优势, 考虑文档的结构使关键词之间 的关系变得更加复杂,给 XML 检索带来了新的研究空间。 (2) 在 XML 检索中,为了提高用户查询的精度,需要多粒度的考虑返回文档的结构, 根据不同用户的需要,可以返回不同粒度的文档,比如和 HTML 一样返回一整篇 文档,有时候为了方便,需要的也许仅仅是 XML 文档中某一个节点的信息。对于 粒度问题的考虑,增加了 XML 检索在索引结构建立、词频统计、词汇权重计算方 便带来了新的挑战。 (3) 在 XML 信息检索中,查询结果也需要按与查询条件之间的相关度的大小进行排序 输出, 但在排序方法上与传统的信息检索技术有很大不同。 首先, 其排序对象不同。 传统信息检索中排序的对象是文档,而在 XML 信息检索中则可以为各种不同粒度 的文档。其次,在计算查询结果与查询条件之间的相关度时也有很大的不同。在传 统信息检索中,相关度的计算主要依据查询关键字在查询结果中的频率分布信息; 在 XML 检索中,由于查询返回的结果可能是带有结构信息的复杂元素,因此,在 计算这种复杂元素与查询条件之间的相关度时, 还必须考虑结构信息对相关度计算 的影响,也就是查询关键字在查询结果中的结构分布情况对相关度值的影响。 目前已经成型的 XML 文档查询技术有 XQuery,XPath,XQL 等,但是这些查询技术对 XML 文档的结构和内容过分的依赖, 比如, 对于 XQuery 查询语言, 用户首先必须了解 XML 文档的结构,在了解了结构之后,还必须写出很复杂的查询语句,这使得普通用户对 XML 检索望而却步。因此,研究基于关键词的 XML 全文检索就是一件非常有意义的事情了,本 文总结了目前的一些主流的 XML 全文检索模型,并对他们做了相关比较,最后,对 XML 检索的发展和未来进行了预测和展望。 2. XML 文档检索模型文档检索模型 基于关键字的 XML 全文检索的检索模型同 HTML 检索模型差不多,主要包括 XML 文 档抓取器,索引器和检索器等几个主要的部分。图-2 是一种常见的 XML 检索模型图。 图-2 XML 检索模型图 从上面的 XML 检索模型图,可以看出,XML 检索系统主要由三个基本的功能模块组 成: (1) XML 文档抓取器,这个部分基本上同 HTML 的网络爬虫功能差不多,而且也没有 很大的区别。 (2) XML 文档索引器,索引器是 XML 文档检索的核心,关系到 XML 检索的效率和精 度,其基本的实现方式有普通倒排索引、杜威倒排表以及综合索引结构等,有关索 引技术将在第三节作详细的介绍。 (3) XML 文档检索器,检索器是用户使用 XML 搜索引擎的接口。这个部分最主要的 功能就是把与用户提交查询最相关的结果返回给用户, 因此这一部分主要是一些排 序算法的考虑和实现,有关这一部分的讨论将在第四节讲述。 3. XML 文档索引技术文档索引技术 索引结构的好坏关系到一个检索系统效率的好坏和精确度的高低。XML 索引结构与传 统的文本索引存在很大的不同,目前主要的 XML 文档索引技术分成以下几种: (1) 传统倒排索引。这个和 HTML 使用的索引结构差不多,主要的结构为关键词词典 和 XML 文档倒排表,这种结构已经非常成熟,并且应用于大多商业搜索引擎中。 (2) 基于 XML 节点的倒排索引。如杜威倒排表,这种索引的优势是占空间少,索引结 构考虑了 XML 文档的结构信息。 (3) 基于路径的索引。 通过使用有向图或树作为主要的数据结构, 以合成的方式来表示 XML 文档中的路径信息,可以用来有效执行复杂路径表达式如正则路径表达式的 查询,如 Dataguides、APEX 等。 (4) 序列索引。把 xM 工数据和查询转换为序列,通过子序列匹配来应答 XML 查询, 如 VIST 等。 目前应用最多也最可行的索引结构为倒排索引和节点索引, 下面分别就这两种索引的特 点和优势进行介绍。 3.1 传统的倒排索引技术传统的倒排索引技术 倒排索引(Inverted List Index)是目前搜索引擎中应用最成熟,效率非常高的一种文本索 引技术, 倒排索引主要包括一个有序的关键词词典和一个文档倒排表。 倒排索引的基本思想 是通过检索关键词, 就能马上确定包含该关键词的文档, 倒排索引包括一个有序的关键词词 典,词典之所以要有序主要是加快词典的检索速度,另一个结构就是文档倒排表,在每个关 键词后面有一个包含该关键词的文档列表和该关键词在文档中的一些信息,比如位置信息、 词频信息等。 倒排索引的一般结构如图-3 所示: 图-3 倒排索引的一般结构 表-1 是倒排索引的一个例子。 表-1 倒排索引示例 关键词词典 词频 所在文档 ID 位置 JSP 3 10 8 12 110 99 97 清华大学 2 3 18 65 33 向永清 4 3 18 82 39 99 61 140 101 例如,用户需要查找关键词“向永清” ,首先在关键词词典里面找到关键词“向永清” , 然后从这个关键词的倒排列表中读出包含这个关键词的文档信息,在表-1 中,包含关键词 “向永清”的文档有文档 ID 为 3、82、99 和 140 的四篇文档,然后根据词频信息和位置信 息等把这些结果排序,排序好后把结果返回给用户。这就是一个简单的检索过程。如果需要 检索多关键词,比如“JSP”和“向永清” ,那出现这两个关键词的交集文档就是所得的查询 结果,例子中这两个关键词的交集文档为 99,因此返回给用户的检索结果就是 ID 为 99 的 文档。 从上面的例子可以看出,倒排索引有以下几个特点: (1) 结构简单,容易扩展。倒排索引仅包括词典和倒排表两个简单的结构,很容易对其 进行处理,另外倒排表很容易扩展,使其包括丰富的信息,以适应各种不同的检索 要求。 (2) 检索效率很高。由于词典是有序的,因此,对词典进行二分检索能够很容易把目标 关键词找到,倒排索引的检索效率是非常高的。 3.2 杜威倒排表杜威倒排表 倒排索引效率很高,并且技术很成熟,但是对于 XML 文档而言,这还远远是不够的。 为此,基于 XML 节点的索引结构杜威倒排表应用而生。杜威倒排表中有一个很重要的概念 就是杜威 ID,杜威 ID 是对 XML 文档节点的一种编码规范,它不尽能够作为节点的标识, 而且保存了 XML 文档的树结构信息。 杜威 ID 是基于有序树结构的编码规范,对于一颗有序树 T,设 R 为树 T 的根,对于树 中任一节点 Q,其儿子节点分别为、。杜威 ID 的编码规范如下: 1 Q 2 Q 3 Q n Q (1) 父节点编码为 0. (2) 对于节点 Q 的子节点、,设父节点编码为 M,则这 n 个子节点编 码分别为 M0,M1,M2Mn,(Mi 是普通的字符串连接) 1 Q 2 Q 3 Q n Q (3) 按照上述规则直至把所有节点编码完毕。 对于图-1 中的 XML 有序树,树节点对应的杜威 ID 编码如图-4 所示。 图-4 杜威 ID 编码示例 杜威倒排表是以杜威 ID 为基础的一种倒排索引技术。其主要数据结构为有序词典和杜 威倒排表,杜威倒排表与普通倒排表有两点区别: (1) 文档的编码必须是杜威 ID 编码。 (2) 索引的粒度不是整篇文档,而是 XML 文档的某一个节点。 杜威倒排索引的主要思想为:对于关键词 Q,其对应的杜威倒排表是包含该关键字的祖 先节点的杜威 ID 列表,例如,在图-1 中,对于“习题”这个关键词,包含这个关键字的祖 先节点有 0100,010,01,0 四个节点, 根据杜威 ID 编码的规范, 很容易知道 010, 01, 0 是 0100 的祖先节点,如果 0010 包含关键字 Q,那么它的祖先节点肯定也包括关键字 Q。因此在给 “练习”这个关键词建立杜威倒排表的时候,只需把最靠近关键词“练习”的节点 0100 写 入其倒排表即可,其余节点可以则可以根据 0100 计算出来。 表-2 是一个杜威倒排索引的示例。 表-2 杜威倒排表示例 关键词 节点杜威 ID 词频 出现位置 习题 0000 2 30 70 0100 1 12 向永清 0010 3 6 8 33 0110 1 78 0111 2 14 27 69 北京大学 00010 2 41 73 在杜威倒排表中,对于单关键词检索,跟 HTML 非常相似,这里就不再阐述。对于多 关键词检索,根据杜威 ID 编码的特点,对于两个关键字 P 和 Q,要判断其是否属于同一个 XML 文档节点下, 只需计算 P 和 Q 的杜威 ID 编码公共前缀即可。 所谓公共前缀就是对于 P 和 Q 的杜威 ID 编码 A 和 B, A 编码和 B 编码在前几位的公共部分, 比如 0010 和 0001 的公 共前缀为 00。 因此, 在进行多关键词检索时, 只需要计算这些节点杜威 ID 的公共前缀即可, 所得到前缀对应的杜威 ID 编码就是检索结果。 从以上的讨论中,很容易总结出,杜威倒排索引的特点如下: (1) 杜威 ID 是杜威倒排索引的结构基础。 (2) 杜威倒排索引的索引粒度是 XML 文档中的节点, 相对传统的全文索引, 粒度变小, 因此索引存储空间将急剧增加。 (3) 传统的多关键词检索主要通过求关键字对应文档集的交集来实现, 而杜威索引系统 中,多关键词检索依靠求杜威 ID 的公共前缀来实现。 (4) 杜威倒排索引中包含了丰富的机构信息,在进行检索的时候能够充分考虑 XML 文 档的结构因素。 3.3 索引技术小结索引技术小结 本章对 XML 检索中应用最多的两种索引结构进行了简介,还有其他的索引技术,比如 基于路径的索引结构在这里就不在一一阐述。表-3 对比了两种索引方式的优点和缺点。 表-3 杜威倒排表和传统倒排索引比较 索引方式 优点 缺点 传统倒排索引 直观 简单 效率高 没有考虑结构信 息 检索精度不高 杜威倒排索引 考虑了结构信息 检索精度好 索引占存储空间 大 检索效率相对偏 低 通过表-3 可以发现传统倒排索引和杜威倒排索引具有很好的互补性,因此,我们可以 综合这两种索引方式, 从而即提高检索精度又不至于对系统的处理效率影响太大。 综合这两 种索引方式时,可以采用二级索引的方式,第一级索引为普通的倒排索引,第二级索引为杜 威倒排 ID 索引,把这两种索引方式综合考虑之后,系统不仅提高了检索精确度,而且也对 效率影响不大。 4. XML 文档检索算法文档检索算法 第三节讨论了有关 XML 检索的索引结构问题,这一节讨论有关 XML 文档检索算法问 题。在建立好了索引之后,系统需要做的事情就是根据用户提交的检索请求,把最合适的结 果返回给用户。XML 文档检索算法主要关心的问题是检索结果的排序问题以及在杜威倒排 表中多关键词检索中如何求节点的公共前缀问题。下面从这两个方面作一些简单介绍。 4.1 多关键词检索算法多关键词检索算法 在杜威倒排表中, 在进行多关键词检索的时候, 需要计算关键词对应的杜威倒排表中文 档节点杜威 ID 集之间的公共前缀。比如用户提交请求为关键词 A 和 B,包含关键词 A 的节 点的杜威 ID 集为 =,(0im+1)是杜威 ID,包含关键词 B 的节点的 杜威 ID 集为 c A 12 ,. m A AA i A c B = 12 ,. n B BB, i B(0in+1)是杜威 ID。如何找出集合和 c A c B中杜威 ID 的公共前缀呢?用最直观的办法就是,对于中的杜威 ID,顺序扫描集合 c A i A c B中的杜 威 ID 集合,分别求与 i A i B的公共前缀,很容易知道,这种办法的效率是很低下的,其时间 复杂度是,关键词对应的杜威 ID 集的杜威 ID 的数量,q 为关键词的个数。 ( q O N ) ) 用直观的办法来进行多关键无疑是不行的,要知道,互联网上的数据是 TB 级的,复杂 度为根本是不能信任的。下面介绍一种近线性的算法 DIL,该算法用到的主要数据( q O N 结构为一个用于求公共前缀的栈结构和一个用户保存检索结果的堆结构。 DIL 算法的伪码描述如下: a) 将所有关键字节点对应倒排表按杜威编码排序。 b) 依次处理各倒排表具有最小杜威编码的节点 ? 求解当前节点和栈中节点的 LCP。 ? 弹出栈中非 LCP 的部分,如果在弹出过程中发现某个节点 已经包括全部关键字节点,则将该节点的杜威 ID 存入结果 堆中。 ? 将当前节点的其余部分压入堆栈。 ? 返回 b),继续处理倒排表中剩余节点直到把所有的节点处 理完毕。 说明:算法中 LCP 即为公共前缀。 容易知道该算法的时间复杂度为 O(Nq),其中 N 为关键词对应杜威 ID 集的长度,q 为 关键词个数。对于表-4 的杜威倒排表(为了简便,这里假设倒排表内容仅有杜威 ID 一项), DIL 算法的处理过程为,选择 A 对应倒排表中最小的杜威 ID 入栈,此时栈中 ID 的 01010, 然后从 B 的倒排表中选择最小杜威 ID01002,并与栈中杜威 ID 比较,公共前缀为 010,因 此 10 被弹出栈外,02 入栈,此时栈中杜威 ID 为 01002,然后又选择 A 中的杜威 ID02000, 02000 与栈中杜威 ID 的公共前缀为 0,因此 1002 要被弹出栈外,但是在弹出栈的过程中, 我们发现 010 已经包含了关键字 A 和 B, 因此 010 被压入结果堆中, 然后 2000 被压入栈中, 栈中杜威 ID 为 02000,照这样处理,直到把 A、B 倒排表中剩余的杜威 ID 处理完毕。 表-4 杜威倒排表 关键字 杜威 ID 倒排表 A 01010 02000 B 01002 01012 01030 4.2XML 文档检索结果排位模型文档检索结果排位模型 上面一节讨论了杜威倒排表下的多关键词检索算法,但是仅仅把结果找出来是不够的, 下一步已经做的事情就是对检索结果排序。在传统的 HTML 搜索引擎中,有一个很著名的 排序模型 PageRank,Google 搜索引擎的检索结果排序就是基于 PagePank 模型的,在 XML 检索中也可以参考 PageRank 的基本思想,即网页被链接的次数越多,PageRank 值就相对越 高。XML 文档在考虑排位模型时,不紧要考虑外部链接的影响,还应该考虑内部结构的影 响。下面从 XML 文档排位模型 XMLRank 和检索结果排序权重 XMLScore 的计算两个方面 来介绍 XML 文档检索结果的排位模型。 4.2.1XMLRank 模型模型 (1) XML 文档的数学模型 把 XML 文档抽象成有向图 G=(N, CE, HE)。其中 N 表示节点的集合:包括元素节点和 值节点,CE 表示内部边集合,即树中的边,内部边的逆向边集合为,即树中边的逆 向边;HE 表示链接边,包括 XLink 和 IDREF。根据上面的数学模型定义,设定 XML 文档 XMLRank 值的数学模型用下面的数学公式表示: 1 CE 1 123 123 ( , )( , ) ( , ) 1( )( ) ( )( ) ( )( )( ) u vHEu vCE u vCEedehc dddxmlrank uxmlrank u xmlrank vdddxmlrank u NNvNuN u =+ 从上面的公式可以看出这个模型综合考虑了 XML 文档中的链接以及内部节点间的结构,比 如内部边和内部逆向边这些就是内部节点间的结构。 4.2.2 排序权重排序权重 XMLScore 值的计算值的计算 在有了上面的 XML 文档的权重模型 xmlrank 后, 还不能确定最终的排序结果, 因为 xmlrank 只是计算了 XML 文档的一个权重,这个并不能反应最终结果的权重,因为用户提交的查询请 求一班是多关键字的,这些关键字在文档中的分布和词频肯定也会影响最终的排序结果,比如 两个关键词 A 和 B 出现在文档的两个兄弟节点上, 而在文档中, 分别包含关键词 A 和 B 的两个节点间没有兄弟关系也没有父子关系,仅仅共根节点,那么,在返回结果时,应该排 在前面。下面的 XMLScore 排序权重计算模型正好解决了这个问题。 1 D 2 D 1 D 2 D 设有关键词向量,其检索结果表示为 R=Result(Q)。对于 R 中的节点,定义 其相对于关键字的的 xmlscore 值为: 12 ( ,.) n Q k kk 1 V i K xmlscore(,)=xmlrank()* 1 V i K t V 1t decay 其中为关键字所在节点的父节点,decay 表示衰减度,其值介于 0 到 1 之间,比如可 以设定为 0.8,上面公式反应的一个现实是,节点与的距离越远,那么相对于的 xmlscore 值也就会越小,这是显然的。 t V i K 1 V i K 1 V i K 如果一个关键词在文档中出现了 m 次,则分别计算相对于他们的 xmlscore 值 i K 1 V 1 xmlscore, 2 xmlsocre, m xmlscore, 然后用聚集函数处理 1 xmlscore到 m xmlscore从而求得 相对于的 xmlscore 值。其中 f 为聚集函数,这里默认取 max。 1 V i K 112 ( ,)(,.) im xmlscore V Kf xmlscore xmlscorexmlscore = 因此,结果与关键词向量 Q 之间的计算模型可以表示如下: t V 111 1 ( ,)( ,)( ,.) in i n xmlscore V Qxmlscore V Kp V K KK = 12 上面的公式中,p 函数为关键词向量 Q 中关键词之间的相互关系函数,其值域范围为 (0,1),如果这些关键词之间的关系越亲近,则 q 函数趋近 1,否则,q 函数值趋近 0。 5. 结论与展望结论与展望 本文通过对 XML 和 HTML 的比较,总结得出了 XML 在数据处理和数据表示以及描述 中的巨大优势,其突出优势主要表现在以下几个方面: (1) XML 在数据描述方面的灵活性和可扩展性更强, 更容易适应不同要求的应用环境。 (2) XML 已经被
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 形体房使用管理制度
- 往来款收据管理制度
- 微贷网公司管理制度
- 总公司保洁管理制度
- 总监办安全管理制度
- 惠州停车场管理制度
- 成品仓盘点管理制度
- 成都公积金管理制度
- 房地产风险管理制度
- 掘进队规章管理制度
- JG/T 455-2014建筑门窗幕墙用钢化玻璃
- 村文书考试题及答案
- 创新创业策划书格式
- 大数据在区域经济学中的应用研究-洞察阐释
- 美洲文化课件教学
- 2025届重庆市巴川中学生物七下期末统考试题含解析
- 医学检验进修汇报
- 2025春季学期河南电大本科补修课《民法学#》一平台无纸化考试(作业练习+我要考试)试题及答案
- 《数据分析与可视化》课件
- 2024年贵州省黎平县事业单位公开招聘医疗卫生岗笔试题带答案
- 《关于智能家居系统》课件
评论
0/150
提交评论