(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf_第1页
(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf_第2页
(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf_第3页
(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf_第4页
(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf_第5页
已阅读5页,还剩89页未读 继续免费阅读

(电工理论与新技术专业论文)基于xml文档结构语义的信息检索方法与应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声明尸明 本人郑重声明:此处所提交的博士学位论文基于x m l 文档结构语义的信息检 索方法与应用研究,是本人在华北电力大学攻读博士学位期间,在导师指导下, 独立进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学 位论文的研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工作 做出贡献的其他个人和集体,均己在文中以明确方式标明。 签名: 垄盘! 士 日期:盟。z :z 堑 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅:学校 可以学术交流为目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:趔 日期:盟! f ! 导师签名: 日期: 华北电力人学博士学位论文 1 1选题背景及研究意义 第一章绪论 随着电力企业信息化的发展,不同供电企业都建立了各自的管理信息系统,在 实际应用中积累了大量的数据,然而目前这些数据并没有被充分利用。例如,目前 上级供电企业不能随意灵活地查询各下级供电企业数据源中的详细数据。如何有效 利用不同企业异构数据源中的大量数据,即如何从海量的电力企业信息中快速而灵 活地查询所关心的数据信息,仍然是一个需要深入研究的课题。 变电设备的健康状态直接影响着电网的安全与稳定运行,及时全面地掌握设备 信息,准确评价设备的健康状况,并以此制定状态维修策略,既保证了设备的健康 运行,又对电网的安全稳定运行有积极的影响。目前,地市级供电企业主要变电设 备如2 2 0 k v 变电站主变设备的状态数据及状态评估结果需报省公司备案;对于 5 0 0 k v 主变则需要省公司确定评估意见和检修策略。上级管理部门一方面有必要掌 握其所辖的所有重要设备的整体健康状况,以利于设备的统一维护;另一方面,也 有必要了解存储于各下级供电公司的设备详尽的信息,尤其是当设备处于不良状态 时;负责设备维护的部门需要了解同一家族其它设备的试验数据及家族质量缺陷史 以辅助决策某台设备的检修,同一家族的其它设备信息可能位于不同供电企业的数 据库或文件中。因此,如何对不同供电企业的设备信息进行随意而灵活的查询是值 得研究解决的一个问题。 x m l 具有自描述、灵活的数据结构及丰富的数据表示能力且是w 3 c 推荐的标 准语言,用x m l 文档表示供电企业变电设备数据库数据,使数据不仅是平台无关 的,而且是厂商无关的。利用搜索引擎技术对分布在i n t o m e t 上的x m l 文档进行随 意检索。国际电工委员会i e ct c 5 7 提出的电力系统c i m 推动了电力应用系统的标 准化建设,使得电力应用信息的共享有了公共参考的模型。在c i m 标准基础上补充 变电设备信息的x m l 数据规范,可以提高x m l 搜索引擎的检索精度。在上述背景 下,本文对x m l 检索技术及其应用进行深入研究具有重要理论意义和实际应用价 值。 在设备状态综合评估中,家族质量缺陷史对设备当前状态的评估有重要影响。 目前对家族质量缺陷史的影响主要采用了评分方法,但其评分方法并不能客观反映 家族质量缺陷史对要评估设备状态的影响。从各个不同电力企业数据中检索属于同 一家族的大量设备的状态信息,挖掘其状态变化规律,对设备状态综合评估有重要 作用。变压器是电力部门的重要变电设备,目前,电力变压器状态的综合评估越来 第一章绪论 越受到关注,其中家族变压器的状态变化规律的研究目前未见相关报道。基于x m l 检索技术查询家族变压器的大量实验数据,并进行聚类分析,研究同家族变压器所 具有的状态变化规律,对变压器状态综合评估、故障预测、制定检修计划的研究具 有重要意义。 1 2x m l 技术与c i m 标准研究现状 x m l i 】是w 3 c 研究小组于1 9 9 8 年2 月推出的一个s g m l 的子集,该子集在保 持s g m l 功能强大的主要优点的同时,又继承了h t m l 的简单性。x m l 是一种元 标记语言,可以用来定义其他的标记语言,并且这种标记语言的元素标记是由用户 自己定义的。x m l 的另外一个重要特点是将文档内容和显示样式分隔开来,文档中 的标记是用来描述x m l 数据元素的含义,而不是描述其如何显示,因此x m l 是一 种自描述的数据。x m l 数据的优点在于: ( 1 ) 能应用于i n t e m e t 上的数据交换,由于i n t e r n e t 上存在各种格式的 数据,既有结构化数据,也有无结构文本,还有如音频和视频那样的流数据,x m l 数据的出现使得可以实现各种格式数据之间的无缝交换,因为其具有数据自描述性 和丰富的数据表达能力。 ( 2 ) 能实现更有意义、更准确的搜索,x m l 数据的自我数据描述能力使得搜 索能够依靠标记和内容之间的依存关系实现更加准确的定位,真正从根本上解决了 当前w w w 信息搜索的问题。 ( 3 ) 能实现异构异质系统间的通信,传统的结构化数据库难以适应多系 统间异构数据的融合,而x m l 数据由于其自描述性能很好地适应这种数据集成的 需要,为未来电子商务的发展创造了良好的软件条件。 x m l 文档一般由四个部分组成:x m l 声明,处理指令,x m l 元素和注释。其 中x m l 声明和x m l 元素是必须的,而处理指令和注释则是可选内容。x m l 声明 用于声明该文档是一个x m l 文档;处理指令是包含在x m l 文档中的一些命令性语 句,目的是告诉x m l 处理一些信息或执行一定的动作;x m l 元素是x m l 文件内 容的基本单元,一个元素包含一个起始标记、一个结束标记以及标记之间的数据内 容,元素里还可以再嵌套元素,实现循环嵌套,最外层的元素称为根元素,一个x m l 文档只能有一个根元素;注释是x m l 文件中用作解释的字符数据,x m l 处理器不 对它们进行任何处理。 x m l 是一种语法要求比较严格的标记语言,结构良好( w e l l f o r m e d ) 的x m l 文 档指满足所有语法限制的x m l 文档。如果一个x m l 文档满足以下要求,则称其为 一个结构良好的x m l 文档: 2 华北电力大学博+ 学位论文 ( 1 ) 文档的开始必须是x m l 声明。 ( 2 ) 含有数据的元素必须有起始标记和结束标记。 ( 3 ) 不含数据并且仅使用一个标记的元素必须以 结束。 ( 4 ) 文档只能包含_ 个能够包含全部其他元素的元素,即根元素必须唯一。 ( 5 ) 元素只能嵌套不能重叠。 ( 6 ) 属性值必须加引号。 ( 7 ) 字符 和& 只能用于起始标记和实体引用。 ( 8 ) 出现的实体引用只有& a m p 、 & l t 、 & g t 、 & a p o s 和& q u o t o 。 下面是一个结构良好的x m l 文档例子: 数据库系统及应用 李丽 由于x m l 具有自描述、灵活的数据结构及丰富的数据表示能力且是w 3 c 推荐 的标准语言,现已被广泛应用到i n t e r n e t 智能信息检索、电子商务中的数据表示、 数据集成等。目前,x m l 在多个应用领域都有了相关的行业标准,例如,电子商务 中的e b x m l 、数学领域的标记语言m a t h m l 、化学领域的标记语言c m l 、金融行 业的x b r l 、描述图形的s v g 、描述地理信息的g m l 等。 国内外将x m l 用于电力行业的应用研究主要有: ; ( 1 ) x m l 作为数据通信载体与简单对象访问协议( s o a p ) 、w e b 服务技术结合实 现信息集成,如文献 2 】 3 】研究了基于w e b 服务的电力信息系统集成方案;文献 4 】 将x m lw e b 服务技术应用于电力市场数据申报系统;文献 5 】给出了使用x m l 及 s o a p 实现变电站综合信息管理系统中数据通信的总体框架,可以使变电站完成与 其它企业的跨防火墙数据通信;文献 6 针对能量管理系统( e m s ) 和电力市场,分别 设计了c o r b a + x m l 和电能交易自动化应用方案,显示出x m l 作为电力系统数 据载体的优越性。 第一章绪论 ( 2 ) 基于c i m x m l 的数据交换的研究,如基于c i m x m l 的数据交换技术实现 能量管理系统数据的交换与共享【7 】【8 j 1 9 】【10 1 ,将x m l 用于电力企业资产管理应用中 数据的表示,以实现资产数据在不同应用之间的数据交换与共享【】,用x m l 表示 异构电能质量数据以实现基于i n t e m e t 的电能质量信息交换与共享【1 2 】,将x m l 用于 电力市场多个异构数据的统一和标准化,以实现在线交易的数据交换与共享【1 3 】。 ( 3 ) x m l 在变电站自动化系统中的应用主要包括两个方面【1 4 】,一是作为变电站 配置描述语言的基础用于系统的静态配置。x m l 用以编写变电站自动化系统的静态 配置文档,并作为信息交换格式实现设备间的互操作。二是用于通过w c b 进行的非 实时数据通信,x m l 与h t t p 配合使用实现w e b i 上的变电站自动化系统非实时数 据通信。 ( 4 ) 文献【1 5 】介绍了面向设备的x m l 描述方法以及用x m l 描述电力系统信息 的方法。其中设备信息包括名称、状态量、模拟量等。 国际电工技术委员会i e c 定义的两个系列标准i e c 6 1 9 7 0 和i e c 6 1 9 6 8 分别描述 了能量管理系统和配电管理系统的应用程序接口。两个系列标准共同定义了一种电 力系统公共信息模型c i m 。公共信息模型c i m 是电力企业应用集成的重要工具,它 包括公用类、属性、关系等,这些类、属性、关系等是一个抽象的模型,它是逻辑 数据结构的灵魂,可定义信息交换模型。c i m 提供了一个可理解的电力系统逻辑视 图,包括e m s 所需要的信息。c i m 还可以被广泛的用于不同的应用程序中,这个 标准可以被看作一个系统集成的工具,可以运用于任何涉及到电力系统模型的系统 集成中去,以此来促进应用程序间的互操作性和兼容性。 目前,c i m 标准的应用研究主要有基于c i m x m l 的能量管理系统数据导入导 出的研究【7 】【8 儿娅10 1 ,面向c i m 的数据库设计【8 】【1 7 】【1 6 1 1 引,在配电管理系统【1 9 1 、电网 故障信息主站系统的应用研究【2 0 j :及对c i m 标准在不同应用中的扩展研究,如在电 力设备故障诊断与维护管理系统中对c i m i 标准的扩展应用研究【2 2 】1 2 1 1 ,在配电系统 中对c i m 标准的扩展应用研究p j 等。 本文将x m l 技术用于不同供电企业变电设备信息的表示,在c i m 标准基础上 定义变电设备信息的x m l 数据规范,为实现不同供电企业变电设备信息的随意而 灵活的查询提供基础。 1 3 x m l 搜索引擎研究现状 1 3 1x m l 搜索引擎 传统的基于关键词的搜索引擎能够在w e b 环境下完成对超文本标记语言 ( h t m l ) 文档的检索,搜索引擎主要由三部分构成:r o b o t 、索引器和搜索器。其基 4 华北电力大学博士学位论文 本思想是:使用r o b o t 遍历w e b ,将w e b 上分布的信息下载到本地文档库;然后对文 档内容进行自动分析并建立索引,添加到例排索引库;对于用户提出的检索请求, 搜索引擎通过检查索引库找出匹配的文档( 链接) ,返回用户 2 4 1 。 随着x m l 文档的大量涌现,必须对传统搜索引擎进行扩充和修改以支持对 x m l 文档的检索,在不丢失文档中结构信息的情况下,充分利用x m l 标签所带来 的上下文信息,提高检索的准确性和检索效率。 基于x m l 的搜索引擎有两种信息检索单位 2 s 】:一种是以文档为检索单位,另 一种是以文档中被标注元素为检索单位。前一种方法把整个文档看作一个整体,返 回结果是符合查询条件的文档集。而后一种方法主要是以文档中被标注的元素为单 元,返回的结果是从文档中抽取出来的数据。 x m l 搜索引擎包括四个功能模块【2 5 】:采集器、x m l 文档解析器、索引器以及 查询器。采集器从i n t e r n e t 抓取x m l 文档。它和w e b 站点的w e b 服务器通过h t t p 协议进行交互,从w e b 站点下载x m l 文档。x m l 文档解析器把x m l 文档中的词 以及对应的上下文标签抽取出来。索引器的功能就是对采集到的数据建立索引,加 快对用户检索要求的响应速度。查询器设计检索算法,完成最终的检索功能,获得 检索信息。 近年来,针对x m l 文档信息检索的研究主要包括两大类,即基于改进的向量 空间检索方法和基于扩展x m l 文档查询语言的检索方法。 1 3 1 1 基于改进的向量空间检索方法 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) t 2 6 】是由s a l t o n 等人在六十年代末到七 十年代初期提出并发展起来的一种信息检索模型。在该模型中,查询和文档都被看 成是由若干特征词组成的向量。所有的文档集构成了一个向量空间,每一个文档都 被看成向量空间中的一个点,也就是由若干特征词描述的向量。文档与查询的相似 性闯题被描述成向量空间中的两个向量之间的相似度。该模型将所有的文档用向量 来表示,也就是将搜索到的文档材料进行特征项抽取,形成特征向量,而当用户查 询时,则针对特定的查询向量,比较它与所有文档的相似度,并按相似度大小将文 档排序后提交给用户。向量空间模型使用的一些术语如下: ( 1 ) 文档d ( d o c u m e n t ) :泛指各种机器可读的记录,通常指篇文章。 ( 2 ) 特征项t ( t e r m ) :也称为索引项,是指出现在文档d 中而且能够代表该文档 内容特征的基本语言单位,主要由单个的词或者短语来构成,这些基本语言单位统 称为特征项,于是文献和查询均可用特征项构成的向量来表示咖( f ,t 2 ,厶) 。 ( 3 ) 特征项权重w i k ( t e r mw e i g h t ) :对于有n 个不同的特征项的向量空间,文档 出( f ? ,t z ,岛) ,特征项t k ( 1 七n ) 常常被赋予一个数值形女,表示它在文献中的 第一章绪论 重要程度,称为项“的权重。因此,一般用出( ,2 ,。) 的形式表示文档。也 就是指特征项“代表文档西的能力大小。i 的计算通常采用特征项频率娠和逆文 档频率i d a 计算: 孵尸斫t i d a = t a t ( 1 0 9 2 ( n n , ) + 1 )( 1 - 1 ) 其中,娠表示特征项“在文档盔中出现的频率,代表文档集合中的文档数, n k 代表在文档集合中出现特征项“的文档数目。t f ( t e r mf r e q u e n c y ) 描述特征项t 代表 文档d 的能力,若一个特征词在某个文档中出现的次数越多,则该特征词越能代表 该文档;i a f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 描述特征词区分不同的文档能力的大小, 在一个文档集合中,若出现特征词的文档数目越小,则该特征词越能区分该文档集 中不同的文档。i a y t f 能够有效地表达特征项t 在文档d 中的重要性。 ( 4 ) 向量空间模型( v s m ) - 设文档集合中共有加个不同的特征项t ,幻, 分别计算文档d i ( i = l ,n ) 的特征项t l ,t z ,t m 的特征项权重,由这些特征项权 重值所构成的向量( 形j ,既,形脚) 成为文档西的向量。 由于特征项t ,t z ,互不相同,可以将文档向量看作是m 维欧氏空间的 向量。文档与查询之间的相似程度通过向量的形式转化为向量之间的数学计算模 式,使得在进行文档查询匹配过程中的计算过程比较简单、快速。 ( 5 ) 查询( q u e r y ) :是用户信息需求的描述形式,q = ( t t ,幻,“) 。用户查询向量特 征词的权重由用户根据自己的兴趣偏好给定。 ( 6 ) 相似度( s i m i l a r i t y ) :文档d 和查询g 的内容之间的相关程度通常用相似度来 表示。在向量空间模型中,借助于向量的点积来计算文档和查询之间的相似度,即 s i m ( 正虿) ) 可虿 ( 1 2 ) 通常用向量之间夹角的余弦来计算。设文档西和哩,向量表示是:妒( 形,彤2 , 职坍) ,q r ( 砀,形历) ,则夹角余弦公式如公式( 1 3 ) - s i m ( d i ,哂) = c o so = 啊 w 雎w 且 上 l ( 1 - 3 ) 为了能够在向量空间模型的基础上充分利用x m l 文档的结构和语义信息,文献 2 7 1 提出了一种在向量空间模型中自动界定信息单元的检索方法,根据具体的查询 条件动态地调整信息单元的粒度,确定适于检索条件的信息单元,从而有效地减少 检索计算量,提高整个检索系统的运行效率。但是在计算检索单元与查询向量之间 的相似度时用传统的向量空间模型,并未考虑检索单元的结构语义,从而影响了查 6 华北电力人学博+ 学何论文 准率。 文献【2 8 1 提出了将x m l 路径语言( x p a t h 语言) 与传统的向量空间模型相结合, 基于简单x p a t h 路径的向量检索算法来实现对x m l 文档的检索。对于x m l 文档树 中的每一个叶子节点( 元素内容中的每一个特征词) ,都有一条从根节点或者是从其 祖先出发到包含它的元素节点的一条路径,因此x m l 文档可以看成是由一组带路 径的特征词构成的向量,从而将x m l 文档与用户查询的匹配问题转换为向量空间 中的两个向量匹配问题。文献 2 8 】引入逻辑文档的概念【2 9 1 ,逻辑文档的范围在查询 时由用户给定。查询是由带路径的特征词组成的向量,其中所有路径都有相同的起 始节点,称为查询的起始根节点,查询时,所有类型为查询起始根节点的逻辑文档 都是检索对象集,并给出了逻辑文档与查询的相似性定义。文献 2 8 】的检索算法需 要用户熟悉x p a t h 语法,能够输入准确的x m l 结构信息。 文献 3 0 提出了部分匹配模式的x m l 文本文档向量检索模型,给出了x m l 文 本文档树以及子文档树的向量表示和查询以及子查询的向量表示,并由此提出了查 询中的祖先一后代关系映射到文档中的祖先一后代关系的部分匹配模式的检索方式, 给出了基于此匹配处理过程的相似度计算,以判断文档与查询的相关程度。但在提 交查询中出现错误( 或不存在) 的结构信息时,文献 3 0 】检索的查准率比不使用结构信 息时更差。另外,检索模型中的检索语言没有考虑布尔运算,使语义表达能力过于 单薄。 文献 3 l 】针对x m l 文档的内容检索通过基于向量空间模型的内容检索试验系 统来完成,而x m l 文档的结构信息则通过特定编码,以关系表的方式进行索引, 从而实现x m l 结构检索。 3 1 的内容检索和结构检索是两个不同的系统,并未实现 两者的结合。 1 3 1 2 基于扩展x l v i l 文档查询语言的检索方法 近年来,为了查询x m l 数据,人们提出了许多面向x m l 数据的查询语言,如 x p a t h ( 3 2 】、l o r e l 3 3 、x m l q l 3 4 l 、x m l g l 3 5 】、x q l 3 6 】、x s l t 3 7 】、q u i l t ( 3 s 】, x q u e r y ( 3 9 垒亭。其中,x p a t h 是种专门用来在x m l 文档中查找信息的路径描述语 言;l o r e l 是斯坦福大学s a b i t e b o u l 等人设计实现的一种面向半结构化数据的查询 语言,后来又增加了对x m l 的支持。它结合了s q l o q l 的许多特征,能处理灵活 多变的数据类型,并可以处理复杂的路径表达,适用于半结构化数据的数据模式预 先不可知的情况。l o r e l 可以看作是所有后续出现的半结构化数据查询语言的祖先。 x m l ,q l 由a t & t 实验室的t d e u t s c h 等人在完成s t r u d e l 项目时提出。 x m l q l 扩展了s q l ,增加了c o n s t r u c t 语法,用于从查询的返回结果构造结 果x m l 文件,并采用元素模式来匹配x m l 数据,这种元素模式本身也符合x m l 第一章绪论 语法。x m l q l 既可以用于查询,也可以用于数据格式转换,因此可以完成不同 x m l 数据源的集成。 x m l g l 是面向x m l 的一种界面图形化的查询语言,由p o l i t e c n i c od i m i l a n o 的s c e r i 等人提出。它用一个有向标记图表示图型的x m l 数据。x m l g l 的所有 元素都是可视化的,是一种用户界面友好的查询语言。 x s l t ( e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n ) 是由w 3 c 的x s l t 项目小 组设计的。它的设计基础是x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 。x s l t 使用x p a t h 完成x m l 数据元素的获取,处理以及结果文件的形成。 x q l 是一种用于查询和过滤x m l 数据的语言。它可以看作是x s l t 模板语法 的一个自然扩展,目的是为了简化使用,甚至可以嵌入u r l 中完成x m l 数据的定 位,但其表达能力较弱。 q u i l t 是较新提出的一个面向x m l 的查询语言,它集成了己有的多种语言的特 点,例如x p a t h 和x q l 中的遍历层次结构数据的语法,x m l q l 中的变量绑定, s q l 中子句的定义,以及o q l 中函数的定义等。它的设计目的是实现最强的查询 表达能力,能最大限度地结合x m l 的特点,以及完成不同的数据源之间的集成。 x q u e r y 是由w 3 c 组织提出的一种最新x m l 查询语言标准,它的前身即是 q u i l t ,并吸收了多种己有的x m l 查询语言的优点,己成为现在公认的x m l 查询语 言标准。 上述x m l 查询语言如x p a t h 、x m l q l 或x q u e r y 适用于具有相同模式的x m l 文档集的查询,根据查询语句的不同返回的结果可以是x m l 元素子集或整个文档。 但这些查询语言实现的是精确查询,不支持检索结果排序、传统的关键词查询以及 异构数据源的查询,并不适合于在w e b 这样的开放式环境下或是在大型企业的 i n t r a n e t s 环境下检索信息【删。为此,一些研究致力于对x m l 查询语言进行扩展, 使其适用于上述环境下的x m l 检索。文献【4 0 】设计了x x l 查询语言及相应的检索 方法,通过在x m l q l 中加入相似比较操作来提供非精确匹配,计算文档与查询的 相关程度。文献【4 1 】根据x m l 数据存在的形式将x m l 数据分为两种:富含值信息 ( d a t a r i c h ) 的x m l 数据和富含文本信息( t e x t r i c h ) 的x m l 数据。并对x q u e r y 扩展形 成了i r x q u e r y 查询语言,对基于富含文本信息和值信息的x m l 数据进行查询。 用户需要输入的查询信息包括两部分,一是结构匹配条件,二是查询关键字。文献 【4 2 1 也是通过在x m l q l 中加入文本相似操作符而提出了丰富表达能力的x m l 查 询语言e l i x i r 。 这种方法的局限性在于最终用户需要非常熟悉查询语言的语法,对x m l 文档 结构有全面彻底的了解。 8 华北电力人学博十学位论文 1 3 2x m l 索引结构 依靠简单地对源数据的遍历完成对x m l 的查询是不可行的,因为这样会耗费 大量的时间。若要实现高效的查询,必须建立索引来支持查询的实现。近年来,x m l 索引方法的研究主要包括: 文献 2 5 】认为在对x m l 这种半结构化的文档数据建立索引时,就要保存更多的 信息,否则在源x m i 文档中的信息就会丢失。需要保存的信息包括出现在两个标 签中的文档词项的信息;标签中的词项信息;文档中标签的嵌套层次信息。索 引表有两个,其中索引表l 存放的是每一个文档中的标签信息。索引表2 采用倒排 表结构,按字母序顺序存放关键词。文献 2 5 】的索引结构由于考虑了x m l 文档的结 构信息,充分利用x m l 的标签所带来的上下文信息,比普通的w e b 搜索引擎能够 大幅度提高查询的准确率。但该索引方法只适合于以文档为检索单位的x m l 搜索 引擎。 文献 4 3 1 认为在传统的信息检索中,词汇索引( t e r mi n d e x ) 是一个三元组 ,t e r m 为关键词,d o c u m e n t i d 为所属文档编号,f r e q u e n c y 为词频。但在x m l 文档中,基于节点元素文本内容的索引需要增加结构信息,因 此x m l 文档的词汇索引为 ,其中,p o s i t i o n 是结构信息, 并以x m l 文献类文档为例,给出p o s i t i o n 的结构组成。其建立索引的过程包括: 从文档树中的所有节点( 包括叶节点和非叶节点) 中抽取索引词条,抽取索引词的 标准是根据该词汇的权重大小;对从不同节点中重复的索引词条进行相应的处 理;建立倒排文档。但是,该索引结构只适用于x m l 文献的检索,不能通用于 一般x m l 文档的检索,且只适合于以文档为检索单位的x m l 搜索引擎。 s i g n a t u r e 技术广泛用于全文检索中,它的核心思想是用h a s h 函数对文档块中 的每个字或词进行处理,产生的h a s h 值就是这个词的s i g n a t u r e 。文献 4 4 对x m l 树模型进行了改造,提出了改进的基于s i g n a t u r e 的索引策略( s d o m ) ,采用该策略 预处理x m l 文档可以大大缩小搜索范围。文献 4 4 由于采用了s - d o m 技术,需要 增加计算s i g n a t u r e 及h a s h 值的时间和增加额外的存储空间,而且该索引方法的使 用效率和具体的文档结构及查询类型有很大关系。此外,该索引方法只适合于以文 档为检索单位的x m l 搜索引擎。 文献 4 5 】提出了适用于电子产品目录这一特定x m l 数据的索引结构,包括 c a t e g o r y i n d e x 、p a t hi n d e x 、v a l u ei n d e x 、p r o d u c ti n d e x 四部分,基于该索引结构使 用x p a t h 检索数据,大大提高了检索效率。但该索引结构并不是通用的索引结构。 文献 4 6 】将当前x m l 索引的研究重点划分为基于路径记录和结构索引和基于 树节点编码两种思想。基于树节点编码思想的索引结构通过对x m l 文档树节点采 9 第一章绪论 用不同编码方案来快速判断两个节点是否存在前后代关系。目前,主要有以下几种 节点编码方案1 47 j : ( 1 ) 祖先后代码 祖先后代码将x m l 文档树中节点间的祖先后代关系进行编码。节点的标识是 ( p r e ,p o s t ) 对,p r e 是节点的前序值,p o s t 是节点的后序值。在这种标号方法下,如 果节点x 是节点y 的祖先,当且仅当x 的前序遍历序号小于y 的前序遍历序号,且 x 的后序遍历序号大于y 的后序遍历序号。当文档结构变化时,节点的标识要重新 计算,所需花销较大。 ( 2 ) 间隔编码 同祖先后代码相似,间隔编码方案的每个节点t 扫( p r e ,s i i e ) 来标识,p r e 是节点 的前序值,s i z e 指明以n 为根节点的子树所占用的节点编码的多少。尽管间隔码与 祖先后代码相似包括两个部分,但是在数据库更新特别是插入时,间隔编码只需要 较少的重新计算量,节点间隔的大小仅在插入节点的祖先节点改变。 ( 3 ) 虚拟节点编码 与前两种节点标识方法表示祖先后代关系时采用深度优先编码方式不同,虚节 点码采用广度优先的编码方式。该编码方式也仅适用于树型结构。其思想是将文档 树看作是一棵m 阶完全树。所有的非叶子节点都有m 个子节点,所有的叶子节点 都在同一层上,对于没有m 个子节点的部分用虚节点来代替。与前面提到的间隔编 码相似,虚节点码编码模式支持一定程度的插入增量更新。 ( 4 ) 兄弟数编码 基于兄弟数编码的节点编码方法如下:从根节点开始,对路径上的每一节点, 相同类型的兄弟节点被计算。具有同一个路径标识的父节点的子节点由兄弟数来区 分。对于文档树的更新,兄弟数编码比先前几种编码更灵活,因为在插入时,仅被 插入节点的父节点的兄弟数要重新计算。支持增量更新。 基于路径记录和结构索引思想的有斯坦福大学的d a t a g u i d e 索引及其后续研究 工作如:a ( k ) i n d e x 、d ( k ) i n d e x 、a p e x 、i n d e xf a b r i c 、t o x i n 、s p h i n x 等。其优 点是对于一些简单路径表达式( 从根节点出发的路径表达式) 可以在最短的时间内完 成查询,因为其目标节点集可以从索引中直接得到。但仅仅基于路径记录和结构索 引的方法设计x m l 索引,不具备迅速判断x m l 文档中任意两个节点的前后代路径 关系的实现机制,需要遍历大量与查询不相关的节点。文献 4 0 】采用了3 个索引表: 元素路径索弓i ( e p i ) ,元素内容索引( e c i ) ,本体索引( o d 。e p i 与d a t a g u i d e 索引的 结构相似,但e p l 仅保存长度为2 的路径,e c i 对所有元素内容和属性中的词进行 索引,e c i 与w e b 搜索引擎中的标准的文本索引类似,不同之处在于索引单位和计 i o 华北电力人学博十学位论文 算t f x i d f 的单位是元素而不是整个文档。本体索引包括所有元素名称,用来提高检 索效率。 x i s s 是基于节点编码的x m l 索引。x i s s 采用间隔编码方式对x m l 文档树节 点进行了编码,通过节点编码来迅速判断节点间的前后代关系。x i s s 索引主要分为 五部分:名称索引( n a m ei n d e x ) ,元素索引( e l e m e n ti n d e x ) ,属性索引( a t t r i b u t ei n d e x ) , 结构索引( s t r u c t u r ei n d e x ) ,值表( v a l u et a b l e ) 。其中,结构索引记录节点间的路径、 兄弟长幼关系。通过元素索引或属性索引来判断两个节点是否存在前后代关系后, x i s s 可以通过结构索引来查找节点间的路径,所以,x i s s 索引兼备路径记录和结 构索引、树节点编码两个特点【4 6 1 。 基于节点编码的x m l 索引其缺点是对一些较长或目标节点集( 包括中间结果节 点集) 较大的路径表达式的查询执行效率较低,因为其对路径表达式中的每一步都得 通过连接完成,而连接的执行效率是较低的。 文献【4 6 】提出了基于互关联后继树的x m l 文档索引技术和x m l 文档树节点叶 序区间动态编码方案。基于叶序区间编码方法与互关联后继树模型为节点带有名称 ( 标签) 的根树建立索引模型,并证明了其有效性。 文献 4 8 】将关系数据库中b + 树索引技术与s p a r s en u m b e r i n gs c h e m a 相结合, 提出了一种新的x m l 文件索引结构一b + 树结构索引,它对x m l 查询中连接操作和 元素定位操作的优化有着重要作用。进而,通过引入指针对该索引进行改进,提出 了一种带有s i b l i n gp o i n t e r 的b + 树结构索引( 简称b + s p ) 。利用这种索引可以克服 元素查找总是从树的根部开始进行的缺陷,提高其在连接算法中的查询效果。 文献 4 9 】研究了对x m l 文档进行内容索引和结构索引的方法,结构索引技术采 用了祖先后代编码方案。基于x p a t h 实现结构和内容的检索。 基于路径记录和结构索引及基于树节点编码的索引技术属于通用的x m l 索引 技术,适合于以文档被标注元素为检索单位的x m l 信息检索,一般采用x m l 查询 语言或扩展的x m l 查询语言得到精确查询结果。 上述研究中存在的问题: 综上所述,目前x m l 信息检索方法及索引结构存在以下问题: ( 1 ) 用于x m l 文档的查询语言x q u e r y 适用于具有相同模式的x m l 文档集的 查询,不支持检索结果排序、传统的关键词查询以及异构数据源的查询,并不适合 于在w e b 这样的开放式环境下或是在大型企业的i n t r a n e t s 环境下检索信息【4 0 1 ,而 且由于其语法复杂、查询速度慢、查询时需要知道文档的结构来构造一个查询语句 【5 0 】,因此不适用于x m l 搜索引擎。 ( 2 ) 基于改进的向量空间检索方法没有从根本上考虑x m l 文档结构信息,从而 第一章绪论 影响了查准率。这类方法中多以文档为检索单位,对于需要精确查找到x m l 文档 部分片段的应用场合,该方法并不适合。 ( 3 ) 基于扩展x m l 文档查询语言的检索方法提高了查准率,但用户需要熟悉 x m l 结构知识租扩展x m l 文档查询语言的语法,在输入查询信息时需要按照查询 语言的语法输入x m l 文档结构信息和关键词。而普通用户往往不知道x m l 文档的 结构( 路径) 信息,因此这类方法并不适用于普通用户的检索要求。 ( 4 ) 同一x m l 文档中不同的标签可能表示相似的概念,更为复杂的是异构的 x m l 文档中不同标签可能表示相似的概念,这些都影响着x m l 搜索引擎的查全率 和查准率。 对于问题( 4 ) ,一些学者致力于对w 曲本体技术( o n t o l o g y ) 、o w l 本体描述语 言的研究以实现x m l 语义检索,如文献 4 0 1 1 5 3 弓i 入本体技术,建立了本体索引表 来提高检索的效率( 查全率和查准率) ;文献 5 1 】使用本体定义了全局模式以实现 x m l 数据源的集成与查询;【5 2 】提出了一个x m l h o o ! 系统,该系统通过定义文档 领域的本体及推理实现对用户查询问题的回答。 5 4 1 提出了智能x m l 检索系统应包 括语义检索、个性化服务、用户频繁检索模式挖掘等内容,其中语义检索有一个领 域知识库,能够提供语义相关的返回结果,还可以对查询扩展以满足用户的需要; 个性化服务包括利用用户反馈信息为用户提供查询推荐等。 在电力系统中对分布式异构数据源及不同企业变电设备信息的检索问题,属于 基于w w w 的分布式企业信息检索,由于分布式企业信息检索主要是针对分布式企 业成员信息的搜索,因此涉及的搜索对象基本上是以企业成员为目标,虽然会有部 分变化,但也是预知的,因此搜索范围是确定的,但搜索结果要求比普通搜索引擎 有更准确的信息【55 1 。此外,表示电力企业异构数据源的x m l 文档属于富含文本和 值两种信息的x m l 数据,x m l 信息检索应是基于普通用户的,需要提供类似 “k e y w o r d s b a s e d 的简单检索模式,因此,基于扩展x m l 文档查询语言的检索方 法不适用于基于w w w 的分布式企业信息检索应用领域。x m l 信息检索返回给用 户的查询结果应该是x m l 文档部分片段,应以文档被标注元素为检索单位而不是 以文档为检索单位。 对于问题( 4 ) ,本文基于c i m 标准定义一个变电设备信息的x m l 数据规范,使 不同供电企业异构的变电设备信息数据库数据在转换为x m l 文档时遵循x m l 数据 规范,使变电设备信息x m l 文档有统一的语义。 根据本文研究的具体对象,需要提供一种适合于普通用户使用的,提供类似 “k e y w o r d s b a s e d 的简单检索模式,有更精确的检索结果的x m l 检索方法。文献 5 0 提出了一种基于关键词的适用于普通用户检索要求的x m l 语义搜索技术。为检 1 2 华北电力人学博十学位论文 索出符合用户查询请求的语义相关的x m l 文档片段, 5 0 定义了两个x m l 结点相 连关系及多个结点间语义相关的概念,提出了适合于其语义检索的索引结构。搜索 引擎首先在索引文件中查找与各查询关键词匹配的x m l 结点,然后判断这些结点 问是否满足语义相关的条件,如果满足则为检索结果。文献i s 6 用遗传算法加快了 语义相关元素的抽取和索引的建立。文献【5 7 】利用用户的相关反馈以提高基于关键 词检索系统的检索质量。与传统的基于关键词的检索相比,利用x m l 结构隐藏的 语义进行x m l 语义检索提高了检索精度,但由于要对匹配结点进行语义相关的判 断,因此x m l 语义检索的效率至关重要。针对这一点,本文深入研究了x m l 文档 结构隐藏的语义及其理论,提出一种新的索引结构,在此基础上提出新的快速的语 义搜索算法。 1 4不同供电企业变电设备信息检索研究现状 随着电力企业信息化的发展,不同供电企业都建立了各自的管理信息系统,在 实际应用中积累了大量的数据。文献【s 8 】提出基于分布式电力资源库的由a g e n t 管理 系统、共享a g e n t 、搜索引擎界面、搜索词获取机、智能搜索机和跟踪评价机组成的 搜索引擎框架,与传统w e b 搜索引擎类似,【5 8 的搜索结果是整个文件而不是文件 中的部分数据,而且对分布式电力资源库的表示形式和检索方法未作深入研究。文 献【5 9 】应用元数据理论,结合i e c 6 1 9 6 8 i e c 6 1 9 7 0 等国际标准提出配电网信息的数态 重获方案,设计了基于c i m 和企业集成总线u i b 的配电共享信息资源的搜索引擎, 以期从海量的配电网共享信息中快速而灵活地获得不同应用所需数据和状态。【5 9 】 初步研究了企业内部异构数据库的查询问题对于不同电力企业间数据源的快速而 灵活查询问题,目前还没有深入的研究。 1 5 家族变压器状态变化规律的研究 变电设备健康状态的评估是制定状态维修策略的基础。国内外已经开始研究变 电设备状态综合评估问题,文献【6 0 提出了对设备状态进行评分的解决方案,即通 过对预试项目的评分、家族质量缺陷记录的影响评分及设各自身质量事件的影响评分 得到对设备的健康状态评分,分值为0 1 0 0 分,0 分表示设备需要立即维修;1 0 0 分 则表示所有预试数据均远离注意值或与优质产品的出厂值相近,且既没有经历不良 工况,又没有家族质量缺陷史,即设备完全处于正常状态,无需维护。其他情形的 状态评分介于0 分与1 0 0 分之间。 变压器是电力部门的重要变电设备,准确评价变压器的健康状态具有重要意 义。近年来,电力变压器状态的综合评估越来越受到关注,其方法主要是通过模糊 理论【6 2 1 、灰色理论【6 3 】、物元理论【6 4 1 证据理论t 6 5 1 等方法综合分析变压器的状态数 第一章绪论 据,从而达到状态评估的目的。在变压器状态综合评估研究中,变压器家族质量缺 陷史对变压器健康状态的影响是一项重要评价指标,然而目前只是凭专家经验主观 打分【6 3 拼j 或根据文献 6 0 的评分公式给出影响值。 相同家族变压器的健康状态具有一定的变化规律,这种家族变化规律在变压器 健康状态综合评估中起着重要作用。基于信息检索技术检索同一家族变压器多年的 试验数据,计算其状态评分,由此形成状态变化曲线,利用数据挖掘中的聚类分析 方法挖掘家族变压器状态变化规律,为进一步确定其对同家族的其它变压器健康状 态的影响提供依据,这一点目前还没有相关的研究报道。 1 6聚类分析 聚类就是根据某种相似性准则将样本空间分成多个子空间,使每个子空间内部 样本点尽可能相似,不同子空间内样本点之间差异尽可能大。其实质是寻找隐藏在 数据中不同的数据模型,是一个无监督学习过程,能够实现样本空间的盲分类。 聚类的定义如下: 在数据空间彳中,数据集肛扛,工2 ,z ,而) 由许多数据点( 或数据对 象) 组成,数据点而= o f 函知砌) 彳,x i 的每个属性既可以是数值型的,也可以是 枚举型的。聚类的最终目的是把数据集x 划分为k 个分割g ( 坍= l ,2 ,幼, 有些对象可能不属于任何一个分割,这些对象就是噪声g 。所有分割与噪声的并集 就是数据集x ,各个分割之间没有交集,即 x = c lu 岛、ug u q 其中,gnc ,= 0 ( v f ) ,q f 2 j ( f = 1 , 2 ,五) 这些分割厶( m - - 1 ,2 ,助就是聚类。 聚类分析是进行数据分析的一个基本方法,在机器学习、数据挖掘、模式识别、 生物学、统计学和化学等许多领域都得到了广泛的研究和应用。典型的聚类算法主 要有划分法、层次法、基于密度的聚类、基于网格的聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论