


全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
与 开 发 6 粉 匀 现 代 计 算 机 总 第 七 十 一 期 v 巡 l 广东 商学 院计算 机 中心 广 州 5 1 0 3 摘要奉文对基 于 W e b文档 内客和 W e b文挡 蛄构 的壹询 语 言 W e b S QL 第一 代 和 W e b OQL 第二 代 从 数据 模型 的角 度对其 优缺 点加 烈分析 井 阐述 了 W e b壹询语 言对 w e b拮 息的提取 与集成 W e b 站 是的 重构 厦半 蛄构化 数据 的支持 关键词查询 We b L L L 数据 模型 引 言 www 维网 是 目前影 响最 为广泛而深远 的 全球信 息资源 网络 对 其信息 的有效 检 索与查询 是数 以千万计 的网络 用户的迫 切需 要 目前 网络 用户 从 WWW 网 中查 找感 兴趣 的 We b页或 内容 的 方法 主要依赖 于两个操作 其一是 依据 we b页之 间的链 接关系一步步地进行浏览 直 至找到所需 要 的 信 息 页 这 一 方 法 的 缺 陷 是 网 络 用 户 极 易 迷 失 方向 其二是通过索引服务器 如 Ya h o o Al t a v i s t a 进行 基于关键 词 的索引搜 索 用户必 须要 了解 这 些索引服务 器的优缺 点和查 询 用户接 口 以上两 种 方 法 最 突 出 的 问 题 是 无 法 探 索 出 文 档 网络 的 拓 朴结构关系 这两种方 法均是 基于 We b文档内容 的 因此无法 构成复 杂的搜 索要 求 如要执 行以下 查询 从 W W W z s u e d u c n出发 查找出其能 够到 达 的直至五层链接 的其 他 We b页 便是 一个 难于 完 成 的 查 询 设 计 出一 种 既能 基 于 内容进 行 查 询 又 能探 索出文档 闻的 甚至文档 内 的拓 扑结 构的查 询语言 便 很有必要 此 外 We b的应 用 不 单 纯是 信 息 的 查 询 还 会 涉及到更深层 的应 用要求 如 We b与数据库 的连 接等 对于 wWw 网的信息 管理方 面的问题主 要 反 映 在 以下 三 个 方 面 f 1 We b模型化 及 其查 询 比如 我们 可 以将 We b看作一个 有向图 图结 点代 表 We b页 图的边 代表页间的链 接 如 We b S QL语言 I I 这样 查 询 的 实 现便 既 可 以基 于 页 的 内容 也 可 以 基 于 页 闻 的 M O D E R N C O P U T E K 1 9 9 9 3 链接 结 构 2 1 信息 的提取 与集成 要进行 We b页的信 息 提取与集成 我们便应 当进 一步细分页 的粒 度 如 在 H T ML文 档 中 将 每 一个 标 志信 息 如字 体 字 型 换 行符 作为最基本 的粒 度单 位 这样便 可以 从 H T ML文 档 中 提 取 出 结 构 化 描 述 的 数 据 如 We b OQL语言 此 外 由于 we b站点是 自主而异 构 的 因此 需要通 过数 据集成系统来实 现数 据集成 的要 求 f 3 We b站 点的构造与 重构 以上 问题 的解 决 关键 在 于 要 定义 We b的数 据结构模型 然后通 过设 计 一些 J a w 类库而 构成 基于 We b的数 据查 询 重构语 言 1 半结 构化 数据 处 理 半结构 化数 据 又称作 自描述 数据 具 有 以 下 数 据 特 征 数据一般没 有独立 的结构描 述信息 模 式 信息 如文本数据 基因信息等 有些数据具有 结构 描述信 息 但 数据模式 大而橙散 甚至还 频繁 改 变 如 HT ML文本 类 的 平 文 档 数 据 数据模式是 描述性 的而 非规定性 的 只 描 述 了数 据 的当 前 状 态 语义相 同的数据其 属性值 的类型 长 度可 能 不 同 如 表 示 时 间 的 属 性 值 在 不 同 的 We b站点 上 便 会 多 种 多 样 半结构化 数据模型 一般表 示为某 种图或树 的 维普资讯 结 构 其 查 询 语 言 通 常 采 用 两种 途 径 来 研 究 一 种 是以 S Q L或 O Q L语言为基础 增加必要的机制 使其能够表 达一组查询 另一种 途径 是 以某种基于 半 结 拘化 数据 形 式 计 算 概 念 的 语 言 为基 础 将 其 语 法进 行适 当的变形 成 为一种 便于 使用 的查询 语 言 根 据 这 两 种 途 径 所 设 计 出 的 查 询 语 言 是 非 常 相 似 的 2基 于 W e b的查 询语 言 依 据 查 询 语 言 的 功 能 特 点 可 将 We b查 询 语 言分为 两代 第一代 以 We b S Q L W3 Q U 3 和 We b L o g为代 表 的 We b查 询语 言 其 基本思路是 将 基于 内容的 查 询 与 基 于 结 构 的 查 询 结 台 在 一 起 也 即 将 描 述 We b文档 内容 的 文 本 模 式 与 描 述 文 档 之 间 链 接 结 构 的图模式 结台起来 第二代 以 We b O Q L S T R U Q L 4 J F L O R I D为 代表 的 We b数 据处 理语言 这 类语言将 We b看 作 超树模型 每个 We b页是结构 化对象 结构化对象 具有两个 特性 对象包含 或不 包含 文本模式 某一 对象通 过指针 指 向另一 对象 这类 语言为 数 据 包 装 数据 交 换 和 数 据 重 构 方 面 的 应 用 提 供 了 方 便 2 1 We b查 询语 言 We b S QL We b S Q L将 We b看作关系数据库模型 主要 定 义 了 两 个 虚 关 系 D o c u me n t关 系 和 An c h o r关 系 每 个 We b页 对 应 于 D o c u me n t 关 系 的一 个 关 系 元 组 We b中 的 锚 链 对 应 A n c h o r 关 系 中 的一 个 锚 关系元组 D o c u m e n t 关 系元组记作 D o c u me n t u r l t i t l e t e x t t y p e l e n g t h mo d i f u r l 等 为元组属性 这些 属性均为字符 串 由于 u r t 属性识 别唯一的一个文 档 故 u r l 属性 可 作 为关 系 的 主码 其 余属 性可 以 是 N u l l 值 u r l 文 档 的 统 一 资 源 定 位 符 t i t l e 文 档 的标 题 内 容 t e x t 文 档 的 正 文 内容 t y p e 文档 的文件 类型 mo d i f 文 档 的最 近 修 改 日期 在 H T ML文档 中 通 过锚 标 志 的 定 义 可 为 文 档 建立超文本链 接 锚链格 式为 l a b e l C A 其中 h r e f 代表 超文本引用 它 也是 一个 U R L l a b e l 是 链 的 文 本 说 明 故 一 个 An c h o r 关 系 元 组 可 研 究 与开 发 记作 An c h o r b a s e h r e f l a b e 1 其 中 b a s e是 源 文 档 的 U R L h r e f 是 锚 链 目 的 文档 的 U R L l a b e l 是链 接说 明字符 串 U R L的结构 为 p int o c o l s e r r e r fi l e 用 对 象 来 标 识 U R L则 可 记 作 U R L p r o t o e o l e lY C e F fi l e r e f e r e n c e 由此 可 知 一 个 H T ML文 档 所 定 义 的超 文 本 链 可 以 有 以 下 三 种 可 能 内 链 h r e f s e r v e r b a s e s e r v e r及 h r c f f i l e b a s e 6 l e 本 地 链 h r e f s e r v e r b a s e s e r v e r及 h r e f fi h 一 b a s e m e 外 部链 h r e f s e r v e r h a s e s e r v e r 这 一 关 系 型 抽 象 使 得 我 们 能 够 用 类 似 丁 R D B MS中的 S Q L语言来提交查询要求 但是 由 于 Do c um e n t和 An c h o r关 系 是 虚 拟 的 而 非 交 际 存 在的 因此 不能简单套用 S Q L语言 We b S Q 通 过查 询语 句 中 的 F r o m 子 句赋 予 查询 的 具体 语 义 来 具体化 查询要求 具体化 的基本方 珐是 从 已 知 的 一 个 U R L开 始 浏 览 利 用 路 径 表 达 武 束 描述这一浏览 路径 表达式 的基本 类型如下 d l d 2 表 示 文 档 d1指 向 文 档 d 2 d 2与 d l 位 于 不 同 的服 务器 d 1 d 2 表 示 文 档 d 1指 向 文 档 d 2 d 2与 d 1 位 于 同 一 个 服 务 器 例如 假设 我们 要 从 h t t p w w w u t o l o n t o h o m e p a g e s h t ml出 发 查 找 其 链 路 下 的 We b 页 中 t e x t 属 性 内 容 包 含 有 d a t a b a s e 关 键 词 的那 些 UR L 地址 则其查询语 句可表达为 s e a e c t x u r l f r o m d o c u me n t x s I c h t h a t h t t D 护 ww wh e r e x t e x t c o n t a i n s a mh s e 语 句 的输 出结 果 如 下 I x I l t t J 0 l u L L L l r I n I 一 c 1 E 1 T lc t 一 r l 1 r 1 l L c l r lh s I E r n 1 1 c r 1 i t 1 il k o 1 s htt p L 1 0 洲 r j c L t m L L a d i 罚 b 儿 儿 f i l 1 h 一 g pJ一 re c 一 t 啦 P no r D n t 0 c a 1 1 i 1 9 9 9 3 M O D E R N C O P IJ T R 维普资讯 现 代 计 算 机 总 第 七 十 一 一 鞭 v 研 究 s开发 2 2 W e b数据 处 理 语 言 W e b OQL We b O QL基于超树 数据 模型 如图 1 所 示 超 树是有序弧树 弧分为 内弧 图 l中的实 线 和外弧 图 1中的虚线 两类 内弧用于表 示结 构化 对象 外弧用于表 示结构化 对 象间 的引用 如超链 接 弧用记录 类型来加 以表示 外 弧 比内弧多 了一个 Ur l 属 性 每 个 W出 页 对 应 于 一 棵 超 树 相 互 联 系 的超 树 集 台便 构成 了 We b 凰 1超 树模 型 We b OQ L对数据粒 度细分 到 H T ML文档 中的 标志符 We b O QL是一个 函数型 语言 但是其 查询 语 句 依然 是我 们 所熟 悉 的 S e l e c t F r o m Wh e r e格 式 例 如 图 l的 U RL为 h t t p 1w w w c i t y n e t c o r n o v e r v i e w h t m 1 现要从这个城市文 化活动网络 中订 票 t i c k e t 则 可用 以下查 询 语句 查找 出具 有 在线 订 票业 务 的 活 动 中心 d o e h t t p c i t y n e t c o rn o v e r v i e w h t ml s e l e c t Y h o m Y i n d o e w h e r e y t e x t t i c k e t 其 中 Y是超树 的简单树 Y 是 Y的子树 查询 结果如 图 2所 示 We b O Q将 一棵 超树 映射 为另一 棵超树 更一般地 We b OQ L的查 询是 将一个 we b 映 射 为另 一 个 We b的 函数 图 2 查 询 结 果 3 3 We b SQL与 We b oQL的 比较 we b 9 Q L将 We b看作 原 子对 象 的一个 图 而 We b O QL将 We b看作结 构化 对象的一 个 图 二 者 均将 网络 的浏 览和索 引两太 常用 操作方 法溶 为一 9 M O D E R N C O P U T E K 1 9 9 9 3 体 可 构成复杂 的结构 查询 但 We b O Q L对 We b 页 面的内部 结构探索得更 加细致 相 比之下 We b O QL主要具 有以下几方 面的优 点 可以访问 We b文档 的内部结构 可 以根 据返 回的查询结 果 建 立起 复杂 的 结 构 重 构 操 作 可 以 从 m 1 ML到 H T ML 从 H T ML 到 数 据库 从 数 据 库 到 HT ML 支持半结构化数据查 询 表 1 第一 代语 言与第 二代 语言 的基 本对 比 童询 焉 统 所 一代 数据模 型 语 言 类型 路 径裹选 式 t 立 结果宙 We b S Q L 第一代 关系模型 S Q L 是 否 w3 Q s 第一代 标签化围 S Q L 是 否 We b L o g 第 一代 关系模 型 D a t a L o g 否 否 We b O Q L 第二代 超树 O Q L 是 是 S T RUQ L 第 二代 标签 化囤 D a t a L o g 是 是 F L 0 R I D 第 二代 F逻 辑 D a t a L o g 是 否 3 结束 语 一 个 良 好 的 We b查 询 系 统 应 当 具 有 对 www 网中的信 息进行 集 成和 系 统重构 等数据 管 理 的功 能 第二代 We b查询 系统在这些 方面均提 供 了解 决此类 问题 的可行 方案 而对 于查询 的优 化 仍 未 得 到 很 好 的解 决 参 考文 献 1 G u s t a v o O A o c e l l a A l b e r to O Me n d e l z n a n d G e o r g e A M i h a i l a Ap l l i c 0 n o f s t W q u e r yl a n g ua g e I n P r o c e e d i ng s o f t h e l n t e m a t i o n a l W W W Co n f e ren c e Ap r i l 1 9 9 7 2 G u s t a v o A r o cei 1a a n d A l b e r t o Me n d e l 2 o n We b O QL R e s t r u c t u rin g d o c u me n t s d a t a b a s e s a n d W e b s I n P r o c o f t h e I n t C o r r f o n D a t a E n g the e r l n g D 耳O r l a n d o F l o ri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45824-2025废旧农业机械回收体系建设规范
- 2025年中国可伸缩乒乓球网行业市场全景分析及前景机遇研判报告
- 2024-2025学年吉林省通化市梅河口五中高二下学期4月月考政治试题及答案
- 中国橡胶和塑料制品行业调查测报告
- 2025年中国电脑充电器行业市场发展现状及投资战略咨询报告
- 2025-2031年中国家用机器人行业市场需求预测及投资战略规划报告
- 中国商业收款机行业市场调查研究及投资前景展望报告
- 男士发型培训课件
- 中国水晶灯工程市场竞争格局及投资战略规划报告
- 2025-2030年中国液冷数据中心行业市场全景调研及未来趋势研判报告
- 常州大学《工程热力学》2022-2023学年第一学期期末试卷
- 新能源行业光伏发电技术操作指南
- 全国托育职业技能竞赛(保育师赛项)选拔赛考试题及答案
- 金字塔原理完整版-课件
- 全国大学生数学建模大赛D题(会议筹备优化模型)
- 中考物理考前指导最后一课
- 盐酸罂粟碱在疼痛治疗中的应用
- 中国近代史纲要-期末考试复习重点
- 企业法务概论智慧树知到期末考试答案2024年
- (高清版)DZT 0331-2020 地热资源评价方法及估算规程
- GB/T 7939.1-2024液压传动连接试验方法第1部分:管接头
评论
0/150
提交评论