【毕业学位论文】(Word原稿)网络资源的名字特征及其在资源组织中的应用研究-计算机系统结构网络与分布式系统博士论文_第1页
【毕业学位论文】(Word原稿)网络资源的名字特征及其在资源组织中的应用研究-计算机系统结构网络与分布式系统博士论文_第2页
【毕业学位论文】(Word原稿)网络资源的名字特征及其在资源组织中的应用研究-计算机系统结构网络与分布式系统博士论文_第3页
【毕业学位论文】(Word原稿)网络资源的名字特征及其在资源组织中的应用研究-计算机系统结构网络与分布式系统博士论文_第4页
【毕业学位论文】(Word原稿)网络资源的名字特征及其在资源组织中的应用研究-计算机系统结构网络与分布式系统博士论文_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博士研究生学位论文 题 目 : 网络资源的 名字特征及其在资源组织中的应用研究 姓 名: d 学 号: 10308852 d 院 系: 信息科学技术学院 d 专 业: 计算机系 统 结构 d 研究方向: 搜索引擎与 网络 信息挖掘 d 导师姓名: 李晓明教授 d 二零零八年 五 月 On in of ( i 2008 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任 。 - i - 摘 要 本文中, 网络资源指在含义上相对独立 且完整的非网页类互联网信息资源,通常由一到多个文件按照一定的目录结构组织,常见于 务器和 统的节点中 。它们广泛分布在互联网上,是网络用户所关心的重要对象。同时,这些网络资源不仅数量巨大, 而且发布、传播和共享都比较自由, 呈现出“混乱”和“无序”的特点。 广泛收集并重新组织这类网络资源,是许多应用中的一项 根本 需求 。在这项工作中,资源名称是最基本的依据;人们一方面需要根据名称来理解得到的资源,另一方面也要通过对资源命名来标识资源。 本文 首先 考察各类网络资源的命名状况,研究其中蕴含的用户命名行为一般规律; 进而 研究 了如何从 资源名中 切分 出 语义片段 的方法 ;并 考察了 名字信息 在 资源自动分类 中的作用,分析分类性能的影响因素等问题。注意到网络上存在着许多以目录树的形式组织得相当好的资源集合, 本文研究了依据目录树信息进行资源整合 的效率 问题,并针对这类资源整合的任务,设计了 一个可扩展性 好 的 资源 增量存储 与 组织方案。作为对上述研究的应用, 实现了一个支持海量网络资源存储组织的库藏系统,并为相关领域的研究提供数据和系统平台 。 本文主要贡献包括: (1) 考察网络资源命名的无序状况,分析用户对资源命名 行为 的一般规律 。通过考察总体与各类别的名字 长度、字符构成、片段 频度分布 、 文件 后缀 对资源类别的互信息 、语义种类 及位序关系 等方面,分析资源的名字无序混乱表象及所蕴含的规律。 例如 从字符类型熵来看,资源名是用户表达各种资源相关信息的渠道,而其中 娱乐 类 资源 名 的 字符类型熵 大于 工作学习类的资源名,这体现了用户对娱乐内容 的融入感较强,倾向于参与修改名字来反映自己的意见和评价。 从符号的出现上看,用户倾向于将多种意思通过显式或隐式分隔信息浓缩在简短的名字中。 这 些 是 本文 后续 名字 切分 、资源分类等工作 的 基础。 (2) 基于错误驱动转换学习思想和字符类型突变分割假设, 提出一种能对资源名按照语义信息切分、且不依赖于词典的方法。 这一 研究也 适用于 其他具有 多种 文字符号混杂、 浓缩 表达多种语义类型 特点 的文本 环境 。 该方法优点是能充分利用上下文特征学习,且不要求大规模训练数据。 例如给 800 - 个训练样本, 得到的 语义片段的切分精度 为 81%、 召回率 为 83%。 所得的切分结果有助于从混乱的原始命名状态中获取对资源描述有用的信息。 (3) 提出一种利用资源及其成员的名字所产生的特征进行资源自动分类的方法 , 研究了 特征分布、概率估算、样本数量等因素对 分类 性能的影响。 发现大量低频特征 (例如只在一个资源中出现过) 对分类正确率的贡献 在于帮 助合理估算 未观测到的特征的概率; 因此也得出在低频特征占优、且使用 滑策略下无需进行特征选择的推论。 在使用所有特征情况下, 总体分类正确率可达 80%。 还应用该方法实现了一个资源半自动分类工具, 在人工 给定 资源粒度条件下, 进行 资源分类的时间是基准时间的 45% (4) 针对原始 质量较好 的 资源集合 , 提出一种利用原始组织知识的 目录归并 模型 整合 资源 ,刻画 粗分类和精细检查两阶段 工作模式并评估 模型 效率。粗分类阶段 有精度 损失, 但完成任务的时间为 基准 做法 的 1/2a( a 为批量处理的资源数 , a1); 精细检查 阶段 在第一阶段基础上进行,能保证精度无 损,且完成任务的时间约为基准做法的 1/2。 (5) 持续从互联网收集、并 运用 目录归并 模式 高效低代价地 海量网络资源库藏系统。 通过分类体系和文件目录的映射,并在服务器和磁盘两级用 模块化思想设计 存储、组织功能,该系统能很好地应对 增量式存储、组织和 服务需求 。 系统还基于 想 从互联网上为热点门类的资源扩展相关 描述 信息 。 关键词:网络资源, 命名分析 ,组织, 自动 分类 , 目录归并 - On i n to 1) by or of 2) a 3) TP 2P 4) at At It is a to In is is On of of On to of to of to on we to of in on on we a to in to a we of As to we a of is of In as 1) of By of we an on - of of as to as we or to of of of 2) a is to in is on of at of of be to of of a of of of 00 we a 1% in 3% in of 3) a of We on as on of We a of in to by to on on in in of 0%. As an of we a 5% 5% in 4) a to in in to a is by is a a is a to In - v - is (a is of in a 1). in is of of 5) a on By we of we eb on of of of - i - - 目 录 第 1 章 绪论 . 1 究背景 . 1 究目的 . 2 难与挑战 . 3 究路线 . 4 络资源的概述 . 4 源在本文中的定义 . 4 源的数据模型 . 6 络资源的存储组织模型 . 7 络资源的组织及本文研究的意义 . 9 文主要工作 . 10 文主要贡献 . 12 文内容结构 . 13 第 2 章 网络资源名字无序特征与用户命名行为 . 16 言 . 16 本概念 . 17 源命名混乱程度的量化评估 . 17 字长度分布规律 . 19 过名字表达资源信息的互补性 . 21 件名的后缀 . 23 件后缀和资源类别的关系 . 26 符构成 . 28 字片段频度 . 31 义片段 . 33 关研究 . 35 章小结 . 36 第 3 章 网络资源名字中语义片段的切分 . 37 言 . 37 义信息切分概述 . 38 级映射策略 . 38 符类型突变分割假设 . 39 动切分方法相关研究 . 41 于错误驱动转换学习的自动切分 . 42 动学习的基本思想 . 42 - 分比较模型 . 44 始切分器 . 46 则模板 . 47 则学习与错误驱动转换 . 49 估指标 . 50 验与分析 . 51 关研究 . 53 章小结 . 54 第 4 章 网络资源类别自动判定 . 55 言 . 55 何找到适合的特征 . 55 生特征的属性 . 55 本定义 . 56 练集和测试集 . 57 征频度分布状况分析 . 58 类方法及平滑策略 . 59 类方法的选择 . 59 滑策略 . 61 估指标 . 63 于朴素贝叶斯的分类与影响因素 . 63 分方法、特征数量对性能的影响 . 64 同类别的精度 . 66 滑对性能的影响 . 67 于支持向量机的分类 . 68 关工作 . 71 章小结 . 73 第 5 章 目录归并模型与组织效率比较 . 75 言 . 75 录归并模型 . 75 么是目录归并 . 75 型表述 . 76 于目录归并的资源组织效率评估 . 78 录归并模型的局限 . 78 源原始组织质量可用性 . 79 验 . 79 构知识体系合并 相关工作 . 83 络资源半自动分类工具 . 84 本思想 . 84 - 络资源标注 . 85 计 . 86 章小结 . 86 第 6 章 网络资源组织相关研究 . 88 源组织方法 . 88 络资源库藏相关工作 . 89 . 90 . 91 . 92 . 92 章小结 . 93 第 7 章 设计与实现 . 95 言 . 95 统概况 . 95 统设计 . 97 统结构图 . 97 扩展的存储组织方案 . 98 络资源描述信息获取 . 100 述 . 100 述信息获取机制 . 101 进查询的方法 . 102 进排序的方法 . 102 种基于局部聚类思想的共现词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论