




已阅读5页,还剩75页未读, 继续免费阅读
(系统工程专业论文)中文信息的语义数据挖掘技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 传统的信息由于缺乏统一的语义描述 充斥着大量繁杂重复信息 面对这些 海量信息 如何快速 有效地从 信息海洋 中获取人们所需的信息成为难题 让信息具有语义 使计算机能够理解信息含义 进而对信息进行加工处理 能从 根本上解决这一难题 更好地实现信息共享 由于中文信息的特殊性和复杂性 使得中文信息处理难度相对较大 而信息 语义化的要求则对中文信息处理提出了更高要求 用户不再仅仅满足获取直接信 息 而需要获得更多的隐含语义信息 数据挖掘正是为了满足这一需求诞生的 但传统的数据挖掘需要领域专家协助 并依靠数据驱动 逐渐不能满足用户的需 求 而本体作为客观知识的语义形式化描述 在数据挖掘中引入基于本体的语义 分析技术 有助于解决信息处理的语义化问题 为实现中文信息语义挖掘做出贡 献 论文结合信息产业部电子产业发展基金项目的开发 对中文信息的语义数据 挖掘技术进行了系统的研究 首先分析了中文信息处理的特点及各项关键技术 并对中文分词技术进行了深入探讨 实现了一种采用正向最大匹配和词典分词算 法的中文分词器 然后在深入介绍了本体论相关知识之后 提出了一种基于本体 的语义数据挖掘 o s d m 技术 给出了其工作流程和原理 并对涉及的领域本 体构建 语义标注和语义推理等关键技术进行了分析研究 给出了切实可行的解 决方案 为语义数据挖掘技术的应用奠定了良好的基础 最后基于o s d m 技术模 型设计并实现了一个中文信息语义检索系统 该系统以参考背景知识自行构建的 m y f n l i t o n t o 领域本体作为知识库 利用本体描述语言o w l 的语义推理能力 对 检索词进行推理扩展 来获得更准确的用户意图 返回更准确的检索结果信息 同时 系统为了克服领域局限性 系统还实现了全文检索功能 提供了更好的用 户体验 更完整的功能和更可靠的系统性能 初步实现了信息检索智能化 关键词 中文信息处理 本体 语义数据挖掘 信息检索 i i 兰堡塞塑曼兰鍪堡堡堡茎奎至塞 a b s t r a c t d u et ot h e1 a c ko fau n i f i e ds e m a n t i cd e s c r i p t i o n m e r ea r ep l e m yo f c o m p l e xa n d d u p l i c a t ei n f o m a t i o ni nt r a d i t i o n a li n f o 肌a t i o n f a c i n gw i t hm a s s i v ei n f o m l a t i o n h o wt oo b t a i nu s e f u li n f o r m a t i o nq u i c k l ya i l de f r e c t i v e l yf r o mt h e i n f o 珊a t i o n o c e a l l i sav e r yd i m c u l tp r o b l e m i n t r o d u c i n gs e m a m i ci n f o m a t i o ni n t oc o m p u t c r i n f o 咖a t i o np r o c e s si saf u n d a m e n t a ls o l u t i o nt ot h i sp r o b l e m a n dc a na c h i e v eb e t t e r s h a r i n go fi n f b 珊a t i o n b e c a u s eo f t h es p e c i a ln a t u r ea n dc o m p l e x i t yo fc h i n e s ei n f b m a t i o n i t sd i m c u l t t op r o c e s sc h i n e s ei n f o 珊a t i o nr e l a t i v e l y s e m a n t i ci n f o r m a t i o np u tah i 曲e rd e m a n d o nc h i n e s ei n f 0 珊a t i o p r o c e s s i n g u s e r sn ol o n g e rm e e tt h ed i r e c ta c c e s st o i n f o m a t i o no n l y a n dn e e dt og e tm o r ei m p l i e ds e m a n t i ci n f o m l o n d a t am i n i n g c o m e so u tf o rt h i s h o w e v e r t r a d i t i o n a ld a t am i n i n gn e e de x p e n s sh e l pi nt h ef i e l d a n dr e l yo nd a t a d r i v e n g r a d u a l l yi t i su n a b l et om e e tt h en e e d so fu s e r s o n t 0 1 0 9 yi s t h ef o m a ld e s c r i p t i o no ft h eo b j e c t i v ek n o w l e d g e d a t am i n i n gc o m b i n e dw i m s e m a n t i ca n a l y s i st e c h n 0 1 0 9 yb a s e do no n t 0 1 0 9 yc a ns o l v ei n f 0 咖a t i o ns e m a n t i c p r o c e s s i n gp r o b l e m sa l l dc o n t r i b u t et or c a l i z a t i o no fc h i n e s es e m a n t i cd a t am i n i n g s u p p o r t e db ym i i se l e c t r o n i c si n d u s t r yd e v e l o p m e n tf u n d t h es e m a n t i cd a t a m i 血n gt e c h n o l o g yo fc h i n e s ei n f o m a t i o ni ss t u d i e di nt h i st h e s i s f i r s t l y a i m i n ga t t 1 1 ec h a r a c t e s t i c sa i l dk e yt e c h n o l o g i e so fc h i n e s ei n f 0 珊a t i o np r o c e s s i n g e s p e c i a l l y c h i n e s ew o r ds e g m e n t a t i o nt e c h n i q u e s ac h i n e s ew o r ds e g m e n t a t i o na l g o r i t l l i no f m a xm a t c h i n g 蛐dd i c t i o n a r yi sd e s i g n e d s e c o n d l y o n t o l o g y r e l a t e dl l l o w l e d g ei s i n t r o d u c e d a n dt h es e m a m i cd a t am i n i n gt e c h n o l o g yb a s e do no n t o l o g y o s d m i s p r o p o s e d i t sw o r k n o w a n d p r i n c i p l e sa r eg i v e a n di t sk e yt c c l l n o l o g i e sa r ea n a l y z e d i n c l u d i n g0 n t o l o g yc o n s t r u c t i o n s e m a n t i c a n n o t a t i o na i l ds e m a n t i cr e a s o n i n g e t c p r a c t i c a ls o l u t i o n sa f ea l s od e s c r i b e di nd e t a i l t h i sl a yag o o df o u n d a t i o nf o r s e m a i l t i cd a t am i n i n gt e c h n o l o g ya p p l i c a t i o n s f i n a l l y b a s e do n0 s d mm o d e l a c h i n e s es e m a n t i ci n f 0 n a t i o nr e t r i e v a ls y s t e mi s d e v e l o p e d i nt h i ss y s t e m a m y f m i t o m of i e l do m o l o g yi sc o n s t m c t e da sk n o w l e d g eb a s e a n ds e m a m i cr e a s o n i n g a b i l i t yo fo w lo n t 0 1 0 9 yl a n g u a g ei su s e dt oe x p a n dt h ek e yw o r d sr e a s o n i n gf o r o b t a i n i n gm o r ea c c u r a t eu s e ri m e n ta n dr e t u m i n gm o r ec o h e c tr e s u l t s m e a l l w h i l e i n o r d e rt oo v e r c o m et h el i m i t a t i o n so ft h ef i e l d t h es y s t e ma l s oh a sf u l l 一t e x ts e a r c h f u n c t i o nf o rp r o v i d i n gab e t t e ru s e re x p e r i e n c ea i l dm o r ef u l l yf u n c t i o n a la n dm o r e t t i r e l i a b l es y s t e mp e r f o r i i l a n c e i n i t i a l l yi tr e a i i z e st h ei m e l l i g e mi n f o m a t i o nr e t r i e v a l k e yw o r d s c h i n e s ei n f o r m a t i o np r o c e s s 0 n t o l o g y s e m a n t i cd a t am i n i n g i f o r m a o r e t r i e v a l 湖南大学 学位论文原创性声明 本人郑重声明 所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果 除了文中特别加以标注引用的内容外 本论文不包含任何 其他个人或集体已经发表或撰写的成果作品 对本文的研究做出重要贡献 的个人和集体 均已在文中以明确方式标明 本人完全意识到本声明的法 律后果由本人承担 作者签名 日期 洲年牛月3 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被 查阅和借阅 本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存和汇编 本学位论文 本学位论文属于 1 保密口 在年解密后适用本授权书 2 不保密囹 请在以上相应方框内打 作者签名 导师签名 日期 庐8 年年月a j 日 日期 卯移年铲月 多日 鼍 荔 p 翘 世1i 渺咋 藕盈 硕 二学位论文 第1 章绪论 互联网自诞生以后发展迅猛 早就成为全球最大的信息库 截至2 0 0 7 年底 我国网民数已达到2 1 亿人 同时互联网中文信息的年增长率超过了6 0 l 互 联网最基础的功能即提供信息 面对互联网上的海量信息 如何快速 有效地从 信息海洋 中获取我们所需的信息成为难题 正是在这样的背景下 数据挖掘 和信息检索成为信息处理中不可或缺的两种服务 目前2 1 亿网民中使用信息检 索的比例是7 2 4 调查表明 这一比例随着教育普及 网民网龄增长会进一步 的提高 而随着信息检索智能化的需要 各种数据挖掘技术开始应用到信息检索 中 如同想让机器代替人类劳动一样 让计算机能够理解信息的含义 进而能够 代替人类进行思考决策 一直是我们的一个梦想 本文结合中文信息处理的特殊 性 在数据挖掘中引入了语义推理技术 并将其运用到信息检索系统中 提高了 信息检索的效率 在最大程度上消除了无用信息 避免了歧义 使得中文信息的 数据挖掘和信息检索技术朝着智能化的方向进一步迈进 1 1 研究背景和现状 1 1 1 语义万维网的提出 1 9 9 0 年1 2 月 t i mb e m e r s l e e 发明了统一资源定位符u r l 超文本传输协 议h t t p 和超文本标记语言h t m l 建立了第一个万维网的原型系统 2 1 h t m l 语言的特点决定了万维网上的信息内容很难被机器所理解 从而制约了一些对万 维网上的海量信息进行自动化处理应用的开发 w 曲上海量的信息迫切要求以一 种能够理解数据语义的方式进行交换和管理 当前基于h t m l 的w 曲技术却很 难满足要求 大量的工作需要人工参与 并造成 信息孤岛 的产生 3 1 为此 w 3 c 组织革命性的提出了 机器理解 的万维网 为了实现面向机器理解的万维 网 t i mb e m e r s l e e 于2 0 0 1 年正式提出了语义万维网 4 s e m a m i cw 曲 语义 万维网是当前万维网的扩展 目的是将互联网变成一个巨大的全球化的知识库 这个知识库不但能够满足人们浏览信息的需要 更重要的是通过标准的语义规范 能使计算机理解信息的语义 这也为实现智能化的语义数据挖掘提供了可能 1 1 2 中文信息处理的迫切性 语义万维网的提出对中文信息处理提出了更高的要求 尽管经过中国语言学 家和计算机专家的艰辛努力 中文信息处理技术在数据挖掘 信息分类 信息提 取 自动问答 信息检索 信息推送和数字化图书馆等方面取得了非常惊人的成 1 中文信息的语义数据挖掘技术研究 绩 5 1 但是 相对于互联网络的发展和快速膨胀的中文信息来说 中文信息处理 技术依然滞后 很多技术和系统依然是实验室的原型 离实际应用还有较大差距 面对海量的中文信息 要实现对信息的语义数据挖掘乃至智能信息检索 中 文信息处理是基础 因此必须解决中文信息处理的问题 否则 随着语义万维网 的进一步发展 它将严重制约以中文信息处理为基础的大量相关技术的应用和发 展 1 1 3 数据挖掘和信息检索的新发展 伴随着语义网的提出 结合中文信息处理的发展 数据挖掘和信息检索也都 朝着智能化的方向继续发展 从目前的形式看 数据挖掘和信息检索大有融合的 趋势 微软亚洲研究院就将数据挖掘和信息检索作为一个小组共同研究开发 一 方面 信息检索可以为数据挖掘提供更多更好的原始信息 另一方面 信息检索 不再只满足于对直接信息检索的层面上 期望利用数据挖掘能够对隐含信息进行 检索 提供更好的检索质量 数据挖掘是一个涉及多领域的学科 从1 9 8 9 年8 月在美国第1 1 届国际人工 智能会议上首次提出这个术语 经过近二十年的努力 数据挖掘技术的研究已经 取得了丰硕的成果 6 数据挖掘技术已经与互联网紧密结合 产生了称之为w 曲 挖掘技术的新的分支 语义网为数据挖掘的发展提供了又一个新的平台 在数据 挖掘中引入语义 能更好的提高数据挖掘的效率和质量 获取更多的有用信息 另外 对于当前的信息检索来说 由于存在大量结构各异的信息 并且大多 不包含语义信息 使得查询的返回量很大 其中包含很多无用信息 尽管象g 0 0 2 l e 等信息检索巨头也在加紧新一代信息检索的研究 并且已将一些语义分析技术应 用到谷歌产品中 但是由于互联网的快速增长 为了保证检索质量 他们不得不 一直维护庞大的索引库的质量 传统的直接基于关键词的信息检索技术己越发不 能满足用户在知识管理上的要求 寻找新的方法也成为目前研究的热点 要从 根本改变当前信息检索的缺陷 就需要改变信息的表示方式 而语义网的诞生正 是这种需求的体现 国外已经有不少基于语义的信息检索的应用研究 如a s k s w 0 0 9 1 e p o w e r s e t 等 但是这些应用尚处于实验阶段 还未达到实际应用的水平 而在国内 基于语义的数据挖掘和信息检索的研究则更是起步不久 同时又由于 中文的特殊性 使得要达到实际应用还有很长的路要走 1 2 研究目的和意义 本文正是在上述背景下开展研究工作的 研究的目的是 以智能化中文语义 数据挖掘技术为手段 从互联网 数据库和非结构化文档等海量信息中 快速精 确地检索出所需信息 将隐含语义分析技术贯彻于中文信息的数据挖掘和检索过 硕 l 学位论文 程中 通过分析推理用户检索条件的隐含语义 为用户提供更为精准更为全面的 信息 提高信息检索服务的效率 本文通过对中文分词技术的研究 采用词库加自动分词相结合的分词方式 从根本上改进了中文信息处理 数据挖掘以至信息检索的质量 而在数据挖掘中 引入语义 相当于赋予计算机 思考 能力 从而推动信息检索以及其他相关应 用朝着智能化方向进一步发展 因此 从某种意义上讲 语义数据挖掘技术的提 出和应用是人工智能发展的需要 是为真正实现人工智能这个计算机发展的终极 目标而做出的贡献和努力悼j 1 3 课题来源及研究内容 本研究课题来源于信息产业部电子产业发展基金项目 基于知识服务和信息 共享的企业竞争情报平台 的进一步需求 竞争情报信息可以及时有效地获取行 业发展趋势 技术和市场变化 竞争对手动向等 对于企业取得竞争优势具有重 要的意义 利用语义数据挖掘技术可以对互联网 数据库和非结构化文档中的隐 含的竞争情报进行更好的监测 为企业提供更全面自动化的情报服务 目前开发 的中文竞争情报系统只采用基于传统机械匹配的情报搜集方式 无法 理解 采 集情报信息 无法准确 把握 搜集关键词所包含的概念语义 不够智能化 无 法提供自动分类导航 本文将综合互联网技术的发展趋势 利用支持知识管理的 语义数据挖掘技术 进而开发智能化的集中文信息情报采集 加工 检索 分析 管理和个性化服务为一体的企业情报信息综合服务平台 将为企业情报信息服务 领域提供一种新的有效的工具 下面是本文的研究重点 1 中文语义数据挖掘技术的研究 研究内容包括 中文分词技术 本体论工 程及其应用技术 基于本体论的语义数据挖掘技术等 2 语义信息检索平台的开发和构建 基于中文语义数据挖掘技术 运用计算 机网络技术 开发基于浏览器 服务器 b r o w e r s e r v e r 体系的可分布式 跨平台 人机交互友好的信息检索系统 3 全文信息检索平台的开发 考虑到目前语义信息检索的局限性 在平台中 引入了传统的全文检索技术来弥补语义信息检索的不足 1 4 本文的章节安排 本文共分为五章 主要内容概要如下 第l 章绪论 主要介绍了当前互联网的发展 中文信息处理技术的现状 数据挖掘技术和信息检索的现状和发展趋势 说明了本文工作的目的和意义 给 出了主要的研究内容 中文信息的语义数据挖掘技术研究 第2 章中文信息处理技术 主要介绍了中文文本信息处理的特点和它的一些 关键技术 并对其中的基础性关键技术中文分词进行了详细的探讨 介绍了四种 常用的中文分词器 第3 章本体论 对语义网的知识表示方式本体进行了介绍 阐明了它与语义 网 代数系统和描述逻辑的关系 对本体描述语言o w l 进行了详细的介绍 第4 章基于本体的语义数据挖掘 0 s d m 技术 介绍了常用的知识表示方 式和传统的数据挖掘技术 分析了它们的不足 提出了一种基于本体的语义数据 挖掘技术 并对其关键技术进行了详细研究 给出了实现方案 第5 章o s d m 技术在中文信息检索系统中的应用 首先设计了基于o s d m 技术的中文语义信息检索系统的功能 结构 介绍了系统主要开发工具 然后深 入分析并实现了系统中的各个模块 最后对此系统与传统全文检索系统进行了分 析比较 并给出了结果 结论 最后对全文进行总结 概述本文主要完成的工作 并对下一步研究 的进行了展望 指出了一些方向 给出了一些建议 硕士学位论文 第2 章中文信息处理技术 中文信息处理是自然语言信息处理的一个分支 是一门与计算机科学 语言 学 数学 信息学 声学等多种学科相关联的综合性学科 需要以大量的语言知 识 背景知识为依据 对中文信息的人脑处理过程进行模拟 互联网时代对中文 信息处理产生了新需求 互联网上的海量数据为中文信息处理提出了新的课题 当前 信息处理技术应用越来越广泛 据估计全世界的计算机用于信息处理的占 了8 0 以上 我国要充分利用计算机 就必须迈过中文信息处理这一关 从这个 意义上讲 中文信息处理是我国实现信息化和现代化的必经之路 2 1 中文信息处理概述 2 1 1 什么是中文信息处理 所谓 中文信息处理 指的是用计算机对中文语言在各个层次 词 短语 句子 段落 篇章 上的各种表现形式 文本 声音 图像 的信息进行处理 包括识别 模拟 分析 转换和传输等 9 本文将重点对中文文本信息处理的语 义数据挖掘技术进行研究 2 1 2 中文文本信息处理的特点 跟西方语言的信息处理相比 中文信息处理在许多方面有自己的特点 例如 1 中文的特殊性 西方语言只有几十个字母 而汉字数量多 现代常用汉字有 几千个甚至几万个 导致中文信息处理相对困难许多 2 中文文本的特殊性 西方语言中词与词之间通过空格分开 而汉语中 词与 词之间没有分隔标记 自动分词成为中文文本分析的第一道难关 3 中文语法的特殊性 汉语形态贫乏 难以凭借形态来确定词的句法功能 词 序和虚词是主要的语法手段 句法歧义特别复杂 使得汉语语句自动分析这一关 键技术迟迟无法取得突破 正是由于中文的这些特点导致无法直接套用西方已成熟的理论和技术 这就 需要我们针对中文的特点 利用具有中文特色的信息处理技术来解决中文信息处 理问题 2 2 中文文本信息处理关键技术 中文文本信息处理是一项复杂的工程 所涉及到的技术非常的多 从应用角 中文信息的语义数据挖掘技术研究 度来看包括中文识别技术 中文信息检索技术以及中文机器翻译技术等 但是这 些技术都不是中文文本信息处理中最为关键的技术 它们的实现必须要依赖一些 基础技术 这些技术才是中文文本信息处理中的真正关键技术 概括起来 这些 基础技术分为三类 中文分词技术 中文词性标注和语义标注技术 中文词句分 析技术 其中 中文分词技术又是另外两类的基础 可见中文分词技术在整个 中文信息处理中的重要性 目前 中文分词技术已经取得了不少成果 但是对于 中文词性标注和语义标注来讲 尚处于理论研究阶段 离应用还存在不小距离 而词句分析由于受到分词技术和词性语义标注技术的影响 也迟迟得不到突破 2 2 1 中文分词技术 中文自动分词是中文信息处理的关键技术 已经成为中文信息处理发展的瓶 颈 1 1 随着中文信息处理研究的深入 中文文本自动分词问题已经引起相当程度 的重视 成为中文信息处理的一个热点课题 经过十几年的研究 中文自动分词 技术取得了令人瞩目的成果 毫无疑问搜索引擎巨头g o 0 9 1 e 百度的中文分词算 法都是非常优秀 也是非常复杂的 对于我们一般用户来说无从得知 开销太大 也不易于掌握 于是出现了一些实用的中文自动分词系统 如海量中文智能分词 中科院i c t c l a s 系统 j e 分词 c s w 中文分词组件等 2 2 1 1 中文分词的定义 中文分词就是将连续的中文字序列按照一定的规范重新组合词序列的过程 词是最小的能够独立活动的有意义的语言成分 所以将词确定下来是理解自然语 言的第一步 由于中文词与词之间没有象英文一样的空格作为自然分界符的 因 此在词这一层上 中文比之英文要复杂得多 困难的多 众所周知 由于中文的特殊性 要想对中文进行完全精确的分词 表达其内 在的含义 几乎可以被称之为m i s s i o n i m p o s s i b l e 不可能的任务 这是因为当 中文的排列组合不同时 相同汉字都会出现不同的词性和不同的词义 另外 还 要考虑到所处的上下文语境 因此想让计算机理解并正确分析中文是非常困难的 通常对于应用来讲 只能尽可能的在屉小的开销下 来获得最大的分词准确度 追求一个平衡点 满足应用的需要 2 2 1 2 常用的中文分词算法 总体来说 分词算法可以分为两类 自动分词和词典分词 1 表2 1 对这两 种分词方法进行了比较 具体来讲 现有的分词算法可分为五大类 单字分词 二分法分词 基于词 典的分词 基于词频统计的分词和基于知识理解的分词 1 单字分词算法 硕士学位论文 单字分词 顾名思义 就是在对中文文本进行分词时 不管文本意思 全部 以单个汉字为单位进行切分 如将 湖南大学 切分为 湖 南 大 学 2 二分法分词算法 表2 1 自动分词和词典分词的比较 自动分词 词典分词 实现实现非常简单 实现复杂 查询 增加了查询分析的复杂程度适于实现比较复杂的查询语法规则 存储效率 索引冗余大 索引几乎和原文一样大索引效率高 为原文大小的3 0 左右 词典维护成本非常高 中日韩等语言 维护成本无词典维护成本 需要分别维护 还需要包括词频统计 等内容 嵌入式系统 运行环境资源有限 适用领域分布式系统 无词典同步问题 对查询和存储效率要求高的专业搜 索引擎 多语言环境 无词典维护成本 所谓二分法 就是将每两个字当作一个词语进行切分 如对 中华人民共和 国 进行二分法且分时 切分出来的词条应该如下 中华 华人 人民 民共 共和 和国 这种切分方法看似太过简单 但是 它显著减少了每个词条后位置 信息的长度 对提高分词过程的速度 减少运算量有巨大的帮助 3 基于词典的分词算法 通过构造一个常用词词典来对文本进行词语的切分 这种方式就叫做词典分 词 毫无疑问 词典分词的准确性比起前面两种分词算法肯定是最高的 因为词 典中的词都是经过验证的 并确定为语言中的一个基本语义单位的 该算法按照一定策略将待分析的中文串与一个 充分大的 机器词典中的词 条进行匹配 若在词典中找到某个字符串 则匹配成功 识别出一个词 根据匹 配时扫描方向的不同分为正向匹配和逆向匹配 根据不同长度优先匹配的情况 分为最大 最长 匹配和最小 最短 匹配 根据与词性标注过程是否相结合 又可以分为单纯分词方法和分词与标注相结合的一体化方法 设d 为词典 l e n 表示词典中的最长词条 m a x 表示设定的最大匹配字数 m i n 表示设定的最小匹配字数 s t r 为待切分的字串 常用的匹配方法如下 1 正向最大匹配法 其基本策略为 每次从s t r 中取长度为m a x 的子串与d 中的词进行匹配 若成功 则该子串为词 指针后移m a x 个汉字后继续匹配 否则子串逐次减一 进行匹配 2 逆向最大匹配法 中文信息的语义数据挖掘技术研究 逆向最大匹配与正向晟大匹配基本原理相同 不同的是分词的扫描方向 它 是从右至左取子串进行匹配 3 正向最小匹配法 其基本策略 每次从s t r 中取长度为m i n 的子串与d 中的词进行匹配 如成 功 则该子串为词 指针后移m i n 个汉字继续匹配 否则子串逐次加一进行匹配 直至子串长度为l e n 为止 4 逆向最小匹配法 逆向最小匹配与正向最小匹配基本原理相同 不同的是分词的扫描方向 它 是从右至左取子串进行匹配 很明显 在词典相同的情况下 通过使用上述四种策略进行切分时 会有不 同的切分结果 在实际情况中 很难说哪种结果是正确的哪种是错误的 只能根 据实际的需求来选择合适的算法 很多时候会同时使用到两三种切分方法来提高 分词准确率 事实上 在词典分词中 最难实现的不是分词模块 而是构建一个词典 比 如世界公认的中科院分词词典 就是将一整年的 人民日报 中的所有信息 这 种信息被称之为语料 进行了词性标注并人工切分后 再交由计算机处理 进而 构筑了一个具有词性标注的词典 这种语料的积累方式和词性标注做法无疑将分 词的准确程度提高了数倍 4 基于词频统计的分词算法 该算法首先切分出与词典匹配的所有可能的词 然后运用统计语言模型和决 策算法决定最优的切分结果 它的优点在于可以发现所有的切分歧义 但是这取 决于统计语言模型的精度和决策算法 且需要大量的标注语料 并且分词速度也 因搜索空间的增大而变得缓慢 5 基于知识理解的分词算法 该算法主要基于句法 语法分析 并结合语义分析 通过对上下文内容所提 供信息的分析对词进行定界 它通常包括三个部分 分词子系统 句法语义子系 统 总控部分 在总控部分的协调下 分词子系统可以获得有关词 句子等的句 法和语义信息来对分词歧义进行判断 此算法试图让机器具有人类的理解能力 需要使用大量的语言知识和信息 由于中文语言知识的笼统 复杂性 难以将各 种语言信息组织成机器可直接读取的形式 因此目前基于知识的分词系统还处在 试验阶段 2 2 1 3 中文分词技术面临的难题 然而事实证明 并非有了成熟的分词算法 就能轻松地解决中文分词的问胚 因为中文是一种十分复杂的语言 而让计算机理解中文语言就更加困难 在中文 硕上学位论文 分词过程中 一直面临着两大难题 1 歧义识别 分词歧义的产生主要有两种情况 组合型歧义和交集型歧义 所谓组合型歧 义是某个词的一小部分也是一个完整的词 如 中华人民共和国 中华 人 民 和 共和国 都是词 但是它们合起来也是一个词 而交集型歧义就是说两 个相邻的词之间有重叠的部分 如 今天下午 天下 是一个词 下午 也是 一个词 它们重用了一个 下 字 研究表明 歧义的产生主要是后一种 它约 占整个分词歧义的9 0 所以 处理好交集歧义字段在很大程度上能保证一定的 分词精度 另外还存在一种歧义是真歧义 真歧义是指给出一句话 人也无法判 断哪个应该是词 哪个应该不是词 例如 乒乓球拍卖完了 可以切分成 乒 乓球 和 拍卖完了 也可切分成 乒乓球拍 和 卖完了 如果没有上下文 相关句子 将无法知道 拍卖 在这里是否是一个词 2 新词识别 新词 又称为未登录词 因为语言在不断的发展和变化导致新词的不断出现 同时词的衍生现象非常普遍 所以词表中不能囊括所有的词 最典型的是人名 例如在句子 李军虎去上海了 中 人可以很容易理解 李军虎 作为一个人名 是个词 但计算机识别就困难了 如果把 李军虎 作为一个词收录到字典中去 全世界有那么多名字 而且时时都有新增的人名 如此一项巨大的工程即使可以 完成 问题仍旧存在 例如 在句子 李军虎背熊腰的 中 李军虎 又算词吗 新词中除了人名以外 还有机构名 地名 产品名 商标名 简称 省略语等这 些人们经常使用的词都是很难处理的问题 因此在信息搜索中 分词系统中的新 词识别十分重要 目前新词识别准确率已经成为评价一个分词系统好坏的重要标 志之一 2 2 1 4 中文分词质量的评价 分词算法有多种 但在本质上都是基于形式的词匹配 歧义校正方案 对分 词质量的评价尚无一致的标准 根据全面衡量软件质量的多指标性以及既相互独 立又尽量减少冗余的原则 给出一种分词质量的评价方法 可以规范和约束 完 善和促进开发工作 使之最终达到商品化和工程化 本文参考文献 1 3 中的分词 评价方法 来对分词系统进行质量评定 该方法具体如图2 1 所示 评价一个自 动分词系统的最好方法是建立专家评价系统 将评价系统交给使用者 根据使用 者的意见逐步完善系统 但是这需要耗费大量的人力财力 也需要一个漫长的过 程 图2 1 中 切分速度是指在单位时间内所处理的汉字个数 切分精度是以错 误切分率来衡量 错误切分率 错误切分的次数 切分语料中含汉语词汇的总数 o 中文信息的语义数据挖掘技术研究 错误切分率越小 表示切分精度越高 系统的可维护性是指对该系统中的词典 分词知识库以及规则库进行增删 修改 查询 批处理等的方便程度 是对数据 库存储和计算功能扩充要求的软件属性 人机接口包括用户模型 命令语言 反 厂而两 l 二丁型 围困 l 籍i l 筝l i 度ii 性l 裂l 裂l 图2 1 中文分词评价方法 馈与信息显示四个成分 应体现功能强 反馈速度快 提示信息适量 出错处理 功能及使用方便等原则 2 2 2 中文词性标注和语义标注技术 借助计算机来标注文本中每个词的词性或语义 这两种标注的关键是如何处 理兼类词或多义词 词性标注为句法分析做铺垫 语义标注为语义分析打基础 跟西方语言相比 汉语词性标注的主要困难是词类判定基础对对上下文的依赖特 别严重 现在一般用统计方法来标注词性 据说可以获得9 5 以上的正确率 语 义标注的难度更大 因为不少多义词的义项区分度很低 例如 根据 现代汉语 词典 打 的动词义项就有2 4 个 用统计方法做语义标注 不容易获取适当 规模的训练语料 关于语义标注技术 具体在节4 5 2 中进行详细讨论 2 2 3 中文语句分析技术 借助计算机对文本中的句子做句法分析和语义分析 语句分析是自然语言理 解的关键技术 目前的分析器主要是用于句法分析 自动句法分析在全世界都是 一个难题 英语已经有了百万词级的句法标注语料库 汉语的句法标注语料库还 只有十几万词 如果只是在词性标注的基础上做句法分析 句法歧义按指数增长 远远超出一般人的想像 于是一些分析器采用分而治之的办法 先标注短语边界 然后标注结构关系 但不管怎样 句法歧义问题是回避不了的 2 3 常用中文分词器 1 海量中文智能分词 海量中文智能分词基础件 是海量在中文智能分词技术基础之上推出的便于 硕上学位论文 二次开发的软件包 l4 1 它具有分词准确 高效 稳定的特点 支持的词典以 现 代汉语词典 为基础建立的知识库 并可根据需要定制 支持歧义识别 未登录 词识别 关键词标注 词性标注 腾讯s o s o 就是以海量中文智能分词基础件为 技术核心进行二次技术开发而来的 缺点是商业化产品 源代码不开源 价格昂 贵 对于小型系统来说开销过于庞大 2 中科院分词系统i c t c l a s 汉语词法分析系统i c t c l a s i n s t i t u t eo f c o m p u t i n gt e c h n o l o g y c h i n e s e l e x i c a l a n a l y s i ss y s t e m 是由中科院计算所在多年研究基础上研制出来的一套获 得广泛好评的分词系统 该系统的f r c e 版开放了源代码 主要功能包括中文分 词 词性标注 命名实体识别 新词识别 同时支持用户词典 目前已经升级到 了3 0 版本 i c t c l a s 3 o 的分词速度单机9 9 6 k b s 分词精度9 8 4 5 a p i 不超 过2 0 0 k b 各种词典数据压缩后不到3 m 据称是当前世界上最好的汉语词法分 析器 同海量分词相同 新版本的商业化对于研究和实验系统开发都非常得不方 便 3 c s w 中文分词组件 c s w 中文分词组件 是一套可自动将文本按常规汉语词组进行拆分 并以指 定方式进行分隔的d l l 组件 l 本组件采用完全自主开发的高效的分词引擎及 拆分算法 具有准确 高速 资源占用率小等特点 为了满足客户对文本语义进 行研究分析的需要 可根据用户要求 对其拆分后的词组进行词性标注或词频标 注 其广泛应用于互联网信息检索 数据库信息查询 文本校对 自动分类及信 息加工处理等各个领域 令人遗憾的是 尽管c s w 官方网站提供了详细的使用 说明 并可免费下载试用 但是也是商业化产品 4 极易j e 分词 j e 分词是一套由j a v a 写成的开源分词软件 1 7 支持英文 数字 中文混合 分词 支持中文词典动态维护 支持中英文噪声词过滤 支持人名匹配 支持地 名匹配 支持数量词匹配 支持中文数字匹配 支持日期时间匹配 支持电子邮 件匹配 支持商品编码匹配 2 4 小结 本章主要介绍了中文文本信息处理的特点 并对它的基础技术 中文分词技 术 中文词性标注和语义标注技术和中文词句分析技术进行了分析 特别是对其 中的基础关键技术一一中文分词进行了详细的探讨 最后对四种常用的中文分词 组件进行了简单的介绍 说明了当前中文分词的发展水平 中文信息的语义数据挖掘技术研究 第3 章本体论的相关知识 支持数据 信息与知识的交换 共享和复用已成为当今的信息系统迫切面临 的任务之一 本体论主要用于知识的表示 组织和管理 本体的本质就是领域知 识的共享和复用 本体提供的知识共享方式可适用于任意基于知识的系统 将会 大大提高人们对知识的检索 积累和共享的效率 因此本体论在人工智能 知识 工程和信息系统等很多领域有着广泛的应用前景 3 1 本体论概述 3 1 1 本体的定义 本体 o n t 0 1 0 9 y 的概念最初起源于哲学领域 1 引 从哲学的范畴来说 0 n t o l o g y 是客观存在的一个系统的解释或说明 关心的是客观现实的抽象本质 关于本体的定义 一直没有一个公认确定的说法 目前最为流行的定义是 1 9 9 8 年g r u d e r 等提出的 o n t o l o g y 是共享概念模型的明确的形式化规范说明 这包含4 层含义 1 9 概念模型 c o n c e p t u a l i z a t i o n 明确 e x p l i c i t 形式化 f o n i l 和共享 s h a r e 概念模型 指通过抽象出客观世界中一些现象的相关概念而得到 的模型 明确 指所使用的概念及使用这些概念的约束都有明确的定义 形式 化 指o n t o l o g y 是计算机可读的 即能被计算机处理 共享 指o n t o l o g y 中 体现的是共同认可的知识 反映的是相关领域中公认的概念集 o n t o l o g y 的目标是捕获相关领域的知识 提供对该领域知识的共同理解 确 定该领域内共同认可的概念词汇 并从不同层次的形式化模式上给出这些词汇 术 语 和词汇间相互关系的明确定义 2 0 1 3 1 2 本体的功能 研究本体的目的 就是要研究如何用它来表达知识 从而为机器理解自然语 言语义提供可能 本体提供的基本功能主要包括 2 1 1 给单一领域和多个领域间的关系提供语义路线图 提供方位并充当参考工具 2 改善通讯和学习 3 为设计良好的研究和实现提供概念基础 4 提供行为的分类 5 支持信息检索 6 为基于知识的系统提供概念基础 7 为软件系统中的数据元素定义和对象层次提供概念基础 1 2 硕上学位论文 8 充当人类使用的单语 双语或多语词典 并充当自然语言处理的词典 知识 基 即提供机器翻译和自然语言理解以便进行数据提取与摘要 索引的自动生成 下面我们通过图3 1 更加形象地来说明本体所起的功能 通过与人类交流进 行对比 可以看出 本体知识库就类似与人类所掌握的知识 人类正是由于客观 知识的存在才能够互相理解交流 而计算机则是借助本体才能对信息进行理解 交f 图3 1 人与机器交流理解比较 同样的道理 人类利用已掌握的知识可以自己思考推理出新的知识 计算机 利用本体也可以达到同样的目的 3 1 3 本体的分类 根据本体对领域的依赖程度由低到高分为了四个类别 2 2 图3 2 知识本体的分类 1 顶级本体 t o p 1 e v e l0 n t o l o g i e s 描述最普遍的概念及概念之间的关系 如空 间 时间 事件 行为等 与具体的应用无关 其他知识本体均为其特例 当前 可以归为此类的本体主要有知网 英文名称为h o w n e t 和w o r d n e t 两个 2 领域本体 d o m a i n0 n t o l o g i e s 描述特定领域中的概念和概念间的关系 由 于知识和资源的局限性 目前开发的本体大多属于此类 包括本文中构建的本体 3 任务本体 t a s k0 n t 0 1 0 9 i e s 描述特定任务或行为中的概念及概念之间的关系 彰瓣 中文信息的语义数据挖掘技术研究 4 应用本体 印p l i c a t i o no n t o l o g i e s 描述依赖于特定领域和任务的概念和概念 之间的关系 3 2 本体与语义网 语义万维网并没有一个严格的定义 t i mb e m e r s l e e 对语义万维网做了如下 的描述 4 语义万维网并不是一个孤立的万维网 而是对当前万维网的扩展 语 义万维网的信息具有定义良好的含义 使得计算机之间以及人类能够更好地彼此 合作 根据这样的描述 我们给语义万维网作出这样的定义 机器可以理解数据 含义的下一代万维网 称之为语义万维网 语义万维网中的语义表示计算机对某 一个概念 术语或者符号可以理解的 含义 图3 3 语义万维网层次结构 2 0 0 0 年1 2 月1 8 日 t i mb e m e r s l e e 在x m l 2 0 0 0 国际会议上正式提出基于 语义的分层体系结构 即语义网体系结构 2 3 1 如图3 3 所示 图中各层的基本功 能和相互关系见表3 1 表3 1 语义w e b 各层功能及关系 层数名称描述 整个语义w 曲的基础 u n i c o d e 处理资源 第一层u n i c o d e 和u r i 的编码 u r l 负责表示资源 从 第二层 x m l n l x m ls c h e m a 用于表示数据的内容和结构 低 第三层 r d f r d fs c h e m a 用于描述w e b 上的资源及其类型 到 第四层 o n t o l o g yv 0 c a b u l y 用于描述各种资源之间的联系 高 第五层 l o g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年垃圾焚烧发电合作协议书
- 2025年畜牧水产养殖机械项目合作计划书
- 2025年温州市卫生健康委员会直属卫生健康单位面向社会公开招聘116人模拟试卷附答案详解
- Human-VEGFA-mRNA-生命科学试剂-MCE
- HIV-1-IN-83-生命科学试剂-MCE
- 广州铁路安全大数据培训课件
- 2025江苏苏州市相城区教育系统招聘教师30人模拟试卷附答案详解(考试直接用)
- 移动应用开发合同的注意事项
- 2025年春季中国邮政储蓄银行上海分行校园招聘模拟试卷有完整答案详解
- 临街快餐门面租赁合同5篇
- 水利监理人员安全培训课件
- 2025-2026学年岭美版(2024)小学美术三年级上册(全册)教学设计(附目录P148)
- 培训学校前台工作
- 2025党风廉政建设知识题库(含参考答案)
- 第五课 网络的搭建说课稿-2025-2026学年初中信息技术(信息科技)初中二年级(上册)教科版(云南)
- 东岸文化传媒劳务合同4篇
- 上甘岭战役课件
- GB/T 45951-2025科技馆常设展览实施通用流程
- 医院安全生产知识培训课件
- (2025)汽车驾驶员(技师)考试题库及答案
- 中职高考英语一轮复习课件(名词)
评论
0/150
提交评论