




已阅读5页,还剩61页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于概念网络的信息检索研究与开发实践.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
羹j 二概念弼终鹃镩意梭素硪究与开发实蔑 接要 随慧瓣络信息魏扩张,翔嚣挺翥谤惠检索系绞对巍然语言终楚璐娆力,成 为研究热点。传统的基予关键溺字夏聪配的方式无法憋决复杂的语言关联问题, 些毅酶壹然璐言表达模型试强襄l 磷语义关系,翻矮囊然语言处淫技术实现对 文本信息莳理解和检索。本文在分析已有模型秘方法的基础上,提出了基予溉 念鄹终的接息检索愚想,基在采臻强然语言处毽技术鳐决硷豢系统文本分橱酾 词法和语义问题,既谣言单位的意义 舞穗矗b 掰e 篇 a 艟d b m e = a j g o s e e 4 传统谪典通常是把各类不同的信息旅久一个词汇单元中解释,包捺拼写, 读音,词形变化及派生词,词根,短语时态变换的定义及说明,问义词,反义 词,特殊用法注释,这对n l p 还蹩不够瀚。倒鲦联个名词“穗”,传统的诲典解 释为:是一种大型的,本质的,多年生的植物,具有明显的树干。有的用词更 柏细致:是一稀大型的,术质酌,多年生静,暴有明显蓰于豹挺耪。蒸本土是 上位词十辨识特征。这种定义熙不完整的,没奇谈到树的组织结构如树有根, 有植物纤维壁组减的细鼹,也没有说胡它们是一耱生穆。w o r d n e t 浚交了这一瑰 状,这类信息通过查上位词“植物”就公发现;“树”的词典定义,一般没有包 含对等谪的信愚,不剩予维溺英它释类熬檀物存在翡可性,毽w o r d n e t 可以。 对于各种树都感兴趣读稽来说,除了查遍词典,再也没有别的办法,这也是传 统词典翁缺点。每令天豁有诲多对鼹夔了解( 攀识 ,露滋典缡纂者又没寿终其 编入树的定义中。例如:树有树皮,树枝;它们由种子而生长,长成的树比人 瑟高禧多;嘉光会作瘸测造麝嚣黪营养,它 | 、3 可以用予避弱,挡风,在野夕 森 基于概念网络的信息检索研究与开发实践 林中生长;它们的躯干可以用于建筑及燃料,等等。被遗漏的信息中的大部分 是关于构造性信息,而不是事实性信息。 1 0 w o r d n e t 的最新2 0 版可以免费下载,也可以在线使用,共含1 5 2 0 5 9 个不 同词汇( 串) 和1 1 5 4 2 4 个s y n s e t ,其中名词1 1 4 6 4 8 个和7 9 6 8 9 个s y n s e t ,动 词1 1 3 0 6 个和1 3 5 0 8 个s y n s e t ,形容词2 1 4 3 6 个和i 8 5 6 3 个s y n s e t ,副词4 6 6 9 个和3 6 6 4 个s y n s e t 。 w o r d n e t 的思想简单明确,形式化做得很彻底,已经成为一个事实上的国际 标准。w o r d n e t 框架的合理性已经被词汇语义学界和计算词典学界所公认。国际 上成立了w o r d n e t 协会( t h eg l o b a lw o r d n e ta s s o c i a t i o n ) ,2 0 0 2 年开始每两 年一次召开w o r d n e t 大会( i n t e r n a t i o n a lw o r d n e tc o n f e r e n c e ) ,成百篇文章 介绍如何使用w o r d n e t ,它在国际计算语言学界已有相当的影响。在w o r d n e t 框 架下有b a l k a n n e t 、b a l k a n e t 、i n d i a n n e t 、m u l t i w o r d n e t 等和北大的c c d ( 中 文概念词典) 。当然w o r d n e t 还有缺点,特殊词汇如专有名词不总是存在于 w o r d n e t ,这类词汇的识别需要特别对待;添加多义词( 串) 会大大降低系统有 效性 6 ,4 3 ;对名词、动词等同一词类内的词之间的约束关系作了考察,每类 词各有一个对应的关系集合,但对不同词类之间的约束关系( 比如动词跟名词 之间组合的复杂关系) 在w o r d n e t 中缺少更多的讨论( 仅对副词规定了d e r i v e d f r o m 形容词的关系) 。 2 4 知网( h o w n e t ) 4 4 知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与 概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网哲 学的根本点是:世界上一切事物( 物质的和精神的) 都在特定的时空内不停地 运动和变化,通常是从一种状态变化到另一种状态, 并通常由属性值的改变来 体现。基于上述,知网运算和描述的基本单位分为8 类:万物,其中包括物质 的和精神的两类,部件,属性,时间,空间,属性值以及事件。 知网着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”, “人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性,那 么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病” 的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们 1 2 第:二,章信息检索与自然语言模型分析 的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则 是它们的个性。同时知网还着力要反映概念之间和概念的属性之间的各种关系, 如图2 2 。知网描述了一共1 6 种关系:( 1 ) 上下位,( 2 ) 同义,( 3 ) 反义,( 4 ) 对 义,( 5 ) 部件一整体,( 6 ) 属性一宿主,( 7 ) 材料成品,( 8 ) 施事经验者关系主体 一事件,( 9 ) 受事内容领属物等一事件,( 1 0 ) 工具一事件,( 1 1 ) 场所一事件,( 1 2 ) 时间一事件,( 1 3 ) 值一属性,( 1 4 ) 实体一值,( 1 5 ) 事件一角色,( 1 6 ) 相关。 图2 - 2知网概念关系示例 e n t i t y l 实体 t h i n g l 万物 p h y s i c a l l 物质 m l i m a t e 生物 a n i m a l h u m a n l 动物 h u m a n l 人 h u m a n i z e d l 拟人 a n i m a l l 兽 走兽 牲畜 禽 图2 - 3知网义原层次示意 1 3 茔! 塑垒旦塑塑堕:垦笙窒塑塑兰茎垄塞堕 在知网中每个具体的概念( 词义) 用一系列的义原进行描述,义原是最基 本的、不易于再分割的意义的最小单位。图2 3 是义原的一个层次示意,知网 按采用了1 5 0 0 个义原 2 0 ,4 4 。 通过知识词典的描述语言( k d m l ) ,知网实现了表述的形式化,这对推理和 匹配搜索有直接帮助。每一个词汇的概念及其描述形成一条记录存储在知网的 知识词典,样式 “打”的两条记录 wx = 词语 ex = 词语例子 gx = 词语词性 d e f = 概念定义 n 0 = 0 0 0 0 0 ln o = 0 1 5 4 9 2 wc = 打wc = 扣 gc = vgc = v ec = 酱油,张票,饭,去瓶酒,ec 毛农,毛裤,双毛袜子, 醋来了草鞋,一条嗣巾,麻绳,条辫子 we = b u ywe = k n i t ge = vge = v ee =ee = d e f = b u y l 买d e f = w e a v e l 辫编 知网由设计者和开发者董振东先生在1 9 9 9 年公布,迄今已引起广泛关注, 国内外众多工作对它作了研究 4 4 ,涉及信息检索、问答系统、机器翻译等领域, 并且具备了一定的规模。最新的2 0 0 4 版含中文7 5 5 2 4 词,英文7 3 1 2 7 词,概念 总数2 2 5 4 7 ,记录总数达1 5 0 1 0 0 。 2 5h n c 理论 1 8 4 5 概念层次网络( h i e r a r c h i c a ln e t w o r kc o n c e p t s ) 理论简称h n c ,以语义 表达为基础,面向整个中文自然语言理解,以概念化、层次化、网络化的方式 表达自然语言的语义,试图使计算机能够模拟人脑的语言感知功能。理解句子 有两种思路:一是从组成句子的词语入手( 局部联想) ,一是从句子的整体结构 1 4 第二章信息检索与自然语言模型分析 和上下文语境入手( 全局联想) 。h n c 的出发点就是通过建立两类联想脉络来“帮 助”计算机理解自然语言。 局部联想脉络体现为一个概念表述体系,把概念分为抽象概念和具体概念, 对抽象概念用五元组和语义网络来表达,对具体概念采取挂靠展开近似表达方 法 4 5 。以抽象概念为例,需要从动态、静态、属性、值和效应五个侧面加以 表达,这就是抽象概念的五元组特性,简记为:( v ,g ,u ,z ,r 特性。为表达 抽象概念的内涵,h n c 设计了三大语义网络:基元概念语义网络、基本概念语义 网络和逻辑概念语义网络。语义网络是树状的分层结构,每一层的若干节点分 别用数字来表示,网络中的任一个节点都可以通过从最高层开始、到浚节点结 束的一串数字唯一地确定,这个数字串叫做层次符号。网络上的任何节点本身 都是概念,它们是概念基元,通过不同方式的组合而构成各种各样的、无数的 概念,h n c 定义了8 种组合结构,用以表达复合概念。 五元组符号和语义网络的层次符号的适当组合可以实现对抽象概念的完整 表达。这种表达方式能够显式地表达出自然语言概念之间的关联性,从而有助 于计算机把握和理解。例如,“精神一振奋、无私奉献、锦绣一山河、承担一 责任”精神9 7 1 4 、振奋v 7 1 4 e m 、无私u v c 3 a 2 + u 0 1 1 、奉献v c 3 a 2 + u 0 1 1 、锦绣 x j 2 0 、山河w j 2 0 、承担v c l 3 9 、责任u 1 3 9 。 全局联想脉络是语句及篇章层面的联想。以语句层面的语义块和句类为例。 语义块是句子的语义构成单位,可以是一个词、一个短语或一个句子。h n c 的句 类是句子的语义类别,与传统的旬类是完全不同的概念,后者指陈述句、祈使 旬、疑问句和感叹句,基本上是句子的语用分类。语义块是旬类的函数,语义 块在一个句子中的有无、个数和具体内涵随旬类的不同而不同,语义块与句类 基本构成一对应关系。 h n c 理论由中科院声学所黄曾阳研究员在九十年代后期创立,是一种面向整 个自然语言理解的语义描述体系,包括语句处理、句群处理、篇章处理、短时 记忆向长时记忆扩展处理、文本自动学习处理。层次符号的构造方式把最频繁、 最基本的语义距离计算变成了对层次符号的简单逐层比较,便于计算机把握概 念之间的关联性。自创立之后,h n c 理论得到了广泛重视,如“九五”和“9 7 3 ” 项目,中科院成立了h n c 联合攻关组,北京大正语言知识处理研究院专门从事 h n c 语言知识处理技术及其各类应用软件的研发。 1 5 基于概念网络的信息检索研究与开发实践 2 6 语料库 与直接的规则描述不同,语料库语言学试图从大规模的语料库中发现语言 信息和世界知识,来支持真实文本的n l p 系统。简单的统计方法( 如v s m ,见 2 2 节) 忽略了语苦的相互关联,大规模语料包含了复杂的语法和语义联系现象, 对这些自然语言现象而不仅仅是独立词汇的统计可有助于发现语言规律。这样 的统计模型( 如h i d d e nm a r k o vm o d e l ,h m m ) 含有许多参数,这些参数需要通过 对足够大规模的真实语料的训练学习来获取,实际系统的评测也需要语料库的 参与,从而使得语料库的规模和质量对于统计模型的有效性显得非常重要。语 料库的语言材料必须取自真实的语言环境,训算机可存取,原始语料应经过分 析处理方能成为有用的语料。 百万词级的第一代语料库以语言研究为导向,如b r o w n 、l o b 和l l c 语料库。 第二代语料库达到了千万词级,以词典编撰为应用导向,如c o b u i l d 和l o n g m a n 语料库。现在的第三代语料库建设规模达到上亿词级,采用标准的编码体系 ( s g m l ,x m l ,t e l ,c e s 等) ,为n l p 应用服务,如l d c 、u p e n n 和a c l d c i 语料 库。北京大学、富士通公司和人民日报合作开发了含1 9 9 8 年上半年人民日报 全部文本的语料库,约1 千7 百万字,进行了完整的分词和词性标注。格式样 仞l 如下 6 3 : 历史n 将d 铭记v 这个r 坐标n :w 北纬b 41 1 m 度q 、w 东经b 11 4 3 m 度q :w 人j | f l n 将d 铭i 2 v 这r - - m 时刻 n :w l998 年t 1 月t 1 0 日t 1l 时t50 分t 。w 中国n s 政府n n l ; l 孵l j a d 恢复v 对p 香港n s 行使v 主权n ,w 并c 按照,p “w 一国两f # j ”w 、w “w 港人治港1 ”w 、w 高 度d 自治v 的u 方针n 保持v 香港n s 的u 繁荣a n 稳定a n 。w 根据目前的调查,比较著名的语料库还有台湾中央研究院的平衡语料库,香港 城市大学的中文共时( l i v a c ) 语料库,日本电子词典研究所e d r 的同语语料库 等。 语料库在n l p 的应用有:训练h m m 进行分词、词性标注、词义标注,句法 分析,机器翻译,应用机器学习技术挖掘语料的搭配模式和语言关联规则,n l p 模型训练和评测等。鉴于语料库的重要基础作用,9 7 3 计划“中文信息处理若干 1 6 第二章信息榆索与自然语言模型分析 重要问题研讨会”专门讨论了语料库的建设和规范问题, 1 0 对语料库的类型 和部分语料库作了介绍,特别详述了可以应用的一些统计学方法。 2 7 其它相关研究和开发 w o r d n e t 最初为英语建立了一种词汇知识表述体系,由于思路简单明确,结 合语言学和心理学知识,改善了传统词典的同义信息的组织问题 1 0 ,在世界范 围内得到了大量研究,应用领域有多国语的词汇转换、信息语义层次检索、主 题含义识别、图像检索、文本语义分类、汉语语义分析、网上文本过滤等方丽。 附表2 给出了世界其他语种的w o r d n e t 分布情况。国内的东北大学建立了中文 名词和动词的w o r d n e t 。北京大学的中文概念辞书( c h i n e s ec o n c e p td i c t i o n a r y , c c d ) 1 9 是w o r d n e t 框架下的现代汉语概念词典。一期工程于2 0 0 1 年3 月结 束,共有1 ,6 3 4 个概念( 名词概念7 7 1 个,动词概念4 5 5 个,形容词概念3 5 6 个和副词概念5 2 个) ,最终将至少包含6 0 ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届山东省安丘市红沙沟镇红沙沟中学九年级化学第一学期期中联考试题含解析
- 2026届湖北襄阳五中学实验中学化学九上期中教学质量检测试题含解析
- 2025年教师资格证考试(高中化学)教育知识与能力专项试题
- 2026届北京市通州区九级化学九年级第一学期期末达标检测模拟试题含解析
- 矿山开采项目地质勘查与施工承包合同规范
- 离婚后财产分配及子女监护权调整协议模板
- 离婚后房产及子女抚养权分割补充协议
- 二手房租赁合同中租赁房屋租赁权转让及条件合同
- 专利法考试题目及答案
- 2026届安徽省寿县化学九上期末预测试题含解析
- 面馆员工制度管理制度
- 初中英语仁爱版单词表(按单元顺序)(七至九年级全6册)
- 手术室急危重患者抢救与配合
- 临床用血知识培训课件
- KPI绩效考核管理办法
- 2024年中小学学校传染病疫情及突发公共卫生事件报告制度
- 本科毕业论文完整范文(满足查重要求)城市社区部分居民失业的现状、问题与对策研究
- 生物安全管理体系文件
- 天然气开采流程
- 《新课程标准解读》课件
- 2025年高校教师资格证考试题库(带答案能力提升)
评论
0/150
提交评论