(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf_第1页
(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf_第2页
(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf_第3页
(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf_第4页
(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(语言学及应用语言学专业论文)先秦人名知识库的构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 本研究围绕先秦人名知识库的构建,进行了初步系统的分析和实验。主要内容包括 识别先秦人名及其所属诸侯国、构建异名同指和同名异指语料库、构建先秦人名知识库 等相关技术。具体做了以下几项工作: ( 一) 基于机器学习的先秦人名识别 先秦人名和现代人名的构成方式和上下文语境有很大不同。本研究以先秦文献左 传为突破口,对书中的人名进行观察和统计分析,挖掘其内部构成规律及其分布特征, 并且利用c r f 模型对先秦人名进行了识别。 ( 二) 基于机器学习和规则相结合的人名所属诸侯国识别 先秦时期,先后出现了二百多个诸侯国,识别出每个人所属的诸侯国对于历史知识 检索有其必要性。本研究首先分析了人工判断人名国别和诸侯国识别的难点,然后利用 人名所属诸侯国的上下文长距离依赖关系,运用机器学习的方法对人名所属诸侯国进行 识别,最后利用两条启发式的规则纠正了部分误识别的情况,取得了较好的识别效果。 ( 三) 构建先秦异名同指和同名异指语料库 先秦文献中存在着大量异名同指和同名异指的情况,这给阅读和理解先秦文献带来 了极大的不便,也给信息检索带来了困难。因此,构建一个异名同指和同名异指的语料 库就显得十分必要。本研究以自动标注为主,手工校对为辅,参考多本古籍文献,构建 了先秦异名同指和同名异指语料库。 ( 四) 构建先秦人名知识库 先秦人名知识库主要由人名表和人物表构成。人名表主要是为了便于查找人名,表 中只有两个字段,即人物i d 和人名。如果要了解该人的详细资料,则需要根据编号到 人物表里面去查找。人物表包括:人物i d 、人名、性别、诸侯国、生年、卒年、即位 之年、退位之年、身份等。 文章最后对整个系统进行了整合,实现了半自动化地构建人名知识库,并对知识库 中的部分知识进行了统计分析。 关键词:先秦人名,c r f 模型,诸侯国,异名同指,同名异指,知识库 a b s t r a c t a b s t r a c t t h i sp a p e rf o u c so nt h ec o n s t r u c t i o no fk n o w l e d g eb a s eo ft h ep e o p l ei nt h e p r e - q i n i th a sap r i m a r ya n ds y s t e ma n a l y s e s ,i n c l u d i n gt e c h n o l o g i e s :r e c o g o n i z et h e n a m e sa n dt h ec o u n t r i e so ft h ep e o p l ei nt h ep r e o i n ,c o n s t r u c tt h ec o p u so fl a b l i n g d i f f e r e n tn a m e se x p r e s s i n gt h es a n l ep e o p l ea n dt h es a m en a m ee x p r e s s i n gd i f f e r e n t p e o p l e ,c o n s t r u c tt h ek n o w l e d g eb a s eo ft h ep e o p l ei nt h ep r e q i na n ds oo n w eh a v e h a dt h ef o l l o w i n gw o r k s : f i r s t l y , r e c o g o n i z et h en a m e s o ft h ep r e q i nb a s i n go nt h em a c h i n el e a r i n g t h e r ea r eg r e a td i f f e r e n c e sb e t w e e nt h en a m e so ft h ep r e - q i na n dt h en a m e so f t h em o d e mp e o p l ei nt h ef o r m a t i o na n dt h ec o n t e x t w es e ta n n a l so fz u oa st h e s a l i e n c eo ft h i s p a p e r , o b s e r v ea n da n l y s et h en a m e si nt h eb o o k d i s c o v e rt h e f o r m a t i o na n dt h ec o n t e x t ,a n di d e n t i f yt h en a m e so ft h ep r e q i nb a s e do nc r fm o d e l s e c o n d l y , r e c o g o n i z et h ec o u n t r i e so ft h ep e o p l ei nt h ep r e - q i nb a s i n go nt h e m a c h i n el e a r i n ga n d r e g u l am e t h o d s i nt h ep e r i o do fp r e q i n ,t h e r ea r em o r et h a nt w oh u n d r e dc o u n t r i e s ,i ti sn e c e s s a r y t oi d e n t i f yt h ec o u n t r i e so ft h ep e o p l et ot h er e t r i e v eo ft h eh i s t r o r i a lk n o w l e d g e t h i s p a p e ra n l y s e sh o w t h ep e o p l ej u d g et h ec o u n t r i e st h a tt h ep e o p l eb e l o n gt oi nt h ed a i l y l i f ea n dt h ed i f f i c u l t i e so ft h er e c o n g n i t i o no ft h ec o u n t r i e so ft h ep e o p l ei nt h e p r e o i n ,t h e nm a k eu s eo ft h el o n gd i s t a n c ed e p e n d e n c er e l a t i o n so fd i f f e r e n tp e o p l e b e l o n gt od i f f e r e n tc o u n t r i e s ,a n dt h e ni d e n t i f yt h ec o u n t r i e so ft h ep e o p l eb a s i n go n t h em a c h i n e l e a r i n gm e t h o d s ,a tl a s t ,w em a k eu s eo ft w oe l i c i t a t i o nr u l e st oc o r r e c tt h e m i s t a k e s ,i to b t a i n sf a i r l yg o o dr e s u l t s t h i r d l y , c o n s t r u c tt h ec o r p u so fl a b l i n gd i f f e r e n tn a m e se x p r e s s i n gt h es a l i l e p e o p l ea n dt h es a m en a m ee x p r e s s i n gd i f f e r e n tp e o p l e t h e r ea r eal o to fn a m e sa n dp e p l ei nt h ed o c u m e n t so ft h ep r e q i n ,i tb r i n g s m u c hu n c o n v e n i e n tt or e a da n du n d e r s t a n dt h ed o c u m e n t so ft h ep r e q i n ,i ta l s eb r i n g s l o t so fd i f f i c u l t i e st or e t r i e v et h ei m f o r m a t i o n s oi ti sn e c e s s a r yt oc o n s t r u c tt h e c o r p u sa b o u td i f f e r e n tn a m e se x p r e s s i n gt h es a m ep e o p l ea n dt h es a m en a m e e x p r e s s i n gd i f f e r e n tp e o p l e t h i sp a p e rl a b e l sa u t o m a t i c a l l ym o r et h a nh a n d l y , r e f e r st o s e v e r a la n c i e n td o c u m e n t s ,c o n s t r u c t st h ec o r p u so ft h ed i f f e r e n tn a m e s e x p r e s s i n gt h e s a m ep e o p l ea n dt h es a m en a m ee x p r e s s i n gd i f f e r e n tp e o p l e f o u r t h l y , c o n s t r u c tt h ek n o w l e d g eb a s eo ft h ep e o p l ei nt h ep r e q i n t h ek n o w l e d g eb a s eo ft h ep e o p l ei nt h ep r e q i nc o n s i s t so ft h ec h a r a c t e rs h e e t l i a b s t r a c t a n dt h en a m es h e e t t h en a m es h e e to n l yh a st w of i e l d s ,t h a ti st h ei do ft h ep e o p l e a n dt h en a m e s i fy o uw a n tt ok n o wt h ed e t a i l so ft h i sp o p l e ,y o uc a ns e a r c ht h e k n o w l e d g ei nt h ec h a r a c t e rs h e e ta c c o r d i n gt h ei d t h ec h a r a c t e rs h e e ti n c l u d e s :t h e i do ft h e p e o p l e ,n a m e s ,s e x ,c o u n t r i e s ,b i r t hy e a r , d e a t hy e a r , a s c e n dy e a r , a b d i c a t e y e a r , s t a t u sa n d s oo n h lt h ee n d ,t h ep a p e ri n t e g r a t e st h ew h o l es y s t e m ,r e a l i z e st h ec o n s t r u c t i o no ft h e k n o w l e d g eb a s eo ft h ep e o p l ei n t h ep r e - q i n s e m i - - a u t o m a t i o n l y , a n da n l y s e st h e k n o w l e g e si nt h ek n o w l e d g e b a s e k e y w o r d s :t h ep e o p l ei nt h ep r e - q i n ,c r fm o d e l ,c o u t r i e s ,d i f f e r e n tn a m e sr e f e r s t ot h es a m ep e o p l e ,t h es a m en a m er e f e r st od i f f e r e n tp e o p l e ,k n o w l e d g eb a s e i i i 第1 章绪论 第1 章绪论 1 1 问题的提出 1 1 1 人名是我们阅读先秦文献不可回避的一个问题 据我们对春秋左传训练语料进行的统计:在1 4 1 1 7 8 个字中,有9 3 0 7 3 个词例,而其中人名就占了7 7 8 7 个词例。由此可以看出,人名所占的比例非常 高。能否正确的识别人名和了解人名的相关知识,影响到人们对古代文献的理解。 因此,前人编制了大量的人名索引。然而传统的人名索引一般都是人工收集资料, 需要进行细致的寻检和烦琐的统计,容易使人感到枯燥乏味,但又得聚精会神、 耗费心力,而且所投入的时间往往多得难以计数。随着互联网和信息产业的发展, 人名检索逐渐数字化,出现了大量电子版的人名索引系统和人名词典,这极大地 提高了用户检索人名的速度。但几乎所有的信息都是人工录入,要创建一个大规 模、高质量的数据库,需要花费大量的人力、时间以及财力。而且,这些信息都 是零散的、互相孤立的,不利于计算机对古代文献的自动处理,急待于知识结构 化。因此,自动地构建人名知识库显得极为迫切,它将有利于解决这一问题。 1 1 2 古籍数字化的需要 古籍全文检索数据库的出现使古籍的整理和研究取得了突飞猛进的发展,为 研究古籍提供了强大的工具,也为研究先秦文献中的人名提供了重要手段。用户 只要输入一个人名,就能够用关键词匹配方法对全文进行检索,把出现该人名的 相关语句查询出来。古籍全文检索数据库的出现既能让用户快速准确地查找到所 需内容,又能让用户见到原汁原味的古籍,但是也存在着一些缺陷: ( 一) “信息丢失的问题 先秦文献中存在许多异名同指的现象,即不同的人名代表的是同一个人。当 用户搜索某个先秦人名时,会丢失大量与所查询人名相关的重要信息。例如:当 用户想在春秋左传中搜索有关“大叔段”的信息时,它只显示出现“大叔段” 的语句。而在文中,“大叔段”有时被称为“段”、“大叔”、“共叔、“共叔段”、 “京城大叔 或者“鄞共叔”,这就造成了大量关于“大叔段 的信息丢失。 ( 二) “信息太多 的问题 先秦文献中存在着大量的同名异指现象,即文献中同一个人名出现在不同地 方有时表示同一个人,有时表示不同的人。当用户查询一个先秦人名时,会返回 大量的信息,而绝大部分检索结果并不是用户所需要的。例如:当用户在春秋 第1 章绪论 左传全文数据库中搜索有关“夫人姜氏 信息时,会显示文献中所有出现过“夫 人姜氏”的语句。而“夫人姜氏”既可以指“定姜、“鼹姜”、“生姜 、“哀姜、 “文姜 ,还可以指“晋穆侯夫人姜氏 。因此,查询的结果中有许多信息并不是 用户所需要的。 此外,由于不同的用户具有不同的需求,不同用户古文阅读水平也存在一定 的差异,而阅读原汁原味的古籍需要一定的古文功底,这就阻碍了用户快速、全 面而又准确地了解某个人物的信息。而从文本中自动抽取人物结构化信息构建先 秦人名知识库将有助于解决这一问题,可以使检索的内容更加准确全面,更加符 合用户的需要。 1 2 选题意义 ( 一) 方便阅读古籍,为使用者提供便捷的检索方式 传统的手工检索方式,速度慢,查全查准率低。古人治学不讲究学科的精细 划分,文史哲不分,进行古籍检索时,有时为查找一个人、一件事,往往要花费 几小时甚至几天的时间。这种传统的检索方式已经不能适应现代人的需求。古籍 全文检索数据库的出现在一定程度上提高了检索的效率,但是仍有很大局限性。 而先秦人名知识库j 下是针对这些问题提出的,它能为广大用户提供便捷的检索方 式,能够迅速地查找到先秦文献中有关人物的具体信息。 ( 二) 为整理和研究古籍服务,促进先秦文献中人名知识库编制的自动化 手工编制领域知识库往往是枯燥的、费时的、易错的,费用较高,并且只有 具有专门知识( 应用领域知识、知识描述语言知识,熟悉系统的设计与实现) 的 人员才能胜任这种工作。而且,人工编制的知识库很难达到很高的语言覆盖面。 与手工编制相比,用计算机编制先秦文献中的人名知识库,有简便、快速、详尽、 准确等诸多优点,使得以前需耗费数年才能编成的篇幅较多的古籍索引在很短时 间内即可完成,而且其检索功能远远超过供手工检索的有关索引。这样就可以从 根本上解决古籍索引编制步骤繁琐、费工耗时以及错误较多等问题,促使古籍索 引的编制数量成倍增长,质量大为提高,从而给古籍整理研究工作注入新的活力。 使计算机在整理、研究和宏扬中华民族优秀传统文化这一任重而道远的事业中发 挥更大的作用。 ( 三) 推动古文信息处理技术的发展 中文信息处理技术在对现代汉语处理过程中取得了很多成就,但是由于古代 汉语年代已久,与现代汉语在词汇、语法、语义等各个方面存在许多差异,这给 从计算语言学的角度研究古籍文献带来了很多困难。因此,古代汉语的自动处理 2 第1 章绪论 技术进展缓慢。而自动或者半自动地构建先秦人名知识库是对先秦信息处理的一 次有益尝试,为计算语言学者进一步处理先秦文献奠定基础。 1 3 研究方法和研究手段 ( 一) 基于语料库的方法 本研究是在汉达文库古籍文献的电子文本上,对这些原始语料进行标注,并 以自动标注为主,以人工校对为辅。最后,在此基础上做实验,进行定性与定量 分析,从而得出结论。 ( 二) 观察和实验相结合的方法 从语料中观察人名的内部和外部的特征、人名和诸侯国之间的关系以及人名 之间的关系,然后利用这些特征进行实验。 ( 三) 统计和规则相结合的方法 本研究在大规模语料基础上,对人名的内外部特征、人名所属诸侯国的分布 规律进行了分析和统计,然后在统计基础上进行模型训练,并且用规则的方法对 其结果进行校f 。 ( 四) 基于机器学习的方法 单一的基于规则的技术向采用机器学习的技术的发展是目前识别技术的主 流趋势,因为机器学习的方法具有实现简单、扩展性好、抗噪声能力强的特点。 本研究引入了c r f 统计模型,对序列化了的含人名和诸侯国名的语料进行学习, 然后识别出其中的人名,并对其所属诸侯国进行识别。 ( 五) 比较法 本研究运用了横向比较和纵向比较的方法,调整实验的参数和选择有用的特 征。本研究在进行先秦人名及其所属诸侯国识别的时候,通过比较不同的特征模 板对实验效果的影响来选择特征模板以达到最佳的识别效果。 1 4 相关研究综述 1 4 1 中国古籍数字化研究现状及趋势 ( 一) 国外地区 中文古籍数字化最早是从计算机事业最发达的美国开始的。2 0 世纪7 0 年代 末期,o c l c ( o n l i n ec o m p u t e rl i b r a r yc e n t e r 联机计算机图书馆中心) 和r l i n ( r e s e a r c hl i b r a r i e si n f o r m a t i o nn e t w o r k 研究图书馆网) 首先建立了朱熹大学 章句索引、朱熹中庸章旬索引、王阳明大学问索引、王阳明传习录索引、 3 第1 章绪论 戴震原善索引、戴震孟子字义疏证索引等书目检索数据库,用计算机对中 国古籍进行处理。 除了书目数据库的建设外,欧美等国在中文古籍全文数据库的建设方面也取 得了卓越成绩。柏克莱加州大学东亚图书馆从1 9 9 8 年开始实施中文古籍数字化 以来,已对2 0 0 多部古籍进行了数字化处理,通过该数据库读者能够进行浏览阅 读、目录检索和关键词检索。 不过,国外汉学界对中国古籍索引研究最多的当属r 本,据不完全统计,日 本出版的中国古籍索引约占世界各地所出版的全部中国古籍索引的8 0 。 ( 二) 台湾地区 早在1 9 8 4 年,台湾“中央研究院”就开始着手开发“瀚典全文检索系统”。 2 0 多年来,台湾的中文古籍数字化工作一直处于全球领先地位。随着网络检索 技术的发展,台湾的古籍数字化成果现在基本都能提供网上检索服务。目前,已 开发的古籍检索系统还有文物图像研究室资料库检索系统、历史语言研究所藏内 阁大库档案、台湾大学中华电子佛典线上藏经阁大正藏全文检索系统、台湾元智 大学“网路展书读等。 整体来说台湾的古籍数字工程在数据量、技术含量、运作方式等方面均比内 地领先一步。目前网络上能实现全文检索的古籍数据库大部分都集中在台湾。 ( 三) 香港地区 香港的古籍数字化工作开始于2 0 世纪8 0 年代末,成就也非常可观。香港中 文大学从1 9 8 8 年起开展了中国传世典籍数据库的研究工作,成立了“古文献数 据库中心”。自1 9 8 8 年以来,该中心已经先后开发出版了“汉达古籍资料库 系 列光盘,并已提供了约1 ,1 0 0 万字的古籍网络检索服务。 目前,香港商务印书馆正在陆续出版的先秦两汉古籍逐字索引丛刊,由 香港中文大学中国文化研究所采用电脑整理先秦两汉文献而编成,共输入古籍 1 0 2 部,计8 0 0 万字。该索引可以详细展示某部古籍中所用单字的使用频率以及 在句子中出现的具体情况,甚至某字在古籍中的用例、出处等等,为深入研究提 供了极大便利。 ( 四) 大陆地区 在大陆地区也有许多中文古籍被进行数字化处理,但相对于中国台湾、香港 的成果来说,还是有很大差别的。 我国国内的古籍数字化整理开始于2 0 世纪8 0 年代初,先是一些小型古籍检 索系统的出现,但这些都是以个人行为为主,没有大规模的研究成果出现。随后 的二十几年里陆续有各种书目数据库和全文检索数据库出现,其中影响最大的就 4 第1 章绪论 是香港迪志文化公司、上海人民出版社推出的“文渊阁四库全书电子版 的出现,它的出现标志着我国古籍整理在数字化的道路上取得了巨大的技术性的 突破,为以后的古籍数字化整理提供了许多有益的借鉴和尝试。 此外,我国积极开展国际合作,努力推动中文古籍的数字化工作。由中国、 美国的几所大学共同创办的“中美百万册书数字图书馆计划拟对1 0 0 万册图书 进行开发与利用。 目前,古籍数据库的规模在不断扩大,古籍数子化在技术上已经实现了全文 检索和部分标引的功能。然而,古籍数字化自动化程度还很低,检索的功能也有 待于进一步提高。古籍索引编制的自动化处理和智能分析将是未来古籍数字化的 最终方向和理想目标。 1 4 2 人名识别研究现状及趋势 人名识别按照方法的不同,大体可以分为三类:基于规则的方法;基于统计 的方法;统计与规则相结合的方法。目前占主导地位的是后两种方法。 ( 一) 基于规则的方法 基于规则的方法主要是利用两种信息:姓氏用字分类和限制性成分。即:分 析过程中,当扫描到具有明显特征的姓氏用字时,开始触发姓名的识别过程( 这 种激活机制称为“基于姓氏驱动”) ,并采集姓名前后的指界词、称谓词等相关信 息,对姓名的前后位置进行限制。 较早的命名实体识别方法多采用手工构造有限状态机的方法,以模式和字符 串相匹配。典型的系统有用于英语命名实体识别的谢菲尔德大学的l a s l e i i 系 统,爱丁堡大学的l t g 系统。参加第六届消息理解会议的系统大多数采用了基 于规则的方法。 1 9 9 2 年张俊盛等利用姓名库统计得到的姓氏与名字的用字几率,来估计姓 名的几率,然后利用此姓名的概率估值与普通词的概率估值进行无词典的中文姓 名辨识方法。 1 9 9 4 年郑家恒等选取了3 0 万不同类型的文献,分析汉语姓名在各种类型汉 语文本中的分布情况、汉语姓名组成复杂性和自动识别姓名的难点,提出了自动 识别姓名的策略和规则。 2 0 0 1 年罗智勇等从1 0 万条人名库、2 亿字的真实语料库中将姓名用字分为 了9 类,并总结了2 1 条识别规则。 基于规则的命名实体识别方法,小规则测试效果较好、速度快,而且规则可 以保证很高的准确率。但是任何规则体系的覆盖面都是有限的,对于规则覆盖集 合之外的人名就完全无能为力。基于规则的方法通用性不强,一旦增加新特征的 人名,就必须增加新的规则,并对以前的规则重新修订。同时,规则较多时还会 5 第1 章绪论 引起规则之间的冲突。此外,无论是收集如此巨大的人名库、真实语料库,还是 提炼规则都需要大量的人力物力。 ( 二) 基于统计的方法 由于基于规则的方法有许多局限性,所以现在占主导地位的是基于统计的方 法。用于人名识别的统计方法除了传统的概率统计方法,还有一些统计模型:隐 马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 、最大熵模型( m a x i m u me n t r o p y m o d e l ,m e ) 、决策树( d e c i s i o nt r e e ) 以及支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 等学习方法。 1 9 9 3 年宋柔等采用传统的概率统计的方法对中国人名进行识别,针对姓名 语料库来训练某个字作为姓名组成部分的概率值,并用它们来计算某个候选字段 作为姓名的概率,其中概率值大于一定阈值的字段识别为中国人名。 1 9 9 5 年孙茂松等对1 7 4 9 0 0 个姓名样本作了统计,根据产生的姓氏和名字用 字频率表计算每个潜在姓名的概率估值,结合称谓词、指界词、封闭字等相关信 息,使用阈值进行概率筛选,文中还介绍了利用概率信息处理潜在姓名竞争的方 法。 2 0 0 1 年郑家恒在大规模语料基础上提取和分析了中文姓氏和名字用字的使 用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和 姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。 2 0 0 4 年黄德根等提出并实现了一个基于互信息的中国人名识别方法。该方 法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息, 引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等 概念,并对其建立了动态评价函数。 2 0 0 4 年秦文等采用决策树的方法。首先把未登录词识别问题看成一种分类 问题,然后用决策树的方法来解决这个分类问题。从语料库及现代汉语语素数据 库中共统计出六类知识,用这些知识作为属性构建了训练集,最后用c 4 5 算法 生成了决策树。 2 0 0 6 年李丽双等提出并实现了一种基于支持向量机( s v m ) 的q h 文文本中人 名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字 抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多 项式k e r n e l 函数的测试,得到了用支持向量机进行人名识别的机器学习模型。 统计方法的优点在于,对语言的依赖性小,可移植性好。但是,统计识别的 效果依赖于训练语料的大小,所以为了得到较高的识别精度,一般需要大规模的 语料。 ( 三) 统计与规则相结合的方法 6 第1 章绪论 在实际应用中,纯粹的基于统计的方法并不多,统计中或多或少引入一些规 则。该方法主要是先采用统计方法对姓名进行初次识别,然后利用规则机制对其 进行校正过滤。下面介绍几种较典型的统计和规则相结合的综合方法。 1 9 9 9 年王省等首先从人名语料库中抽取姓氏用字和名字用字列表,统计人 名用字在中文人名中出现的概率,并统计出人名前缀,后缀,前导词,后导词的 使用概率。对于容易引起歧义的特殊姓氏用字制定规则列表,利用规则进行识别。 2 0 0 1 年季恒使用了姓名用字概率,针对姓名的上下文和位置等信息制定了 相应规则,获得了不错的识别效果。 2 0 0 1 年黄德根等使用从大规模真实文本语料库得到的统计信息,通过计算 人名用字可信度、构词可信度和接续可信度,并引入了奖惩机制,结合规则对中 国人名进行识别。 2 0 0 4 年张华平等提出了一种基于角色标注的中国人名自动识别方法,根据 字词在人名构成中所起的不同作用,如:姓、名、上文、下文等。首先采取v i t e r b i 算法对分词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,实现 中国人名的识别。 2 0 0 6 年李中国等提出了一种基于篇章信息的中国人名识别算法。首先从标 注语料中提取人名左右边界词语人名用字频度作为系统知识源。识别过程是:首 先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以 召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对 识别结果进行边界校正。 2 0 0 7 年贾宁提出了一种统计模型和规则相结合的中文姓名识别方法。首先 以最大熵模型识别潜在姓氏,然后通过筛选规则对从句子中选出的潜在姓名进行 真伪判定,获得识别结果。 规则和统计相结合的方法,一方面通过概率计算来减少规则方法的复杂性与 盲目性,另一方面通过规则的使用,来降低统计方法对语料库规模的要求。因此, 目前研究基本上都是采取规则和统计相结合的方法,不同之处在于侧重于规则还 是侧重于统计。 1 4 3 指代消解研究现状及趋势 指代消解的研究在近二三十年中受到了格外的关注,先后出现了 m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 、a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 、 a r e ( a n a p h o r ar e s o l u t i o ne x e r c i s e ) 等共指消解相关的国际评测。 许多重要的会 议也都设立了指代消解的专题会议。 1 4 2 1 国外研究概况 7 第1 章绪论 早期指代消解研究主要利用了领域和语言语法知识形成逻辑规则进行消解, 比较具有代表性的方法包括:h o b b s 算法、中心理论、基于句法的方法等。 ( 一) h o b b s 算法 h o b b s 算法是最早用于指代词消解( p r o n o u nr e s o l u t i o n ) 比较有效的算法。 该算法只基于句法信息,采用逆时序遍历句子的语法树,直到找到一个合适的指 代实体,实现了代词h e ,s h e ,i t 和t h e y 的消解。 ( 二) 中心理论 中心理论( c e n t r et h e o r y ) 是一种关于语篇连贯的理论,是由g r o s z 和s i d n e r 等人1 9 8 3 年提出的。他们试图通过关注状态( a t t e n t i o n a ls t a t e ) 去模型化篇章 中的全局焦点和局部焦点。算法的基本思想:如果在u i 中出现人称代词,则从左 到右顺序检测c f ( u i 1 ) 中的实体,直至找到同时满足词汇句法( m o r p h o s y n t a c t i c ) 、约束( b i n d i n g ) 和类型标准( s o r t a lc r i t e r i a ) 的语义实体作为先行语;输入 语句u i ,成生c f ( u i 1 ) ,对c f ( u i 一1 ) i t l l 行排序,计算c b ( u i ) 。 不过无论是h o b b s 算法,还是中心理论,主要都是作为理论模型提出的, 在实际系统上很少直接使用。 ( 三) 基于句法的方法 1 9 9 4 年由l a p p i n l e a s s 提出的算法r a p ( r e s o l u t i o no f a n a p h o r ap r o c e d u r e ) 是比较典型的基于句法的系统。r a p 先通过槽文法( s l o tg r m a m m a r ) 获得文档的 句法结构,并通过手工加权的各种语言特征计算各先行候选的突显性,利用过滤 规则确定先行语,实现句内和句间第三人称代词和反身代词的消解。 1 9 9 6 年k e n n e d y & b o g u r a e v 对l a p p i n & i a s s 的算法作了简化。他们只作 浅层分析,根据所得到的句法信息对各实体( 先行语候选) 赋权值并计算权值的总 和( 突显性) ,最后,利用突显性确定先行语。该算法对第三人称代词消解的准确 度为7 5 。 早期的指代消解方法采用手工建立的逻辑规则进行指代消解,处理的对象主 要是代词,所采用的语料也不是很规范,因此,实验的效果总体不理想,但这 些方法为后来的研究奠定了基础。随着计算机技术的发展,同时由于m u c 和 a c e 评测的召开,极大地推动了指代消解的研究。目前大多数的指代消解研究 逐渐趋向基于语料库的方法,并且取得了不错的性能。比较具有代表性的方法有: 统计方法、决策树方法、聚类方法和最大熵模型等。 ( 一) 统计方法 1 9 9 1 年d a g a n 和i t a i 提出了通过角色同现消解代词“i t ,用那些同现频率 较高的先行语可以作为代词的先行语,使用这种方法消解代词“i t ,精确度达到 8 第1 章绪论 了8 7 ,不过这种方法只考虑了代词的文法角色。 1 9 9 8 年n i y ug e ,j o h nh a l e & e u g e n ec h a r n i a k 建立的统计模型考虑了更多 的因素,除了考虑了代词的文法角色,还考虑了代词与先行语的距离关系,性 数语义类别( 比如,是否是动物) 以及先行语候选重复的次数等,并提出基于贝叶 斯概率模型综合上述四个因素。该模型主要用于消解文档中单数第三人称代词, 包括所有格和反身代词。n i u y ug e 等采用该方法进行了两个实验,成功率分别 为8 2 9 和8 4 2 。 ( 二) 决策树方法 1 9 9 5 年美国麻省大学的m c c a r t h y 设计了一个名为r e s o l v e 的指代消解系 统,采用决策树的方法消解商业投资领域文档的指代关系。系统选用了8 个属性 构成决策树的特征向量,将存在指代关系的特征向量作为正例,将其它的构成反 例。m c c a r t h y 的系统性能并不是十分突出,但是他把判断先行语的问题转化为 分类问题,首次将机器学习的算法引入指代消解,为今后的指代消解开辟了一条 全新的道路。 2 0 0 1 年s o o n 在m c c a r t h y 的指代消解系统基础上,也采用了决策树的算法, 抽取了1 2 个特征,并给出了详尽的实现步骤,并开发出实用的指代消解系统, 用于消解非限定领域的名词短语。该方法在m u c 6 上和m u c 7 语料上的f 值 分别达到了6 2 6 和6 0 4 。 2 0 0 2 年v i n c e n tn g 从系统的框架结构和属性选择两个方面对s o o n 的指代消 解系统进行了扩展。新方法改变了原来训练实例的选择方法,将最可信的先行语 和照应语构成正例,并把属性增加到了5 3 个,该方法在m u c 6 上和m u c - 7 语 料上的f 值分别达到了7 0 4 和6 3 4 。 2 0 0 3 年y a n g 等( 2 0 0 3 ) 提出了基于竞争的双候选模型( t w i n - c a n d i d a t em o d e l ) 。 和以往的消解方式相比,以前的模型考察指代语和一个候选先行语是否具有共指 关系,而他们采用的是指代语和两个候选先行语,一个和指代语具有共指关系( 即 正例) ,另外一个和指代语不具有共指关系( 即反例) 。通过双候选模型的训练能 够帮助学习针对一个指代语正例和反例的区别。 ( 三) 聚类方法 ” 1 9 9 9 年,c a r d i e 和w a n g a t a f f 提出通过聚类( c l u s t e r i n g ) 的方法进行名词短 语的共指消解。与决策树方法不同,该方法是无指导( u n s u p e r v i s e d ) 的学习方 法,而且完全独立于领域。其基本思想是收集篇章中的基本名词短语( b a s en o u n p h r a s e ) ,并采用特征向量来表示各个名词短语,然后在各个特征向量上采用聚 类算法来实现名词短语的共指消解。聚类过程中采用凝聚式方法,每次选择两个 最适合合并的类来进行合并。该方法在m u c 6 语料上的f 值为5 3 6 。 9 第1 章绪论 ( 四) 最大熵模型 1 9 9 7 年k e h l e r 使用最大熵模型进行训练,利用两种方式计算两个实体之间 的共指概率,种方法是由实体间的距离分布计算共指概率,另一种方法是通过 离指代语最近的先行语和其它候选先行语来计算实体问的共指概率。 2 0 0 4 年l u o 的b e l l 树模型、2 0 0 6 年c n i c o l a ea n dg n i c o l a e 的b e s t c u t 方法 和2 0 0 7 年d e n i sa n db a l d r i d g e 的整数线性规划方法在进行全局处理之前都采用 最大熵模型来计算任何两个实体之问的共指概率。 ( 五) 条件随机场模型 2 0 0 4 年m c c a l l u ma n dw e l l n e r 采用基于条件随机域的图分割方法将篇章中 的各个实体表述合并到不存在矛盾的等价类中,其中考虑了共指消解的传递性, 对可能出现的不一致三角情况进行了约束。 1 4 3 2 国内研究概况 与国外指代消解研究相比,中文指代消解研究起步较晚。国内率先从事这一 领域研究的是范继淹和徐志敏两位先生,1 9 8 2 年,他们推出了r j d - - 8 0 人机对 话系统,该系统具有简单的言谈分析功能,可以对语句回答中的代词所指进行确 定处理。 2 0 0 0 年许敏等人对第三人称代词进行了消解,分析各种指代现象并进行分 类,通过语法分析和句子语义平面的主客观信息研究,利用格框架,提出了在上 下文相关的语义环境中进行指代分类的思想。 2 0 0 0 年王凌飞等人探讨了基于中心理论的指代消解在汉英机器翻译中的应 用。他们将指代现象分为分句内指代和上下文中指代,提出了九个限制条件,排 除不可能的指代对象,并利用主题的概念选出指代对象。 2 0 0 1 年王厚峰等人提出了基于h n c ( h i e r a r c h i c a ln e t w o r ko fc o n c e p t s ) 的 指代消解方法。利用各种语义块的类型特点和语义块之间的结构特点,在语义块 内部、语义块之间使用排除规则,然后采用局部焦点优先的原则,在语句序列之 间进行人称代词的消解。 2 0 0 2 年张威等在对语篇中元指代现象进行分析的基础上,提出了句焦点的 概念,并在句焦点集的基础上,用优先和过滤算法实现了元指代的消解。 2 0 0 3 年钱伟采用最大熵模型来解决名词、名词短语和代词间的指代问题。 算法首先把文章中出现的名词、代词、名词短语等看成待消解项,对句子中的每 一对待消解项,计算它们之间的1 1 种特征值,并构成个特征向量。然后利用 最大熵模型,学习特征组合及其相应的权重。在测试阶段,输入所有待消解项两 两之间的特征向量,并给出每一对待消解项之问的指代概率,最后,通过聚类算 1 0 第1 章绪论 法,得出最终的指代链。该方法在m u c 7 语料上测试的f 值达到6 0 2 。 2 0 0 5 年杨佳等采用遗传算法消解人称代词。该方法利用基本的语法、语义 知识,定义了一个差异函数对候选先行语进行评价。实验结果表明,使用遗传算 法的人称代词消解方法平衡了差异函数各因素的作用。 2 0 0 5 年王厚峰提出了一种鲁棒性的汉语人称代词消解算法。结合汉语的特 点,运用了一种弱化语言知识的人称代词消解方法,仅仅用到了单复数特征、性 别特征和语法角色特征。 2 0 0 5 年李国臣提出了一种基于语料库的机器学习方法与优先选择策略相结 合的指代消解模型。该模型充分考虑了与指代相关的若干属性,利用决策树算法 构造过滤器,有效地降低了噪音,大量减少了进入优先选择策略待消解对的数量。 而优先选择策略可以将过滤器不能很好处理的指代现象利用统计学的方法来消 解。 总而言之,现今指代消解技术正在由单一的基于规则的技术向采用机器学习 方向发展。基于机器学习方法将指代消解问题转化为分类问题,通过分类器判断 照应语与每个候选项之间是否存在指代关系,实现指代消解。该方法具有实现简 单、扩展性好、抗噪声能力强的特点。 1 5 章节安排 本研究各章安排如下: 第一章是介绍问题的提出、选题的意义、研究的方法和手段以及相关研究的 综述,包括中国古籍数字化、人名识别和指代消解的研究现状和趋势;第二章介 绍先秦人名的自动识别:第三章介绍了先秦人物所属诸侯国的识别;第四章介绍 了如何半自动地标注语料中异名同指和同名异指现象;第五章对知识库的内涵、 先秦人名知识库的结构、构建模块进行了介绍,并对知识库进行了统计分析。最 后对全文工作进行了总结,并分析了有待于进一步研究的问题。 第2 章先秦人名识别 第2 章先秦人名识别 命名实体识别是自然语言处理的重要内容,它的研究和实现对自动分词、信 息抽取、自动问答、机器翻译等自然语言处理有着重大的实际价值。但目前这方 面的研究主要集中在现代文献领域,古籍中命名实体的识别是古典文献信息化进 程中的关键所在,是一个值得探索研究的问题。 2 。1 先秦人名识别的意义 从计算语言学的角度来看,是否能正确识别人名直接影响着自动分词的精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论