已阅读5页,还剩80页未读, 继续免费阅读
(计算机软件与理论专业论文)规则与统计相结合的音乐领域命名实体识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
:7 三。l , 钆, 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 缢望当 日期:弘f o 年岁月瑁 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:缢叠盏 导师签名: 日期: 弘 警f , 乳 摘要 摘要 音乐是人类史上一个永恒的主题,是人们情感的寄托和外化。随着互联网的 不断发展,人们接触到的音乐信息更是层出不穷,如何从浩瀚的信息中获取感兴 趣的内容是亟待解决的问题。因此,人们迫切需要一些自动化工具对音乐领域的 海量信息进行处理,音乐搜索、音乐个性化推荐、音乐趋势分析等研究便应运而 生。而音乐命名实体( 简称音乐实体) 如歌手名、歌曲名等是音乐信息中最基本 的元素。因此,如何从海量的音乐信息中正确识别出音乐实体是一个非常重要的 研究课题,也是其它相关研究的重要基础。 音乐实体识别是命名实体识别的一个垂直组成部分。现阶段国内外在命名实 体识别方面已经有大量的研究工作,尤其是在人名、地名和机构名的识别上。而 在音乐实体识别方面的研究很少,涉及到中文歌曲名、专辑名识别的更少。因此, 为了准确、全面地识别出音乐实体,我们需要全方位了解音乐领域中命名实体的 特征,并借鉴已有的命名实体识别技术来设计一个中文音乐实体识别系统。 本文研究了中文命名实体识别方法在音乐领域相关w e b 信息中的应用,以便 人们能够快速、准确地将分散在不同网页中的音乐实体抽取出来。本文主要在以 下两个方面开展了工作: 第一,设计了一种分布式网络蜘蛛框架和提出了一种基于d o m 的w e b 主题 信息提取方法,并且改进了分词模块,为音乐命名实体的识别做了准备工作。 第二,通过对音乐实体及上下文特点的分析,提出了一种规则与统计相结合 的音乐实体识别方案。其核心思想为:首先,在分词之前采用基于规则的方法来 识别部分明显的音乐实体。然后,在分词之后引入隐马尔科夫模型来识别大部分 音乐实体。最后,利用音乐实体库和修正规则,对识别结果进行修正。该方法兼 顾了统计与规则两种方法的优点。同时,我们提出了一种新颖、实用的训练语料 标注方案,这使得隐马尔科夫模型在音乐实体识别上变得实际可行。 本文在上述工作的基础上实现了音乐命名实体识别系统。通过测试发现,该 系统具有较高的准确率和召回率,证明本文所提出的方案具有一定的研究意义和 实用价值。 关键词:命名实体识别,音乐命名实体,隐马尔科夫模型,训练语料标注 甲, a b s t r a c t m u s i ci sh u m a n se m o t i o n a ls u s t e n a n c ea n de x t e r n a l i z a t i o n ,s oi t sa l le t e r n a l t h e m eo fh u m a nh i s t o r y w i t ht h er a p i dd e v d o p m e n to fi n t e r n e t ,p e o p l ea ree x p o s e dt o i m m e n s ea m o u n t so fm u s i ci n f o r m a t i o n h o wt oa c c e s sm u s i ci n f o r m a t i o no fo n e s c o n c e r nf r o mt h ew e bi su r g e n t l ya d d r e s s e d t h u s ,t h e r ei sar i s i n gn e e df o ra u t o m a t e d a n de f f e c t i v em u s i ci n f o r m a t i o np r o c e s s i n gt o o l st oa s s i s ti nm u s i cr e t r i e v i n g ,m u s i c p e r s o n a l i z e dr e c o m m e n d a t i o n ,m u s i ct r e n da n a l y s i sa n do t h e rr e l a t e ds t u d i e s m u s i c a l n a m e de n t i t y ( c a l l e dm u s i c a le n t i t yf o rs h o r t ) c o n t a i n ss i n g e r s ,m u s i c a lb a n d s ,s o n g s a n da l b u m s i ti st h eb a s i ci n f o r m a t i o nu n i to fm u s i ci n f o r m a t i o n ,w h i ri sa l s ot h ek e y t ou n d e r s t a n dt h ei n f o r m a t i o n s oh o wt or e c o g n i z e + m u s i c a le n t i t yc o r r e c t l yf o r mt h e h u g en u m b e ro fm u s i ci n f o r m a t i o ni sav e r yi m p o r t a n tr e s e a r c h , a n dab a s i sf o ro t h e r 玎e l a t e ds t u d i e s m u s i c a le n t i t yr e c o g n i t i o ni sav e r t i c a lc o m p o n e n to fn a m e de n t i t yr e c o g n i t i o n a tp r e s e n t ,t h e r eh a v eb e e nal o to fw o r k so nn a m e de n t i t yr e c o g n i t i o n ,e s p e c i a l l yo n t h ep e r s o nn a m e ,p l a c en a m ea n do r g a n i z a t i o nn a m e b u tt h er e s e a r c ho nm u s i c a le n t i t y r e c o g n i t i o ni sr a r e ,e s p e c i a l l yo nc h i n e s es o n gn a m ea n da l b u mn a m e t h e r e f o r e ,i n o r d e rt or e c o g n i z em u s i c a le n t i t ya c c u r a t e l y , w ea d o p ta n di m p r o v ew e l l k n o w nn a m e d e n t i t yr e c o g n i t i o nt e c h n i q u e sb a s e do nt h ec h a r a c t e r i s t i c si nm u s i cd o m m n 1 1 1 i sp a p e rs t u d i e dm u s i c a ln a m e de n t i t yr e c o g n i t i o nt e c h n i q u et oe x t r a c tm u s i c a l e n t i t i e sf r o md i f f e r e n tw e bp a g e sq m c k l ya n dc o r r e c t l y i nt h i sp a p e r , w em a i n l yc a r r i e d o u tt h ef o l l o w i n gt w ot a s k s : f i r s t ,w ed e s i g n e daf r a m e w o r ko fd i s t r i b u t e ds p i d e r , p r o p o s e da m e t h o df o rw e b i n f o r m a t i o ne x t r a c t i o nb a s e do nd o m ,a n di m p r o v e dt h ew o r ds e g m e n t a t i o nm o d u l e t h e yw e r ep r e p a r a t i o n sf o rm u s i c a le n t i t yr e c o g n i t i o n s e c o n d ,b ya n a l y z i n gt h ec h a r a c t e r i s t i c so fm u s i c a le n t i t ya n di t sc o n t e x t ,w e p r e s e n t e dah y b r i da p p r o a c hb a s e do nr u l e sa n ds t a t i s t i c sf o rc h i n e s en a m e de n t i t y r e c o g n i t i o ni nm u s i cd o m m n i t sc o r ei d e aw a sa sf o l l o w s :f i r s t l y , w ee m p l o y e da r u l e - b a s e dm e t h o dt or e c o g n i z es o m em u s i c a le n t i t i e sw i t l le x p l i c i tr u l e si nt l l e i rc o n t e x t b e f o r ew o r ds e g m e n t a t i o n t h e na f t e rw o r ds e g m e n t a t i o n , w ei n t r o d u c e dh i d d e n i i m a r k o vm o d e lt oi d e n t i f ym o s to fm u s i c a le n t i t i e s f i n a l l y , w ec o r r e c t e de r r o r si n r e c o g n i t i o nr e s u l t su s i n gm u s i c a le n t i t yl i b r a r ya n ds o m er u l e s t l l i sa p p r o a c hh a st h e a d v a n t a g e s o fb o t hs t a t i s t i c a la n dr u l e - b a s e dm e t h o d m e a n w h i l e ,an o v e la n d c o n v e n i e n tt r a i n i n gc o r p u st a g g i n gm e t h o dw a sp r o p o s e d ,w h i c hm a d eh i d d e nm a r k o v m o d e l p r a c t i c a l l yu s a b l ei nm u s i c a le n t i t yr e c o g n i t i o n 1 1 1 i sp a p e ri m p l e m e n t e dt h em u s i c a ln a m e de n t i t i yr e c o g n i t i o ns y s t e mb a s e do nt h e a b o v e - m e n t i o n e dw o r k t h ee x p e r i m e n t a lr e s u l t ss h o w e dt h a tt h i ss y s t e mh a dah i g h e r p r e c i s i o na n dr e c a l lr a t e i tp r o v e dt h a tt h eh y b r i da p p r o a c hp r e s e n t e di nt h i sp a p e rh a d c e r t a i nr e s e a r c hm e a n i n ga n da p p l i e dw o r t h i n e s s k e y w o r d s :n a m e de n t i t yr e c o g n i t i o n ,m u s i c a ln a m e de n t i t y , h i d d e nm a r k o vm o d e l , 一 一 一 l r a m m gc o r p u sl a g g l n g i i i 垆秒 k k 黯 目录 目录 第一章引言1 1 1 研究背景及意义1 1 2 国内外研究现状1 1 3 作者所做工作3 1 4 论文章节安排3 第二章命名实体识别概述5 2 1 命名实体识别的方法5 2 1 1 基于规则的方法5 2 1 2 基于统计的方法6 2 1 3 混合方法。7 2 2 命名实体识别相关模型及算法8 2 2 1n g r a m 模型8 2 2 2 马尔科夫模型9 2 2 3 隐马尔科夫模型1 0 2 2 4 数据平滑算法15 2 3 命名实体识别的评测标准17 2 4 音乐命名实体识别。18 2 4 1 音乐命名实体识别的概念1 9 2 4 2 音乐命名实体识别的难点2 0 2 5 本章小结2 2 第三章数据预处理相关技术。2 3 3 1 网络蜘蛛2 3 3 1 1 网络蜘蛛的原理2 3 3 1 2 分布式网络蜘蛛2 4 i v 目录 3 1 3 汉字编码问题2 6 3 2w e b 主题信息抽取2 9 3 2 1w e b 主题信息抽取技术概述2 9 3 2 2 基于d o m 的w e b 主题信息抽取3 0 3 3 分词一3 3 3 4 本章小结3 4 第四章规则与统计相结合的音乐实体识别3 5 4 1 训练语料标注3 6 4 2 基于规则的音乐实体识别3 9 4 2 1 构建规则库3 9 4 2 2 算法描述4 2 4 3 基于统计的音乐实体识别4 2 4 3 1 隐马尔科夫模型的定义4 2 4 3 2 训练隐马尔科夫模型4 3 4 3 3 过滤解码算法4 7 4 4 音乐实体修正过程4 8 4 4 1 音乐实体库的构造4 9 4 4 2 修正过程描述5 1 4 5 本章小结5 l 第五章音乐实体识别系统的实现与评测5 2 5 1 系统总体框架5 2 5 1 1 逻辑架构设计模型概览5 2 5 1 2 逻辑架构设计使用的模式_ 5 5 5 2 系统运行实例。5 6 5 3 系统的测试及分析5 8 5 3 1 实验语料j 。5 8 5 3 2 实验设计5 8 5 3 3 实验结果5 8 v v f 丫 , k e l 目录 5 3 4 结果分析6 0 5 4 本章小结6 1 第六章总结与展望。 6 2 6 1 总结6 2 6 2 展望一6 3 致谢。6 4 参考文献6 5 攻硕期间取得的研究成果6 9 v i y。暑 甲, 良 第一章引言 1 1 研究背景及意义 随着i n t e m e t 的迅猛发展,大量的信息以电子文档的形式呈现在人们面前, w | e b 已成为人们获取信息的一个重要途径。由于w e b 信息呈爆炸式增长,人们迫 切需要一些自动化工具对海量文本信息进行处理。命名实体识别( n a m e de n t i t y r e c o g n i t i o n ,n e r ) 是目前文本信息自动化处理中一个基础而关键的技术。命名实 体( n a m e de n t i t y , n e ) 是文本中基本的信息元素,是文本中的固有名称、缩写及 其他惟一标识,它往往指示了文章的主要内容。命名实体识别是对文本进行理解 的一项前提工作,并越来越得到人们的重视和关注,目前已经发展成一个独立的 研究分支,c o l i n g 2 0 0 2 就有专门的命名实体识别专题【l 】。 命名实体识别是自然语言处理技术的前提和基础,它将识别出文本中的专有 名称及有意义的数量短语并加以归类。在互联网快速发展的时代,研究者们早己 在命名实体识别技术上做了大量研究,从常见的命名实体如人名、地名等识别, 扩展到多个应用领域,包括音乐、生物、产品等各种实体的识别。本文主要介绍 从中文w e b 信息中抽取音乐命名实体的系统。自古以来,音乐就是人类一个永恒 不变的主题,是人们情感的寄托和外化。面对纷繁芜杂的音乐信息,人们迫切需 要一些自动化工具对音乐领域的海量信息进行处理,音乐搜索、音乐个性化推荐、 音乐趋势分析等研究便应用而生。而从音乐信息中识别出歌手名、歌曲名、专辑 名等音乐命名实体( m u s i c a ln a m e de n t i t y , m n e ) 是这些研究中基础且必不可少的 关键技术。因此,进行音乐命名实体识别技术的研究,对中文音乐信息处理具有 极其重要的意义。 1 2 国内外研究现状 国外对于英文命名实体识别的研究开始较早,英文命名实体的识别已经达到 了较高的水平,m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 会议测试的准确率和召回 率可以达到9 7 2 e 茗5 t 2 1 。英文命名实体的识别主要采用基于统计模型和机器学习的 方法,如基于隐马尔科夫模型【3 】【4 】、最大熵模型【5 】【6 1 和支持向量机【7 】等。这些方法利 电子科技大学硕士学位论文 用英文命名实体的词频、词缀等统计信息,并结合一定的句法信息和语义特征来 识别命名实体及确定其类别。 中文命名实体识别的研究起步比较晚,国内外关于中文命名实体识别的准确 率和召回率的报告一般在9 0 左右。这是因为汉语中,词的定义模糊以及缺乏形 态变化,常利用词频信息和用字规律来识别实体。近年来,基于统计的中文命名 实体识别方法是研究的主流。已有的中文命名实体研究方案,可以根据研究范围 的不同,分为两种【8 】: 一种是个别解决方案,只识别某一类命名实体。由于中文人名、地名和机构 名的内部组成规律和上下文知识不同,这种方案针对某一类命名实体的特点,提 出了有效的识别方法。但是这种方案忽视了不同种类命名实体间的歧义问题。 针对中文人名的特点,大多数的研究方案对姓氏与名字用字进行统计得到它 们的概率值,依此计算人名的概率值,并根据给定的过滤阈值对人名进行取舍【9 】。 此外,人名作为一种特殊名词,常与称谓词、具有指示作用的动词或副词等接续 出现。利用这部分特征信息的识别特点是:以规则方式对人名的识别起到校正或 过滤筛选的作用【l o 】;在统计意义上对人名进行分级,从而影响到过滤阈值的确定 【1 1 】;采用人名的接续可信度进行定量描述【1 2 】。部分方案还采用机器学习的方法识 别人名,如利用贝叶斯分类算法【1 3 】计算某字串成为人名和非人名的概率。 地名识别的研究方案较少,一般利用从大规模地名词库和真实文本语料库得 到的统计信息计算地名可信度【1 4 1 ,并可以通过针对地名及其上下文的特点总结出 来的规则对地名进行筛选【1 5 】。此外,还有基于变换【1 6 1 和支持向量机【1 7 】等统计方法 的地名识别方案。 机构名的组成结构比人名和地名复杂,识别相对困难。文献【1 8 】中首次从语法 和语义方面分析机构名的特点,总结机构名的组织规律,奠定了机构名研究的基 础。近年来,还出现了基于隐马尔科夫模型【1 9 】、最大熵模型【2 们、层叠条件随机场 模型【2 l 】等统计模型的研究方案,是机构名识别方法的有效尝试。 另一种是一体化解决方案,可以同时识别多种命名实体。这种方案考虑了人 名、地名和机构名的共同特点,能够有效地解决多种命名实体间的歧义问题。但 是,它不能充分地分析不同命名实体间的差异性,制约了整体的识别性能。 一体化解决方案同时识别人名、地名和机构名,需要分析各种命名实体的特 点以建立合理的识别方法。部分方案根据命名实体的特点,建立共性规则和个性 规则【2 2 】来识别命名实体;但是为了克服规则的局限性,大多数的方案采用机器学 习的方法实现命名实体的自动识别,如:基于层叠隐马尔科夫模型的词法分析方 2 妒 , k r l 第一章引言 法【2 3 】【2 4 1 、基于决策树【2 5 】和基于组块【2 6 】的识别方法等。 1 3 作者所做工作 本文主要研究了中文命名实体识别方法在音乐领域相关w e b 信息中的应用, 以便人们能够快速、准确地将分散在不同网页中的音乐实体抽取出来。这一课题 在中文音乐信息处理上具有较大的创新性,可以概括为以下几个方面: ( 1 ) 通过查阅国内外大量相关技术文献,并结合音乐实体及上下文中存在大量 规则和统计信息的特点,提出了一种规则与统计相结合的音乐实体识别方 案。该方案在分词之前采用基于规则的方法和在分词之后采用基于隐马尔 科夫模型的方法来分别识别音乐实体,最后利用规则对识别结果进行修 正。该方案充分兼顾了统计与规则两种方法的优点,有效地解决了音乐实 体识别的难点。 ( 2 ) 在基于规则的音乐实体识别方法中,规则库的构建是关键。为了既快速又 完善地构建规则库,本文提出一种先由机器自动提取规则,再由人工进行 筛选的规则库构建算法。其中,规则自动提取过程利用音乐实体的上下文 中的统计信息来提取规则。 ( 3 ) 在实现基于隐马尔科夫模型的音乐实体识别方法时,需要一个规模大质量 好的适合于音乐实体识别的训练语料库。但是,能用于音乐命名实体识别 的开放型训练语料几乎没有。为此,本文提出了一种既快速又准确的训练 语料标注算法。 1 4 论文章节安排 第1 章阐述了本文的研究背景和国内外研究现状,介绍了本文的研究内容以 及论文章节安排。 第2 章总结了中文命名实体的研究方法,概述了命名实体识别的相关统计模 型和数据平滑算法,介绍了命名实体识别系统的评测标准,以及详细讨论了音乐 命名实体识别中存在的难点。 第3 章详细介绍了音乐命名实体识别前的数据预处理相关技术,包括分布式 网络蜘蛛、基于d o m 的w 曲主题信息提取和分词。 第4 章详细阐述了规则与统计相结合的音乐实体识别方法的实现思想,包括 3 电子科技大学硕士学位论文 训练语料标注、基于规则的音乐实体识别方法、基于隐马尔科夫模型的音乐实体 识别方法、以及音乐实体修正过程。 第5 章阐述了音乐命名实体识别系统的设计原理和总体框架,并且。测试和 分析了音乐命名实体识别系统的识别性能。 第6 章总结了目前存在的问题,以有对未来的展望。 4 v k 第二章命名实体识别概述 第二章命名实体识别概述 命名实体识别( n e r ) 是文本信息处理的重要基础,并逐步成为自然语言处 理的项关键技术。命名实体识别的任务主要是辨别出文本中的命名实体( 一般 为专有名词和有意义的数量短语) ,并确定其类别。下面将主要介绍命名实体识别 的方法、统计模型以及评测标准,并详细讨论音乐命名实体识别的概念和难点。 2 1 命名实体识别的方法 目前,命名实体识别的方法主要分为三大类别:基于规则细l e b a s e d ) 的方法、 基于统计( s t a t i s t i c - b a s e d ) 的方法和混合方法( h y b r i d ) 。 一般来说,基于规则的方法的识别结果要优于基于统计的方法,精确度较高。 但是规则往往依赖于具体语言、领域、文本格式,可移植性差,编制过程费时费 力且容易产生错误,需要富有经验丰富的语言学家才能完成。且规则不可能涵盖 所有的命名实体,当从一种语料转移到另一种语料时,为保证不损失性能,往往 还要花费很多工作在规则的重新提取上,因此性价比不高。相比而言,基于统计 的方法利用人工标注的语料或者生成语料进行训练和学习,标注语料时不需要广 博的语言学知识,知识的获取大部分是通过机器完成,客观性比较强。因此,这 类系统在用到新的领域时可以不做或少做改动,只要利用新语料进行训练即可, 具有较好的可移植性。此外,基于统计的系统要移植到其他自然语言也相对容易 一些。但是基于统计的方法需要大规模的语料供其训练,并且对其依赖性较强。 分析综合上述两种方法的优缺点,把基于规则的方法和基于统计的方法结合起来, 取其长处,弥补其不足,这类方法即规则与统计相结合的方法。该方法在使用大 量的语料进行训练的同时,也收集提取尽可能多的语言知识和规则,为有效地进 行命名实体识别提供支持。 2 1 1 基于规则的方法 在命名实体识别研究的开始阶段,基于规则的方法占主导地们,在m u c 6 和 m u c 7 中得到了很好的体现。n y u 的命名实体识别系统“p r o t e u s 就是这种方法 的典型代表【明。其他还有k r u p k a g r 等的n e t o w l 系统1 2 8 、b 1 a c kw j 等的f a c i l e 5 电子科技大学硕士学位论文 系统【2 9 1 。 基于规则的命名实体识别主要依靠专有名词词典和规则来识别实体。一般总 是把一些常用的人名、地名、组织机构名等专有名词收入词典作为基础,对于词 典中没有的实体,则通过规则来识别。各种命名实体有自己的构成规则,比较简 单的中文命名实体构成规则可以举例如下: 组织名一 【人名 组织名 地名 【核心名 ) 叮组织类型 人名一 地名一 宰 还可以利用实体本身和上下文关系以及用词情况等等,例如“教授 后面可 能会接一个人名。 一般而言,规则并不能一次写好,往往需要通过一个调试的过程。典型的做 法是利用一个语料去测试规则,找出规则不能正确识别的名字,分析原因,对规 则进行修改。如此反复,直到达到一个可以接受的准确率为止。 基于规则的系统,通过分析命名实体的内部和外部特征,人工构造规则模板 实现命名实体的识别。基于规则的方法在规则较少时测试效果较好,速度快。但 是,规则的编写需要语言专家对语言规则的深入理解,对语言知识要求较高,需 要很大的人力物力。另外,规则较多时还会引起规则之间的冲突,而且在某一种 语言上编写的规则在其他语言上移植困难,通用性不强。 2 1 2 基于统计的方法 统计的方法是通过对标注语料的训练模型,从语言现象中学习,自动判别命 名实体。与规则的方法相比,带标语料的构建代价是很小的,他对构建者的要求 也很低,不需要构建者具备计算语言学的知识。在m u c 7 会议上,基于机器学习 方法的命名实体识别系统取得了与基于规则的系统相媲美的效果。因为带标语料 的大量出现和规则系统的缺点,基于统计的命名实体识别方法己经成为主流。各 种机器学习方法的都被使用到命名识别中,并且取得很好的效果【3 们,如隐马尔科 夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 【3 l 】【3 2 】、最大熵模型( m a x i m u me n t r o p y m o d e l ,m e ) 3 3 】【3 4 】【3 5 】、支持向量机( s u p p o r t v e c t o r m a c h i n e s ,s v m ) 【3 6 1 、条件随 机场方法( c o n d i t i o n a lr a n d o mf i e l d s ,c r f ) 3 7 】【3 8 1 。另外将多种机器学习策略结 合使用也是一种较好的方法。 6 v 叠 、 、 第二章命名实体识别概述 2 1 3 混合方法 实际应用的命名实体识别系统往往综合运用规则与统计方法,取长补短。下 面介绍几种较典型的混合方法: ( 1 ) 角色标注方法( r o l et a g g i n g ) 张华平等【2 3 】首先应用隐马尔科夫模型并使用角色标注的方法来进行中国人名 的识别。该方法的基本思想是:首先对人名的内部构成角色进行有选择的分类; 然后通过对带标注语料的学习,得出隐马尔科夫模型的参数:接着用v i t e r b i 算法, 对句子的粗分结果进行角色标注;最后在角色序列上进行模式串识别,并最终识 别出中国人名。 具体步骤如下: 幻人工指定角色表。如:姓、名、人名的上下文、是否成词、无关词等共 1 5 种角色; b ) 从已切分标注的语料中抽取不同角色的出现概率和角色间的转移概率,训 练隐马尔科夫模型的参数; c ) 利用上面生成的模型对粗切分的序列使用v i t e r b i 算法实现角色自动标注, 得到标注的角色序列; d ) 最后在角色序列上进行模式串识别,并最终识别出中国人名。为了解决名 与其上下文成词的问题,还要对角色进行分裂处理等一系列标注后处理。 基于角色标注的中国人名识别算法自动学习、自动识别,无需人工的直接干 预;只要改变训练样本,就可以适应新的情况;一次扫描,无需回溯,同时选取 所有可能字段作为候选人名,识别处理作用在整个切分序列上。在大规模真实语 料库上的不同测试表明,该方法能够取得较高的正确率和召回率。 基于角色标注的命名实体识别方法虽然是一种基于统计机器学习的方法,但 角色集合的确定却是人为制定的,引入了人类的语言学知识和世界知识。因此可 以认为,该方法体现了规则和统计相结合的思想。 ( 2 ) 基于类的语言模型方法 基于类的语言模型【3 9 】进行专名自动识别,与角色标注的方法有相似之处,都 是先利用内部信息产生候选专名,再计算产生概率,并利用v i t e r b i 算法搜索概率 最大的标注序列来识别。该方法与角色标注方法的差别在于,它所标注的是类的 序列而不是角色的序列;并且将分词过程和命名实体识别过程合一进行,能够更 有效地避免由于分词错误而导致专名识别错误。 7 电子科技大学硕士学位论文 该方法使用了一个基于类的语言模型,它将专名分为三种:人名、地名和机 构名,并将每种都定义为一个类;而对词典中的其他词,每一个都分别定义为一 个类。为了便于表达每类专名的不同结构,每个专名类进一步被分为若干子类。 类的定义也是人工进行的,融合了专名识别的语言学知识。 2 2 命名实体识别相关模型及算法 基于统计的命名实体识别方法中用到的统计模型是一种语言模型( l a n g u a g e m o d e l ) ,是描述自然语言内在规律的数学模型。它通常是一种概率模型,即计算 机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能 性,从而描述自然语言的统计属性。本节将主要介绍音乐命名实体识别系统涉及 到的三种模型:n g r a m 模型、马尔科夫模型和隐马尔科夫模型。另外,简单介绍 统计语言模型中的数据稀疏问题,以及常用的数据平滑算法。 2 2 1n - g r a m 模型 n g r a m 模型【4 0 】是一种典型的基于统计的语言模型。设w 是文本中的任意一 个词,如果已知它在该文本中的前两个词w 一:w _ l ,便可以用条件概率p ( w ll 心一:w 一。) 来预测w 出现的概率,这就是统计语言模型的概念。般来说,如果用变量矽代 表文本中一个任意的词序列,它由顺序排列的个词组成,即w = w ,- w 2 峨,则统 计语言模型可表述为该词序列形在文本中出现的概率p ( 矿) 。利用概率的乘积公 式,尸( 形) 可展开为: p ( w ) = p ( w 1 ) p ( w = 1w 1 ) p ( w 31w 2 川) 。p ( 1w l w = 。嵋一1 ) ( 2 1 ) 不难看出,为了预测词心的出现概率,必须知道它前面所有词的出现概率, 这种方法太复杂了。如果任意一个词w 的出现概率只同它前面的两个词有关,问 题就可以得到极大的简化,这时的语言模型就叫做三元模型( t r i g r a m ) : p ( 形) = p ( w 1 ) p ( w 2fm ) 兀p ( 1w 一:心一。) ( 2 2 ) i = 3 n 一般来说,元模型就是假设当前词出现的概率只与其前面的一1 个词有 关。当n = 1 时,即为一元模型,每个词出现的概率只与其本身有关,相当于词频 表,给出所有词出现的频率;当n = 2 时,即为二元模型,每个词的出现概率仅依 i , , 第二章命名实体识别概述 赖于它前面一个词的出现概率,相当于一个转移矩阵,给出每个词后面出现另一 个词的概率;当= 3 时,即为三元模型,相当于一个三维转移矩阵,给出每个词 对后面出现另一个词的概率。但是随着的增长,该模型的参数呈的指数性增 长,所以在实际应用中,一般取n 3 。通常,这些概率参数都是可以通过大规模 语料库来计算的。比如三元概率有: p ( 心1w - 2 w _ ) 竺型坐g 掣 ( 2 - 3 ) 式( 2 3 ) 中c o u n t ( ) 表示一个特定词序列在整个语料库中出现的累计次数。 但是如果概率参数中的稀疏问题非常严重,即p ( w ) = 0 ,则说明该序列在文 本中出现的概率为零。这显然是不实际的,训练语料中没有出现的词序列并不代 表在所有的文本中都不会出现。缓解该问题的一个有效的方法就是进行平滑处理。 现在已有的平滑技术多种多样,但是通常必须满足的一个基本约束条件: p ( l 一1 ) = 1 ( 2 - 4 ) 2 2 2 马尔科夫模型 统计模型的基本假设是自然语言可以用随机过程来刻画,而随机过程中的参 数可以精确地估计。俄国化学家m a r k o v n i k o v 于1 8 7 0 年提出的马尔科夫模型 ( m a r k o vm o d e l m m ) ,是一种描述随机变量序列信息的统计模型【4 2 】。在该统计模 型中,每一个状态转换都有一个相应的概率。 如果一个系统有个状态s ,是,鼠,随着时间的推移,该系统从某一状态转 移到另一状态,我们将在t 时刻的状态记为吼。对该系统的描述通常需要给出系统 的当前状态( t 时刻的状态) 及其之前的所有状态:系统在t 时刻处在状态s 的概 率取决于1 ,2 ,t 一1 时刻的状态,该概率为: p ( q ,= 马| g f 一。= 置,q h = & ,) ( 2 - 5 ) 。 如果在特定情况下,系统在时间t 的状态只与其在时间f 一1 的状态相关,则该 系统构成一个离散的一阶马尔科夫链: 尸( g f = si q t 一,= 墨,q t 一:= & ,) = p ( q ,= - 孓lg f 一,= s ) ( 2 6 ) 9 电子科技大学硕士学位论文 进一步,我们只考虑独立于时间t 的随机过程: p ( q ,= ql q f - l = 墨) = a u , i l ,j ( 2 - 7 ) 该随机过程为马尔科夫模型。其中状态转移概率嘞必须满足: , a u o 且a q = 1 = l 马尔科夫模型是描述随机过程的统计学习方法。它提供了一种基于训练数据 的概率而自动构造识别系统的技术,被广泛应用到自然语言处理的各个领域,成 为基于统计的自然语言处理的重要方法,是自然语言处理领域的重要成果之一。 2 2 3 隐马尔科夫模型 在隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 中,观察到的事件是状态 的随机函数。模型的状态转移过程是不可观察( 隐蔽) 的,我们只能看到各个时 刻的输出值。在给出h m m 2 4 】模型的定义描述之前,先看一个投币试验的例子。现 有多个不同种类的硬币,不同的硬币具有不同的均匀度,有一个人在幕后用一批 硬币进行多次试验,这个人根据自己的爱好随机的选择不同硬币来投掷,一般他 根据前次投掷的硬币类型确定进行本次投掷所采用的硬币类型,所观测到的仅是 投掷结果。采用什么样的模型来描述这个试验呢? 为简单起见,观察只有两种硬 币的模型。记观测到的序列为:y = ( y l ,y :,y r ) ,其中y i h ,k ) ,h 表示正面, k 表示反面,称之为观测量。而观测前,选取了相应的硬币类型,称之为确定状 态,用以下式子表示:x = ( x a ,x 2 ,而) ,誓 u ,乃,其中v ,矿表示两种不同的类 型的硬币,鼍表示取定的硬币类型也就是状态序列,遵从所谓的马氏性随机规律, 或称为马氏链。但硬币的类型是观测不到的,即为隐状态,因为不同类型的硬币 具有不同的均匀度。因此,在不同的状态下产生观测量的概率分布具有一定的差 别。根据观测量来估计那个人选取得硬币类型序列,这一模型就是标准的隐马氏 模型。 为了把h m m 模型的概念推广到稍许复杂一点的情况,再来看另外一个例子 “球与缸 的实验,如图2 1 所示。 设有n 个缸,每个缸中装有许多彩球,球的颜色可能有m 种。现在进行如下 实验产生出一个输出符号( 颜色) 序列:根据某个初始概率分布,随机选择一个 1 0 第二章命名实体识别概述 缸,从中随机地取出一个球,记录球的颜色作为第一个输出符号,并把球放回原 来的缸中。然后按照某个转移概率分布( 与当前缸相联系) 选择下一口缸( 也可 能仍停留在当前缸) ,并从中随机取出一个球,记下颜色作为第二个输出符号。如 此重复地做下去,这样便得到一个输出序列。需要注意的是:缸( 状态) 间的转 移( 状态序列) 不能被直接观察,即被隐藏起来了;从缸中所选取的球的颜色( 符 号) 和缸( 状态) 并不是一一对应的,而是由缸中彩球数目分布来随机决定的; 每次选取哪个缸( 状态) 是由一组转移概率来决定的。 输出颜色序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区域化团建工作制度
- 医学检验科工作制度
- 医美皮肤科工作制度
- 医院园林组工作制度
- 医院针炙科工作制度
- 博士生基本工作制度
- 卫生局禁毒工作制度
- 卫生院卫生工作制度
- 卫生院降消工作制度
- 厅消防安全工作制度
- CJ/T 266-2008 饮用水冷水水表安全规则
- 2024年广东省东莞市常平镇机关事业单位招聘编外86人历年(高频重点提升专题训练)共500题附带答案详解
- 2024山东特检集团招聘24人公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 2022室外排水设施设计与施工-钢筋混凝土化粪池22S702
- 2022版义务教育(道德与法治)课程标准(附课标解读)
- 2.1.2城乡区位分析课件高一地理
- 设计学研究方法书
- 农业科技成果转化与推广应用管理实践
- JCT2278-2014 加工玻璃安全生产规程
- 绿野仙踪剧本
- 巴中市南江县2022-2023学年数学六年级第二学期期末学业水平测试模拟试题含解析
评论
0/150
提交评论