




已阅读5页,还剩51页未读, 继续免费阅读
(计算机系统结构专业论文)基于多特征融合的中文自动问答系统研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多特征融合的中文自动问答系统研究与设计 摘要 随着以计算机与互联网为代表的信息采集、存储和处理技术的飞速发展和 广泛应用,现代社会的信息急剧膨胀,如何更准确、快捷地从海量信息中获取 用户真正需要的信息成了一个越来越重要的课题。 问答系统由于具有能理解用自然语言表达的问题、可精确定位和抽取问题 的正确答案的特点,成为解决此问题的有效手段,是该领域研究的热点之一。 本文从设计实用中文自动问答系统的角度出发,在分析现有问答系统不足的基 础上,针对中文语言和中文问题的特点,围绕问答系统的问题理解、信息检索 和答案抽取等部分的关键技术问题展开研究,以期提高问答系统的性能。 本文的主要工作如下: ( 1 ) 针对问题理解中的问题分类技术,在分析中文问题中的疑问词、中心 词与问题类型之间关系的基础上,结合中文语言和中文问题的特点,提出了基 于疑问词中心词启发式规则的问题分类方法,并通过实验验证了这种分类方法 的有效性。 ( 2 ) 对于信息检索部分的设计问题,在分析现有信息检索技术的基础上, 建议在开源全文检索框架l u c e n e 的基础上,通过改进其中的文档评分方法,来 构造适合于中文问答系统的文档检索器。 ( 3 ) 为提高答案抽取部分的准确性,在参考句子全信息特征的基础上,提 出了一种基于多特征融合的答案抽取方法。该方法充分利用问题与答案之间存 在的相似信息,在词形、句法、语义三个层次上同时考察问题句与候选答案句 的相似度,把问题与答案在语义上的意相似性和句法上的形相关性统一起来, 以更精确的完成答案检索以及答案抽取工作。实验证明,这种方法能够提高答 案抽取的精度。 ( 4 ) 在以上研究基础上,本文开发了一个中文问答原型系统。 关键词:中文自动问答系统,问题分类,信息检索,答案抽取,语义相似度 r e s e a r c ha n dd e s i g no fc h i n e s eq u e s t i o na n s w e r i n g s y s t e mb a s e do nm u l t i f e a t u r e sc o m b i n a t i o n a bs t r a c t t h e r a p i dd e v e l o p m e n t a n d a p p l i c a t i o n o fi n f o r m a t i o n t e c h n o l o g y c h a r a c t e r i z e db yc o m p u t e ra n di n t e r n e t ,s u c ha si n f o r m a t i o na c q u i s i t i o nt e c h n o l o g y , s t o r a g et e c h n o l o g y , a n dp r o c e s s i n gt e c h n o l o g ye t c ,h a sb r o u g h t a ne x p l o s i v e g r o w t ho fi n f o r m a t i o n h o wt oe x t r a c ti n f o r m a t i o n t h a tu s e r sr e a l l yn e e df r o ml a r g e v o l u m eo fi n f o r m a t i o na c c u r a t e l ya n dr a p i d l yh a sb e c o m eam o r ea n dm o r e i m p o r t a n ti s s u e s c h a r a c t e r i z e db yt h ea b l i t yo fu n d e r s t a n i n gq u e s t i o n se x p r e s s e db yc h i n e s e l a n g u a g e a n dt h ea b l i t yo fl o c a t i o na n de x t r a c t i o nr i g h ta n s w e r , q u e s t i o n a n s w e r i n gs y s t e m ,a b r e v i a t e db yq a s ,i so n e o ft h ee f f e c t i v em e t h o d st ot h ea b o v e i s s u e sa n dh a sb e e no n eo ft h eh o tt o p i c si nt h a tf i e l d a i m i n ga td e s i g n i n ga n a p p l i e dc h i n e s eq a s ,o nt h eb a s i so ft h ea n a l y s i so ft h ed e f i c i e n c yo ft h e d e v e l o p e dq a s ,k e yt e c h n i q u e si nq u e s t i o nu n d e r s t a n d i n gc o m p o n e n t ,i n f o r m a t i o n r e t r i e v a lc o m p o n e n t ,a n da n s w e re x t r a c t i o nc o m p o n e n te t c ,w e r es t u d i e di nt h i s d i s s e r t a t i o ni no r d e rt oi m p r o v et h eq a sp e r f o r m a n c e t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) f o rt h eq u e s t i o nc l a s s i f i c a t i o np r o b l e mi nq u e s t i o nu n d e s t a n d i n g ,b a s e do n t h ea n a l y s i so ft h er e l a t i o nb e t w e e ni n t e r r o g a t i v e sa n da n s w e rt y p e sa n dt h er e l a t i o n b e t w e e nh e a dw o r d sa n da n s w e rt y p e si nc h i n e s el a n g u a g ea n dc h i n e s eq u e s t i o n s , aq u e s t i o nc l a s s i f i c a t i o nm e t h o db a s e do ni n t e r r o g a t i v e h e a d w o r dh e u r i s t i cr u l e s w a sp r o p o s e da n di t sv a l i d i t yw a st e s t i f i e db yt h ee x p e r i m e n t si nt h i sd i s s e r t a t i o n ( 2 ) f o rt h ed e s i g no ft h ei n f o r m a t i o nr e t r i v a lc o m p o n e n t ,o nt h eb a s i so ft h e t h ea n a l y s i so ft h ev a r i o u si n f o r m a t i o nr e t r i v a lt e c h n i q u e s ,t h i sd i s s e r t a t i o np r o p o s e t h a tw ec a nu s et h eo p e ns o u r c ef u l l t e x ts e a r c hs o f t w a r e ,l u c e n e ,t od e v e l o pt h e c h i n e s ed o c u m e n ts e a r c h e rb ym o d i f y i n gt h ed o c u m e n ts c o r i n gm e t h o di ni t ( 3 ) a i m i n ga ti m p r o v et h ea c c u r a c yo ft h ea n s w e re x t r a c t i o n ,o nt h eb a s i so f s e n t e n c e sf u l li n f o r m a t i o n ,an e wa n s w e re x t r a c t i o nm e t h o db a s e do nm u l t i f e a t u r e sc o m b i n a t i o nw a sp r o p o s e d b yu s i n go ft h es i m i l a r i t e sb e t w e e nt h e q u e s t i o na n di t sa n s w e ri nm o r p h o l o g y , s y n t a xa n ds e m a n t i c s ,t h ep r o p o s e dm e t h o d c a nl o c a t ea n de x t r a c ta n s w e rm o r ea c c u r a t e l yb e c a u s ei ti n t e g r a t e st h ec o n t e n t s i m i l a r i t yi ns e m a n t i c sa n ds e n t e n c es t r u c ts i m i l a r i t yi nm o r p h o l o g ya n ds y n t a x t h ee x p e r i m e n ts h o w st h a tt h em e t h o dc a ni m p r o v et h e a n s w e re x t r a c t i o na c c u r a c y ( 4 ) aq a sp r o t o t y p ew a sd e v e l o p e d0 1 1t h eb a s i so ft h ea b o v er e s e a r c hr e s u l t s k e y w o r d s :c h i n e s eq u e s t i o na n s w e r i n gs y s t e m ,q u e s t i o nc l a s s f i c a t i o n , i n f o r m a t i o nr e t r i e v a l ,a n s w e re x t r a c t i o n ,s e m a n t i cs i m i l a r i t y 插图清单 图1 1 问答系统体系结构4 图2 1 中文问题理解处理流程6 图2 2 基于疑问词中心词问题分类流程图1 2 图2 3 各类问题的分类准确率1 3 图3 1 信息检索系统框架1 6 图3 2 倒排索引结构2 1 图3 3l u c e n e 系统结构与源码组织2 2 图4 1 语句全信息特征:2 7 图4 2 基于多特征融合的答案抽取过程3 4 图5 1 原型系统框架3 7 图5 2 后台数据索引器3 9 图5 3 原型问答系统界面3 9 图5 4f a q 实验示例4 0 图5 5 简单问题实验示例4 1 图5 6 复杂问题实验示例。4 1 表格清单 表2 1 常见中文问题及其类型8 表2 2 常见疑问词的分类9 表2 3 确定型启发式规则i ;9 表2 - 4 确定型启发式规则i i 1 0 表2 5 中心词识别实例1 1 表2 6 中文问题分类体系1 3 表2 7 问题分类准确率一1 3 表2 8 同义词词林结构1 4 表3 1 语言模型示例2 0 表4 1 答案模式匹配示例3 3 表4 2 答案抽取方法对比3 5 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得佥胆王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字: 秘阮 签字日期:少碑印月叫阳 学位论文版权使用授权书 本学位论文作者完全了解金星墨兰些太堂有关保留、使用学位论文的规定,有权保留并向 国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权金目垦王些太 兰l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:j 奠面雩- 导师签名: 签字日期:如户年4 月爿勺签字日期:又f o 年4 调乏罗日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 致谢 三年的研究生生活即将结束,伴随着心灵上的成长和专业知识的增长,其 中有风雨,也有彩虹。研究生阶段中,在学习、生活的各个方面我都受益匪浅, 除了自己的努力,更多的还是来自家人、老师和同学的支持和帮助。 首先要感谢我的导师田卫东副教授。田老师不仅在学术上给了我悉心的指 导,更在生活上给予了莫大的关怀。田老师渊博的学识、丰富的经验、严谨的 治学态度和积极的人生观都深深的影响了我,激励我不畏艰难,勇往直前。 同时在这里,我要十分感谢胡学钢教授。胡老师思维敏锐、视野雄阔、学 识渊博。在我攻读硕士学位期间,他给了我许多指导、关怀和帮助,许多教诲, 令我终生受益。 我同样十分感谢人工智能与数据挖掘实验室的谢飞、吴共庆、张晶、李培 培等各位老师。感谢他们在工作和学习中给我的指导。 还要感谢与我并肩的同窗。他们是毛洪和王津津,与他们相处的点点滴滴 都让我难以忘怀。同时,感谢合肥工业大学人工智能与数据挖掘研究室每个成 员,这个团结、友爱的集体让我能将有限的精力完全投入学术活动中。 感谢我的家人。在我学习和研究的过程中,他们一直关心着我,鼓励着我, 给我创造了良好的学习环境,让我了无牵挂的将精力投入学习中。我所取得的 每一点进步,都离不开他们的体贴和关爱。在此,谨向他( 她) 们表示最诚挚的 谢意。 作者:祖永亮 2 0 10 年4 月2 5 日 第一章绪论 1 1 研究背景与意义 随着信息技术的飞速发展和互联网的普及,在线信息呈现出爆炸式的增长。 自1 9 9 4 年万维网以自由、开放的姿态出现,至今短短的十几年,人类至少生产 了1 0 1 2 个独立的网页。互联网海量数据的可访问性和可用性极大地推动了信 息获取技术的研究。伴随着信息检索技术研究的趋于成熟,许多性能良好的搜 索引擎纷纷出现,人们可以很方便地通过搜索引擎获取自己感兴趣的信息。 但是现有的搜索引擎返回一大堆所谓的相关网页文档。这些文档要么根本 没有用户所需要的信息,要么即使包含该信息也需要用户自己去阅读大量网页 内容才可获得。造成这种现象的主要原因有两个方面:一是以关键词逻辑组合 来表达的检索请求很难清楚地表达出用户真正的查询意图,搜索引擎自然没办 法返回令人满意的结果;二是以关键词匹配为基础的检索算法尽管简单易行, 但毕竟停留在语言的表层,而没有触及语义语用等深层信息,因此检索效果也 很难进一步提高。因此,构建高效的、智能化的信息检索系统具有十分重要的 意义。 问答系统正是这种新型快捷、智能的信息检索系统。它能用准确、简洁的 自然语言回答用户用自然语言提出的问题,其目标是满足人们快速而准确地获 取信息的需求。它集知识工程、信息检索和自然语言处理等技术于一体,是目 前自然语言处理与信息检索领域的最受关注的研究热点之一。 问答系统通过自然语言接口获取用户请求,从语料库检索答案本身,可以 说问答系统提供的是“信息 或“知识”检索而非“文档 检索。它弥补了现 有搜索引擎的不足,主要表现为以下两点: ( 1 ) 自然语言接口 用户使用自然语言而非关键词的逻辑组合与问答系统进行交互,可以很方 便地描述自己的检索需求。问答系统负责完成问题的分析和查询转换,从而减 轻了用户的负担。 ( 2 ) 返回答案本身 问答系统的返回结果是问题的答案,而不是包含答案信息的相关文档。问 答系统自动完成答案抽取,帮助用户快速定位所需要的信息,从而节省了用户 阅读大量文档的时间。 问答系统是一个非常值得研究的领域,特别是在当前信息化时代,问答系 统的研究将有着非常特殊的重要地位。由于问答系统涉及认知科学、语义理解 国h t t p :w w w g o o g l e t o m 等复杂的问题,当前问答系统距离实用还有很大距离,特别是中文问答系统, 甚至没有成形的开放型运行系统。所以中文问答系统的研究,具有重要的理论 意义和实用价值。 1 2 问答系统的国内外研究现状 问答系统的研究最早可追溯至著名的“图灵测试。它是一种判断机器是否 具备智能的方法,即通过人类交谈问答的方式,测试计算机是否具备类似人类 所具有的智能,因此可以将“图灵测试 视为最早的问答系统理论模型。 人工智能领域的研究学者很早就提出了用自然语言和计算机进行交互的设 想。代表性的成果有b a s e b a l l 和l u n a r 。b a s e b a l l 1 j 是由m i t 林肯实验 室研制的基于棒球运动数据库的问答系统。它把自然语言问题转化为属性对清 单的中间形式,再把这种中间形式转化为数据库查询,最后把查询匹配记录中 疑问词对应的属性值返回,从而使得用户可以使用自然语言与之交互。l u n a r 【2 】通过查询本地知识数据库,以帮助地质学家分析月球的土壤和岩石标本。它 封闭测试时能够正确地回答9 0 的问题,而开放测试时亦有7 8 的正确率,已 具有一定的实用性。这些系统尽管运行效率很高,但它们受到各自领域的限制, 其技术方法很难推广到其它领域。这类系统的主要技术难点有两个:一是如何 实现自然语言问题到数据库查询语言的转换,通常的解决方案是在数据库查询 和自然语言问题中间提供接口或中间形式。二是如何自动地构建结构化数据库, 其解决方法一般是结合领域知识,采用相应的信息抽取技术 3 1 。 由于结构化数据的局限性和自然语言处理技术的发展,问答系统的处理对 象已从结构化程度较好的数据库或知识库数据转变为格式相对自由的各类文 档。文档阅读理解成为问答系统的重要研究方向。它能够从自由文本中提取答 案信息。d e e pr e a ds y s t e m 4 j 在词袋模型的基础上结合自然语言处理技术计算问 题与候选句之间相似性,抽取问题答案。 近几年来,随着互联网和信息检索技术的迅速发展,使得构建普适、开放 的问答系统成为可能。m u r a x 5 j 是一个基于事实型问题的开放式问答系统。它 把问题表示为有距离约束的布尔查询向量。根据问题和答案的名词短语共现的 情况以及答案类型抽取答案。交互式开放问答系统通过人机对话的形式,以进 一步量化用户问题。h i t i q a 6 】是目前最先进的交互式开放问答系统,它允许人 机之间进行一系列的混合式主动对话交互活动。 在早期的问答系统研究中,所有研究都是在各自的假设下进行,加上系统 复杂度高,各个机构的研究成果很难拿来做客观评估和横向比较。除此之外, 这类系统的评估是非常消耗人力的,事前的准备包含要产生足够多的且合适的 问题,同时每个问题可能出现的答案都必须用人工方式在比赛语料中标定出来。 这种各自为政的研究方式,对问答系统的发展非常不利。有鉴于此,文本检索 2 会议t r e c 于1 9 9 9 年的t r e c 8 上就组织首次英文问答系统比赛【_ 7 。t r e cq a t r a c k 提供统一的测试语料,设定一致的性能度量指标。这样就为不同的系统 的评估提供了统一的标准,因此吸引了全球许多国家的研究机构和团体的参与。 根据2 0 0 7 年的报告【8 】,目前最佳英文问答系统的水平:事实型问题的正确率已 经可以达到7 0 6 ,列表型问题的f 值也达到4 7 9 。其他语种的问答系统评 测也如雨后春笋。欧洲的c l e f 会议覆盖了数十种欧洲语言的问答评测。2 0 0 3 年,日本的n t c i r 也引入了日文自动问答系统比赛。 相对于封闭语料库,现有的互联网海量信息对于问答系统研究者更具吸引 力。现在互联网上有一些在线运行问答系统,比较著名的系统有:a s k j e e v e s 、 a n s w e r b u s 、s t a r t 等。a s k j e e v e s 允许用户用自然语言句子提问,检索系统会 自动分析用户的提问,然后通过与用户进一步的交互,了解用户的真正意图, 这使得用户能够充分表达自己的检索要求,这种检索方式检索到的网页比单纯 基于关键词匹配检索到的网页更符合用户的需求。但是,a s k j e e v e s 返回的结果 仍然是网页,而不是问题的直接答案。a n s w e r b u s 是一个多语种的自动问答系 统,它不仅可以回答英语问题,还能回答法语、西班牙语、德语等很多语言的 问题。s t a r t 是第一个基于w e b 的自动问答系统,其特点是向用户提供准确的 信息,而不是提供一堆相关信息。该系统是第一个面向国际互联网的自然语言 问答系统。此系统能回答一些有关地理、历史、文化、科技、娱乐等方面的简 单问题。 相对国外研究而言,中文自动问答系统的研究起步较晚,直到2 0 0 5 年日本 n t c i r 才引入中文问答系统的评测,目前最好的中文问答系统的正确率为 5 5 t 9 1 。另外由于中文信息处理基础研究相对薄弱,也给中文自动问答系统的 研究带来了一定的困难,但是,由于中文自动问答系统具有较高的研究价值, 广大学者已开展了大量的研究工作。在以往的t r e cq at r a c k 中,复旦大学【l0 1 、 中科院计算所【ll 】都获得了不错的成绩。近年来,国内从事中文问答系统的研究 机构不断增加,哈尔滨工业大学【l2 1 、清华大学等机构都在中文问答系统的研究 中做出了有益的探索。工业界则利用人类社会的协作性,通过用户提问、用户 回答的方式,解决人们生活中遇到的常见问题,如:百度知道、腾讯搜搜问问 等。在这类系统中任何问题被提问后,如果在历史数据库中存在相同的问题, 那么所对应的答案会被立即返回;如果不存在,若干相似或相关的问题连同其 答案会被返回至提问者。同时,当用户回答完某问题时,若干与该问题相似或 h i t ) :t r e c n i s t g o v h t t ) :w w w c l e f - c a m p a i g n o r g h t t :r e s e a r c h 。n 试a c j p n t c i r h t t ) :w w w a s k c o r n h t t ) :w w w a n s w e r b u s c o r n i n d e x s h t m l h t t ) :s t a r t c s a i l m i t e d u h t t ) :z h i d a o b a i d u c o r n h u ) :w e n w e n s o s o c o r n 相关的、正在等待解决的问题会被推荐至此用户处进行回答。 综上所述与国外的自动问答系统研究相比,国内的问答系统尤其是中文的 自动问答系统的研究还有很大差距,甚至没有成型的在线中文自动问答系统问 世。除了中文信息处理技术还不成熟外,另一个重要的原因就是:缺乏一个公 认的、相对成熟的中文自动问答系统评测平台【13 1 。 1 3 问答系统概述 问答系统通常包含三个部分:问题理解、信息检索、答案抽取。问题理解 的任务就是分析用户问题,通过自然语言到查询向量的转换,提供友好的人机 接口:信息检索的任务是快捷的从语料库及互联网获取查询相关的文档;答案 抽取的任务则是从相关文档中抽取问题的具体答案。 图1 l 问答系统体系结构 问答系统首先需要对用户的问题进行分析,理解用户问的是什么。通常需 要得到问题的类型和关键词。例如:黄山位于中国的哪个省份? 问题理解模块 通过对这个问题的分析,应该确定用户是在询问关键词黄山的地理位置,其类 型属于地点一省。问题理解分析一般包括:问题分类、关键词抽取以及关键词 扩展。对于中文还需做分词、词性标注等预处理工作。 信息检索的作用是根据用户问题中的关键词查询集合,从文档库或互联网 检索出一系列的相关文档集。在以大规模文档集为的语料库的系统中,该模块 返回的通常都是包含候选答案的文本集。这时该模块需要全文检索系统来支持。 若选择互联网数据作为语料集,则需借助成熟的搜索引擎工具。 问答系统的目标是返回具体的答案项,所以还需要答案抽取模块完成从文 档或片段到答案本身的处理。答案抽取模块根据问题理解模块所得到的问题类 型,从规则集中选择相应的答案抽取规则,在句法形式上的约束候选答案,对 相关文档集中的内容进行抽取和提炼,最后以小语段、句子甚至具体词语等不 同形式返回给用户。这其中涉及自然语言处理、模式识别、信息抽取、命名实 体识别等多种技术。 4 尽管t r e c 评测【1 4 1 认为只有返回答案本身才算真正的问答系统,而且包含 其他与答案不相关的内容是“不精确的,但是由于当前的技术还远未达到这 种理想情况。现有的问答系统一般除提供参考答案项外,还会给出它的支持信 息,即该答案项的出处以及上下文信息,以增加其可信度。 1 4 本文的主要研究内容 本文研究了自然语言处理和信息检索技术领域的热点问题中文问答系统。 在问答系统的问题分类和答案抽取方面做了相关的研究和探讨,力争在实践上 进一步提高中文问答系统的答案准确率和召回率。本文的主要工作包括以下几 个方面: ( 1 ) 问题分类是问题理解的关键。本文针对中文问题特征少但精的特点, 探讨依据特征词的问题分类方法以及中心词识别规则。 ( 2 ) 为了获取最相关文档,本文研究了全文检索系统,在开源全文检索框 架l u c e n e 的基础上开发适合于中文问答系统的文档检索器。 ( 3 ) 答案抽取是问答系统的关键。本文从语句全信息的角度,对答案相似 度计算以及答案项抽取开展相关的研究。 1 5 本文的内容组织 本文分为六章: 第一章简要介绍自动问答系统研究的背景和意义、国内外研究现状以及 本文的主要的研究工作,最后简要给出了全文的组织结构。 第二章针对问题理解开展研究,在分析中文问题特点的基础上提出了基 于疑问词中心词特征的问题分类算法。介绍了借助汉语词法分析器的关键词抽 取基本方法,以及关键词扩展的基本思路。 第三章论述了信息检索以及四种常见的信息息检索模型。介绍倒排索引 数据结构。并在开源全文检索框架l u c e n e 的基础上,设计出适合中文问答系统 的文档检索子模块。 第四章针对答案抽取开展研究。分析了语句的多种信息特征,描述了答 案抽取的过程,并给出了一种基于多特征融合的答案抽取方法。 第五章简要介绍了基于领域知识库的问答系统,该系统采用了本论文的 研究成果。 第六章对已有的工作进行总结,并对下一步的工作做了展望。 第二章问题理解 问题理解的主要任务是使得问答系统能够理解问题的涵义。本章首先介绍 了问题理解的基本框架以及相关工作,然后针对中文问题分类,给出了一种基 于疑问词中心词特征的问题分类方法,并设计实验加以验证。 2 1 问题理解概述 问题理解负责将自然语言表达的问题转化为机器可计算的查询表达式。问 题的模糊或错误的理解都会使后面的工作徒劳,可以说问题理解模块是问答系 统的基石,它的好坏直接决定问答系统的质量【15 1 。 预处理问题分类 l。i jd 1 一:i a 凸q i i l 茔植;吾i 妯由 7 i 甲又分词r li u p 1p 、w y 叫大斑州制舣 l j山上 词性标注规则匹配 关键词扩展 00 , 去停用词问题类型c i 关键词集w 扩展词集e 图2 1 中文问题理解处理流程 问题理解主要由预处理、问题分类、关键词抽取和关键词扩展部分组成。 预处理工作的重点是中文分词和词性标注。问题分类负责确定用户问题的类型, 以为答案抽取提供指导信息。关键词抽取及扩展,负责为文档检索构建查询表 达式。图2 1 给出中文问题理解的一般处理流程。 2 2 问题分类 2 2 1 问题分类概述 问题分类即根据问题所查询的内容,将问题划分到不同的问题类型的过程。 它可以形式化表示为: 厂:彳专曰 ( 2 - 1 ) 其中,彳表示问题集, b 表示问题类型集,厂为从彳到b 的一个映射。 问题分类为答案抽取提供有益的指导信息,能够直接影响系统的准确性和 效率。第一、问题分类能够大幅度地减小候选答案的搜索空间。例如:问题“谁 是美国第四十四任总统? ,通过问题分类,可知该问题的答案是人名,我们 过滤掉所有非人名的词语,仅保留表示人名的词语作为答案的候选集,因此减 小了候选答案的搜索空间。第二、问题分类能够决定答案抽取的策略,根据不 同的问题类型,选择合适的答案匹配规则。例如:问题“天空为什么是蓝色的? ”, 6 其问题类型为原因类,则可以通过调用知识库中原因型问题的答案抽取规则, 以匹配和抽取答案项。 2 2 2 问题分类研究概况 问题分类方法是问题分类研究的热点问题。早期的问答系统大部分都是采 用基于规则的问题分类方法f l6 】【1 7 1 。这类方法由语言学专家定义问题类型的特征 规则,并依据规则来判定问题的所属类型。w e b c l o p e d i a 系统 1 6 l 在分析大量问 题的基础上,建立问题类型层次体系,并为每类问题制定相应的问句模式和答 案模式;d i o g e n e 系统【l7 j 依赖人工建立大约3 4 0 条分类规则,可以判断问题 类型。这种基于规则的方法,优点是准确、算法简单、不需要标记语料库,缺 点是需花费大量人力和时间去手工构建分类规则集。 由于自然语言的复杂多变性,规则不可能被穷举。因此,近年来基于机器 学习的方法逐渐成为问题分类的研究热点。代表有d e l lz h a n g 等人提出的采用 s v m 进行英文问题分类的方法引。该方法通过提取b a g o f - w o r d 和b a g o f - n g r a m 特征,利用基于树形核函数的s v m 分类器,在u i u c 数据集上,获得8 0 2 的细类分类准确率。另一个比较有代表性的方法是利用机器学习方法建立层次 分类器s n o w ( s p a r s en e t w o r ko f w i n n o w ) t ”j ,主要选择词汇、词性、语块、命 名实体、中心语块、相关词作为特征。该方法首先将问题分到粗类( c o a r s e ) ,然 后再进一步细化分类,这样在u i u c 数据集上细类分类准确率可达8 4 2 。 以上都是针对英文问题分类的研究。中文问题分类的研究起步较晚,现有 的中文问题分类器还不是很成熟。具有代表性的是张宇等人提出的改进贝叶斯 模型方法【2 们。该方法在贝叶斯文本分类器的基础上,引入后验概率的拉普拉斯 估计,并且采用了t f i d f 方法计算词的权重,在哈工大问题集的细类分类准 确率达到7 2 4 ,但由于它只考虑词形和词频等表层信息,所以分类准确率不 高。文献1 2 l j 在贝叶斯分类的基础上,引入了中文句法分析技术,在问题分类前 首先对问题进行句法分析,提取问题主干、疑问词和附属部分等特征,过滤噪 声词,提高了分类准确率。实验的细类分类准确率达7 8 9 。 问题类型的划分是问题分类研究的另外一个重要问题,其主要任务是依据 一定的分类标准来定义问题的类型体系。h o v y 等【2 2 】为方便人们更快地构建问 答系统,制定了i s i 问题类型体系。t r e cq at r a c k 也为参与者提供具体的问 题分类标准【i4 。由于中文问答系统研究起步较晚,至今还没有通用的问题分类 体系。在这方面,哈尔滨工业大学信息检索中心在国外已有的问题分类体系的 基础上,结合中文自身的特点,定义了一个中文的问题分类体系【2 们。 。u i u c 标注问题集h t t p :l 2 r e s u i u c e d u - c o g c o m p 7 2 3 基于疑问词中心词特征的问题分类 2 3 1 问题类型与疑问词及中心词之间的关系 疑问词作为问句的首要特征标识,在问题分类中是最重要的特征信息。特 别是在英文中,一般的疑问句都由疑问词( 如:w h a t 、w h e r e 、w h e n 、w h o 、 w h i c h 、w h y 、h o w ) 开头,且疑问词的范围相对固定,很多疑问旬依据疑问词 即可判别问题类型。相对与英语,汉语的表达方式较为灵活,问题分类时需考 虑更多的特征信息。通过对大量问题的观察和统计,我们可以根据疑问词对问 题做如表2 1 的归纳。 表2 1 常见中文问题及其类型 问题类型 对应的疑问词例子 为什么、为何、通用疑 为什么天空总是蓝色的? 询问原因电影阿凡达取得巨大的成功的原因 问词+ ( 原因) 是什么? 何时、通用疑问词+ ( 时何时去黄山? 询问时间 间时候年月日天)什么时候举办上海世博会? 谁、通用疑问词+ ( 人 谁是篮球史上最伟大的球员? 询问人物 表示人职业的名词) 哪位科学家发现了光电效应? 哪里、哪儿、何处、何 地、通用疑问词+ ( 地 询问地点方地点n 国家省城 2 0 1 0 年世界杯在哪里举办? 市城镇表示地点的名 中国的哪个城市最适合人居? 词) 通用疑问词+ ( 一般名 什么鸟不会飞? 询问实体 词) 奥巴马是哪个党的总统候选人? 胡夫金字塔到底有多高? 询问数量多少、多高、几、多 光在真空的速度是多少? 怎么怎样如何+ ( 一般 地震发生时应该怎么做? 询问方式动词) 、通用疑问词+ ( 方式方法) 什么方法能克服高山反应? 通用疑问词+ ( 是动 询问描述词) 、怎么样+ ( 一般名 什么是温室效应? 词) 最近天气怎么样? 其他 从表2 1 可得出,不同疑问词的问题类型分辨能力有很大差别。例如:如 果问句出现疑问词“为什么 、“为何”,则可很容易地判定出问题类型为“询问 原因:如果问句中出现“什么 、“哪些 ,则很难判定其问题类型。根据表2 2 , 可以把能疑问词分为两类:专用疑问词和通用疑问词。专用疑问词就是能直接 表征问题类型的疑问词。通用疑问词是除专用疑问词以外的疑问词。如:“世界 上哪项体育运动的拥趸最多? ,我们仅通过疑问词“哪项”是判断不出问题的 具体类型。而中心词“运动 更能反映问题的本质,需综合疑问词和中心词才 。这里的疑问句特指特殊疑问句 8 能判定这类问题的类型。 表2 - 2 常见疑问词的分类 疑问词类型疑问词列表 通用疑问词i g哪、哪必、哪个、何、什么 l s g谁、怎样、怎么样、多少、几、多大、多高 专用疑阅词i s 何时、何地、何处、哪里、哪儿、何人、为什么、 i s s 为何、多远、多高、怎么、如何 表2 2 列出了常见疑问词的分类。这里注意,专用疑问词又可根据其分类 能力( 细类) 分成两类,一类需要借助中心词信息才能细化类别;另一类则可直 接映射到细类类型。一类专用疑问词,像“谁这样的疑问词需借助中心词信 息,才能确定问题类型,通常按通用疑问词处理。 2 3 2 基于疑问词和中心词的分类规则 由表2 2 和表2 3 可知,可以建立利用疑问词和中心词确定问题类型的规 则,其产生式表示为: 五一o ( 2 2 ) i cahwjc i ( 2 3 ) 其中,i s 表示专用疑问词,i g 表示通用疑问词,c i 表示问旬类型,h w 表 示问句的中心词。产生式( 2 2 ) 表示基于专用疑问词的分类规则,它蕴含如表2 3 所列的确定型启发式规则。 表2 - 3 确定型启发式规则i 疑问词对应的问题类型 何时时间其他 何地、何处、哪里、哪儿地址 多远、多宽距离 多热、多冷 温度 多重 重量 多快 速度 几成百分比 第儿 顺序 为什么、为何 原因 怎样、怎么样、怎么方法 产生式( 2 3 ) 是通用疑问词问题的产生式,其前提条件是疑问词和中心词 的合取式。如:“中国的首都是哪个城市? ,由疑问词“哪个 和中心词“城 市 可以判断该问题的类别是询问地点类。 根据表2 1 和产生式( 2 3 ) ,可以预先建立疑问词+ 中心词专问题类型的规则, 以分类疑问词为通用疑问词的问题,如表2 - 4 。注意这里确定型启发式规则构 建时要保证无冲突。 9 表2 4 确定型启发式规则i i 疑问词中心词对应的问题类型 谁 表示人名的命名实体 人物描述 人、人物、名字、表示角色的名词、 特定人物 谁、通用疑问词 表示人职业的名词 通用疑问词表示机构的名词团体机构 多少、通用疑问词地址、厂址、网址、住址、校址 地址 通用疑问词国家、国国家 通用疑问词城市、首都 城市 多少、几一般性名词数量 多少、通用疑问词钱、价格、薪水、工资、费用 价格 几点、点钟时间 通用疑问词动物、表示动物的名词动物 通用疑问词方式、方法方法 通用疑问词 原因、因素、成因、诱因、缘由 原冈 多少、几米、寸、千米、公里、英里、光年距离 什么 一般性名词 定义 为确保人工定义规则的可靠性,本文对于规则集中的所有规则进行置信度 ( c o n f i d e n c e ) 验证,方法如下: ( 1 ) 把问题集中所有的问题按疑问词类型划分为两组:专用疑问词组和通用疑问词 组: ( 2 ) 利用疑问词、中心词词抽取规则,把两组问题集分别转化为:( 疑问词,类型) 和( ( 疑问词,中心词) ,类型) 型项集; ( 3 ) 对于规则集中的每条规则分别统计出现它们的前项p ( a ) 和合项p ( b aa ) 的频 率,利用c o n f i d e n c e ( a 号b ) = p ( b oa ) p ( a ) ,计算每条规则的置信度; ( 4 ) 保留置信度在5 0 以上的所有规则。 2 3 3 基于疑问词中心词特征的问题分类方法 1 、疑问词提取 本文利用中科院计算所【2 3 】的i c t c l a s 3 0 汉语词法分析器完成中文分词和 词性标注。其中疑问词被统一标注为“r y ,因此可以直接根据词性来抽取疑 问词。如:“谁是篮球史上最伟大的球员? ,词性标注为“谁r y 是v s h i 篮球 n 史n g 上f 最d 伟大a 的u d e l 球员n ? w w ,识别“谁r y ”为本句的疑 问词。这里有两种特殊情况需要注意: ( 1 ) 问句中含有“几 和“多 。 a ) 在中文中“几 和“多 有可能为疑问词,但词性标注时,经常会被标 注为数词。需要对这两种情况进行词性修正,修正的规则为:若该问句有“几 或“多”而又没有其它疑问词存在时,就将“几或“多的词性标注为“r y 。 如:“有v y o u 几m 位q 英雄n 在p 海地n s f 地震n 中f 牺牲v ? w w 修正为“有v y o u 几r y 位q 英雄n 在p 海地n s f 地震n 中f 牺牲v ? 1 0 w w ”o b ) 如果“几 和“多 被标注为r y ,且其后紧跟形容词,则合并两词,重 新标注为r y 。如:“中 n s 人均a 耕地n 面积nf l 皂v 有v y o u 多r y 大a ? w w 修正为“中国n s 人均a 耕地n 面积n 能v 有v y o u 多大r y ? w w 。 ( 2 ) 根据中文问题及分词特点,对量词做如下词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省绥江县2025年上半年事业单位公开遴选试题含答案分析
- 河北省宣化县2025年上半年事业单位公开遴选试题含答案分析
- 河北省涉县2025年上半年公开招聘城市协管员试题含答案分析
- 河北省满城县2025年上半年事业单位公开遴选试题含答案分析
- 河北省海兴县2025年上半年公开招聘城市协管员试题含答案分析
- 2025年文化广场场地租赁合同范本
- 2025版电子商务平台商标转让合同示范文本
- 2025版家具维修与专利技术合作合同下载
- 2025年度基础设施建设项目施工合作协议书
- 2025年度高科技产业园水电设施建设合同范本
- 儿科护理学教学案
- 盐酸罂粟碱在腰背痛治疗中的应用
- 一年级硬笔书法教学计划
- 静电安全在纸浆与造纸行业中的应用
- 培养团队协调能力
- 汤小丹《计算机操作系统》官方课件 第四版
- 走近昆曲《牡丹亭》
- 3D打印混凝土材料性能试验方法
- 装饰色彩课件
- XX学校学校集体备课实施方案细则、方案、计划、制度、总结(全套资料)
- 医疗设备、器械项目实施方案、服务实施方案
评论
0/150
提交评论