




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)限定领域内智能问答系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古大学硕士学位论文 限定领域内智能问答系统的研究与实现 摘要 在互联网的时代,网上信息爆炸性地增长,人们希望在网络世界中快速二? 准确地找到自己需要的信息。现在以关键词或关键词的简单逻辑组合为基础的 信息检索方式在一定程度上已经不能满足人们对信息获取的要求,智能问答系 统为了满足人们的这种要求而逐渐地发展起来的。近些年来,中文信息处理技 术的进步也极大地推动了中文问答系统的发展。越来越多的国内外相关方向的 研究人员开始将更多的精力转向中文自然语言问答系统的研究中。智能问答系 统是当前自然语言处理领域的难点和热点,它综合运用自然语言理解、信息检 索等技术,对用自然语言描述的问题,能自动生成简洁、准确的答案。 目前,由于中文自然语言的复杂性和处理技术的局限性,让计算机完全理 解人类语言是非常困难的,因此还没有出现成熟的智能问答系统。现阶段中文 问答系统的研究与应用还是以特定领域为主。 本文围绕限定领域内智能问答系统的设计与实现,针对领域知识库构建, 问句理解分析,f a q 问句匹配等关键技术进行了一系列的研究探讨。f a o 库问句 匹配采用句子相似度计算方法来实现,主要用于实现用户常问问题的快速、准 确回答。此外,系统利用网络爬虫抓取的网页建立了主题文档库,对于f a q 无 法解答的问题,系统将从主题文档库中检索答案,这部分是对问答系统的补充 和完善。 关键词:信息检索,问答系统,f a q ,语言模型,问句相似度 限定领域内智能问答系统的研究与实现 r e s e a r c ha n di m p l e m e n t a t i o no f i n t e l l i g e n tq u e s t i o na n s w e r i n gs y s t e m i nar e s t r i c t e dd o m a i n a b s t r a c t i nt h ea g eo fi n t e r n e t ,w i t ht h eo n l i n ei n f o r m a t i o ne x p l o s i v eg r o w t h ,p e o p l ew a n tt of i n d i n f o r m a t i o nw en e e di nt h ec y b e r w o r l df l e e t l ya n de x a c t l y t h ei n f o r m a t i o nr e t r i e v a lm e t h o db a s e d o nt h ek e y w o r do rt h es i m p l el o g i c c o m b i n a t i o no ft h ek e y w o r d sh a sb e e nu n a b l et om e e tt h e p e o p l e sn e e do fi n f o r m a t i o ng e t t i n gt oac e r t a i ne x t e n t g r a d u a l l yi n t e l l i g e n tq u e s t i o na n s w e r i n g s y s t e mh a sg r o w nt os a t i s f yt h ep e o p l e sn e e d i nr e c e n ty e a r s ,c h i n e s ei n f o r m a t i o np r o c e s s i n g t e c h n o l o g y sp r o g r e s s h a s g r e a t l y a c c e l e r a t e dt h ec h i n e s eq u e s t i o n a n s w e r i n gs y s t e m s d e v e l o p m e n t m o r ea n dm o r ef o r e i g na n dd o m e s t i cr e s e a r c h e r so ft h i sd i r e c t i o nb e g a nt og i v e n m o r ee n e r g yt o w a r dt h ec h i n e s en a t u r a ll a n g u a g eq u e s t i o na n s w e r i n gs y s t e m q u e s t i o n a n s w e r i n gs y s t e mi st h ed i f f i c u l ta n dh o ts p o t so fc u r r e n tn a t u r a ll a n g u a g ep r o c e s s i n gd o m a i n i t c o m b i n e sn a t u r a ll a n g u a g eu n d e r s t a n d i n ga n di n f o r m a t i o nr e t r i e v a lt e c h n i q u e s ,e r e aq u e s t i o n a n s w e r i n gs y s t e mc a l lr e t u r nu s e rc o n c i s ea n da c c u r a t ea n s w e r sf o rq u e s t i o ni nn a t u r a ll a n g u a g e a tt h ep r e s e n tt i m e ,o w i n gt ot h ec h i n e s en a t u r a ll a n g u a g ec o m p l e x i t ya n dp r o c e s s i n g t e c h n i c a ll i m i t a t i o n s ,l e tac o m p u t e rt o t o t a l l yu n d e r s t a n dh u m a nl a n g u a g ei sv e r y d i f f i c u l t t h e r e f o r et h e r ei ss t i l lr i om a t u r eq u e s t i o na n s w e r i n gs y s t e me x p l o i t e db yn o w a tt h ep r e s e n t s t a g ec h i n e s eq u e s t i o na n s w e r i n gs y s t e mi sm a i n l yb a s e do ns p e c i f i cd o m a i n t h i sp a p e rr e v o l v e sa r o u n dd e s i g na n di m p l e m e n t a t i o no fi n t e l l i g e n tq u e s t i o na n s w e r i n g s y s t e mi nar e s t r i c t e dd o m a i n , d o e sas e r i e so fr e s e a r c ha i m i n ga tt h ec o n s t r u c t i o no fd o m a i n k n o w l e d g e ,q u e s t i o n s c o m p r e h e n s i o na n da n a l y s i s ,f a qq u e s t i o nm a t c h i n g ,a n ds oo n t h ef a q q u e s t i o nm a t c hi si m p l e m e n t e db ys e n t e n c es i m i l a r i t yc o m p u t a t i o n ,a n dt h i sm o d e lc a na n s w e r f r e q u e n t l y - a s k e dq u e s t i o nf a s ta n dc o n c i s e l y b e s i d e st h es y s t e mc o n s t r u c t st h e m ed o c u m e n tl i b r a r y t a k i n ga d v a n t a g eo fw e bp a g e sw h i c hw e bc r a w l e rf e t c h e s f o rt h eq u e s t i o nw h i c hc a nn o tb e a n s w e r e db yf a q ,t h es y s t e mw i l lf i n da n s w e r sf r o mt h et h e m ed o c u m e n tl i b r a r y t h a ti s s u p p l e m e n ta n dp e r f e c t i o no fq u e s t i o na n s w e r i n gs y s t e m k e y w o r d s : i r , q u e s t i o na n s w e r i n gs y s t e m ,f a q ,l a n g u a g em o d e l ,q u e s t i o ns i m i l a r i t y 内蒙古大学硕士学位论文 图表目录 图2 1 信息检索的向量模型9 图2 2 基于语言模型的信息检索1 1 图2 3 查全率查准率的定义1 4 图2 4 查全率查准率的矛盾1 4 图3 1 智能问答系统的流程图1 5 图3 2 领域本体结构示意图。1 9 图4 1h t m l 文档与x m l 文档的比较2 l 图4 2h t m l 页面分析处理的流程图2 2 图4 3h t m l 文档的简单结构2 3 图4 4 倒排文档流程图2 8 图4 5 顺排档结构图2 9 图4 6 倒排档结构图2 9 图5 - 1w o r d s i m i l a r i t y 的界面图3 2 图5 2 问句匹配子系统的结构图。3 4 图5 3 主题文档检索的框架图。4 0 图5 4 查询性能比较4 1 图5 5 查询扩展方法的性能4 2 表3 1 常见问题答案表1 8 表3 2 主题网页表18 表3 3 主题文档分析表18 表3 4 知识点列表1 8 表4 1 页面的标记:2 3 v 限定领域内智能问答系统的研究与实现 表5 ii c t c l a s 标注的常用词性标记3 2 表5 2 问题中关键词的频数和权重3 7 表5 3 问句相似度计算的实验结果。3 9 v i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 己经发表或撰写过的研究成果,也不包含为获得内蒙古大学及其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在 论文中作了明确的说明并表示了谢意。 学位论文作者签名: 日期: 至筮面指导教师签名:趁k 在学期间研究成果使用说明书 本学位论文作者完全了解内蒙古大学有关保留和使用学位论文的规定,即: 内蒙古大学研究生在校攻读学位期间论文工作的知识产权单位属内蒙古大学。学 校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被 查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩 印或其它复制手段保存、汇编学位论文。作者今后使用涉及在学期间主要研究内 容或研究成果,须征得内蒙古大学就读期间导师的同意:若用于发表论文,版权 单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名: 日期: 羔组豳指导教师签名: 埤一 内蒙古大学硕七学位论文 1 1 论文研究背景 第一章绪论 近几年来,互联网得到了迅猛发展和广泛普及,网民越来越多,互联网上的信息也越来 越丰富,同时,人们对信息搜索的需求越来越多,要求越来越高,互联网的海量信息使得检 索的难度增大。艾瑞市场咨询公( i r e a r c h ) 提供的数据【2 】显示,2 0 0 4 年使用搜索引擎的互联 网用户为8 0 0 0 万,2 0 0 7 年随着互联网用户的增长接近1 9 亿。 当中国的互联网用户超过1 亿人的时候,人们真切地感受到了信息过剩的压力。信息浩 如烟海,怎样迅速在网上找到自己想要的信息呢? 人们的这一需求正是搜索引擎的生存空间。 网络信息的爆炸性增长,使得人们准确、快速地从互联网上获取有效信息的难度增大。传统 的搜索引擎已经成为人们获得信息最主要的检索工具。尽管比较有名的搜索引擎( g o o g l e 、 y a h o o 、百度等) 能够帮助人们快速地找到相关的网页。用户向信息检索系统输入关键词序列 或者关键词的布尔表达式,系统按照相关性由大n d , 的顺序返回与用户查询相关的网页链接, 用户逐一访问这些链接,最终得到满足其信息需求的答案,虽然在一定程度上解决了用户在 海量数据中查找信息的难题,但是这些传统的搜索引擎存在很多不足的地方,其中主要有三 个方面:一是关键词检索召回的相关信息太多,用户很难快速准确地定位到所需的信息;二 是很难以几个关键词的逻辑组合来表达清楚用户的检索意图;三是以关键词为基础的索引, 匹配算法尽管简单易行,毕竟其停留在语言的表层,而没有触及语义,因此检索效果很难进 一步提高。英国莫里( m o r i ) 调查公司的民意调查结果【3 显示,只有1 8 的用户表示总能 在网上搜索到相关的信息,6 8 的用户说他们对搜索引擎很失望,2 8 表示还可以,其余5 为不知道。 网络的迅猛发展,海量信息的出现,使得人们对智能信息检索工具的需求越来越强烈。 问答系统( q u e s t i o na n s w e r i n gs y s t e m ,简称q a s ) j e 是在这样的背景下应运而生,它的设计理 限定领域内智能问答系统的研究与实现 念、运行机制及其期望结果完全有别于现有的关键字检索,是对关键字检索的补充和完善, 为人们提供了以自然语言提问的交流方式,并为用户直接返回所需的答案,而不是相关的网 页,是更高级形式的信息检索。问答系统是一种对用户用自然语言提出的问题能够做出尽可 能简洁、准确回答的计算机程序。这样的程序需要具备对自然语言进行分析和处理的能力, 它是自然语言理解技术的一个重要的应用。早在计算机发明之初,研究人员就希望能通过某 种方法使计算机能够理解人类的自然语言。问题回答( q u e s t i o n a n s w e r i n g ) 一直是计算机人 工智能领域研究的核心问题。在以年度为周期的文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e , t r e c ) 上,问题回答也是最受关注的主题之一。 1 2 问答系统的研究现状 1 2 1 国外的研究情况 自从1 9 9 9 年文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 第一次把a u t o m a t i cq u e s t i o n a n s w e r i n gt r a c k 设为评测专项以来,q at r a c k 逐渐成为最受关注的t r e c 评测项目之一。 问答系统的相关技术及其产品引起了国内外许多科研机构和公司极大的兴趣。国外出现的相 对成熟的问答系统,能为用户解答非受限领域问题以及特定领域问题 4 】。这些典型的问答系 统有: ( 1 ) a s k j e e v e s 该系统是美国a s k j e e v e s 公司开发的,该系统的网址为: h t t p :w w w a s k j e e v e s c o r n 。a s l c j e e v e s 允许用户用自然语言句子提问,检索系统会自动分析用 户的提问,然后通过与用户的交互进一步明确用户的真正意图,这使得用户能够充分表达自 己的检索要求,这种检索方式检索到的网页比单纯基于关键词检索到的网页更符合用户的需 求。但是,a s k j e e v e s 返回的结果仍然是网页,而不是问题的直接答案。 ( 2 ) s t a r t :是麻省理工大学开发的问答系统。于1 9 9 3 年开始发布在i n t e m e t 上,网址为: h t t p :w w w a i m i t e d 咖r o j e c t s i n f o l a b 。s t a r t 是第一个基于w e b 的自动问答系统,其特点是向 用户提供准确的信息,而不是提供一堆相关信息。该系统是第一个面向国际互联网的自然语 2 内蒙古人学硕士学位论文 言问答系统,它能够回答针对m i t ( m a s s a c h u s e t t si n s t i t u t eo f t e c h n o l o g y ) 信息实验室的地理 学知识的用户提问,比如:对于问题“w h e r ei sb e i j i n g ? ,s t a r t 将会回答“b e i j i n gi sl o c a t e d i nc h i n a ”。同时,该系统的答案不局限于文本,也可以是图片、声音或者动画等。s t a r t 系 统使用主体关系对象三元组的形式存放系统知识以及回答问题,回答问题能力非常有限, 系统的精确性和鲁棒性都比较差【5 】。同时,该系统是以英文为母语的,只能识别用英语提交 的问题。 o ) a n s w e r b u s :也是一个比较成熟的问答系统,网址为h t t p :1 w w w a n s w e r b u s c o r n 。 a n s w e r b u s 是一个面向开放领域的、多语种的问答系统,它接受自然语言的提问,从w e b 中提取问题可能的答案( 一个或多个) ,其特点是能支持包括英语、法语、德语、西班牙、意 大利语和葡萄牙语在内的多种语言提问方式。 ( 4 ) f a q f i n d 芝加哥大学人工智能实验室开发的f a q f i n d e r 7 8 】。该系统预先收集“问 答对”库( f a q 库) ,通过使用语义网分析与概念匹配技术,采用基于向量的搜索引擎从问 答对文件中抽取答案。 1 2 2 国内的研究情况 在国内,已有众多科研机构和高校院所丌始从事面向中文的问答系统研究,并取得了一 定成果,如:中科院计算所的红楼梦人物关系问答系统【9 】、清华大学的e a s y n a v 校园导航系 统【1 0 、北京理工大学自然语言处理实验室开发的面向金融领域的自动问答系统【1 1 】 1 2 】等。 但是,这些问答系统的准确率还不高,开放领域的问答还难于达到真实应用的境界。在往届 的t r e cq at r a c k 评测中,复旦大学 1 3 】 1 4 、中科院计算所 1 5 1 1 6 都获得了良好的成绩。 此外,中科院计算所、哈尔滨工业大学【1 7 】、复旦大学 1 8 】等 1 9 2 0 1 1 2 1 2 2 在汉语问答技术 的研究中也做出了有益的探索。但是,和国际研究相比,国内从事问答系统尤其是汉语自动 问答技术研究的科研机构还是很少,而且基本没有成型的汉语自动问答系统问世。一个重要 的原因是:缺乏一个公认的、相对成熟的汉语问答系统评测平台。 限定领域内智能问答系统的研究与实现 1 3 问答系统的评测方法 如何客观而科学地评测问答系统的性能,是该研究领域一个很重要的问题。目前,对问 答系统进行评测的国际会议有:英语问答评测平台t r e cq a t r a c k 、日语问答评测平台n i c i r 和多语种问答评测平台c l f f 3 。应该说,目前的问答系统评测标准并不太成熟,就连t r e c q a t r a c k 的评测标准,也有相当的主观成分在里面。 目前t r e cw 曲t r a c k 检索用的较多的是查全率( r e c a l l ) 和查准率( p r e c i s i o n ) ,以及两者的 调和平均数f 。具体来说,就是: r e c a l l = 查询出来的相关答案个数数据库中所有的相关答案个数; p r e c i s i o n = 查询出来的相关答案个数查询出来的所有答案个数: f = 2 木p 幸r 幸( p + r ) 。 汉语问答技术的研究还处于起步阶段,国际上没有一个公开的、公认的汉语问答系统测 试集合以及评估方法。作为尝试,中科院自动化所已经初步建立了一个汉语问答系统评测平 台( 简称e p c q a ) 。其中,e p c q a 语料库、测试集和打分标准的建立基本参考t r e cq a t r a c k 、 n i c i r 和c l f f 的成功经验,并针对汉语的特点进行适当的修改。 一般采用下面的做法来对问答系统进行评测,首先需要建立一个测试集,这个测试集是 人工做出来的问题和答案对的集合。把这个测试集中的问题提交给问答系统,让问答系统自 动的给出答案,然后把问答系统自动找出的答案和测试集中的答案,进行人工的对比。如果 问答系统给出的答案通过人工的对比基本正确,则可以判断这个答案是正确的,否则答案是 错误的。这样就可以计算出问答系统的准确率,公式为:准确率= 答对的问题数问题总数。 这种评测方法简单而有效,但需要大量的测试来提高其评测的准确率 2 3 】。 1 4 研究内容与意义 1 4 1 本文研究内容 本文设计并实现了限定领域内的智能问答系统,力图提高问答系统的智能性、知识库的 4 内蒙古大学硕十学位论文 自主学习能力和扩展能力,可以将领域知识进行有效的扩充,从而满足同益增长的用户服务 的需求。我们利用现有的网络爬虫t s e 从网络上采集h t m l 文档,通过h t m l 文档分析、 h t m l 文档扫描算法、文档特征词提取、信息检索等技术,建立蕴涵丰富领域知识的主题文 档库;同时,与手工构建的常问问题答案库( f r e q u e n t l y a s k e dq u e s t i o n ,f a q ) 共同构成系统 的知识库。本系统在完成用户问句的语义理解与问句语义符号表示的基础上,通过f a q 库的 问句匹配和主题文档库的检索完成解答任务。该方案使得系统对常问问题能快速地给出解答, 提高了系统的效率和准确率;同时系统还能自动回答f a q 库中没有存储的问题,大大增强了 系统的解答能力和实用性。 1 4 2 研究意义 现代基于网络环境下的远程教育模式,采用探索式学习方式,不受空间和时间限制,克 服了传统教学方式在教育资源师资、教材、实验、演示设备等和教育方法统一进度、集 中组织和固定时间等方面的限制。学习者可以以自己的速度,按学习兴趣浏览一个相关的材 料数据库,以实现优秀教育资源和教育方法的共享,实现了传统教育无法做到的“个性化教 育”问题。如何使远程教育系统方便用户提出问题的同时获得满意的答案,是现代远程教育 系统的一个重要功能。 在目前的远程教学模式中,研制开发一个智能问答系统的意义尤为重大,这是因为: ( 1 ) 问答是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径,无论学习 的形式如何变化,问答对于学习来说是必要且不可或缺的。在网络环境下,及时、有效地获 得解答是学生远程学习的基本需求。 ( 2 ) 通过对学生所提问题的记录分析,可以统计出学生普遍存在的知识薄弱环节,为教师 进一步改进教学方法提供参考,成为辅助教学的有效工具。 ( 3 ) 在网络环境下的智能问答系统采用了自然语言接口,学生可以轻松自如地提问,及时 解决学习过程中遇到的难题,使远程教学真正起到良师的作用,对于远程教学方式在我国的 进一步普及,具有不可估量的重大意义。 限定领域内智能问答系统的研究与实现 ( 4 ) 将功能良好的智能问答系统应用于国家大力发展的远程教学支撑平台中,具有很大的 社会价值。 ( 5 ) 为自然语言理解以及信息检索技术的应用发展提供了一个方向,可以推动该技术领域 的发展。 1 4 3 本文结构安排 本文共六部分内容,具体组织如下: 第一章首先论述了本文的研究背景,接着介绍了问答系统在国内外发展的现状及评测方 法,最后总结了本文的研究内容、研究意义和结构安排。 第二章详细介绍了信息检索的模型和评测方法。 第三章介绍了本智能问答系统的设计思想、总体结构框架以及知识库的组织。其中,知 识库的组织主要描述了f a q 库、主题文档库以及其他辅助知识的组织和构建。 第四章首先简单介绍了标记语言h t m l 和x m l 的区别,接着详细描述了主题文档库的 建立过程,最后给出知识库索引的生成。 第五章对智能问答系统的实现过程作了详细的分析、研究,主要包括f a q 库问句匹配的 实现策略和主题文档库检索的核心技术,并对试验结果进行了分析。 第六章对本文的主要工作做了总结,指出了下一步的研究方向。 6 内蒙古大学硕士学位论文 2 1 传统的检索模型 第二章相关理论与技术 时至今日,检索模型主要衍生有四大类:布尔模型( b o o l e a nm o d e l ) 、模糊逻辑模型( f u z z y l o g i cm o d e l ) 、向量模型( v e c t o rm o d e l ) 及概率模型( p r o b a b i l i t ym o d e l ) 。下面具体介绍 本系统使用的布尔模型和向量模型。 2 1 1 布尔模型( b o o l e a nm o d e l ) 布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。 设文本集d = ( d l ,d 2 ,d 3 ,d n ) ,d i ( i = l ,2 ,n ) 为文本集中某一文档,又设t i = ( t i l ,t = , - - , t i m ) 为d i 的标引词集合,则对于形如q = w l 八、耽八八w k 的检索式,如果w l t i ,w 2 t i ,w k t i , 则d i 为查询q 的命中文档,否则d i 为q 的不命中文档;而对于形如q = w i v w 2 v v w k 的 检索式,如果至少存在某个w j t i ( j = l ,2 ,k ) ,则d i 为q 的命中文档,否则d i 为不命中文档。 用户根据所检索关键词在检索结果中的逻辑关系递交查询,查询模块根据布尔逻辑的基 本运算法则来给出查询结果。 布尔检索模型原理简单、易理解,容易在计算机上实现并且具有检索速度快的优点。但 是最终给出的查询结果没有相关性排序,不能全面反映用户的需求,功能不如其他的检索模 型。布尔模型存在以下缺点:( 1 ) 布尔表达式对用户的检索意图的描述不全面,不能完全表达 出用户的检索需求;( 2 ) 布尔模型精确匹配的特点可能导致检索出太多或太少的文档;( 3 ) 布尔 模型的检索策略是基于二值逻辑的,一篇文档要么是相关的要么是无关的,不存在部分匹配 的情况,这种本质缺陷使它无法完成相关文档的排序,只能将检索结果简单输出,不能反映 关键词对于文本的重要性,缺乏定量分析,排在前面的文档不一定是最符合用户意图的文档。 因此不能提供比较好的检索性能。 布尔模型的优点:具有简单、易理解、容易在计算机上实现且检索速度快等优点,在很 7 限定领域内智能问答系统的研究与实现 多检索系统中得到应用。 2 1 2 向量空间模型( v e c t o rs p a c em o d e l ) 在向量空间检索中,把文档和用户查询均用一组相互独立的词条组成,设在文本集d 中, 共使用了n 个词条t l ,t 2 ,t 1 1 。文本集d 中某一文档d i 可表示为:d i = ( w i l ,w i 2 ,w i l l ) ,其中 一? w i l ,w i 2 ,w i 。分别为词t l , t 2 , , t n 在文档d i 中的权值。权值越大,表示该词在文档中的份量越 大,即该词越能反映d i 的内容;权值越小,该词的份量越小,越不反映d i 的内容。权值的取 值范围是【o ,1 】。同样地,用户的查询可表示为:q = ( w l ,w 2 ,、n ) ,其中w l ,w 2 ,m o 7w n 分别 为给出的t l ,t 2 ,t n 的权值。把几个词看作为n 维坐标系中的坐标,权植对应坐标值。这 样,文档和用户查询均可看成是由这坐标轴组成空间中的一个点,或称为一个矢量,如图2 1 所示。文档和用户之间的比较,用相似度大小来表示,计算相似度有多种方法,一般常用下 式计算: c o s ( d i ,q ) = n w i i xw k k = 1 ( 2 - 1 ) 这种计算方法实质上就是计算n 维空间中,文本向量和问题向量之间夹角的余弦,如图 2 1 所示。式中涉及词的权值,词的权值计算是基于这样一个假说,即词的权值与在文档中出 现的频率成正比,与在文本集中出现该词的文档频数成反比。一般地,可通过下式计算权值: w 皿2 t 气i g ( n n k ) ( 2 - 2 ) 其中,t 气表示词t 。在文档d ;中出现的频数,n 表示文本集中文档的总数,n 。表示词t k 的 文档频数。 8 内蒙古火学硕士学位论文 图2 1 信息检索的向量模型 f i g u r e2 1v e c t o rm o d e lo fi n f o r m a t i o nr e t r i e v a l 向量空间检索具有如下优点:( 1 ) 为标引词引进权值,通过调节标引词对应权值的大小来 反映标引词与被标引文档的相关程度,它部分地克服了传统布尔检索的缺陷;( 2 ) 检索通过计 算文档之间的相似度,使属性相似的文档尽量聚扰在一起,以提高检索效率;( 3 ) 满足用户需 求多样化以及检索手段多样化的需要。用户可以根据需求特点选择一组可供使用的检索手段。 向量空间检索存在的缺点:( 1 ) 相似度计算量大,影响检索速度;( 2 ) 标引词的权值较难确定; ( 3 ) 对标引词的相互独立的假设不符合实际情况。 2 2 语言模型方法 2 2 1 统计语言模型 统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率。也可以将统计语 言模型看作是生成某种语言文本的统计模型。一般来说语言模型的研究任务是:已知文本序 列中前面( i 一1 ) 个词汇,第i 个词汇为单词w 的可能性有多大? 在大多数统计语言模型的应 用比如语音识别、信息检索等研究中,一个句子的概率常常被分解为若干n g r a m 概率的乘积, 也就是n 元语言模型。 9 限定领域内智能问答系统的研究与实现 我们假设s 代表了某个长度为k 的特定单词序列,s = w 。,w :,w 。,n 元语言模型将 词汇序列s 看作是具有以下概率值的马尔科夫过程: k p ( s ) = 兀p ( w iw i _ l ,w i 2 ,w i - 3 ,t i w 1 ) i = l ( 2 3 ) 其中n 代表了马尔科夫过程的阶数。当n = 2 时,我们常常称之为二元语言模型。它利用 ? 词汇对的同现信息来进行相关参数的概率估计。当n = l 时,我们称之为一元语言模型,它利 用了每个词汇的出现频率作为参数进行概率估计。在语音识别或者机器翻译中,词汇序列是 很重要的信息,所以常常采用高阶的语言模型。在信息检索领域,词汇序列的作用还不是很 清楚,所以经常采用的语言模型是一元语言模型。 将统计语言模型和信息检索相结合是由p o n t e 和c r o f t 在1 9 9 8 年首次提出的。这个新的 检索模型提出后受到了广泛的关注,许多实验结果显示基于统计语言模型的方法在检索性能 上普遍优于以前普遍采用的向量空间模型方法。 p o n t e 和c r o f t 最初提出的语言模型检索方法现在经常被称为查询条件概率模型 3 7 。 这个模型假设用户头脑中有一个能够满足他的信息需求的理想文档,用户从这个理想文档中 抽取词汇作为查询条件,用户所选择的查询条件词汇能够将这个理想文档同文档集合中其他 文档区分开来。这样查询条件可以看作是由理想文档生成的能够表征该理想文档的文本序列。 由这个假设我们可以看出信息检索系统的任务被转化为判断文档集合中每个文档与理想文档 哪个最接近的问题。也就是说,我们需要计算: a r g m a 。x p ( dq ) = a r g m a 。x p ( qld ) p ( d ) p ( q ) ( 2 4 ) 其中,q 代表查询条件,d 代表文档集合中某个文档。p ( q ) 对所有文档的值都是一样的, 先验概率p ( d ) 对于文档集合中每篇文档来说也都是相同的,所以在公式中p ( o ) 、p ( d ) 可以忽 略不计。那么关键是估计每篇文档的语言模型p ( q id ) 。换句话说,我们首先需要估计每篇文 档的词汇概率分布,然后计算从这个分布抽样得到查询条件的概率,并按照查询条件的生成 概率来对文档进行排序。 l o 内蒙古人学硕士学位论文 p o n t e 和c r o f t 在他们的工作中采取了“多变量贝努力 方法来近似估计p ( 0 id ) 。他们 将查询条件表示为二值属性构成的向量,词汇表中每个不同词汇代表了向量中的一维,用来 表示该词汇是否在查询条件中出现。查询条件词汇的出现次数没有列在考虑范围之内。在这 个方法后面隐藏着以下几个假设:( 1 ) 二值假设:所有属性是二值的。如果一个词汇出现在查询 条件中,代表该词汇的属性值被设置成l ;否则设置为0 。( 2 ) 词汇独立假设:文档中词汇之间 的关系是正交关系,也就是说是相互独立的,不考虑词汇之间的相互影响。 基于以上假设,查询条件生成概率p ( q l d ) 可以转化为两个概率的乘积:一个是生成查询 条件词汇的概率,另一个是没有生成查询条件词汇的概率: p ( qjd ) = 兀p ( wd ) 兀( 1 o p ( wd ) )( 2 5 ) 其中p ( wd ) 利用包含词汇w 的所有文档的平均概率来计算。对于没有出现的词汇,使用 文档集合的全局概率来计算。 p ( wl 。) = x xp ( w i m d ) + ( h ) x p ( w | m c m 导+ ( 1 叫簧 ( 2 - 6 ) 其中t f 。,d 是在文档d 和问题q 中词w 共现的次数,n d 是文档d 中所有词的个数,f f w ,c 是 在整个文档集c 和问题q 中词w 共现的次数,n c 是整个文档集c 中所有词的个数。 d o c l m l m l m s c o r e sq u e 叫i 图2 2 基于语言模型的信息检索 f i g u r e2 - 2i n f o r m m i o nr e t r i e v a lb a s e do nl a n g u a g em o d e l 限定领域内智能问答系统的研究与实现 实验数据表明,尽管p o n t e 等人提出的语言模型还只是很简单的模型,但是在检索效果 方面己经可以和目前性能最好的概率检索模型相当或者更好 3 5 。 这个经典的基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具 有相当挑战性的方向。与传统检索模型相比,语言模型检索方法有下列优点:( 1 ) 能够利用统 计语言模型来估计与检索有关的参数是使用语言模型信息检索系统的一个优点。( 2 ) 使用语言 模型的另外一个好处是,我们可以通过对语言模型更准确的参数估计或者使用更加合理的语 言模型来获得更好的检索性能。这样,与传统的模型相比较,在如何改善检索系统性能方面 有更加明确的指导方向。( 3 ) 另外,语言模型方法对于文档中的子主题结构和文档间的冗余度 建立统计模型也是有帮助的。 尽管实验表明该方法检索性能优于一些传统的检索模型,但是其本身还是存在一定的缺 点:( 1 ) 该方法隐含着词汇相互独立关系,没有考虑词汇间的相互影响。( 2 ) 传统检索模型中 常用的查询反馈技术在概念层面融入语言模型框架比较困难。 统计语言模型研究中面临的数据稀疏问题在检索中更显得突出。因为事实上每篇文档所 包含的词汇数量并不多,利用如此少的数据量来对参数进行经验估计产生的结果并不理想。 另外如果某个词汇只在查询条件中出现而并没有被文档包含,很明显其经验估计值为0 ,尽 管实际上还有很多其它查询词汇与文档内容相匹配,这仍将导致查询条件整体结果为0 。为 了减轻上述问题的影响,研究人员提出了不同的数据平滑方法来对公式2 - 5 的经验估计值进 行调整。最常用的平滑方法包括线性插值平滑方法等。 2 2 2 语言模型中的平滑技术 由于语言模型的训练语料不可能无限大,许多合理的词之间的搭配关系在语料库中没有 出现,称之为零概率问题。然而,一个事件在训练集中没发生,并不表明该事件将来不会发 生。也就是说,如果一个n g r a m 在测试集中出现而没出现在训练集中也是可能的。因此应该 让那些在训练集中未出现的n - g r a m 也有一个非0 概率。数据平滑技术用于解决该问题。 这里,我们对几种主要的n - g r a m 语言模型的数据平滑方法进行描述。 1 2 内蒙古大学硕士学位论文 ( 1 ) 添加平滑技术( a d d i t i v es m o o t h i n g ) 在实际系统中使用的最简单的平滑方法就是添加平滑技术。添加平滑技术假设每一个 n - g r a m 出现的次数比它实际出现的次数多万次。如下式所示: ( w f 能1 ) - 揣 ( 2 7 ) 在上式中,v 是词典中包含的总次数,c ( w 仁:+ 。) 是词串( w :二:+ 。) 在训练预料中出现的次数, 一般来说,取0 万1 。 ( 2 ) 线性插值平滑法( l i n e a ri n t e r p o l a t e ds m o o t h i n g ) 线性插值法的一般形式如下( 递归) : 枷( wi 皑+ 。) = 五( 皑+ 。) p m l ( w ,1w i - i 。) + ( 1 一兄( 皑+ 。) ) p 。o o , h ( w , i 皑+ :) ( 2 8 ) 。 鼽( w f i - 肿11 ) - 裂。 训练每一个插值参数a ( 叫:+ ) 是不可行的,这需要非常大的数据量。我们可以通过一定 的算法,例如利用先验知识把所有的参数兄( 叫:+ - ) 分成适当数量的小组,对于一个小组中的 每个系数都赋予相同的值,这就大大减少了需要估计的参数量。 还有g o o d - t u r i n g 估计、退化法( b a c k i n g - o f fs m o o t h i n gm o d e l ) 等其它的平滑技术。 对平滑算法的参数估计,通常将训练语料分成两部分,第一部分用于估计模型参数,第 二部分语料用于估计平滑参数。如果直接用第一部分估计平滑参数,得出的结论将是:不平 滑最好。因为第一部分语料中本来就不会出现需要平滑的现象。 2 3 系统的评价 评价检索效果最常用的指标是查全率( r e c a l lr a t i o ) 和查准率( p r e c i s i o nr a t i o ) 。定义如下: 查全率:塑兰祟娄攀( 2 - 9 )4 一。 相关文档数 查准率= 笔鬻 ( 2 - 1 0 ) 限定领域内智能问答系统的研究与实现 不 相 关 相 关 图2 3 查全率,查准率的定义 f i g u r e2 - 3d e f i n i t i o no fr e c a l l p r e c i s i o n 查全率反映所需文献被检出的程度;查准率则反映系统拒绝非相关文献的能力。两者结 合起来反映检索系统的检索效果。研究表明,查全率与查准率之间存在互逆关系,即提高系 统的查全率,会使查准率下降,反之亦然。 返回大多数一 相关文档一 理想情况一 返回最相关的文本,但是 漏掉了许多相关文本一 图2 4 查全率,查准率的矛盾 f i g u r e2 - 4c o n f l i c tb e t w e e nr e c a l l p r e c i s i o n 1 4 内蒙古大学硕士! 学位论文 第三章限定领域内智能问答系统的设计及知识库构建 3 1 智能问答系统的设计 智能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汉字笔画名称表课件
- 应急疏散演练讲话稿14篇
- 新疆喀什地区英吉沙县2024-2025学年高二下学期7月期末考试历史试卷(含答案)
- 2024-2025学年度河南省新密市高二下学期期中考试历史试题(含答案)
- 电商平台新趋势与竞争局势
- 汉字十课件教学课件
- “云·仓·配”带你走进智慧新世界-智慧仓储与配送管理知到智慧树见面课答案
- 天然气市场供应与需求分析
- 汉字书法课件模板楷书山
- 2025机械设备转让合同模板
- 2025年教师招聘小学语文真题及答案
- 2025年(完整版)十八项核心制度培训考核试题(含答案)
- 2025年低压电工理论考试1000题(附答案)
- 2025年益阳市融资担保有限责任公司招聘考试笔试试卷【附答案】
- 【湖南】2025年高考湖南卷化学高考真题+答案
- 2025年中国LCP料数据监测报告
- DGTJ08-2093-2019 电动汽车充电基础设施建设技术标准 含2021年局部修订
- KET教学课件新版
- 浅谈新课标下的高中英语教学
- 金沙县网约车从业资格考试模拟试卷
- T∕ACSC 01-2022 辅助生殖医学中心建设标准(高清最新版)
评论
0/150
提交评论