已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Harbin Institute of Technology课程研究报告课程名称: 信息检索技术及应用 报告题目: 提高向量空间模型在中 文FAQ系统中的性能 所在院系: 软件学院 所在学科: 软件工程 学生类别: 研究生 学生姓名: 赵菁菁 学生学号: 16S137045 选课时间: 2017年春季学期 教师批阅成绩: 哈尔滨工业大学提高向量空间模型在中文FAQ系统中的性能FAQ(常见问题)系统为用户提供了一种问题检索系统(参考百度知道、搜搜问问和新浪爱问)1,用户在搜索框中输入问题关键字,系统将关键字与数据库/文件中的问题进行匹配,最终返回问题和对应答案(问题-答案对)。与英文检索相比,中文检索要困难得多,因为中文的处理比较复杂2。英文单词之间有空格隔开,这让分词变得简单得多;但汉字间没有空格,如果要对中文问题进行分词,可能需要与语料库进行比对,效率比较低下,有时需要另辟蹊径。在为VSM建立一个词-文档矩阵时,可能会产生很多种矩阵形式,不同的矩阵在最终检索时的性能也不一样,比如一个问题是“中国的主席是谁?”,这句话根据不同方法可以分解成不同结果:IKAnalyzer2012分词结果:中国,的,主席,是,谁一元模型分词结果:中,国,的,主,席,是,谁二元模型分词结果:中国,国的,的主,主席,席是,是谁利用IKAnalyzer2012分词器包分词的结果虽然更加人性化、看起来更加准确,但这是要付出效率的代价的,分词器需要根据现有语料库进行比对,进而分割出合适的词语。FAQ系统中的问题的长度一般较短,如果还使用分词技术,显然是杀鸡用牛刀了,如果只是简单把一元模型和二元模型的结果合并起来用于相关性计算,同时使用语义相似度,效率可能会提高很多,本文提出了一种跳过分词步骤的较高效的检索方式,可以广泛用于FAQ系统。向量空间模型向量空间模型(VSM)在信息检索中有广泛应用。Gerard Salton在开发SMART信息检索系统时最早提出并使用该模型方法3。VSM的整体思想是通过词(Term)向量表示查询和语料库中的文档:Di=(wi,1,wi,2,wi,m) (1)其中wi,j是第j个词的权重,m是文档空间的维度。一个词可以是一个字、关键字或词语。利用这种向量表现形式,自然语言中文档间相关性的计算就转化成为向量间相关性的计算。判断向量相关性最流行的方法就是看两向量间的角度差,实际中常用余弦值计算:SimQ,Di=QDiQDi=j=1mwQ,jwi,jj=1mwQ,j2j=1mwi,j2 (2)其中Q是查询向量,QDi是查询向量和文档向量的內积。Q和Di分别是Q和Di的模。定义相关词权重的方法有很多,常见的是TF-IDF方法3,4。一个词在一个文档中的权重是由它的词频(tf)和逆文档频率(idf)确定的: wi,j=tfi,jidfj=tfi,jlogNdfj (3)其中wi,j是第j个词在文档i中的权重,N是文档集中的文档总数,dfj是包含该词的文档个数。词频描述了一个词在一个文档中出现的次数,逆文档频率显示了一个词在整个文档的空间中有多不常见。总体来看,词的权重显示了该词在当前文档中区别于文档空间中其他文档的重要性,比如“面”这个字在一个文档中出现了很多次,但“的”字在很多文档中都出现了很多次,显然对于两个文档来说,“面”比“的”对于区分性的贡献更大。可见VSM主要包括两步:首先,怎样确定索引词(项);其次,如何确定索引词(项)的权重。第一步非常重要,因为是这些词决定了两篇文档的相似度。如果两篇文档没有重叠部分,这两篇文档的向量是正交的(余弦值为0),这意味着它们是不相关的。对于英语来讲,在确定词时最常用的是一元模型;对于汉语来讲,分词和二元模型在确定词时比较常用2,5-7。分词是把文档分割成有意义的元素的最自然的方法,汉语信息检索的VSM中基本都采用这种方法。二元模型也有其价值,因为两字短语在汉语中占有比例很高。在Lucene的2.3版本中,汉语、日语和汉语的默认分词器就是基于二元模型的,一元模型的查全率较高但精度较低(FAQ系统中的查全与精度的定义与传统定义不同,具体定义在之后会给出),如果把一元模型和二元模型结合在一起,结果的数量和精度应该会比单独分词和二元模型方法高。此外,通过应用简单的词汇语义学知识和文档长度信息,性能还可以进一步提升。系统架构中文FAQ系统架构图如图1所示,该系统由语言处理、向量空间模型索引、一元模型与二元模型的线性评分组合、排序和答案选择模块组成。对于每个查询输入,系统首先进行一些语言处理,比如像停用词移除(如:“了”、“呢”、“的”等词)、简单的词汇语义分析等。之后文本会分别基于一元模型和二元模型分词。TF-IDF评分是根据公式(3)计算的。接下来,会形成词向量,两种模型的索引器开始通过公式(2)计算相似性。之后一元模型和二元模型的评分会按如下方法进行线性组合:Si=Sui+1-Sbi (4)其中Si是查询向量Q和第i个文档D之间的组合相似性评分;在QA数据库中,Sui是一元模型的对应评分,Sbi是二元模型的对应评分,是系数。之后,组合评分Si乘上一个因数,该因数可以通过查询语句和索引文档之间的长度差确定:Cl=1.0 d21.0-nq-ninq+ni d2 (5)其中nq是查询文档的长度,ni是文档Di的长度,d是长度因子,由下面的公式确定:d=nq-nimin(nq,ni) (6)对于那些查询语句长度与索引文档长度相差很多的查询,使用因数Cl可以减轻影响,当文档空间中没有关于此查询的答案时,可以提升淘汰率。形成了查询向量之后,利用集合操作,索引器会进行快速匹配来过滤出问题答案,其中问题答案所在文档的文档向量与输入词向量是正交的(余弦值为0),这会极大程度上减少需要进行相关性计算文档的数量。答案问题的集合体积变小了之后,索引会根据用户的问题进行一对一匹配,并且用公式(2)计算相似性评分。对所有的评分进行排序,如果最高评分大于之前设定的阈值,那么评分最高的那个就是最终答案,否则对于此查询就没有合适答案。图 1查全与精度在信息检索中,评估搜索策略的传统方法是精度和查全。F-方法(F-评分)是精度和查全的加权平均数。精度是检索到的相关记录与返回记录总数的比值,查全是检索到的相关记录与数据集中相关记录总数的比值。在FAQ问答系统中,实际上对于每个查询没有确定答案,理想情况下FAQ系统为每个查询只返回一条检所记录。基于上面对于精度和查全的大体定义,当数据集中没有对应查询问题的答案时,查全和精度的参照都相同,最终值不是100%(答案正确)就是0%(答案错误)。如果答案不存在,精度永远是0%,查全永远是未定义。因此,在此系统中,精度和查全的定义需要进行修正,只有这样才能有效表现FAQ系统的性能。在这里,我们把查全定义为回答正确的问题数量与回答问题数量的比值,即:查全=正确答案的数量回答的问题的数量 (7)我们不使用精度,而是采用淘汰。淘汰的意思是FAQ不能正确反馈回答案的问题的比率。淘汰=未回答问题的数量回答的问题的数量 (8)F-方法加权后:F-方法=2查全淘汰查全+淘汰 (9)总结关于如何在中文问答系统中确定短文本文档的相似度,本文提出了一种利用组合一元模型和二元模型的特征来增强向量空间模型的方法。通过使用简单的词汇语义学和文档长度信息,可以提升检索性能,减少传统分词的时间代价。将分词方法与不进行额外语言处理的二元模型方法进行比较,我们可以发现查全方面的提升是显著的,而且F-方法在不同数据集中也可以体现出良好性能。实际上向量空间模型本质上是基于一系列字的,本文只考虑了利用有限词汇语义学的对于问题短语的索引。如果再把字的顺序信息考虑进来,就可以进行进一步的优化。此外,FAQ系统缺少问题类型信息,把问题分析和分类组合起来考虑可能也会提升FAQ系统的整体性能。参考文献1 Hirschman, L., Gaizauskas, R., Natural language question answering: the view from here. Natural language Engineering 7(4), Cambridge University Press, P.275-300, 2001.2 Gai-Tai Huang, Hsiu-Hsen Yao, Chinese QuestionAnswering System, 计算机科学技术学报(英文版), July 2004, Vol. 19, No.4, pp.479-488.3 G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.ll, p.613-620, Nov. 1975.4 Peter D. Turney, Patrick Pantel, From Frequency to Meaning: Vector Space Models of Semantics, Journal of Artificial Intelligence Research 37 (2010) 141-188.5 Jliwoon Jeon, W. Bruce Croft and Joon Ho Lee, Finding Similar Questions in Large Question and Answer Archives, CIKM05, October 31-November 5, 2005, Breme
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年甘孜职业学院单招职业技能测试题库及答案1套
- 2026年上海商学院单招职业适应性测试必刷测试卷及答案1套
- 2026年河南省濮阳市单招职业倾向性测试题库必考题
- 2026年长春金融高等专科学校单招职业倾向性考试题库附答案
- 2026年黄冈职业技术学院单招综合素质考试题库附答案
- 2026年浙江舟山群岛新区旅游与健康职业学院单招综合素质考试题库及答案1套
- 2025福建莆田市数字集团有限公司招聘企业员工笔试及笔试历年参考题库附带答案详解
- 2025福建福州福旅立行教育科技有限公司招聘3人笔试历年典型考点题库附带答案详解试卷2套
- 2025浙江大麦屿港务有限公司招聘应届大学毕业生3人笔试历年参考题库附带答案详解
- 2025山东巨能资本管理有限公司招聘4人笔试历年参考题库附带答案详解
- 幼儿园课程游戏化成果汇报
- 黄鹤楼课件介绍
- DB32∕T 4152-2021 水利工程液化地基处理技术规范
- GB/T 22080-2025网络安全技术信息安全管理体系要求
- 心肌梗死患者的护理诊断与护理措施
- 统编教材初中语文单元人文主题和语文要素梳理
- 初三九年级体育课教案全集
- 竣工图绘制培训课件
- 2025年中国钽铌行业投资前景分析、未来发展趋势研究报告咨询发布
- 公务员运动会活动方案
- 2024年河南省南阳市新野县事业单位招聘考试《公共基础知识》真题库及答案
评论
0/150
提交评论