多特征融合的中文问答系统答案抽取算法.pdf_第1页
多特征融合的中文问答系统答案抽取算法.pdf_第2页
多特征融合的中文问答系统答案抽取算法.pdf_第3页
多特征融合的中文问答系统答案抽取算法.pdf_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 28 卷 第 5 期贵州大学学报 自然科学版 Vol 28 No 5 2011 年10 月 Journal of Guizhou University Natural Sciences Oct 2011 文章编号1000 5269 2011 05 0080 04 多特征融合的中文问答系统答案抽取算法 唐朝霞 淮阴工学院计算机工程学院 江苏 淮安 223003 摘要 随着互联网的迅速发展和 Web2 0 概念的提出 问答系统以直接返回给用户精确的答案 而逐渐成为一种新的信息检索技术 由于问句都是自然语言的形式 涉及到对问句的语义理解 及相似度的判断 本文提出了一种基于问句的表层和语义相似度计算方法 通过聚类去除冗余 信息 再通过熵的特征计算权值 最后融合多种特征计算问句相似度 进行答案抽取 实验证明 这种方法能够有效地提高答案抽取的精度和效率 关键词 问答系统 问句相似度 聚类 答案抽取 中图分类号 TP311文献标识码 A 问答系统是指不需要用户把问题分解成关键 词 而直接以自然语言的形式提问 经过系统处理 再从知识库或者互联网上快速搜索出和用户问题 对应的答案 然后把答案直接返回给用户 而不是 相关的网页 因此问答系统大大降低了用户的使 用难度 它比传统的搜索引擎更加方便和高效 是 未来搜索引擎发展的一大方向 国外对于问答系统的研究相对较早 已经开发 出一些相对成熟的问答系统 如麻省理工 的 START 系统是第一个基于 Web 的问答系统 密歇 根州立大学的 AnswerBus 系统 David Warthen 和 Garrett Gruener 创建的 Ask Jeeves 系统等 1 国内也有许多科研院所投入到问答系统的研 究中 如哈尔滨工业大学秦兵等人开发了基于常问 问题集的中文问答系统 清华大学黄寅飞等开发的 校园导航系统 EasyNav 北京理工大学樊孝忠等开 发的银行领域汉语自动问答系统 BAQS 等 2 随着国内外学者的深入研究 目前的问句相似 度计算有基于词形词序匹配的方法 基于语义计算 的方法 基于编辑距离的方法等 但答案抽取的准 确率不高 本文提出了一种基于多特征融合的方 法 充分利用问句之间存在的相似信息 在表层和 语义两大层次上同时考察问句与候选问句的相似 度 对这些特征进行融合 更加准确地衡量问句的 相似度 以抽取答案 1问句的表层相似度 1 1词形相似度 词形相似度通过计算两个问句的词形即相同 词的个数来比较相似度 设两个问句 Q1 Q2 则 Q1 和 Q2 的词形相似度为 3 WordSim Q1 Q2 2 Same Q1 Q2 Len Q1 Len Q2 1 其中 Same Q1 Q2 为 Q1 Q2 中所含相同词 的个数 若一个词在 Q1 Q2 中出现多次则算一次 Len Q1 为Q1 中词的个数 Len Q2 为Q2 中词的 个数 1 2长度相似度 问句长度相似度在一定程度上反映了问句形 态上的相似性 两问句长度相差越小 相似的可能 性越大 问句 Q1 Q2 的长度相似度为 4 LenSim Q1 Q2 1 Len Q1 Len Q2 Len Q1 Len Q2 2 1 3词序相似度 词序相似度从词的顺序来标注问句的相似性 反映两个问句中所含相同词或同义词在位置关系 上的相似程度 以两个问句中所含相同词或同义词 收稿日期 2011 07 05 基金项目 江苏省高校自然科学基金 06KJD520024 作者简介 唐朝霞 1978 女 江苏洪泽人 讲师 硕士 研究方向 算法与程序设计 Email zx tang 163 com 通讯作者 唐朝霞 Email zx tang 163 com 的相邻顺序逆向的个数来衡量 问句 Q1 Q2 的词 序相似度为 5 OrdSim Q1 Q2 1 Rev Q1 Q2 MaxRev Q1 Q2 3 其中 Rev Q1 Q2 表示Q1 中关键词在 Q2 中 的位置构成的自然数序列的逆序数 MaxRev Q1 Q2 表示 Q1 与 Q2 相同关键词的个数的自然数序 列的最大逆序数 2问句的语义相似度 问句的语义相似度计算需要语义知识资源做 基础 本文采用 HowNet 作为语义知识资源 先计 算词语的语义相似度 然后计算用户问句与候选问 句的语义相似度 2 1词语相似度计算 定义 1义原之间的语义距离 在 HowNet 中 一个词对应 n 个概念 每个概念 对应 m 个义原 假设两个义原 x1 x2 义原之间的语 义距离为 Dis x1 x2 w d w 4 其中 d是x1和x2在义原层次体系中的路径长 度 w 是一个可调节的参数 定义 2概念之间的语义相似度 在 HowNet 中 把概念的语义分为 第一独立 义原描述式 其他独立义原描述式 关系义原描述 式和符号义原描述式 6 假设两个概念 s 1 s2 概 念之间的语义相似度为 Con Sim s1 s2 4 i 1 i i j 1 Disj x1 x2 5 其中 i表示第 i 类义原描述式在概念相似度 计算中的权重 反映了四类义原在语义相似度计算 中的重要程度 一般要求 1 2 3 4 根据刘 群等人的经验 参数设为 1 0 5 2 0 2 3 0 17 4 0 13 7 定义 3词语之间的语义相似度 对于两个词语 W1和 W2 如果 W1有 n 概念 S11 S12 S1n W2有 m 个概念 S21 S22 S2m 则 W1和 W2的相似度为各个概念之间的相似度的最 大值 WSem Sim W1 W2 max i 1 n j 1 mCon Sim s1i s2j 6 2 2词语语义聚类 由于一些词语可能具有相同或相似的意思 本 文选取一个作为特征词语来代替它们 这样可以减 小语义空间的维度 提高计算效率 设问句的词语 集合为 W W1 W2 Wn 词语语义聚类算法 如下 Fori 1to n Forj i 1ton 计算 Wi 和 Wj 语义相似度 Max ij IfMax i Max ij then Max i Max ij k j End if Nextj IfMax i fthen f 为阀值 合并 Wi 和 Wk 作为一代表特征 n n l Endif Nexti 经过词语的语义聚类后 所有的代表词语就构 成了问句的最终语义空间 2 3基于熵特征的权值计算 词语的特征权值是依据它们的重要性而定 本 文采用基于熵的方法来对特征词语赋权值 设 fij 表示第i个特征词语在第j个类别中出现的次数 ni 表示第 i 个特征词语在所有类别中一共出现的次 数 N 表示类别的个数 那么第i 个特征词语的嫡定 义为 Hi N j 1 fij ni log fij ni 7 当第 i 个特征词语对区分类别没有作用时 它 的熵最大为 log N 当第 i 个特征词语对区分类别 有重要作用时 它的熵最小为 0 因此 第 i 个特征 词语权值定义为 Wi 1 Hi logN 8 2 4问句的语义相似度计算 设两个问句Q1和Q2 Q1有n个词语 Q11 Q12 Q1n Q2有 m 个词语 Q21 Q22 Q2m 则有 如下矩阵 18 第 5 期唐朝霞 多特征融合的中文问答系统答案抽取算法 F Q1 Q2 WSem Sim Q11 Q21 WSem Sim Q11 Q22 WSem Sim Q11 Q2m WSem Sim Q12 Q21 WSem Sim Q12 Q22 WSem Sim Q12 Q2m WSem Sim Q1n Q21 WSem Sim Q1n Q22 WSem Sim Q1n Q2m 则问句 Q1 和 Q2 的语义相似度为 Sem Sim1 Q1 Q2 n i 1 Wi max j 1 m WSem Sim W1i W2j n 9 同理问句 Q2 和 Q1 的语义相似度为 Sem Sim2 Q1 Q2 m i 1 Wi max j 1 n WSem Sim W1j W2i m 10 最后求平均得到两个问句的语义相似度 Sem Sim Q1 Q2 Sem Sim1 Q1 Q2 Sem Sim2 Q1 Q2 2 11 3基于多特征融合的问句相似度计算 由上分析可知 问句的相似度包括表层相似度 和语义相似度 表层相似度从词形 长度和词序分 别反映了问句的不同侧面信息 语义相似度反映问 句与候选问句之间的深层语义特征的相关程度 因 此 本文先采用线性融合方法 融合三种表层特征 Sur Sim Q1 Q2 1 WordSim Q1 Q2 2 LenSim Q1 Q2 3 OrdSim Q1 Q2 12 其中 1 2 和 3 分别表示词形 长度和词 序三种特征的权值 经过在问题集中的测试 取 1 0 6 2 0 2 3 0 2 再将表层特征融合语义特征 问句的相似度 为 Sim Q1 Q2 a1 Sur Sim Q1 Q2 a2 Sem Sim Q1 Q2 13 其中 a1 a2 为表层和语义特征的权值 经过 在问题集中的测试 取 a1 0 4 a2 0 6 4答案抽取算法 设用户问句 Qt 以及候选问句集合 Q Q1 Q2 Qm 返回相关答案的个数 k Step1 对问句进行分词等预处理 并利用同义 词词库进行关键词扩展 得到各个问句的关键词 集 Step2 遍历所有候选问句按以下方法计算相 似度 Fori 1tom 读入候选问句 Qi 按公式 1 3 计算 Qt 和 Qi 的词形 相似度 词序相似度和句长相似度 按公式 4 6 计算 Qt 和 Qi 词语的 概念相似度 词语语义聚类 按公式 7 8 计算聚类后词语的权值 按公式 9 11 计算 Qt 和 Qi 的语 义相似度 按公式 12 13 计算两个问句 Qt 和 Qi 的相似度 Nexti Step3 按候选问句的相似度排序 取前 k 个候 选问句的答案 5实验结果及分析 以人工分词的 100 个汉语语句作为测试集 以 招生领域为例 设问句 Qt 淮阴工学院究竟在哪 里 候选问句集合 Q Q1 Q2 Q3 Q4 Q1 淮阴工学院的联系方式是什么 Q2 淮阴工 学院就业情况如何 Q3 淮阴工学院地址是多 少 Q4 淮阴工学院在什么地方 按本文的 答案抽取算法 测试结果如表 1 所示 表 1实验结果 候选问句WordSimLenSimOrdSimSur SimSem SimSim Q10 3670 9090 50 5020 7010 621 Q20 410 50 540 6990 635 Q30 410 50 540 8370 718 Q40 410 750 590 9030 778 28 贵州大学学报 自然科学版 第 28 卷 从实验结果可以看出 1 从表层相似度 问句与 FAQ 库中的问题的 相似度基本相同 显然与人的主观判断有很大出 入 这种方法不够准确 2 加入语义相似度之后 问句的相似度排序 与人的主观排序基本相同 但 Qt 与这 4 个问句的 相似度值都超过了阈值 0 65 因此这 4 个问题 对应的答案都被提取出来给用户 3 采用多特征融合后 相似度值超过阈值的 问句只有 Q3 和 Q4 与人的主观判断基本一致 参考文献 1 张诚 基于领域知识的限定域中文问答系统研究 D 上海 上 海交通大学 2010 2 Zheng T Yu Y Xia Q RESEARCH ON CHINESE FAQ QUES TION ANSWERING SYSTEM IN RESTRICTED DOMAIN C Proceedings of the Sixth International Conference on Machine Learning and Cy bernetics Hongkong China 2007 3 李月雷 师瑞峰 汉语语句语义相似度的计算方法 J 计算机 科学 2008 35 4 3 4 4 赵妍妍 秦兵 刘挺 等 基于多特征融合的句子相似度计算 C 全国第八届计算语言学联合学术会议 JSCL 2005 论 文集 南京 2005 169 172 5 周法国 杨炳儒 句子相似度计算新方法及在问答系统中的应 用 J 计算机工程与应用 2008 44 1 166 6 江敏 肖诗斌 王弘蔚 等 一种改进的基于 知网 的词语语义 相似度计算 J 中文信息学报 2008 22 5 57 62 7 刘群 李素建 基于知网的词汇语义相似度计算 C 第 3 届 中文词汇语义学研讨会论文集 2002 Answer Extraction Algorithm of Chinese QA System Based on Multi feature Fusion TANG Zhao xia Department of Computer Engineering Huaiyin University of Technology Huaian 223003 China Abstract With the rapid development and the appearance of concept of Web2 0 because of the exact answer di rectly QA system has become a new information retrieval technology As the questions are in the form of natural language Questions relate to the semantics understanding and similarity judgments In this paper based on question s surface and semantic similarity calculation method removal of redundant information was carried out by clustering the weight of features was calculated by entropy finally question s similarity was calculated by inte gration of multiple features for answer extraction Experiments show that this method can effectively improve the answer extraction accuracy and efficiency Key words QA system question similarity clustering answer extraction 上接第 79 页 Ordinary Outer Thread Precise Modeling Based on SolidWorks Software and VB Programming CHEN Jin ping YE Yuan wei HUANG Hui ZHENG Yong DENG Yi guo LI Ming Agro machinery Research Institute of Chinese Academic of Tropical Agricultural Science Zhanjiang 524091 China Abstract At present the mainstream 3D mechanical design software are UG CAXA SolidWorks Though pro viding stan

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论