




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 中 文 摘 要 近年来,由于计算机和网络的迅速发展,旅游信息成为人们关注的焦点。目前 的旅游信息大多为旅游网站提供的各种信息,对用户提出的问题回答的准确率还很 低。 如何使得计算机正确理解用户提出的问题, 一直以来都是问答系统研究的关键。 问句分析是问答系统中最重要的一部分,指导问答系统后续模块的进行。本文重 点研究问句分析中的句型分析。 山西大学开发的汉语框架网(chinese framenet, cfn) 中的语义角色、短语类型和句法功能标注三层标注,为语义分析提供了资源。 本文提出一种基于本体和汉语框架网的句型分析方法,研究如何把语义角色加 入到问句分析中,并将该方法应用于旅游本体库的问答系统,进而对本体答案进行 抽取。该方法很大程度上提高了问句的语义理解,为问句分析提供了一种新的研究 方法。cfn 的语义角色标注应用到旅游领域的问句处理是一个新尝试。 本文的主要工作包括: 1 根据本体的定义和旅游领域的标准, 构建了旅游本体库原型,并设计了本系统 框架。 2 本文通过对问句句型的分析,研究如何把语义角色加入到问句分析中,提出 了一种基于本体和 cfn 的句型分析方法。该方法在传统分类的基础上结合本体库的 特点,对问题分类进行细化。以旅游问句中的交通问句为例,通过 cfn 语义角色标 注和问句类型的结合,制定不同的模板,根据模板执行不同的策略,从而抽取有用 的本体三元组信息。 3 通过对交通问句中 “方法”类问句句型和语义角色标注的特点进行分析,制 定了该类问题的句型模板以及策略。通过对该类问句进行实验,验证了该方法的可 行性和有效性,提高了问题的召回率。 关键词:旅游领域;问句分析;句型分析;汉语框架网 3 abstract in recent years, as a result of the rapid development of computer and network, tourism information becomes the focus of peoples attention. most of the current tourism information is provided by toruism website, and the accuracy rate of users questions is still very low. so how to enable computer to understand users questions has been the key point of question answering system. question analysis is the most important part of question answering system, and it guides question answering system for follow-up module. this article focuses on stentence pattern anylysis of question analysis. chinese framenet (cfn) of shanxi university,including semantic role, phrase type and syntactic function, provides resource for semantic analysis. this paper presents a stentence pattern anylysis method based on ontology and chinese framenet, and studies how to put the semantic role into question analysis. and applies this method to the question answering system in tourism ontology,and then extracts answers. this method advances understanding of questions, and provides a new method for question analysis. it is a new attempt that semantic role labeling of cfn is applied to questions dealing with in the area of tourism. the main works in this paper includes: 1 in accordance with the definition of ontology and tourism standards, this paper builds a prototype of a tourism ontology library, and designed the framework of the system. 2 by analyzing question pattern and studying how to put semantic role into question analysis, this paper introduces a method of question pattern analysis based on ontology and cfn. based on the traditional classification, this method combines the ontology library, and refines question classification. taking the traffic question as an example, combining semantic role of cfn and question pattern, we make different templates, and then implement 4 different rules according to the templates and extract useful information triples. 3 by analyzing question pattern of the method types and semantic role labeling, this paper makes sentence-type template and rules. the experiment results show that this method is effective and feasible, and improves the recall rate of the problem. key words: traveling domain; question analysis; stentence pattern anylysis; chinese framenet 44 承承 诺诺 书书 本人郑重声明: 所呈交的学位论文, 是在导师指 导下独立完成的,学位论文的知识产权属于山西大 学。 如果今后以其他单位名义发表与在读期间学位论 文相关的内容, 将承担法律责任。 除文中已经注明引 用的文献资料外, 本学位论文不包括任何其他个人或 集体已经发表或撰写过的成果。 本人郑重声明: 所呈交的学位论文, 是在导师指 导下独立完成的,学位论文的知识产权属于山西大 学。 如果今后以其他单位名义发表与在读期间学位论 文相关的内容, 将承担法律责任。 除文中已经注明引 用的文献资料外, 本学位论文不包括任何其他个人或 集体已经发表或撰写过的成果。 学位论文作者(签章) : 年 月 日 第二章 基于旅游领域问答系统原型设计 第一章 引 言 1.11.1 研究背景以及意义 随着互联网的普及,google、yahoo、百度等搜索引擎已经逐渐成为人们生活内 容的一部分。但目前这些搜索引擎大都返回的是许多相关的网页,而不是准确的答 案。 问答系统相比传统的关键字搜索引擎来说,用户可以使用自然语言进行提问, 同时经过问句的分析、理解,直接返回给用户答案。因此问答系统是一种特殊的搜 索引擎。基于受限领域的问答系统在对问题答案的定位上,能够更准确的理解回答 用户提出的问题,其处理技术是当前研究的热点问题。 本文是在国家 863 高技术研究发展计划资助下,研究旅游问答系统中的问句类 型及其处理策略。通过询问类型的研究以期给计算机提供可读的信息,本文将从两 个方面来进行研究,一是引入了本体和语义 web 的思想,建立了一个旅游领域的本 体知识库。二是在传统的问句处理中加入了语义角色标注,并且结合本体库和 cfn 的特点制定了问句句型模板。本文提出了基于本体和 cfn(汉语言框架语义网)结合 的问句句型方法,着重研究汉语框架网中“到达” 、 “穿越” 、 “出发” 、 “位移” 、 “方位” 5 个框架,对交通路线和交通工具问句测试。 本文将本体知识和语义 cfn 的语义标注信息引入到到旅游领域的问句处理中, 并将它们转换成计算机可读的信息,从而提高了计算机对问题的理解能力。 1.2 问答系统研究现状 问答系统是近几年来成为自然语言处理的研究热点。每年一度的国际文本检索 会议(textretrieval conference, trec)的支持下, 限定领域的 qa 也在不断的发展。 在国际上,有一些受限领域或开放域的问答系统已经有所成果,比较著名的有 start,askjeeves, ,excite、nki、answerbus1等。mit 的 start 系统比较接近自 然语言问答,其核心技术是基于知识标注和数据挖掘,将结构化半结构化数据与自 由格式文本区别处理。目前 start 能够回答有关历史、地理、文化等方面的简单问 题,对一些语义性强的问句或者是连续的问句还缺乏语义理解。lasso/falcon 也是 典型的自然语言问答系统,基于关键字的搜索,运用 wordnet 可能提供的答案。faq finder 是一个在线的问答系统,把关键字建立了索引,通过索引来找答案。 在国内,许多科研机构也开展了对汉语问答系统的研究,如北京理工大学的银 行领域问答系统、中科院计算所的红楼梦人物关系问答系统、哈工大的基于常问问 5 6 题集的问答系统、清华大学的校园导航系统2。中科院计算所研究 nki 知识问答系 统可以使用自然语言对十几个知识库进行查询。台湾的中文问答系统 cqas,采用关 系串列方式分析,来提高问题的召回率。 1.3 句型研究现状 80 年代语言学家从语法、语义、语用三个方面研究,提出了不同的句型分类标 准和系统3。 目前问答系统都有问题类型识别这一过程,即针对不同的问题类型,执行不同 的规则。研究表明4qa 系统中全部错误的 36.4%来自于问题类型识别这一过程。所 以类型的识别起着很大的作用。 80 年代语言学家着重研究划分与确定句型标准和建 立标注句型。目前北京大学从对外汉语教学提出标准句型系统。清华大学人文学院 计算语言学研究室以汉语句型的自动分析为基础,在不包括疑问句的情况下归纳出 标准句型 191 种5。 目前中文的句型分析才刚刚开始研究,主要有两种方法。第一种:南京理工大 学的张亮4,通过研究了中文问句标注语料库的结构特征及其句法树,应用结构比 对和频度统计的方法,获取问句句型;另一种:西北大学5在进行问句类型分析时, 采用“问句统一型”的方法,做一个句型库,库中包括三个表分别为:疑问词表, 问句统一性表,可能回答的形式表。采用将提问化为标准形式和针对标准形式给出 多种可能回答形式的处理方式, 使表达形式不同, 语义相同的问句得到相同的处理, 提高了答案抽取的效率。 本文将针对旅游问答系统中的问句进行类型识别,在传统的基于疑问词短语和 问句短语类型结合的方法的基础上,加入了 cfn 的标注,结合此类型的问句框架特 点,归纳出问句类型的模板,从而有利于从本体库中提取三元组答案。 1.4 汉语框架网 cfn 是山西大学汉语框架语义网课题组在刘开瑛教授的指导下,以真实语料为 支持,以 fillmore 的框架语义学6 ,7为理论基础,以伯克利 framenet8提供的数据为 参照,构建了汉语框架网(chinese framenet,简称 cfn)9,它由框架库、句子库和 词元库三部分组成,使用 xml(extensible markup language,可扩展的标记语言)、 rdf(resource description framework,资源描述框架) 、owl(web ontology language,web 本体标记语言)对资源进行描述10,以期为语义 web 等的应用提供一 部计算机可读、 可理解的语义词典, 为实现语义 web 中的语义知识共享以及智能化、 第二章 基于旅游领域问答系统原型设计 7 个性化的 web 服务提供基础资源11 ,12。 框架库以框架为单位,给出框架的定义和框架中的元素,并描述该框架和其他 框架之间的概念关系;句子库包含按照框架库所提供的框架和框架元素类型,标注 句子的框架语义信息和句法信息;词元库记录词元的语义搭配模式和框架元素的句 法实现方式。 cfn 句子标注,依据框架库,针对句子中指定的词元和框架,标记框架元素、 短语类型和句法功能。例如,句子“开车从北京出发去五台山,大概路线是什么? ” 的标注结果如下: ,大概路线是什么? :位移/motion 框架 其中,tgt 表示所标注的目标词即“去” ,该词语属于位移框架;car 表示框 架元素属性,sp 表示短语类型是处所短语,va 表示连谓成分,其他标记依此类推。 cfn 通过框架和框架元素以及三层标注,提供了语义分析的方法。 1.5 论文集中解决的技术难点 问答系统中涉及到很多技术,不仅涉及到信息检索的一些技术,并且还涉及到 其它的技术,例如:词法分析、句法分析、句型分析、命名体识别、问题分类、语 义分析相关技术。通常问答系统中问句处理模块包括以下几部分,如图 1-1 所示: 问句分词句型分析句法分析词性标注 形式化扩展问句形式化问题分类 图 1-1 问句处理的流程 首先通过问句分词、词性标注、句法分析、句型分析、确定了问句的类型,提 取出关键字,依据不同的问句类型进行扩展。同时还需要根据不同的问句类型制定 不同的规则,提高答案抽取的效率。在句型分析中需要用到问题的模板库,在提取 关键词的时候用到领域词库。近年来,语义分析也加入到问句处理中,把用户提出 的问题做了深入的理解与分析,为答案抽取做准备。 8 句型分析是指按照句子的结构归纳出的句子类型。句型具有抽象性、有限性、 层次性和独特性的特点。问句句型分析是问句处理的重要部分,句型分析的特点有 13,14:一、问句形式为自然语言;二、问句的形式比较固定;三、同一问句有不同 的提问方式。基于句型的以上特点,本文在问句的形式和同一问句的提问形式上进 行了归纳总结。本文在通常的问句分析中,加入 cfn 对问句进行语义分析,同时根 据不同的框架和问句类型以及本体库的特点制定了规则, 在旅游本体库中抽取答案。 在基于汉语框架网的旅游领域问答系统的询问类型的研究中, 解决了以下问题。 (1) 首先将汉语框架网应用于旅游领域是一个探索。 同时应用于问答系统的问 句标注更是一项艰难的探索。 框架网的句子库中的句子都为陈述句,对于问句的标注,本文只是一个尝试。 目前本课题小组正在研究和探索问句的标注规范。问句标注中,涉及到疑问词、疑 问意向词是否标注等问题,本文制定了标注规范。 (2)本文基于本体的思想设计了旅游问答系统库的原型,用 w3c 推荐的 owl 对库中数据以主体、客体、谓词三元组进行描述。 (2)根据 trec 的分类标准,同时结合本体库的特点,把问句分类进行细化, 从而有利于在本体库中抽取答案。 (3) 不同类型的问句的重要信息不同, 框架网提供的语义信息结合问句的句型 特点,制定句型模板,为自然语言的语义分析提供了很大的帮助。 1.6 本文的研究内容 本文面向山西旅游 qa 信息系统, 首先对用户的问题, 根据旅游六要素即游、 购、 娱、食、住、行,建立了领域本体库。重点是对山西景点的旅游问句,预处理之后 同时结合汉语框架网(cfn)标注对问句进行分析,然后结合不同的问句类型和问句 句型,同时考虑到不同框架的核心元素的特点,制定了规则即模板,形成问句向量 从而有利于从本体库中抽取答案。 第一章:简单介绍本课题的背景和意义以及句型研究的现状。介绍了目前句型 分析的一些方法。提出了本文的研究方法以及该方法在研究中解决的问题。 第二章: 介绍了本体的定义以及表示和概念关系的确定, 同时构建了旅游本体。 并且简单介绍了本系统框架。在框架中,预处理中用到 cfn 标注,同时在问题类型 识别中用到了本体库的知识,以及模板库以及 cfn 框架网。语义推理中涉及到本体 的逻辑推理,在本实验中此模块尚未研究。本实验主要研究 3 中的问句类型识别。 第二章 基于旅游领域问答系统原型设计 9 第三章:首先介绍了问答系统中的问句处理流程,简单介绍了本体中的问题分 类。以旅游问句中的交通问句为例,提出了在问句分析中加入了框架网问句语义角 色标注,对问句类型进行划分并且不同的模板执行不同的策略。从而抽取有用的本 体三元组信息。 第四章:将本文提出的交通路线问句进行归纳总结制定了模板,根据模板的特 点制定了不同的策略。并将该方法进行了实验,同时对实验结果进行了分析。 第五章:总结全文,并对以后的工作进行展望。 10 第二章 基于旅游领域问答系统原型设计 本章首先根据本体的定义和关系构建了旅游本体库的原型, 重点是山西五台山。 同时设计了本旅游问答系统的框架。 2.1 本体的构建 2.1.1 本体的定义 本体(ontology)起源是哲学中的概念,指事物的本质。本体的描述语言 owl (ontology web language) 15语言是 w3c 推荐的描述语言,具有良好的语义表示和 逻辑推理。ontology 的四层含义16: (1) 概念模型 (conceptualization):通过抽象客观世界中的一些现象 (phenomenon)的相关概念而得到的模型。 (2)形式化(formal):本体是计算机和人都可读的。 (3)明确(explicit):本体明确定义了概念及概念约束。 (4)共享(share):由于本体体现的知识是共同认可,它具有共享性。 2.1.2 领域本体的创建 stanford 大学开发并使用 prot g 2000、ontolingua 等本体编辑17。以下为本 体构建过程: (1)确定领域本体应用的目的、范围、表示方法和用途等。 (2)考虑重用现有的本体,目前已有一些本体库,如 daml 本体库。 (3)列出本体中重要术语,这些术语表达了建模过程当中所感兴趣的事物、实 物所具有的属性和它们之间的关系等。 (4)定义类和类的继承 (5)定义属性和关系 包括逆属性和缺省属性值。在 owl 中有两种类型的属性:对象属性和数据类型 属性,分别表示类的实例之间的关系和类的实例与文字之间的关系。同时属性之间 关系包括:逆关系(inverse of)、传递关系(transtive property)、函数关系 (functional property)、对称关系(symmetric property)、逆函数关系(inverse functional property)。 (6)定义属性的限制 包括属性的基数、属性值的类型,以及属性的定义域和值域。 (7)构建实例,确定一个与个体最接近的类,然后加一个实例作为它的类,同 第二章 基于旅游领域问答系统原型设计 11 时要为实例的属性赋值。 2.2 本体的表示 perez 归纳出 5 个基本的建模元语18(modelingprimitives) 类(classes)或概念(concepts) 关系(relations) 函数(functions) 公理(axioms) 实例(instances) 2.3 信息的收集与旅游本体库的构建 面向山西旅游信息,参照中国分类主题词表及旅游服务基础术语 (gb/t 16766-1997) 、 旅游规划通则(gb/t 18971-2003)、旅游业各学科在中国图书馆分 类法中所属类别等进行了旅游本体模型的初步构建。图 2-1 为这 6 类(概念)之间 的关系模型图。采用 owl lite 进行本体模型的编码,并使用了美国斯坦福大学的本 体编辑工具 prot g 19,20。 在旅游本体库中, 有景点类 (sight) 门票类 (ticket) 交通工具类 (traffictool) 房间类 (room) 购物类 (shopping) 酒店服务类 (servise ) 娱乐类 (entertainment) 特色小吃(characteristic_food) 。每个类有子类。各类定义了自属性。例如:在 交通工具中有子类汽车类(car )飞机类(plane)火车类(train) ,并且定义了交 通工具类的属性: 出发点 (traffictool_start) , 需要时间 (trffictool_needtime) 目的地(traffictool_end) ,同时定义了汽车类和飞机类、火车类的子属性(数据 类型属性) 。在各类之间定义了对象类型属性,例如在景点类和交通工具类建立了 has_traffictool 属性,交通工具和景点类建立了 arrive_at 属性。在定义了数据 类型属性和对象类型属性以后还需要对属性的定义域和值域进行限定。 12 文化类旅游娱 乐场所 旅游定点餐馆 门票 当地特产 手工艺品 宾馆 饭店 房间 酒店服务设施 餐饮 商务 酒店 娱乐运动旅游汽车 游览船 旅游船 公车 自驾车 星级游船 公寓 民宿 旅游团队餐 康乐类旅游娱 乐场所 娱乐 景点餐饮 住宿交通工具 购物 表示类(概念)之间关系 - 表示类之间相互独立 表示类(概念)继承关系 表示类之间相互依赖 图2-1 旅游领域本体模型 2.4 系统构架 本系统的构架如图 2-2 所示,它主要包括:预处理模块,问句匹配以及在旅游 知识本体库中的答案抽取模块,答案处理模块。如图 2-2 所示,面向山西旅游信息 的自动问答流程是: 1、提交问题:用户先的问题首先包装在一个 soap 消息中,然后提交给 http 服务器。 2、预处理:随后对用户提交的问句进行预处理,即识别有用的实体的信息,如 命名实体识别,以及分词和词性标注都用到 cfn 以及专业领域库。专业领域库是旅 游领域的知识条目,以 rdf 的形式命名了一个空间,以便系统对领域专有名词切分 正确。 3、问句匹配:由于问答系统中存在口语词汇较多,所以建立了旅游领域中的词 汇对应的口语词汇词典,以便更好的语义理解。在进行简单的语义分析之后,通过 第二章 基于旅游领域问答系统原型设计 13 关键字的粗略提取,利用旅游扩展词库的提取出用户的查询要求,同时结合 cfn 中 框架的语义可以高效率的提取出有用的相关信息。从而确定了检索的类型以及检索 的策略。看查询要求是否能和问句例库和问句模板库中的类型进行匹配。 4、语义知识推理:进行答案的查找。入口是转化生成的 rdf 三元组问句向量, 然后利用本体知识库中 tbox 和 abox21中进行语义知识的推理,即进行答案抽 取。 tbox 中包括 alc 概念间的蕴含和等同关系, abox 包括领域个体和概念以及 个体对和关系间的隶属关系。 5、 答案的处理:即过滤掉与答案无关的内容, 并进行相关度排序和答案的抽取。 xml 标记cfn数据 库 rdf 描述cfn词汇 语义 owl 描述资源关系 http服务器 预处理模块 问题类型识别 语义知识推理 答 案 处 理 用户提交问题界面 答案处理模块 (答案筛选) (相关度排序) (答案抽取) cfn汉语 言框架网 框架库 (frame ontology) 词元库 (lexical ontology) 句子库 词法分析 旅游领域库 cfn框架网 旅游本体库 问句模板库 本体知识库 tbox(模式) abox(模式) 图2-2 旅游信息问答系统构架 2.5 总结 本章简单介绍了旅游本体库的信息收集与一个原型旅游本体的构建,简单介绍 了本体库中的属性和关系的确定,属性关系的确定不仅直接影响本体库中的答案抽 取同时影响到本体规则推理,需要高度的严密性。最后介绍了本问答系统框架,在 框架中,预处理中用到 cfn 标注,同时在问题类型识别中用到了本体库的知识,以 及模板库和 cfn 框架网。语义推理中涉及到本体的逻辑推理。本实验重点研究 3 中的问句句型识别。 第三章 问句处理 14 第三章 问句处理 问题处理是问答系统的一个关键问题,只有深刻正确的理解用户提出的问题以 后,才能提高问题的正确率。本文研究 cfn 框架网如何提供给自然语言语义分析, 从而提取出重要的语义角色,通过问题分类、生成检索表达式,根据所属的类型同 时结合本体库特征确立不同的答案抽取规则。目前本课题小组正在研究 cfn 框架网 应用于问题分类22, 23。 3.1 问题处理的流程 对于用户用自然语言提出的问题,问题处理模块首先预处理,包括分词和词性 标注、句型分析、句法分析句型分析。然后进行问句深化处理,在深化处理中,包 括问题分类、语义分析、句型匹配以及关键词提取和扩展。 问题(自然语言) 问句预处理 问句分词 词性标注 句法分析 句型分析 问句深化处理 语义分析 问题分类 关键词提取和扩展 句型匹配 问句向量 cfn汉语 框架网 问题模板库 旅游领域库 图 3-1 问句处理流程 cfn 汉语框架网:通过汉语框架中的语义角色标注,以及句法和语法的标注, 根据不同类型的问句提取不同的信息。 问题模板库:本文目前着重研究的是交通问句中不同类型的问句,需要考虑框 架特点,例如:框架之间的上下位关系和框架中的核心元素以及框架之间的优先顺 序。在制定规则时还需要考虑本体中的主体之间的关系24,25。 旅游领域库:其中包括旅游领域中的一些专用词汇,用于问句的形式化扩展。 第三章 问句处理 15 3.2 问题分类 3.2.1 分类方法 问题分类中,可以从不同的角度来分类,从性质上分开放型、封闭型;形式上 分疑问、设问、反问,或特指问、选择问、是非问。最主要的是从内容上分,可以 直接利用 toplever ontology26的概念分类体系,较全面多层次进行分类。本文 采取了多角度分类形式,在 trec27会议提出的 7 大类 6028小类合的基础上,如表 3-1,利用本体的思想,对问题分类,分类流程图如图 3-2。 表3-1 trec采用的问题分类体系 大类(coarse) 小类(fine) 人物(hum) 特定人物 团体机构 人物描述 人物列举 人物其他 别名 地点(loc) 星球 城市 大陆 国家 省 河流 湖泊 山脉 大洋 岛屿 地点 列举 地址 地点其他 县 地区 数字(num) 电话号码 数量 价格 百分比 距离 重量 温度 年龄 面积 频率 速度 范围 顺序 数字列举 数字其他 区号 邮编 体积 时间(time) 年 月 日 时间 时间范围 时间列举 时间其他 实体(obj) 动物 植物 食物 颜色 货币 语言文字 物质机械 交通工具 宗教 娱乐 实体列举 实体其他 庙宇 人造神 描述(des) 简写 意义 方法 原因 定义 描述其他 历史 简述特点 故事 传说 典故 未知(unknown) 未知 基于汉语框架网的旅游问答系统中询问类型及其处理策略研究 16 问句 预处理 问句分析 识别问句形式 选择特指是非 是否有“最 ”比较成分 分析比较成分 问句类型识别 关键词提取、扩展 问句向量 人物,时间,数字,地点,实体(本体描述中的三元组主体、客体) 描述 未知 方法(本体描述中的三元组谓词、客体) 意义、简写、描述其他 定义、原因 y n 图 3-2 问句分析流程图 问句分类, 建立在 7 大类 60 小类与本体相结合的基础上。 问句类型分为三大类: 第一大类:在本体库中,所有人物地点时间数字以及旅游领域中的实体, 都属于对客体的提问,实体的提问也可能是主体可能是客体。第二大类:描述类, 其中又分为三类:a 方法。此类问题有时需要语义转化为主体的谓词。如:疑问词: “怎么走”需要转化为谓词“路线”。b 意义简写描述 c 定义原因。在旅游 本体库中,此类属于三元组中谓词。第三大类:未知。 本实验将重点研究交通问句中“描述”类中的“方法” 。例如: “我在西安,想 去五台山,怎么坐车?” 。 3.2.2 问题分类特征的选取 仅靠疑问词来识别问句的分类并不一定是正确的,因此本实验选取疑问词和意 向词结合作为问句的分类特征29,一般认为疑问词附近具有名词特性的词或者是短 第三章 问句处理 17 语或是动词。表 3-2 为每一种类型所对应的疑问词举例。 方法如下: 1 即疑问词前后各取一个词。即紧靠近疑问词前后最近的动词或者名词即标记 为“n”和“v” 。 2 如果动词是“是”则继续找它前面或者后面具有名词或者动词的词。疑问意 向词最多选取两个。 3.3 问句句型 用户提出的问句,为了使相同类的问句得到相同的处理,本实验采用了“问句 统一型”方法,建立两张表:疑问词表、问句句型表。如下: (1)疑问词表 本表包括问句类型、疑问焦点和疑问词短语。其中把同一种问句类型的所有疑 问词短语用一个疑问焦点来代替30如:表 3-2。 表 3-2 疑问词表 问句类型 疑问焦点 疑问词短语 问句类型 疑问焦点 疑问词短语 询问人 什么人 什么人、谁、那个人、何人、那些人、哪一个人 询问地点 什么地方 哪、哪里、什么地方 询问时间 什么时间 什么时间、什么时候、何时、哪一年 询问数量 多少 多少 怎样 怎样、怎么样、怎么、如何 什么方法 什么方法、什么方式、什么算法、什么途径 询问方式 哪些方法 哪些方法、哪些方式、哪些算法、哪些途径 (2) 问句句型表 本表主要包含:疑问词、疑问词和疑问意向词、问句句型。表 3-3 是由“怎样” 组成的疑问词短语可能构成的问句形式规则。其中 np 表示名词短语,vp 是动词短 语,sp 为处所短语。该表主要用来进行句型匹配。 表 3-3 问句句型表 疑问词 疑问词+疑问意向词 问句句型 疑问词 疑问词+疑问意向词 问句句型 怎样 路 n +如何 r+ 走 v 路线 n +怎样 r +走 v vp+pp+到+sp+;pp +到+sp+;pp+到+sp+dp+ 怎样 要 v +怎样 r +走 v 怎样 应该 v +怎样 r +走 v sp+到+sp+;pp+到+sp+vp+;在+sp,vp+sp+ 怎样 怎么 r +到 v pp+sp;sp+到+sp+;pp +到+sp+vp+;+pp+到+sp; 基于汉语框架网的旅游问答系统中询问类型及其处理策略研究 18 3.4 基于 cfn 的问句分析 传统的问句分析包括问句分词、词性标注、句法分析、句型分析等,是中文问 答系统处理的关键。本试验在传统的问句分析后,加入了浅层语义角色分析,主要 研究了交通领域的问句。由于问句识别主要是依据句子中的疑问词以及疑问意向词 来识别,同时考虑到动词,因为本体知识条目的关系必然是动词。而动词在 cfn 标 注中有相应的框架,从而找到具有语义的重要信息。 目前,cfn 课题组已就汉语 3037 个词元构建了 310 个框架,标注了 21600 条句 子;涉及认知领域用词、科普文章常用谓词以及部分中国法律用词。但是主要研究 的为陈述句,问句的研究正在探索中。将语义角色标注应用于旅游问句中也是一项 新的尝试。 在传统问句分析中,疑问词的识别具有重要的意义。而疑问意向词中的动词, 即靠近疑问词最近的动词有着重要意义。由于疑问意向词是表达“问题问的到底是 什么” 。 而把疑问意向词作为目标词, 则对应的这个概念在 cfn 中对应框架下不一定 有此成分。这样的判定比较难。所以在问句的标注中,本文将对疑问意向词中的动 词一般不作为目标谓词标注。例如问句“从北京到五台山怎样乘车?”标注为 src-pp-adva 从北京 tgt=到达 到 goal-sp-obj 五台山怎样乘车?而目标 词不选择“乘“,选择 “到” 。 在问句分析后生成问句向量,本文采用基于规则的方法,此方法是考虑框架和 句型结合产生的不同模板。在不同的问句类型中,问句标注的目标谓词不同。例如 在问句“驾车从太原到五台山路怎样走?“中标注结果为“ 路 n 怎样 r 走 v ? w” ,而问句”我在湖北,怎么走到五台山?标注为 “,w 怎么 r 走到 v 五台山 ns?“和” 我 r 在 p 湖北 nsh,w 怎么 r 走?“,选 取两个不同的目标词即进行标注,得到不同的语义角色。 因此本实验制定了本文标注交通问句中的方法如下: 1 如果问句中除了疑问意向词中的动词外还有别的动词,则包含在疑问意向词 中的谓词不作为目标词进行标注。 2 如果问句中除了疑问意向词之外没有别的动词,那么该句的目标词为该谓词。如 句子“从长治市怎么到五台山?” “到”为目标词进行标注。 第三章 问句处理 19 3 如果问句属于不同的问句类型,按照问句类型选择目标词进行标注。 3.5 用户询问类型的划分及其处理策略 本文利用 “到达” 、 “穿越” 、 “出发” 、 “位移” 、 “方位”5 个框架,对询问交通 路线或者交通工具的问句进行分析问句,同时利用框架中的词元对动词进行了同义 扩展。这五个框架主要用于特指疑问句的分析。 在交通路线的问句中,问句的重要信息就是路线的出发点以及目的地以及乘车 的方式。cfn 框架如: “到达” 、 “穿越” 、 “出发” 、 “位移” 、 “方位”中可以提供相关 重要信息。例如在“到达”框架中框架元素提供了重要的信息,如:出发点、目的 地、传送方式、时间等框架元素。表 3-4 简略展示了“到达”框架的内容。但又的 框架不能提供完整的语义信息, 如表 3-5 中,框架 “到达” 、“穿越” 、“出发” 、“位移” 、 均有框架元素目的地goal、 源点src, 在 “方位” 框架, 只有框架元素: 背景grnd, 没有目的地goal元素。 表 3-4 “到达”框架 架名 到达 架名 到达 定义 定义 指转移体朝目的地方向的移动。 目的地可直接表达出来, 或从上下文中得到理解, 动词本身隐含目标之义。 目的地 goal 目的地 goal 目的地表现的是转移体运动终止之地,或行将终止之地。 核心框架元 素: 转移体 thm 核心框架元 素: 转移体 thm 转移体指移动的物体 并行转移 体 thm_c 并行转移 体 thm_c 并行转移体指除转移体以外的其他移动的物体。 形容dep 形容dep 形容指用来描写转移体到达的状态。 目 的 地 状 态 g_c 目 的 地 状 态 g_c 转移体到达目的地时目的地所呈现出的状态。 修饰 manr 修饰 manr 表现修饰的话语用于对动作特性的描述,用来描述运动的速 度、姿态以及其他情况。 方法 mns 方法 mns 用于表现转移体到达的方式。 传送模式 mot 传送模式 mot 传送模式指作用于主体的运动模式, 通过传送主体的主体身体 或交通工具而实现。 轨道 path 轨道 path 轨道指运动的轨道,既非源点,也非目的地。 源点 src 源点 src 源点即明确表达运动的出发点, 该框架中出现表达源点的用语 是可能的,但出现的频率却相对不高。 非核心框架 元素: 时间 time 非核心框架 元素: 时间 time 该框架元素表现到达这一动作出现的时间。 词元 词元 到达 v,来到 v,进入 v,抵达 v,返回 v,走到 v,走进 v,赶到 v,回来 v,归 来 v,到 v,回到 v 基于汉语框架网的旅游问答系统中询问类型及其处理策略研究 20 表 3-5 研究框架元素对比 框架名 核心框架元素 非核心框架元素 词元 框架名 核心框架元素 非核心框架元素 词元 到达 目的地goal、转移 体thm 并行转移体thm_c、形容dep、目 的地状态g_c、修饰manr、方法 mns、 传送模式mot、 轨道path、 源点src、时间time 到达 v,来到 v,进入 v,抵达 v,返回 v,走 到 v, 走进 v, 赶到 v, 回来 v,归来 v,到 v, 回到 v 穿越 转移体theme、 路径 path、 范围area、 方 向 dir 、 距 离 dist、终点end、 目标goal、路径形 状ps、源点src 环境条件circ、方法mns、交通 工 具 veh 、 时 间 time 、 空 间 place 目的purp等 攀登 v,上升 v,环绕 v, 交叉往来 v,横过 v,下 降v,跳v,爬v,通过v, 经过 v,穿过 v,围绕 v,穿越 v 出发 目的地goal、自移 者sel、源点src 方 法 mns 、 时 间 time 、 路 径 path、动作时间量dur_action、 修饰manr、旅程jou 出发 v,启程 v,出航 v, 启航 v,出行 v,出游 v,启行 v,动身 v, 位移 方向dire 目的地 goal、源点src 路 径 path 、 区 域 area 时 间 time 、 速 度 spd 、 结 果 result、 目的purp、 修饰manr、 空 间 place 搬 运 器 car 程 度 degr 形容dep 距离dist 动 作时间量dur_action 吹 v,漂流 v,漂浮 v,飞 v,滑行 v,走 v,移动 v, 滚动 v,滑动 v,滑翔 v ,漂移 v,漂 v,扩散 v,进入 v,陷入 v, 方位 形 象 fig 、 背 景 grnd 距离dist、时间time、 相邻 v,临近 v,邻接 v,沿着 v,横跨 v,邻 接 v,毗邻 v 3.5.1 用户询问类型的划分 cfn 通过第一层为问句提供重要的信息即交通工具以及出发点和目的地。表 3-6 为 旅游交通领域的各类型问句的部分问句标注示例。从表中可以看出,属于同一问句类中 的问句形式有很多种,所以需要归纳出具有相同语义的问句,然后根据短语的不同搭配 形式再将其细化。 第三章 问句处理 21 表3-6 为旅游交通领域的部分问句标注示例 问句类型 问句 疑问词 cfn 标注 问句类型 问句 疑问词 cfn 标注 loc(地址) 从太原到五台山沿 途经过哪里? 经过+哪些+地方沿途 哪 些 地方? : 穿 越 /traversing 框架 ,大概路线是什么? : 位移/motion 框架 obj(实体) 开车从北京出发去 五台山,大概路线 是什么? 路线+是+什么 ,大概路线是什么? :出发/ getting_underway 第 一 大 类 time (时间) 开车从北京出发到 五台山,多长时间? 多长+时间 ,多长时间? :到达/arriving 框 架 我在西安,要去山 西五台山怎么走? 怎么+走 在 西安, ? : 位移/motion 框架 特 指 疑 问 句 第 二 大 类 des(描述) :方法 驾车从太原到五台 山路怎样走最近? 怎样+走+最近 路怎样走最近? :到达/arriving 框 架 基于汉语框架网的旅游问答系统中询问类型及其处理策略研究 22 是 非 疑 问 句 第 三 大 类 unknown (未知) 去五台山旅游是否 有比较省钱的线 路? ? :存在/existence 框 架 对大量不同问句分析后,归纳出具有同一语义的问句中短语之间的搭配关系和次序 的不同情况。例如在 des(描述):方法中主要有两种类型的问句。例如为第二种例句建 立了问句模版(qm)。例如类型为“方法”的交通问句中,涉及框架 “到达”的问句模 板如下: a qm(arrive)= (sp)+ (txt=到)+(sp)+(qw=怎么)+(vp=去)? b qm(arrive)= (sp)+ (txt=到)+(sp)+(qw=如何)+(vp=去)? c qm(arrive)= (vp=从.)+ (qw=怎么)+(txt=去)+(sp)? d qm(arrive)= (qw=如何) +(vp=从.) +(txt=到) +(sp)? e qm(arrive)= (qw=如何) +(vp=从.) +(txt=去)+(ns)? 其中 sp 为处所短语,qw 为疑问词。此模板都是选取“到达”框架的词元作为目标 词,由于五个问句属于同一问题的不同询问方式,定义了同一个答案抽取的规则。答案 都是返回本体库中的车类型以及路线。但是由于库中的问句库数量有限导致模板中句子 数量有限,所以在当用户的问句在模板库中不存在时,涉及到计算问句和库中的此类模 板问句之间的语义相似度计算31,32,33, 目前本实验还未研究问句之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务课程学习的重要性计划
- 自信面对2025年法学概论考试试题及答案
- 2024年南昌航空大学辅导员考试真题
- 2024年乌什县人民医院招聘笔试真题
- 法学教育的现状与未来试题及答案
- 2024年湖北省生态环境厅下属事业单位真题
- 法学概论法律教育政策的研究进展试题及答案
- 2024年青岛平度市平安银行招聘笔试真题
- 2024年南阳市事业单位招聘联考笔试真题
- 2024年汉中市南郑区医疗定向招聘笔试真题
- 2022年全国外贸跟单员岗位专业考试外贸跟单基础理论试卷A卷(含英语)
- AI时代的挑战与机遇2024年人工智能的应用与发展
- 人教版六年级上册数学第五、六单元测试题(含答案)
- 陕西省西安市莲湖区2023-2024学年六年级下学期期末英语试题
- 高中化学优质课说课 海水资源的开发利用
- 企业录用通知书offer模板
- 人际沟通与礼仪智慧树知到课后章节答案2023年下河北工业职业技术学院
- 责任书-景区安全生产责任书
- QB∕T 3826-1999 轻工产品金属镀层和化学处理层的耐腐蚀试验方法 中性盐雾试验(NSS)法
- 田径运动会竞赛团体总分记录表
- 药物临床试验质量管理规范(GCP)课件
评论
0/150
提交评论