




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020/6/12,1,新闻领域术语自动抽取技术研究与应用,汇报学生:XXX学号:XXX指导老师:XXX,2020/6/12,2,主要内容,总结,系统测试,新闻术语抽取系统实现,系统总体设计,研究背景与意义,2020/6/12,3,背景:当人们不了解这些术语的确切含义时,往往借助于搜索引擎进行信息检索。如何有效地开发和利用丰富的网络信息资源,从大量的信息中快速准确地获取用户所需的术语定义以及相关信息,成为了一项极具研究和实用价值的课题。在面向术语的信息检索中,涉及的关键技术包括了术语定义的自动抽取以及术语语义相关性的计算,本文就这两个方面的内容进行了分析和研究。当前很多搜索引擎,虽然可以提供所查术语的大量解释或描述性信息,但往往无法直接提供完整的术语定义。靠人工从海量信息中查找到术语的定义是件费时费力的事情,因此,在传统信息检索技术的基础上,引入对术语定义的自动抽取技术,将检索的粒度由原来的以篇章为单位转变为以知识元为单位,帮助用户快速定位、抽取出所需的定义信息就非常关键。,研究背景和意义,2020/6/12,4,意义:通过对新闻领域术语自动抽取技术进行分析可知,对术语词的内部结构进行充分的了解是有效提高术语抽取效率的关键,论文所采用的新闻术语抽取算法能够有效、准确、快速的对新闻术语进行抽取,在准确率和召回率方面也比较可观。目前国内基于中文维基百科而进行的自然语言处理领域的研究仍然较少,因此,尝试基于中文维基百科的术语间语义相关度计算的研究是一项非常重要而有意义的工作。,研究背景和意义,2020/6/12,5,研究内容:1、对系统进行了充分的前期调研,查找了各种术语抽取文献资料以及参照了很多算法,对术语自动抽取系统提出了具体的需求,并明确了系统实现以后的重要作用。2、充分学习了领域术语知识,为术语的抽取做好了理论基础。对相关的术语抽取方法进行了详细的介绍。3、按照本课题的设计,对新闻领域的术语自动抽取系统进行了详细的设计。包括系统实现架构介绍、系统需要实现的功能以及系统中所采用的两个核心抽取算法进行了介绍,即基于CRF和元搜索的新闻术语抽取。4、对整个新闻术语抽取系统进行了实现和测试工作。,研究背景和意义,2020/6/12,6,主要内容,总结,系统测试,新闻术语抽取系统实现,系统总体设计,研究背景与意义,2020/6/12,7,系统总体设计,1术语抽取系统框架设计术语抽取模块分为术语抽取训练模型和术语抽取应用模型。其中,基于最大熵的术语自动抽取系统的整体框架如图所示:,2020/6/12,8,系统总体设计,2术语抽取系统总体设计按照新闻语言组织的特点,其文字规则和习惯符合标准的中文表示方法。因此系统的术语抽取设计要以中文语句的组织作为主要特点进行分析考虑,系统的设计也要首先满足中文术语词语的抽取。在下图中给出了术语抽取用例图,通过图中的描述可以看到用户与术语抽取所用到的各种模型要素等。,2020/6/12,9,系统总体设计,3术语定义抽取系统总体设计该系统的设计主要是把用户录入的术语进行定义化,即完成对术语的定义或者解释。该子系统的用例图如下图所示:,2020/6/12,10,系统总体设计,4基于CRF的新闻术语抽取本文用序列标注方法解决领域术语的识别任务,将CRF模型应用到新闻领域术语抽取中。基于CRF的新闻术语抽取流程设计如下图所示:,2020/6/12,11,系统总体设计,5基于元搜索的新闻术语抽取新闻领域术语自动抽取系统的操作步骤如下:1、用户通过系统前段输入想要抽取的新闻术语,系统后台对其进行处理,并在不同的知识库中对其进行抽取;2、将获取到的结果统一进行管理,存储到变量中;3、采用计算不同术语之间的编辑距离的办法对术语进行聚类分析;4、把聚类结果展现给用户其中,基于元搜索的新闻术语抽取子系统的操作流程如下图所示:,2020/6/12,12,主要内容,总结,系统测试,新闻术语抽取系统实现,系统总体设计,研究背景与意义,2020/6/12,13,新闻术语抽取系统实现,1领域本体关系集合的构建-关系集合构建框架,其中,新闻术语抽取系统的概念关系抽取框架如下图所示。,2020/6/12,14,新闻术语抽取系统实现,1领域本体关系集合的构建-关系类型筛选与确定,经过对新闻领域语料的分析,并参照中华人民共和国国家标准GB-T15237.1-2000,可抽取的术语间关系类型包括:属种关系、整体部分关系,功能关系等等。其中属种关系和整体部分关系属于层级关系,其他关系属于非层级关系。本文从549676个实例中随机抽取了2801个实例并人工分析判断这些实例所涉及的术语对属于哪种关系,统计结果如下表所示:,2020/6/12,15,新闻术语抽取系统实现,1领域本体关系集合的构建-关术语过滤,最终形成的本体结构中主要包含两类关系:属种关系和整体部分关系。这就导致有一些术语注定不会被纳入本体中,比如:特派记者、预发消息、预写消息、广告、直播、主播、消息来源等等。这些术语虽然是新闻领域术语,但由于本文的本体针对的是非新闻主体,而实体部件与这类术语之间不存在属种关系或者整体部分关系,因此将选出这些“不合格”的术语并忽略掉。,2020/6/12,16,新闻术语抽取系统实现,1领域本体关系集合的构建-组合多策略的术语关系抽取,同义术语往往是术语的别名或者英文名,甚至是人们约定俗称的一些叫法。导致这-_现象的原因就在于互联网上名词使用的不规范,不同用户有着不同的用词偏好,因此对于同一个术语不同用户可能习惯不同的叫法。同义关系的识别有助于将这些别名进行规范化,并且进而生成概念。将部分术语通过属种关系或者整体部分关系连接起来,形成一个网状的结构。,2020/6/12,17,新闻术语抽取系统实现,1领域本体关系集合的构建-概念关系的生成,概念间的关系基本上与术语间关系一致,由于使用同义词将同义术语并为一个概念,因此理论上存在部分概念关系存在冲突。经过统计,在所有概念中只有三个概念含有大于一个的同义术语与某个其他概念的术语同时存在关系,分别是:乘员保护系统(srs)、液流缓冲器(限流器)和单顶置凸轮轴(sohc)。,2020/6/12,18,新闻术语抽取系统实现,2基于CRF的新闻术语抽取,在系统实现时,要确定所选用的语料和选取的特征。这里使用与上一章同样的语料进行实验。通过去噪和去重处理得到约1M的新闻领域语料。结果采用五倍交叉验证的方法。在选取特征时,在前人工作的基础上,分析新闻领域术语的特点,考察了七个特征对汽车术语抽取的影响,分别介绍如下:(1)词本身Word(2)词性POS(3)词长WordLen(4)是否在已知词典中IsDic(5)当前词前后窗口大小范围内的词的词典特征WinDic(6).当前词在领域语料中的频率DomainFreq(7)当前词在背景语料中的频率ContrastFreq,2020/6/12,19,新闻术语抽取系统实现,3基于元搜索的新闻术语抽取,本系统的搜索实现集合多种搜索引擎搜索策略,并有自己的网页搜索引擎,首先用户输入自己要检索内容的关键字,在系统中利用了baidu、Google、Bing、sogou等搜索引擎的搜索策略,利用它们自身的高级搜索算法对网页中的术语进行抓取。术语定义来源知识库可信度表如下表所示:,2020/6/12,20,主要内容,总结,系统测试,新闻术语抽取系统实现,系统总体设计,研究背景与意义,2020/6/12,21,系统测试,1评价方法,和自然语言处理的其他子领域类似,我们釆用准确率、召回率和F值的体系来评价我们的实验结果。定义如下:(1)术语抽取准确率(2)术语抽取召回率(3)F值测量,2020/6/12,22,系统测试,2测试预料,所取的100篇新闻领域语料具体分布如表5.1所示。,2020/6/12,23,系统测试,2测试预料,系统的首页、选择文本后的界面界面如下图所示。,2020/6/12,24,系统测试,2测试预料,术语抽取结果界面如下图所示。,2020/6/12,25,系统测试,3实验结果,我们对该语料进行了术语抽取实验,阈值F指的是系统计算得出该词是术语的概率,分别取0.65、0.88和0.95进行实验。实验结果如表所示。,2020/6/12,26,系统测试,4错误分析,通过对以上的实验结果分析可知,阈值设置为0.88的时候,术语抽取的准确率为63.74%,出现这种情况的原因主要有以下几个方面:1、训练语料的影响2、过分依赖分词的结果3、最大熵和术语过滤本身的缺点4、人工评估,2020/6/12,27,主要内容,总结,系统测试,新闻术语抽取系统实现,系统总体设计,研究背景与意义,2020/6/12,28,总结,总结,通过对新闻领域术语自助抽取技术进行研究,对术语词的内部结构进行充分的了解是有效提高术语抽取效率的关键,论文所采用的新闻术语抽取算法能够有效、准确、快速的对新闻术语进行抽取,在准确率和召回率方面也比较可观。为了方便
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 娄底职业技术学院《图像分析与处理》2023-2024学年第二学期期末试卷
- 建东职业技术学院《规划CAD》2023-2024学年第二学期期末试卷
- 武汉商学院《建筑工程计量》2023-2024学年第二学期期末试卷
- 西安培华学院《现代凝固技术基础》2023-2024学年第二学期期末试卷
- 南阳职业学院《建筑施工组织实训》2023-2024学年第二学期期末试卷
- 阜新高等专科学校《方案快题设计》2023-2024学年第二学期期末试卷
- 浙江横店影视职业学院《中外建筑史C》2023-2024学年第二学期期末试卷
- 沙洲职业工学院《机械工程训练A》2023-2024学年第二学期期末试卷
- 昆明铁道职业技术学院《模式识别与人工智能》2023-2024学年第二学期期末试卷
- 广州民航职业技术学院《创新思维与创业能力培养》2023-2024学年第二学期期末试卷
- 提升销售团队的领导力与激励效果
- 导航栏式毕业开题答辩有内容模板
- 2024年《宪法》知识竞赛必背100题题库带解析及参考答案(考试直接用)
- 高等数学(下)练习题库
- 初中生涯规划班会课教案
- 2024年湖南省高中英语学业水平考试合格考模拟试卷(答案详解)
- 常用元器件识别与测量课件
- 2023年江苏省常州市中考一模历史试卷(含答案解析)
- 2024年西安亮丽电力集团有限责任公司招聘笔试参考题库附带答案详解
- 乡村振兴视域下的乡村生态振兴路径及对策研究
- 人教版(2019)选择性必修第三册Unit 4 Adversity and Courage 单词讲解课件
评论
0/150
提交评论