




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专 业 学 位 硕 士 学 位 论文 汉语股市公告信息抽取系统的设计与实现汉语股市公告信息抽取系统的设计与实现 THETHE DESIGNDESIGN ANDAND IMPLEMENTATIONIMPLEMENTATION OFOF CHINESECHINESE STOCKSTOCK BULLETINBULLETIN INFORMATIONINFORMATION EXTRACTIONEXTRACTION SYSTEMSYSTEM 作作 者者 姓姓 名 名 学科 专业学科 专业 化学与化工学院化学与化工学院 学学 号号 指指 导导 教教 师 师 完完 成成 日日 期 期 山东大学山东大学 ShandongShandong UniversityUniversity 独创性说明 作者郑重声明 本硕士学位论文是我个人在导师指导下进行的 研究工作及取得研究成果 尽我所知 除了文中特别加以标注和致 谢的地方外 论文中不包含其它人已经发表或撰写的研究成果 也 不包含为获得大连理工大学或者其它单位的学位或证书所使用过的 材料 与我一同工作的同志对本研究所做的贡献均已在论文中做了 明确的说明并表示了谢意 作者签名 日期 毕业论文版权使用授权书 本毕业论文作者完全了解学校有关保留 使用论文的规定 同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被 查阅和借阅 本人授权湖南大学可以将本论文的全部或部分内容编入有 关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存和汇编 本论文 本论文属于 1 保密 在 年解密后适用本授权书 2 不保密 请在以上相应方框内打 学 生签名 日期 200 年 月 日 指导教师签名 日期 200 年 月 日 目录目录 1概述概述 1 1 1 1信息抽取技术 INFORMATION EXTRACTION 1 1 1 1信息抽取技术的发展 1 1 1 2信息抽取技术的特点 3 1 2股市公告信息抽取系统 SBIES 3 1 2 1应用背景 3 1 2 2系统框架结构 4 1 2 3系统分布结构 5 1 3本文内容简介 5 2信息抽取模块的设计信息抽取模块的设计 7 7 2 1模块内部结构 7 2 1 1串行化的模块内部结构及其问题 7 2 1 2简化的高性能信息抽取模型 8 2 2自动分词 9 2 3词类自动标注 10 3信息抽取的关键算法信息抽取的关键算法 1313 3 1传统语言学方法 13 3 1 1基于规则的信息抽取算法 13 3 1 2基于规则信息抽取面临的严峻问题 15 3 2统计学方法 16 3 2 1基于语料库的统计语言学方法 16 3 2 2隐马尔科夫模型 HMM 简介 16 3 2 3隐马尔科夫模型 HMM 在信息抽取上的应用 17 3 2 4隐马尔科夫模型的训练与优化问题 19 4实现与结果分析实现与结果分析 2020 4 1模块实现情况 20 4 2两种信息抽取方法的比较 21 4 3结果总结 21 4 4遗留的问题 22 参考文献参考文献 2323 致谢致谢 2424 申请上海交通大学学士学位论文 摘要摘要 本文介绍了一个基于中文信息抽取模型的股市公告信息抽取系统 SBIES 的设计与实现 介绍了该系统的结构框架和分布图 讨论了汉语信息抽取模型 的具体结构 构建了由自动分词 自动标注和模板填充三个阶段组成的简化模 型 简单介绍了自动分词的常用算法和自动标注中的标注规范 重点探讨了模 板填充的具体算法 文中分别讨论了采用基于规则的结构主义方法和基于语料 库概率统计的功能主义方法 着重讨论了采用隐马尔科夫模型进行信息抽取的 具体算法 对模型的参数获取算法作了讨论 改进了 Baum Welch 算法以适应信 息抽取的应用 对领域文本做了人工标注 通过计算机处理获取所需的统计数 据 利用统计数据完善 HMM 模型 关键词 信息抽取 隐马尔科夫模型 自然语言 申请上海交通大学学士学位论文 THETHE DESIGNDESIGN ANDAND IMPLEMENTATIONIMPLEMENTATION OFOF CHINESECHINESE STOCKSTOCK BULLETINBULLETIN INFORMATIONINFORMATION EXTRACTIONEXTRACTION SYSTEMSYSTEM AbstractAbstract This article introduced the design and implementation of a Chinese IE Technology based stock bulletin information extraction system SBIES The framework and deployment of the system were described The structure of the Chinese information extraction model was discussed in detail We proposed a simplified 3 tiers IE model consisting of automatic word segmentation automatic annotation and template filling The algorithms used in automatic word segmentation and annotation were briefly introduced while algorithms used in template filling were focused on In this article the rule based structuralism methods and the corpus based statistical functionalism methods were discussed respectively The Hidden Markov Model HMM was introduced to extract information and the algorithm was explained at length The algorithm for model parameter acquisition was also analyzed and the Baum Welch iteration algorithm was modified Domain texts were annotated manually to acquire statistical data via computation With these data HMM based IE was implemented KEYKEY WORDSWORDS information extraction hidden Markov model natural language 申请上海交通大学学士学位论文 1 1 1概述概述 1 1信息抽取技术 Information Extraction 信息技术高速发展的时代中 信息的获取 处理和应用已经成为了经济 科学 军事 文化等各个领域发展的关键活动 而其中 信息的获取是三个步 骤的开端 在信息技术领域中具有尤其重要的地位 近年来 随着计算机和互联网技术的迅猛发展 各领域可及信息量呈指数 级增长 如何高效获取有用信息成为有效利用信息的关键 信息抽取 Information Extraction 简称 IE 技术 是自然语言处理领域中一种新兴 的技术 该技术通过抽取 过滤无关信息 使文本信息以用户关心的形式得以 再组织 实现高效重组 将结构松散的自然语言信息 通过抽取转为结构严谨 语义明确的表现形式 利用计算机进行高效存储并加以利用 1 1 1 1 1 1 信息抽取技术的发展信息抽取技术的发展 信息抽取技术的雏形最早出现在二十年前 下面介绍一些信息信息抽取技术的雏形最早出现在二十年前 下面介绍一些信息 抽取发展上重要的研究成果以及国内外的研究现状抽取发展上重要的研究成果以及国内外的研究现状 7 7 ATRANS 系统 ATRANS 系统是早在 1981 年由 Cowie 研究出来关于动植物正规结构描述数 据库的系统及其商用化产品 该系统采用了概念句子分析技术 通过一些 简单的语言处理技术能够完成限制在小规模 特定专业领域的信息抽取任 务 FRUMP 系统 FRUMP 系统由 Gerald Dejong 在 80 年代初实现 该系统把有限新闻网络作 为数据源 使用一些新闻故事的简单脚本来对有限新闻网络进行监控 它 采用关键字检索 概念句子分析 脚本匹配等方法来寻找新闻故事 FRUMP 系统是一个面向语义的系统 采用了一个特定专业领域的事件描述脚本知 识库 SCISOR 系统 80 年代末 美国 GE 研究与开发中心的 Lisa F Rau 等研制的 SCISOR System for Conceptual Information Organization and Retrieval 系统所处理的对象是有关 公司合并 的新闻报导 SCISOR 首先 采用关键词过滤和模式匹配的方法对待处理文献进行主题分析 以便判定 该报道的内容是否与 公司合并 有关 然后采用自底向上的分析器识别句 子结构 生成概念表示 最后应用自顶向下的预期驱动分析器提取预期内 容 MUC Message Understanding Conference 是一个 ARPA 资助的 为推动 IE 技术发展的一个重要的系列工程 有许多大学 研究所参加 1987 年的 MUC 1 和 1989 年的 MUC 2 主要集中在从小规模的海军信息文本中抽取相关 的信息 1991 年的 MUC 3 和 1992 年的 MUC 4 采用的文本主题和类型发生了 变化 采用关于拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文本作 为语料源 系统包括预定义好的信息模板和辅助抽取规则 基本任务是从 申请上海交通大学学士学位论文 2 在线文本中抽取有关信息填入预定义的模板中的属性槽中 1993 年的 MUC 5 的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻 涉及英语和日语文档 所抽取的信息包括合资企业的合资者 合资公司的 名称 所有权和资本以及预期的活动 或者微电子芯片的制作活动的性质 和状态等有关项 涉及到多语言和多领域的文档 以便进行抽取信息的性 能评价比较 1995 年的 MUC 6 的信息抽取任务第一次涉及到用 SGML 语言所 标记的文本中的名称项 named entity 和指同项 coreference 的处理 除了场景模板 scenario 任务以外 名称项 指同项和模板元素 template element 信息抽取任务均与特定专业领域无关 测试的语料 采用 华尔街杂志 中的文本 1998 年的 MUC 7 是最近的一次信息理解会议 它的信息抽取任务涉及抽取文档中的名称项 人名 组织名和地点名 指 同项 确定模板元素之间的关系 如地点关系 雇佣关系和生产关系等 抽取文档中的事件 文档包含多语种的新闻稿 训练用的文档专业领域是 关于飞机坠毁报道 而测试用的文档专业领域是关于发射事件报道 FASTUS 系统 FASTUS 系统 Finite State Automaton Text Understanding System 是 美国加里福尼亚斯坦福研究所人工智能中心从 1991 年开始开发的一个基于 多层 非确定有限状态自动机模型的自然语言文本信息抽取系统 它共有 六层转换机制 即 切分标记层 预处理层 名称项识别层 简单短语识 别层 复杂短语识别层 指同求解层 分解的语言处理使此系统能够处理 大量的与专业领域无关的句法结构 以致于与专业领域相关的语义和语用 处理能被应用到相当大部分的语言结构上 正因为 FASTUS 系统具有这样的 特点 它已被成功地运用于许多应用中 TIPSTER 计划 由美国国防部 DoD Defense Advanced Research Projects Agency DARPA 和 Central Intelligence Agency CIA 共同资助的 TIPSTER 计划包括至少 15 个与工业和学术有关的项目 目的是改进文本处 理的流行技术 TIPSTER 的体系结构使用一组通用的文本处理模块已能满足 不同的文本处理应用的需要 这些应用主要是文本检测 定位包含某一信 息类型的文本 和信息抽取 定位文本中的特定信息 在 TIPSTER 研究的 第一阶段 参与者通过一些活动如 MUC 和 TREC Text Retrieval Conferences 对文本检测和信息抽取所建立算法进行改进以及提高对评价 这些改进的技术 在第二阶段的研究中 TIPSTER 参与者为了使技术组成构 件标准化 将注意力转向软件体系结构的开发上 使各种所开发的工具具 有 即插即用 的性能 增加软件的共享程度 在目前进行的第三阶段的研 究中 一种称为 ACP Architecture Capabilities Platform 的平台被开 发 它支持评价 扩展和探索进展中的 TIPSTER 体系结构 ACP 将采用 CORBA Common Object Request Broker Architecture 结构为研究者提 供鲁棒及相配的 TIPSTER 组成构件 它将支持 TIPSTER 体系结构的扩展 以便与机器翻译 语音和光学字符识别 图象观察 用户界面构件以及大 规模信息系统相适应 SMES 系统 由德国人工智能研究中心语言技术实验室 DFKI LT 在 Paradime 项目中 所开发的 SMES Saarbr cken Information Extraction System 系统是一 申请上海交通大学学士学位论文 3 个联机的德语文挡信息抽取智能系统 文档的专业领域包括通讯稿 经济 报告和技术说明书 SMES 系统拥有大量的语言知识资源 如电子词典包括 12 万条词项以及可扩展性很强的专门语法 以及极其快速和鲁棒的自然语 言构件 它还能利用机器学习机制使自身能为实现新功能得到训练和配置 并能适应所需的信息数量和各种文档长度 它被集成了图形可视化技术 服务器体系结构和英特网访问技术 SMES 作为一个有效的智能信息检索的 核心系统已经成功地运用于科学和工业项目中 国内对信息抽取的研究才刚刚起步 1998 年 月在东北大学学报 自然科 学版 发表了 中文信息自动抽取 一文 介绍了中文信息抽取的概念和 对一些问题进行了初步的探索 国内对涉及中文和其他语种的多语种信息 抽取技术还未见报道 1 1 2 1 1 2 信息抽取技术的特点信息抽取技术的特点 信息抽取技术不同于传统的信息检索和自动摘要技术 与信息检索 Information Retrieval 简称 IR 技术的区别 与传统的信息检索技术比较 信息抽取技术有明显的优势 信息检索只是 通过单纯的匹配检索得到相关的文档 而并不真正理会文档的实际内容信 息 文档被等同于无意义的词汇堆砌物 而信息抽取则是通过文本分析 语段分析 模板生成等过程抽取出有效的信息内容 与自动摘要 Automatic Abstraction 技术的区别 与传统的自动文摘 Automatic Abstraction 技术比较 信息抽取技术的 应用前景更好 自动文摘产生的文摘往往质量较低 而且容易产生不全面 不连贯和冗余多等等问题 而信息抽取则针对有价值的相关领域的文本进 行结构分析 其效率和质量显著提高 也更容易面向实际应用 信息抽取技术具有其独有的优势 利用浅层的自然语言处理技信息抽取技术具有其独有的优势 利用浅层的自然语言处理技 术 术 ShallowShallow NaturalNatural LanguageLanguage ProcessingProcessing TechnologyTechnology 简称 简称 SNLPTSNLPT 可以实现高效率的自然语言处理 将非结构化的信息改变 可以实现高效率的自然语言处理 将非结构化的信息改变 为利于计算机存储 处理的结构化形式 有利于信息的重复高效利为利于计算机存储 处理的结构化形式 有利于信息的重复高效利 用 用 1 2 股市公告信息抽取系统 SBIES 1 2 1 1 2 1 应用背景应用背景 随着我国改革开放的深入 市场经济的发展 证券市场的到了空前的繁荣 目前 在沪深两地上市的公司数目已达几千家 每天在两地市场公布的股 市公告少则几十条 多则百余条 文本量较大 如果需要在若干年的公告 纪录中 迅速查找各种相关的公告 如采取传统的关键字查找技术 恐怕 难以获取很高效率 考虑到信息抽取技术能够有效地从大量文本中过滤出用户可能关心的信息 申请上海交通大学学士学位论文 4 并进行结构化存储以便迅速查询 希望基于信息抽取技术构造股市公告信 息抽取系统 Stock Bulletin Information Extraction System 简称 SBIES 由于股市公告文本具有以下一些特点 故认为采取信息抽取技术 能够大幅度提高系统的性能表现 句法简单 在一般股市公告中 通常以简单而表意清楚陈述句式为主 几 乎不出现具有二义性的语句 这为自然语言处理和信息抽取提供了较好的 先决条件 格式规整 常见的股市公告大致可以分为若干种 如 停牌公告 财务指 数公告 董事会决议公告 配送股公告 新股上市公告 等等 每一种公 告都有相对固定的组成要素 容易构造模板加以描述 文本量大 仅以上海证券交易所为例 每天的临时性公告文本量平均约 20KB 以汉字记约 1 万字 一年累计的公告文本约有 6MB 约 300 万汉字 对于计算机而言 这个数量可谓及其微小 而对于人工阅读而言却是一个 繁复而耗时的工作 多语种特性 股票市场使金融的重要组成部分 而在全球金融一体化的今 天 世界各大证券市场之间的息息相关 而各国的证券市场在第一时间通 常只能以一种或有限的几种语言发布公告信息 这就给股市公告带来了天 生的多语种特性 设计一个股票文本的信息抽取系统具有较高的实用价值 股市公告的文本 量庞大 但结构固定 内容单一 这正适合于计算机处理 信息抽取技术 能够自动的从庞大的文本库中 动态地根据用户关心的内容提取文本蕴含 的信息 同时 信息抽取能够采用独立于语种的方式存储信息 这样 用 户就不必关心原始文本的语种 可以用他 她 所熟悉的语种进行抽取请 求 并得到以他 她 希望语种表示的信息抽取结果 1 2 2 1 2 2 系统框架结构系统框架结构 如上所述 该系统将基于信息抽取技术进行构建 但是为了实如上所述 该系统将基于信息抽取技术进行构建 但是为了实 现真正可用的应用系统 还需要其它一些模块的进行协同工作 图现真正可用的应用系统 还需要其它一些模块的进行协同工作 图 一种给出了本系统的基本框架结构 一种给出了本系统的基本框架结构 申请上海交通大学学士学位论文 5 图一 图一 SBIESSBIES 结构框架图结构框架图 图中 信息抽取模块是整个系统的核心所在 他将根据用户的图中 信息抽取模块是整个系统的核心所在 他将根据用户的 需求将原始文本经信息抽取后 以独立于语种的方式存入信息库中 需求将原始文本经信息抽取后 以独立于语种的方式存入信息库中 对该模块的设计与实现 是本文的重点 将在后面进行详细论述 对该模块的设计与实现 是本文的重点 将在后面进行详细论述 用户需求分析模块 是能够收集用户需求 控制其它个模块进行协同工作 的智能人机界面 该模块是系统的控制中心 体现了以用户需求为核心的 设计思想 该模块能为用户提供一个智能化的易用界面 用户只需以自然 语言形式输入询问的问题 该模块即可将询问转化为一系列的内部指令 控制各模块针对询问做出响应 结果表示模块 是将查询结果以用户易于理解的方式进行表示的模块 其 中主要采用了自然语言生成 Natural Language Generation 简称 NLG 技术 自然语言生成的主要目标是研究计算机如何根据信息在机器内部的 表达形式生成一段高质量的自然语言文本 所谓高质量是指生成的文本与 人工文本比较接近 形式多样 而且能适应外部应用的变化而做相应的调 整 整个系统的维护性好 2 在本系统中 根据用户询问 从信息库中查 询获取的结果 对用户而言仍然是晦涩难懂的 因此需要一种较好的方式 来将查询结果反馈给用户 由于信息抽取技术的结果能够使信息以独立于 语种的方式进行存储 如果结合相应的不同语种的自然语言生成技术 即 原始文本 采集 用户需求 分析模块 信息抽取模 块 独立于语种的信息 存储 自然语言 生成 汉 语 自然语言生 成 英语 自然语言生 成 控制 数据 系统结构图 用户 其它结果表 现形式 结果表示 申请上海交通大学学士学位论文 6 可使根据用户的要求 获得以各种语言表述的查询结构 除了结合自然语 言生成技术 以自然语言形式生成结果外 还可以用图表等形式输出一些 数据的统计结果 这也是表示模块的功能之一 1 2 3 1 2 3 系统分布结构系统分布结构 图二给出了系统的整体分布图 图二 SBIES 分布图 由图可见 本系统直接挂接在 Internet 上 数据来源和用户界面主要都通 过 Web 实现 由一个 Robot 程序自动通过 Web 进行股票公告文本的自动搜 集 搜集的文本经过预处理成为信息抽取模块能够接受的文本后 采用 IE 技术进行信息抽取 将结果存放入信息库中 如果必要 可以对信息库数 据进行分析 用户通过 Internet 访问该系统 查询的结果也通过 Internet 返回给用户 1 3 本文内容简介 本文将详细论述股市公告信息抽取系统中 信息抽取模块的设计和实现 第一章 概述 简介信息抽取技术的历史和特点 与传统的 NLP 技术做了 优缺点比较 提出 SBIES 的应用背景 介绍整体结构框架和模块分布情况 第二章 信息抽取模块的设计 提出 SBIES 中信息抽取模块 也就是本系 统的核心模块 的具体结构 第三章 信息抽取的关键算法 这是本文的重点章节 具体探讨了信息抽 取模块中信息抽取的几种关键算法 比较了采用传统语言学方法和统计学 方法进行信息抽取的优缺点和适用情况 Robot INTERNET 信息抽取 信息库 XML数据库 预处理 数据分析 可选 查询分析 查询界面结果表示 申请上海交通大学学士学位论文 7 第四章 实现与结果分析 将给出部分统计数据和结果总结 申请上海交通大学学士学位论文 8 2 2信息抽取模块的设计信息抽取模块的设计 2 1 模块内部结构 2 1 1 2 1 1 串行化的模块内部结构及其问题串行化的模块内部结构及其问题 自然语言信息抽取是一系列浅层自然语言处理技术的结合体 为了将非结 构化的自然语言文本转化到结构化的信息库中 需要多种自然语言处理技 术的协同工作 从某种意义上说 这些处理技术将以串行的方式运行 即 前一个步骤的处理输出结果将作为后一步骤的输入 这种工作方式优点是 模块内部结构简单 便于分级调试 根据传统的自然语言处理技术 汉语的信息抽取模块中大致应包含的处理 步骤应当包括了分词处理 名称分析 语法分析 语义分析 场景匹配 一致性分析 推理判断 模板匹配填充 等等 但子过程的串联 带来的问题是 各个阶段处理的准确性高度依赖于前端 输出的正确性 例如 假设信息抽取全过程由 n 个串联子过程组成 第 k 个子过程的查准率 或者查全率 分别为 则整个模块的查准率 或者 k P 查全率 应为 n k k PP 1 一般而言 目前自然语言处理技术中虽然存在众多不同的算法 进行不同 层次的分析处理 但其查准率和查全率却大都不是很高 17 通常在 60 90 之间不等 当前 MUC 英文信息提取的各项指标 最好水平 大体上 如下 SAIC 99 Chinchor 99 实体 Entities 识别 90 属性识别 Attributes 80 TE 任务 事实识别 Facts 70 TR 任务 事件识别 Events 60 ST 任务 这些指标也自然地反映了自然语言处 理在各个层次上的难度 在最近一届 MUC 上表现最好的是 SRA 公司的系统 Aone et al 98 其所 有 3 项 IE 指标都是最高的 其评测结果如下 Recall Precision F Score TE 86 87 86 76 TR 67 86 75 63 ST 42 65 50 79 表一 MUC 7 测评结果 可以看出 在这样的查准率和查全率下 整个模块的性能表现将随着串联 模块数量的增加迅速下降 显然 过低的查准率和查全率 对于一个应用 系统是缺乏实用意义的 因此 要构建可实用的信息抽取系统 有两个种途径 其一 进一步探讨各个处理模块的更有效的处理方法 以达到更高的查准 率和查全率 其二 改变信息抽取模型结构 根据应用领域的特殊性 简化串行结构的 长度 以提高模块整体的性能表现 第一种途径显然是信息抽取技术逐步发展成熟的必然途径 但是在短期内 申请上海交通大学学士学位论文 9 恐怕还难以在这一方向上取得突破性的发展 而第二种途径却是目前可能 做到的 因为不同的应用领域具有不同的特性 结合这些特性可以有力地 提高各个模块的处理正确性 简化信息抽取模型 以下将结合股市公告文 本信息抽取的特点 讨论信息抽取模型的简化 2 1 2 2 1 2简化的高性能信息抽取模型简化的高性能信息抽取模型 在我们即将设计和实现的股市公告信息抽取系统中 希望通过缩短处理子 过程的路径长度 来提高信息抽取模型的性能 由于股市公告文本具有以下一些特性 所以简化信息抽取模型是可能的 一方面 股市公告文本的主题分类比较明显 一般而言 股市公告主要包 括了停牌公告 财务指数公告 董事会决议公告 配送股公告 新股上市 公告等若干种类型 每种公告文本类别论述的主题比较固定 利于用抽取 模板加以描述 另一方面 各类公告文本的格式相对简单 固定 通常很少出现句式的变 化 陈述过程中句法规则也相对简单 同时 简化后的模型应该能够比原模型具有更好的性能表现 首先 缩短了处理过程路径的长度 避免了过长的串行系统结构可能导致 的低查准率和查全率 其次 合并简化处理子过程 减少了处理所需的时间 提高了处理的效率 基于以上观点 考虑将信息抽取中的某些步骤合并简化 简化后的高性能 系统结构如图三所示 图三 简化后的信息抽取模型图三 简化后的信息抽取模型 从图中可以看出 处理过程的长度大大缩短了 一篇中文文档一般只需经 过分词处理 自动标注和模板填充三个步骤即可完成信息抽取 文本自动 分类主要是根据关键词进行的 由于股市公告文本的特殊性 其准确率可 达到 98 以上 而在正确分类的前提下 对已知文本类型进行词类自动标注 和模板填充将变得更为容易 也具有更高的准确性 本章的余下部分 将对自动分词和文本自动标注的实现做部分介绍 而模 板填充算法的实现 是本模块的关键环节 将在下一章中详细论述 分词处理 词典 股市公告 文本 A 类文本 自动标注 B 类文本 自动标注 C 类文本 自动标注 A 类模板 填充 B 类模板 填充 C 类模板 填充 文本自动分 类 信息库 申请上海交通大学学士学位论文 10 2 2 自动分词 近年来 国内众多研究机构已经在计算机汉语文本自动分词方面进行了大 量的研究 并取得了很多成就 二十年来 已经提出了许多分词算法 我 们可以将现有的分词算法分为三大类 基于字符串匹配的分词方法 基于 理解的分词方法和基于统计的分词方法 基于字符串匹配的分词方法 这种方法又叫做机械分词方法 它是按照一定的策略将待分析的汉字串与 一个 充分大的 机器词典中的词条进行配 若在词典中找到某个字符串 则匹配成功 识别出一个词 按照扫描方向的不同 串匹配分词方法可以 分为正向匹配和逆向匹配 按照不同长度优先匹配的情况 可以分为最大 最长 匹配和最小 最短 匹配 按照是否与词性标注过程相结合 又 可以分为单纯分词方法和分词与标注相结合的一体化方法 常用的几种机 械分词方法如 正向最大匹配 逆向最大匹配 最少切分 使每一句中切 出的词数最小 还可以将上述各种方法相互组合 例如 可以将正向最大匹配方法和逆向 最大匹配方法结合起来构成双向匹配法 由于汉语单字成词的特点 正向 最小匹配和逆向最小匹配一般很少使用 一般说来 逆向匹配的切分精度 略高于正向匹配 遇到的歧义现象也较少 统计结果表明 单纯使用正向 最大匹配的错误率为 1 169 单纯使用逆向最大匹配的错误率为 1 245 但 这种精度还远远不能满足实际的需要 由于分词是一个智能决策过程 机 械分词方法无法解决分词阶段的两大基本问题 歧义切分问题和未登录词 识别问题 实际使用的分词系统 都是把机械分词作为一种初分手段 还 需通过利用各种其它的语言信息来进一步提高切分的准确率 一种方法是改进扫描方式 称为特征扫描或标志切分 优先在待分析字符 串中识别和切分出一些带有明显特征的词 以这些词作为断点 可将原字 符串分为较小的串再来进机械分词 从而减少匹配的错误率 另一种方法是将分词和词类标注结合起来 利用丰富的词类信息对分词决 策提供帮助 并且在标注过程中又反过来对分词结果进行检验 调整 从 而极大地提高切分的准确率 基于理解的分词方法 通常的分析系统 都力图在分词阶段消除所有歧义切分现象 而有些系统 则在后续过程中来处理歧义切分问题 其分词过程只是整个语言理解过程 的一小部分 其基本思想就是在分词的同时进行句法 语义分析 利用句 法信息和语义信息来处理歧义现象 它通常包括三个部分 分词子系统 句法语义子系统 总控部分 在总控部分的协调下 分词子系统可以获得 有关词 句子等的句法和语义信息来对分词歧义进行判断 即它模拟了人 对句子的理解过程 这种分词方法需要使用大量的语言知识和信息 由于 汉语语言知识的笼统 复杂性 难以将各种语言信息组织成机器可直接读 取的形式 因此目前基于理解的分词系统还处在试验阶段 基于统计的分词方法 从形式上看 词是稳定的字的组合 因此在上下文中 相邻的字同时出现 的次数越多 就越有可能构成一个词 因此字与字相邻共现的频率或概率 能够较好的反映成词的可信度 可以对语料中相邻共现的各个字的组合的 申请上海交通大学学士学位论文 11 频度进行统计 计算它们的互现信息 定义两个字的互现信息为 其中 是汉字 X Y 的相邻共现概率 分别是 X Y 在语料中出现的概率 互 现信息体现了汉字之间结合关系的紧密程度 当紧密程度高于某一个阈值 时 便可认为此字组可能构成了一个词 这种方法只需对语料中的字组频 度进行统计 不需要切分词典 因而又叫做无词典分词法或统计取词方法 但这种方法也有一定的局限性 会经常抽出一些共现频度高 但并不是词 的常用字组 例如 这一 之一 有的 我的 许多的 等 并 且对常用词的识别精度差 时空开销大 实际应用的统计分词系统都要使 用一部基本的分词词典 常用词词典 进行串匹配分词 同时使用统计方 法识别一些新的词 即将串频统计和串匹配结合起来 既发挥匹配分词切 分速度快 效率高的特点 又利用了无词典分词结合上下文识别生词 自 动消除歧义的优点 这些算法各具特色 需结合具体的应用领域进行综合利用 已见诸报道的 研究成果如 北京航空航天大学计算机系的 CDWS 分词系统 山西大学的现 代汉语自动分词及词性标注系统 1 北京大学计算语言学研究所的汉语切 分与标注软件 清华大学 SEG 分词系统和 SEGTAG 系统 哈工大统计分词系 统 杭州大学改进的 MM 分词系统 Microsoft Research 汉语句法分析器中 的自动分词 等等 15 这些切分与标注软件大都通过大量跨领域文本的测试 具有较为稳定的性 能表现 但是在我们的特殊领域的应用系统中 并不需要对任意领域文本 都能进行准确切分的能力 不仅如此 在我们的应用领域中 期望的文本 切分效果也不同于普通文本 在股市公告中 普遍存在大量的术语和惯用 语 我们当然希望不要将这些词切碎 以利于更好的进行信息抽取 因此 设想构造一个规模较小的 能够较好识别领域词汇的小型分词子系统 在 构造自动分词子系统时 以人工分词得到得语料库为标准 统计各类词汇 出现的概率 构造词典 在分词时处于性能考虑 采用了较简单的最长匹 配法分词规则 经过测试 自动分词的结果完全能够满足信息抽取的需求 由于分词模块并非本系统的重点核心所在 故在此仅作简短介绍 词类自动标注 在分词的结果上 还应该为各个词汇标注上一些表明词汇作用或属性的信 息 以便利用这些信息去填充模板 进行自动标注的方式和层次有多种 例如 可以对词性进行标注 如名词 动词 形容词 数量词等等 也可以对识别的命名实体 Named Entity 专有名词 Proper Noun 等进行标注 主要取决于后续处理阶段的需要 传统的自然语言处理过程中 通常认为 对词类的标注应该从词性的层次 上开始 其他自然语言的处理过程都将建筑在对词性的分析之上 但是 我们认为在特定领域的信息抽取任务中 从词性开始的词类标注并非必要 由于信息抽取实际上是在给定语义框架 用模板描述 的基础上 对语义 框架中的关键部分 属性槽 Slot 以相应内容 填槽物 Slot Filler 填 充 所以可以期望直接标注出全部或部分的关键内容 出于这种想法 我们希望能够在此采用一个直接标注包含语义信息的词类 自动标注子系统 其中最重要的一项工作就是确定标注的词类 从图三可 申请上海交通大学学士学位论文 12 以看出 词类自动标注是在文本分类之后才进行的 所以应该根据不同的 文本类别来进行不同的词类标注 信息抽取的任务就是根据不同的文本类 别 以合适的抽取模板加以刻画 我们就可以尝试根据模板的属性槽来定 义词类 例如 如下所示是一个描述停牌公告抽取模板的 DTD 文件 其中定义了一系列元素 如停牌时间 时间跨度 股票名称等等 这些都 是需要抽取的模板属性槽 考虑根据以上的模板 抽取以下的公告实例 东盛科技 600771 因刊登公告 9 月 11 日上午停牌半天 将获取如下 XML 文档作为结果 东盛科技 600771 9 月 11 日上午 半天 刊登公告 此例充分体现了股市公告文本句法特殊 结构固定的特点 对此例原文分 词后 我们可以期望获取如下自动标注的 XML 文档 东盛科技 600771 因 刊登 公告 9 月 11 日上午 停牌 半天 其中 punctuation 标注标点 stockname 标注股票名称 stockid 标注股票 申请上海交通大学学士学位论文 13 id date 标注日期 length 标注时间跨度 sw 是模板特殊词 Special Word 的缩写 na 标注的是本模板中无需关心的词 Not Available 在同课题组的许多老师和同学的共同努力和大力帮助下 我们对近年来上 海证券交易所的公告进行了人工分词和标注 通过计算机程序统计 构造 起了自动分词和标注所需的小规模领域词典 包含领域常用词汇约 1200 词 另外还有沪深两地各类股票名称和编号等 针对不同类型 模版 的文本 将具有不同的标注标准 对标注文本统计数目见表二 表二 人工标注文本量统计 在进行了自动分词和词类标注的基础上 下一章将详细探讨如何利用标注 信息填充模板的具体算法 公告类别公告类别公告文本量 篇 公告文本量 篇 百分比百分比 决议公告决议公告 939315 7 15 7 财务指数公告财务指数公告 41541570 1 70 1 停牌公告停牌公告 21213 5 3 5 其它公告其它公告 636310 6 10 6 共计共计 592592100 100 申请上海交通大学学士学位论文 14 信息抽取的关键算法 在前一章里 已经将信息抽取的问题归结为对文本的自动分词 自动标注 和模板填充三个步骤 并且已经简单介绍了前两个步骤的设计和实现方法 本章中将要详细论述的是模板的自动填充算法 将分别讨论采用传统语言 学方法以及统计学方法进行的模板填充算法 传统语言学方法 基于规则的信息抽取算法 根据传统的语言学方法 一般采用语法分析的方式来填充模板 语言学中 语法分析的理论和方法众多 各有优缺点 比较著名的如 Kaplan 和 Bresnan 1982 的词汇功能语法 LFG Shieber 1984 的 PART II Kay 1985 的功能合一语法 FUG Gazdar 1985 的广义短语结构 语法 GPSG Polland 和 Sag 1987 的中心词去动的短语结构语法 H DPSG 等等 3 8 9 13 上述的各种分析方法从理论上 对自然语言本质性问题进行了较深入的研 究 然而在一个中文的信息抽取的实用系统中充分应用这些分析方法 却 存在着困难 首先 信息抽取技术应当避免采用深层自然语言处理技术 DNLPT 这一 方面是出于性能考虑 信息抽取系统往往要对大量文本进行高效率的处理 另一方面则是考虑到信息抽取系统往往不需要完全明晰一片文档的内容 而只需直起大概即可 所以采用浅层自然语言处理技术 SNLPT 将使系统 具有更好的性能表现 其次 中文语法分析存在着特殊的复杂性 例如 汉语中存在着多动词连 用问题 词性歧义问题 句子的词序问题 汉语特殊模式 把 被 字句 问题 汉语语义歧义问题 等等 如果逐层分析语法关系 可能相 当困难 此外 上述分析方法应用于实际时 往往难以有很高的准确率 而这对于 一个实用系统而言 却往往是致命的缺陷 因此 可以采用较简单的语法规则 来抽取相关的基本语义信息 例如 14 制定以下若干规则 来对股市停牌公告进行抽取 1 S NS C comma D v len fstp 2 N sn 3 N sn sid 4 NS N 5 NS NS cae N 6 C conj un 7 C C un 8 D date 9 D year date 其中 S 表示整个停牌公告 N 表示单个股票 可以由股票名或连同其代码 构成 NS 是股票的集合 可以有一系列任意个连续单个股票用顿号串接构 成 C 表示停牌原因 是由关键连词 因 或 因为 引起的原因状语从句 D 表示日期 既可是单独的月日格式 也可是年月日格式 sn 是股票名称 sid 是股票代码 date 是月日格式日期 year 是年份 conj 是关键连词 因 或 因为 len 是时间跨度 cae 是顿号 comma 是逗号 fstp 是 申请上海交通大学学士学位论文 15 句号 v 是中心动词 停牌 un 是其它与本模板信息抽取无关的词汇 不难验证 该文法可以无冲突地采用 SLR 分析法进行分析 参见表三 ACTION GOTO S n S i d C o n j v l e n d a t e Y e a r C a e C o m m a F s t p u n S N N S C D 0 S 4 1 2 3 1 A C C 2 R 4 R 5 3 S 6 S 7 5 4 S 8 R 3 R 3 5 S 9 S 1 0 6 S 1 1 7 S 4 1 2 8 R 4 R 4 9 S 1 4 S 1 5 1 3 1 0 R 8 R 8 1 1 R 7 R 7 1 2 R 6 R 6 1 3 S 1 6 1 4 R 9 1 S 申请上海交通大学学士学位论文 16 1 7 1 6 S 1 8 1 7 R 1 0 1 8 S 1 9 1 9 R 2 表三 LR 分析表 利用以上分析表 我们实现了机与简单语法规则的信息抽取 由于在根据 分析表分析过程中 自然地构造起了一棵语法分析树 图四中给出一个例 句的分析树 申请上海交通大学学士学位论文 17 图四 分析树示例 在获取分析树的结果上 可以通过对树的遍历来填充模板 此步骤显然比 较简单 在此不再赘述 2 2 1 2 2 1基于规则信息抽取面临的严峻问题基于规则信息抽取面临的严峻问题 对于停牌公告这样语法极其简单的公告而言 采用简单的分析规则已经足 以完成信息抽取任务 但是 对于其它结构较为复杂的公告文本 要构造 这样一套规则却并不永远是件容易的事 随着公告文本的复杂化 规则数目将大大增加 而随着规则的增加 如果 仍然采用 LR 分析法分析 分析表的规模 行数 将以指数级速度扩充 不 仅如此 分析表中还很容易出现冲突项 这一方面是由于自然语言中普遍 存在着文法的二义性 另一方面是由于自然语言中存在着很大的自由性 语言意义的表达并非完全受限于固定的文法规则 这也是自然语言和形式 文法的最大区别 对于这个问题 有两条解决途径 其一 对 LR 分析法进行扩充 传统的 LR 分析法通常只有移进 Shift 和 归约 Reduce 两个动作 如果在某些情况下添加若干特殊扩充分析动做 将对增强分析能力有所帮助 14 16 在此方面的研究结果表明 扩充的 LR 分析法的确能够加强分析能力 尤其是加强了处理自然语言过程中的鲁 棒性 但是这样的扩充毕竟还是基于原有 LR 分析法进行的 扩充的幅度有 限 其二 采用非基于规则的分析方法 基于规则的方法在处理自然语言时遇 到的困难 是分析形式文法时的难度无法相比的 改变分析方法可以从根 本上突破形式文法的局限性 下一节就将讨论采用统计方法来设计信息抽取模块中的模板匹配算法 四砂股份 600783 上海医药 600849 因未刊登股东大会决议公告 9 月 13 日停 牌一天 fstp C 四砂 股份 因 刊登 NSC commavlen NSC un unsn date 股东大 会决议 公告 9 月 13 日 D S S 停牌一天 conjun 未 caeN sn sidN 上海 医药 600849 sid 600783 申请上海交通大学学士学位论文 18 2 32 3 统计学方法统计学方法 2 3 1 2 3 1 基于语料库的统计语言学方法基于语料库的统计语言学方法 近年来 基于语料库分析的自然语言处理方法受到了越来越多的计算语言 学家的重视和应用 在规则方法即理性主义方法屡受挫折的事实面前 语 料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的 应用 应该说 统计方法并不是包治百病的良药 而是人类由于认识能力 和认识范围的有限迫不得已采用的方法 11 传统语言学给我们积累了丰富的语言实例 但对于语言规律的把握 人类 至今仍未找到最好的方法 但是 数理统计方法已经发展的比较成熟 值 得信赖 语料库是经过处理的大量领域文本的集合 通过对语料库中的文 本进行统计分析 可以获取该类文本的某些整体特征或规律 如果能够充 分地利用这些统计现象 规律 就可以构造基于语料库的统计学信息抽取 算法 现代语言学研究已经形成两个大的阵营 结构主义和功能主义 或称为理 性主义和功能主义 多年来结构主义一直占上风 西方学者称为 语言学 主流 mainstream linguistics 功能主义相比之下处于劣势 守势 两阵对垒的天平近十几年来似乎在发生变化 如果我们把新兴学科如社会 语言学 语用学 会话分析 语篇分析等都划入功能主义 因为这些都是 研究语言的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工包合同(标准版)
- 2025-2030中国压缩空气泡沫灭火装置行业应用状况与需求规模预测报告
- 项目六 任务六 酒吧服务(教案)《餐饮服务与管理》(高教版第二版)同步课堂
- 浙江中烟工业有限责任公司招聘考试真题2024
- 全球物联网传感器行业市场竞争态势与2025年竞争格局分析报告
- 2025物流协议样书
- 产品演示范本
- (多篇可选)小学一年级家长会家长发言稿范文
- 《啦啦操》课程教学大纲
- 2025钢材运输中介合同
- 春考医学技术课件
- 华为公司文件管理制度
- 国企招投标考试题及答案
- 2023-2025北京高一(上)期末数学汇编:常用逻辑用语(人教B版)
- 家庭护理教学课件
- 水井清污协议书
- 2025-2030年中国不良资产处置服务行业市场现状供需分析及投资评估规划分析研究报告
- 企业消防安全课件下载
- 2025桐乡市国企招聘考试题目及答案
- 《重大隐患判定标准解读》
- 高校防网络电信诈骗课件
评论
0/150
提交评论