基于大规模真实文本的数值知识元挖掘研究-正式稿.doc_第1页
基于大规模真实文本的数值知识元挖掘研究-正式稿.doc_第2页
基于大规模真实文本的数值知识元挖掘研究-正式稿.doc_第3页
基于大规模真实文本的数值知识元挖掘研究-正式稿.doc_第4页
基于大规模真实文本的数值知识元挖掘研究-正式稿.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

肖洪,薛德军 基于大规模真实文本的数值知识元挖掘研究基于大规模真实文本的数值知识元挖掘研究肖洪,薛德军XIAO Hong, XUE De-jun中国学术期刊(光盘版)电子杂志社,北京 100084China Academic Journal (CD) Publishing House, Beijing 100084E-mail: Numeric Knowledge Element Mining Based on Large-Scale Realistic CorporaAbstract: This paper discusses the necessity of the knowledge element mining, then describes in detail the base process and algorithms of main steps of extraction numeric knowledge elements from China Yearbook Full-text Database, and then specially analyzes the extraction quality. Key words: realistic corpora; text mining; numeric knowledge element; automated editing. 摘 要: 本文探讨了从海量文献中挖掘知识元的背景,并详述了从海量年鉴文本中抽取宏观数值知识元的基本流程和各主要环节的算法,并重点对数值知识元主体抽取的效果进行了分析,实验结果表明在特定领域内知识元挖掘要达到实用水平是可行的。关键词: 真实文本;文本挖掘;数值知识元;自动编辑文献标识码: A 中图分类号:TP398.11.引言 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并利用这些知识更好地组织信息的过程1。目前,文本挖掘技术主要应用于文档聚类、文档分类、自动文摘等等。然而,这些应用更多地是关注文献( 作者简介:肖洪(1980),男,硕士,中国学术期刊(光盘版)电子杂志社项目经理,主要研究方向为知识组织与文本挖掘;薛德军(1970),男,博士,中国学术期刊(光盘版)电子杂志社总经理助理、网站建设部经理,主要研究方向为信息抽取、机器学习。文档)本身的组织效果,并没有从文献单元深入到知识单元。随着互联网的兴起和电子出版业的发展,从大规模真实文本中挖掘各类事实或知识正成为计算机学术界和工业界共同关注的话题。华盛顿大学Michele Banko等通过对搜索引擎的检索结果进行事实(facts)抽取研究,开发了KNOWITALL实验系统2,此后他们又以开放式信息抽取思路(Open Information Extraction:OIE)开发了TEXTRUNNER3 。Google公司的Marius Pasca等尝试在给定的模式下(如Person-BornIn-Year)从1亿网页中抽取一百万事实性知识(命名实体及二元关系)4,5。基于海量事实知识库,搜索效果得到明显改善,并可能为用户查询提供直接答案,如Google推出的一系列OneBox产品6。本文研究从中国年鉴全文数据库7中自动抽取数值知识元,建设了一个大规模数值知识元库,结合搜索技术,提供了一个可实用的国情数据挖掘分析系统。本系统提供了按地域导航,指标导航,关键词搜索等多种知识展示和获取方式,满足用户对各类数值知识的查询服务。2.基本定义定义1:知识元.在某个领域内构建本领域知识体系的基本单元。定义2:知识体系.是全面描述某个领域所有知识,按领域特点组织起来的一种基础知识结构。在该知识结构中,基本单元就是知识元。新的知识元、新的知识可有机地加入。定义3:数值知识元.是描述客观事物或者事件有关数值方面属性(如时间、长度、高度、重量、百分比、销售额、利润等)的知识单元。数值知识元有多种划分方式。在经济建设领域,依据知识元描述对象的层次可分为宏观数值知识元(如某地区或行业发展的数值知识)和微观数值知识元(如某经济组织市场经营的数值知识)。定义4:数值知识元主体.本文的数值知识元是一个6元组(如表1所示),数值知识元主体是数值知识元的描述对象,如行政区域、行业等。表1 数值知识元结构时间主体指标谓词数值单位2005年盘龙区工业总产值完成62.93亿元3.数值知识元库建设流程设计中国年鉴全文数据库(China Yearbook Full-text Database,简称CYFD)是中国学术期刊(光盘版)电子杂志社连续出版的年鉴资源全文数据库。目前,该库已收录1560多种年鉴的750多万条年鉴全文,包含中国各地区社会政治经济文化发展的事实性资料和数据。本文的研究就是基于CYFD的全文数据集。数值知识元挖掘主要包括数值句群抽取和数值知识元抽取两个过程。数值句群抽取是指从CYFD全文中抽取含有数值的句群组成数值句群库,包括数值句群识别与抽取、过滤、排重等。数值知识元抽取是指依据CYFD元数据及数值句群上下文信息,抽取时间、主体、指标、谓词、数值、单位6元组的过程。流程如图1所示。图1 数值知识元抽取流程 图1中,实线箭头表示机器自动处理,虚线箭头表示人工编辑。数值知识元抽取流程:首先依据给定模式从各句群中抽取时间、指标、谓词、数值、单位组建5元组数值知识元库。然后,自动抽取5元组数值知识元的主体,主体包括地区、行业、机构三种类型;知识元主体抽取采用基于规则的机器学习算法,不断学习和适应各类训练数据,在人工监督下学习,使抽取规则在训练文本中的支持度和置信度达到较高水平;知识元主体抽取需要借助行业词表、机构特征词表,也需要构造指标库辅助主体抽取决策,在地区主体识别过程中还需要地域库辅助行政地域级别和所属地区判断。最后,本文把在抽取规则下无法抽取主体的知识元组成“无主体知识元库”,由人工编辑校改并为训练库提供样本。需要强调的是,对文本挖掘技术而言,“其基本思想是机器学习方法,在对自然语言载体部分分析的基础上以归纳推理发现自然语言文本中的隐含目标知识,而不强求对自然语言文本的完全透彻理解” 7 。4.主要模块算法及实现4.1 数值指标的自动抽取与指标库构建4.1.1 指标抽取模式 依据中文数值表达习惯,本文将指标和数值的文字表达总结为3种模式。模式1: 指标谓词数值+单位例:“全国 高技术产业增加值 比上年增长 18.7 %”模式2:谓词指标数值+单位例:“人民医院 共有 病床 5329 张”备注:模式2同时也处理无谓词的“指标数值”模式模式3:谓词数值指标+单位; 例:“全年全社会建筑业 上缴 1404 亿元 税金”识别这3种模式,关键要有效地界定指标与谓词、指标与其他文本、谓词与其他文本的边界。这一步的关键是中文自动分词和词性标注。4.1.2 指标抽取与指标库构建指标抽取产生了超过10万个指标,指标频率分布如图2所示。图2 指标频率分布图指标频率分布符合Zipf法则,这表明少数高频指标占数值知识元总量较大比重。因此本文重点处理高频指标的知识元抽取。由于表达习惯及上下文环境不同,同一指标存在多种表达方式,即指标同义词。因此,本文设计了一个指标统计和自动聚类程序,依据指标之间的编辑距离大小,将字面相似的指标聚为一类,并依此构建指标库。指标库的结构如表2所示。表2 指标库结构指标同义词行业相关指标默认地区备注不良贷款余额不良贷款;金融机构不良贷款;金融金融机构各项贷款余额1无 在指标库中,“同义词”属性描述同一指标的多种表达方式,可提高数值知识元的召回率;“行业”属性指示指标所属行业,可用于行业主体识别;“相关指标”指示指标间相关关系,可用于指标导航和知识元链接;“默认地区”属性指示该指标是否为地区指标,比如“总人口”指标其主体只能是地区。4.2.谓词、数值、单位、时间抽取谓词、数值、单位和时间抽取在指标识别与抽取过程中进行。首先构建数值串的正则表达式,识别出包含全角、半角表达的各类整数、小数、百分数以及表达数值范围的字符串(如“50.660.7”)等。其次,本文总结了量词的125种模式,采用有限自动机算法依据量词模式库匹配和抽取数值之后的量词。谓词在数值或者指标前,一般以动词开始,同时还考虑介词对动词的限制(如“比去年增长”)。时间的抽取,按照邻近原则和最新原则,抽取距离指标最近(如同一分句中)且最新的时间。本文主要抽取年份。4.3.数值知识元主体抽取数值知识元的主体包括地区、行业和机构3种类型,其中地区又包括县级以上行政区域以及县以下地域(如乡、镇、村、街道办事处、居委会等)。4.3.1 命名实体识别本文的命名实体主要包括行政区域类地名和机构名。针对切词词典行政地名不全的问题,本文整理了中华人民共和国行政区划简册(2004年版)3200多个行政地区名,形成地名专用切词词典。为辅助各地名之间关系的判断,编辑构建了地域库。对于部分地名指代词,依据相关元数据进行指代消解,处理“全国”、“全地区”、“全省范围”等问题。对于县级以下地域名,将其与机构名一道进行识别和处理。机构名识别采用统计和规则相结合的中文机构名称识别模型8。结合年鉴文本的特点,对机构名称的前部词和特征词加以限定,比如在机构特征词中增加县级以下地域名特征词(比如“居委会”、“村公所”等),并去掉一些行政机关名称(比如“统计局”,“委员会”等等)。这类行政机构往往是发布数值的单位,不适合作为数值知识元的主体。此外,少数行业名也需要特殊处理,比如“二轻工业”和“重化工业”被切分为“二 / 轻工业”和“重 / 化工业”。4.3.2抽取知识元主体 对知识元主体抽取,本文提出一种基于金字塔策略和规则学习的算法,如图3所示。图3 基于金字塔策略和规则学习的知识元主体抽取算法“金字塔”策略是指以指标频率的大小分批处理训练库中数值知识元主体抽取,开始取数量较少但频率较高的指标进行主体抽取实验和规则学习,然后逐渐增大指标选取量再次进行规则学习。对每一批指标,主体抽取规则集不断调整和适应,并把每次抽取过程中的典型错误记录到“典型样本测试库”中。5. 实验结果及分析本文以750万年鉴全文及元数据作为数据集,首先抽取出2200万的数值句群;然后通过5元组抽取,组建了2600万5元组数值知识元库,并以此为基础进行知识元主体抽取实验。从云南省的年鉴中分地区随机选取5元组数值知识元作为训练集。首先,以10000条5元组数值知识元作为样本,人工抽取结果表明:95%的知识元主体可以通过句群上下文信息获取,本文将人工抽取的规则总结为规则集R0。通过5批次规则学习,先后得到R1、R2、R3、R4、R5。每一批学习的数据量和准确率如表3所示。表3 5批规则学习及其知识元抽取效果指标数训练数据量规则数无主体数准确率第1批4711360R1:1112093.3%第2批10218453R2:1522792.1%第3批37223270R3:1723292.2%第4批69525108R4:2030591.8%第5批111627340R5:2136092%为考察数值知识元主体抽取规则R5在整个CYFD中的支持度,本文在云南省年鉴之外随机选择5个省份的年鉴,并按地区随机抽取1000条知识元组成测试集。主要考察R5规则在测试集中数值知识元抽取的准确率(Precision Ratio)和召回率(Recall Ratio)。首先检查主体是否被抽取,确定无主体记录数;然后,在有主体的知识元记录中判断主体抽取正误,以此计算准确率,抽取效果如表4所示。表4 R5在测试集中抽取效果分析北京市黑龙江省湖南省贵州省海南省样本总数10001000100010001000无主体数2537402335准确率88.40%91.06%89.16%87.41%92.22%召回率86.20%87.70%85.60%85.4%89.0%F187.28%89.74%87.34%85.89%90.58%本文数值知识元主体抽取F1均超过87%,接近实用水平。这在于三个方面的因素:一是年鉴全文文本的元数据较为完整,可以作为抽取决策的参考信息源;二是相比其他同行的研究而言,本文的抽取数据集较为封闭;三是在各关键环节(如各类词表、地域库和指标库)加入了人工编辑。对知识元主体识别错误的记录分析,发现主要有3种原因导致识别错误:(1) 句法分析难题,如“在西清公园建成一座长约30米,高2.6米,总面积达78平方米的集观赏、科普、宣传于一体的科普画廊”,基于规则学习的算法无法识别“总面积”的主体为“科普画廊”。(2) 行政地名的重复与变迁,如“广东中山市” 和“大连中山区”,在区县级以上行政地名中有73处类似的重名,其中有7个“市中区”;地名的变迁,同样是“思茅市”,不同历史阶段可能指县级市,也可能是地级市。(3) 行业识别与指代,如知识元所在文献的题名中出现了“工业”,并不意味着年鉴全文以“工业”为主题。此外,本文对词频最高的47个指标进行了统计表明:70%左右的指标可以抽取5年以上的数据,30%的指标可以抽取10年以上的数据。召回率90%,主要在于如下3种原因:(1) 汉语数值没有抽取,如“工业总产值突破一千亿元”;(2) OCR识别导致的全文文本乱码;(3) 中文文字表达及其用语复杂,“工业经济整体效益明显提高,实现增加值294.5亿元,增长10.1 %”,这里面隐含的“工业增加值”指标较难识别。6.结束语本文在2600万5元组数值知识元库的基础上,对指标库中1166个高频指标进行知识元抽取,共得到437万记录的宏观数值知识元库。基于该库,能开发中国宏观数据应用服务系统和面向行业和地区的决策支持服务系统等等。未来的工作需要着力于如下方面:一是对数值知识元的表达句型进行统计和分类处理;二是继续研究命名实体识别,引入HMM等统计模型,并结合年鉴文本语料进行专门训练;三是结合统计表格的数据抽取,对数值知识元库开展统计数据本身的挖掘研究,即从文本挖掘到数据挖掘。 虽然要“实现全自动的、全领域的知识挖掘仍有相当远的路途要走”9,本文认为在特定的领域内将知识元抽取提高到实用的水平是可行的。参考文献1 常青.文本挖掘 挖掘知识J.中国计算机用户, 2004(24):49502 Oren Etzioni,Michael Cafarella & Doug Downey. Web-Scale Information Extraction in KnowItAll (Premaliminary Results)(C). Proceedings of the 13th international conference on World Wide Web(WWW2004),New York, May 17-22,20043 Michele Banko,Michael J Cafarella et al.Open Information Extraction from the Web(C). Proceedings of the 20th International Joint Conferences on Artificial Intelligence, 20074 Marius Pasca,De Kang Lin et al.Organizing and searching the

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论