版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文文本中企业并购信息的自动抽取北师大中文信息处理研究所韩伟峰(weifenghan04@163.com)2009.11.06中文文本中企业并购信息的自动抽取北师大中文信息处理研究所1提纲本文研究意义及任务语料库的建设企业并购典型表达模式分析知识库的建设本文研究的难点提纲本文研究意义及任务2一本文的研究意义及任务一本文的研究意义及任务31.1本文研究意义信息抽取是自然语言处理的一个重要应用领域。本文中所指的“并购”包括:收购、兼并和合并。中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。1.1本文研究意义信息抽取是自然语言处理的一个重要应用领41.2本文研究的任务本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于HNC理论进行语义分析,建立实现抽取的模式知识库。在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。1.2本文研究的任务本文的研究目标是在研究分析大量相关语51.2本文研究的任务抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。抽取的信息也会因为并购类型不同增加
比如:合并——合并后的新企业名称收购——收购内容(股权、资产)兼并——产权转移1.2本文研究的任务抽取的信息拟包括:并购类型、主动方、6二语料库的建设二语料库的建设72.1语料库的收集整理语料的选取与抽取任务结合这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。充分利用语料研究企业并购信息表达
语料中总结提取出规则使用的模式是很重要的一步。2.1语料库的收集整理语料的选取与抽取任务结合82.2语料的收集与标注语料的收集整理是本文研究很重要的前期准备。语料来源:中国并购网关于并购的新闻报道。制订语料标注规则
原则:程序自动提取信息所需要的知识(因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注)2.2语料的收集与标注语料的收集整理是本文研究很重要的前9标注范例<T>北京时间10月27日</T>早间消息,据国外媒体报道,<Corp>北电</Corp>周一宣布,已经与<Corp>日立</Corp>达成合作协议,由日立出资<Mb>1000万美元</Mb>购买<Corp>北电</Corp>下一代分组核心网络部件业务。
标注范例<T>北京时间10月27日</T>早间消息,据10三企业并购的信息模式分析三企业并购的信息模式分析113.1企业并购信息的分析分析方法是以相关句子或者句群的动词为中心。分析内容:动词主语搭配、动词宾语搭配、适用的并购类型等等
例如:“转让”主语:主动方宾语:内容(资产、股权、债务)类型:收购3.1企业并购信息的分析分析方法是以相关句子或者句群的动词123.2企业并购信息的表达模式按照并购的类型分类总结表达模式HNC理论的句类理论为我们提供了很好的理论基础。转移句T0=TA+T0+TB+TC关系句Rm4=RB+R等等……3.2企业并购信息的表达模式按照并购的类型分类总结表达模133.3表达模式范例以收购类为例,总结表达模式:TA+Verb+TBTA+Verb+TB+TC
收购收购认购认购买进买进拥有拥有…………苏宁电器成功收购Laox公司。苏宁电器成功收购Laox公司27.36%的股权。3.3表达模式范例以收购类为例,总结表达模式:14四知识库的建设核心动词知识库并购结果知识库并购类型知识库排除知识库四知识库的建设核心动词知识库154.1核心动词知识库核心动词库的建立依据动词自身的特点来进行。构想(以“收购”为例):VerbObject(主语)Type(类型)收购a/p.F.并购a.T.认购a.T.受让p.T.转让p.F.4.1核心动词知识库核心动词库的建立依据动词自身的特点来164.2并购结果知识库并购信息中,并购结果是抽取的重要任务之一,表示结果的词语和表达很多,也可以尽可能穷尽。一般位于核心动词的前面,或者后面,或者是另一句子隐含信息。V前:成功、圆满、顺利/没有、中断等V后:了、完、成功、结束/失败、终止、失效等隐含:不欢而散、功亏一篑、皆大欢喜等另外还会有一些固定表达模式。
4.2并购结果知识库并购信息中,并购结果是抽取的重要任务174.3并购类型知识库抽取要区分并购类型:收购、兼并、合并某些核心动词可以明显判断:
收购、合并、兼并、吞并、吃掉有些需要V+N来判断
收购15%股权收购全部产权更复杂的需要考察上下文推断,这需要更高的理解层次。
4.3并购类型知识库抽取要区分并购类型:收购、兼并、合并184.4排除知识库有些信息是与我们的所抽取的任务无关,但是其存在干扰了我们抽取的准确性。比如,时间类:上次、去年、以前、将等否定类:没有、不等
意愿类:有意、打算、想、欲等中心名词定语:去年成功收购骑士队的黄建华有意收购吉林东北虎。4.4排除知识库有些信息是与我们的所抽取的任务无关,但是19五研究中的一些难点抽取信息的分离或缺失,需要通过上下文或者语义推理,增加抽取难度。文本信息中的指代消歧问题。句子辅语义块和句蜕、块扩中信息的抽取(细节和隐含信息的抽取)问题。五研究中的一些难点抽取信息的分离或缺失,需要通过上下文20谢谢观看……希望大家多批评指正……谢谢观看……希望大家多批评指正……21中文文本中企业并购信息的自动抽取北师大中文信息处理研究所韩伟峰(weifenghan04@163.com)2009.11.06中文文本中企业并购信息的自动抽取北师大中文信息处理研究所22提纲本文研究意义及任务语料库的建设企业并购典型表达模式分析知识库的建设本文研究的难点提纲本文研究意义及任务23一本文的研究意义及任务一本文的研究意义及任务241.1本文研究意义信息抽取是自然语言处理的一个重要应用领域。本文中所指的“并购”包括:收购、兼并和合并。中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。1.1本文研究意义信息抽取是自然语言处理的一个重要应用领251.2本文研究的任务本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于HNC理论进行语义分析,建立实现抽取的模式知识库。在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。1.2本文研究的任务本文的研究目标是在研究分析大量相关语261.2本文研究的任务抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。抽取的信息也会因为并购类型不同增加
比如:合并——合并后的新企业名称收购——收购内容(股权、资产)兼并——产权转移1.2本文研究的任务抽取的信息拟包括:并购类型、主动方、27二语料库的建设二语料库的建设282.1语料库的收集整理语料的选取与抽取任务结合这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。充分利用语料研究企业并购信息表达
语料中总结提取出规则使用的模式是很重要的一步。2.1语料库的收集整理语料的选取与抽取任务结合292.2语料的收集与标注语料的收集整理是本文研究很重要的前期准备。语料来源:中国并购网关于并购的新闻报道。制订语料标注规则
原则:程序自动提取信息所需要的知识(因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注)2.2语料的收集与标注语料的收集整理是本文研究很重要的前30标注范例<T>北京时间10月27日</T>早间消息,据国外媒体报道,<Corp>北电</Corp>周一宣布,已经与<Corp>日立</Corp>达成合作协议,由日立出资<Mb>1000万美元</Mb>购买<Corp>北电</Corp>下一代分组核心网络部件业务。
标注范例<T>北京时间10月27日</T>早间消息,据31三企业并购的信息模式分析三企业并购的信息模式分析323.1企业并购信息的分析分析方法是以相关句子或者句群的动词为中心。分析内容:动词主语搭配、动词宾语搭配、适用的并购类型等等
例如:“转让”主语:主动方宾语:内容(资产、股权、债务)类型:收购3.1企业并购信息的分析分析方法是以相关句子或者句群的动词333.2企业并购信息的表达模式按照并购的类型分类总结表达模式HNC理论的句类理论为我们提供了很好的理论基础。转移句T0=TA+T0+TB+TC关系句Rm4=RB+R等等……3.2企业并购信息的表达模式按照并购的类型分类总结表达模343.3表达模式范例以收购类为例,总结表达模式:TA+Verb+TBTA+Verb+TB+TC
收购收购认购认购买进买进拥有拥有…………苏宁电器成功收购Laox公司。苏宁电器成功收购Laox公司27.36%的股权。3.3表达模式范例以收购类为例,总结表达模式:35四知识库的建设核心动词知识库并购结果知识库并购类型知识库排除知识库四知识库的建设核心动词知识库364.1核心动词知识库核心动词库的建立依据动词自身的特点来进行。构想(以“收购”为例):VerbObject(主语)Type(类型)收购a/p.F.并购a.T.认购a.T.受让p.T.转让p.F.4.1核心动词知识库核心动词库的建立依据动词自身的特点来374.2并购结果知识库并购信息中,并购结果是抽取的重要任务之一,表示结果的词语和表达很多,也可以尽可能穷尽。一般位于核心动词的前面,或者后面,或者是另一句子隐含信息。V前:成功、圆满、顺利/没有、中断等V后:了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 为保证制度得到为人本管理创造更有力制度
- 小学英语作业奖惩制度
- 物流公司临时工奖惩制度
- 酒店保安人员奖惩制度
- 幼儿园家庭规则奖惩制度
- 编办信息报送奖惩制度
- 学校节水管理奖惩制度
- 涉军信访奖惩制度汇编
- 羽毛球馆员工奖惩制度
- 公务用车司机奖惩制度
- 教科版三年级下册科学实验报告(20 篇)
- 2026年人教版新教材数学三年级下册教学计划(含进度表)
- 药学分子生物学:第二章 DNA的复制、损伤和修复
- 【基于7P理论的汉庭酒店服务营销策略14000字(论文)】
- 2023-2024学年度新人教版必修二Unit4 History and Traditions基础巩固练习
- 总经理财务知识培训
- GB/T 13911-1992金属镀覆和化学处理表示方法
- Unit 1 Discover useful structures 语法精讲课件 【高效识记+延伸拓展】高中英语人教版(2019)选择性必修第三册
- 高脂血症健康讲座课件
- 复测分坑作业指导书
- 现代汉语词汇学精选课件
评论
0/150
提交评论