中文新闻事件发生时间的自动识别_第1页
中文新闻事件发生时间的自动识别_第2页
中文新闻事件发生时间的自动识别_第3页
中文新闻事件发生时间的自动识别_第4页
中文新闻事件发生时间的自动识别_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文新闻事件发生时间的自动识别学生:毛顺福指导老师:李芳新闻报道时间处理的三个任务例文1.识别文中的时间信息2004年11月1日2004年10月29日(上)2004年11月1日14点33分2.推测识别的时间信息3.

判断事件发生时间0.分词器预处理(N,V,A)新闻报道时间处理的意义突发性、灾害性的新闻报道疾病自然灾害人为事故SARS其他……台风其他……恐怖袭击其他……新闻报道标记时间的子事件串标记时间、地点的子事件串时间识别地点识别片段抽取框架摘要合并识别文中的时间信息时间元素模式库16类:…Month,Day……Hour,Minute…非时间元素模式库16类…Minute:<T>十分</T><A>推测识别的时间信息-三类目标参考报道时间推一般时间参考前方时间参考报道时间推星期时间2004年10月29日(上)4时5分2004年10月30日2004年10月26日推测识别的时间信息-推测实例DateMatrix世年月日时分秒0.Status02110001.Value7252.Report-13.Previous4.WeekDay报道时间秒=NANN分=NAN时=NAN日=25R月=7R年=2003R世=NA参考标签待推测时间判别事件发生时间-三类时间REPORTKEYNONE报道时间后缀词典关键动名词词典非事件时间模式库判别事件发生时间-子事件分裂包含关系被包含的时间较为详细,取为当前子事件发生时间时间距离时间距离相差大的子事件(半小时),要分裂开来系统测评及存在问题语料类别文档数量P(%)R(%)疾病101篇70.481.5自然灾害391篇85.890.4人为事故234篇71.290.6平均75.887.5准确率P=(找到的正确子事件数)/(找到的子事件数)召回率R=(找到的正确子事件数)/(新闻中应有的正确子事件数)相关领域关键词典的完善非事件时间模式库的探索非时间元素模式库的探索推测过程中参考点的灵活变动演示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论