领域术语自动抽取方法研究.ppt_第1页
领域术语自动抽取方法研究.ppt_第2页
领域术语自动抽取方法研究.ppt_第3页
领域术语自动抽取方法研究.ppt_第4页
领域术语自动抽取方法研究.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

领域术语自动抽取方法研究,刘桃,报告内容,绪论 课题研究的目的、意义及研究现状 论文主体 领域文本自动判别方法 领域术语自动抽取方法 在文本分类和问答式信息检索中的应用 结论,报告内容,绪论 课题研究的目的、意义及研究现状 论文主体 领域文本自动判别方法 领域术语自动抽取方法 在文本分类和问答式信息检索中的应用 结论,绪论,研究目的 为面向领域的应用提供可定制的领域文本自动判别方法和领域术语自动抽取方法 研究意义 对所有面向领域的应用都有重要意义 垂直搜索 文本自动分类 语言建模 词义消歧,绪论:领域文本自动判别研究现状,领域文本自动判别 有监督文本分类方法 文本表示:概率模型、向量空间模型 特征选择:TF-IDF、互信息、期望交叉熵、信息增益等 分类算法:Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络 半监督文本分类方法 产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法 基于正例的文本分类方法 PEBL、 Spy_EM、Roc_SVM、类别约束SVM(Biased_SVM)、 PNLH方法,绪论:领域术语自动抽取研究现状,中文词语的领域类别判定之前要进行中文新词发现 中文新词发现 启发式特征:构词力、构词模式、互信息、上下文依赖 机器学习模型:隐马尔科夫模型、最大熵、最大熵马尔科夫模型、支持向量机、条件随机域,绪论:领域术语自动抽取研究现状,词语的领域类别判定 基于语言学知识的方法 英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分析、设定规则模版 基于统计量度的方法 基于类别的TFIDF(KFIDF)、领域相关性+领域一致性(DR+DC) 、C-值、C/NC值 机器学习方法 基于自助学习法的半监督术语获取方法 基于词语分类的术语获取方法,绪论:研究现状,领域术语自动抽取的评价 人工评价:语言学家或者研究者通过个人判断来确定抽取的词语是否为领域术语 对抽取结果有直观感受 费时、费力 受人主观性影响 应用评价:看领域术语抽取模块在应用系统中的表现 评测迅速 完全面向应用,不同的应用系统可能会产生不尽相同的结果,报告内容,绪论 课题研究的目的、意义、研究现状 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用设计 结论,研究框架,有监督文本分类,基于正例的文本分类,中文新词发现,术语抽取自助学习法,基于统计量度的术语抽取,在文本分类中的应用,在问答式信息检索中的应用,词语的领域类别判定,概念语义网络,专业信息采集,特征集扩展,特征选择,领域文本自动判别方法,完整分类体系下的领域文本判别 有监督文本分类方法 需要为每个类别提供一定规模的训练语料 实现了一个文本分类评测平台 包括10种可定制的特征选择算法和4种可定制的分类算法 特征选择算法:词频与倒文档频度(TFIDF)、期望交叉熵(ECE)、统计、互信息(MI)、文本证据权(WE)、信息增益(IG)、文档频度(DF)、KFIDF、DR+DC、NCD+NDD方法 分类算法:简单贝叶斯(NB)、Rocchio、K最近邻(KNN)和支持向量机(SVM),领域文本自动判别方法,非完整分类体系下反例集获取困难 完整分类体系下训练某个类别的分类器时,其他类别训练语料的合集作为反例集 非完整分类体系下获取某个类别的平衡反例集比较困难 基于正例的文本分类方法 不需要提供已标注的反例集 需要使用大规模未标注样本,基于正例的文本分类问题的传统方案,步骤一:启发式样本标注 1-DNF,PNLH,spy,rocchio 步骤二:建立分类器 通过迭代建立一系列分类器 只建立一个分类器,传统方法存在的问题,启发式样本标注中,高准确率和高召回率不可兼得 1_DNF:将U中不含全部正例特征的文档看作反例 高准确率,低召回率 PNLH:定义正例参考值(PRP),将PRP值小于U集全部文档PRP平均值的文档当作反例 低准确率,高召回率 不同途径得到的标注样本的置信度不一致,传统方法不加区别的使用所有样本 势必导致分类准确率下降,基于置信度加权的领域文本判别法,多策略样本标注算法 自动标注尽可能多的样本,即在保证样本标注召回率的前提下,按照标注样本的置信度对样本集进行划分 加权支持向量机算法 为不同置信度的样本赋予不同的权重,不同标注策略的样本置信度实验,Retuers语料上的标注样本置信度,三级反例及基于置信度加权对分类性能的影响实验,是否使用三级反例及基于置信度加权对Retuers数据集的分类性能影响,对比实验,Retuers数据集上不同方法的分类性能对比,报告内容,绪论 论文主体 领域文本自动判别相关技术研究 领域术语自动抽取相关技术研究 基于局部最大算法的中文新词发现 基于统计量度的术语抽取方法 领域术语抽取自助学习法 在文本分类和问答式信息检索中的应用设计 结论,传统中文新词发现方法的缺点,启发式特征+经验阈值 难以筛选合适的全局阈值统一抽取新词 机器学习方法 训练时间较长,基于局部最大算法的中文新词发现,中文词语是关联强度较大、结合较为紧密的字序列 高内聚性 可独立运用性 利用平摊对称条件概率(SCP_F)衡量字序列的结合力 局部最大算法思想: 如果ngram W 的关联强度大于所有包含它的(n+1)gram 的关联强度,并且ngram W 的关联强度不小于所有W 包含的(n-1)gram 的关联强度,则 W 被看作候选新词。 能够很好地刻画词语的高内聚性和可独立运用性,基于局部最大算法的中文新词发现,基于后缀数组的实现方案 传统方法在计算n3的ngram时,速度非常慢,不能满足互联网环境下大规模网络文本的实时新词发现需求 采用基于后缀数组的数据结构 采用基于等价类划分的思想降低存储空间 只需要存储每个等价类中的一个最长序列,基于局部最大算法的中文新词发现过程,实验结果,在MSR语料上的新词发现前后对比实验结果,在PKU语料上的新词发现前后对比实验结果,对比实验,在MSR语料上和中文分词评测中其他系统的对比实验结果,实验结果,小规模词典统计信息,不同新词比率下的新词识别性能,在不同新词比率下测试新词发现的性能 在缺乏词表或者为了扩展已有的小词表的情况下,局部最大算法可以用来抽取词语。,报告内容,绪论 论文主体 领域文本自动判别相关技术研究 领域术语自动抽取相关技术研究 基于局部最大算法的中文新词发现 基于统计量度的术语抽取方法 领域术语抽取自助学习法 在文本分类和问答式信息检索中的应用设计 结论,基于统计量度的术语抽取,抽取原则一:领域术语应该在不同领域类别间分布不均匀 频繁出现在某领域文档中,很少出现在其它领域文档中的词语是领域术语的可能性较大。 出现该词语的领域类别数越少,该词语越有可能是领域术语。 抽取原则二:领域术语在其相关领域的文档集中应尽可能分布均匀 出现在某领域的大多数文档中的词语可能是该领域的术语。 正规化策略:减轻不同语料规模和文档长度的影响,传统方法:KFIDF,DR_DC 对术语抽取标准描述不够细致和全面 基于正规化分布熵的领域术语抽取方法,基于正规化分布熵的领域术语抽取,符号定义:Di (1im): 第i个领域类别 dij (1jni): 类别Di中的第j个文档 lij: 文档dij的长度,即在该文档中出现的所有词语的词频之和 Li: 类别Di包含的所有文档长度之和 数学描述:,词语的正规化的类间分布熵NCD,词语的类间分布熵:,词语“党性”和“知觉”在类别A(马列主义)均以0.5的概率出现,但“党性”只出现在A(马列主义)与D(政治、法律)两个类别,而“知觉”共出现在11个类别的语料,基于正规化分布熵的领域术语抽取,词语在领域Di的正规化的类内分布熵NDD,“蛔虫”在类别G(文化、科学、教育、体育)的一篇介绍中小学生健康问题中蛔虫感染的文章中多次出现,但在该类别的其它文档中未出现,那么该词就不具有领域代表性,不能成为G类的领域术语.,C1 马列主义 无产阶级 社会主义 全党 马克思主义 共产主义 马克思列宁主义 马克思 无产者 资产阶级 共产主义社会 剥削 阶级 生产资料 恩格斯 私有制 资产者,C2 法律 司法 人民法院 最高人民法院 案件 审理 诉讼 法院 司法机关 当事人 职权 国家机关 审判 被告人 民事 行使 民事诉讼,C3 军事 作战 军种 军事 军队 战争 兵力 事变 美军 新军 战法 我军 武器 军兵种 火力 军事科学 战场,C4 体育 比赛 首场 球员 球队 英格兰队 队友 世界杯 夺冠 冠军 决赛 足协 后卫 主帅 瑞典队 任意球 小组赛,C5 医药卫生 患者 治疗 血管 临床 疗效 药物 病人 冠心病 并发症 动脉 冠状动脉 手术 症状术后 口服 疗法 服用,C6 轻工业 包装 食品 调味 保质期 肉制品 玻璃瓶 品牌 肉食品 方便化 果汁 腥味 肉类 专卖店 草莓 货架 糖度,中图分类体系下抽取结果示例,实验结果,中图分类体系下随机抽取的六个领域上的领域术语抽取数目,DR+DC方法抽取词语个数会随着语料规模的变化产生较大变化 NCD+NDD方法抽取词语数目不完全依赖于语料规模,实验结果,图1 前200个词语的正确率,随机抽取的六个领域上领域术语抽取正确率,图2 其余词语的正确率,对于语料规模很大的类别, NCD+NDD法的正确率要明显高于DR+DC法 在其它正确率相当的类别中,抽取的术语数目要明显高于DR+DC法,领域术语自动抽取相关技术,未标注文本,种子术语,词语的领域类别判定,基于统计量度的术语抽取,术语抽取自助学习法,领域对比语料,简单、快速,术语抽取自助学习法,总体思想: 给定:领域集合D1,D2,Dn 对应的种子术语集合T0=T10,T20,Tn0 过程: 术语分类器通过挖掘未标注文档中的新词语和给定种子术语之间的关联,将新术语归类到相应领域类别中,得到了扩大的术语集:T1=T11,T21,Tn1,然后再用此扩大的术语集训练分类器,直到迭代终止,得到最终的新术语集Tz= T1z ,T2z,Tnz。,基于词语上下文表示的术语抽取自助学习法,基于词语上下文表示的术语抽取自助学习法 传统基于文档空间表示法的缺陷 无法表示文档内部的信息 只能获取在多个文档中出现的术语 基于全局上下文的词语表示 术语ti出现在语料的子集di1,di2,dit中,设cij表示术语ti在文档dij中的上下文特征集,则ti的全局上下文是ci1,ci2,cit的并集。 基于潜在语义索引的特征空间压缩,术语抽取自助学习法,实验,新浪网前5个领域 每个类别手工抽取20个词语作为种子术语 新浪网下载的10000篇文档作为未标注语料 对比方法: 基于上下文空间表示法的术语抽取 基于文档空间表示法的术语抽取,领域类别信息,两种方法在抽取频率为1的低频词上的性能比较,两种方法抽取术语性能比较,报告内容,绪论 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用 结论,文本自动分类过程,文本自动分类需要解决三个技术问题:文本表示、文本特征选择和选择分类算法。,在文本自动分类中的应用,应用一:特征集扩展 将基于局部最大算法的中文新词发现方法应用于文本分类语料的分词处理,从而扩大文本表示的特征集,特征集扩展前后文本分类性能对比,小规模原始词典下文本分类性能对比,在文本自动分类中的应用,基于统计量度NCD+NDD的术语抽取,传统特征选择,代替,应用二:特征选择,在中图分类数据集上的对比实验,在旅游类数据集上的对比实验,在旅游领域问答式信息检索中的应用,应用一:专业文本采集 网络文本采集是通过预先设定的种子URL集合,以各种不同的爬行策略循环迭代地访问Web下载网页 当采集的信息只限定于特定的领域,出于性能上的考虑其不必也不可能对整个Web进行遍历 探讨了领域文本自动判别技术在专业文本采集中的应用,在旅游领域问答式信息检索中的应用,应用二:概念语义网络:以实现智能化的概念检索,旅游领域概念语义网络,领域术语抽取算法获取旅游领域术语,构建了如下八个类别的概念语义网络 宾馆饭店、城市概况、地方文化、交通指引、休闲娱乐、 旅游景点、旅游服务、购物美食,宾馆饭店类别的部分概念语义网络图示,在旅游领域问答式信息检索中的应用,概念语义网络维护工具功能模块图,实现了一个概念语义网络维护工具 用于构建、使用、维护概念语义网络,将其纳入到问答式信息检索系统中。,报告内容,绪论 课题研究的目的、意义、研究现状 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用 结论,结论,针对利用正例和未标注数据的领域文本判别问题, 提出基于样本置信度划分的加权支持向量机方法。,这种方法可以克服传统方法中启发式样本标注的精确度和召回率不可兼得的弊端,提高了领域文本判别系统的性能。,针对中文新词发现问题,提出了一种基于局部最大算法的中文新词发现方法,用于识别语料中的候选领域新词。,该方法是一种高效鲁棒的新词发现算法,将该新词发现方法和命名实体识别工具相结合,可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论