GATE可以做什么_第1页
GATE可以做什么_第2页
GATE可以做什么_第3页
GATE可以做什么_第4页
GATE可以做什么_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GATE可以做什么?张永和GATE is a总之 GATE是一个 开源的自然语言处理的工作平台,使用JAVA语言开发 几乎可以处理所有文本分析任务Annotation是GATE的关键概念 一段文本可以附加多个标注 标注有一个名称 标注之间可以相互重叠内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价手工标注标注的数据结构 标注:Annotation 特征:Feature 特征值内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价自动标注:文本分析/文本挖掘/自然语言处理/自动编码 层次 词法-词性标注,如POS Tagger插件Part of Spee

2、ch 句法-句法分析,如Stanford Parser插件 语义-如Ontology、WordNet插件 语用 篇章 方法 规则-JAPE规则 Rule-based 统计-机器学习插件 Statiscs-based内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价句法分析插件 Stanford Parser: 句法分析:为一个句子生成句法树 PCFG:概率上下文无关语法 Dependency:依存语法Edite with Syntax Tree Viewer可手工编辑添加父节点删除节点树节点标注 标注:SyntaxTreeNode 特征: ID=6539, 标签的ID c

3、at=IP, 语法成份类型 consists=6531, 6538, 子节点ID text=理想 一定 要 达到覆盖文字内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价自然语言处理两类方法 基于规则-JAPE规则 基于统计/机器学习-ML插件编写Jape规则 认识Gate的基本数据结构 认识ANNIE的默认标记:Token,SpaceToken和Lookup 一个Jape规则模板 加入Jape规则 运行Jape规则认知Gate的基本数据结构 Annotation:标记,可包含多个子Annotation和多个Feature Feature:特征 = Name:特征名 Va

4、lue:特征值认识ANNIE的默认标记 SpaceToken:非显示符号,如:空格或回车 Token:显示符号,如:数字、中英文分词;(用SpaceToken隔开) Lookup:Gazeteer词库中的词汇;由Token和SpaceToken组成。 majorType minorType一个识别代词的Jape规则模板Phase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| T

5、oken.string=you|Token.string=You| Token.string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 一个识别代词的Jape规则模板Phase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| Token.string=you|Token.string=You| Tok

6、en.string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 任意名称规则执行方式输入已识别的标记Token一个识别代词的Jape规则模板: temp.japePhase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| Token.string=you|Token.string=You| Token.

7、string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 左部/前件(LHS)右部/操作(RHS)左右部分界符标记片段命名执行结果机器学习的输入和输出 训练模式 输入(样本): ( a1,a2, aN , class ) 通常a1 为实数,特别地,取0,1 class为类别符号 输出:分类器 应用模式 输入: ( a1,a2, aN) 输出: (class ) 内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价机器学习插件(ML插件) Weka:贝叶斯、决策树等 SVMLight:SVM 规定某

8、个标注集是样本集 一个标注为一个样本 特征是样本的一个属性 指定一个特征C作为样本的类别 分类结果:为特征C赋值GATE中如何表示ML的样本 用XML文件描述标注与样本的映射关系 一个标注是一个样本 标注是否具有子标注A可以是样本的一个属性a1 有A,则a1=1 无A,则a1=0 标注的特征f值为v1(v2vN)可以作为样本的一个属性f_v1(f_v2,f_vN) 若f=v1,则f_v1=1,否则f_v1=0 若f=v2,则f_v2=1 ,否则f_v2=0GATE中如何表示ML的样本 将多类别问题转为二类别问题: 标注的特征f值为v1(v2vN)可以作为样本的一个类别f_v1(f_v2,f_vN) 若f=v1,则f_v1=1,否则f_v1=0 若f=v2,则f_v2=1 ,否则f_v2=0应用结果:召回率100%内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价算法评价:准确率和召回率的自动计算 准确率: 召回率: F-measure总结 手工标注 句法分析 JAPE规则编写 机器学习 算法评价More JAPE规则与java混合 Jav

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论