




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、GATE可以做什么?张永和GATE is a总之 GATE是一个 开源的自然语言处理的工作平台,使用JAVA语言开发 几乎可以处理所有文本分析任务Annotation是GATE的关键概念 一段文本可以附加多个标注 标注有一个名称 标注之间可以相互重叠内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价手工标注标注的数据结构 标注:Annotation 特征:Feature 特征值内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价自动标注:文本分析/文本挖掘/自然语言处理/自动编码 层次 词法-词性标注,如POS Tagger插件Part of Spee
2、ch 句法-句法分析,如Stanford Parser插件 语义-如Ontology、WordNet插件 语用 篇章 方法 规则-JAPE规则 Rule-based 统计-机器学习插件 Statiscs-based内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价句法分析插件 Stanford Parser: 句法分析:为一个句子生成句法树 PCFG:概率上下文无关语法 Dependency:依存语法Edite with Syntax Tree Viewer可手工编辑添加父节点删除节点树节点标注 标注:SyntaxTreeNode 特征: ID=6539, 标签的ID c
3、at=IP, 语法成份类型 consists=6531, 6538, 子节点ID text=理想 一定 要 达到覆盖文字内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价自然语言处理两类方法 基于规则-JAPE规则 基于统计/机器学习-ML插件编写Jape规则 认识Gate的基本数据结构 认识ANNIE的默认标记:Token,SpaceToken和Lookup 一个Jape规则模板 加入Jape规则 运行Jape规则认知Gate的基本数据结构 Annotation:标记,可包含多个子Annotation和多个Feature Feature:特征 = Name:特征名 Va
4、lue:特征值认识ANNIE的默认标记 SpaceToken:非显示符号,如:空格或回车 Token:显示符号,如:数字、中英文分词;(用SpaceToken隔开) Lookup:Gazeteer词库中的词汇;由Token和SpaceToken组成。 majorType minorType一个识别代词的Jape规则模板Phase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| T
5、oken.string=you|Token.string=You| Token.string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 一个识别代词的Jape规则模板Phase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| Token.string=you|Token.string=You| Tok
6、en.string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 任意名称规则执行方式输入已识别的标记Token一个识别代词的Jape规则模板: temp.japePhase: KF_BasicInput: TokenOptions: control = appelt Rule:Pronoun_Rule1( ( Token.string=I|Token.string=i| Token.string=we|Token.string=We| Token.string=you|Token.string=You| Token.
7、string=it|Token.string=It ) : pronoun-:pronoun.Pronoun = status=yes 左部/前件(LHS)右部/操作(RHS)左右部分界符标记片段命名执行结果机器学习的输入和输出 训练模式 输入(样本): ( a1,a2, aN , class ) 通常a1 为实数,特别地,取0,1 class为类别符号 输出:分类器 应用模式 输入: ( a1,a2, aN) 输出: (class ) 内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价机器学习插件(ML插件) Weka:贝叶斯、决策树等 SVMLight:SVM 规定某
8、个标注集是样本集 一个标注为一个样本 特征是样本的一个属性 指定一个特征C作为样本的类别 分类结果:为特征C赋值GATE中如何表示ML的样本 用XML文件描述标注与样本的映射关系 一个标注是一个样本 标注是否具有子标注A可以是样本的一个属性a1 有A,则a1=1 无A,则a1=0 标注的特征f值为v1(v2vN)可以作为样本的一个属性f_v1(f_v2,f_vN) 若f=v1,则f_v1=1,否则f_v1=0 若f=v2,则f_v2=1 ,否则f_v2=0GATE中如何表示ML的样本 将多类别问题转为二类别问题: 标注的特征f值为v1(v2vN)可以作为样本的一个类别f_v1(f_v2,f_vN) 若f=v1,则f_v1=1,否则f_v1=0 若f=v2,则f_v2=1 ,否则f_v2=0应用结果:召回率100%内容 手工标注 自动标注 句法分析 JAPE规则编写 机器学习 算法评价算法评价:准确率和召回率的自动计算 准确率: 召回率: F-measure总结 手工标注 句法分析 JAPE规则编写 机器学习 算法评价More JAPE规则与java混合 Jav
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西大成人教育宏观经济学 (四)期末考试复习题及参考答案
- 放疗护理常规
- 交通流量预测在智能交通系统中的安全保障作用报告
- 2025年城市慢行系统建设项目交通拥堵缓解策略报告
- 全面质量管理体系核心框架
- 会员与志愿者管理
- 2025年乳制品产业奶源质量控制技术创新与品牌形象优化报告
- 《中餐服务》课件-工作任务A-3 折花
- 100MW风电项目可行性研究报告(参考)
- 全科医学案例解析
- 中华人民共和国传染病防治法培训课件
- 舞弊检测中的深度学习特征提取-深度研究
- 入孵企业合作协议书范本
- SCR脱硝催化剂体积及反应器尺寸计算表
- 中级会计经济法-中级会计《经济法》模拟试卷12
- ISO-IEC20000-2018信息技术服务管理体系标准及内审员培训教材
- 一例脓毒血症的个案护理
- 2024年叙永县中医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 安全科学导论知到智慧树章节测试课后答案2024年秋中国矿业大学(北京)
- 市场营销试题(含参考答案)
- 机械工程技术训练知到智慧树章节测试课后答案2024年秋北京航空航天大学
评论
0/150
提交评论