




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OpenNLP学习日志day1Victor一、 词性标记1、从句级别 S - 简单的陈述句,例如,一个句子既不由从属连词引导或者wh-开头的单词,因此不存在主谓倒置。 SBAR - 从属连词引导的从句 SBARQ - wh-开头的单词或者wh-开头的短语的直接我问句。间接问句和相关的从句应该是被标识的是SBAR。 SINV - 倒装句。例如,主题跟随着紧张动词和情态动词。? SQ - 倒是/否问句,或者主从句是一个wh-开头的问句,跟随着wh-短语。 (最后两个,不理解,我的语法太烂了。) 2、短语级别 ADJP - 形容词短语 ADVP - 副词短语 CONJP - 连词短语 FRAG - fragment(片段)? INTJ - 感叹词。大概相当于这部分的语义标签感叹词。 LST - 标记列表(?)。 包括周围的标点符号。 NAC - 不是句子中的成分,用来显示在一个名词短语前的*(完全不懂了,什么置于名词前的) NP - 名词短语 NX - 用来复杂的名词短语前标识名词短语的头部。与N-bar级别类似但是用法不同。? PP - 介词短语 PRN - 插入语 PRT - 小品词(与动词构成短语动词的副词或介词)。如果是单词类别的标签则被标注为RP。 QP - 量词短语(例如。复杂的度量/数量短语);在名词短语中运用。 RRC - 相对减少的从句。? UCP - 协调不同的词组。 VP - 动词短语 WHADJP - wh-形容词短语。形容词短语包含一个wh-副词,例如how hot. WHAVP - wh - 副词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副词,比如how 或者是why.(这句翻真垃圾) WHNP - wh-名词短语。引出一个从句通过一个名词短语。有可能没有或者词法包含了一个wh副词,例如 who, which book, whose daughter ,none of which ,or how many leopards. WHPP- wh - 介词短语。介词短语包含了wh-名词短语(例如 of which 或者by whose authority)或者有一个介词的间隔 或者 包含在WHNP中。 X- 不知道,不确定或者不在支架表中。 3、单词级别 CC - 并列连词 CD - 基数词 DT - 限定词(the ,some ,my) EX - 存在词(there) FW - 外来词 IN - 介词或者从属连词 JJ - 形容词 JJR - 形容词比较级 JJS - 形容词最高级 LS - 列表标记 MD - 情态动词 NN - 名词,单数 NNS -名词,复数 NNP - 专有名词,单数 NNPS - 专有名词,复数 PDT - 前置限定词 POS - 所有格结束 PRP - 人称代词 PRP$ - 所有格代名词(prolog版本 PRP-S) RB - 副词 RBR - 副词的比较级 RBS - 副词的最高级 RP - 小品词(与动词构成短语动词的副词或介词) SYM - 符号 TO - to UH - 感叹词 VB - 动词原形 VBD - 动词过去式 VBG - 动名词或现在分词 VBN - 动词过去分词 VBP - 动词,非第三人称单数现在式 VBZ - 动词,第三人称单数现在式 WDT - wh-限定词 WP - wh - 代名词 WP$ - 所有格的wh -代名词 WRB - wh-副词 4、形式/功能差异 -ADV(副词作用的) - 标记成分不同于ADVP 或者是PP 当它当副词使用时。但是,成分修改一个ADVP通常没有-ADV。如果一个更加特别的标签(例如-TMP)可用,那么它将会单独使用,-ADV是暗含的意思,见(状语)这一节。 -NOM(名词性的)标记*和动名词当它们是以相同的方式使用的时候。 2、语法作用 -DTV (与格(名词、代词或形容词用作间接宾语时的一种形式) -LGS (逻辑主语) -PRD (谓语, 述语 (句子成分,对主语加以陈述,如 John went home 中的 went home) -PUT 标识方位的补足语put -SBJ (表面主题) -TPC (“主题化”)标识在陈述句主题之前出现的元素,但是只有两种情况: (1)如果前一个元素在位置上是与一个 *T* 相邻。? (2) 如果前面的元素是左置。? -VOC (呼格;呼格词;呼语) 5、状语 状语常常是VP的附属结构。 -BNF (受益的)标识行动的受益人(与名词性短语和介词性短语相连) -DIR (有指向的)标识回答“from where?”和“to where?”的状语。 -EXT(程度)标志着描述一个活动的空间范围副词短语。 -LOC ((名词、代词或形容词)表示位置的 )标识状语,指示事件的地点 -MNR (方式,方法)标识方式的状语,包括仪器词组? -PRP(目的或者原因) 标识目的或者原因从句或者介词短语 -TMP(时间)标识时间或者回答这类问题when,how often,how long. 6、其他 -CLR() -CLF() -HLN(摘要headline) -TTL(标题title)二、代码案例:package opennlp;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.StringReader;import opennlp.tools.chunker.ChunkerME;import opennlp.tools.chunker.ChunkerModel;import opennlp.tools.cmdline.PerformanceMonitor;import opennlp.tools.cmdline.parser.ParserTool;import opennlp.tools.cmdline.postag.POSModelLoader;import find.NameFinderME;import find.TokenNameFinderModel;import opennlp.tools.parser.Parse;import opennlp.tools.parser.Parser;import opennlp.tools.parser.ParserFactory;import opennlp.tools.parser.ParserModel;import opennlp.tools.postag.POSModel;import opennlp.tools.postag.POSSample;import opennlp.tools.postag.POSTaggerME;import opennlp.tools.sentdetect.SentenceDetectorME;import opennlp.tools.sentdetect.SentenceModel;import opennlp.tools.tokenize.Tokenizer;import opennlp.tools.tokenize.TokenizerME;import opennlp.tools.tokenize.TokenizerModel;import opennlp.tools.tokenize.WhitespaceTokenizer;import opennlp.tools.util.InvalidFormatException;import opennlp.tools.util.ObjectStream;import opennlp.tools.util.PlainTextByLineStream;import opennlp.tools.util.Span;public class OpenNLPDemo /* * param args * author Victor */public static void main(String args) try String str = Hi , Victor . How are you? This is Mike.;SentenceDetect(str);findName(Tokenize(str);POSTag(str);chunk(str);Parse(); catch (InvalidFormatException e) / TODO Auto-generated catch blocke.printStackTrace(); catch (IOException e) / TODO Auto-generated catch blocke.printStackTrace();/句子探测器public static void SentenceDetect(String paragraph)throws InvalidFormatException, IOException InputStream is = new FileInputStream(en-sent.bin);SentenceModel model = new SentenceModel(is);SentenceDetectorME sdetector = new SentenceDetectorME(model);String sentences = sdetector.sentDetect(paragraph);for (String str : sentences)System.out.println(str);is.close();/记号赋予器public static String Tokenize(String str) throws InvalidFormatException,IOException InputStream is = new FileInputStream(en-token.bin);TokenizerModel model = new TokenizerModel(is);Tokenizer tokenizer = new TokenizerME(model);String tokens = tokenizer.tokenize(str);for (String a : tokens)System.out.print(a + | );is.close();System.out.println( );return tokens;/名字仪public static void findName(String strs) throws IOException InputStream is = new FileInputStream(en-ner-product.bin);TokenNameFinderModel model = new TokenNameFinderModel(is);is.close();NameFinderME nameFinder = new NameFinderME(model);Span nameSpans = nameFinder.find(strs);for (Span s : nameSpans)System.out.println(s.toString();/POS尾随者public static void POSTag(String input) throws IOException POSModel model = new POSModelLoader().load(new File(en-pos-maxent.bin);PerformanceMonitor perfMon = new PerformanceMonitor(System.err, sent);POSTaggerME tagger = new POSTaggerME(model);ObjectStream lineStream = new PlainTextByLineStream(new StringReader(input);perfMon.start();String line;while (line = lineStream.read() != null) String whitespaceTokenizerLine = WhitespaceTokenizer.INSTANCE.tokenize(line);String tags = tagger.tag(whitespaceTokenizerLine);POSSample sample = new POSSample(whitespaceTokenizerLine, tags);System.out.println(sample.toString();perfMon.incrementCounter();perfMon.stopAndPrintFinalResult();/Chunkerpublic static void chunk(String input) throws IOException POSModel model = new POSModelLoader().load(new File(en-pos-maxent.bin);PerformanceMonitor perfMon = new PerformanceMonitor(System.err, sent);POSTaggerME tagger = new POSTaggerME(model);ObjectStream lineStream = new PlainTextByLineStream(new StringReader(input);perfMon.start();String line;String whitespaceTokenizerLine = null;String tags = null;while (line = lineStream.read() != null) whitespaceTokenizerLine = WhitespaceTokenizer.INSTANCE.tokenize(line);tags = tagger.tag(whitespaceTokenizerLine);POSSample sample = new POSSample(whitespaceTokenizerLine, tags);System.out.println(sample.toString();perfMon.incrementCounter();perfMon.stopAndPrintFinalResult();InputStream is = new FileInputStream(en-chunker.bin);Chunk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村委大楼出租合同范本
- 租赁螺旋钻机合同范本
- 火锅商铺转让合同范本
- 设施外包合同范本
- 男鞋生产合同范本
- 年产10万套人工驱雷电设备生产线项目可行性研究报告模板-立项备案
- 山东建筑公司合同范本
- 铺面租赁拍卖合同范本
- 租人租车合同范本
- 花卉销售配送合同范本
- 2025年度泸州老窖白酒线上线下全渠道销售代理协议
- 教职工开学安全知识培训课件
- 2025至2030年中国焦炉气制LNG市场竞争格局及行业投资前景预测报告
- 2025年公路交通水运三类人员试题及答案
- 2025年河北省初中学业水平考试历史试题(含答案)
- 2025年甘肃省公职招录考试(省情时政)历年参考题库含答案详解(5套)
- 期末必考题检测卷(三)(含答案)高一数学下学期人教A版必修第二册
- 2025年江苏公务员遴选考试公文写作试卷(附答案)
- 2025年度以新质生产力助推高质量发展等继续教育公需科目试题及答案
- 2025年技师安全考试题库
- 站点考勤管理制度
评论
0/150
提交评论