单元3:词性标注和实体命名识别4_第1页
单元3:词性标注和实体命名识别4_第2页
单元3:词性标注和实体命名识别4_第3页
单元3:词性标注和实体命名识别4_第4页
单元3:词性标注和实体命名识别4_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.3.3案例实施3.3.3案例实施LTP是基于C++开发的,但是也提供了Python的封装包——Pyltp。Pyltp的安装直接使用pip进行安装,在命令行输入:pipinstallpyltp。如果安装失败,可以使用wheel文件进行安装,具体安装过程如下:首先查看当前环境下Python的版本,在命令行输入:python-V,根据Python的不同版本下载相应的wheel文件,例如Python为3.6版本,则下载pyltp-0.2.1-cp36-cp36m-win_amd64.whl,然后使用cd命令跳转到wheel文件所在目录,使用pipinstallwheel文件名进行安装。(一)LTP的安装3.33.3.3案例实施在安装成功之后,需要下载相关的模型文件。哈工大提供了LTP所需的基本模型,模型下载地址:http://ltp.ai/download.html,选择其中最新版本的模型文件进行下载,如图3-1所示。例如,当前最新模型为3.4.0,则下载ltp_data_v3.4.0.zip。3(一)LTP的安装图3-1模型下载3.3.3案例实施将下载的压缩包解压到项目文件夹下,得到LTP的基本模型,如图3-2所示。3(一)LTP的安装图3-2LTP的基本模型3.3.3案例实施LTP的主要模型:SentenceSplitter:分句模型,将一个段落通过“。”、“?”、“!”等形式分开。Segmentor:分词模型,支持用户使用自定义词典。分词外部词典本身是一个文本文件,每行指定一个词,编码须为UTF-8。Postagger:词性标注模型,显示每个词的词性,输入可以为一个词,也可以为多个词组成的列表。LTP中采用了863词性标注集,各个词性含义见表3-2。3(二)LTP的主要模型3.3.3案例实施表3-2LTP词性标注规范表3(二)LTP的主要模型3.3.3案例实施表3-3命名实体标记3(二)LTP的主要模型NamedEntityRecognizer:实体命名模型,ltp命名实体类型为:人名(Nh),地名(NS),机构名(Ni)。LTP采用BIESO标注体系,其命名实体标记见表3-3。3.3.3案例实施表3-3命名实体标记3(二)LTP的主要模型NamedEntityRecognizer:实体命名模型,ltp命名实体类型为:人名(Nh),地名(NS),机构名(Ni)。LTP采用BIESO标注体系,其命名实体标记见表3-3。3.3.3案例实施3(二)LTP的主要模型Parser:依存句法分析模型。加载模型:frompyltpimportSegmentor,Postagger,Parser,NamedEntityRecognizer#加载分词模型segmentor=Segmentor()segmentor.load("ltp_data_v3.4.0\cws.model")

#加载命名实体识别模型recognizer=NamedEntityRecognizer()recognizer.load("ltp_data_v3.4.0\ner.model")3.3.3案例实施3(三)Parser:依存句法分析模型加载模型:#加载依存语法分析模型parser=Parser()parser.load("ltp_data_v3.4.0\parser.model")

#加载词性标注模型postagger=Postagger()postagger.load("ltp_data_v3.4.0\pos.model")3.3.3案例实施3(三)Parser:依存句法分析模型分句:frompyltpimportSentenceSplittercontent='句号。问号?叹号!“双引号。”汉语省略号……'sents=SentenceSplitter.split(content)forsentinsents:print(sent)输出结果如下:句号。问号?叹号!“双引号。”汉语省略号……这里需要注意的是LTP是用于中文处理的,因此尽量不要将LTP用于处理其它语言。3.3.3案例实施3(三)Parser:依存句法分析模型分词:frompyltpimportSegmentorsegmentor=Segmentor()#初始化实例segmentor.load("ltp_data_v3.4.0\cws.model")#加载模型words=segmentor.segment('贝拉克·侯赛因·奥巴马的身世复杂,1961年8月4日出生在美国夏威夷州檀香山市,父亲是来自肯尼亚的留学生,母亲是堪萨斯州白人。他们二人在就读夏威夷大学期间相识。')forwordinwords:print(word,end='\\')segmentor.release()输出结果如下:贝拉克·侯赛因·奥巴马\的\身世\复杂\,\1961年\8月\4日\出生\在\美国\夏威夷州\檀香山市\,\父亲\是\来自\肯尼亚\的\留学生\,\母亲\是\

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论