《自然语言处理:基于预训练模型的方法》 课件03-基础工具集与常用数据集_第1页
《自然语言处理:基于预训练模型的方法》 课件03-基础工具集与常用数据集_第2页
《自然语言处理:基于预训练模型的方法》 课件03-基础工具集与常用数据集_第3页
《自然语言处理:基于预训练模型的方法》 课件03-基础工具集与常用数据集_第4页
《自然语言处理:基于预训练模型的方法》 课件03-基础工具集与常用数据集_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础工具集与常用数据集2HARBININSTITUTEOFTECHNOLOGY基础工具集与常用数据 基础工具集NLTKLTPPyTorch常用数据集WikipediaCommonCrawl3HARBININSTITUTEOFTECHNOLOGYNLTKNaturalLanguageToolkit/多种语料库和词典资源生文本、PennTreebank样例WordNet基本的自然语言处理工具集分句标记解析词性标注句法分析更多英文自然语言处理工具集CoreNLP、spaCy等https://data-flair.training/blogs/nltk-python-tutorial/

4HARBININSTITUTEOFTECHNOLOGYLTP语言技术平台(Language

Technology

Platform,LTP)http://ltp.ai

高效、高精度中文自然语言处理基础平台中文词法、句法、语义分析等6项自然语言处理核心技术2020年7月发布4.0版本基于预训练模型多任务学习机制安装$

pip

install

ltp5HARBININSTITUTEOFTECHNOLOGYLTP调用示例6HARBININSTITUTEOFTECHNOLOGYPyTorchFacebook开发的开源深度学习库/基于张量(Tensor)的数学运算工具包GPU加速的张量计算自动进行微分计算PyTorch的优势框架简洁入门简单,容易上手支持动态神经网络构建与Python语言无缝结合Debug方便/neural-network-zoo/

7HARBININSTITUTEOFTECHNOLOGYPyTorch的三要素张量(Tensor)数据存储支持GPU表达式(Expression)数据运算自动微分计算模块(Module)神经网络层支持自定义8HARBININSTITUTEOFTECHNOLOGY张量(Tensor)又称为多维数组与Python列表的区别可表示现实世界中的各种数据表格、时间序列(彩色)图像batch=torch.zeros(100,3,256,256,dtype=torch.uint8)9HARBININSTITUTEOFTECHNOLOGYPyTorch作为张量库支持各种张量操作(类似NumPy)创建张量索引、切片支持GPU快!NumpyPyTorch

10HARBININSTITUTEOFTECHNOLOGY表达式(Expession)通过计算图描述表达式如:e

=

(a

+

b)*(b

-

2)计算图中每个节点执行一个运算前向运算(Forward):根据输入获得输出>>>a=torch.tensor([2.])>>>b=torch.tensor([3.])>>>c=a+b>>>d=b-2>>>e=c*d>>>print(c,d,e)tensor([5.],grad_fn=<AddBackward0>)tensor([1.],grad_fn=<SubBackward0>)tensor([5.],grad_fn=<MulBackward0>)aa

=

2bb

=

3c=a+bc

=

5d=b-2d

=

1e=c*de

=

511HARBININSTITUTEOFTECHNOLOGY表达式(Expession)

aa

=

2bb

=

3c=a+bc

=

5d=b-2d

=

1e=c*de

=

512HARBININSTITUTEOFTECHNOLOGY静态图与动态图13HARBININSTITUTEOFTECHNOLOGY模块(Module)包名功能描述torchTesnor

/

Expression类似NumPy的张量库,支持GPU以及自动微分torch.nnModule灵活的神经网络库,提供多种神经网络层torch.optimModule多种优化算法torch.utilsModule数据集、数据加载等辅助工具14HARBININSTITUTEOFTECHNOLOGY大规模预训练数据集维基百科(Wikipedia)快照(2020年10月23日)/

处理流程纯文本抽取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论