版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目三文本数据清洗主讲教师:段晓亮Textdatacleaning国内外各类突发事件的频发,反映在互联网上则是各类新闻、社交网站关于突发事件的大量讨论信息。通过对突发事件文本信息数据进行数据处理与清洗,可以构建突发事件领域语料库,从而训练针对突发事件的领域本体模型,并进行推理应用。任务导入任务知识目标(2)了解自然语言处理的概念、技术应用常见任务;(1)了解文本数据集的应用任务;(4)掌握文本数据集的处理方法;(3)了解事件的概念、事件抽取任务;(5)了解语料的数据处理需求和处理流程。任务技能目标(2)能够总结文本数据集处理中出现的问题,及时记录与反馈,积极寻求解决方案;(1)掌握文本数据集的处理流程,能根据应用任务需求合理规划处理流程,高质量完成文本数据集的处理;(3)通过对事件抽取任务的学习,能迁移至其他自然语言处理任务,为其他任务提供数据处理解决方案;(4)掌握Python编程方法,并能通过编写程序解决实际文本数据集的处理问题。任务思政目标2.树立对待生活和工作精益求精的优良品质以及探索未知、追求真理的责任感和使命感。1.树立团结合作的职业品质和集体主义精神,树立正确的科学思维方法和科学伦理观。CONTENTS目录文本数据集的应用任务01Applicationtasksoftextdatasets语料的数据处理需求02Dataprocessingrequirementsforcorpus1.自然语言处理任务自然语言的概念1通常是指一种自然地随文化演化的语言,以语音为物质外壳,由词汇和语法两部分组成的符号系统。文字和声音是语言的两种属性。2语言是人类交际的工具,是人类思维的载体;人类历史上以语言文字形式记载和流传的知识占人类知识总量的80%以上。3自然语言是约定俗成的,有别于人工语言,比如Java、C++等程序设计语言。1.自然语言处理任务自然语言处理1自然语言处理(NaturalLanguageProcessing,缩写作
NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。2自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。3自然语言处理是计算机科学领域以及人工智能领域的一个重要的研究方向,是一门交叉性学科,包括了语言学、计算机科学、数学、心理学、信息论、声学……1.自然语言处理任务文本分类文本分类是指将一段文本(可以是词、句子、文章)分门别类,打上预定义好的一个或多个标签,如:垃圾邮件分类、网页分类(通常是长文本)、query分类(搜索引擎场景下核心处理模块)、情感分类、意图识别/分类(聊天机器人场景下核心处理模块)的等。11.自然语言处理任务序列标注序列标注就是为给定的一维线性输入序列的每个元素,打上标签集合中的某个标签的过程,其本质上是对线性序列中每个元素根据上下文内容进行分类的问题,是结构化预测的一种特例。常见的任务有:中文分词、词性标注、命名实体识别、语义角色标注等。21.自然语言处理任务信息抽取信息抽取(informationextraction)是从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。32.事件抽取任务CEC事件抽取标注数据集中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,包含了地震、火灾、交通事故、恐怖袭击和食物中毒5类突发事件的新闻报道语料,合计332篇。数据采用了XML语言作为标注格式,包含了事件概念组成的多个要素及事件关系。2.事件抽取任务事件的概念资料参考:刘炜等,《一种面向突发事件的文本语料自动标注方法》。中文信息学报。2017.3。事件,指在某个特定的时间和地点发生的,由若干角色参与,表现出若干动作特征,并伴随着对象内部状态变化的一件事情,对事件的定义可以通过一个形式化的六元组表示。A表示动作V表示地点O表示对象P
表示地点T表示时间L表示语言表现event=(A,O,T,V,P,L)2.事件抽取任务事件关系的分类资料参考:刘炜等,《一种面向突发事件的文本语料自动标注方法》。中文信息学报。2017.3。事件之间的关系分为分类关系和非分类关系。分类关系指事件类之间的包含关系或父子关系,非分类关系指事件或事件类之间的内在的语义关系,包含组成关系、跟随关系、因果关系、并发关系和意念包含关系。isComposedOf:组成关系Follow:跟随关系Causal:因果关系Concurrence:并发关系thoughtContent:
意念包含关系3.语料的数据处理需求语料数据的处理流程分词文本编码词性分析标准文本文本清洗(标点转换、繁简转换、去噪声等)关键词抽取3.语料的数据处理需求Python文本读写Python内置了读写文件的函数。函数open()返回文件对象,通常的用法需要三个参数:open(filename,mode,encoding)。filename:包含了你要访问的文件名称的字符串值。mode:决定了打开文件的模式。encoding:打开文件的编码格式,默认为utf8。示例:f=open(“newsfile”,“r”,encoding=“utf8”)#以只读的方式打开文件newsfile,编码格式为utf8。4.文本分词与分句分词的概念中文分词(ChineseWordSegmentation):指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。4.文本分词与分句规则分词规则分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:正向最大匹配法逆向最大匹配法双向最大匹配法4.文本分词与分句统计分词主要思想:将分词作为字在字串中的序列标注任务来实现的。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。4.文本分词与分句混合分词在实际工程应用中,多是基于一种分词算法,然后用其他分词算法加以辅助。最常用的是先基于词典的方式分词,然后再用统计分词方式进行辅助。4.文本分词与分句结巴分词“结巴”中文分词:做最好的Python中文分词组件。它是在自然语言处理项目中比较常用的分词工具。项目地址:/fxsjy/jieba4.文本分词与分句结巴分词支持4种分词模式:精确模式,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。paddle模式,利用深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。5.事件主题提取事件的分类根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,当前新闻语料数据集可以分为地震、火灾、交通事故、恐怖袭击和食物中毒5类突发事件。地震火灾交通事故恐怖袭击食物中毒新闻语料数据集6.认识XML文件XML被设计用来传输和存储数据;指可扩展标记语言;标签没有被预定义,需要用户自行定义标签;被设计为具有自我描述性。XML存储数据6.认识XML文件XML与HTML的区别XML和HTML为不同的目的而设计;XML被设计为传输和存储数据,其焦点是数据的内容;HTML被设计用来显示数据,其焦点是数据的外观;HTML旨在显示信息,而
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 炼钢浇铸工班组管理考核试卷含答案
- 阳极氧化工安全意识强化知识考核试卷含答案
- 整经工风险评估评优考核试卷含答案
- 酱卤肉制品加工工岗前工艺控制考核试卷含答案
- 遗体火化师安全应急考核试卷含答案
- 铁渣处理工安全意识强化水平考核试卷含答案
- 环己酮(醇酮)装置操作工安全知识竞赛评优考核试卷含答案
- 制漆配色调制工安全生产规范考核试卷含答案
- 防爆电气装配工岗前技术综合考核试卷含答案
- 2026班车司机面试题目及答案
- 2026年广东公务员遴选考试题库及答案
- 2026年广东高考地理题考点及完整答案
- 老年人营养配餐与慢性病管理
- 湖南农业发展投资集团有限责任公司2026年校园招聘笔试历年备考题库附带答案详解
- 2026年透析护理护士试卷及答案
- 生鲜超市门面房租赁协议
- 2025年甘肃省兰州市中考英语真题(含答案)
- 2026年写字楼物业试题及答案
- 2025年贵州省高考物理试卷真题(含答案)
- 《PCB工艺与设计》课件-155.PCB的拼板实例演示
- 重症急性胰腺炎超声引导下经皮置管引流专家共识(2024版)
评论
0/150
提交评论