3.2.1 序列标注-新闻稿件词性标注_第1页
3.2.1 序列标注-新闻稿件词性标注_第2页
3.2.1 序列标注-新闻稿件词性标注_第3页
3.2.1 序列标注-新闻稿件词性标注_第4页
3.2.1 序列标注-新闻稿件词性标注_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.2文本标注典型实战任务案例通过多个实战任务,提升文本标注能力任务1序列标注——新闻稿件词性标注01任务背景新闻集团需构建智能平台,词性标注是底层自然语言处理模块的首要任务,可缩短初审时间。02任务分析对记者稿件等进行序列标注,为后续分类、风格分析等模块提供词性分布特征。03相关知识中文词性标注与分词相关,常用PKU标注规范,标注需注意语法功能、兼类词等原则。04任务实施包括登录平台、词性标注操作、保存与提交、质检流程等步骤,确保标注准确。05练习与实践完成数据堂平台上相关练习,掌握序列标注方法。06拓展任务完成医疗实体以及命名实体标注中对应的序列标注任务,拓展序列标注能力。任务1序列标注——新闻稿件词性标注学习新闻稿件词性标注的任务背景、分析、知识和实施方法任务背景任务背景任务目标某新闻集团是一家拥有百年历史的综合性传媒集团,旗下涵盖日报、周刊、数字媒体及出版社。在数字媒体时代,每日需处理海量投稿、通讯稿及记者稿件。编辑人工初审耗时费力,难以快速识别稿件类型、风格及潜在的高价值内容。因此集团技术中心需要构建一个集稿件智能初筛、风格量化分析与内容深度标签于一体的内部平台,让机器能够“读懂”文章的基本构成和风格倾向。项目底层的自然语言处理模块,首要任务就是对所有输入文本进行高精度的词性标注。帮助该新闻集团将编辑初审稿件的平均时间缩短60%,并发现更多被埋没的个性化评论文章。任务1序列标注——新闻稿件词性标注任务分析标注内容对记者稿件、历史报刊数字化文本以及外部投稿进行序列标注。标注要求应用价值预期结果标注要点对文本中的每一个词语进行词性标注,并确保标注结果的完整性和一致性。做好底层的词性标注,在后续中:●分类模块:提取词性分布特征。●风格分析模块:生成词性使用统计。●实体识别模块:抽取人名/机构/地点。●关系抽取模块:识别人物-事件、公司-数据关系。该系统帮助该新闻集团将编辑初审稿件的平均时间缩短60%,并发现更多被埋没的个性化评论文章。●分词并判定词性:先对句子合理分词,再根据词语在具体语境中语法功能,分配正确词性类别标签。●标注单位明确:以“词”为单位(非字/短语)。●依赖上下文:不看孤立词义,关注词在句子结构中的作用。●全句覆盖质检:确保不遗漏、不重复,标注完整一致。任务1序列标注——新闻稿件词性标注相关知识词性标注常用标签(PKU标注规范)为什么词性标注离不开分词?PKU标注规范文本中缺乏天然的空格来划分词边界,词性标注往往与分词结果紧密相关。分词不合理→词性判断错误,语义歧义构建规范、准确的词性标注数据,是中文自然语言处理的重要基础。标注规范:采用北京大学《现代汉语语料库加工规范》,简称PKU标注规范标签全称定义与示例n名词表示人、事物、时间等:手机、北京、昨天v动词表示动作、行为:买、是、运行a形容词表示性质状态:漂亮、快速、黑色(作定语时)d副词修饰动词形容词:很、都、已经r代词代替名词等:我、这、什么p介词表示语法关系:在、从、把u助词表示附加意义:的、地、得、了m数词表示数目:一、第二q量词表示单位:台、个、次w标点符号所有标点:,、。、!分词质量直接影响词性标注质量任务1序列标注——新闻稿件词性标注相关知识标注注意事项❶语法功能优先原则词性取决于词在句中的语法作用,而不是词典默认类别。例如:颜色是黑色(黑色作名词)VS

这是黑色手机(黑色作形容词)。❷兼类词依语境标注同一个词可能因上下文不同而词性不同。例如:我们参与建设(建设作动词)

VS

这是一项建设(建设作名词)❸复合词处理原则结合紧密、已固化的复合词不予拆分;否则,按语法单位切分。例如:“苹果手机”整体标为名词不拆分

VS“赛场上”应切分为名词“赛场”和方位词“上”。❹标注单位与完整性●标注单位是“词”,每个词必须有且仅有一个词性标签。●标点符号均需统一标注为w。任务1序列标注——新闻稿件词性标注任务实施1登录平台,进入任务登录数据堂平台后,单击"实验课程",在列表中找到实验"新闻稿件词性标注",或在搜索框输入实验名称并按“Enter”键快速搜索到该实验。在列表中对应实验区域,可查看实验简介,包括实验内容概览、实验数据总量、已提交数据量及分数等信息。单击"进入实验"按钮,打开实验界面任务1序列标注——新闻稿件词性标注“新闻稿件词性标注”实验界面任务实施2词性标注过程本步骤为词性标注的核心操作流程,主要包括新建标注、修改标注、删除标注、一键清空及自动标注等功能。通过这些操作,学习者可以完成一条文本的完整词性标注,并确保标注结果的准确性和规范性。任务1序列标注——新闻稿件词性标注任务实施2词性标注过程●新建标注:进入实验后,按照词性标注要求,对文本中的每个词逐一进行标注。操作时,在目标词左侧按住鼠标左键不放,拖动鼠标选中整个词语,至目标词右侧松开鼠标左键,即可生成对应的标注词。随后,在界面右侧标签属性填写区域选择对应的词性标签,即可完成标注,如右图所示。任务1序列标注——新闻稿件词性标注新建标注界面任务实施2词性标注过程●修改标注:支持对已标注实体的标签类型及属性信息进行修改。常见的修改方式包括以下三种方法:任务1序列标注——新闻稿件词性标注Ⅰ.单击已标注的实体词上方显示的实体标签,随后,界面右侧的标签属性填写区域会展示该实体的标签类型,标注人员可进行修改操作,如右图所示。修改标注方法一❷修改词性❶单击实体标签任务实施任务1序列标注——新闻稿件词性标注Ⅱ.在界面左侧的实体标签列表中,鼠标左键选中需要修改的实体。选中后,系统将在右侧标签属性填写区域显示该实体的标签类型,标注人员可进行修改操作,如右图所示。Ⅲ.在实体ID列表中选中需要修改的实体。选中后,系统将在右侧标签属性填写区域显示该实体的标签类型,标注人员可进行修改操作,如右图所示。修改标注方法二修改标注方法三任务实施2词性标注过程●删除标注:平台不支持对同一文本片段进行重复或重叠标注。若需重新标注已标注的文本内容,需先删除原有标注。操作时,可通过以下任一方式选中需要删除的标注实体:在文本中单击标注词上方的实体标签,或在实体标签列表、实体ID列表中选中需要删除的实体,随后单击“删除”图标或按下“Delete”键,即可删除该条标注。任务1序列标注——新闻稿件词性标注删除标注界面任务实施2词性标注过程●一键清空:单击工具栏“清空标注”按钮,需要经过两次弹窗确认提示,确认后本条数据的所有标注才会被清空。任务1序列标注——新闻稿件词性标注“一键清空”按钮界面任务实施2词性标注过程●自动标注:可根据需求开启自动标注功能。开启后,文本中与已标注词相同的词将自动标注为同一标签。例如,首先在实体标签列表中选中数词,然后对标注文本中第一个“三”进行标注后,系统会自动将全文中所有的“三”标注为“数词”,如右图所示。任务1序列标注——新闻稿件词性标注“自动标注”按钮界面任务实施3保存操作(可选步骤)任务1序列标注——新闻稿件词性标注保存操作界面标注长文本过程中,为了保障数据安全,可点击界面右上方“保存”按钮,将当前文本的词性标注结果临时保存,便于中途暂停或后续继续编辑,保存操作不会将结果提交至系统。任务实施4提交操作任务1序列标注——新闻稿件词性标注提交操作界面在确认当前文本中所有词语均已完成词性标注且结果无误后,鼠标左键单击界面右上方“提交,进入下一条”按钮,将当前文本的标注结果提交至系统。任务实施5质检与修改任务1序列标注——新闻稿件词性标注标注结果质检不合格提示单击“提交,进入下一条”按钮后,会进入机器质检流程,系统会对标注结果进行质量检查。质检通过继续保存提交此任务并进入下一条标注任务质检不合格弹出提示,单击"修改本条"按钮返回修正。练习与实践任务1序列标注——新闻稿件词性标注❶根据上述方法,完成数据堂实训平台上“实验课程”中“新闻稿件词性标注”练习。❷完成数据堂实训平台上“实验课程”中“分词标注”练习。针对给定文本句子进行词语切分标注,将每个切分后的词语标注为“词”实体,注意词语应为构成语义的最小单位,避免将短语或完整句子作为词语标注,确保切分合理、标注完整。注意:切分时避免将短语或者完整句子作为词语标注拓展任务任务1序列标注——新闻稿件词性标注❶完成数据堂实训平台上“实验课程”中“医疗实体标注”练习。针对医院病历文本,对文中出现的身体部位、症状和体征两类医疗实体进行标注,确保实体边界准确、类别选择正确,避免遗漏或误标。❷完成数据堂实训平台上“实验课程”中“命名实体标注”练习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论