版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章自然语言处理:抽取实体关系1)知识抽取任务概述2)面向结构化数据的知识抽取目录3)面向非结构化数据的知识抽取知识抽取任务概述1推理流程德勤:七大智慧审计武器之一——知识图谱资金监管失联客户运用实例云南城投置业股份有限公司的前身为云南光明啤酒股份有限公司,于1992年12月以定向募集方式成立,1998年10月23日在云南省工商行政管理局变更名称为云南红河光明股份有限公司,企业法人营业执照注册号:5300001002428,公司股本177,338,160.00元。2007年10月24日在云南省工商行政管理局变更名称为云南城投置业股份有限公司,企业法人营业执照注册号:530000000004673,公司注册地址为云南省昆明市民航路400号,法定代表人:许雷。知识抽取任务概述云南城投置业股份有限公司前身公司云南光明啤酒股份有限公司云南城投置业股份有限公司成立时间1998年10月23日云南城投置业股份有限公司注册地址云南省昆明市民航路400号云南城投置业股份有限公司法定代表人许雷实体实体关系知识抽取任务概述实体抽取关系抽取事件抽取实体消歧云南省贵金属新材料控股集团有限公司控股股东云南城投&云南城投置业股份有限公司知识抽取任务分类构建审计知识图谱的基础是获取实体和关系,对于审计而言关键点在于特定领域实体关系抽取的精确度。大数据时代下审计线索的收集渠道更加广泛,除了被审计单位提供的业务数据及支持证据,还包括政府文书、新闻媒体稿件、社交网站等等。这类非结构化数据的数据量远远超过业务数据这类结构化数据,其中隐含着的审计线索更需要审计人员进行挖掘。审计知识抽取任务公司公告政府信息公开审计知识抽取任务函证凭证查验-回单审计知识抽取任务面向结构化数据的知识抽取2在财经文本中,蕴含大量以表格形式出现的信息。作为一类结构化形式的数据,Python中有多个用于解析pdf文本的库,其中pdfplumber库除了解析文字,还能对表格数据有效提取。面向结构化数据的知识抽取属性描述.metadata从PDF的Info中获取元数据键/值对字典。通常包括“CreationDate”,“ModDate”,“Producer”等。.pages一个包含pdfplumber.Page实例的列表,每一个实例代表PDF每一页的信息。上市公司年度报告中的表格表格提取表格转换结果表格提取业务循环审计涉及的财务科目销售与收款循环的审计主营业务收入、营业外收入、应收账款、长期应收款、预收账款、应交税费、销售费用等采购与付款循环的审计固定资产、在建工程、无形资产、商誉、预付账款、应付账款、长期待摊费用、管理费用等生产与存货循环的审计存货、原材料、库存商品、委托加工物资、制造费用等货币资金的审计公允价值变动损益、投资收益、交易性金融资产、应收利息、应收股利、长期股权投资、递延所得税资产、其他非流动资产、短期借款、交易性金融负债、应付股利、递延所得税负债、长期借款、其他非流动负债、所得税费用等财务科目涉及的经济活动销售费用水电煤气费、运杂费、其他经营费、手续费、办公费、修理费、宣传推广费等财务费用银行贷款、企业借款、票据贴息、金融机构存款等固定资产办公设备、电子设备、机器设备、运输设备、物流设备等财务报告中的结构化数据—科目结构化数据提取面向非结构化数据的知识抽取320世纪80年代末期,机器学习首次提出,用于人工神经网络的反向传播算法(BP算法)的发明,掀起了基于统计模型的机器学习热潮。这种基于统计的机器学习相比过去基于规则的系统,在很多方面体现出了优越性。在这之后的数十年中,类似于支持向量机、最大熵方法等模型先后问世。2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。1、深度学习与神经网络面向非结构化数据的知识抽取神经网络中的单层神经网络架构神经网络一个经典的神经网络,包含三个层次:输入层,输出层,中间层,其中的节点称之为神经元,神经元间的连线称为连接线,每个连接线对应一个不同的权重,一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。深度神经网络实际上就是将神经网络进行叠加,中间层叫做隐藏层,能够分辨出浅层神经网络无法分辨的细节。具体来说,随着网络的层数增加,每一层对于前一层次的抽象表示更为深入,例如第一个隐藏层学习到的是“边缘”的特征,第二个隐藏层学习到的是由“边缘”组成的“形状”的特征,第三个隐藏层学习到的是由“形状”组成的“图案”的特征,最后的隐藏层学习到的是由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。神经网络在自然语言处理任务中,可供使用的模型众多,推动其不断演化进步的目标就是提高准确率和召回率。在Stanford阅读理解数据集(SQuAD2.0)2020年的榜单中,机器的成绩已经超出人类表现,且当时位居前列的模型中都出现了transformer的Bert预训练模型的身影。Bert预训练模型Transformer是谷歌大脑在2017年底发表的论文《attentionisallyouneed》中提出的seq2seq模型,这也正是Bert模型学习的基础。谷歌论文:VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[C]//AdvancesinNeuralInformationProcessingSystems.2017:5998-6008.Bert预训练模型编码器解码器transformer框架的模型结构Bert预训练模型语言模型与Bert模型简介1.HegotbitbyPython2.PythonismyfavoriteprogramminglanguageBert预训练模型语言模型与Bert模型简介语言模型(LanguageModel)公式化的表达为P(C1,……,Cm),即一串词序列的概率分布,作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。Bert的全称是BidirectionalEncoderRepresentationsfromTransformers,即双向的transformer编码表达,为transformer中编码器的部分。Bert预训练模型在Bert中,主要以两种方式建立语言模型:1、Maskedlanguagemodel这一任务将随机遮盖或替换一句话里的任意字或词,然后让模型通过上下文的理解预测该部分的内容,之后计算损失时只计算被遮盖部分[mask]的损失。实际操作方式为:随机把一句话15%的表示词token替换为以下内容:80%的几率被替换成[mask],10%的几率被替换成任意一个表示词,10%的概率不变。2、NextSentencePrediction这一任务简单而言就是上下句预测,实际操作方式为在句子开头加一个[cls],在两句话中和句末加一个[sep],来判断前后两句话的关联性,即:[cls]上句,[sep]下句.[sep]。Bert预训练模型语言模型与Bert模型简介Bert预训练模型Bert开源项目谷歌提供了多个已经训练好的Bert预训练模型以及对应的实例任务,可以直接进行下载,之后在使用Bert模型时可以基于这些训练好的模型添加自己的子任务进行学习。Bert预训练模型谷歌提供的实例任务Bert预训练模型文本分类任务训练集Bert预训练模型以MRPC模型为例,下载后的Data文件夹中有一个名为MRPC的文件夹。这一任务主要针对文本分类,即判断两句话是否表达相同含义,训练集train.tsv中第一列1和0代表两句话的含义相同或不同,第二、三列代表两个string字符串对应的ID。测试集Test.tsv中会少一列0或1的标签。Bert预训练模型参数配置MRPC模型--task_name=MRPC\
对于不同的数据而言,做数据预处理方法也不相同。 MRPC为已经训练好的例子,无需进行预处理。--do_train=true\--do_eval=true\
是否需要做训练,是否需要验证结果。--data_dir=$GLUE_DIR/MRPC\
数据集所在文件夹的位置,建议使用绝对路径表示,不要出现中文路径。--vocab_file=$BERT_BASE_DIR/vocab.txt\
语料表所在文件夹的位置。--bert_config_file=$BERT_BASE_DIR/bert_config.json\--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt\
超参数、checkpoint所在文件夹的位置。--train_batch_size=32\
在初次尝试时不建议指定过大,使用cpu可以改成1或者2保证正常运行。--output_dir=/tmp/mrpc_output/
保存的训练模型所在文件夹的位置,建议先创建output文件夹避免报错。MRPC模型在输入过程中,由于需要保证句子长度是一样的,因此对于长度不同的句子需要进行截断或者补齐。Max_seq_length表示最大长度,如果设置长度为128,则长度不到128的句子后面句末用0作为索引进行补充。补充部分的Input_mask为0,将便于之后的selfattention操作。input_mask=[1]*len(input_ids)whilelen(input_ids)<max_seq_length:input_ids.append(0)input_mask.append(0)segment_ids.append(0)MRPC模型模型训练MRPC模型自定义数据集的微调Bert官方项目搭建了文本分类模型的model_fn,只需定义自己的DataProcessor类,即可在自己的文本分类数据集上进行训练。操作步骤:1、将自己的数据集统一放到一个目录下并将其划分成train.txt,eval.txt和predict.txt三个文件,每个文件中每行为一个样本,格式为:simplistic,sillyandtedious.__label__0,即句子和标签之间用__label__划分,句子中的词语之间用空格划分。数据集微调2、修改run_classifier.py文件,新建一个DataProcessor的子类,并继承三个get_examples方法和一个get_labels方法。三个get_examples方法需要从数据集目录中获得各自对应的InputExample列表。3、在main函数中,向main函数开头的processors字典增加一项,key为自己的数据集的名称,value为上一步中定义的DataProcessor的类名。4、修改EditConfigurations的参数。5、运行py文件,注意此时如果使用CPU会弹出多个警告,并不影响模型训练。数据集微调bert预训练模型训练结果示例MRPC模型序列标注使用Bert做预训练首先需要通过序列标注得到train.txt、dev.txt、test.txt三份训练数据集,其中包含了每一个字以及对应的B-PER、I-PER、B-ORG、I-ORG、B-LOC、I-LOC、O标签,运用实例
bert模型实体抽取任务参数配置Bert-BiLSTM-CRF
bert模型实体抽取任务结果示例Bert-BiLSTM-CRF关系抽取与实体抽取相同,同样面向非结构化文本数据,通过抽取实体间的语义关系来组成结构化知识。传统方法主要通过人工设计特征进行抽取,工作量较大且非常考验特征的质量。近些年随着深度学习在语音、图像等多领域的成功运用,关系抽取也获得了重大突破。本小节首先介绍依存句法分析,随后借助浙江大学deepke工具,学习基于PCNN的关系抽取模型。关系抽取依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。进行依存句法分析需要满足5个条件:(1)一个句子中只有一个成分是独立的(2)句子的其他成分都从属于某一成分(3)任何一个成分都不能依存于两个或两个以上的成分(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分(5)中心成分左右两边的其他成分相互不发生关系。依存句法分析setence="徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"依存句法分析句法可视化分析结果依存句法分析词标签:Word.POSTAG表示某个词(节点)的词性,word.DEPREL表示某个词(节点)与其根节点的关系,Word.LEMMA表示词的内容。要通过依存句法分析得到一个[实体,关系,实体]的三元组,通过遍历的方法查找到词后,可以使用同样的方法找到关系。然而对于每句句子而言,句法结构各不相同,因此需要在开始阶段构建尽量完整的提取规则,便于后续进行抽取。依存句法分析hanlp中默认只包含通用词典,因此对于领域词汇通常无法准确切分,例如后续章节中会运用到大量的审计专业词汇,这就必须要求在词性标注阶段就及时对词典进行补充或修正。举例来看,随机挑选审计报告中的一句话:采用个别认定法计提坏账准备,单独进行减值测试。依存句法分析根据分词结果可以发现,其中的审计术语都没有被识别,“个别认定法”的“法”字还被错误切分,与下文“计提”直接形成依存关系,因此必
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年公共营养师(膳食指导与评估)自测试题及答案
- 面部色斑的分析诊疗
- 讲解小学五年级语文上册期末基础知识考试卷
- 消费者感官偏好与购买行为关联-洞察与解读
- 潜水员氧动态分析-洞察与解读
- 装配式建筑施工员操作技能能力考核试卷含答案
- 铸造造型(芯)工班组评比评优考核试卷含答案
- 聚丙烯装置操作工岗前模拟考核试卷含答案
- 无线电设备运维员岗位标准化技术规程
- 公司植物检疫工职业健康及安全技术规程
- 2024ESC心房颤动管理指南解读
- 行政伦理学-终结性考核-国开(SC)-参考资料
- 《预防未成年人犯罪》课件(图文)
- 四川省遂宁市2023年中考地理试卷
- 某村互助老人幸福院建设方案老人互助养老
- 道德与法治四年级上册:一课一练(含答案)
- (高清版)JTG 5612-2020 公路桥梁养护工程预算定额
- JB-T 8881-2020 滚动轴承 渗碳轴承钢零件 热处理技术条件
- 急性中毒的诊断与治疗专家共识
- 加油站安全隐患
- 智能医疗装备技术职业生涯规划
评论
0/150
提交评论