版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
US2018103052A1,2018.0本发明公开了一种财务报表附注的事件抽获取财务报告PDF文档,经数据预处理后得到财务报表附注文本的TXT文档;识别和标注财务报表附注文本的TXT文档的标题及其层级和段落,获得标题集和段落集;基于Transformer编码器识别和标注财务报表附注中财务事件的事件论所包含的词的向量表示和标题及其层级的向量标题及其层级和记忆向量的特征,基于Transformer编码器和线性二分类器将事件论元件论元信息识别财务报表附注文本中的事件类2将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量矩阵,将拼接后的向量矩阵输入Transformer编码器,获得融合标题及标题层次和段落语义的向构建用于记录事件论元填充过程的记忆向量,将事件论填充到事件表的当前事件角色中,重复迭代直至当前事件类别的所有事件角色完成填充,start_line=[**财务报表附注|[公司|本公司|企业|集团|本集团]基本情况]和end_遍历数据预处理后的TXT文档,令当前行的字符串格式为line,当re.search(start_获取财务报表附注文本的TXT文档,获取知识库中识别标题的正则表达式和标题的标3遍历财务报表附注文本的TXT文档,基于二元统计语言模型判断增加标记符号的行是遍历财务报表附注文本的TXT文档,将增加标记符号的行进行标号样式的整理和标号满足第一规则至第五规则的行初步识别为标题,将第获取当前行的标号样式和序号,将获得的标号样式与字典TP将层次栈中标题的编码和序号依次输出作为键的取值,将标题的内容作为4基于Transformer编码器学习段落中的语义,具体采用Transform根据CRF模型得到每个样本输出为对应标签的条件概率值,输出向量矩阵对应的标注i个事件论元融入标题及其层级信息后的向量表示;将Transformer编码器的输出层连接到事件分类器中进行事件类别的分类,获得当前用交叉熵表示真实事件类型的标签与softmax分类器输出预测结果之间的信息差,定所述篇章结构识别单元用于基于知识库识别和标注财务报表附注文本的TXT文档的标所述事件类别分类单元用于将事件论元所包含的词的向量表示和标题及其层级的向5所述事件表填充单元用于构建用于记录事件论元填充过程的记忆向Transformer编码器的输出层连接到线性二分类器中,获得事件论元填充当前事件角色的现如权利要求1_8任一项所述财务报表附注6财务报表附注之间隐含的关联关系,对财务报表附注中披露的财务相关事件做进一步分7于Transformer编码器识别和标注财务报表附注中财务事件的事件论元,利用篇章级语义[0013]基于知识库识别和标注财务报表附注文本的TXT文档的标题及其层级和段落,获[0015]将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量[0019]start_line=[**财务报表附注|[公司|本公司|企业|集团|本集团]基本情况]和[0022]遍历数据预处理后的TXT文档,令当前行的字符串格式为line,当re.search8[0024]获取财务报表附注文本的TXT文档,获取知识库中识别标题的正则表达式和标题[0025]遍历财务报表附注文本的TXT文档,基于二元统计语言模型判断增加标记符号的[0026]遍历财务报表附注文本的TXT文档,将增加标记符号的行进行标号样式的整理和[0027]将TXT文档中标题与标题之间的文本按段落整理成一行,并在段落前用数字编码[0028]作为优选的技术方案,获取知识库中识别标题的正则表达式和标题的标号样式当re.search(L1,line)的返回值不为None时以及re.search(L2,line)的返回值为None时,9[0043]对当前段落进行分句和分词,句子与句子之间加入SEP标签,获得分词列表Pi=[0045]根据CRF模型得到每个样本输出为对应标签的条件概率值,输出向量矩阵对应的[0047]将Transformer编码器的输出层连接到事件分类器中进行事件类别的分类,获得[0048]用交叉熵表示真实事件类型的标签与softmax分类器输出预测结果之间的信息[0050]所述文档获取单元用于获取数据库文件中的财务报告的PDF文档,经过数据预处理,将PDF文档转成TXT文档,结合知识库中的正则表达式匹配财务报表附注文本的TXT文[0051]所述篇章结构识别单元用于基于知识库识别和标注财务报表附注文本的TXT文档[0052]所述事件论元识别单元用于将段落集进行分句、分词获得分词列表,基于Transformer编码器学习段落中的语义,将Transformer编码器输出层的向量矩阵输入CRF[0053]所述事件类别分类单元用于将事件论元所包含的词的向量表示和标题及其层级向量矩阵所有的事件类别的概率,选取最大概率的事件类别作为当前向量矩阵的事件类[0057](1)本发明采用正则表达式和二元语言模型筛选财务报表附注文本中的标题,利[0058](2)本发明采用Doc2evc模型将标题及其层级的上下文语义特征信息转化为向量[0069]S11:利用python工具中的pdfplumber库从数据库文件中获取财务报告的PDF文[0071](1)删除页眉:pdfplumber库中page模块的extract_text函[0072](2)删除页码:pdfplumber库中page模块的extract_text函模块的extract_tables函数从PDF文档中获取所有表中提取的文本,将表中的值转化为字[0074](4)删除特殊符号:建立列表LS,储存中文、数字、英文和中英文标点符号的财务报表附注|[公司|本公司|企业|集团|本集团]基本情况]和end_line=[**备查文None时,即在line中匹配到start__line中的表达式,开始并继续保留当前行,直到注的披露特征辅助财务报表附注的事件抽取系统 的返回值不为None时以及re.search(L2令W出现的概率为P(W),可以根据条件概率公式将P(W)转换成所有词出现的条件概率的乘[0087]在这样的假设前提下P(W)的计算只需要统计单个词和前后两个词同时出现的概[0090]本发明模型库中已以列表的形式储存了33872个词的词频以及两两之间组合出现词典,使用了基于Python的jieba中文分词组件的精准模式对当前行W进行分词,形成基础上将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量矩0.15,0,_0.3,0.31,0.14i表示第i个词的字符串。[0107](2)基于29,280篇上市公司的财务报表附注标题文档,借助python工具中的vector_size=15,sample=1e_3,workers=4,hs=1,epochs=100),其中min_count为需的方法(当hs=1时,为HierarchicalSoftmax;当hs=0时,为NegativesamB_Pledger表示事件角色Pledger在句子中的事件论元的开始位置,I_Pledger表示事件角[0111](3)事件论元识别模型是采用Transformer编码器中自注意力机制来捕获句子中由6个编码块构成,输入数据通过自注意力机制模块后得到一个加权之后的特征向量Q[0112](4)将Z输入前馈神经网络层(FFN)输出压缩空间后的特征向量FFN(Z)。FFN有两b1)W2+b2。最后一个前馈神经网络层的输出即向量矩阵将其中tklkl[0115]Pi_L=[o,B_SigningTime,I_SigningTime,I_SigningTime,o…,B_Terms,I_Terms,I_Terms,I_Terms,o][0118]S41:将融合事件论元和标题及其层级的向量矩阵PEi输入到Transformer编码器[0119]S42:将Transformer编码器的输出层连接到事件分类器[0120]max(softmax(WE+b))=max([0,入softmax分类器中,计算其中weRd,和beR4,是可学习的参数矩阵,这里的k是指事件类别标签的个数,预定义了32个事件类别,因此k=32。而中SE为事件类型的总数量,pic为中类型为c的[0126]重大合同:["TransactionSubject","TransactionObject","SigningTime","Terms","ContractAmount","State","Project事件角色,将事件角色的标签向量化表示,与当前段落所有的事件论元的向量化表示E拼标题及其层级和记忆向量信息的向量矩阵将输入事n-pi表示失函数为随机[0133]本实施例将Transformer编码器的输出层连接到CRF模型中构建了事件论元识别义信息,提高了财务报表附注事件分类的准确性,并通过Transformer编码器学习事件论码器和线性二分类器将事件表填充问题转化为事件论元是否匹配目标事件角色的二分类[0137]篇章结构识别单元在文档获取单元的基础上,通过识别和标注财务报表附注TXT[0138]事件论元识别单元通过事件论元识别的学习任务将段落的语义特征表示到向量中。先将篇章结构识别单元输出的段落集进行分句和分词,获得分词列表,然后利用Transformer编码器学习段落中的语义,再将Transformer编码器输出层的向量矩阵输入题及其层级的向量表示拼接为一个向量矩阵,为事件类别分类和事件表填充提供数据基[0140
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026湖南湘江研究院有限责任公司招聘7人备考题库附参考答案详解(a卷)
- 雨课堂学堂在线学堂云《食品工程原理(合肥工业)》单元测试考核答案
- 某家具厂生产流程控制规范
- 4.3 环境与健康 课件-高一上学期体育与健康人教版必修全一册
- 单用途预付卡服务合同
- 2026重庆市永川区永昌街道卧龙凼社区招聘全日制公益性岗位1人备考题库及参考答案详解(培优a卷)
- 2026陕西省荣复军人第一医院招聘备考题库带答案详解(培优a卷)
- 2026青海海西州乌兰县人民法院临聘财务辅助岗招聘1人备考题库及答案详解【名校卷】
- 2026湖南永州市江永县城乡农贸市场服务有限公司招聘5人备考题库(第二次)及参考答案详解ab卷
- 2026济南能源集团春季校园招聘11人备考题库及一套答案详解
- 渠道管理成员激励
- 起重机械安装(含修理)程序文件2025版
- 水上抛石应急预案
- 中国2型糖尿病防治指南(2024年版)解读
- 老年人口腔护理要点
- 人本主义心理学理论
- 血库实习生理论考核试题及答案
- 2025年广西度三类人员(持b证人员)继续教育网络学习考试题目及答案
- 制造工艺设计规范
- 兄弟姐妹情谊深课件
- 2025年高考化学真题分类汇编专题13 工艺流程综合题(原卷版)
评论
0/150
提交评论