版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本发明实施例公开了一种实体关系数据的2分别将所述键值块中包括的各个键值对,与所述键值块对将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,如果确定当前处理的目标键值块为主键值块,且所述其中,所述主键值块为与所述网页源码数据对应的至少一采用基础解析工具对所述网页源码数据进行数据解析,得到至少一对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合在所述网页源码数据中,获取与所述基础键值对匹配的基础节点扩展html标签匹配的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值将页面位置连续的至少两个键值对合并入同一个3在搜索引擎的点击展示日志中,获取与所述目标网页的统一资如果确定当前处理的目标键值块为主键值块,则根据所在所述网页源码数据中查找文本数据与所述目标分词满足相似度条件的至少一个查如果查找到的查询式节点的xpath同当前处理的目标键值块对应的x如果根据词频计算结果,确定至少两个分词满足词拼接条件,如果根据词频对各分词的排序结果确定出的第一顺位分词与第二顺位分词之间的词在与所述目标网页的统一资源定位符对应的目标站点中的各个网页中如果xpath相同的目标处理主体值的数量超过第一数量阈值,以及根据所述目标处理如果与一个目标备选统计校验模板对应的多个键值块中相同键值块的数量超过第二4分别将所述键值块中包括的各个键值对,与所述键值块对将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,根据当前处理的目标键值块在所述目标网页中的页面位置,在所述如果查找到所述强样式节点,且所述强样式节点的xpath同所述目标键值块对应的分别将所述键值块中包括的各个键值对,与所述键值块对将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,如果确定所述目标键值块中包括的目标键名与所述白名分别将所述键值块中包括的各个键值对,与所述键值块对将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,5获取预存的与所述目标站点对应的至少一个候选模板,并通过所其中,所述目标站点中的候选模板是对所述目标站点的多个网页进行键值对识别后,主体值识别模块,用于在所述网页源码数据中,识别出与数据生成模块,用于分别将所述键值块中包括的各个键值对,与如果确定当前处理的目标键值块为主键值块,且所述其中,所述主键值块为与所述网页源码数据对应的至少一现如权利要求1_12中任一所述的实体关系执行时实现如权利要求1_12中任一所述的实体关6数据十分规范的特点,直接从百科类网站的信息盒或者属性建出一个或多个以类xpath表示的模式,然后将其应用在该站点的其他详细页面中从而实7器实现如本发明实施例中任一所述的实体关程序,该程序被处理器执行时实现如本发明实施例中任一所述的实体关系数据的生成方中包括的至少一个键值块以及各键值块对应的主体值,根据各键值块及其对应的主体值,8网页过滤条件包括但不限于网页所在的站点为黑名单站点、网页的质量评级小于预设阈数据的过滤可以使用Nlpcantiporn等[0042]举一个实际例子,如图1b所示的流程示意图,对获取的目标网页的URL进行预处9度条件的至少一个查询式节点;如果查找到的查询式节点的xpath同当前处理的目标键值也包含了页面主要的内容信息,所以query和主键值块的信息所描述的内容很大几率是比[0067]为了便于理解,可将基于查询式的主体值识别过程可通过具体的流程图进行表各候选节点进行排序后,依次判断各候选节点与当前处理的目标键值块是否有相同的xpath,并且候选节点在网页界面中的位置与目标键值块在网页界面中的位置之间的距离中,目标站点可以是目标网页所属的站点,由于每个网页的URL携带有网页所在站点的信[0071]本实施例的键值块及其主体值中可包括多个S_KV数据,其中,S为键值块的主体种方式按照一定的顺序进行组合后进行综合识别,以提高主体值的识别准确率和成功率。的对网页内KV形式描述的文本数据,或者是解析结果中简单的<table>标签所对应的文本键值对进行识别。及对特定HTML标签中的KV类型文本进[0104]本实施例的技术方案,通过对获取的目标网页对应的网页源码数据进行数据解网页源码数据中的键值块进行识别;S识别单元70用于对网页源码数据中的主体值进行识[0111]该半结构化SPO数据抽取系统的目标是,实现一个从网页中将KV形式表示的信息标网页以二元组形式标识的实体关系(P)和实体属性值(O)识别出对应的实体(S),然后以[0113]图3为本发明实施例三提供的一种实体关系数据的生成装置的结构示意图。参考源码数据,并识别该网页源码数据中包括的至少一个键值块以及各键值块对应的主体值,[0120]基础键值获取子模块,用于采用基础解析工具对所述网页源码数据进行数据解查找xpath与所述基础xpath相同的扩展节点;获取与所述扩展节点对应的文本数据作为[0125]在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础html标[0138]如果查找到所述强样式节点,且所述强样式节点的xpath同所述目标键值块对应获取的所述至少一个查询式与所述网页源码[0147]主体值确定子模块,用于如果查找到的查询式节点的xpath同当前处理的目标键[0151]如果根据词频对各分词的排序结果确定出的第一顺位分词与第二顺位分词之间[0164]分别将所述键值块中包括的各个键值对,与所述键值块实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个[0170]总线18表示几类总线结构中的一种或多种,包括存储器存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可块42通常执行本发明所描述的实施例中的功[0174]计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限[0179]计算机可读的信号介质可以包括在基带中或者作为载波[0181]可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河谷探险活动免责协议书
- 2026年中小学生网络素养及防沉迷教育知识测试
- 2026年期货投资分析考试宏观经济指标模拟练习题
- 2026年养殖户防疫主体责任知识试题
- 2026年中国移动招聘面试后感谢信撰写要点与跟进技巧增加专业认可度
- 2026年捐赠支出税前扣除条件与公益性捐赠票据问答
- 2026年园区知识产权服务业监管知识测试题
- 2026年人工智能在金融行业应用解析20题
- 2026年焊工岗位面试各种焊接方法操作要点题库
- 2026年三力测试备考题库大全
- CSC-300系列发变组保护调试说明
- 全航速减摇鳍
- 劳动纠纷应急预案
- 外科学第二十三章 颅内和椎管内血管性疾病
- YY 0777-2023射频热疗设备
- 沈阳地铁6号线一期工程环评报告
- 河南建设工程项目安全生产综合评定表
- 2020中国大学慕课超星尔雅工程伦理2020章节测验答案
- -NSF-PROD-NF-V5.6-产品规格说明书-V1.1
- 测绘生产困难类别细则及工日定额
- QCDSM管理目标五大要素
评论
0/150
提交评论