版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于结构与内容的网页主题信息提取研究 2006-7-21 主要内容 前言 相关研究工作 系统分层流程图 映射表 网页结构分析 网页内容分析 实验结果 总结 前言 导航区 交互区 主题标签 区 主题文本区 噪音区 相关研究工作网页结构分析 * DOM网页标记树法 * 页面显示实体坐标位置法 * 基于映射表的网页结构内容分析法 提取层 识别层 分割层 解析层 顺序读文件映射表 结构聚类网页区域 解析器 区域特征提取 启发式规则区域识别语义区域 内容量化滤除噪音网页主题信息 网页主题信息提取分层流程图 HTML文档映射表主要是对头部和主体局部中文本条映射,即 头部映射、文本条内容映射、文本条属性视觉
2、、结构、语义映 射。对HTML文档提取关键信息从而生成关于HTML文档的内容属 性映射表,即:f(Di ,in),其中Di为HTML文档 集 ,Ti为对应的每个文档的内容属性映射表。 HTML网页映射表 类型字段名称描述 头 部 Title网页标题 Keywords关键词 Description网页内容描述 文 本 条 属 性 TextAtrributeId属性标识号 TextStructure文本条结构 TextIsAHref有无超级链接 TextCharCount文本条内字符的个数 TextCharFontType文本条内字体的类型 文 本 条 内 容 TextContentId文本条内容
3、标识号与属性标 识号一致 TextContent文本条内容 TextAHref文本条超级链接 HTML网页映射表 网页结构分析结构生成 网页结构生成方法及表示形式 * 基于栈的网页结构生成方法基于栈的网页结构生成方法 * 语义字符串分级表示语义字符串分级表示 如A23123,其中A表示主体中第一个表格, 如果网页中还有其他同层次表格分别记为B,C,D等,2、3分别 为第一个表格的内嵌行标记、单元格标记;1表示第一 个表格A的嵌套表格,2、3分别为嵌套表格行标记、单元格标记。 网页结构分析区域分割 ID网页结构网页内容 8A23123123首页 9A23123123关于我们 10A2312312
4、3荣誉证书 11A23123123产品展示 21C23123123123产品列表 22C23123123123摩托罗拉 23C23123123123诺基 24C23123123123索爱 51C23123123123123产品名称:三星SGH-W219 52C23123123123123产品型号:三星SGH-W219 53C23123123123123产地: 54C23123123123123付款方式:3860元 网页区域特征 根据网页的区域结构布局特征,设页面P=A1,A2An, 其中网页区域Ai=TextItemi1,TextItemi2 TextItemij, TextItemij=Te
5、xtAbttributeMap,TextContentMap, TextAbttributeMap为文本条的结构、视觉和语义属性映射, TextContentMap为文本条内容映射。 在一个网页内,每个区域可以用5个变量来表达其语义特征: CountRatio:区域内有链接与无链接文本条内字符总个数的比值 LinkAvgCount:有链接文本条内字符的平均个数均值 FormalDegree:字符的方差方差 AvgCountDiff:无链接与有链接文本条内字符平均个数的差值 CharMaxCount:区域内文本条字符的最大个数。 启发式规那么 IF CountRatio2 AND LinkAvg
6、Count=6 AND FormalDegree=2 THEN Ai为导航区 ELSE IF CountRatio0.5 OR0.5=CountRatio=15 AND AvgCountDiff=5 THEN Ai为主题文本区 ELSE Ai为主题标签区 启发式规那么设计如下规那么中的数据是通过大量不同 网页观察与实验得到 网页内容分析区域内容量化 区域内容量化表示采用向量空间模型。向量空间模型VSM 是一种较为常用的信息获取模型。对于一个网页各区域内向量权重 计算,采用TF方法,如公式1,其中tfi是第i个关键词在该区域 中的出现频率,n为区域内关键词的个数。假设两个区域U,V,两 者的相似
7、度可用向量之间的夹角来度量,相似度计算如公式2。 Wi= n j j i tf tf 1 1 Sim(V,U)=cos(V,U) = n k uk n k vk n k ukvk WW WW 1 2 1 2 1 2 网页标题与网页的上一级链接文本,具有高度的主题概括性, 将二者组成新的区域S,利用公式1计算S的特征向量的权重。 非主题相关标签过滤:利用公式2分别计算每一个主题标 签区Ai与S的相似度,把高于相似度阈值的主题标签区保存,其余 滤除。 版权区过滤:最后一个区域一般为版权区,通过在此区域查询 “版权所有等文本向量,如果有,并且主题文本区不唯一,那么 将其滤除。 导航区过滤:判断如果区
8、域Ai为导航区,直接将其滤除。 网页内容分析滤除噪音 实验 数据集:为了验证我们方法的有效性,实验时分别从新浪、搜 狐、雅虎、齐鲁热线等大型门户网站中人工挑选了500个有着复杂 结构与分布的网页作为测试数据进行测试 。 评价标准:采用人工判断网页区域分割与识别结果和网页主题 信息提取结果,其中500个网页一共分割出4205个区域,平均每个 网页有8个区域。 网页区域程序处理区域个数人工判别正确个数正确率 导航区1851183199% 主题标签区1261118594% 主题文本区109397289% 网页分割与识别结果 Result of web pages segmentation and i
9、dentification 实验结果 实验结果 网页总数提取正确的网页数提取错误的网页数正确率 5004346687% 网页主题信息提取结果 Result of web pages topical information extraction 实验结果分析 实验结果说明该方法对大多数网页区域分割与识别结果和网页 主题信息提取结果较好。区域分割与识别错误主要是由于网页 HTML文档中不含及其内嵌标记,或者使用了此标记,但 是由于设计者安排的内容有着特殊的作用,在主题文本区域内会有 少量噪音。区域分割与识别结果断定了网页主题信息提取结果的好 坏。 总结 本文结合HTML网页内部特征与外部的结构布局,尝试了采用映 射表这种网页映射模式对网页视图进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市场竞争公平秩序守护承诺书3篇范文
- 护理服务沟通与协调
- 紧急订单交货期限变更函(8篇)范文
- 企业团队协作训练互动方案
- 护理安全实践中的沟通失误案例研究
- 审查流程标准化高效执行手册
- 护理安全的原则
- 护理专业护理案例分析
- 房颤患者的生活管理及护理措施
- 护理伦理困境:挑战与应对策略
- 2026年马克思主义理论题库练习备考题含完整答案详解【夺冠系列】
- GA 1817.1-2026学校反恐怖防范要求第1部分:普通高等学校
- 谷雨时节春季防病知识课件
- 采购工作轮岗制度范本
- 人形机器人与具身智能标准体系2026版解读
- 解聘合同范本简单版
- 吉利工厂过程质量对标标准手册V4
- 2024年4月贵州省高三年级适应性考试历史试卷
- 《电子皮带秤》课件
- 德国发展低碳经济的经验
- 地理专业英语词汇大全
评论
0/150
提交评论