基于扩展锚文本的网页特征识别.pdf_第1页
基于扩展锚文本的网页特征识别.pdf_第2页
基于扩展锚文本的网页特征识别.pdf_第3页
基于扩展锚文本的网页特征识别.pdf_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于扩展锚文本的网页特征识别 严海兵 苏州科技学院 图书馆 江苏 苏州215011 摘要 基于源网页的信息比目标网页的更具有区别性 提出通过提取源网页扩展的锚文本 进行目标网页特征识 别 分析了不同位置的扩展锚文本 获取其XPath表达式 用于提取网页特征 并通过实验分析其性能 关键词 网页特征 锚文本 XPath 中图分类号 TP391文献标识码 A文章编号 1672 0687 2009 02 0051 04 网页特征识别是研究Internet信息搜索和网页自动分类的关键环节 由于网页表示与普通文本有所不 同 因此 如何选择合适的特征对网页进行描述 成为网页识别中一个首要解决的问题 通常网页可以从两个层面进行描述 1 采用超文本语言 HTML 编写的 半结构的文本文件 2 通过 超链 Hyperlink 连接起来的Internet中的一个节点 传统的网页特征识别研究着眼于 1 的描述 它仅凭借 网页自身的结构和内容进行分析 忽略了网页之间相互的链接信息 例如 孙承杰等学者把自然语言处理技 术运用到网页文档中 利用网页中的HTML标记的结构和网页自身的内容统计信息 从网页正文内容中抽 取网页特征信息 1 殷贤亮等学者提出利用HTML标记的结构对网页的内容信息进行分块 把网页块表示成 特征向量 根据有序标记集识别网页特征信息 2 近年随着对PageRank HITS等超链分析算法的深入研究 一些学者相继提出了基于超链分析的网页分 类方法 它认为网页的链接可以传递网页的信任值 而信任值的大小可以表示网页和链接源网页分类特征的 相似度 这一方法考虑网页 2 的描述 而忽视了链接结构信息和网页内容信息不能等同这一事实 例如 刘 菁菁等学者提出利用网页间相互链接关系 扩展链接 将链接源网页所含有的类别信息传播给目标网页 3 叶卫国等学者提出基于Hyperlink聚类的分类算法 不需要分析Web文档内容 只根据Web图来聚类 4 5 上 述方法的不足之处在于多数网站的网页一方面与自己相关的网页链接 另一方面把与自己最相近的竞争对 手的网页排除在链接之外 1相关概念 在逻辑上 可以把Internet看作是位于物理网络上的一个有向图 网页表示节点 节点间的连接通过超 链构成 网页A指向网页B的链接称为A的链出链接 简称链接 B的链入链接 称A为源网页 B为目标 网页 与源网页链接相对应的描述文字称为锚文本 anchor text 例如 在源网页中有 苏州科技学院图书馆 这样的一条链接 其中 苏州科技学院图书馆 就是链接地址http 的锚文本 链接地址所对应的网页为目标网页 作为链接的描述文字 锚文本一般不是由 目标网页作者编写的 通常是源网页作者对目标网页内容描述和评价 据统计有近50 的网页缺少对本身 网页内容和关键字描述最为权威的和标签 因此 在通常情况源网页的信息甚至比目标网页的更具有区别性 结 合链接锚文本和目标网页本身内容描述目标网页比其本身更加有力 6 收稿日期 2008 11 14 作者简介 严海兵 1974 男 安徽安庆人 工程师 硕士 研究方向 XML应用技术 知识发现 第26卷第2期苏 州 科 技 学 院 学 报 自 然 科 学 版 Vol 26 No 2 2009年6月Journal of Suzhou University of Science and Technology Natural Science Jun 2009 2009年苏州科技学院学报 自然科学版 2扩展锚文本 源网页的锚文本对于描述目标网页内容和性质意义重大 锚文本形式简短 内容概括性强 具有很强的 类别归属信息 其内容比目标网页本身更能精确地概述网页的主题信息 但在实际应用中 单纯利用锚文本 进行特征识别存在不足 客观上主要有两个因素 1 锚文本的描述可能不具备提取具有检索和分类意义的特征识别词 例如 红楼梦 通过锚文本 红楼梦 不能得到归属于 古典小说 类的特征 2 锚文本的描述可能没有实质意义 例如 下一页 锚文本 下一页 没有 实质意义 因此 为了获得目标网页具有分类意义的特征识别词 需要扩展锚文本取词范围 一种做法是扩大范围 至整个源网页 取源网页的特征词集赋予目标网页 这种做法的不恰当之处和基于超链分析的网页分类方 法一样 用整个源网页代替局部锚文本的特征忽略了局部的相对性 Internet中大量存在1个网页是多个网 页的源网页 而这多个网页可能是分属不同类别的情况 例如 流行音乐和古典音乐的连接可能同时来自1 个流行音乐网站 既然不能用整个源网页的特征词集赋予目标网页 可以尝 试锚文本扩展至链接周围的文本 如图1所示 源网页的特征可 以来自锚文本的左 中 右的文字描述 目标网页的特征可以来自源网页的扩展锚文本 结合网页 的HTML标签 分析发现下列锚文本及扩展部分包含较多的网 页特征描述 链接自身的描述 即锚文本 它是在源网页上提取特征词首 选的位置 取词的文本范围在HTML标签和之 间 链接所在段落 即锚文本所在的段落 取词的文本范围在链接所在HTML标签和之间 链接所在标题 即锚文本所在的标题 取词的文本范围为HTML标签 六对 标题标签所限定 链接列表所在标题 当链接是列表中的某一项时 链接列表标题的文本就是重要的锚文本扩展 取词的 文本范围为HTML标签 所限定 3网页特征提取 文档对象模型 Document Object Model 是W3C制定创 建 处理XML与HTML文档结构及内容的标准接口规范 DOM 模型是树状模型 不仅描述了文档的结构 还定义了结点对象 的行为 利用对象的方法和属性 可以方便地访问 修改 添加 和删除DOM树的结点和内容 由于XML DOM中可以使用强 大的XPath查找任意节点 比HTML DOM功能强大 因此 通 过JTidy等工具解析HTML文档转化为XML DOM树 图2为 HTML文档呈现为带有元素 属性和文本的XML DOM树 XPath是在XML DOM树中查找信息的语言 是W3C推荐标准 它使用路径标记法来指定和匹配DOM 树中的节点或者节点集的各个部分 该标记法与文件系统和URL中使用类似 例如 x y name a 匹配所 有父节点为x的y节点 其属性称为name 属性值为a 为了提取网页特征 可以转换源网页为XML DOM树 利用XPath查找链接为目标网页的节点 即匹配 图1来自3个不同位置的锚文本扩展 图2HTML文档呈现为带有元素 属性和文本的XML DOM树结构 52 第2期 href Target Url 提取包含目标网页特征描述的锚文本扩展 如表1所示 表1XPath表示的锚文本扩展 在提取的过程中 一些源网页不能提取包含适合的特征文本 或者不能正确的转换为XML DOM树 但 是这并不会影响上述提取方式的使用 因为一个目标网页通常有多个源网页 而每源网页都有同样的特征提 取价值 还有一个不可忽略的特征提取源可以作为补充 即目标网页的自身 和标签 4实验及结论 实验数据来源于Google网页分类目录 它来自网景公司所主持的一项大型公共网页目 录 由全世界各地的义务编辑人员来审核挑选网页 并依照网页的性质及内容来分门别类 目前收录了来自 150万个以上网站的网页 实验分两组进行 一组取一级分类目录 休闲 和 艺术 下的52个二级子类目 每一个子类目任意取10 个网页 确定这520个网页为实验1中的目标网页 另一组取一级分类目录 地区 和 科学 下的26个二级 子类目 每一个子类目任意取10个网页 确定这260个网页为实验2中的目标网页 利用Google搜索引擎 的链接搜索 例如link 目标网页的源网页 取搜索结果的前10条记录 作为目标网页特征 提取源 即依据网页特征进行分类的训练集 针对上述训练集 利用XPath表示的扩展锚文本 提取网页特征 用于分类 采用普遍接受的评估指标来评价上述方法的性能 即查准率和查全率 其中查准率 分类的正确 文档数 实际分类的文档数 查全率 分类的正确文档数 该类应有文档数 在实验中 通过程序抽取 网页特征描述 使用手工方式比对Google的二级分类目录进行统计 实验结果见表2 表3 表2实验1结果 0 12 3 45 12 6 表3实验2结果 严海兵 基于扩展锚文本的网页特征识别53 2009年苏州科技学院学报 自然科学版 上述实验显示基于锚文本扩展的网页特征识别在实验1中具有较高的查准率 但查全率不理想 主要原 因是扩展的锚文本中通常提取的是目标网页主题描述 而网页主题特征和分类的类别有一定的差距 例如目 标网页中国兰花交易网 通过源网页可提取的主题描述是兰花 兰花交易等 但是它 所对应的Google分类的类别是园艺 实验2中的结果不理想 有相同的原因 类别主要是依据地区和学科而 定 而在扩展的锚文本中可以提取的相关信息较少 上述不足不是方法本身存在问题 而是实验中Google分 类类别的静态性 如何提高网页特征归类的查准率 查全率以及如何动态产生分类的类别需要进一步研究 5结语 随着对网页信息自动化 高效率处理要求的增加 网页特征识别会越来越多地受到人们的重视 笔者研 究试图在网页定义的两个层面描述基础上 通过提取源网页的扩展锚文本 揭示目标网页的描述特征 实验 表明其对于识别网页主题特征性能较高 而依据主题特征如何归类需要进一步研究 参考文献 1 孙承杰 关毅 基于统计的网页正文信息抽取方法的研究 J 中国信息学报 2004 18 5 81 91 2 殷贤亮 李猛 基于分块的网页主题信息自动提取算法 J 华中科技大学学报 自然科学版 2007 35 7 39 41 3 刘菁菁 林鸿飞 基于结构和链接扩展的中文网页分类研究 J 微电子学与计算机 2007 24 9 192 195 4 叶卫国 卢正鼎 王天江 基于Hyperlink聚类的网页分类研究 J 华中科技大学学报 自然科学版 2004 34 12 5 7 5 孙建涛 沈抖 陆玉昌 等 网页分类技术 J 清华大学学报 自然科学版 2004 44 1 65 68 6 陆一鸣 胡健 一种基于源网页质量的锚文本相似度计算方法 LAAT J 情报学报 2005 24 5 548 554 Identification of Webpage Features Based on the Extension of Anchor Texts YAN Hai bing Library SUST Suzhou 215011 China Abstract The information of source webpage is more distinctive than that of target one This paper is to identify the features of the target webpage by extracting the extension of the anchor text from the source webpage De tailed analyses on the extension

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论