基于扩展锚文本的网页特征识别.pdf

上传人：a*** IP属地：河南上传时间：2020-01-21 格式：PDF 页数：4 大小：281.63KB 积分：12 举报 版权申诉

全文预览已结束

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于扩展锚文本的网页特征识别严海兵苏州科技学院图书馆江苏苏州215011 摘要基于源网页的信息比目标网页的更具有区别性提出通过提取源网页扩展的锚文本进行目标网页特征识别分析了不同位置的扩展锚文本获取其XPath表达式用于提取网页特征并通过实验分析其性能关键词网页特征锚文本 XPath 中图分类号 TP391文献标识码 A文章编号 1672 0687 2009 02 0051 04 网页特征识别是研究Internet信息搜索和网页自动分类的关键环节由于网页表示与普通文本有所不同因此如何选择合适的特征对网页进行描述成为网页识别中一个首要解决的问题通常网页可以从两个层面进行描述 1 采用超文本语言 HTML 编写的半结构的文本文件 2 通过超链 Hyperlink 连接起来的Internet中的一个节点传统的网页特征识别研究着眼于 1 的描述它仅凭借网页自身的结构和内容进行分析忽略了网页之间相互的链接信息例如孙承杰等学者把自然语言处理技术运用到网页文档中利用网页中的HTML标记的结构和网页自身的内容统计信息从网页正文内容中抽取网页特征信息 1 殷贤亮等学者提出利用HTML标记的结构对网页的内容信息进行分块把网页块表示成特征向量根据有序标记集识别网页特征信息 2 近年随着对PageRank HITS等超链分析算法的深入研究一些学者相继提出了基于超链分析的网页分类方法它认为网页的链接可以传递网页的信任值而信任值的大小可以表示网页和链接源网页分类特征的相似度这一方法考虑网页 2 的描述而忽视了链接结构信息和网页内容信息不能等同这一事实例如刘菁菁等学者提出利用网页间相互链接关系扩展链接将链接源网页所含有的类别信息传播给目标网页 3 叶卫国等学者提出基于Hyperlink聚类的分类算法不需要分析Web文档内容只根据Web图来聚类 4 5 上述方法的不足之处在于多数网站的网页一方面与自己相关的网页链接另一方面把与自己最相近的竞争对手的网页排除在链接之外 1相关概念在逻辑上可以把Internet看作是位于物理网络上的一个有向图网页表示节点节点间的连接通过超链构成网页A指向网页B的链接称为A的链出链接简称链接 B的链入链接称A为源网页 B为目标网页与源网页链接相对应的描述文字称为锚文本 anchor text 例如在源网页中有苏州科技学院图书馆这样的一条链接其中苏州科技学院图书馆就是链接地址http 的锚文本链接地址所对应的网页为目标网页作为链接的描述文字锚文本一般不是由目标网页作者编写的通常是源网页作者对目标网页内容描述和评价据统计有近50 的网页缺少对本身网页内容和关键字描述最为权威的和标签因此在通常情况源网页的信息甚至比目标网页的更具有区别性结合链接锚文本和目标网页本身内容描述目标网页比其本身更加有力 6 收稿日期 2008 11 14 作者简介严海兵 1974 男安徽安庆人工程师硕士研究方向 XML应用技术知识发现第26卷第2期苏州科技学院学报自然科学版 Vol 26 No 2 2009年6月Journal of Suzhou University of Science and Technology Natural Science Jun 2009 2009年苏州科技学院学报自然科学版 2扩展锚文本源网页的锚文本对于描述目标网页内容和性质意义重大锚文本形式简短内容概括性强具有很强的类别归属信息其内容比目标网页本身更能精确地概述网页的主题信息但在实际应用中单纯利用锚文本进行特征识别存在不足客观上主要有两个因素 1 锚文本的描述可能不具备提取具有检索和分类意义的特征识别词例如红楼梦通过锚文本红楼梦不能得到归属于古典小说类的特征 2 锚文本的描述可能没有实质意义例如下一页锚文本下一页没有实质意义因此为了获得目标网页具有分类意义的特征识别词需要扩展锚文本取词范围一种做法是扩大范围至整个源网页取源网页的特征词集赋予目标网页这种做法的不恰当之处和基于超链分析的网页分类方法一样用整个源网页代替局部锚文本的特征忽略了局部的相对性 Internet中大量存在1个网页是多个网页的源网页而这多个网页可能是分属不同类别的情况例如流行音乐和古典音乐的连接可能同时来自1 个流行音乐网站既然不能用整个源网页的特征词集赋予目标网页可以尝试锚文本扩展至链接周围的文本如图1所示源网页的特征可以来自锚文本的左中右的文字描述目标网页的特征可以来自源网页的扩展锚文本结合网页的HTML标签分析发现下列锚文本及扩展部分包含较多的网页特征描述链接自身的描述即锚文本它是在源网页上提取特征词首选的位置取词的文本范围在HTML标签和之间链接所在段落即锚文本所在的段落取词的文本范围在链接所在HTML标签和之间链接所在标题即锚文本所在的标题取词的文本范围为HTML标签六对标题标签所限定链接列表所在标题当链接是列表中的某一项时链接列表标题的文本就是重要的锚文本扩展取词的文本范围为HTML标签所限定 3网页特征提取文档对象模型 Document Object Model 是W3C制定创建处理XML与HTML文档结构及内容的标准接口规范 DOM 模型是树状模型不仅描述了文档的结构还定义了结点对象的行为利用对象的方法和属性可以方便地访问修改添加和删除DOM树的结点和内容由于XML DOM中可以使用强大的XPath查找任意节点比HTML DOM功能强大因此通过JTidy等工具解析HTML文档转化为XML DOM树图2为 HTML文档呈现为带有元素属性和文本的XML DOM树 XPath是在XML DOM树中查找信息的语言是W3C推荐标准它使用路径标记法来指定和匹配DOM 树中的节点或者节点集的各个部分该标记法与文件系统和URL中使用类似例如 x y name a 匹配所有父节点为x的y节点其属性称为name 属性值为a 为了提取网页特征可以转换源网页为XML DOM树利用XPath查找链接为目标网页的节点即匹配图1来自3个不同位置的锚文本扩展图2HTML文档呈现为带有元素属性和文本的XML DOM树结构 52 第2期 href Target Url 提取包含目标网页特征描述的锚文本扩展如表1所示表1XPath表示的锚文本扩展在提取的过程中一些源网页不能提取包含适合的特征文本或者不能正确的转换为XML DOM树但是这并不会影响上述提取方式的使用因为一个目标网页通常有多个源网页而每源网页都有同样的特征提取价值还有一个不可忽略的特征提取源可以作为补充即目标网页的自身和标签 4实验及结论实验数据来源于Google网页分类目录它来自网景公司所主持的一项大型公共网页目录由全世界各地的义务编辑人员来审核挑选网页并依照网页的性质及内容来分门别类目前收录了来自 150万个以上网站的网页实验分两组进行一组取一级分类目录休闲和艺术下的52个二级子类目每一个子类目任意取10 个网页确定这520个网页为实验1中的目标网页另一组取一级分类目录地区和科学下的26个二级子类目每一个子类目任意取10个网页确定这260个网页为实验2中的目标网页利用Google搜索引擎的链接搜索例如link 目标网页的源网页取搜索结果的前10条记录作为目标网页特征提取源即依据网页特征进行分类的训练集针对上述训练集利用XPath表示的扩展锚文本提取网页特征用于分类采用普遍接受的评估指标来评价上述方法的性能即查准率和查全率其中查准率分类的正确文档数实际分类的文档数查全率分类的正确文档数该类应有文档数在实验中通过程序抽取网页特征描述使用手工方式比对Google的二级分类目录进行统计实验结果见表2 表3 表2实验1结果 0 12 3 45 12 6 表3实验2结果严海兵基于扩展锚文本的网页特征识别53 2009年苏州科技学院学报自然科学版上述实验显示基于锚文本扩展的网页特征识别在实验1中具有较高的查准率但查全率不理想主要原因是扩展的锚文本中通常提取的是目标网页主题描述而网页主题特征和分类的类别有一定的差距例如目标网页中国兰花交易网通过源网页可提取的主题描述是兰花兰花交易等但是它所对应的Google分类的类别是园艺实验2中的结果不理想有相同的原因类别主要是依据地区和学科而定而在扩展的锚文本中可以提取的相关信息较少上述不足不是方法本身存在问题而是实验中Google分类类别的静态性如何提高网页特征归类的查准率查全率以及如何动态产生分类的类别需要进一步研究 5结语随着对网页信息自动化高效率处理要求的增加网页特征识别会越来越多地受到人们的重视笔者研究试图在网页定义的两个层面描述基础上通过提取源网页的扩展锚文本揭示目标网页的描述特征实验表明其对于识别网页主题特征性能较高而依据主题特征如何归类需要进一步研究参考文献 1 孙承杰关毅基于统计的网页正文信息抽取方法的研究 J 中国信息学报 2004 18 5 81 91 2 殷贤亮李猛基于分块的网页主题信息自动提取算法 J 华中科技大学学报自然科学版 2007 35 7 39 41 3 刘菁菁林鸿飞基于结构和链接扩展的中文网页分类研究 J 微电子学与计算机 2007 24 9 192 195 4 叶卫国卢正鼎王天江基于Hyperlink聚类的网页分类研究 J 华中科技大学学报自然科学版 2004 34 12 5 7 5 孙建涛沈抖陆玉昌等网页分类技术 J 清华大学学报自然科学版 2004 44 1 65 68 6 陆一鸣胡健一种基于源网页质量的锚文本相似度计算方法 LAAT J 情报学报 2005 24 5 548 554 Identification of Webpage Features Based on the Extension of Anchor Texts YAN Hai bing Library SUST Suzhou 215011 China Abstract The information of source webpage is more distinctive than that of target one This paper is to identify the features of the target webpage by extracting the extension of the anchor text from the source webpage De tailed analyses on the extension

人人文库> 全部分类> 应用文书 > 合同范本

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于扩展锚文本的网页特征识别.pdf

文档简介

温馨提示

最新文档

评论

基于扩展锚文本的网页特征识别.pdf

文档简介

温馨提示

最新文档

评论

相关文档