




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第12期郑德权等:Blog网页分类与识别技术研究161Blog网页分类与识别技术研究郑德权,张迪,赵铁军,于浩(哈尔滨工业大学 语言语音教育部-微软重点实验室,黑龙江 哈尔滨 150001)摘 要:为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。关键词:Blog网页识别;相似度计算;网页分类中图分类号:TP391 文献标识码:A 文章编号:1000-436X(2007)12-0156-05Study on the classification and identification of Blog pagesZHENG De-quan, ZHANG Di, ZHAO Tie-jun, YU Hao(MOE-MS Key Laboratory of Natural Language Processing and Speech, Harbin Institute of Technology, Harbin 150001, China)Abstract: In order to find an automatic way to recognize the Blog pages from other Web pages for the content extraction of the Blog pages and other researches. According to the characteristic of Blog pages, some basic concepts and ideas in the area of Blog was described, and a novel method on the identification of Blog pages was proposed based on the structure of the Blog pages and keywords. The experimental results showe that a high result can be achieved in precision.Key words: Blog pages identification; similarity computing; Blog pages classification1 引言Blog也称为Weblog(指人时对应于Blogger),中文译名为“博客”,特指一种区别于其他网页的网络个人出版形式。近几年来,随着博客的迅猛发展,其相关研究也渐成热点。为了更方便地研究Blog,需要大规模地自动获取网络上的Blog网页,所以急切需要一种将Blog网页区别于其他网页的方法。收稿日期:2007-09-25;修回日期:2007-12-03基金项目:国家自然科学基金资助项目(60736044);国家高技术研究发展计划(“863”计划)资助项目(2006AA01Z150,2004AA11701008)Foundation Items: The National Natural Science Foundation of China (60736044); The National High Technology Research and Development Program of China (863 Program) (2006AA01Z150, 2004AA11701008)在本文的研究中,按照Blog网页的意义,将其处理方式分成粗分类和细分类2种。粗分类就是识别出广义的Blog网页,即格式意义级别上的分类。广义的Blog网页是指一切与个人Blog日志相关的网页,包含Blog网站主页、导航信息、广告、Blog登录信息等,一些广义的Blog网页对于研究工作没有太大的意义,需要将其过滤掉,这是本文所谓的粗略分类过程。细分类识别出狭义的Blog网页,是人们一般意义上指的Blog网页,即个人日志网页,是内容意义级别上的分类。分类任务的基本目标是分离出内容意义级别上的Blog网页。其中日志网页又可以两种形式展示:单篇日志格式和多篇排列日志格式。单篇日志格式形式中一个Blog网页仅含有一篇日志,多篇排列日志格式中一个Blog网页以某种格式排列出作者的多篇日志,这种排列方式多为日期的倒序。在本文的研究中,将含有单篇日志、评论内容、链接信息、文章分类等特征的Blog网页称为标准的Blog网页,并将其作为研究的重点。近几年,国内外研究人员侧重于研究普通Web网页的分类,提出了一些效果较好的网页分类方法,但是在网页识别方面研究却较少。中科大的朱明等对网页识别中的特征选择问题进行了研究,提出了一种综合文字方法1。这种方法针对Web网页Head部分、超链接以及非超链接的文字内容,作为3种不同的描述特征,共同构成了Web网页的描述特征空间。该算法是基于网页文本内容特征的统计分类,对于网页中的结构标识特征考虑较少或者只考虑了小部分固定标识。针对Blog网页,其格式具有很强的一般特征,本文考虑结合Blog网页结构特征和Blog内容特征信息来识别。图1给出了Blog网页识别与分类的流程示意图。图1 Blog网页识别流程图2 广义Blog网页识别广义Blog网页的识别即是完成Blog网页粗分类的过程,即实现格式意义级别上的Blog网页识别,并有目的地将一些网页过滤掉。不失一般性,广义Blog网页大都有下面几个主要特征: 导航信息; 链接信息; 头部信息。经过人工统计发现,广义Blog网页与其他Web网页能够在链接信息和头部信息中得到较好区分。因此,本文采用链接信息和头部关键字特征识别广义Blog网页,并得到了较好的效果。算法1给出了具体实现过程。算法1Step1 读取指定网页内容Step2 if ( 在指定网页的所有链接中指向Blog网页的链接比例 ) Then 判定该网页属于BlogStep3 else If ( 在指定网页的所有链接中指向Blog网页的链接比例 a1,则认为该网页为首页类网页。按照统计规律,本文尝试利用链接稀疏度过滤的方法,此方法采用了另外一个特征,计算超链接出现频率与网页正文长度之比,其计算如式(6)所示。(6)其中,f(d)是超链接在文本D中出现的频率,text(d)表示网页全部正文长度,m2为设定系数,设定阈值为a2,若F2(d)a2,则认为该网页为首页类网页。本文将上述2种特征相结合,其计算如式(7)所示。(7)其中,f(d)、link(d)、text(d) 如前述定义,m1,2为设定系数,设定阈值为a1,2,若F1,2(d)a1,2,则认为该网页为首页类网页。本文分别对以上3种方法进行了测试,并进行了结果分析。由于在文献7中利用式(5)进行的实验并未给出测试语料以及测试数据,以下测试数据及实验结果均是基于本文得到的语料得到。4 实验结果及分析本文选取大型主流Blog网站首页30个,作为数据集D1以及在这30网站上的120篇Blog标准网页作为数据集D2。然后扩大数据集选取网站的对象,得到含有众多小型Blog网站和个人Blog网站的210篇首页作为数据集D3,在数据集D3上选取Blog标准网页530篇作为数据集D4,且本文选取的Blog标准网页平均来自对应的数据集。定义识别正确率P=正确识别出的文档数/总文档数。Pi表示在数据集Di上的识别正确率。在本实验中分别设定系数m1=50、m2=1 000、m1,2=5 000。本文分别利用式(5)、式(6)以及式(7)所述的方法在数据集上测试,调整阈值,分别得到表2表4的结果。其中阈值a1、a2、a1,2为经验值,通过实验获得。表2利用式(5)得到的实验结果阈值a1P1P2P3P43.596.6%75.6%87.1%60.0%4.093.1%85.7%76.2%64.7%4.586.2%90.8%67.6%68.9%5.065.6%93.8%53.3%72.6%表3利用式(6)得到的实验结果阈值a2P1P2P3P42.593.1%62.2%93.3%50.8%3.089.7%73.9%89.5%60.9%3.586.2%83.2%82.4%70.5%4.075.9%91.6%73.3%77.4%表4利用式(7)得到的实验结果阈值a1,2P1P2P3P42.096.6%72.3%72.4%77.7%2.593.1%81.5%55.2%81.1%3.089.6%87.4%41.9%84.3%3.589.6%94.1%30.9%86.4%4.079.3%96.6%22.9%90.2%比较上面3个表,在数据集D1 、D2上,式(7)得到结果明显好于式(5)和(6)得到结果。在式(7)方法中,阈值a1,2为3.5时,能有效地将2个数据集分离开,但当数据集中加入小型Blog和个人Blog网站时,3种方法的正确率都呈下降趋势。此时式(6)所描述方法效果优于其他两种方法。分析认为,在大型Blog托管网站规律性很强情况下,利用式(7)方法,由于同时放大两种特征的分离功能给予了较好的分类,有效地将Blog标准页面和Blog首页分离开。而对于没有规律的小型Blog网站和个人建站的Blog来说,分类效果均不很明显。5 结束语本文对Blog网页作了较为深入的阐述和分析,实现了一种能够很好识别广义Blog网页的方法,提出了一种基于Blog网页结构和关键字特征识别狭义Blog网页的方法,并利用Blog网页的链接特性过滤首页类Blog网页,初步的实验获得了较好的结果。在以后的工作中,拟将Blog网页的其他结构特征和关键字特征加入,以提高狭义Blog网页的识别正确率,同时,将扩大实验规模,以争取更好的Blog网页的识别效果。参考文献:1朱明, 王军, 王俊普. Web网页识别中的特征选择问题研究J. 计算机工程, 2000,26(8):35-37.ZHU M, WANG J, WANG J P. The study of feature selection in the Web page classificationJ. Computer Engineering, 2000, 26(8): 35-37.2朴星海, 赵铁军, 郑德权等. 面向Blog的网页爬行器设计与实现A.中文信息学25周年会议论文集C.2006.PIAO X H, ZHAO T J, ZHENG D Q, et al. Design and implementation on Blog-oriented Web crawlerA. Processings of Chinese Information ProcessingC. 20063W3C. HTML 4.01 specificationEB/OL. / TR/html4/.4LIAN W , CHEUNG D W C. An efficient and scalable algorithm for clustering XML documents by structureJ. IEEE Trans on Knowledge and Data Engineering, 2004, 16(1): 82-96.5SALTON G. Introduction to Modem Information RetrievalM. New York: McGraw Hill Book Company, 1983.6袁家政, 须德, 鲍泓. 基于结构与文本关键词相似度的XML网页分类研究J. 计算机研究与发展, 2006,43(8): 1361-1367, YUAN J Z, XU D, BAO H. An efficient XML documents classification method based on structure and keywords frequencyJ. Journal of Computer Research and Development, 2006, 43(8): 1361-1367.7任函. 大规模中文网页的自动分类研究D. 华中师范大学, 2006.REN H. A Research on Large Scale Automatic Chinese Webpages ClassificationD. The C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论