




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要:随着互联网的普及和电子商务的发展,形成了大量的商品供应信息资源。从企业门户网站和电子市场的海量商品网页中抽取出供应信息资源,是电子交易迫切需要解决的问题。在分析信息抽取过程和商品网页结构的基础上,构建了基于网页DOM树的商品供应信息抽取模型。该模型由网页采集层、HTML文档解析层、信息抽取层和结果处理层组成,并重点对信息抽取层的抽取规则进行了探讨。关键词:电子交易;信息抽取模型;DOM;电子商务Abstract:With the development of Internet and electronic commerce, there exists tremendous of product supplying informationresources. The crucial problem ofelectronic trading is the ability to extractuseful resources from the huge productpages ofenter prises portal and electronicmarketplaces. Based on the analysis of information extraction process and the structure ofproductwebpage, a product information extractionmodelbased onDOM tree is established. Thismodel is composed by page gathering layer,documentparsing layer, information extracting layerand resultprocessing layer. And the extraction rules of information extractinglayer is highlighted.Key words:electronic trading; information extractionmode;l DOM; electronic commerce0 引言信息抽取是从一段文本中抽取指定的一类信息,并将其形成结构化的数据供用户查询使用的过程1。Web信息抽取是指抽取Web页面信息的过程。Web信息的抽取通常可以分为3种类型:抽取自由文本、半结构化网页和结构化网页。笔者针对半结构化的Web商品网页,对其结构做以下假设:相同类型的商品信息页面结构相似。这是因为现在多数Web页面均是由机器代码生成的,所以这些网页的结构具有很大的相似性2。信息抽取技术研究最早开始于20世纪60年代中期,其前身是文本理解, 20世纪80年代以来发展更快,这得益于互联网的出现和美国官方资助的MUC(message understanding conference)会议的推动。目前,Web信息抽取技术主要有基于知识模型的抽取技术、基于文本序列特征模式匹配的抽取技术、基于DOM树结构路径的抽取技术和基于Ontology描述文件的抽取技术3-4。基于知识的抽取技术通常只在很窄的知识领域范围内使用,向其他新领域移植的性能却很差;基于Ontology描述文件的抽取系统,需要专家的支持,工作量繁重。针对半结构化的Web商品网页,笔者提出了一种商品供应信息的抽取模型,抽取规则采用基于Web网页DOM树的路径匹配、位置匹配和属性匹配的规则,能够准确地抽取Web商品网页中的商品信息资源。1商品供应信息抽取模型1.1总体框架商品供应信息抽取的基本思路,首先是通过Internet从企业门户网站或电子市场上自动获取包含商品供应信息的Web页面,这些页面一般是HTML文档;然后将获取的HTML文档转换为XHTML格式,并利用XML技术和文档对象模型(documentobjectmode,l DOM)技术将XHTML文档构造成DOM树;再利用定制好的抽取规则对DOM树进行分析处理,得到结构化的商品供应信息;最后将结构化的数据交给抽取结果处理器作进一步处理。根据该思路,笔者提出的商品供应信息抽取模型如图1所示。模型自下而上由以下4个部分组成:网页采集层、HTML文档解析层、信息抽取层和结果处理层。1.2网页采集层网页采集层主要功能是从Internet上下载包含商品供应信息的Web页面,并保存到本地文件系统。首先,需要人工识别出企业门户网站或电子市场(如阿里巴巴网上贸易市场,www. . cn)中含有商品供应信息的Web页面的URL地址;然后,Web信息采集器自动向网站发出URL请求;网站收到请求后,将对应网页返回给采集器,采集器将网页以HTML文档形式保存。图1商品信息抽取模型1.3HTML文档解析层HTML文档解析层主要功能是将采集到的HTML文档解析成网页DOM树。该层由XHTML文档生成器和DOM树构造器这2个部分构成。XHTML文档生成器的作用将HTML文档转换为XHTML文档,并传递给DOM树构造器。如将换行标记“”转换为“”,又如将“重点段落段落. ”转换为嵌套正确的元素“重点段落段落. ”。XHTML是XML的一个子集,文档转换作用可按照XML解析规则对HTML文档中的各个元素进行访问。DOM树构造器的作用是利用XHTML文档构造一个DOM树。DOM是W3C建立的一个API标准,通过这个API,应用程序可以任意访问和更改XML文档中的元素和数据5。DOM树是一个对象化的XML数据接口,一个与语言无关、与平台无关的标准接口规范,它定义的XHTML文档的逻辑结构,给出了一种访问和处理XHTML文档的方法。DOM树结构简单清晰,意义表述明确。它展现XHTML层次化的文档结构,将XHTML语言里面的标记(TAG )作为DOM树的节点,形成一种层次化的DOM树。1.4信息抽取层信息抽取层以文档解析层传递过来的网页DOM树和抽取规则库中的规则为输入,利用抽取规则对DOM树所有节点进行遍历匹配,找到符合规则的节点后,读取该节点对应元素的值即为对应的信息抽取结果。这一层是整个信息抽取模型的重点。1.5结果处理层经过信息抽取层处理后会得到结构化的数据,结果处理层的作用是根据用户需求对这些结构化数据作后续处理。比如过滤这些信息并提高它们的结构化,即结构合成;或者采用数据库方式进行存储,即数据存储;或者实施查询从而获得用户感兴趣的相关信息,确保数据准确,即数据挖掘。处理后的最终结果可作为电子交易系统中的交易信息使用。2基于DOM树的抽取规则2.1商品供应信息网页及DOM树商品供应信息网页一般出现在企业门户网站的产品展示栏目中或电子市场的供应信息中,如图2所示。该页面显示了某公司的一个办公家具网页的格式,将商品信息整体称为该网页中的客户感兴趣的信息块,即商品供应信息块。在该信息块中,包含商品名称、型号、规格、说明、价格和商品图片等信息,称为信息块的信息属性域。图2中的信息块处于网页中相对固定的位置,信息块内部的属性域有较一致性的结构,它们之间也具有语义上的关联性6。在网页的展现上,处于同一个信息块内的各个属性域,结构比较类似,没有很复杂的变动。图2商品供应信息网页图2网页对应的HTML代码片断如下:名称: 双曲大班台型号:SJ/PT101规格: 3 600*1 100*760/3 200*1 000*760说明: 基材为高密度板;进口胡桃木;. 价格(元): 8 000/6 400经过XHTML文档生成器和DOM树构造器处理后,上述代码生成的网页DOM树如图3所示。图3网页的DOM树图3表示的是一棵简单、标准的DOM树。树中的每一个节点对应于HTML语法里的TAG元素。由图3可以看出,对于各个消息属性域,有共同的父节点,其路径为HTML0.BODY0.TABLE0,该节点以下包含所有的子节点共同构成了所要抽取的信息块。该信息块是一棵以TABLE0为根节点的DOM子树。针对DOM树结构,笔者采取基于扩展路径表达式的抽取规则。2.2抽取规则描述2. 2. 1基于DOM树的抽取规则抽取规则是基于特定的一类商品供应信息网页基础上的,抽取规则的描述和处理是信息抽取模型中核心的部分。笔者采用手工定制机器生成的半自动化方式抽取规则。采用基于DOM树提取路径表达式的抽取规则对网页内容进行抽取。该规则具有良好的结构性,可以根据树中的节点准确定位HTML页面中的TAG标记,能够准确定位到所要抽取信息的位置。该抽取方法抽取数据明确,不会产生歧义,缺点是不能动态适应HTML文档结构的变化,但现实中网页内容多为机器生成代码,结构很少发生变化。抽取规则的重点是将商品供应信息块和块内属性域利用路径表达式进行惟一性描述。2. 2. 2信息块的规则表示信息块规则是对内容页面中的信息块的定位。在上述的Web页面文档中,将最小的能够包含所有信息属性域的子树称为信息块树。如图3所示的页面中, html0, html0. body0, html0. body0. table0,均是能够包含信息块的节点,其中只有以html0. body 0. table0为根节点的树,称为本商品供应信息的信息块树。笔者使用以下形式来表示信息块的抽取规则:ProductNode = html0. body0. table0其中,ProductNode是该信息块的标记。使用该表达式可以简单而准确地定位信息块的位置。2. 2. 3信息属性域的规则表示信息属性域的抽取规则由属性域节点路径和节点中文本表达式这2部分组成。图2中商品名称域和商品图片域的抽取规则分别表示为ProductName =. tr1. td1, text()ProductImg =. tr1. td2. img0, attribute(src)其中,. tr1. td1和. tr1. td2. img0分别表示商品名称域和商品图片域在信息块内的相对路径。所要抽取的内容一般包含在信息属性域对应元素的文本中或者属性值中,可定义text()和attribure()两类抽取函数分别作处理。上例中text()表示抽取商品名称域的文本内容, attribute(src)表示抽取商品图片域的属性名称为src的属性值。2. 2. 4抽取规则的完整描述商品供应信息规则包含信息块的抽取规则及其所有信息属性域的规则,以下展示的是一个完整的抽取规则。ProductNode = html0. body0. table0ProductName =. tr1. td1, text() /名称ProductImg =. tr1. td2. img0, attribute(src) /图片ProductType =. tr2. td1, text() /型号ProductSpecification =. tr3. td1, text()/规格ProductDescription =. tr4. td1, text()/说明ProductPrice =. tr5. td1, text() /价格ProductNode是一个抽取信息块的路径,等号后面是该信息块的路径表达式。“”里是该信息块内所有信息抽取规则描述,每一行是一个属性域抽取规则的完整表示,包含块内相对路径表达式和抽取函数。3结论构建了一个基于DOM树的商品供应信息抽取模型,该模型的目的是通过Internet从企业门户网站或电子市场的含有商品供应信息的海量网页中自动抽取商品供应信息,以满足企业电子化交易的需要。模型由网页采集层、文档解析层、信息抽取层和结果处理层这4个部分组成,重点针对抽取模型的结构和基于DOM树的路径抽取规则进行了描述,能够较好地满足商品供应信息抽取的需要。进一步的工作是改进模型中手工定制机器生成的半自动化抽取规则,通过机器对样本网页的训练,实现抽取规则自动化生成,提高模型在处理现实信息抽取中的适应能力和自动化程度。参考文献:1RALPH G. Information extraction: techniques andchallenges J. Lecture Notes in Computer Science,1997(4): 10-27.2李效东,顾毓清.基于DOM的Web信息提取J.软件学报, 2002, 25(5): 526-533.3李保利,陈玉忠,俞士汶.信息抽取研究综述J.计算机工程与应用, 2003, 39(10):
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谭师傅安全知识培训直播课件
- 2025版设备租赁合同及期满回购协议
- 2025年度房产买卖定金合同(含物业管理条款)
- 2025版汽车零部件研发中心租赁合同
- 2025年防火玻璃防火玻璃板购销合同
- 2025版水泥制品出口业务代理销售合同
- 2025年公路测量劳务分包合同编制范本
- 2025年数字经济战略合作伙伴聘用协议
- 2025版石材工程投标保证金及施工管理合同
- 2025年涵洞建筑工程承包合同模板下载
- 工程造价协议合同
- 2025年长沙环境保护职业技术学院单招职业技能测试题库附答案
- 人工智能技术在中职语文教学中的实践
- 苏州印象城考察报告3.31课件
- 《中华会计文化传承与变迁》课件-第八篇 现代会计文化
- 2025年湘教版八年级数学上册教学计划与实践
- 装饰工程项目管理方案
- 旅行社安全培训课件
- 2024年10月自考00107现代管理学试题及答案
- 《一个粗瓷大碗》公开课一等奖创新教案
- 治未病进修总结
评论
0/150
提交评论