




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深度搜索论文:面向电子商务网站的深度搜索与信息抽取研究【中文摘要】随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨大且内容丰富等特点。实际上,电子商务网站属于Deep Web,Deep Web指的是存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度搜索就是针对Deep Web进行搜索。Deep Web不仅信息量大,而且具有面向某一领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜索,通过模拟关键词的填充和提交,来获取我们需要的页面。通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人工编写抽取规则的方法。本文的主要内容及创新点如下:1、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关键词,即达到关键词增量更新的。2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得每一个关键词所对应的初始页面。3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取“下一页”链接来得到更全的商品信息链接。本文介绍了多种获取“下一页”链接的方法,并提出了一个通用性较好的方法。4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词库文件进行更新。【英文摘要】With the rapid development of network and database technology, Internet has become a carrier of a great deal of information, how to extract the meaningful information accurately and rapidly from the mass of web information has become an urgent problem which people want to solve. There is a lot of web information in the E-commerce websites, these websitesweb pages are dynamic, and have high degree of structures. Actually, the E-commerce websites belongs to Deep Web, Deep Web is the information which can not access with hyperlinks and needs the dynamic web technology to access, users need to submit queries on the specific interface(the query interface) to access the data in the database. Deep search is the kind of search which aim at Deep Web. Deep Web has lots of information, high degree of structures and public access interface. So we choose the E-commerce websites to do the object of research of deep search, and get the purpose that extract the productsinformation. The search engines of E-commerce websites offer convenient for researchers to extracting information. Depending on some keywords that users input, these query interfaces can show users the information about keywords by web database dynamically. We can use these query interfaces to do some research into deep search, getting the web pages what we need by simulating the filling and submission of keywords.The webpages what get by deep search have a lot of productsinformation, we use these information source to extraction. The key point of web information extraction is how to generate extraction rules. There are two approaches to generating extraction rules, one is generating automatically, and another one is generating by manual work, these two approaches are all have advantages and shortcomings, they have their respective applicable scopes. The automatic approach is suitable for websites which have different structrue, but the precision rate of this approach is lower. Although the manual approach needs someone to write the regule rules, the precision rate of extraction results is higer. Due to the web pagesstructures of E-commerce websites are mainly the same, and we want to extract the information includes: productsname, productsprice, freight and other information about products, we choose the manual method what has more precise extraction results.The main works and innovations of this paper are as follows: 1、Design an interface of keywordsfiles, allowing the system to accept to the keywordsfiles(text files, there is a carriage return between two keywords), and putting these keywords in our system for filling and submitting query forms. Moreover, we consider the question of incremental keywords, the system of this paper do not accept the keywords what in the old keywordslibrary.2、Extracting the HTML codes of E-commerce websites. Extracting the part of query formsHTML codes of E-commerce websites by analyzing the HTML codes of E-commerce websites. According to these HTML codes, using WebBrowser Control to simulate the filling and submission of keywords, and getting the initial pages about keywords.3、Extracting the hyperlinks with selectivity, only extract the hyperlinks of productsinformation, but not the hyperlinks of advertisement and any other unrelated hyperlinks. Moreover, we need get more comprehensive hyperlinks of productsinformation by getting the hyperlinks of“next-page”, because of the multi-page hyperlinks of productsinformation. In this paper, we introduce some approaches of getting the hyperlinks of“next-page”, and propose an approach that has good applicability.4、According to the structures of different websites, generating the extraction rules by regular expression, thus information extraction. The extraction results are saved as text files which is convenient for updating keywordsfiles.【关键词】深度搜索 Deep Web Web信息抽取 URL提取 正则表达式【英文关键词】Deep Search Deep Web Web Information Extraction URL Collection Regular expression【目录】面向电子商务网站的深度搜索与信息抽取研究摘要3-5Abstract5-6第1章 绪论9-121.1 课题的研究背景及意义9-101.2 本文主要内容10-111.3 论文组织结构11-12第2章 深度搜索相关研究综述12-192.1 搜索引擎研究综述12-152.1.1 搜索引擎的概念122.1.2 搜索引擎的工作原理12-132.1.3 搜索引擎的分类13-152.2 深度搜索研究综述15-182.2.1 Deep Web 概述15-162.2.2 深度搜索的方法16-172.2.3 深度搜索的工作原理17-182.3 本章小结18-19第3章 Web 信息抽取研究综述19-293.1 Web 信息抽取的概念193.2 Web 信息抽取研究发展现状19-203.3 Web 信息抽取的方法20-233.3.1 Web 信息源20-213.3.2 结构化数据提取213.3.3 半结构化数据提取21-233.3.4 非结构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年IP PBX行业研究报告及未来行业发展趋势预测
- 精准扶贫竞赛试题及答案
- 教师招聘之《幼儿教师招聘》能力检测试卷附答案详解【巩固】
- 2025呼伦贝尔莫力达瓦达斡尔族自治旗尼尔基第一中学校园引才笔试备考有完整答案详解
- 未包括的互联网服务创新创业项目商业计划书
- 用户生成图文故事创作平台创新创业项目商业计划书
- 低温耐受性马铃薯品种研究创新创业项目商业计划书
- 教师招聘之《幼儿教师招聘》考试模拟试卷附参考答案详解【夺分金卷】
- 教师招聘之《幼儿教师招聘》考前冲刺测试卷附有答案详解及参考答案详解【达标题】
- 智能制造数字化全产业链解决方案
- 新型给药系统行业分析报告
- 特种设备日管控、周排查、月调度模板
- 山东钢铁集团矿业有限公司彭集铁矿采选工程项目环境影响报告
- 员工信息安全培训手册
- 华为项目管理10大模板Excel版可直接套用-非常实用
- 空管三校联考复习题(DOC)
- GB/T 27021.3-2021合格评定管理体系审核认证机构要求第3部分:质量管理体系审核与认证能力要求
- 3000储罐预制安装施工方案
- 食品工程原理(课堂)课件
- 五年级上册数学课件-《练习一》北师大版 (共10张PPT)
- 移动通信5G关键技术分析课件
评论
0/150
提交评论