




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于模板的网页数据抽取系统实现,指导教师:杜小勇教授05级计算机科学与技术 康菁菁2009.5.8,-,1,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,2,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,3,开发背景,课题组任务构建法学知识检索系统开发任务实现HTML网页抓取和数据抽取系统为法学检索系统提供互联网上的语料支持,-,4,思路:基于模板的网页数据抽取,网页的通用特性同一网站中网页的结构,往往被数量很少的固定模板承载网页内容可能会更新,其模板却相对可靠稳定基于模板的网页数据抽取对特定的网页配置抽取模板在模板中定位需要提取的信息,-,5,使用模板的优点,网页通过模板然后转化为结构化数据,网页格式的变化不需要修改抽取系统的代码,-,6,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,7,系统架构,网页抓取 扩展开源爬虫的功能数据抽取 使用XSL模板抽取数据,网页抓取,数据抽取,-,8,网页抓取:开源爬虫ItSucks的扩展,ItSucks爬虫:Java Web Spider开源项目下载规则:通过下载模板、正则表达式定义网页存储:镜像形式扩展爬虫的链接抽取功能HTMLParser工具包:网页解析器提高解析正确率、可解析含中文的链接,HTML代码:网站首页错误:/index.htm%20class=lj3正确:/index.htm,-,9,网页抓取 定义下载模板,配置:URL路径连接规则过滤器保存,-,10,网页抓取 用正则表达式过滤链接,-,11,运行爬取网页的界面,-,12,数据抽取,规范化网页格式:JTidy获得数据引用点:XPath转换为结构化数据:XSL模板数据存储到数据库,-,13,1.规范化网页格式:JTidy,修正网页中非规范的语法将 修改为 自动补齐缺少的将网页解析为一棵DOM树Document parseDOM( InputStream in, OutputStream out ),-,14,2.获得数据引用点:XPath,XPath语言:定位XML文档中元素和属性定位到数据所在节点 tdbgcolor=#E7E7E7提取法规颁布单位信息 normalize-space(substring-after(., 来源),-,15,3.转换为结构化数据:XSL模板,XSL模板:XHTML XML数据抽取结果,-,16,4.数据存储到数据库,获得属性标签和属性内容正向扫描XML文件,构造一个HashMap散列表,键对应XML标签,值对应标签内容时间信息的规范化建立一个类kjj.util.FormalTime 将不规范的日期格式转换为“yyyy-mm-dd”,-,17,抽取界面,用户指定信息网页文件夹模板文件XML文件存储路径数据库表名网页编码方式功能:自动抽取数据并存入数据库,-,18,抓取结果,属性:URL链接、法规案例标题、内容、颁布时间、颁布单位等,-,19,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,20,系统实现的关键点,数据定位的准确性数据的导航:根据数据周围内容属性的选取:与网页内容相关、格式无关中文编码转换GB2312、UTF-8、ISO-8859-1等编码方式方案:从文件中按字节读取,然后转换成指定的编码方式Swing多线程问题将耗时的任务放在一个独立的线程中,-,21,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,22,系统贡献,连续爬取抽取目录页和主页精确抽取基于模板的数据抽取技术用户友好的界面模板自定义,可保存,-,23,提纲,开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作,-,24,未来的工作,抽取模板如何建立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自体免疫性疾病研究体系
- 急诊创伤病人麻醉处理要点
- 2025年新高考数学一轮复习讲义:第九章统计与成对数据的统计分析(学生版)
- 2025年音乐版权运营案例分析:流媒体平台用户付费策略深度研究报告
- 基于2025年标准的学校体育馆建设初步设计抗震性能评估报告
- 房地产企业2025年财务风险管理策略与稳健经营路径研究优化优化优化优化报告
- 2025年森林生态系统服务功能评估在生态修复中的应用报告
- 2025年能源互联网背景下分布式能源交易策略研究报告
- 一番的意思4篇
- 书法培训班教学管理制度
- DZ∕T 0270-2014 地下水监测井建设规范
- DL-T5153-2014火力发电厂厂用电设计技术规程
- 内江市社区工作者考试题库可打印
- 2023-2024学年广西壮族自治区桂林市物理八下期末考试试题及答案解析
- (高清版)JTGT 3365-02-2020 公路涵洞设计规范
- 2024春期国开本科《混凝土结构设计原理》形考作业1至4试题及答案
- 融资租赁租金及IRR收益测算表
- 电大财务大数据分析编程作业2
- 很完整半导体制造工艺流程
- 建筑结构荷载规范DBJ-T 15-101-2022
- 通信线路工程(第二版)第8章通信线路工程施工安全
评论
0/150
提交评论