




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网页采集系统设计与开发,随着信息技术的迅猛发展,信息经济的特征日趋明显,人们越来越重视对信息资源的开发和利用。Internet已经发展成为当今世界上最大的信息库和全球范围内传播知识的主要渠道,站点遍布全球的巨大信息服务网,为用户提供了一个极具价值的信息源。无论是个人的发展还是企业竞争力的提升都越来越多地依赖对网上信息资源的利用。 互联网信息采集系统是对Internet上指定信息进行采集进行整理,这将是是网络应用发展的方向。,前 言,信息采集系统开发目的就是提供一个有力的工具,帮助普通用户(熟悉基本的HMTL)而非编程人员从数据源收集信息并把他所需要的信息进行分类存储,功能包括信息采集、信息查询等,提供图形化界面编辑或向导式操作。 基于B/S模式的信息管理系统是现阶段研究开发的一个热点。它是建立在国际互联网上的应用系统,客户端的配置可以极为简单,使使用者不受地域的局限。在本系统中,将利用B/S模式,构建一个网页采集系统。 就是在这样的时代背景下,我选择了这个课题,我相信在未来网页信息采集系统会显得尤为重要,也将会走进更多人的生活。,前 言,目 录,系统分析,系统分析,1 系统功能分析信息采集系统指的是按标准格式采集指定网络信息,同搜索引擎的区别在于其采集的目的性更强,采集源范围也比较小。具体功能如下:(1)、采集设置模块:主要对采集频度、一次采集次数的设定。 (2)、信息采集模块:具体实体信息的采集。(3)、采集信息管理模块:对采集的信息进行管理,也可以手动增加采集信息。 (4)、信息查询模块:此模块包括以标题查询、以内容查询、以日期查询。,系统分析,2 关键技术介绍 本课题使用ASP和ACCESS来实现设计要求。以往多数采集平台是基于NT+IIS+SQL SERVER平台构建的,但是这种构建方式较为昂贵,不仅数据库系统花费多,供应商还耍收取软件和技术支持费用,而且为了获得合理的运行性能。数据库引擎的硬件通常要求都很高,这些硬件的成本会更高。因此,在网站建设时该选取哪一种方式是每个网络建设者必须认真考虑的问题。ASP的开发工具简单,兼容性能好,语言相容性高,并且易于操控数据库。ASP所产生的执行结果都是标准的HTML格式,而且这些程序是在网络服务端中执行,使用一般的浏览器(如IE 或Netscape)都可以正确地获得ASP的“执行”结果,并且将这ASP执行的结果直接在浏览器中“浏览”,不像VBScript或 JavaScript是在客户端(Client)的浏览器上执行。所以选用ASP可以节省很多的资源和时间。,系统分析,2关键技术介绍 2.1 ASP简介 ASP是动态服务器页面(Active Server Page)的缩写。是微软公司开发的代替CGI脚本程序的一种应用,它可以与数据库和其它程序进行交互,是一种简单、方便的编程工具。ASP的网页文件的格式是 .asp。现在常用于各种动态网站中。 2.2 ASP文件运行原理 当用户使用浏览器请求ASP主页时,WEB服务器响应,调用ASP引擎来执行ASP文件,并解释其中的脚本语言(JScript 或VBScript),通过ODBC连接数据库,由数据库访问组件ADO(ActiveX Data Objects)完成数据库操作,最后ASP生成包含有数据查询结果的HTML主页返回用户端显示。,系统分析,2.3用到的ASP组件 1) Application对象:负责管理所有会话信息,可用来在指定的应用程序的所有用户之间共享信息。 2) Session对象:存贮特定用户的会话信息,只被该用户访问,当用户在不同WEB页面跳转时,Session中的变量在用户整个会话过程中一直保存。Session对象需cookie支持。 3) Request对象:从用户端取得信息传递给服务器,是ASP读取用户输入的主要方法。 4) Response对象:服务器将输出内容发送到用户端。 5) Server对象:提供对服务器有关方法和属性的访问。 6) Object Context对象:用来进行事务处理。此项功能需得到MTS(Microsoft Transcation Server)管理的支持。 7) Database Access组件:提供ADO (ActiveX Data Objects)来访问支持ODBC的数据库。 8) File Access组件:提供对服务器端文件的读写功能。 9) Content Linking组件:生成WEB页内容列表,并将各页顺序连接,用于制作导航条。,系统分析,2.4常用的数据库组件Database Access组件ADO常用以下7个对象进行数据库访问:1) Connection对象:建立与后台数据库的连接。2) Command对象:执行SQL指令,访问数据库。3) Parameters对象和Parameters集合:为Command对象提供数据和参数。4) RecordSet对象:存放访问数据库后的数据信息,是最经常使用的对象。5) Field对象和Field集合:提供对RecordSet中当前记录的各个字段进行访问的功能。6) Property对象和Properties集合:提供有关信息,供Connection、Command、RecordSet、Field对象使用。7) Error对象和Errors集合:提供访问数据库时的错误信息。,系统分析,2.5 关键技术 是对于本模板,主要利用客户端编程技术实现.主要的技术问题,有如下几个 1.采集间隔的实现,由一个定时器完成 2.启动采集与暂停采集的实现,通过动态创建或清除定时器实现 3.获取剪帖板主要有:clipbord.getData(“text”) 实现 4.填充采集表单,由JS实现:如:document.getElementById(fname).content.value=clipboardData.getData(Text); 5.保存主要技术,由提交表单实现 6.删除通过对Div的隐藏实现,目 录,系统概要设计,系统概要设计,1 主要功能设计 具体设计的功能如下:(1)、采集设置模块:主要对采集频度、一次采集次数的设定。(2)、信息采集模块: 具体实体信息的采集。(3)、采集信息管理模块:对采集的信息进行管理,也可以手动增加采集信息。 (4)、信息查询模块:此模块包括以标题查询、以内容查询、以日期查询。系统功能模块图,系统概要设计,2 业务流程图通过现行业务流程图对现行系统进行分析,系统的业务流程,较简单。主要由采集信息、查询信息两部分完成。一般的采集流程为:启动采集程序-访问网页-抓取内容-采集内容处理-入库;查询信息流程:启动查询程序-输入关键字-查找匹配信息-显示查找结果,系统概要设计,3 数据流程图,嵌入式Linux系统GUI设计分析,4 E-R图信息实体有以下四个属性。E-R图向关系模型转换为: 关系的码用下横线标出。 此为信息实体对应的关系模式:信息(编号,标题,内容,日期),目 录,系统详细设计,系统详细设计,1 系统链接图,系统详细设计,1、管理员登录:输入:管理员帐号,密码处理:判断工作证号和密码是否有效。填入用户名和密码后点击确定按钮,系统将自动从数据库中的管理员信息表中判断是否存在相同的管理员和密码,如果有则进入系统,如果不存在或密码错误,则提示帐号或密码有错误的信息。输出:登录成功,进入系统管理页面。,系统详细设计,2 系统管理主界面系统主界面,以框架的形式进行组织。充分利用框架灵活、方便的特点,使得多个功能选项可以在同一个窗口中打开。,系统详细设计,3 网站管理端功能分析在管理端主要涉及以下几个方面的管理:采集信息设置、信息采集、采集信息管理、采集信息查询等。,系统详细设计,4、采集设置 输入:采集间隔秒数、一次最大采集数 处理:判断有效性,若有效则更新相应参数设置输出:若更新成功显示成功信息页面布局: 1.使用了一个3行2列的表格,分别在第一行完成“采集间隔”的提示串及文本输入域的放置;在第二行,完成了“一次最大采集数”的提示串及文本输入域的放置。 2在表格下,空一行放置名为“提交”的命令按钮 3.在表格及命令按钮外,放置一表单,系统详细设计,4、采集设置 页面功能: 1.部门代码输入域的名称为:inTimes2.部门名称输入域的名称为:oneTimes3.在系统按保存后,提交表单内容.主要用到的语句是: and isnumeric(request(intime) then session(inTime)=request(intime)end ifif request(oneTimes) and isnumeric(request(oneTimes) thensession(oneTimes)=request(oneTimes) end ifresponse.write 系统提示:设定成功! &time& end ifif session(inTime)= thensession(inTime)=5 end ifif session(oneTimes)= thensession(oneTimes)=5 end ifinTime=session(inTime)oneTimes=session(oneTimes)%,系统详细设计,5、采集模块的实现对于本模块,主要利用客户端编程技术实现.主要的技术问题,有如下几个 1.采集间隔的实现,由一个定时器完成 2.启动采集与暂停采集的实现,通过动态创建或清除定时器实现 3.获取剪帖板主要有:clipbord.getData(“text”) 实现 4.填充采集表单,由JS实现:document.getElementById(fname).content.value=clipboardData.getData(Text); 5.保存主要技术,由提交表单实现 6.删除通过对Div的隐藏实现 采集模块的更多代码,见论文和源程序。,系统详细设计,6、输入输出设计输入设计输入设计的目标是保证向系统输入正确的数据,保证输入方法的简单,迅速,方便。输入媒体:键盘,鼠标输入方式:实时输入输入数据校验:人工校验为主信息录入状态,如图所示,系统详细设计,6、输入输出设计输入设计输入设计的目标是保证向系统输入正确的数据,保证输入方法的简单,迅速,方便。输入媒体:键盘,鼠标输入方式:实时输入输入数据校验:人工校验为主信息录入状态,如图所示,系统详细设计,6、输入输出设计输入设计输入设计的目标是保证向系统输入正确的数据,保证输入方法的简单,迅速,方便。输入媒体:键盘,鼠标输入方式:实时输入输入数据校验:人工校验为主信息录入状态,如图所示输出设计输出设计是系统能否为用户提供准确,及时,适用的信息的关键。以标题查询为例:输出信息名称:此次查询的满足条件的信息编号 输出媒体:屏幕界面 输出周期:不限 输出数据项名称:标题、采集日期等 注:信息编号代码设计为6位有效数字 输出格式如图: # 自然数(09),系统详细设计,输入输出界面,系统详细设计,7、数据库的连接 连接数据库采用OLE DB方式,并且在每页中显示的关闭连接,于是利用了IIS自带的数据库连接池特性,大大提高了数据库连接效率。为了增强网站的可移植性,这里用OLE DB 技术连接数据库,连接文件为db.asp,目 录,测试与总结,测试与总结,1 测试的重要性以及测试要求 无论哪一种程序,由于客观系统的复杂性,都有可能在系统开发的各个阶段存在着出错的可能。测试的目的就是找出系统开发全周期中各个阶段的错误,以便分析错误的性质与位置并对其加以纠正。软件测试在软件生命周期中占据重要的地位。对于基于BS结构下企业信息采集系统的测试主要是用户登录模块、采集设置模块、信息采集模块、采集管理模块、新增信息模块、查询信息模块这六部分。1、用户管理模块是否能完成登录功能,查看该部分功能是否能对用户信息的合法性进行有效的检验。通过用户登录功能检验用户是否能登录系统。2、采集设置模块,测试能否成功设置测试的时间间隔和每次的最大采集量。3、信息采集模块,能否在采集设置的基础上,有效的进行信息采集,并对采集到的信息进行保存。4、采集管理模块,能否管理已经采集到的信息,对采集到的信息进行修改、删除等操作。5、新增信息模块,能否自主新增需要的信息。 6、查询信息模块,能否对已经采集到的信息进行查询,并进行显示,查询方式包括标题查询、内容查询、日期查询,三种方式。,测试与总结,2 测试结果 软件评价是指软件在正式运行了一段时间之后,对它在功能上、技术上和经济上所进行的审核评价。针对本软件的评价如下:(1)软件功能评价根据本软件开发前所订的目标,在软件完成后经过测试运行,该软件达到了预定的开发目标,在实际使用中的功能可以满足用户需求。(2)软件技术评价本软件设计合理,功能达到了预期目标,且软件运行后稳定可靠,安全性高,具有实用性,大大提高了信息采集的效率。(3)软件经济评价在规定时间内,该软件完成了软件分析时所确定的软件开发目标,达到了设计要求,投入使用后为用户节省了人力物力财力,方便了用户进行信息采集。,测试与总结,测试与总结,2 测试结果 软件评价是指软件在正式运行了一段时间之后,对它在功能上、技术上和经济上所进行的审核评价。针对本软件的评价如下:(1)软件功能评价根据本软件开发前所订的目标,在软件完成后经过测试运行,该软件达到了预定的开发目标,在实际使用中的功能可以满足用户需求。(2)软件技术评价本软件设计合理,功能达到了预期目标,且软件运行后稳定可靠,安全性高,具有实用性,大大提高了信息采集的效率。(3)软件经济评价在规定时间内,该软件完成了软件分析时所确定的软件开发目标,达到了设计要求,投入使用后为用户节省了人力物力财力,方便了用户进行信息采集。,测试与总结,总结 本文分析了网页信息采集涉及的关键技术特点,论述了中文网页目前发展的现状及存在的问题,从工程实现角度讨论了中文网页信息采集的可行性,提出了具体设计方案,编码实现了中文网页信息采集系统。最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年深水油气田勘探施工服务合同
- 2025年度区块链身份认证服务合同:数字身份管理与区块链技术集成合作协议
- 2025年绿茶品牌入驻与全网营销合作协议
- 2025年现代都市商业综合体内外墙油漆施工合同
- 2025年度餐厅与旅行社共同开发特色美食旅游项目合同
- 2025年度建筑工程专业级脚手架租赁与安全监管协议(新版)
- 2025年企业级网络安全意识提升与培训服务协议
- 分公司承包授权经营合同
- 公务员部门矛盾调解面试题及答案
- 儿科中医试题及答案
- 2025年中级会计职称考试经济法冲刺试题及答案
- 乐器供销合同范本
- 2025年辽宁省中考生物学试卷真题附答案
- 2025-2030牛肉分销渠道冲突与供应链协同优化报告
- 《法律职业伦理(第3版)》全套教学课件
- 2025年青岛市崂山旅游集团招聘考试笔试试题
- 2025年秋季新学期全体中层干部会议校长讲话:在挑战中谋突破于坚实处启新篇
- 2025年幼儿园保育员考试试题(附答案)
- 2025年上半年中国铁路兰州局集团有限公司校招笔试题带答案
- 《物联网导论》课程标准
- 供水抄表员安全知识培训课件
评论
0/150
提交评论