




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于.NET 3.5的网络信息采集系统的设计思想和工作原理【 摘 要 】 现代社会是一个信息社会,掌握必要的信息是发现问题、解决问题的前提。如何汇集网络信息资源呢?需要建立网络信息采集系统,将分散在不同机构的居民健康数据整合为一个逻辑完整的信息整体,对于实现城乡一体化的医疗服务水平和质量,提高居民对基层医疗机构的信任度,实现城市卫生资料的高效利用等方面具有重要的社会意义。文章从对.net3.5的介绍谈起,然后分别就基于.net 3.5的网络信息采集系统的设计思想和工作原理进行说明。【 关键词 】 .net3.5 网络信息采集系统;设计思想;工作原理【 abstract 】 modern society is an information society, to acquire the necessary information is the premise to discover and solve problems. how to assemble a network of information resources? the need to establish a network information collection system, will be scattered in different institutions of the residents health data into a logical and complete information as a whole, the level and quality of urban and rural health care services to improve the trust of the residents of the primary health care institutions, and urban health efficient use of information has an important social significance. from the introduction. net3.5 about, then, respectively, based on design ideas and works of the net 3.5 web-based information acquisition system is described.【 keywords 】 .net3.5 network information collection system design idea works0 前言网络信息采集系统是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的软件系统平台。网络信息采集系统可以提供信息汇集服务,机构及工作人员可以充分利用计算机网络自动信息采集功能来收集相关信息,系统根据用户信息需求,设定主题目标,使用人工参与和自动信息采集相结合的方法完成信息收集。1 .net3.5概述1.1 .net3.5的特性.net 3.5主要特性。1)可以实现深度整合语言级的数据集成查询(linq)与数据处理。2)可以借助asp ajax创建更高效、更具交互性、更有个性的网络体验,并支持大多数流行的浏览器。3)支持ajax、json、rest、pox、rss、atom等新型网络协议,以及一些新的ws标准,用于构建wcf服务。4)全面提供wwf、wcf、wpf工具支持,包括新的工作流服务技术。5)在基类库(bcl)中添加了很多新的类,可以更好的满足大多数客户的需求。1.2 以.net3.5技术框架为基础的系统总体框架2 基于.net 3.5的网络信息采集系统的设计思想2.1 网络信息采集系统的设计思路各种网络信息采集系统的详细设计思想可能不太一样,但是基本的设计思路是一致的,下面就以通用的网络信息采集系统为例子,介绍一下网络信息采集系统设计的基本的步骤。第一步:确定采集任务。第二步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。第三步:调度采集任务,与目标站点同步更新,增量采集。第四步:采集到数据结果,完成数据异构到同构的过程。第五步:通过发布服务器,将数据发布到应用平台。2.2 网络信息采集系统的设计方案网络信息采集系统通过对热点问题和重点领域比较集中的网站信息,如网页、论坛、bbs等,进行24小时监控,随时下载最新的消息和意见。下载后完成对数据格式的转换及元数据的标引。对下载本地的信息,进行初步的过滤和预处理。对热点问题和重要领域实施监控,前提是必须通过人际交互建立舆情监控的知识库,用来指导智能分析的过程。对热点问题的智能分析,首先基于传统基于向量空间的特征分析技术上,对采集的内容做分类、聚类和摘要分析,对信息完成初步的再组织。然后在监控知识库的指导下进行基于舆情的语义分析,使管理者看到的民情民意更有效,更符合现实。最后将采集的信息数据,分别推送到不同的职能部门,供相关部门制定对策使用。网络信息采集系统是利用搜索引擎技术和网络信息挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。网络信息采集系统是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。“网络舆情”是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。2.3 网络信息采集系统的总体设计2)系统的功能需求设计(1)网络信息采集系统的设计采用元搜索与信息雷达技术。智能信息抽取技术主要是针对特殊客户进行特定领域的信息采集。其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析及相关信息的采集、突发事件分析及相关信息的采集、报警系统、统计报告。(2)搜索引擎数据管理系统的设计搜索引擎数据管理功能主要包括以下功能:对收集到信息进行预处理;对搜索引擎数据集进行阶段性的数据维护;支持系统多用户分级管理系统,包括用户逐级进行审核功能;支持信息服务:最新报道、热点新闻、分类阅读、业务查询、统计数据、舆情简报、信息检索等服务;信息文档转换技术:可以对信息进行传统文件格式转换。如doc、excel、access、rss等文件生成,可生成报表。3 基于.net 3.5的网络信息采集系统的应用工作原理3.1 系统的应用目标第一,自定义监察范围,可按行业、按地域、按信息发布时间等方式采集信息内容。第二,自定义采集信息的级别。第三,自定义监察信息方式,手工与自动采集相结合。第四,自动预警、报警,追查信息来源与散布范围。第五,自定义实现对文本数据、图片、视频及影像等多种数据的有效海量存储。第六,自定义或自动扫瞄管辖段的网站。第七,自动重点跟踪异常内容变动频繁的网站或信息来源。第八,自动保留计算机无法判别的意识形态内容进行汇总反馈。第九,实现信息判别的自我学习和信息库自动升级。3.2 系统的应用对象1)门户网站可以做到:每天自动采集指定网站(可达几百个,上千个)的最新内容(可以做到每天自动从上千个网络媒体采集上万条新闻信息);每天自动采集信息(文本数据、视频、图片及影像等)。2)新闻媒体可以做到:每天定时自动采集指定网站的新闻内容;扩大内容来源与数量,轻松整合不同地区与行业的新闻,形成专题;采集行业内的专业文章、论坛帖子,并进行整合。3)企业可以做到:实时而准确地采集国内外新闻,行业新闻,技术文章;实时而准确地采集竞争对手以及供应商的新闻、人事、产品、价格等信息;实时而准确地采集公共信源的商业情报(同行产品价格、竞争对手的用户反馈、行业新闻);实时而准确地采集本企业的品牌以及竞争对手的品牌在各大搜索引擎中的结果;实时而准确地采集各大行业论坛中的信息,从中了解消费者的需求与反馈,从而发现市场趋势与商业机会;准确地从网络公共信息中采集销售线索,潜在客户的资料;准确地从网络公共信息中采集本行业上万种产品的产品信息(描述、价格等),图片和技术文档。4)政府机关与军队可以做到:实时跟踪、采集与政府工作相关的国内外及地方新闻,政策法规,经济,产业等信息;解决与因特网隔离的重要部门对于因特网的信息需求问题;解决政府主网站对各地级子网站的信息采集与整合问题。5)广告与市场研究机构可以做到:快速而大量地获取公共信息中的商业名录资料;快速而大量地获取目标网站的各种原始信息(例如blog与bbs中的信息)到数据库中。6)科学与技术研究单位可以做到:实时跟踪、采集相关的国内外科技信息与新闻;整合分布在各个网站网页上的科研数据,例如美国国家卫生研究院的生物科技信息中心(ncbi)公布的的大量基因相关数据以及本地文本数据的抽取。3.3 系统的应用工作原理1)热点识别的实现可以根据新闻出处权威度、 评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。2)倾向性分析与统计的实现对信息的阐述的观点、主旨进行倾向性分析。以提供参考分析依据,分析的依据可根据信息的转载量、评论的回言信息时间密集度来判别信息的发展倾向。3)主题跟踪的实现主题跟踪主要是指针对热点话题进行信息跟踪,并对其进行倾向性与趁势分析。跟踪的具体内容包括:信息来源、转载量、转载地址、地域分布、信息发布者等相关信息元素。其建立在倾向性与趁势分析的基础上。4)信息自动摘要功能的实现能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。而且该智能摘要可以根据用户需求调整不同长度,满足不同的需求。主要包括文本信息摘要与网页信息摘要两个方面。5)趋势分析的实现通过图表展示监控词汇和时间的分布关系以及趋势分析,包括地域信息分布。以提供阶段性的分析。如信息传播的区域分布、转载量与转载网站类型等。6)报警系统的实现报警系统主要是针对舆情分析引擎系统的热点信息与突发事件进行监听分析,然后再根据信息的语料库与报警监控信息库进行分析,以确保信息的舆论健康发展。7)统计报告的实现根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。4 结束语基于.net3.5的网络信息采集系统的设计,可以使该系统通过灵活的规则从任何类型的网站进行信息的采集,如数据的存储功能、数据的检索功能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全文件学习培训课件
- 废气工程处理方案(3篇)
- 房建工程拆除方案(3篇)
- 灯塔工程宣传方案范文(3篇)
- 农业无人机租赁平台运营管理优化方案研究
- 工程报修奖励方案模板(3篇)
- 电动雨棚工程承接方案(3篇)
- 安全教育岗前培训记录课件
- 农业供应链金融风险管理与创新模式研究报告
- 农业企业数字化种植人才需求与培养策略研究(2025年)
- 2025四川省水电投资经营集团有限公司所属电力公司员工招聘6人考试模拟试题及答案解析
- 江苏拱棚施工方案设计
- 2025版国际双语幼儿园托班入托服务合同
- 员工下班外出免责协议书
- 2025-2030中国海水利用行业经营形势分析与投资方向建议报告
- 2025年巨量引擎医药健康行业营销白皮书
- 体验单元 《分类与打包》课件 2025-2026学年大象版科学二年级上册
- 氯化钾使用护理课件
- (高清版)DBJ∕T 13-318-2025 《建筑施工盘扣式钢管脚手架安全技术标准》
- 2025年天津市中考数学试卷(含标准答案及解析)
- JJF1033-2023计量标准考核规范
评论
0/150
提交评论