付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、HX-2055 信息检索系统方案目录一项目意义2二系统设计 32.1技术原理32.2系统构架5三系统功能 63.1信息采集63.2中文自然语言处理 63.3全文检索功能 73.4格式文件检索 83.5性能指标8项目意义随着互联网的快速发展, 每天有数千万条信息生成, 包括文字信息、 图片信息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己想要的信息,但是也存在很多弊端。百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫( Spider )在世界各地百万台服务器上爬取网页数据, 然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化, 这些网络爬虫不能保
2、证把所有的信息都抓到, 尤其是特殊行业的行业信息, 即便是抓到了也不一定能够在众多数据中展现出来。 所以,对于一个部门来讲, 有必要存在一款互联网信息检索系统来检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最新信息, 通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个部门都发生了什么, 有哪些新的政策, 方便管理层在最新的信息数据下快速做出正确的决定。据统计,内部网上的信息每年以 200%的速度增长,其中发布到互联网上的信息只占到信息量的 1%-2%,而 98%以上的信息是发布在内部网上的。内部网上的
3、信息既有网页形式的,也包含其他 Word PDF XML等多种格式的数据。因此,面对内部网中海量异构的信息资源, 如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、 快捷、安全地获取内部网上的信息, 在满足高效的同时, 更重要的是保证了较高的查全率和查准率, 能提供智能化的概念扩展搜索, 极大的提高工作效率。 内部网搜索引擎将组织中分散管理的信息整合在一起, 在组织层面上实现新的增值与共享, 从而有效实现组织内容利用的最优目标。搜索引擎的目标是实现内部网全文检索。 系统可对实施了内部网站资源进行爬行, 无论内部网上的数据源在何地、 以何种形式存在, 都能够对其快
4、速地访问, 通过准确的分词建立索引, 从而实现高质量的搜索查询。 搜索引擎的主要目标包括:(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中文自动分词。2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页信息、Word PDF XML等不同格式的文档以及各类主流数据库的表中记录。3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术,将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。二 系统设计2.1 技术原理HX-2055互联网信息检索系统(以下简称 HX-2055)是针对特殊行业、政府部门、决策部门设计的一款高效率互联网信息检索系统, 采用国际一流程序
5、算法设计, 系统构架与谷歌和百度的搜索引擎拥有共同的技术特点, 能够保证系统对实时信息的快速采集、归类、展现。在当今信息爆炸的时代, 每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展, 越来越多的非结构化信息不断出现,包括企业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。所有的存储数据中,有85%采用的是非结构化格式的,非结构化信息每三个月增长一倍。由于信息格式的差异很大,所以基本无法整合为统一的接口供政府工作人员或广大群众方便使用。全文检索是计算机程序通过扫描文章中的每一个词, 对每一个词建立一个索引,指明该
6、词在文章中出现的次数和位置, 当用户查询时根据建立的索 引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索系统的核心则具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。HX-2055全文检索系统的主要目标是实现文本索引的快速构建 (Index Construction) ,动态文档集的索引维护 (IndexMaintenance) ,短语查询 (Phrase Query),Top-K 查询的快速处理 (Top-kQuery Process)以及各种检索模型(IR Model)等。高性能和灵活的架构也使HX-
7、2055全文检索系统可以应用在内外网检索、专业系统资料检索、行业LiVLhI Me阴 讣讪内 IM 网 讪曲IP卜血、专业数据库检索。OrwkSqkervtr/也地/啲/齐& 飢器址刑SybaseIU IMI .ASP TX r 【oUiS KcicsJ)(X: XLs.prrTDi;OCRAVPS.LML.ZIP. KAR.MF5计划任务控制增盂索¥ i齐科对i馨码浜执容諾适配关键词*卜畅门动压编1陕引了瓯缰VfiX吐禺索布宋件淘字段瓷赛同1义朴-葢枱粛子蹺统1F图1. HX-2055系统原理HX-2055 可以实现对内部网络和外部网络的信息抓取、归类、展现。对于外 部网络
8、,HX-2055采用网络爬虫定时对各大行业网站、政府部门网站进行数据爬 取,通过对海量数据的挖掘可以建立庞大的外网数据库, 通过一流的数据整理算 法,简单、快捷、方便的展示给使用者。HX-2055HX-2055 也可以对内部网络进行数据的挖掘、分析、整理、展现。通过基于局域网的网络爬虫算法, 可以对政府、行业内部网站、单位内部服务器 资源等数据源进行数据的抓取,包括内部网络的新政策、新闻通知、日常文档、 文件资料等。HX-2055搜索引擎的系统体系架构如图所示:内 部 网 用 户fcj 搜索请求用户提交搜索、安全过滤返回结果搜索结果排序数据源注册、资源描述、策略描述<数据库卄爬行控制图2
9、 HX-2055内部网络搜索系结构图;内部网站 !数据源1数据库数据源2邮件系统 数据源n文件系统. 数据源3Web1数据电子电子页面U库表文档邮件内部数据严索引模块引擎实现了下列主要功能:(1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息进行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web网页、Word PDF Excel、PPT等格式的办公文档、各类主流数据库的表中记录。(2) 索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索引文件。(3) 搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件中检索出所有满足搜索条件的资源。2.2系统构架全文
10、检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现层) 可扩展的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性。*现®应用朋务系嫌ff理用户*理«引*理JT引同步冲回件- Het logic* VebefiFor « TofucEtS三系统功能3.1信息采集1、采用多线程并发搜索技术。2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在指定IP地址范围等方式。3、可以设置多种网站采集控制方式,包括采集的网页大小、超时限制等。4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源。5、可以灵活设定采集结
11、果的存储方式,具有开放性。3.2中文自然语言处理1、内嵌自动分词系统,有效提高了分词准确性。2、在应用层上,提供自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能。3.3 全文检索功能1、支持 Web Browser/Web Serve检索方式;2、智能中文分词: 采用先进的自动分词系统, 根据大量的语料统计和分析, 建立了上万条的歧义排除规则,因此检索 “华人 ”不会把仅仅包含 “中华人民共和 国”的文章检索出来。3、支持结构化数据和非结构化数据的混合检索;4、允许使用文中的任意字、词、句和片段进行检索
12、;5、全方位检索手段:与、或、非、异或;6、对数值、日期等特征字段可以进行比较和范围检索;7、支持任意一致的通配符检索 (模糊检索 );8、支持多网站的全文检索 9、具备中文自动分词系统,能有效提高分词准确性10、采用智能中文分词技术,建立高效索引库11、支持实时索引( 1分钟内)50个以上12、支持增量式实时索引13、多线程设计,支持大量并发用户访问,每秒并发达到14、支持在结果中查询15、支持GBK、BIG5、UTF8、GB18030等编码,采用 UTF8编码方式实现多 语言和多文种内容的检索及展现。16、支持中文、英文和中英文混合检索17 、多样化排序,包括按抓取时间排序、按相关性排序18、多种条件组合检索:包括标题、正文以及日期范围检索19、支持关键词逻辑表达式组合检索20、检索结果支持基于查询关键词的动态摘要21 、支持检索关键词的高亮显示22、将所检索到的信息可按设定的模版显示23、检索结果模板自定义如:如文章标题、文章栏目、简介、作者、点击率、时间以及文章类别等24、支持根据自动分类的类目进行检索 25、采用 KNN 、SVM 为基础的相关性算法3.4 格式文件检索 支持 MS OFFICE, PDF, HTML,可以对.pdf;.rtf;.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银屑病甲综合治疗与护理管理全景指南
- 商标翻译论文
- 学校自主办学机制与教育治理改革方向课题申报书
- 新能源车制动系统用零部件生产项目可行性研究报告模板-立项拿地
- 城乡融合发展绩效评估研究课题申报书
- 城乡产业协同发展模式研究课题申报书
- 2025 高中信息技术信息系统在智能家居能源优化管理中的应用课件
- 公司运营守法合规承诺函7篇
- 2026年新客户培训邀请函9篇范文
- 民众安全保障服务承诺书(4篇)
- DL∕T 5776-2018 水平定向钻敷设电力管线技术规定
- 人教版六年级数学下册易错题锦集(全面版)
- 中建五局有限空间作业方案编制指南(2022版)
- 中职高考《农业经营与管理》考试题库大全-中(多选题)
- 苏教版小学科学五年级下册单元测试题(含答案)
- 全国中学生物理竞赛公式
- 诊断学课件:病历书写
- 鼻咽癌患者放疗护理课件整理
- 上市公司内部控制手册模板
- 2021年高一下物理第六章《圆周运动》测试卷及答案解析
- 高考作文复习:议论文写作之驳论文段指导
评论
0/150
提交评论