企业内基于数据库搜索引擎的可行性研究.doc_第1页
企业内基于数据库搜索引擎的可行性研究.doc_第2页
企业内基于数据库搜索引擎的可行性研究.doc_第3页
企业内基于数据库搜索引擎的可行性研究.doc_第4页
企业内基于数据库搜索引擎的可行性研究.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业内基于数据库搜索引擎的可行性研究前言面对越来越多的数据报告冲击,繁杂的数据,获得数据的不便以及定制数据的繁琐,用户(特别是高阶用户)感觉到无法适。 简单访问,就如同自然语言检索一样,完成最快的获得需要的数据,而现状就是,用户可以通过文档级检索,很快的获得相关情报资料(虽然存在着查全和查准的矛盾),而基于数据库的简单检索,还没有真正的实现,其相关症结所在,就是用户的输入条件的不确定性和数据库的相对刚性这个冲突,用户很难按照数据的要求完成自己需要数据的描述,而数据库也很难根据用户的自然语言进行判读,所以通常的解决方法就就是高阶的用户将向关想法描述给专业人士,然后专业人士从数据库中获得再提交给高阶用户,这种状况非常不能满足越来越多的快速数据要求提出了基于数据库搜索引擎的方案,其目的就是有限度解决此中状况,因为在世界范围内,自然语言的解析还处于研究状态,所以这里讲的是用户在一定范围内采用自然语言关键字的方法,而搜索引擎对用户的输入进行解释,提交数据库,从而完成比较适合用户需要的解决方法第一章 功能流程描述在以上系统中,搜索引擎起到一个枢纽的作用,是整个系统实现成败与否的关键,其主要完成以下功能:一)要有一个初步的词汇表,从而定义出数据库当前数据项的所有描述性短语,结合数据归类等方法分别整理存放二)对描述性短语结合自然语言和用户习惯,增加语义解释层,组织出相应用户命中区域,提高用户的搜索有效性三)引擎要有学习功能,就是能够对用户的输入进行跟踪统计,并修正引擎的搜索命中规则,从而提高用户的搜索正确和有效性四)根据用户的搜索正确次数以及使用频率,对一些常用数据进行固化,提高系统的相应能力五)根据搜索引擎的用户搜索成功次数统计,结合系统权限管理办法,整理出用户的搜索偏好,进一步提高用户的搜索输入速度六)最终结合显示的需要,建立显示支撑系统,对不同的数据的展示方式进行定义,用户可以结合文字、图形等方式获得数据,接口定义第二章 技术点分析2.1纠错容错中文分词问题的研究已有二十多年历史,其间已提出了多种分词算法.总的来说,这些算法可分为三类:第一类为基于词典的机械分词算法;第二类为基于统计的分词算法;第三类为基于知识的分词专家系统。鉴于本系统的词汇范围有限,所以采用第一类为主,第三类为辅的方法来进行分词。纠错容错是要有一定前提的,即用户的输入要接受一定规则的约束,比如语言种类的约定(中文?英文?)、分隔符的约定、短语之间的逻辑关系表达约定(“and” “or” “not” )等方面,因为在目前技术情况下,尚未有针对任何自然语言的机器判读研究的成功,所以要进行一定的约束,主要体现在可以控制的范围内进行用户的表达分析,主要能够考虑到的范围如下表所示:范围解决方法日期对各种日期表达方式进行定义,然后采用优化的算法进行判断文字对同音 同码等文字和专业词汇表以及地域词汇表等进行比对特有词汇对相应领域内的专业术语,即不同叫法是指同一事务的方法进行容错 如:SP CP 服务提供商 内容提供商等缺条件短语系统对缺少的条件可以设置不同情况,不同人员的缺省值顺序容错即能够按照约定完成指定语言逻辑关系的判读,如“9月 10月 用户数 收入”和“9月用户数 10月收入”其实是两种意思特殊领域如完成法定假日的定义和判别,如“2005年 假日收入 工作日收入”“今年国庆”等词汇的判读2.2 业务规则判读主要是结合某行业特点,定制若干条行业规则,例如801001表示某SP编号、数据业务代表在移动通讯领域短信、彩信、IVR和WAP,而在电信行业则代表宽带、专线等,在此功能中完成该类判读只是完成万里长征第一步,关键所在主要是针对当前生产系统的数据库结构情况,给出一个能够直接在数据库中可以被识别的一系列SQL语言的集合2.3获得数据将一系列SQL语言逐个执行,并返回一系列展现系统能够识别的数据集合。2.4数据展现根据业务判读的结果以及获得的数据集合,根据用户喜好或者某种定义(比如折线图和饼图适合不同的表达),完成数据的最终展现,也可以选择将数据固化为文件或者email展示给用户第三章 搜索引擎支撑系统说明鉴于搜索引擎的复杂性,在此提出将搜索引擎分解为以下5个功能模块3.1 自然语言语义解释3.2 专有词汇转换3.3 潜规则定义3.4 情报搜索及其统计优化功能3.5 数据展示规则定义在以上功能模块中,所有规则的定义必须具有独立性(可以分别部署)、开放性(便于添加或者修正规则)、高效性(提高对于用户的相应速度)第四章 搜索引擎现状4.1.1 成功案例:google、百度4.1.2 特点:主要实现基于互联网文档的自然语言搜索4.1.3 技术实现:google 主要采用一套庞大的机器人体制和数据库归类功能,基于当前页面的文章主题和特征字典,以及网页的点击率等相关因素,由机器人定期到互联网上对相关网页完成归类,比采用一些缓存快照、对一些语言辅助词汇,比如“的”采用评比等功能,达到比较快的相应能力,从其支持拼音搜索功能来看,自身也有一定的自然语言容错机制。同样,另一个侧面,在一定复杂度内,用户可以随意使用google,但是由于其提供的功能过于强大,也有自己的一套搜索语法,最近网上就出现一系列关于搜索技巧的帮助型说明文档,比如google的自带页面(/intl/zh-CN/help.html),比如Google技巧:100个工业级技巧与工具,由此看出,想享受一些高级功能,用户还是需要掌握一定的规则的4.1.4 技术发展1)web2.0的出现,已经在一定意义上,预示着下一代搜索引擎的提高,参见:/news/newstopic/24/24447.shtml,主要加强相关网页的特征描述2)“语义网”,也越来越多的被相关领域所提到,参见/chinese/zhuanti/xxsb/699474.htm,/post/860/41344等等,很多说明的页面,但是当然只是一个理想状况,还有很长的路要走。经典示例:“一江春水向东流”“滚滚长江东逝水”“黄河之水由西而来,流入渤海” 这三句都涉及到“江河向东流”这一共同属性,但是目前尚未能够实现识别3)国内产生一个搜索联盟(中国搜索联盟(),2002年产生仅一年多的时间,该联盟的成员网站就已达420多家,成为中国最大的跨行业、跨区域的中文搜索服务平台)4)在一些行业内已经有语义识别的提法和要求,空中交通管制指挥监测系统的语音识别,参见(/application/anli/atccms/atccms.htm),其相比IBM的语音录入软件,就是缩小范围,指定一定的词汇表,然后计算机在词汇表范围内进行识别5)重要的相关基础研究 中文信息处理丛书 参见/chn/kanwu/t20031031_0803.htm第五章 目前系统的症结5.1 词汇表的约束范围问题所在就是一个度的问题,对用户的容错限制以及用户检索时短语数量和长度的限制,对短语数量建议设置在10个以内,对搜索长度建议设置在100个汉字以内5.2 词汇表到数据库的映射处理问题在于数据库的设计和定义,主要是能够明确的定义出每个字段的含义,风险所在就是系统确定后,数据库结构的下一次调整的代价比较大5.3 数据获得后与显示模块的接口定义需要综合考虑很多情况5.4搜索效率问题可以考虑实行华存技术或者分级体系,完成搜索任务或者难易度的分解,能够相对快速的保证80的搜索问题都能够处于比较高效的情况下完成,如果系统相应比较慢,则可以考虑异步提供数据。或者结合权限管理限制艰难搜索的次数也可以考虑对一些搜索频度比较高的搜索短语进行预搜索,然后将搜索结果固化后存放,以提高搜索效率第六章 结论同样基于以上系统进行开发的前提下,因为该系统所针对的是数据库,这样就可以将很多基于internet文档的搜索公司排除在外,原因如下:当前搜索引擎的考核标准是“查准”和“查全”,引申为技术领域对应的就是知识库的建设和搜索引擎效率的提高以在一定时间内覆盖更广泛的内容。知识库,相对应于该系统的短语体系,该系统的短语是限制在极小范围(中国移动的数据业务术语地点)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论