产品设计说明书.doc_第1页
产品设计说明书.doc_第2页
产品设计说明书.doc_第3页
产品设计说明书.doc_第4页
产品设计说明书.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

企业垂直搜索引擎产品设计说明书一、企业垂直搜索引擎工作原理 非结构化数据1、网络半结构化信息资源 目前,网络半结构化数据日趋丰富。完全结构化数据有非常良好的数据结构,如关系数据库、面向对象数据库中的数据。完全无结构数据是指声音、图像文件等无模式数据。而半结构化数据是介于完全结构化数据和无结构数据之间的一种数据类型。 半结构化数据虽然有一定的结构,但却是不严格的、多变的和不完整的。从网络的信息层次来看,网络半结构化信息的研究对象分为3个层面:网页层面、网站层面、网络层面。www网页:最主要的数据来源。 HTML(Hypertext Markup Language)。 目前互联网上最最要的数据描述语言 XML(extensible Markup Language)XML是标准的通用标记语言SGML(ISO8879)的一个子集,用于支持Internet亡有结构文档的交换。和HTML相比,XML是面向内容的,它具有更多样化的结构和更丰富的语义,并具有可扩展性良好、易于零握、自描述等特点,适用于web上的数据交换。XML数据模型与半结构数据模型有着很多的相似性,即它既为半结构数据的研究提供了广阔的应用前景,同时也推动了半结构化数据研究的发展。网站的半结构化研究:充分利用网页内容、锚文本、网页链接、链接的关系等进行导航。网络的半结构化数据抽取:通过挖掘利用网络信息半结构化的特点,设计智能搜索引擎,提供某一主题的高效检索,要更好地组织网络半结构化信息首先要对半结构化信息进行合理的组织描述。非结构化数据抽取在我们的实践中,我们发现一些最有价值的数据指标通常都包含在非结构化的数据中,尤其是文本。以汽车制造公司为例,比如我们要处理来自六个数据源(包括非结构化的文本字段)的数据,包括关于故障的原因或症状的专家注释、对制造商的呼叫中心和 消费者协会收到的客户投诉的以及诉讼案例的摘要。我们构建的解决方案每天可以自动处理数以万计的记录,以寻找可以提高安全性或其它重要问题的指标。非结构化数据抽取工具可以定义和一组特性,这些特性会捕捉适合于正在被分析的文档集合的关键术语和概念。特性可以是多单词术语、人名、组织名和地名、缩写和关键的数字,如货币金额和日期。数据抽取算法将设定的抽取规则定义为独立的概念,并使用这些概念挖掘有价值的数据信息。每个特性都有可能成为一段结构化数据。分词及索引器网络机器人或网络蜘蛛采集的网页,需要先经过中文分词处理,将信息转化为单词,中文分词是搜索引擎的核心技术之一。目前的分词技术基本有四种:A、 基于字符串匹配的分词算法B、 基于理解的分词方法C、 基于统计的分词方法D、 复方分词法分词之后还要进行分析,根据一定的相关度算法进行大量的计算通过索引器建立网页索引,才能添加到索引数据库中。索引数据库以文件方式存在。文件索引系统文件索引保存了有关文档的一些信息。索引以文档ID的顺序排列,每条记录包括当前文件状态,一个指向知识库的指针,索引域信息,倒排词表等。索引文件定义了6种基础数据结构Byte、UInt32、UInt64、VInt、Chars、String,这些基础数据类型都以字节为基础来定义,因此保证索引文件系统与平台无关。索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。从概念上映射到结构中,索引被处理为一个目录(文件夹),其中含有的所有文件即为其内容,这些文件按照所属的段不同分组存放,同组的文件拥有相同的文件名,不同的扩展名。此外还有三个文件,分别用来保存所有的段的记录、保存已删除文件的记录和控制读写的同步,它们分别是segments,deletable和lock文件,都没有扩展名。每个段包含一组文件,它们的文件扩展名不同查询器我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。查询器分两个部分,一个是查询分析器,负责构建查询条件;另外一个是查询检索器,负责访问索引系统或者分布式索引查询服务器,并计算返回结果.查询分析器从用户角度来说,是用户接口进入搜索的第一个交互接口,分词再其之前,但分词对用户透明,查询分析器访问检索接口,检索接口通过 RPC访问分布式文件查询服务器。检索结果通过分布式查询服务器的RPC管道返回,检索子系统合并返回结果,并进行筛选和排序(根据排序结果和用户访问页面请求,将检索结果分页,然后再次访问检索子系统获得页面摘要数据),之后将结果返回给用户界面。二、企业垂直搜索引擎技术成熟性 本产品从06年中即开始对该产品进行技术研究工作,已经具有了较高的成熟性,并且还通过了多个项目的实施考验,在可靠性,安全性上均有良好的客户评价,可靠性上可以连续不间断运行3个月以上,安全方面对于特殊信息均以不可逆加密方式存储,极大的保证了数据的安全性。07年初即开始进行搜索引擎的技术预研,目前已经完全掌握了各项技术细节及实现方式。07年10月成功实施企业博客搜索引擎系统,目前数据容量为五千万,采用8台机器的分布式系统部署,检索速度达到平均0.5s以内,中文分词识别准确率99.8%.服务器可不间断运行三个月以上。三、企业垂直搜索引擎技术路线描述(1)自动分类技术自动分类技术的研究始于20世纪50年代末,IBM公司的H.P.Luhn在这一领域进行了开创性的研究。1960年,Maron在Journal of ACM上发表了有关自动分类的第一篇论文On Relevance, Probabilistic Indexing and Information Retrieval ,随后许多著名的情报学家如K. Sparch、G.Salton及R.M.Needham等都在这一领域进行了卓有成效的研究。相对于国外的情况,我国开展自动分类的研究起步稍晚一些。80年代中期开始,我国的一些大学、图书馆和文献工作单位开展了档案、文献或图书的辅助或自动分类研究,并陆续研制出一批计算机辅助分类系统和自动分类系统,这些系统主要集中在中文处理领域。 目前,世界上已研究出多种具有一定效率的自动分类算法,而以下4种算法是最常用的: (1) KNN法(K-Nearest Neighbor) KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。 该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。 该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。 (2) SVM法 SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。 (3) VSM VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可以借助特征向量之间的内积来表示。 在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。 由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。(2)中文分词技术中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来分析哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 基于字符串匹配的分词方这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分(使每一句中切出的词数最小)。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 四、企业垂直搜索引擎关键技术实现的依据(1)实用性在系统设计和开发过程中,本着“以业务为基础,以需求为导向,以人为本”的原则,使系统具有良好的可操作性。(2)开放性充分考虑系统的开放性,保证业务软件具有统一的组件接口标准,数据系统具有通用的数据结构,从而支持三跨(跨操作、跨J2EE服务器,跨数据库),并能方便地进行数据的迁移和系统的切换;充分考虑与其他系统的接口,提供二次开发的接口。(3)安全可靠性系统的安全保密措施包括:防火墙、数据备份、帐号管理、身份验证、存取控制、角色定义,保证系统的安全性。(4)易操作性系统将始终贯彻“以人为本”的设计思想,充分体现系统的易操作性。用户接口及界面设计将充分考虑人体结构特征及视觉特征进行优化设计。界面友好、美观,操作符合日常工作流程需要。易学习、易操作,系统提示和帮助信息准确、及时。(5)可扩展性在设计、实现阶段要尽量预留接口,使得软件可以方便的增加新的功能组件或新的子系统。(6)高效性系统在设计阶段中,注重业务流程和算法的优化,并充分利用中间件和数据库系统的缓存技术来提高软件的运行效率。本产品采用C+技术做关键模块的底层开

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论