(机械制造及其自动化专业论文)网络制造资源搜索关键技术研究与应用.pdf_第1页
(机械制造及其自动化专业论文)网络制造资源搜索关键技术研究与应用.pdf_第2页
(机械制造及其自动化专业论文)网络制造资源搜索关键技术研究与应用.pdf_第3页
(机械制造及其自动化专业论文)网络制造资源搜索关键技术研究与应用.pdf_第4页
(机械制造及其自动化专业论文)网络制造资源搜索关键技术研究与应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 摘要 本文是在谢庆生教授主持的中国国家自然科学基金资助项目“面向协同商务制 造资源管理的关键技术研究”( 计划批准号:5 0 4 7 5 1 8 5 ) ,国家8 6 3 计划项目“面向 机电行业的a s p 应用服务平台开发与应用”( 课题编号:2 0 0 3 a a 4 1 4 0 1 3 、 2 0 0 4 a a 4 1 4 0 7 0 ) ,国家8 6 3 计划项目“面向a s p 平台的产品创新设计与制造资源管 理构件的研究和应用”( 课题编号:2 0 0 2 a a 4 1 5 3 1 0 ) 等项目的支撑下,以制造业信 息化理论方法为基础,以区域汽车零部件等行业为应用背景,对网络化制造系统建 模及应用实现等进行的研究。 网络制造资源管理系统是为快速响应市场并且有效的配嚣企业间的优势资源以 实现最短时间内完成企业的共同订单而构建的动态联盟。在面向制造资源管理系统 的信息搜索中,为用户提供一个个性化的搜索的工具是目前制造资源管理系统搜索 引擎亟待解决的问题。 论文主要论述了基于用户兴趣特征模型和基于朴素贝叶斯算法的数据库协同系 统信息过滤的个性化搜索引擎的设计和开发。 论文首先介绍了网络制造资源,以及网络制造资源个性化搜索引擎的研究背景, 国内外的研究现状水平,以及网络制造资源个性化搜索引擎的研究方向,随后论述 了目前搜索引擎及搜索引擎的关键技术;在第四章和第五章重点论述网络制造资源 用户兴趣特征模型和基于朴素贝叶斯分类算法的网络制造资源信息过滤,以及在实 现过程中采用的经典算法和对算法的扩充,最后介绍了协同设计的网络制造资源的 知识库和基于用户兴趣挖掘的推送机制。 本文实现的技术可以应用在网络制造资源检索系统上,具有良好的开发前景。 关键词:网络制造资源,搜索引擎,个性化,兴趣特征,信息过滤,朴素贝叶斯分类 算法 贵卅【大学硕士研究生学位论文 网络制造资源搜索关键技术研究与应用 a b s t r a c t n e t w o r k e dm a n u f a c t u r i n gr e s o u r c e ss y s t e mi sad y n a m i ca l l i a n c ef o rr a p i d l y r e s p o n d i n g m a r k e ta n d c o n f i g u r i n gs u p e rr e s o u r c e i n e n t e r p r i s e s ,i no r d e r t o a c c o m p l i s he n t e r p r i s e s o r d e ri nt h es h o r t e s tt i m e a sf o rm a n a g e m e n tr a n g e 、b e l i e f a n dp r o d u c tn e e d ,e v e r yu s e ri n t h i ss y s t e mn e e dp e r s o n a l i t ys o ,p e r s o n a l i z e d r e t r i e v a lt o o li st h a tn e e dt os o l v ea tp r e s e n t t h i sp a p e ri sm o s t l yw r i t t e na b o u td e s i g no f p e r s o n a l i z e dr e t r i e v a le n g i n ew h i c h i sb a s e do nu s e r si n t e r e s tf e a t u r em o d e l ,a n di n f o r m a t i o nf i l t r a t i o nb a s e do nd a t a b a s e c o l l a b o r a t i o ns y s t e mo f n a i v eb a y e r sa r i t h m e t i c t h i sp a p e r , f i r s t ,i n t r o d u c en e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s ,a n dt h e b a c k g r o u n do ft h en e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s r e t r i e v a le n g i n e ,a n dr e s e a r c h l e v a la th o m eo ro v e r s e a s ,a n dr e s e a r c hd i r e c t i o no fn e t w o r k e dm a n u f a c t u r i n g r e s o u r c e s r e t r i e v a le n g i n e ;s e c o n d ,t h i sp a p e ri sw r i t t e na b o u tt h ek e yt e c h n o l o g yo f r e t r i e v a le n g i n e ;t h i r d ,t h i sp a p e ri sp u te m p h a s i so ns e t t i n gu pu s e r si n t e r e s tf e a t u r e m o d e lo fn e t w o r k e dm a n u f a c t u r i n gr e s o u r c e sa n di n f o r m a t i o nf i l t r a t i o nb a s e do n n a i v eb a y e r sa r i t h m e t i c t h e t e c h n o l o g i e si n t h i sp a p e rc a nu s e di nn e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s r e t r i e v a la n dh a v eag o o df u t u r e k e y w o r d s :n e t w o r km a n u f a c t u r i n gr e s o u r c e ,r e t r i e v a l ,p e r s o n a l i z e d ,i n t e r e s tf e a t u r e , i n f o r m a t i o nf i l t r a t i o n ,n a v eb a y e r sa r i t h m e t i c 2 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 1 1 研究背景 第一章前言 制造产业,制造技术和产品正逐步走向国际化。如今的国际市场与以前相比 具有更激烈的竞争,更短的产品生命周期,产品多样化,分段的市场,产品多样 而复杂性和满足不同客户群的小批量生产等特性,这样的市场导致了制造业在全 球范围内重新分布和组合。竞争的加剧将促使竞争对手利用一切可以利用的制造 资源,主动积极地寻求市场机遇,灵敏地响应和适应客户多样化的消费需求,高 质量地为全球顾客服务,从而获得规模经济,促进企业的发展与壮大“。 网络化制造是制造企业为应对知识经济和制造全球化的挑战而实施的以快 速响应市场需求和提高企业( 企业群体) 竞争力为主要目的一种先进制造模式,它 通过采用先进的计算机网络技术、优化集成技术、制造技术及其它相关技术,构 建基于网络的制造系统。1 。在系统的支持下,企业可以突破空间地域对生产经营 范围和方式的约束,有效地开展产品设计、制造、采购、销售、运输和管理等各 种生产经营活动,实现企业间的协同和各种社会资源的共享、重组和集成,从而 高速度、高质量、低成本地为市场提供所需的产品和服务。网络化制造具有网络 化、敏捷性、协同性和集成性的基本特征: 网络化:网络化制造通过网络突破地域限制,凡乎是无限地延伸企业的业务 和运作空间,企业对远程资源的控制和管理可以像对本地资源一样方便。 敏捷性:网络化制造的敏捷性是指通过网络化制造,企业能够快速实现制造 资源的优化重组,快速响应市场需求。 协调性:网络化制造强调企业间的防作和资源共享,通过企业间的协作来提 高效率,缩短产品开发周期,降低制造成本。 集成性:网络化制造通过信息的快速传输与交互,实现企业内外的信息集成、 功能集成、过程集成、资源集成以及企业之间的集成。 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 1 2 课题的研究背景和来源 网络制造资源管理系统是为快速响应市场并且有效的配置企业问的优势资 源以实现最短时间内完成企业的共同订单而构建的动态联盟。一方面,每个用户 的兴趣取向在制造资源管理系统中受核心企业的影响很大,各个用户的信息需求 有一定的协作性和趋同性;另一方面,制造资源管理系统中的各成员对信息的需 求要按照自己的经营范围和经营理念进行搜索,要具有相对的独立性和自主性。 特别是随着客户对产品需求的个性化程度越来越高,制造资源管理系统中的成员 基于产品的信息需求也变得越来越个性化。因此,在面向制造资源管理系统的个 性化信息搜索中,为用户提供一个个性化的搜索的工具是目前制造资源管理系统 搜索引擎亟待解决的问题。”。 网络制造资源个性化搜索系统是一个针对网络上制造资源进行搜集、加工、 整理的服务系统,通过这种形式,可以梳理和有序化网络上的专业信息资源,向 用户提供智能化的信息服务。网络制造资源个性化搜索系统突破了传统的基于搜 索引擎的信息系统服务方式,能够真正减轻用户信息查询的负担。 1 3 国内外研究现状及水平 目前,国内外一些科研部门、高等院校、商业公司都在对智能化网络信息 检索进行研究,并且已经开发出了一系列成功的产品。 1 贵州大学的谢庆生教授的国家8 6 3 计划项目“面向a s p 平台的产品创新设计 与制造资源管理构件”、国家8 6 3 计划项目“面向机电行业的a s p 应用服务 平台开发与应用”、中日合作项目“网络化协同设计系统研究与应用”、国 家自然科学基金项目“面向协同商务制造资源管理的关键技术研究”。其中 在基于a s p 网络化制造的制造资源搜索中,提出了采用多层次信息智能检索 模型。该检索模型拟分为四个层次,其智能化程度逐级递增,依次分别为: 精确检索、语义检索、模糊检索、智能推理。 2 a r t h u ra n d e r s e n 的内嵌特定领域知识和使用推断( 证明式自然语言理解 技术) 的f s a 和e 1 0 is e 系统。 3 i b m 的基于规则和知识,使用启发的策略和简单自然语言的g l o b e n e t 系 4 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 4 9 统。 芝加哥大学开发的基于“问题库”的具体问答功能的智能搜索引擎 f a q f i n d e r 。 美国卡耐基一梅隆大学的基于机器学习的智能系统w e b w a t c h e r 。 美国m i t 大学开发的l e t iz i a 系统。 瑞典s i c s 实验室的p u s h 系统。 c m u 的基于用户查询行为和兴趣的寻找特定信息的专用智能软件 w e d o g g i e 。 南京大学研制的w e b a c c e s s 系统,它应用了机器学习、自然语言处理、超 文本等技术。 1 0 清华大学研制的p i n s 系统和b o o k m a r k 系统,它们能自动收集和记录用户 的习惯和兴趣,跟踪用户的信息需求。 1 1 首信采用的“以网对网”技术的智能搜索引擎。 1 2 浙江大学瞿海斌、王祥君、程翼宇等人针对现有中医药信息检索中存在的 某些问题,将基于词表的扩展检索、相似性检索等方法与数据挖掘技术相 结合,提出了一类智能化中医药信息检索系统的构建思想,据此建立了相 应的智能检索系统 但国内的智能网络信息搜索系统大多只是支持简单的自然语言理解和概念 检索,对机器学习、智能代理、信息挖掘等技术的研究很少。 1 4 论文工作内容 基于a s p 平台网络化制造资源个性化搜索,为了满足各种不同的制造企业和 个人用户的查找需要,通过以下内容完成: ( 1 ) 建立用户特征化兴趣模型: 本系统利用客户端浏览器的用户的兴趣需求选择和用户对检索结果的反馈 信息,推理用户在制造资源系统内部的兴趣需求取向。个人用户首次使用时,通 过注册系统将用户个人的信息、需求等个性信息输入系统,从而形成用户兴趣特 征化数据库;并将这些信息提交给系统,以便系统使用。 ( 2 ) 建立多数据库协同系统,基于朴素贝叶斯分类算法实现信息过滤: 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应_ i ; 本系统模型利用专业的制造资源知识数据库及用户兴趣特征模型库,形成多 数据库协同系统,提高网络信息获取的智能水平。在使用中,用户先设定网络制 造资源的样例空间,然后提交给系统,以修整系统面向用户的信息滤波结果,使 搜索结果更符合用户需求:系统可根据用户个人需求对样例空间进行更新和调 整,使它的分类更符合用户个性化要求,提高搜索效率和查准率。 1 5 已具备的基础和科研条件 本项目的研究具有良好的实验环境与应用平台。“十五”贵阳市企业信息化 重点建设项目“面向中小企业的信息化服务平台”初步建立了原型系统“中国西 部制造网”( w w w g y a s p c o r n ) ,完成了该系统规划和总体设计,其应用系统已初 步运行。该系统是一个面向中小制造企业网络化的a s p 应用服务平台,其建设目 标是,以西部地区制造企业为主要服务对象,构建个社会化、专业化、市场化、 规模化的a s p 服务平台,为中小企业提供适合于外包的应用服务。 课题组所在实验室具有开展研究工作所需的软硬件环境,包括微机、服务器、 数据库软件、开发工作、实验室环境等,可保证为研究提供良好的支撑条件。 1 6 论文创新 1 首次在网络制造资源搜索中建立用户的兴趣特征模型:在网络制造资源的信 息检索过程中输入相同关键词却输出相同的检索结果,因此需要搜索个性化。 2 首次在网络制造资源信息过滤中,建立网络制造资源的样例空间,形成多数 据库协同系统,采用基于朴素贝叶斯分类算法以提高信息过滤的效果。 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 第二章网络制造资源及网络制造资源搜索技术研究方向 2 1 网络制造资源 国际化的市场竞争和信息技术的快速发展促使制造环境发生了根本性的转 变。制造企业仅仅依赖企业内部的制造资源进行生产的模式己经与之不相适应。 借助信息技术,充分利用企业外的制造资源,生产出低成本,高质量的产品才是 制造企业赢得竞争的根本出路。网络化制造就是在这样的环境下产生的,并且也 是今后制造业所面临的紧迫的任务。 网络化制造是指制造企业利用网络技术开展产品设计、制造、销售、采购、 管理等一系列活动的总称。其核心是利用发达的网络和数据库技术,跨越空间的 差距,通过企业之间的信息集成、业务过程集成、资源共享,对企业开展异地协 同的设计制造、网上营销、供应链管理等提供技术支撑环境和手段,实现产品商 务的仂、同、产品设计的协同、产品制造的协同和供应链的仂、同,从而缩短产品的 研制周期和研制费用,提高整个产业链和制造群体的竞争力。 网络化制造资源从管理上分为。= 3 : 1 制造资源管理的业务建模 基于a s p 的动态联盟制造资源管理应用服务是从业务建模开始的,它是系统 进行管理商务活动最基本架构,是搭建基于i n t e r n e t 的制造资源整合的基础。 通过对面向供应链整合的制造资源管理业务建模,建立基于a s p 的制造资源管理 应用业务模型。 基于a s p 的制造资源管理系统通过将区域或行业内的一批各具特色的企业的 各种制造资源,包括产品资源、技术资源、设计资源、设备资源、人力资源、市 场渠道等资源通过有效的资源整合,加强企业间协同,促进优势互补,构建具备 整体优势的供应链、产业链、增值链,从而形成区域制造企业群的整体优势。 2 制造资源管理的资源建模 基于a s p 的网络化制造系统的制造资源包括满足制造企业开展网络化制造 需求的共享信息库、共享资源库、基础数据库等,包括制造资源的分类、描述、 评价、搜索等。基于a s p 的网络化制造系统制造资源信息主要包括4 类信息: 贵州大学硕士研究生学位论文 网络制造资源搜索关键技术研究与应用 1 ) 基础信息,包括企业人员构成,企业管理水平,企业产品概述,技术特 长等基础信息; 2 ) 能力信息,包括技术储备信息,产品信息,工艺能力信息,设备能力信 息,人力资源能力信息等; 3 ) 业绩信息,包括产品的市场情况,产品质量信息,售后服务信息,信誉 度等信息: 4 ) 辅助信息,包括企业组织与管理模式,标准化信息,质量认证体系情况 等。 3 网络制造资源评价模型 评价指标体系是制造资源选择的关键,它决定所选择资源的特性。对于定单 企业( 盟主) 不同的制造任务,其对加工设备或工人技术水平的要求不同,都会 导致对此任务的加工质量、时间、成本、服务等方面的不同要求,因此需要建立 一个评价体系,对联盟企业加工该项任务的质量、成本、服务等方面作综合考虑, 为联盟伙伴的选择提供决策支持。 由于参与评价的个体所关心的评价内容不同,如客户关心的是价格、质量等 因素,制造商则关心的主要是利润,因此评价总目标必须在综合分析的基础上, 最大限度地提取出不同的评价目标,并通过层次分析法建立多目标评价体系。 4 网络制造资源搜索技术 在网络化制造的制造资源搜索中,采用多层次信息智能检索模型,该检索模 型可以分为四个层次,其智能化程度逐级递增,依次分别为精确检索,语义检索, 模糊检索,智能推理。 2 2 搜索引擎综述 2 2 1 搜索引擎的起源 在1 9 9 3 年以前,w w w 用户在互联网上查找信息时,通常是从某一w w w 服务 器的某个u r l ( 统资源管理器) 出发,沿着一个个超级链接去访问其他网页, 这种穷举式的浏览方法在w w w 站点很少时还可以勉强凑合,但随着w w w 站点的同 益增多,穷举式的查询使浏览者如同置身于个无穷无尽的迷宫之中这时,手工 查找既费时又费力,并且难以找到令人满意的内容。由于 n t e r n e t 没有权威机 - 8 一 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 构进行统一管理,它不象图书馆那样,向用户提供的是经过选择和分类的、有序 的、系统的、完整的信息;并且也不象商用联机系统,信息是按照一定格式加工 处理,按类型或学科分别建立数据库以便于检索和利用。i n t e r n e t 上信息具有 以下几个特点m : 信息内容覆盖全社会领域,涉及范围广,数量惊人; 信息分散、无序、无组织; 信息动态化,存放位置缺乏固定性,信息的增删更新、更换地址每时每刻都在 进行; 信息利用价值差异大,有用和无用的相互混杂交织在一起。 基于上述原因,网络信息的检索和利用成为人们查询信息的障碍。在这种情 况下,长期以来习惯的信息获取方式已经不能满足人们的需要,为了获取信息, 用户需要自己来完成对所需信息的组织、整理、优化。因此,急需建立一个能在 i n t e r n e t 网上高效查找信息的工具,这个工具就是搜索引擎。所谓搜索引擎就是 以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处 理,为用户提供检索服务,从而起到快速检索信息的种网络工具,它的出现为 人们网上信息检索提供了巨大的方便。 一些站点为了方便用户浏览阅读,将手工收集到的站点信息写成h t m l 文件, 按一定方式组织、分类,成为目录式的结构,称为c a t a l o g 或d i r e c t o r y 。几乎是 同时,另一批技术人员着手研究用计算机代替人工进行超链接的跟踪,并记录下 各站点的u r l 及摘要信息。这种程序被称为r o b o t 或爬行器,利用它们建立起来的 查询系统就被称为s e a r c he n g i n e 。这两类系统在不断的发展中互相借鉴,这个 阶段可以看作搜索引擎的“雏形期”。1 9 9 4 年4 月2 0 日,w e b c r a w e r 公司的 w e b c r a w l e r 搜索引擎在网上正式发布,6 月l y c o s 公司建立的l y c o s :9 4 年底y a h o o 公司创办,正式建立y a h o o 站点:9 5 年下半年e x c i t e d 公司发布了e x c i t e 搜索引擎; 这一时期的搜索引擎处于试运行期,数据库容量较小,但是已经对i n t e r n e t 的发 展起到了极大的促进作用,这个阶段是搜索引擎的“基础建设期”。1 9 9 6 年进入 搜索引擎的“容量建设期”,这时候的主流搜索引擎所引用的页面一般都超过一 千万。1 9 9 7 年竞争的焦点是制作高质量的索引,搜索引擎的发展处于“质量建设 期”,1 9 9 8 年之后,国外搜索引擎的发展进入了“多向型发展期”。有下面几个 贵州大学硕士研究生学位论文 网络制造资源搜索关键技术研究与应用 发展趋势: 1 大型搜索引擎在诸多技术方面走向成熟,比如智能化“网络机器人的出现, 2 一批小型的搜索引擎从通用型转向专业化。 3 出现了元搜索引擎,使得小型搜索引擎利用分布式技术,可以在大型搜索g 擎的数据库中进行搜索。 2 2 2 搜索引擎的发展 一般来说,人们通常把搜索引擎对结果排序的依据不同而分为三代1 ,第一 代搜索引擎是以1 9 9 5 年出现的y a h o o ,a l t a v i s t a 和i n f o s e e k 为代表。它们根 据相关度对结果进行排序。这种相关程度主要是以匹配到的关键词的多少、关键 词在页面上出现的位置及关键词在页面上出现的频率来加权和计分,因此这种相 关度仅仅是系统对检索结果的一种判断,并不一定符合用户的客观需求。 第二代搜索引擎是以1 9 9 8 年出的g o o g l e 和d i r e c t h i t 为代表。它们是根据 以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要 性,或者根据一个网站被其他网站链接的数量来确定网站的重要性。如d i r e c t h i t 以被大多数用户访问的情况认定一个网站的重要性:第二代搜索引擎在发展过程 中更强调了人的因素,主要表现在以下三个方面: ( 1 ) 能利用自然语言查找信息,可以将自然语言自动翻译成系统能理解的专业术 语,进行精确查找: ( 2 ) 有判断地收集信息,根据众多网络用户行为特征来取舍信息; ( 3 ) 人工分类,在第一代搜索引擎中,人们对y a h o o 和s o h u 的分类评价比较高, 那是因为它们有大量的人工对信息进行分类。第二代搜索引擎同样继承了这 个优点,并且继续强调人工分类的重要性。 第三代搜索引擎是正在研究和开发的智能搜索引擎,个性化要求是它的主要 特色之一。 2 2 3 搜索引擎的分类及特点 1 按照信息的组织分类有目录型、全文型、和混合型搜索引擎: 目录式分类搜索引擎( c a t a o go rd i r e c t o r ys e a r c he n g ir l e ) ,或称按主题 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 查询型搜索引擎,是将信息分门别类,按照传统的分类方式分为各级目录。用户 一般采取逐层浏览目录,逐步细化来寻找合适的类别直至具体信息,y a h o o 就是 其著名代表,检索系统将搜索到的i n t e r n e t 中的所有资源按其主题分为若干大 类,在大类的下面分设若干二级,三级类目,甚至十几级类目。优秀的网站目录 经常设有“交叉显示”即同子类目可以同时出现在不同的类目下。而它们的目 录体系则因各自采用不同的分类方法而不同,在这里传统的图书馆的分类方法有 可能被采用,目录式分类搜索引擎由系统将搜索到的网络信息分别归类。这一工 作大部分系统则由人工操作完成,用户只要遵循该系统的分类体系按图索骥、层 层深入即可,这与图书馆中传统的分类标引功能十分相似。特点是质量和匹配精 度较高,能够有效涵盖目前普遍的主题,用户操作也十分方便。不足之处是搜索 范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好的涵盖;类 目问的交叉又导致重复和资源浪费;各个搜索引擎没有统一的分类方式,检索结 果直接依赖于用户的主观判断;且因为需要人工维护,周期长,代价昂贵。 全文搜索引擎( f u l l t e x ts e a r c he n g i n e ) ,或称按关键字查询型搜索引擎, 是指能够对各网站的每个页面中的每个词进行搜索的搜索引擎“1 ”1 。通过用户直 接输入检索词、查找索引数据库用检索词标引的的索引记录来寻找用户所需信息 资源、检索结果,通常是一个个网页的u r l ( u n i f o r mr e s o u r c el o c a t o r ,统一资 源定位,在i n t e r n e t 的w w w h h 务程序上用于指定信息位置的表示方法) 和一段段的 文字摘要,并且依照匹配率排序返回给用户。在检索中可以使用布尔逻辑检索、 短语或邻近检索、模糊检索、自然语言检索等高级检索方式,可以限制检索对象 的地区、网络范围、数据类型、时间等,可对满足特定条件的资源准确定位。a 】t a v i s t a ,e x i t e ,h o t b o t ,i n f o r s e e k ,h y c o s ,p e n t e x t ,w e b c r a w l e r 等就是著名的 检索型工具。全文搜索引擎的特点是信息量很大,在理论上用户可以对i n t e r n e t 所有网站的每一页文档进行检索。因此它的查全率较高;而且此类搜索引擎依赖 于软件自动定期维护,周期短,发展快,代价相对便宜。不足之处是它提供的信 息虽然多而全,但是可供选择的信息太多反而降低了查准率,由于没有分类式搜 索引擎那样清晰的层次结构,只能利用关键字来检索,精度依赖于系统的标引、 分词技术,经常返回低效信息;对系统软件的健壮性和网络质量要求很高。 混合型搜索引擎是针对全文和分类搜索引擎的缺点而设计的。有的搜索引擎 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 是分别提供两种检索方式供用户选择;有的是在分类的基础上在进一步进行全文 检索,后者既可以使用户在分类目录中浏览,保证了一定的查准率,又可以使用 户进行全文检索,查找特定资源。现在多数的搜索引擎都朝这个方向发展。 2 按照信息内容分类有综合型、专业型和特殊型搜索引擎: 综合型搜索引擎:又称为通用型搜索引擎,内容包罗万象,涵盖各个领域和 专业,适用面广,用户利用它可以检索几乎任何方面的资源,y a h o o 、a 1 t a v i s t a 等许多流行的大型搜索引擎均属这一类。这种搜索引擎获得信息量大,每次检索 返回结果很多,但是由于涉猎领域太多,在需要得到某一特定领域的专业信息, 会使用户很难从成千上万的检索结果中快速过滤出真正需要的信息,反而导致各 个领域的信息搜索都不完整、不全面。 专业型搜索引擎是指就某一特定专业的信息资源进行检索的搜索引擎。专业 型搜索引擎采用详尽和专业的分类、标引方法对信息资源重新标引描述,在相应 的检索机制中设计利用于该专业领域密切相关的技术方法和检索语言,从而使关 于该专业的查询精度大大高于综合型搜索引擎专业型搜索引擎是搜索引擎技术 发展的一个新方向,但是目前数量较少,涉及专业范围有限,尚不能满足社会需 要。例如:m c g r a e h i l lr y e r s o n 公司建立的r r s s ,社会科学研究资源。 特殊型搜索引擎是指那些用来检索某一类型信息的或数据的检索工具,通常 所说的黄页、白页、指南与名录( d i r e c t o r i e s & g u i d e s ) 就是其中不同的类型。1 。= ”。 3 按照检索工具的数量分类有独立搜索引擎、元搜索引擎和集成搜索引擎: 独立搜索引擎有自己的数据库,利用自身的r o b o t 程序或是使用人工方式搜 集信息,并依据自己的的处理规则对这些信息进行组织和分类,最终为用户反馈 出相应的查询结果或者u r l 。独立搜索引擎一般都会有多种搜索策略,如:全文检 索,简单检索,高级检索等。目前大型搜索引擎多为独立型。象y a h o o 、a l t a v is t a , 国内的有搜狐、悠游等。这种最基本的搜索引擎存在一定的局限性: ( 1 ) 数据库容易过时:由于采用自己的数据库,更新时间是固定的,用户无 法从返回的结果中看出那些信息是最新的,哪些是过时的: ( 2 ) 覆盖面有限:各个独立搜索引擎系统的覆盖区域各不相同,且均具有一 定的局限性; ( 3 ) 利用性有限。文档相关性评估采用的技术主要依赖于备选关键字的匹配 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 情况,因此查询不可能是精确的,目前各个搜索引擎处理文档信息的方 法不同,对文档相关度的评估结果存在很大的差异; ( 4 ) 用户接口有限:不同搜索引擎具有不同的检索策略和用户界面,有的存 在界面不友好,通用性差,对用户的使用有技术要求,即需要用户提供 良好的表达要求。 元搜索引擎由于每个独立搜索引擎收集站点的专业不同、专业分类方法不 同、搜索引擎速度、信息收集量也不同,有时仅使用一两个搜索引擎还是难以准 确查询到最有用的信息。元搜索引擎就是为解决这样的问题而产生的。这种搜索 引擎要利用其它搜索引擎。自身仅是作为用户和其它搜索引擎的中介,用户看见 的是简单统一的集成查询界面,它将检索词在若干个搜索引擎中同时进行查询, 将查询结果进行相关度排序、去重后,返回给用户。元搜索引擎不通过机器人程 序为_ l v l v w 建立索引,因此不需维护庞大的搜索引擎数据库,也不需要构造复杂的 搜索引擎,查询结果能更好的满足用户要求;但是网络负载大,时延较大。元搜 索引擎又可以分为两类:一类是基于客户端的元搜索引擎,它是利用客户端计算 机进行合并处理、相关度排序等运算,这样的搜索引擎对客户端计算机要求较高。 另一类是基于服务器端的元搜索引擎,它是利用搜索引擎服务器进行这些运算。 从外观上看,这类搜索引擎看起来和独立搜索引擎一样,但比任何一个单一的搜 索引擎查询结果要全面。 集成搜索引擎是指用户只要通过一个网站,即可选择多个搜索引擎依次进行 检索。这与元搜索引擎的工作方式有些相似,只是元搜索引擎只要一次性输入检 索要求,就可以同时让多个搜索引擎一起或分别进行检索,并对检索结果进行分 析整理:而集成搜索引擎通常是逐一输入检索要求,然后从搜索引擎列表中每次 选择一个进行检索,一般不对检索结果进行处理。a l l i n o n e 搜索公司的 a l l i n o n es e a r c hp a g e 可以看做是集成搜索引擎的代表。 4 新型搜索引擎 随着网络通信技术的发展,出现了一些搜索引擎的新技术,研究的趋势是搜 索引擎的个性化和智能化搜索引擎。 基于人工智能的网络信息检索是近年来出现的一种新型检索方式,它融合了 专家系统、自然语言理解、用户模型、模式识别、数据库管理系统以及信息检索 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 等领域的知识和先进技术。对于因特网这样一个分布式的信息空间,采用人工智 能方法是实现人机交互学习的一种较好的方法,它可以代替人类完成繁杂信息的 收集、过滤、聚类以及融合等任务,可以在因特网中导引用户,在用户进行搜索、 浏览时给予直接的支持。 网上智能信息检索是帮助人们快速获取信息的有效手段。然而,现有系统仍 然存在一些缺陷或不足,如非个性化检索方式适应用户兴趣变化的能力较差、用 户与检索系统的交互方式比较单调、缺少适应信息源信息变化的能力等。 为了改善信息检索与提供信息的质量,针对现有网络检索工具的缺陷,出现 了一种个性化网络信息检索系统,将网络信息查询与收集有机结合起来,建立面 向用户兴趣的新型信息服务系统。个性化网络信息检索系统实现自动识别用户兴 趣、自动生成用户角色模型,帮助用户生成检索请求、查找、接受推送信息等。 而且,系统能根掘用户兴趣模型判断返回结果和用户兴趣的匹配程度,并实现全 文提供功能。1 ”3 。 2 2 4 信息获取系统主要评价指标 搜索系统的合理评价可以知道信息获取系统的优点和缺点,从而引导用户去 选择合适的系统,对于提供搜索系统服务的商家来说,也可以根据对系统的评价 来进一步提高服务质量。在评价的过程中,主要由用户对搜索的结果进行评价【1 “。 i 信息的覆盖率,即该系统所包含信息的范围,数量: 2 系统响应时间,即查询请求与结果返回之间的平均时间间隔; 3 结果输出方式,即结果是以什么样的格式给出的; 4 召回率,是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡 量的是检索系统( 搜索引擎) 的查全率; 5 用户获取搜索结果所需要付出的努力; 6 精度,是指检索出的相关文档数与检索出的文档总数的比率,衡量的是信息 获取系统的查准率。 2 3 网络制造资源搜索技术研究方向 网络化制造资源检索系统对信息搜索的模式要求:不同用户对信息搜索的 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 要求不同,因此网络制造资源的信息搜索系统应该能体现和满足不同用户的检 索要求,并能根掘不同用户的操作模式准确反馈用户所需的信息。可见,基于网 络制造资源的信息搜索比传统w w w 搜索要求更高,优势在于搜索的范围是确定 的,因此可以通过建立以产品信息为纽带组成的临时动态关系,围绕产品相关 的信息发现内在的关联规则。 网络化制造资源搜索的研究方向中,采用多层次信息智能检索模型,用户可 以一种统一的查询方式进行检索,系统内部处理过程对用户完全透明。该检索模 型可以分为四个层次”“1 ,其智能化程度逐级递增,依次分别为: ( 1 ) 精确检索:实现与用户查询需求进行精确匹配的检索功能,并用于相关 实例信息处于分布状态的跨页面检索。 ( 2 ) 语义检索:能检索与用户查询中所表达的概念具有同义、上下位等语义关 系的实例信息。 ( 3 ) 模糊检索:可以接受用户查询中的模糊量,能检索与用户查询相符的实 例信息。 ( 4 ) 智能推理:能根据用户查询所表达的蕴涵信息进行检索。 系统利用多种检索技术相辅相承,通过模糊扩展,对模糊查询量精确化, 在此基础上根据语义信息,实现语义扩展( 包括同义扩展、语义蕴涵、语义外 延和语义联想等) ,采用精确匹配与智能推理相结合,最终完成检索任务。 2 4 网络化制造资源搜索系统的特点 网络化制造资源检索系统与传统搜索引擎相比,虽都是面向i n t e r n e t 环 境下异地异构信息的搜索,但由于网络化制造的制造资源本身的特点和用户的 特殊要求,以及考虑到网络化制造资源评价和动态联盟等多方面的因素,使得 - l5 零 h ph 二】 一 二 一 h 器 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 网络化制造的制造资源检索系统和传统搜索引擎相比存在较大的差别,网络化 制造资源搜索要求如下: 网络化制造资源检索系统的结构要求:由于网络化制造资源是广义的制造 资源,依次从大到小主要包括企业层、车间层、单元层、工作站层和设备层5 个层次的制造资源。因此,本系统要求具有能够检索到不同层次的制造资源, 在结构设计时就从企业层、车间层、单元层、工作站层和设备层5 个层次上来 考虑。 网络化制造资源检索系统对信息搜索的能力有着特殊的要求:多样化异 构信息搜索的能力。要求信息搜索系统能从i n t e r n e t 和本地数据库多样化的 信息中访问和搜索相关的信息,要求具备处理异构信息的能力。分布式信息 搜索的能力。要求虚拟企业的信息搜索系统具备对分布式信息源搜索的能力。 异构信息的统一性。不同虚拟企业成员的信息存在结构的多样性,而对用户 而言需要以一种统一的表达方式,因此要求信息搜索系统具备将检索到的信息 进行抽象并转换成统一通用的表示即异构信息统一化的能力。异构信息的集 成性。要求系统将已通用化表示的数据通过匹配关键词加以集成。 网络化制造资源检索系统对信息搜索的结果要求如下:0 信息的准确性要 求。用户的信息搜索范围是固定的,要求比传统的搜索引擎有更精确的搜索结 果。信息的关联性。传统的搜索引擎的反馈结果往往是大量散乱的无关信息, 而虚拟企业信息搜索要求反馈的信息之间存在关联性,从而便于用户从一系列 有序的信息中分析归纳总结。检索范围的要求:网络化制造资源检索系统 仅仅搜索的结果都是网络化制造资源,而传统搜索引擎搜索的结果是包含检索 词的任意网络信息。 2 5 本章小结 本章介绍了网络制造资源的概念及核心,并从宏观上介绍了网络制造资源的 四个模块,网络制造资源的业务建模、资源建模、评价模型、网络制造资源搜索 技术;介绍了搜索引擎的起源、发展和分类特点,在本章的结尾引入了网络制造 资源搜索技术的研究方向。 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应用 第三章网络制造资源个性化搜索技术 目前的检索工具虽然包含了一定程度的智能化因素,但在网络制造资源中, 如何成功地为用户导航,并兼顾其个性化特征是目前亟待解决的问题,论文就这 些问题提出了网络制造资源个性化搜索系统的设计方案,并利用现有的技术优 势,构造既能满足个性化需求又具有较强智能学习功能的个性化网络信息检索系 统。 网络制造资源个性化搜索系统的业务流程: 专业的制造业信息采集引擎r o b o t 采集网络上的制造业信息,并通过索引技 术,将制造信息保存到专业的索引数据库中,同时提取u r l 信息并保存至f j u r l 库中; 用户首先登录个人兴趣页面,系统从用户特征兴趣库中自动提取出用户兴趣特 征;用户在浏览器提出查询要求,输入关键词,系统将用户关键词以及用户的兴 趣特征同时提交专业索引数据进行搜索,按统一的相关度评级排序,组织起来返 回,返回的信息同时要经过朴素贝叶斯算法的分类,确定返回的信息是否是用户 所需求的信息,对返回信息进行过滤,若为用户需求的信息,则信息呈现给用户, 反之将信息丢弃;系统通过与用户的交互,可以修改用户的个人兴趣特征:同时, 系统对用户所确认的信息进行内容挖掘,对用户兴趣加以预测和补充,如图3 1 。 基于网络制造资源的个性化搜索技术,在进行搜索的过程中同样要引用网络 中的搜索技术,例如:r o b o t 技术,中文词语切分技术,检索结果处理技术,查 询接口实现技术,信息呈现,数据挖掘技术,信息存储技术等。 贵州大学硕士研究生学位论文 网络制造资源搜索关键技术研究与应用 中文词语切分技术 检索结果处理技术 查询接口实现技术 信息呈现 用户个人信息注册 用户兴趣特征模型 3 1 搜索基础技术 搜索引擎实际上可以看作传统信息检索( i n f o r m a t i o nr e t r i e v a l ) 服务在网 络上的推广和深化,因此搜索引擎技术是以经典的信息检索技术为基础上的。同 时它又是应用在网络上,服务于网络用户。因此熟悉信息检索的理论和信息检索 在网络上的实现技术是搜索引擎开发不可或缺的重要环节。信息检索涉及信息的 表示、组织和存取。 3 1 1 中文词语切分技术 中文与英文不同,句子每个词语间没有固定的分隔符,因此在进行词频统计 等处理时要先进行词条切分和技术处理,切分的精度影响查询精度。中文分词一 直是自然语言理解的一个研究方向。目前分词的算法很多,常用的有正向最大匹 配法,逆向最大匹配法、最佳匹配法,逐词遍历法、抽取中频字串法,此外还有 邻接约束法、最小分词法等等。 综合来讲,汉语分词技术的重点应该在三方面:一是如何建立一个高效的词 贵州大学硕士研究生学位论文网络制造资源搜索关键技术研究与应朋 库;二是如何选择一个好的算法进行字符串匹配;三是如何减少或消除词语切分 中的切分歧义3 。 3 1 2 信息检索模型 信息资源如果没有统一的数据模型和查询语言,没有统一的结构,并且在信 息容量巨大,资源分散且信息不断更新的情况下,将会导致查询过程中产生“信 息迷向”和“信息过载”现象,用户试图通过浏览资源的方式来查询所需信息会 变得越来越困难;而且有时也有可能根本搜索不到信息。因此,如何有效检索教 育资源库中的有用资源,帮助用户方便、准确地获取信息,成为一项重要而迫切 的研究课题。 在信息检索领域中有三大经典的模型,它们是:布尔模型( b o o l e a nm o d e l ) 、 向量模型( v e c t o rm o d e l ) 和概率模型( p r o b a b i l i s t i cm o d e l ) “。在目前,布 尔模型应用最为广泛,系统和用户之间的交互都是以布尔表达式来完成的;向量 模型应用也相当广泛,它对信息处理按照向量方式,从而以向量代数以及集合论 方法来解决信息检索中的实际问题:概率模型是以概率论为基础,运用概率统计 学方法来挖掘信息特征,理解用户查询语义。近几年,在这三种基本信息模型的 基础上,加入了机器学习技术,从而使信息检索系统更加的“智能”。 1 布尔逻辑模型 布尔逻辑模型( b o o l e a nm o d e l ) 是最早也是最简单的一种检索模型,其理论 已基本成熟。如果我们用检索词的逻辑组合来形成检索式,把用户查询的检索式 与文档进行逻辑的( 而非数值的) 比较而获得结果,则由此出发就将形成布尔逻辑 检索模型。搜索引擎接受用户提交的布尔逻辑关系检索式。查询搜索引擎倒排档, 确定查询结果。标准布尔逻辑模型为二元逻辑,采用逻辑符“a n d ”、o r ”、”n o t ” 表示“与”、“或”、“非”,使用逻辑表达式对数据库进行查询,找到包含关 键词即逻辑关系的网页,但查询结果一般不进行相关度排序。目前所有的搜索引 擎均支持布尔逻辑搜索方法,但在布尔检索方面存在差别,主要表现在以下几个 方面: 有些搜索引擎以符号表示布尔算子,如用“+ ”表示“a n d ”,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论