




文档简介
北京工业大学 硕士学位论文 基于Agent的人才供求信息双向多级匹配模型的设计与实现 姓名:徐廷建 申请学位级别:硕士 专业:软件工程 指导教师:朱青;郭清顺 20071201 摘要 摘要 本文基于A g e n t 技术的双向智能自动匹配系统模型研究,并将它可应用 于存在双向选择的求职招聘匹配中。通过进行网络信息整合与模糊匹配,克服传 统人工或半人工双向匹配的缺点,实现双向匹配的自动智能处理。通常,模型系统 双向匹配过程中,往往难得到精确匹配解,而实际上人们往往只想要模糊匹配解。 对此,特地采取多级匹配的模型即引入关键匹配项和匹配等级的概念来解决。关 键匹配项是用户在提出申请时对匹配对象所列出的最基本要求条件。显然,只要 该项不满足时,就可拒绝与之匹配。匹配等级是将用户要求的双向匹配条件的符 合程度,按照双方相互满足要求的个数占全部满足要求个数的比例而分为匹配等 级数1 0 1 0 0 。双向匹配模型系统通过感矢H A g e n t 获得用户对模糊匹配的接受程 度信息,传发给协调A g e n t 并存入数据库,用以指导后续匹配处理。对异地同源数 据库问的分布式信息匹配共享问题拟采用“多A g e n t 间的协作机制”来解决。 通过人才供求信息双向多级匹配模型的应用,能够让用人单位发布用人信 自舌,看到系统自动产生对其职位匹配等级从高到低排序的求职者信息;同样也 能够让求职者发布求职信息后,看到系统自动产生对其求职要求匹配等级从高到 低排序的用人单位职位招聘信息。 关键词:双向多级匹配模型;A g e n t ;数据库 北京T 业人学T 程硕t j 学位论文 A b s t r a c t A c c o r d i n gt ot h er e s e a r c ho ft h eb i d i r e c t i o n a li n t e l l i g e n ta u t o m a t i cm a t c h s y s t e mm o d e lb a s e do nt h ea g e n tt e c h n o l o g y ,t h i sa r t i c l em a ya p p l yi t t o p r o c e s so ft h ee m p l o y m e n ta d v e r t i s em a t c he x i s t e dt w o - w a yj o bc h o i c e s e e k se m p l o y m e n t N e t w o r ki n f o r m a t i o nc o n f o r m i t ya n dt h ef u z z ym a t c h o v e r c o m et h es h o r t c o m i n g so ft r a d i t i o n a la r t i f i c i a lo rh a l fa r t i f i c i a lb i l a t e r a l m a t c h i n g ,r e a l i z i n gb i l a t e r a lm a t c h i n ga u t o m a t i ci n t e l l i g e n tp r o c e s s i n g I n g e n e r a l ,i nt h em o d e ls y s t e mb i l a t e r a lm a t c h i n gp r o c e s s ,i ti so f t e nd i f f i c u l tt o o b t a i nt h ee x a ms o l u t i o n ,b u tt h ep e o p l eu s u a l l yo n l yw a n tf u z z i l yt om a t c h t h es o l u t i o ni nf a c t R e g a r d i n gt h i s ,a d o p t i n gt h em u l t i s t a g em a t c hm o d e lt h a t i st h ec o n c e p to fi n t r o d u c t i o nk e ym a t c hi t e ma n dt h em a t c hr a n k ,c a ns o l v e t h ep r o b l e m K e ym a t c hi t e mi st h em o s tb a s i cr e q u e s tc o n di t i o nl i s t e db y u s e ra n da c c o r d e dw i t h m a t c h i n go b j e c t w h e n a p p l i c a t i o n o c c u r e s O b v i o u s l y ,m a c h i n gp r o c e s sw i l ln o tb e g i nw h e nt h i si t e mc a nn o tb e s a t i s f i e d M a t c hr a n k :I ti st a l l i e st h eu s e rr e q u e s tb i l a t e r a lm a t c h i n gc o n di t i o n t h ed e g r e e ,m u t u a l l ya n s w e mt h ep u r p o s ea c c o r d i n gt ob o t hs i d e st h ei n t e g e r t oo c c u p yc o m p l e t e l ya n s w e r st h ep u r p o s et h ei n t e g e rp r o p o r t i o nt od i v i d e i n t op r o g r e s s i o na n dS Oo nm a t c h10 一10 0 I nb i l a t e r a lm a t c h i n gm o d e l s y s t e m ,u s e r sr e c e p t i v i t yi n f o r m a t i o nt ot h et h ef u z z ym a t c hc a nb eo b t a i n e d b y s e n s a t i o nA g e n t ,p a s s e dt oc o o r d i n a t e sA g e n ta n ds t o r e d i n d a t a b a s e ,w i t ht h ep u r p o s eo fi n s t r u c t i n gf o l l o w i n gm a t c hp r o c e s s ,P l a n st o t h ed i f f e r e n th o m o l o g o u sd a t a b a s ed i s t r i b u t i o n a li n f o r m a t i o nm a t c hs h a n n g q u e s t i o nt ou s e ”d u r i n gt h em u l t i - A g e n tc o o p e r a t i o nm e c h a n i s m ”t os o l v e T h r o u g ht h ea p p l i c a t i o n o ft a l e n t e d p e r s o ns u p p l ya n dd e m a n d i n f o r m a t i o nb i d i r e c t i o n a lm u l t i s t a g em a t c hm o d e l ,e m p l o y e rc a ns e a r c ht h e j o bs e e k e r si n f o r m a t i o na u t o m a t i c a l l yg e n e r a t e d a n d a s c e n d l l y o rd e a s c e n d l l ys o r t e da c c o r d i n gt o t h er a n ko ft h em a t c ht ot h ep o s i t i o n A b s 仃a c t s u p p l i e d ,a f t e rt h ei s s u eo ft h es e r v a n ti n f o r m a t i o n S i m i l a r l y ,j o bs e e k e rc a n a l s os e a r c hf o rt h ei n f o r m a t i o n ,t h a tt h es y s t e ma u t o m a t i c a l l yp r o d u c e da n d a s c e n d l l yo rd ea s c e n d l l ys o r t e da c c o r d i n gt ot h er a n ko ft h er e q u e s tm a t c ht o t h ep o s i t i o na f t e rt h ei s s u eo ft h ei n f o r m a t i o no fj o bs e e k K e y w o r d :B i d i r e c t i o n a lm u l t i s t a g em a t c hm o d e l ;A g e n t :d a t a b a s e 1 1 1 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 关于论文使用授权的说明 日期:丛丛z 砰 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 签名:导师签名:日期:塑! 兰 第l 章绪论 第1 章绪论 I n t e r n e t 研究开发始于1 9 6 9 年,它起源于美国国防部高级研究计划署 A R P A N E T 网。A R P A N E T 的最初设计是用来连接分散在广域地区的异构计算机系统, 目的是当网络中的一部分遭受外来侵袭而瘫痪时,系统的其它部分仍能正常工 作。因此A R P A N E T 规划在计算机之间提供很多路由,计算机之间可以通过其中任 一路径进行连接,而不是只通过固定的连接。A R P A N E T 出色的设计使其成为 I n t e r n e t 的雏形。 2 0 世纪9 0 年代随着w w w 的应用越来越普及,I n t e r n e t 的规模变得越来越 大,发展速度十分惊人。据统计,I n t e r n e t 已成为连通世界上几乎所有国家和 地区的国际网,并且I n t e r n e t 正在急速发展。目前,I n t e r n e t 已经成为世界上 最大的信息源,成为全球范围内科研、教育、商业和社会、新闻、软件、学校和 专业机构介绍、图书及娱乐等信息的集大成者,越来越多的人、机构向I n t e r n e t 发布信息,越来越多的用户从网上查找自己需要的信息。 1 1 课题研究背景 随着I n t e r n e t 技术的飞速发展S U W e b 数据库资源的日益丰富,使就业信息的 获取越来越方便。但面对就业信息服务网站提供的大量信息资源,却缺乏快速有 效获取信息的手段,用人单位和求职者不能从这些信息服务网站中收集并有效 地、及时地获得自己所需要的所有信息内容。因此,基于A g e n t 技术的人才供求双 向智能自动匹配模型的应用能够为用人单位和求职者带来很大的方便,将会受到 越来越多的重视和欢迎,并且必将具有很大的应用价值。 双向匹配,是现实生活中常见现象。虽然网络作为当今整合信息平台已可辅 助人们获得尽可能多的自己所需资料,但即使在今天,双向匹配问题也常靠人工 或半人工方式来完成:在我国,诸多提供匹配服务的网站只是为待匹配双方提供 一个个人信息的发布空间和寻找对象的场所,人工匹配从业人员( 例如网络猎头 者) 仍须阅读、了解、比对数据库中大量数据( 包括网上海量数据) ,进行复杂的 信息比较,才可获得较满意的匹配结果:国外的双向匹配系统虽在一定程度上优 北京T 业人学T 程硕I j 学位论文 于我国的,但还没有实现智能化,对匹配程度缺乏一定的度量,且匹配对象多数仅 限于本地数据库中的信息,成功率不高。人工或半人工的双向匹配存在工作量大、 步骤繁琐、耗时甚长、难如人意的缺点。A g e n t 技术和基于多A g e n t 技术的系统近 年来得到广泛关注,并成为计算机科学和人工智能领域研究的热点。A g e n t 的系统 代表了一种新的软件开发方式,应用于不同的领域,如网络信息检索、过程控制工 作流管理。但将A g e n t 技术与双向匹配工作相结合的系统还并不多见。 1 2 课题研究意义 人才供求信息双向多级匹配模型的应用,能够让用人单位发布用人信息后, 看到系统智能地产生的对其职位匹配等级从高到低排序的求职者信息;同样也能 够让求职者发布求职信息后,看到系统智能产生的对其求职要求匹配等级从高到 低排序的用人单位职位招聘信息。 通过本课题的研究,预期可以实现一个以人才供求信息双向多级匹配模型 为基础的求职招聘匹配系统,从而为人才供求信息的匹配提供一个实用性很强、 并行之有效的完整解决方案。 1 3 研究的现状 1 3 1发展过程 随着I n t e r n e t 上信息的不断增加,人们对I n t e r n e t 信息的需求也不断提升, 回顾I n t e r n e t 的信息收索工具的发展历程,可以反映现代信息收索技术的变化趋 势,下面简单回顾一下I n t e r n e t 信息服务的发展过程。 1 X 5 0 0 n 艮务 X 5 0 0 N 务属于I n t e r n e t 上提供的名录服务,能够检索参加该服务的机构或 个人的电话和电子邮件等信息。X 5 0 0 采用一个名录服务通讯协议,其结构是一 个将分散的名录服务器连接成全球性的分布式名录系统,每个服务器都拥有一个 数据库。X 5 0 0 中的信息是按层次结构的目录来组织的。X 5 0 0 的设计思想和电话 号码薄一样,譬如,当要查询某个人的电话号码时,需要给出姓名、工作单位、 第l 章绪论 所在城市之类的检索提示,然后X 5 0 0 H 艮务程序依据所提供的检索提示,在相应 的数据库查找此人的信息,给出符合匹配的记录。 2 A r c h i e 服务 A r c h i e 服务是属于文件名检索服务,主要是建立F T P H 艮务器上面的文件名与 文件位置的对应关系。由于匿名F T P 服务器提供的资料在I n t e r n e t 上所占的比例 和数量都很大,要想准确的从某个匿名服务器上面搜索特定的文件,用户需要事 先知道具体的文件名和文件位置,同时由于每个匿名服务器上的信息时刻都在变 化之中,因而对匿名F T P H & 务器中的文件建立索引是十分必要的。于是,加拿大 M c G i l l 大学计算机科学院的A l a nE m t a g e 、B i l lH e e l a n 和P e t e rD e u t s c h 共同创 建了一个名口q A r c h i e 的数据库系统。 A r c h i e 收索服务的工作原理比较简单,它采用C 1i e n t S e r v e r 的工作模式。 I n t e r n e 中有许多A r c h i e H 艮务器,每个A r c h i e H 艮务器都工作在一定的范围之内, 定期地从F T P 文件服务器上面下载文件的完整目录清单,并将它们保存在自己的 A r c h i e 服务器数据库中。当A r c h i e 客户端程序发出文件检索请求时,A r c h i e 服务 器就检索自己的数据库,将与用户输入文件名相匹配的主机名、路径、文件名及 文件大小等信息返回给用户。用户可以利用这些信息直接访问匿名F T P 服务器准 确地搜索自己所需要的文件。用户可以通过以下三种方式实现A r c h i e 检索服务: ( 1 ) 使用本机上的A r c h i 客户服务程序,直接与A r c h i e H 艮务器连接实现A r c h i e 检索服务;( 2 ) 远程登陆到A r c h i e 服务器上面,完成A r c h i e 文件检索功能;( 3 ) 通过E - m a i l 7 i 式向A r c h i e H 艮务器发送检索请求邮件,A r c h i e 由f f 件服务器收到邮件 后,会将检索结果以E - m a i l 的方式传送给用户。 3 G o p h e r n 匿务 G o p h e r 系统最初是由M i n n e s o t a 大学计算机科研人员研制开发的,它是一个 功能强大的菜单驱动信息检索系统,作为I n t e r n e t 信息检索工具,用户可以采用 一种简单的搜索方式访问I n t e r n e t 中位于不同位置的许多类型的资源。与A r c h i e 相比,G o p h e r 功能更强大,使用更方便。 G o p h e r 系统也采用常见的C 1 i e n t S e r v e r 结构模式,它包括G o p h e r 客户端程 序、G o p h e r 服务端程序以及C 1 l e n t S e r v e r 之间的协议。其中,C 1 i e n t 接收用户 的检索输入与S e r v e r 建立连接,发送请求,同时在主窗口显示S e r v e r 送来的检索 北京T 业人学T 程顾t j 学位论文 信息;S e r v e r 负责菜单的形式和维护,接收C 1 i e n t 的服务请求,并将检索结果返 回给e l i e n t ;协议是C 1 i e n t 矛D S e r v e r 之间的通信标准。 在I n t e r n e t 中有数千个G o p h e r 服务器,这些G o p h e r 服务器包括许多菜单和 各种服务内容,用户借助G o p h e r 客户端程序可以在其中漫游,当用户启动G o p h e r 客户端程序时,首先与一个G o p h e r 服务器连接,通过这一服务器的菜单,方便地 转到I n t e r n e t 上面的另外的服务器。这些互相连接的G o p h e r 服务器组成一个松散 而庞大的G o p h e r 空间,但当用户从一个G o p h e r H 艮务器转到另外一个时无需知道这 些服务器的I P 地址、端口号,以及文件所在目录等,这些信息对用户都是透明的。 G o p h e r 菜单检索系统不仅可以检索资源,还可以直接收索资源。用户在检索资源 的同时可以直接下载这些资源,这一功能大大方便了用户。G o p h e r 菜单中不仅可 以访问其它G o p h e r 服务器,而且还包括F T P 、A r c h i e 、W W W 等服务器,通过G o p h e r 服务器可以对上述服务器进行访问,G o p h e r 客户端程序自动选择对应于该资源的 处理程序。 4 广域信息服务系统( W i d eA r e aI n f o r m a t i o nS e r v i c e s ,W A I S ) W A I S 是提供用户查询分布在I n t e r n e t 网上的各类数据库的一个分布式信息 检索系统。用户不必掌握各种数据库的查询语言,而只需在数据库列表中用光标 选择所希望查询的数据,系统就能自动进行远程查询,帮助读出相应的数据库中 含有该查询关键字的所有记录,并根据检索关键词在每条记录中出现的频度进行 评分,供用户选择。 为了把文件和数据做成一个W A I S 可以查找的数据库,这些数据或文件必须 经过W A I S 程序进行处理。每个词都要经过词频统计,还要记录词之间的相对位置 信息,然后这些信息和文件本身一起被存入一个数据库,此数据库就可以加入 w A I S 服务器群,成为其中一员,整个I n t e r n e t 上的信息都可以用W A I S 查找工具对 它们进行存取。I n t e r n e t 中有一个公用的W A I S 数据库登记簿,称为W A I S 服务器目 录,查找会先在w A I S 服务器目录数据库中进行,再在可能性较大的数据库中选择 一个合理的。 W A I S 也属于客户机服务器体系结构,客户机和服务器的数据传递采用了 Z 3 9 5 0 标准( 图书馆自动系统的数据检索协议) 。Z 3 9 5 0 允许在不同结构的数据 库之间传输数据,用户可以请求远程数据库的数据,并以已知的格式显示,消除 第1 币绪论 了不同数据库之间的障碍,使不同数据库库系统之间的数据交换成为可能。W A I S 的强大之处在于,它的查找能够深入到文件的内部,以更细的词作为查找单位, 并按照统计特性,对符合查询要求的文件进行相关性排序。此外,采用Z 3 9 5 0 作为信息交换标准,使不同数据库的物理实现完全透明,并且可以支持声音、图 片等多种信息格式,极大地方便了信息查询。尽管W A I S 是一个有力的查询工具但 是它的用户接口( G U I ) 能力的缺乏已经严重地限制了它的发展和流行。 5 W o r I dW i d eW e b w w w 是上个世纪九十年代初I n t e r n e t 上最受欢迎、最为流行、最新的信息检 索工具。它是一种基于超文本方式的信息查询工具,使得用户查询信息形式从单 一的文本形式转变为文字、声音、图像、动画,并通过超级链接连接方式,把全 世界I n t e r n e t 上不同地点的相关信息有机地结合起来,提供在信息网络内从一个 文件迅速转到另外一个文件的手段。作为信息提供者的服务器一方,使用一种称 为H T M L 的超文本语言,将所能够提供的信息链接在一起,这些信息以文件形式存 放,既可以是本地服务器的信息,也可以是I n t e r n e t 上远程服务器上面的信息。 而作为信息查询一方的客户机,使用H T T P 协议与指定U R L 地址的w w w 服务器建立连 接,并按照用户的需求进行信息的传输。 w w w 的出现意味着一个强有力的查询机制的出现,而I n t e r n e t 上比较传统的 功能F T P 、W A I S 和G o p h e r 也没有完全消失,它们都能用w w w 及E J 览器阅读。譬如: 许多w w W 服务器提供用户A r c h i e 访问功能和W A I S 数据查询;F T P 、G o p h e r J J 艮务$ 1 w w w 之间的连接只要在U R L 中简单地说明服务类型,就能在w w w 上使用G o p h e r 和F T P 服 务器,由于w w w 浏览器地功能和G o p h e r 客户端相似,但是G o p h e r 不能集成声音和 图像等超文本信息,w w w 除了能够做到这一点,还给出了页面的链接信息,所以 很多人愿意通过w w w 而不是G o p h e r 客户程序访I ; G o p h e r H 艮务器,正是由于W W W 日m 够 融合许多I n t e r n e t 网上服务,以及它灵巧而漂亮的图形界面和便捷的使用方式, 所以它成为二十世纪九十年代初I n t e r n e t 上最广泛的信息导航工具。 6 搜索引擎( S e a r c hE n g in e ) w w w 的出现改变了人们访问和使用网上信息的方式,提供给用户一个简单而 功能强大的全球信息系统。但是,由于w w w 信息量的指数级增长、形式的多样性, 给网上信息检索带来了很大的困难。仅仅依靠w w w 自身的导航功能,查找信息已 北京T 业人学T 程硕l j 学位论文 经不能满足人们的需求。因此,人们迫切希望寻找到一种在线I n t e r n e t 信息搜索 工具,W e b 搜索引擎正是适应这种需要而产生的。搜索引擎的出现使人们与 I n t e r n e t 的交互方式发生了变化,从基于人的信息导航和信息发现( 简单的超文 本浏览) 过渡到基于内容的搜索。 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎( F u l lT e x t S e a r c h E n g i n e ) 、目录索引类搜索引擎( S e a r c hI n d e x D i r e c t o r y ) 和元搜索引 擎( M e t aS e a r c h ) 。全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 G o o g l e 、F a s t A 1 1 T h e W e b 、A l t a V i s t a 、I n k t o m i 、T e o m a 、W i s e N u t 等,国内著名 的有百度( B a i d u ) 。它们都是通过从互联网上提取的各个网站的信息( 以网页 文字为主) 而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一 定的排列顺序将结果返回给用户,因此他们是真J 下的搜索引擎。从搜索结果来源 的角度,全文搜索引擎又可细分为两种,一种是捐j 有自己的检索程序( I n d e x e r ) , 俗称“蜘蛛”( S p i d e r ) 程序或“机器人”( R o b o t ) 程序,并自建网页数据库, 搜索结果直接从自身的数据库中调用,如上面提到的7 家引擎;另一种则是租用 其他引擎的数据库,并按自定的格式排列搜索结果,如L y c o s 引擎。 1 3 2 存在缺陷 现代信息搜索技术是一项综合性的技术应用,它融合了多门学科领域知识, 虽然有些技术的发展已经相对成熟,并为人们提供了极大的便利,但是信息搜索 的发展还存在不少困难,下面首先从检索系统的角度就这些困难进行讨论。 1 信息量多 信息量大给人们带来了丰富的资源,同时也给信息搜索提出了有史以来最 大的困难。由于I n t e r n e t 上的信息太丰富了,它所包含的信息量远远超过了现有 计算机的处理能力、存储设备的容量、网络设备的传输能力,任何单个信息搜索 工具已经没有足够的能力来维护整个I n t e r n e t 的信息检索。面对这个事实,人们 必须采用新方法、新思路来解决问题。 2 网络资源开销大 I n t e r n e t 中信息存储是分散的,与传统的图书馆集中存储方式有较大的差 第l 带绪论 异,而且信息的增长方式也是分布式的,任何I n t e r n e t 节点都有可能成为新的信 息增长点。由于信息的分散性,在检索这些信息的时候,必然造成大量的网络开 销。譬如:收索机器人在爬行的过程中,要从远程服务器上面下载大量的信息来 充实、更新索引数据库,而这些信息一旦被下载,分析之后,大量不符合要求的 信息将被丢弃,信息利用率太低,造成网络资源开销的大量浪费。收索机器人每 获取一个页面,都是单独进行的,被搜索网站必须启动一个进程或线程来响应, 传输也是单独寻径的,而且通常页面的大小在I O K 左右( 仅指文字信息) ,这样 传输中系统开销占大比重,这对于有限的网络资源来说,无疑加重了其负担。 3 单点瓶颈问题 传统搜索引擎基本上属于集中式搜索引擎。集中式在程序设计、管理维护 等方面都有一定的优势,但单点瓶颈问题是集中式搜索引擎无法解决的难题。目 前集中式多采用服务器集群的方式来缓解负载量大的问题。这种处理方式从一定 程度上缓和了矛盾,但问题没有更本的解决。从搜索引擎长期反展的角度来说, 采用分布式搜索引擎是建立新型搜索引擎的发展方向。 4 升级扩展困难 从一定程度上来说,搜索引擎是现代计算机技术的综合体现,但现在的搜 索引擎基本上是一个完全封闭的系统。从搜索机器人、索引数据库到查询软件全 部是“量身定做”的。全部软件之间的接口没有统一或标准化。任何好的思想、 好的方法、好的技术是很难运用到搜索引擎中的。虽然这种整体的解决方案可以 很好的提高搜引擎的工作效率,使程序代码更加紧凑。但是一般更倾向于开放式 的体系结构。开放式的体系结构可以使更多的新思想、新方法、新技术很容易地 运用到搜索引擎中,而且可以使更多的人投入到搜索引擎的革新中。封闭式系统 仅仅依靠少数系统分析员和程序员的合作,终究会抑制技术的前进,关于这一点 已经在很多领域得到了有效的证明。 5 查询精度低 用户在查询搜索引擎的时候,经常遇到的问题是返回结果太多,使人无所 适从。从技术的角度来说,就是查准率过低。查准率问题与知识表达问题是息息 相关的。由于无法准确地表达用户的查询请求和文档的内容信息,所以在建立两 者之间的关系的匹配时,常常会产生许多不正确的匹配关系,造成大量的返回结 北京T 业人学T 程硕I j 学位论文 果。目前的实现方式主要是从语法、统计等角度去解决问题,但这方面还存在许 多问题。而从用户的角度来说,搜索引擎主要有以下地方需要改进: 1 信息引导能力差 用户有时候不知道如何确切地表达对真正需要的信息。搜索引擎一般只提 供简单的关键字输入,如果用户需要进一步限定查询要求,它便通过另外一个页 面让用户选择检索方法与检索范围以及简单的时间限制,此外不作对关键字作任 何语义上的关联、分析,然后从本地的数据库中根据此条件进行检索,并将结果 返回给用户。由于关键字在检索条件中是上下文无关的,所以导致搜索引擎的返 回结果集当中存在大量与用户需求毫不相关的信息,用户必须在这些混杂的信息 中进行挑选,浪费大量时间。 2 不具备学习能力。 搜索引擎将搜索到的信息返回给用户后就完成了该次检索任务,由于包含 了大量无用信息,所以用户必然会在其中进行挑选,该挑选过程直接反映了用户 的查询意图以及对信息类型的偏好,而基于C 1 i e n t S e r v e r 模式的搜索引擎不可 能针对每个人或者客户端进行偏好分析,这既不现实也不实用,因为即使是同一 个客户端也会有不同的用户。所以有必要在客户端建立一个与特定的用户相关的 偏好选择模型。 3 不能主动地从I n t e r n e t 信息空间中发现和搜索用户需要的信息 当搜索引擎的从网上得到新的信息后,它往往只更新它的本地数据库,而 不可能通知所有检索过相关信息的客户端获得该更新信息。当用户再次提交相同 的检索关键字之后,往往需要从大量的结果中挑选出新的信息资源,耗费大量的 时间和精力。显然,搜索引擎和客户端缺乏足够的协作,导致信息查询的准确性 差,效率不高。 1 4 课题内容及创新点 1 4 1 课题的内容 本课题基于A g e n t 技术的双向智能自动匹配系统模型研究,并将它可应用 于存在双向选择的求职招聘匹配中。通过进行网络信息整合与模糊匹配,克服传 第1 币绪论 统人工或半人工双向匹配的缺点,实现双向匹配的自动智能处理。本文正在利用 A g e n t B u i i d e r 集成开发平台研究如何用高效并行算法实现一个以该模型为基础 的求职招聘匹配系统,并将利用K Q M L 表示各A g e n t 间的通讯原语,以实现它们之间 的通讯。一般说来,模型系统双向匹配过程中,往往难得到精确匹配解( 即完全满 足用户所列全部要求的解) ,而实际上人们往往只想要模糊匹配解( 只要在某种 程度上能满足用户所列主要要求的解,即可满足用户大多数的匹配要求) 。对此, 特地采取多级匹配的模型即引入关键匹配项和匹配等级的概念来解决。关键匹配 项:它是用户在提出申请时对匹配对象所列出的最基本要求条件。显然,只要该 项不满足时,就可拒绝与之匹配。匹配等级:它是将用户要求的双向匹配条件的 符合程度,按照双方相互满足要求的个数占全部满足要求个数的比例而分为匹配 等级数l o 1 0 0 。若匹配等级数为1 0 0 时,则表明当前匹配是最精确匹配( 即双 方均可彼此百分之百地吻合对方的匹配条件) :若匹配等级为1 0 ,则表明当前匹 配是最粗略匹配( 即“对方只能满足本方匹配要求条件的十分之一”) 。双向匹配 模型系统通过感矢H A g e n t 获得用户对模糊匹配的接受程度信息( 即关键匹配项和 匹配等级等) ,传发给协调A g e n t 并存入数据库,用以指导后续匹配处理。显然, 在匹配过程中,匹配等级高的包容了匹配等级低的。在求解过程中,要力求匹配等 级最高的解( 注意:等级的设定不会影响最优解的求得) 。 1 4 2 课题的创新点 1 双向多级匹配模型 双向匹配模型系统通过感知A g e n t 获得用户对模糊匹配的接受程度信息( 即 关键匹配项和匹配等级等) ,传发给协调A g e n t 并存入数据库,用以指导后续匹配 处理。一般说来,模型系统双向匹配过程中,往往难得到精确匹配解( 即完全满足 用户所列全部要求的解) ,而实际上人们往往只想要模糊匹配解( 只要在某种程 度上能满足用户所列主要要求的解,即可满足用户大多数的匹配要求) 。对此, 特地采取多级匹配的模型即引入关键匹配项和匹配等级的概念来解决。关键匹配 项:它是用户在提出申请时对匹配对象所列出的最基本要求条件。显然,只要该 项不满足时,就可拒绝与之匹配。匹配等级:它是将用户要求的双向匹配条件的 北京T 业入学T 程f 西! I j 学位论文 符合程度,按照双方相互满足要求的个数占全部满足要求个数的比例而分为匹配 等级数1 0 1 0 0 。 2 多A g e n t 问的协作机制 采用“多A g e n t 间的协作机制”来解决异地同源数据库间的分布式信息匹 配共享问题。首先由匹配A g e n t 通知协调A g e n t 在本地匹配系统中无匹配结果, 然后由协调A g e n t 命令通讯A g e n t 在各异地同源数据库中搜索可能匹配项,如果 有异地匹配结果就进行匹配,协调A g e n t 通知双方的感知A g e n t 告知求职方、 招聘方异地匹配已初步匹配成功,并分别将招聘方机构简介、求职方个人简历以 电子邮件的征询形式传交给求职方和招聘方的感知A g e n t ,令它们将此匹配结果 信息转交给求职方和招聘方,并等待双方对该匹配结果的认同决策,不然就通过 感知A g e n t 告知求职方、招聘方异地匹配失败,匹配过程暂告结束:并进入一直等 待匹配状态。 1 5 文章的组织结构 本论文一共分为六章,分别如下: 第一章为绪论,主要介绍课题研究背景、意义,研究的现状、存在的缺陷、 研究的创新点以及研究的内容。 第二章引入了A g e n t 和多A g e n t 系统概念,并对其理论进行了介绍。 第三章介绍了多A g e n t 系统提供人才供求具体的匹配方法。提出了把智能 A g e n t 技术应用于I n t e r n e t 信息检索的整合思想。 分析了文档检索、数据保存、 数据修改以及数据库访问等方面的过程。 第四章设计了模型的计算方法,建立模型所需要解决的问题,最后针对这 些问题提出了一种基于双向匹配的模型与实现。 第五章对多A g e n t 系统提供人才供求双向匹配模型实现的分析和评估 第六章对全文的主要内容进行了总结,并对需要进一步研究的问题进行了 展望,指出了下一步的研究方向。 第2 亭相关的技术知识 第2 章相关的技术知识 2 1A g e n t 和多A g e n t 概述 A g e n t 及多A g e n t 技术是目前计算机领域的研究热点,由于其先进的思想及 强大的描述客观世界的能力,J 下引起越来越多的学者的注意。A g e n t 是分布式人 工智能的概念,是在某一环境中能持续自主运行的独立的功能实体,其最重要的 特点是具有自主性和相互协作性,能作用于自身和环境,并可以和其它A g e n t 通信。多A g e n t 系统M A S :M u l t i A g e n tS y s t e m ) 是指由一些自主的A g e n t 组成, 通过协作来完成某些任务或实现某些目标的分布式计算系统。多A g e n t 技术的种 种特性使之特别适合用于异地的分布式系统的研究,而当前全球竞争环境下的供 应链系统恰恰是个典型的异地分布式系统,因此,多A g e n t 技术成为在共存与竞 争的环境下,分析和求解供应链成员企业相互协调进行生产和决策的有力工具。 2 2 A g e n t 技术 2 2 1 A g e n t 的概念与特征 A g e n t 最早出现在人工智能( A I ) 领域。由于分布并行处理技术、面向对象技 术、多媒体技术、计算机网络技术,特别是I n t e r n e t 和W e b 技术的发展,A g e n t 已经成为A I 和计算机领域最活跃的研究内容之一。 A g e n t 的原意是“代理”,即一个人代表另一个人或另一个组织去完成某件 ( 些) 事情;在计算机领域,A g e n t 可以认为是被授权的“个人软件助理”,是 一种在分布系统或者协作系统中能持续自主地发挥作用的计算实体,常简称为智 能体,其最大特点是具有一定的智能及良好的灵活性和分布性,特别适合处理复 杂、协同和难以预料的问题。 到目前为止,对A g e n t 尚没有一个完全统一和权威的定义,不同的研究学者 从各自的角度提出了不同的看法。 S t a nF r a n k l i n 对A g e n t 是这样定义的:A g e n t 是位于某一特定环境中并且 北京T 业人学T 程f 够! f 学位论文 其自身是该环境的组成部分之一的一种实体系统,它能够感知环境的变化并通过 相应的行为于环境以达到其自身的目的,而且,它能够感知这种作用所带来的环 境改变。 M C o e n 认为:A g e n t 是可以进行对话、协商的软件。A g e n t 技术Y S h o h a m 认为,A g e n t 是具有包括信念( B e l i e f s ) 、能力( C a p a b i l i t y ) 、选择( C h o i c e ) 和 承诺( C o m m i t m e n t s ) 等精神状态的一个实体。而D M L a n e 则认为,A g e n t 是一个 具有控制问题求解机理的计算单元,它可以指一个机器人、一个专家、一个过程、 一个模块或一个求解单元等。 目前,大多数研究学者普遍认为,A g e n t 一般应具有以下特征: 自主性( A u t o n o m o u s ) 可以不需要直接的外部干预而自主行动。 交互性( I n t e r a c t i v e ) 可以与运行环境或其它A g e n t 进行交流和通信。 适应性( A d a p t i v e ) 可以对其它的A g e n t 或它的环境做出反应。高级的适应 性允许A g e n t 根据所得的经验修正自身的行为。 主动性( P r o a c t i v e ) 面向目标的,有目的的,而不是仅仅对环境做出被动的 反应。 智能性( I n t e l l i g e n t ) 内部状态被形式化为知识( 即信念、目标、计划、假 设等) ,并可以使用某种符号语言与其它A g e n t 交互。 推理性( R a t i o n a l ) 可以根据内部的目标和知识,选择最有利于目标实现的 行为。 协调性( C o o r d i n a t i v e ) 能够在一个与其它A g e n t 共享的环境中完成某些活 动。这些活动通常通过计划、工作流等过程控制机制进行协调。 协作性( C o o p e r a t i v e ) 可以与其它A g e n t 合作完成共同的目标。 竞争性( C o m p e t i t i r e ) 可以与其它A g e n t 进行竞争,即某个A g e n t 的成功意 味着其它A g e n t 的失败。 其中,为了使A g e n t 的概念具有一定意义,就至少具有以上属性中的前三 个。基于这个原则,本文中对A g e n t 作如下定义: A g e n t 就是可以与所在环境或其它A g e n t 交互的,自主的软件实体。 第2 章相关的技术知识 2 2 2 A g e n t 的结构 根据不同的分类方法,A g e n t 可分为不同的种类:如根据A g e n t 的可移动性, 可分为静态A g e n t 和移动A g e n t ;根据A g e n t 的思维方式,可分为反应型A g e n t 、 慎思型A g e n t 以及混合型A g e n t ;根据A g e n t 的功能,可分为协作A g e n t 、交互 A g e n t 、信息A g e n t 和娱乐A g e n t 。但是不管属于哪一类A g e n t ,有些基本的功能 是必不可少的,也就是说所有的A g e n t 都具有相同的基本结构,加上某些特有的 功能模块就可以成为不同种类的A g e n t 。 A g e n t 的基本结构如图2 I 所示,由环境感知模块、执行模块、通信模块、 信息处理模块、决策与智能控制模块以及知识库和任务表组成。环境感知模块、 执行模块和通讯模块负责与系统环境和其它A g e n t 进行交互,任务表为该A g e n t 所要完成的功能和任务。信息处理模块负责对感知和接收到的信息进行初步地加 工、处理和存储,决策与智能控制模块是赋予A g e n t 智能的关键部件。它运用知 识库中的知识对信息模块处理所得到的外部环境信息和其它A g e n t 的通讯信息 进行进一步的分析、推理,为进一步的通讯或从任务表中选择适当的任务供执行 模块执行做出合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业领域的新能源技术优化与创新
- 工业设计与产业创新发展分析报告
- 工业设计创新与市场应用研究
- 工作效率提升工具与方法介绍
- 工业风办公室装修风格及案例分享
- 工厂智能化改造的商业价值分析
- 工程施工质量通病防治措施
- 工程机械液压系统的故障处理
- 工程地质学建筑基础稳定性研究
- 工程项目管理与质量保障
- 中国政治思想史完整版课件
- 光伏发电论文
- 辊压机培训ppt课件
- LDRA Testbed单元测试操作步骤
- 酸碱标准溶液的配制与浓度的标定
- 江苏省常州市2024届高一数学下学期期末质量调研试题(含解析)
- 有机光电材料.ppt课件
- 纵断面(竖曲线)设计高程自动计算
- (完整版)软件项目章程模版
- 丰台区五年级下期末试题
- 财政部金融企业不良资产批量转让管理办法(财金[2012]6号)
评论
0/150
提交评论