




已阅读5页,还剩106页未读, 继续免费阅读
(信号与信息处理专业论文)企业信息检索中的对象检索方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学博士学位论文摘要 企业信息检索中的对象检索方法研究 摘要 企业信息检索是信息检索领域的一个重要分支,其目的就是研究 如何在一个相对较小的数据范围内有效地管理知识、组织信息,为提 高企业管理者的领导能力和员工的工作效率提供服务。企业信息检索 是一个综合性的课题,涉及文本检索、信息提取、自然语言处理等多 个学科;又是一个前沿性课题,引领信息检索向着更加精确化和更高 的知识表达层次前进。 企业信息检索的研究引起人们越来越多的关注。国际文本检索会 议将企业信息检索列为信息检索领域重要的研究课题之一,开展了企 业信息检索评测任务。评测在统一的平台下进行,主要分为专家检索 和邮件检索两个子任务。本文围绕着两个任务开展了对象检索相关技 术的研究,旨在解决企业信息检索中异构信息整合和检索效果改进等 问题,主要成果如下: 第一,探讨了基于文档的专家检索方法。主要包括专家定位和专 家检索的文本建模方法研究。首先,研究了基于规则的专家定位方法。 对专家重名引起的歧义问题,采用启发式规则进行重名消歧。其次, 探讨了语言建模方法在专家检索中的应用。实现了两种基于语言模型 的专家检索基本方法,并应用分层剖析法加以分析比较。最后,研究 了基于相关反馈的专家检索方法。提出了反馈式专家检索模型,将专 家检索转化为相关反馈问题,可充分利用在相关反馈问题上丰富的研 究成果来解决专家检索问题。实验结果表明,本文的方法不仅易于工 程实现,能够与传统文档检索有机结合,而且可以在保证检索精度的 情况下提高检索效率,以达到快速准确处理较大规模数据的能力。 第二,探讨了企业信息检索中的对象建模方法。主要包括对象的 定义、对象信息提取和对象模型的分析。首先,给出了企业信息检索 中的对象的定义。针对本文研究的专家检索和邮件检索,明确了对象 的属性和关系。接着探讨了信息提取方法在对象属性提取和关系挖掘 中的应用。对于专家对象,提出了专家的文本经验元属性以及基于窗 口的经验元属性提取策略,将程序设计中的经验元概念扩展到语义层 次。然后,分析了邮件对象模型。最后,探讨了专家对象模型,提出 了基于机率比关系的文档向量模型为专家建模,克服了传统方法“偏 北京邮电人学博十学位论文摘要 爱”高频度专家的问题。实验结果表明,本文的方法能够很好地提高 专家检索的精度,具有良好的应用前景。 第三,探讨了基于对象的企业信息检索方法。我们期望能够采用 基于对象的建模方法解决对象检索问题。首先,给出了基于对象的检 索的数学模型,并且从理论上分析了对象排序算法,提出了相似度、 置信度和重要度三个方面相结合的对象排序策略。在此基础上,分别 实现了基于对象的专家检索方法与基于对象的邮件检索方法。最后, 通过扩展基于对象的检索模型,提出了统一的多类对象混合检索方 法。实验结果表明,本文的方法能够更好地解决对象检索问题。 关键词:企业信息检索对象检索专家检索邮件检索机率 比经验元 i l 北京邮电大学博士学位论文 摘要 r e s e a r c h o no b j e c tl e v e l r e t r j e v a li ne n t e r p i u s e s e a r c h a b s t a c t e n t e 印n s es e a r c h1 so n eo ft h em o s tv a l u a b l ed o m a i n si ni n f o n l l a t i o n r e t r i e v a l a r e a , w h i c ha i m sa t g o o dk n o w l e d g em a n a g e m e n ta n d i n f o 傩a t i o no r g a n i z a t i o ni nar e l a t i v e l ys m a l ld a t a s e tt oi m p r o v et h e l e a d e r s h i pc 印a c i t yo ft h em a n a g e r sa n dt h ee f ! f i c i e n c y o ft h es t a 正 e n t e 印r i s es e a r c hi sas y n t h e t i c a l l ys u b j e c tt h a tg i v e sac h a n c et oc o m b i n e v a r i o u s t e c h n o l o g i e s , s u c ha st e x tr e m e v a l ,i n f o m a t i o ne x t r a c t i o n , n a t u r a ll a n g u a g ep r o c e s s i n ge t c a l s o ,e n t e 印r i s es e a r c hi sa na d v a n c i n g s u b j e c tt h a ta r o u s e st h es t u d yo fm o r ea c c u r a t ei n f o m a t i o nr e t r i e v a la n d k n o w l e d g er 印r e s e n t a t i o ni nh i g h e rh i e r a r c h y a sm o r ea n dm o r ea t t e n t i o no ne n t e 印r i s es e a r c h ,t h et e x t :r e t r i e v a l c o n f e r e n c eo p e n e da ne n t e 印r i s et r a c k ,i nw h i c hap l a t f o r mi sp r o v i d e d f o rr e s e a r c ho nt w os u b t a s k s :e x p e r ts e a r c ha n de m a i ls e a r c h i nt h i s d i s s e r t a t i o n ,r e s e a i ho no b i e c tl e v e lr e t r i e v a li sd e p l o v e db a s e do nt h e s e t w ot a s l ( st oi n v e s t i g a t et h ep r o b l e m sw h i c hi n c l u d et h ed e v e l o p m e n to f p r o c e s s i n ga l g o r i t h m s f o r h e t e r o g e n e o u s d a t aa n di m p r o v i n gt h e p e r f o n n a n c eo fi n f o m a t i o nr e t r i e v a lt e c h n i q u e s t h em a i nc o n t r i b u t i o n s o ft h i sd i s s e r t a t i o na r es u m m a r i z e da sf 0 1 1 0 w s : f i r s t l y ,w ed i s c u s s e dt h ee x p e r t s e a r c hm o d e lt h a ta p p l i e st e x t r e t r i e v a lt e c h n i q u e s a tt h eb e g i n n i n g ,w es t u d i e dt h em l e - b a s e de x p e r t 1 0 c a t i o nm e t h o d f o rs o m ee x p e r t sw h os h a r es a m en a m e s ,h e u r i s t i cm l e s w e r ed e v e l o p e df o rn a m ed i s a m b i g u a t i o n a sf o l l o w i n g ,t h el a n g u a g e m o d e l i n gt e c h n i q u e sf o re x p e r ts e a r c hw e r ed i s c u s s e di nah i e r a c h i c a l w a y a tl a s t ,w ep r e s e n t e da 胁m e w o r k o fe x p e r ts e a r c hu s i n gr e l e v a n c e f e e d b a c km e c h a n i s m i nt h i s 触m e w o r k ,e x p e r ts e a r c hi sv i e w e da sa r e l e v a n c ef e e d b a c kp r o c e s ss ot h a tw ec a nm a k em uu s eo ft h et e c h n i q u e s i i i 北京邮电人学博士学位论文 摘要 ms u c hm n t 如lr e s e a r c h f i e l d e x p e n m e n t a lr e s u l tp r o v e st h a tt h e s e e a s y - t o - u s em e t h o d sc a n n o to n l y g e ti n t e g r a t e dw i t ht e x tr e t r i e v a l t e c h n i q u e ss e a m l e s s l y ;b u ta l s oa c h i e v eh i g hp r d c e s s i n gs p e e du n d e ra g o o da c c u r a c y s e c o n d l y w ed i s c u s s e dt h eo b je c t o r i e n t e dm o d e l i n gm e t h o d si n e n t e 印r i s es e a r c h i nt h ef i r s tp h a s e ,t h ed e f i n i t i o no fo b je c tw a sg i v e n f o rb o t he x p e r ts e a r c ha n de m a i ls e a r c h ,w ed e f i n e dt h ea t t r i b u t e sa n dt h e r e l a t i o n so fa no b j e c t i na d d i t i o n ,w ed i s c u s s e dt h e 印p l i c a t i o no f i n 如n 1 1 a t i o ne x t r a c t i o n t e c h n i q u e s f o rm i n i n ga t t r i b u t e sa n dr e l a t i o n s e s p e c i a l l yf o re x p e r to b je c t s ,1 e x t u a le x p e r i e n c ea t o mw a sp r o p o s e da sa l ( i n do fa t t r i b u t e ,w h i c he x t e n d st h ec o n c e p to fe x p e e n c ea t o mi n p r o g r a m m i n g t oas e m a n t i cl e v e l n e x t ,w ed i s c u s s e dt h em o d e l so fe m a i l o b j e c t a “a s t ,w ed i s c u s s e dt h em o d e l so fe x p e r to b j e c ta n dp r e s e n t e da n 0 d d sr a t i om e t h o di nt h et e x tv e c t o rm o d e lo fe x p e r t o b j e c t s e x p e r i m e n t a lr e s u l tp r o v e st h a tt h i sm e t h o dc a na c c o m m o d a t et h eb i a so f s e a r c h i n g1 j r e q u e n t l y _ o c c u r r e de x p e r t sa n di m p r o v et h ea c c u r a c yo fe x p e r t s e a r c hs i g n i f i c a n t l y a tl a s t ,w ei n v e s t i g a t e du s i n go b je c t b a s e dm e t h o d sf o re n t e 印r i s e s e a r c h w ,ep r o p o s e da no b je c t _ b a s e dr e t r i e v a lm o d e lf o rr a n k i n go b je c t s i no b j e c tl e v e lr e t r i e v a l t h i sm o d e l ,t h r o u g ho u rt h e o r e t i c a la n a l y s i so f r a n k i n ga l g o r i t h m , i s c o i n p o s e do fs i m i l a r i t ys u b m o d e l , c o n f i d e n c e s u b m o d e la n di m p o r t a n c es u b m o d e l i nt h i sf o u n d a t i o n ,b o t hm o d e l sf o r o b j e c t - b a s e d e x p e r t s e a r c ha n d o b je c t - b a s e d e m a 订s e a r c hw e r e f o m l u l a t e d l a s t l y ,w ee x t e n d e dt h i sm o d e lt os e a r c hm u l t i p l et y p e so f o b je c t ss i m u l t a n e o u s l y e x p e r i m e n t a lr e s u l tp r o v e st h a tt h e s em e t h o d s a r em u c hf i tf o ro b i e c tl e v e lr e t r i e v a l k e yw o r d s :e n t e 印n s es e a r c h ,e x p e r ts e a r c h ,e m a i ls e a r c h ,o d d s r a t i o ,r e l e v a n c ef e e d b a c k ,e x p e r i e n c ea t o m i v 创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:蓝照 本人承担一切相关责任。 日期:鲨墨:i :兰! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 求孵 日期: 日期: 渺6 1 ) 们墨占1 北京邮电大学博上学位论文第一章绪论 1 1 引言 第一章绪论 企业的信息化是国民经济信息化的基础与重点,中国的国民经济要实现持 续、快速、健康的发展,实现经济结构的调整和产业的增值,企业信息化是至关 重要的一环。在互联网上搜索引擎服务热潮一浪高过一浪的同时,我们也注意到 另外一个现象,就是组织机构内部信息化浪潮,催生了大量的信息内容。根据统 计,企业数据每年以2 0 0 的速度增长,其中8 0 的数据以文件、邮件、图片等 非结构化数据存放在企业内计算机系统的各个角落【l 】。就像浮在海上的冰山,企 业在互联网上的内容只显露出冰山的一个角。全球最具权威的i t 研究与顾问咨 询公司g 舭e r 的研究报告表明,企业中,数据总量远远超过了互联网上信息的 总量:企业发布到互联网上的信息只占信息量的1 一2 ,而9 8 以上的信息是 存储在企业内部的。随着企业希望从整个机构的非结构化信息中获得更多的价 值,企业搜索和数据挖掘正在成为一种关键的趋势。 据市场调查公司i d c 表示,企业搜索市场正在急剧增长,其中2 0 0 7 年的年 增长率达到了3 9 ,市场规模1 4 亿美元。而i d c 预测今年企业搜索应用程序市 场的规模将在2 1 亿美元。似乎业界也看到未来企业级搜索引擎的庞大技术市场, 各大r r 公司都纷纷推出了其相应的软件产品和技术。计世网消息称搜索巨头谷 歌( g o o 西e ) 公司在2 0 0 5 年推出了“g o o 酉em i i l i ”,这是一种搜索企业内部网的经 济型硬件。g o o m e 公司企业部门的总经理d a v e g i r o u a r d 表示,“尽管这个市场非 常小,但它却是一个不断增长的市场,我们将在研发和营销方面投入更多的资源。 我们这个市场的增长速度不但非常快,而且正在盈利,我们认为在企业内部对搜 索有很大的需求,在这方面将有很大的发展空间”。据费雷斯特市场调研公司 ( f o r r e s t e rr e s e a r c h ) 的分析师m a t tb r o w n 估计,2 0 0 6 年谷歌搜索工具的销售 额在5 ,o o o 万美元到7 ,o o o 万美元之间,企业搜索的入门级市场几乎被谷歌迷你 型搜索工具g o o 酉em i n i 垄断。谷歌企业搜索部门经理马修格罗巴齐( m a t t h e w g l o t z b a c h ) 表示,“今天经营企业已经离不开电子邮件。而接下来的几年内,搜 北京邮电大学博士学位论文第一章绪论 索将取代电子邮件,成为企业关注点”。企业搜索厂商之间的市场竞争正变得越 来越激烈【2 1 。1 1 r 巨头微软公司( m i c r o s o f l ) 以及i b m 都在积极推出企业搜索产 品,抢占市场份额。s a p 和o r a c l e 这样的公司正在发现并且杀入企业搜索市场。 几家较小的专业厂商也已经推出了帮助企业用户搜索公司网络的文本存储和检 索软件。这些企业搜索公司包括、钮t y 、a i u t o n o m y 、f a s ts e a r c h & t r a n s 衙以及 几家新兴厂商。在国内,专注于企业级搜索十几年的t r s 和天宇,虽然名气不 如百度响亮,但也在中国企业级市场积累了大量经验,并独立发展出自己的一套 搜索技术。 在企业用户层面,搜索技术的重要性已经体现的越来越明显,对于优秀企业 搜索的需求将继续上升。在f o r r e s t e r 的一项调查中,6 1 的企业用户表示改进搜 索能力是企业内部网当前所最需要实施的任务。i d c 的分析家s u ef e l d m 觚称: 有调查显示,完整的企业搜索已经屡次成为受调者心中最具优先权的考虑事项。 她说,“在过去的两年中,当企业发现他们的决策系统一直在忽略内容层面的时 候,它就变得更加重要了。 面对要求的不断提高和数据量的几何级数增长,如 何方便、快捷、安全地获取企业内部的信息内容,成为企业搜索引擎的使命。 企业中的搜索方式与互联网搜索有着巨大不同。和互联网搜索引擎相比,企 业搜索产品对核心技术的挑战性更高。它不仅要求搜索速度更快、结果更准确, 可索引大量的文档和不同类型的媒体,同时也要求部署方便,可以与企业现有的 信息系统、知识库或商业智能系统结合,并更加注重安全和隐私。企业搜索又是 研究前沿搜索技术的平台,研究企业搜索的先进技术也能促进互联网搜索技术的 发展。古人云:“见微知著 ,我们今天说“以小见大 ,都是指从小的部分能够 看到整体的发展趋势。企业搜索研究指明搜索技术早已沿着智能化、语义化的路 线进入了新的发展阶段便是这个道理。目前,对象检索技术成为企业信息检索研 究的重点方向之一,也是下一代信息检索技术的发展趋势,因此本文的研究内容 在这个领域展开。 2 北京邮电大学博士学位论文第一章绪论 1 2 课题研究背景 1 2 1信息检索的发展 信息检索( i n f o n l l a t i o nr e t r i e v a l ) ,通常指文本、图像、语音等多媒体信息 的检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本 信息的索引和检索【3 】【4 】【5 】。从历史上看,信息检索经历了手工检索、计算机检索 到目前网络化、智能化检索等多个发展阶段。信息检索在知识工作者的工作过程 中占有重要地位,超过5 0 的时间用于获取和搜索信息。因此,获取信息的效率 很大程度上决定了知识工作者的工作效率。 2 0 世纪6 0 年代,图书馆采用计算机技术存储和管理文档,信息检索技术应 运而生。2 0 世纪8 0 年代,信息检索技术在文档内容表示、索引模型和匹配策略 等方面取得了丰硕成果。2 0 世纪9 0 年代,互联网( w 曲) 的出现为信息检索技术 提供了一个前所未有的实验和应用环境并提出了新的要求,在传统信息检索系统 的基础上出现了许多w 曲信息检索系统。这些w 曲信息检索系统采用倒排文档, 向量模型或者概率模型对w 曲文档的内容和用户查询进行建模,利用w 曲文档 内容与用户查询之间的相似度对w 曲文档进行筛选,实现w 曲信息检索。 目前,信息检索已经发展到网络化和智能化的阶段【6 】。信息检索的对象从相 对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新 快、分布广泛、管理松散的w 曲内容;信息检索的用户也由原来的情报专业人 员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众, 他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能 化以及个性化的需要是目前信息检索技术发展的新趋势。 当信息检索在互联网上的应用日趋成熟的同时,人们渐渐把眼光投入到了更 为广泛的领域。企业信息检索随着企业规模的不断增长逐渐受到越来越多人的关 注,这个新兴的领域吸引了大批研究者参与其中,初步形成了研究企业信息检索 的热潮。 1 2 2企业信息检索的提出 战略商务顾问德尔福集团( d e l p h ig m u p ) 专门针对“企业局域网搜索”这个 北京邮电大学博士学位论文第一章绪论 课题做了调研,结果表明:企业局域网所使用的信息检索技术“经常”无法让用户 找到自己想要的信息。调查对象有三百人,平均每天花费两到四小时来用计算机 在企业局域网中搜索与工作有关的信息资讯。其中有6 0 的调查对象认为较之两 年前现在更容易在企业局域网中找到与其工作相关的信息。也有6 8 的调查对象 认为在企业局域网中查找与工作相关的信息时还是有一定困难,而且较为费时。 德尔福集团的执行副总裁认为:效率与效益就是根本的目标。无论是企业的管理 人员,普通工作人员,还是企业客户,都希望能够很容易就可以了解到这家企业 ( 公司) 所拥有的信息中是否有与他正需要的资料有关的任何信息。而这才是搜索 技术的真义阴。 企业信息的高效处理要求为企业内部数据提供检索服务,使人们可以方便地 对企业数据进行检索。企业信息检索是一个能够对整个公司提供搜索的搜索平 台,而且这个搜索平台对结构化和非结构化的信息资源都应具备搜索能力。企业 信息检索的目的,就是让企业信息更好地为用户服务,提高工作效率。 目前,人们普遍应用w e b 搜索技术进行企业内部信息检索。然而,企业信息 检索又有其自身的特点【8 】: 需要处理各种各样复杂的数据 对检索精度要求较高 对检索过程的安全性有较高要求 智能化和个性化 特点的不同导致了互联网上的信息检索技术并不能适用于企业网,例如,在w 曲 信息检索中起重要作用的链接分析技术在企业网中并不适用。这就造成了企业局 域网所使用的信息检索技术“经常”无法让用户找到自己想要的信息。 迫切的需求和鲜明的特点决定了必须要研究和开发适合于企业内部数据的 信息检索技术。目前,针对于企业信息检索的研究还不是很多,企业信息检索技 术的开发还处于初始阶段,许多问题的研究尚处于摸索阶段。可以说,企业信息 检索是一个非常新颖的课题、同时也是目前亟待解决的课题之一,具有一定研究 价值及广阔的应用前景。 4 北京邮电大学博士学位论文 第一章绪论 1 2 3 t r e c 企业信息检索评测 技术必须与应用紧密结合。信息检索技术应用于互联网之上,其中最重要的 就是搜索引擎。目前的搜索引擎( 如谷歌、百度等) 仍然以返回相关网页为主要 任务。在企业信息检索中,相关网页的检索固然是一个较为重要的需求,但是企 业的特点决定了在此基础之上还有更加高级的需求9 1 。企业信息检索技术的研 究是从企业内部应用需求发展而来,与企业内部数据紧密结合,为企业相关工作 人员提供实际的帮助。著名的信息检索会议t r e c 从2 0 0 5 年开始增加了 e n t e 叩r i s et r a c k 评测【1 0 1 ,作为w 曲t r a c k 的衍生项目,主要研究反映实际用户行 为的企业内部数据处理,包括对企业信息检索用户需求的分析和企业信息检索技 术的开发。 t r e c ( t e x tr e t r i e v a lc o n 断e i l c e ) 是由美国n i s t 与d a 刚a 所共同举办的 【1 1 1 ,自1 9 9 2 年起每年均举行会议,至2 0 0 7 年底已进行了十六届。t r e c 是对国 际信息检索研究进行集中测评与交流会议,参与测评的信息检索系统来自世界各 地,包括麻省理工、卡耐基梅隆等著名大学,i b m 、微软等跨国公司,以及一些 著名研究机构。测评结果最好的信息检索系统则代表了该领域的最优秀技术。 t r e c 每年举办一届,每届都有若干个测评项目,代表信息检索的研究方向、热 点和发展趋势。 企业信息检索( e n t e 叩r i s et r a c k ) 是t r e c 在2 0 0 5 年新增加的测评项目之一, 受到了各方关注。企业信息检索的目的是研究在企业内部数据中的用户检索行 为,主要包含邮件检索任务和专家检索任务【1 0 1 。邮件检索任务主要目的是在企 业公共邮件中检索相关信息。专家检索任务的主要目的是寻找企业中关于某一主 题的专家。 e n t e 印r i s et r a c k 采用真实的企业数据集w 3 c 文档集作为测试集。 w 3 c 测试集是从w 3 o 蜡网站上下载的信息,包含3 3 1 0 3 7 篇文档,共5 7 g ,平 均每篇文档约为1 8 1 k 左右。文档来自不同领域: d e v :d “w 3 o 玛上的c v s 界面 p e o p l e :p e o p l e w 3 o 玛上的个人页面 5 北京邮电大学博:t :学位论文第一章绪论 e s w :e s w w 3 o 玛上的关于语义网、品质认证、r d f 及其它主题的可更改页 面 k s t s :1 i s t s w 3 o 玛上的邮件档案 w 3 c 测试集除了包含网页信息外,还包含p d f 、p s 、p p t 、w o r d 、n f 和x l s 等其他 格式的文档。这些不同格式的文档经过加工大部分转成了h 缸1 1 1 格式,加工后的 文档按照m i i i l e 标准分为t e x t l l t 皿、t e x 唧l a i n 、m e s s a g e 疵8 2 2 、t e x 以r o f r 、 m e s s a g e n e w s 和印p l i c a t i o 舶c t e t s 骶锄几种格式。 e n t e 印r i s et r a c k 比较真实地反映了企业信息检索在现实中的应用和需求,为 研究企业信息检索技术提供了非常好的平台。因此参加e n t e 叩r i s et r a c k 评测对 于研究企业信息检索技术以及企业中的自动化和智能化问题是十分有益的。本课 题也将围绕此展开。 1 3 企业信息检索概述 1 3 1 企业信息检索的定义 企业信息检索是信息检索的延伸,可以理解为对“企业信息 的检索,也可 以理解为“企业 使用的信息检索,前者强调数据的特殊性,后者强调服务对象 的特殊性。 企业信息检索与传统的w 曲搜索引擎相比有四个方面的区别【1 3 1 : 第一,企业信息与w 曲网页不同。w 曲检索的网页是使用蜘蛛程序下载到 本地服务器上的,格式单一、规模大、下载存放集中。企业信息包括企业内部网 站、日常工作中的文件、邮件、代码、即时通讯信息和企业数据库,格式多样、 规模小、存放分散。 第二,检索效率要求与w 曲检索不同。w 曲检索返回几页到几十页的结果 供用户查阅,索引更新周期通常是一周到一个月的时间。而对企业,尤其是企业 的决策者而言,时间就是财富,使用任何信息化系统的目的都是为了节省时间、 提高效率,因此要求检索系统实时更新索引,准确、精炼地返回结果,最好是准 确无误地返回一条最新的记录。 第三,安全管理与w 曲检索不同。w 曲检索通过蜘蛛程序访问互联网上所 6 北京邮电大学博七学位论文第一章绪论 有网页,通过阅读网页的标记来确定是否下载该网页。只要下载到本地并建立索 引就可以被所有的互联网用户在任何时间检索到。而企业中因为文件机密级别、 职务、部门等原因,不是每个人都有权利访问每一个文档。 第四,智能化和个性化与w 曲检索不同。w 曲检索服务于大众,各大搜索 引擎逐渐形成了相近的功能设计和用户界面。企业信息规模小,允许运用复杂的 算法,也可以根据企业的需求,设计特定的用户界面和检索功能,有很大的智能 化和个性化的空间。 可以说,企业信息检索是一个非常新颖的课题、同时也是目前亟待解决的课 题之一,具有很大的研究价值和商用前景。 1 3 2企业信息检索面临的挑战 企业信息检索这一课题的研究面临着着许多挑战,h a w l 【i n g 谈到了如下几方 面【1 4 】: ( 1 ) 建立合适的企业检索测试集。建立一个能够包容所有研究问题并提供各 种实验环境的测试集是后续研究工作陆续展开的基础。这需要对企业的数据 进行深入地观察,尤其是对企业信息检索系统需要提供的信息和服务要有比 较清晰的了解。首先,企业信息检索测试集要有各种类型的数据,不同类型 的数据可以转换为统一的x m l 格式,以维持文档结构和文档间的联系;其 次,测试集要使用完整的企业数据,这一般很难做到,因为没有哪个企业愿 意将自己的全部数据拿出来供人研究;最后,企业数据中经常含有私人信息, 如何在研究过程中保护好这些私人信息也是研究人员面临的比较棘手的问 题之一。除此之外,还有其他一些法律和政策难题制约着企业信息检索测试 集的建立。 ( 2 ) 为不同种类的语料制定合理的排序策略。假设对于网页、邮件、数据库 记录、电子数据表、幻灯片和文本组成的混合语料只返回一列排序的结果, 就需要在排序策略上花一些功夫。不同类型的文档有不同的外在结构、长度 分布和语言方式,其是否含有链接、是否含有重复内容、文档间的关系等情 况亦有所不同。若排序策略只根据一种类型的文档来制定,则很难兼顾公平。 一个可能的解决方案是将混和语料分为若干子集,子集内部是相同类型的文 7 北京邮电人学博j :学位论文第一章绪论 档,然后将每一子集得到的检索结果融合而成最终的结果。然而,结果融合 本身就是比较困难的问题,不能保证得到比一次检索更好的结果。 ( 3 ) 建立员工访问的入口。这是一个分布式检索问题。企业信息检索服务必 然要面向企业员工,使每个员工都能得到所需的信息。这里就存在一个如何 区别处理私人信息与共享信息的问题。此外,由于超链接的存在,员工可以 通过内部检索系统访问企业外部网。如何处理内网与外网的信息也是一个需 要解决的问题。 ( 4 ) 邮件检索。检索企业中的邮件,需要考虑收发的线索,对于之前内容的 引用,邮件附件以及邮件结构等问题。这些问题目前还不能有效地予以解决。 ( 5 ) 对于非网页文档的评价。w 曲搜索的成功在于不仅靠文本内容相似性进 行排序,还利用了超链接、锚文本等特征。但在档案、数据库和邮件中不存 在此类特征,一些w 曲搜索的成功算法便很难加以利用。另外,在企业网站 的建设中,某些网页会被自动地加上若干链接,这就需要调整已有的链接分 析算法以适应企业内部环境。 ( 6 ) 利用查询的上下文。一些带有歧义的词汇可以通过查询中的上下文来确 定其意义。一些信息诸如地理位置、用户背景、检索历史和执行的任务等都 会对确定查询含义起到帮助作用。而关键问题是怎样在不影响查询处理速度 的情况下,准确提取和表示这些上下文信息。 ( 7 ) 检索连续的媒体数据。随着企业中音视频等一些时序数据的增加,对于 连续媒体数据的检索变得越在越重要。此现象不仅在企业中,在外部网络上 也变得越来越明显。 1 3 3 企业信息检索亟待解决的问题 企业信息检索领域面临巨大的挑战,而且随着研究的深入,其中的一些深层 次问题也逐渐暴露出来,其中的一些已成为本学科进一步发展的阻碍。但是,从 另一个方面来看,它们也揭示了企业信息检索领域下一步应该着重研究的内容。 本文认为,企业信息检索目前亟需解决以下几个问题: 1 、为异构化信息搭建统一的检索平台 企业数据中包含网页、邮件、数据库等各种类型的信息,很难通过现有信息 北京邮电大学博:上二学位论文第一章绪论 检索系统进行统一处理。并且,由于每种类型的数据量都比较有限,不同类型的 数据其内容往往是彼此交叉的,为每种类型的数据分别建立垂直检索系统既割裂 了数据间的联系又造成显著的资源浪费。因此,需要统一处理各种类型的数据, 使用户在一个平台上就能检索到所需信息。 2 、提高企业信息检索的精度 一般来说,由于所含语料有限,企业信息检索对于精度的要求要高于w 曲 检索。企业员工往往缺少耐心逐个翻阅返回的文档来查找所需信息,也不会通过 反复优化查询更新检索结果。这就要就提供尽量少的检索结果,而将相关信息尽 量全地包含于其中。因此,信息表现集中、信息含量丰富的对象便成为企业信息 检索系统的选择。 3 、建立对象化的结果呈现方式 传统的文档信息检索只能以文档为单位向用户提供检索到的结果,结果呈现 缺乏友好性。研究人员花了大量精力用于改善文档检索结果的呈现,尽量在结果 中提供更多信息,但受文档检索本身所限,难以取得本质的进展。建立全面友好 的结果呈现方式要求从根本上改变检索对象的结构,以结构化信息的检索得到结 构化信息的展现。 1 4 本文的主要工作 对象检索有两种主要形式:一种以对象名称为查询主题,检索对象相关信息; 另一种以领域知识为查询主题,检索相关的对象。本文针对后一类问题进行研究, 主要包括以下几个方面的工作:研究基于文档的专家检索模型;研究对象的属性 提取、关系挖掘和对象建模算法;研究基于对象的专家检索算法和邮件检索算法。 1 、深入分析、比较专家检索的语言建模方法,在专家文档向量表示模型的 基础上,改进了专家与文档的相关关系的建立方法,提出了专家文档几 率比关系统计模型为专家建模。与现有的统计专家在文档中出现概率的 方法相比,此模型采用机率比这一专家在某一文档出现的概率与其期望 的似然比进行建模,很好地避免了由于专家先验概率的差异导致检索结 果偏向于找到频繁出现的专家而带来的检索结果准确性的降低。实验表 明,几率比模型是既适用于计算专家与文档的关系又适用于计算专家对 9 北京邮电大学博士学位论文第一章绪论 象与其经验元属性的关系的普适性模型。 2 、在研究基于文档的专家检索方法时引入了相关反馈的思想,提出了反馈 式专家检索模型。反馈式专家检索模型直接面对专家与查询问的联系进 行建模,在得到文档相关性的基础之上,模型中仅引入了相关文档作为 相似关联的载体,在检索效率和精确性上都对原有专家检索模型进行了 优化。实验比较了几种现有的查询反馈计算扩展词权值的方法,验证了 其在专家检索中的有效性,并且通过实验证明存在相对较稳定的反馈文 档数量,使检索的精确性达到统计意义上的最优。 3 、首次在对象检索中引入面向对象的模型;提出对象的概念及范畴;定义 了对象属性,提出对象属性的提取方法;组织元数据建立对象模型。对 象是对客观事物的抽象,当检索目标集合只由一类事物组成时,则可将 此类事物抽象为对象。对象属性是对对象的描述,包含所有于对象相关 的特征。对象以其属性表示,对象模型通过组织属性元数据来建立,是 基于对象的检索方法的基础, 4 、对软件工程中的专家经验因子的概念进行语义化扩展,提出专家文本经 验元属性,作为专家对象的主要属性类型,支持基于对象的专家检索语 义相关性获取部分。实验结果表明专家经验元属性能够在语义上很好地 表示专家对象,使基于对象的专家检索方法与基于文档的专家检索方法 相比从根本上取得较优的效率和效果。 5 、提出了基于对象的检索方法,从理论上对之前的对象检索模型进行了抽 象概括,转化为相似度、置信度和重要度三个方面相结合的对象排序策 略。在此基础上,分别建立了基于对象的专家检索模型和邮件检索模型, 充分吸收了前人的经验,使专家检索和邮件检索的效果达到较高水准。 从理论上探讨了统一的多类对象混合检索模型的建立,以期望能够有效 解决复杂的对象检索问题。 6 、利用上述研究成果,在l e i i l u r 检索平台上设计与实现了包含邮件检索模 块与专家检索模块的企业信息检索系统。 总之,本文以研究企业信息检索中的对象检索方法为出发点,对其中的若干 关键技术进行了深入研究,着重探讨了基于文档的高效率、高精度专家检索模型, l o 北京邮电大学博士学位论文第一章绪论 适于检索的专家建模方法,以及基于对象的专家检索方法和邮件检索方法,并通 过t r e c 企业检索平台验证了研究成果的有效性和正确性,达到了预定的研究目 标,为设计统一的基于对象的企业检索系统提供了可靠的技术基础。 1 5 本文内容安排 本论文总共包括六章,每章内容介绍如下: 第一章绪论。1 1 节介绍了本文的选题意义;1 2 节概括了所选课题的研究背 景;1 3 节提出了本文的研究内容;1 4 节概括本文的创新点;1 5 节对本文内容章 节安排进行说明。 第二章基本信息检索技术。2 1 节给出了信息检索的过程;2 2 节研究了信息 检索的三大经典模型以及语言建模技术;2 3 节介绍了文档处理、特征选择和索 引技术;2 4 节研究了信息检索的评价指标;最后进行了小结。 第三章企业数据中的对象介绍。3 1 节介绍了企业信息检索中的对象和对象 检索;3 2 节给出了对象的具体定义,同时给出了本文提出的专家文本经验元的 概念;3 - 3 节研究了信息提取的相关内容,并介绍了本文在对象属性提取和关系 挖掘方面的工作;3 4 节是本章小结。 第四章基于文档的专家检索技术研究。4 1 节概括了专家检索的意义及发 展;4 2 节主要介绍基于规则的专家定位方法;4 3 节研究了基于文档的专家检索 的相关技术,重点探讨了专家检索中的语言建模技术,比较了两种基本的专家检 索语言模型;4 4 节研究了查询扩展技术,重点是基于相关反馈的查询扩展,给 出本文提出的反馈式专家检索模型,将传统的扩展词加权技术引入到专家排序的 计算中,并给出了实验结果;4 5 节是本章小结。 第五章对象的建模技术研究。5 1 节介绍了研究对象建模技术的目的;5 2 节研究了专家对象的建模技术,给出了本文提出的基于机率比关系的专家模型及 实验结果;5 3 节研究了邮件对象的建模技术;5 4 节是本章小结。 第六章基于对象的检索模型研究。6 1 节介绍了面向对象的思想;6 2 节介绍 了对象检索的研究背景;6 3 节给出了本文提出的基于对象的检索模型及其实现 框架;6 4 节给出了基于对象的专家检索模型及实验数据:6 5 节给出了基于对象 的邮件检索模型及实验数据;6 6 节给出了基于对象的多类对象混合检索模型; 北京邮电大学博十学位论文 第一章绪论 6 7 节是本章小结。 第七章总结与展望。在前面各章对企业信息检索中的对象检索方法进行了 充分研究基础上,指出了当前存在的瓶颈和不足,阐述了未来一些改进方向。 1 2 北京邮电大学博士学位论文第一章绪论 本章参考文献 1 】t r s 企业搜索引擎白皮书,北京拓尔思信息技术有限公司,2 0 0 5 2 】w b 衙mh 著,翁美飞译,“企业搜索的镀金时代”,信息周刊网络版, 2 0 0 7 【3 】b a e z a r a t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论