(信号与信息处理专业论文)企业信息检索研究与实现.pdf_第1页
(信号与信息处理专业论文)企业信息检索研究与实现.pdf_第2页
(信号与信息处理专业论文)企业信息检索研究与实现.pdf_第3页
(信号与信息处理专业论文)企业信息检索研究与实现.pdf_第4页
(信号与信息处理专业论文)企业信息检索研究与实现.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

- 企业信息检索研究与实现 摘要 企业信息检索是信息检索的一个新的研究方向,旨在帮助企业快速分析内部 网络上的内容,实现高效的内容管理,从而达到提高企业生产效率的目的。企业 信息检索既是一个综合性的课题,可以尝试将自动摘要、网页检索、信息过滤、 命名实体识别等各种信息检索技术综合运用,又是一个具有启发性的新颖课题, 通过对企业环境、企业数据的分析,探索出新的模型和方法,从而促进信息检索 领域的发展。 企业信息检索以需求,也就是检索目的作为子课题。t r e c 2 0 0 5 提出的三个 子课题包括特定邮件检素、讨论组邮件:湓索和专家检索1 。 本文在专家检索方面展开研究,主要工作包括: 第一,对信息检索的三种模型进行了研究和对e 第二,针对专家检索设计了一种折线模型,可以利用网页检索的技术作为基 础来辅助专家检索。 第三,分析f f - i d f 权重公式中索引词与文档的关系,类比专家与文档的关系 设计了专家权重计算公式,以及总的专家排名算法。 第四,提出一种启发式的重名分析算法,来解决有词典人名识别中的重名问 题。 第五,设计并实现了一个专家检索系统e x p e r t f i n d e r ,综合了以上研究成果。 关键词:企业信息检索专家检索重名分析命名实体识别 详细任务描述参见附录一 r e s e a r c ho ne n t e r p r j s ei n f o r m a t i o n r e t r j e v a l a bs t r a c t e n t e r p r i s ei n f o r m a t i o nr e t r i e v a li s an e wt o p i ci nt h ef i e l do fi n f o r m a t i o n i e v a 一i t sd e s a - n e dp r o v i d eq u i c ka n a l 5 f o re n t e r ) r i s e st od e a lw i t ht h edataretrieval i ti sd e s i g n e dt op r o v i d eq m c ka n a l y z ei o re n t e r p r i s e st o e a l t r lt h ea t h e i ri n t r a n e t r e a l i z ea ne f f e c t i v ec o n t e n te m e n t ,a n dt h e n e tah ihin t h e i rn t r a n e te t t e c t l v e m a n a g e m e n tg e tn l g n l , p r o d u c t i v i t y e n t m p r i s ei r i sa s y n t h e t i c a l l yt o p i c ,w h i c hg i v e st h ec h a n c et oc o m b i n e v a r i o u si rt e c h n o l o g i e s ,e g a u t oe x t r a c t i o n ,w e bs e a r c h ,i n f o r m a t i o nf i l t e r , l l a i n e e n t i dr e c o g n i t i o ne t c a l s o ,e n t e 印xi s ei ri sa no r i g i n a lt o p i cw i t he n l i g h t e n s w i t hm a a l y z i n gt ot h ee n t e r di s en e t w o r kc i r c u m s t a n c ea r i de n t e r p r i s ed a t a ,n e wi r m o d e l sa n dm e t h o d sc a nb ee x p l o r e d ,a n dt h a t sw i l lp r o m o t et h ed e v e l o p m e n to fi r e n t e r p r i s ei rd e f i n e ss u b i s s i i 。sb yt h er e q u , , e m e h lo fe n t e r p r i s e :w h i c hm e a n s t h e t a r g e to fr e t r i e v a l t r e c 2 0 0 5 r a i s e dt h r e es u b i s s u e s :k m o w n _ i t e ms e a r c h , d i s c u s s i o ns e a r c ha n de n t e r p r i s es e a r c h 2 t h i st h e s i sf o c u s e so nt h ee x p e r tr e t r i e v a la n dt h ew o r kw h i c hh a sb e e nf i n i s h e d a r ea sf o l l o w s : 1 r e s e a r c ho nt h et h r e ei rm o d e l sa n di n v e s t i g a t et h e i rd i f f e r e n c e 2 d e s i g nab r o k e n 1 i n em o d e la sa no v e r a l lm o d e lo fe x p e r tr e t r i e v a l ,w h i c h a l l o w su s i n gw e bs e a r c ht e c h n o l o g yt os u p p o r te x p e r tr e t r i e v a l 3 a n a l y z i n gt h er e l a t i o n s h i pb e t w e e nk e yw o r d sa n dd o c u m e n t ,o nt h ea n a l o g y o ft h i s ,w ed i s c u s s e da ne x p m tw e ig h tf o r m u l aa n dam e t h o df o rr a n ko f e x p e r t 4 w ed i s c u s s e dah e u r i s t i cm e t h o dt or e s o l v et h eh o m o n y m yi nn a m e 2r e f e r t oa p p e n d i xo n ef o rt h ed e t a il so ft h et h r e et a s k s r e c o g n i t i o nw i t hd i c t i o n a r y 5 d e s i g n e da n dd e v e l o p e da ne x p e r ts e a r c hs y s t e m e x p e r t f i n d e rw h i c h c o m b i n e dt h ee n t i r er e s u l t s1 i s ta b o v e k e yw o r d s :e n t e r p r i s ei n f o r m a t i o nr e t r i e v a l ,e x p e r ts e a r c h ,h o m o n y m y ,n a m e e n t i t y r e c o g m t l o n 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:五,垂垡 日期 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 醯墨垒日期:地:i :i ! h ” 幽扛一 日期 北京邮电大学硕士学位论文 1 1 引言 第一章绪论 随着互联网的迅速发展,网上信息量呈爆炸式增长,信息检索已经成了人们 获取信息的最主要方式。2 0 0 5 年7 月2 1 日,中国互联网络信息中一已, ( c n n i c ) 在 京发布“第十六次中国互联网络发展状况统计报告,报告显示3 7 8 的用户上网 以获取信启、为主要目的,6 4 5 的用户把搜索引擎列为经常使用的网络服务, 8 4 5 的用户是在搜索引擎的指引下得知新网站 2 2 。一方面,网上的信息日渐 丰富,可以说无所不包;另一方面,用户数日渐增多,涵盖了各个知识层次和各 种行业,用户需求也变得五花八门。如何在海量的信息和复杂的需求之间搭起一 座畅通无阻的桥梁,这就是信息检索领域研究的内容。 目前,信息检索技术已经在数字图书馆、w e b 搜索引擎等应用上获得很大成 功,万方、知网、g o o g l e 、百度等已经是家喻户晓。随着信息化浪潮的来临,各 个企业也争相实现信息化,将企业的档案、邮件、账尽、代码等都放在内部网上 进行管理,员工需要记住各种资源的访问入口,有些还需要账号密码,这样复杂 的访问方式显然违背了企业追求效率的初衷。企业迫切需要一个智能化的统一资 源访问平台,因此,企业信息检索引起了人们的关注。 1 1 1 信息检索的概念和目的 信息检索是指对非结构化记录的检索 1 ,非结构化记录包括无固定形式的 自然语言文本,也包括其他非结构化的数据如:照片、声音、视频等。信息检索 也指对信息项的表示、存储、组织、访问 2 。 以上定义中的记录称为文档( d o c u m e n t ) ,文档通常是从一个组织好的、相 对静态的知识库中检索,这个知识库称为文档集( c o l l e c t i o n ) 。为什么是相对静 态的呢? 因为文档集可以是静止不动的文档,可以是定期更新的网页,也可以是 实时更新的消息流( 例如:因特网上或私有网络上流动的电子邮件、传真等) 。大 规模的文档集建立索引需要花费几小时到几天时间,因此索引都有一定的更新周 北京邮电大学硕= = i 二学位论文 期,在更新周期内,新加入的文档没有被包含在索引中,用户是检索不到的,这 时文档集相对用户而言是静态的。所以在研究过程中,我们可以使用绝对静止的 文档来研究一些检索方法。 信息检索目的是从文档集中找出关于给定主题的文档,或者满足给定信息需 求的文档。主题或信息需求由用户产生的查询来表达。由用户判定为满足给定查 询的文档称为相关( r e l e v a n t ) 。不是关于给定主题的称为不相关( n o n r e l e v a n t ) 。信 息检索引擎可以用查询来对文档集中的文档分类,返回给用户一个满足分类标准 的子集。返回文档中相关文档比例越高,分类规则就越好。另外,信息检索可以 对文档集中的文档进行排序。对给定查询q ,文档d 1 排在文档d 2 前面意味着 d 1 比d 2 更能够满足查询q 。或者说d 1 比d 2 满足的更好,更集中于e 表达出 的需求。 1 1 2 企业信息检索的提出 战略商务顾问德尔福集n ( d e l p h ig r o u p ) 专门针对“企业局域网搜索 这个 课题做了调研,结果表明:企业局域网所使用的信启,检索技术“经常无法让用户 找到自己想要的信息。调查对象有三百,弋,平均每天花费两到四小时来用计算机 在企业局域网中搜索与工作有关的信息资讯。其中有6 0 的调查对象认为较之两 年前现在更容易在企业局域网中找到与其工作相关的信息。也有6 8 的调查对象 认为在企业局域网中查找与工作相关的信息时还是有一定困难,而且较为费时。 这个集团的执行副总裁认为:效率与效益就是根本的目标。无论是企业的管理人 员,普通工作人员,还是企业客户,都希望能够很容易就可以了解到这家企业( 公 司) 所拥有的信息中是否有与他正需要的资料有关的任何信息。而这才是搜索技 术的真义。 1 1 3 企业信息检索的定义 。 企业信息检索是信息检索的延伸,可以理解为对“企业信息”的检索,也可 以理解为“企业”使用的信息检索,前者强调数据的特殊性,后者强调服务对象 的特殊性。 企业信息检索与传统的w e b 搜索引擎相比有四个方面的区别: 北京邮电大学硕士学位论文 第一,企业信息与w e b 网页不同。w e b 检索的网页是使用蜘蛛程序下载到 本地服务器上的,格式单一、规模大、下载存放集中。企业信息包括企业内部网 站、日常工作中的文件、邮件、代码、即时通讯信息和企业数据库,格式多样、 规模小、存放分散。 第二,检索效率要求与w e b 检索不同。w e b 检索返回几页到几十页的结果 供用户查阅,索引更新周期通常是一周到一个月的时间。而对企业,尤其是企业 的决策者而言,时间就是财富,使用任何信息化系统的目的都是为了节省时间、 提高效率,因此要求检索系统实时更新索引,准确、精炼地返回结果,最好是准 确无误地返回一条最新的记录。 第三,安全管理与w e b 检索不同。w e b 检索通过蜘蛛程序访问互联网上所 有网页,通过阅读网页的标记来确定是否下载该网页。只要下载到本地并建立索 引就可以被所有的互联网用户在任何时间检索到。而企业中因为文件机密级别、 职务、部门等原因,不是每个人都有权利访问每一个文档。 第四,智能化和个性化与w e b 检索不同。w e b 检索服务于大众,各大搜索 引擎逐渐形成了相近的功能设计和用户界面。企业信息规模小,允许运用复杂的 算法,也可以根据企业的需求,? 设计特定的用户界面和检索功能,有很大的智能 化和个性化的空间。 可以说,企业信息检索是一个非常新颖的课题、同时也是目前亟待解决的课 题之一,具有很大的研究价值和商用前景。 t r e c 2 0 0 5 首次将企业检索设定为一个专门任务,这是企业信息检索第一次 成为全球共同研究的课题,通过这次会议,信息检索技术开始为企业需求服务, 来自企业的课题也将促使信息检索的基础课题取得新的进展。 1 1 4 企业信息检索的任务和关键技术 t p , e c 2 0 0 5 将企业检索作为w e b 检索的继承课题,提出了两个子任务,一是 专家检索,提出一个查询,要求从企业中找出与查询主题相关的专家;二是邮件 检索,专门检索企业内部交流的邮件和讨论组信启、,这个任务又分为已知项和讨 论组两部分。已知项即用户明确知道文档集中存在这一封邮件,输入邮件的题目 或者其它关键信息,检索系统返回这封邮件;讨论组即给定查询,返回与查询相 北京邮电大学硕二l 学位论文 关的一组帖子。 从2 0 0 5 年的结果来看,企业信息检索的关键技术有两个发展方向:一是继 承信息检索的成熟技术,例如统计语言模型,v s m 等;二是根据需求试验新的 技术,例如e x p e r t n e t 等。 1 2 论文的研究内容 一个企业要顺利运转,必定拥有各方面的人才,这些人才在他们所善长的领 域里被称为专家。每个员工在工作中最为关键的一点就是如何寻求专家的帮助。 如果能够对检索系统描述自己的问题,由检索系统来寻找企业内部的专家帮助, 工作将不再受到人际、地域的限制。本文研究内容集中于专家检索的设计和开发。 2 0 0 5 年t r e c 有9 家单位参与了专家检索课题。 1 2 1 具体研究内容及方法 信息检索系统返回的结果多于一个时需要排序,对专家如何排序是专家检索 首要考虑的问题。本文首先设计了折线模型,并依此设计检索方法,根据t f 和 i d f 确定专家权重,依据权重对专家进行排序,本文将这个权重称为e x p e r t r a n k 。 英文专家名字常有重名,本文采用启发式规则对重名进行分析和确定,这是 本文第二部分研究内容。 最后,本文根据专家排序和重名分析算法,在l e m u r 的基础上建立了 e x p e r t f i n d e r 系统,使用t r e c 2 0 0 5 数据进行实验,并分析了实验结果。 1 2 2 采用的语料 t r e c 2 0 0 5 企业检索任务提供的文档集来源于w 3 c ,是2 0 0 4 年6 月蜘蛛程 序采用广度优先策略扫描整个网站所得到的网页集合 12 。w 3c 文档集分为6 个部分,分别是w 3 c 的日常邮件l i s t s ,个人网站p e o p l e ,开发文档及代码d e v , w i k i 页面e s w ,网站页面、 n n v 以及其他o t h e r 。 文档集的详细统计资料如表1 1 : 4 北京邮电大学硕士学位论文 表1 - 1w 3 cc o r p u s 统计资料 参考文献 12 t y p es c o p es i z e ( g b ) d o c s a v d o c s i z e ( k b ) 1 、o 1 i s t s1 8 5 51 9 8 3 9 49 8e m a l l c o d ed e v2 5 7 8 6 2 ,5 0 94 3 2 w e b、矾v w1 0 4 3 4 5 ,9 7 5 2 3 8 w i k iw e be s wo 1 8 11 9 6 0 59 7 m i s co t h e r0 0 4 7 3 5 3 814 1 w e b p e o p l e 0 0 0 31 0 1 63 6 a l l5 73 31 ,0 3 7 18 1 另外,针对专家检索任务,t r e c 给定了w 3 c 的人员列表,以 的方式给出10 9 2 个成员的记录,要求从中挑选合适人选作为专家检索 的结果,并进行排序。 1 2 3 测试方法和评价指标 专家检索任务中,t r e c 提供1o 个主题( t o p i c ) 禾l 参考答案( 即相关专家列表、) 作为训练集,5 0 个主题( t o p i c ) 作为测试集。 t r e c 采用m a p ( m e a na v e r a g ep r e c i s i o n ) 平均准确度作为主要评价指标。 r p r e c ,p 5 ,p 1 0 ,p 2 0 ,p 3 0 ,p 1 0 0 ,p 1 0 0 0 ,r r l ( r e c i p r o c a lr a n ka t 1 ) 作为参考指标。指标的计算方法参见附录三。 实验设计及结果将在第五章进行讨论。 1 3 论文的组织安排 本文共有六个章节和两个附录,内容分别是: 第一章绪论介绍企业信息检索的定义,使用的语料和测试方法。 第二章介绍信息检索的主要模型。 第三章提出专家检索的折线模型和基于t f - i d f 的专家权重计算e x p e r t r a n k 。 北京邮电大学硕士学位论文 第四章分析人名识别存在的困难,提出了重名消歧算法。 第五章介绍专家检索系统的框架、设计思路,给出了t r e c 中的测试结果, 并进行了对比分析。 第六章对本文工作进行了总结,并提出了进一步的工作。 附录一是t r e c 会议以及2 0 0 5 年企业信息检索任务介绍。 附录二对信息检索试验平台l e m u r 作了简要介绍。 附录三解释了r p r e c ,p x ,r r l 评测指标的计算方法。 最后是参考文献,附录和致谢。 北京邮电大学硕士学位论文 2 1 信息检索建模 第二章信息检索模型 研究信息检索首先要量化检索的对象( 文本、邮件等) ,并设计“相关”的 数学定义和相关度计算方法,再根据相关度由大到小给出有序结果。这一过程就 是对信息检索的建模过程。这个领域有三大经典的模型,分别是:布尔模型、向 量模型、概率模型。这些经典模型都将文档看作是词的集合,其中有一些词比较 有代表性,相比其他的词能够更好地反映文档的内容,因此经典模型认为每篇文 档都可以由一组有代表性的关键词来描述,这些关键词称为索引项。根据每个索 引项对于描述这篇文档作用的不同,每个索引项分配有一个权重。定义如下: 设系统中索引项的总个数为t ,k i 是其中一个索引项。k = k 1 k t ) 是所有索 引项的集。文档d j 的k i 索引项的权重为w i j 0 。文档d j 中没有出现k i ,则w i j 2 0 。 一 】i 因此任一文档d j 都关联一个t 维索引项向量“- ,表示为“= ( w l j ,w 2 j ,w u ) 。进 j 一步,令g i 为一个函数,对任意t 维的向量返回索引项k i 的权重,如:g i ( “) :w i j , g i 称为权重计算函数 2 。 在以上定义的公共基础上,三大经典模型在权重w i ,i 的确定,相关度的计算 等方面有所不同。以下章节将分别叙述三个模型的具体思想,都以上述定义为基 础。 2 2 布尔模型 布尔模型是基于集合论和布尔逻辑建立的模型。布尔模型使用二进制数来表 示权重和相关度。索引项存在则权重为1 ,不存在则权重为0 ,查询和文档或者相 关,或者不相关。查询q 是布尔表达式,g 曲矿为查询q 的或连接形式,q c c 是g 聊 北京邮电大学硕:l 学位论文 中任意一个组,若存在一个g c c , 其中的每个索引项的权重都与文档d 中相应索 引项的权重相同, 则d 与q 相关, 相关度为1 ,否则d 与q 不相关,相关度为 0 。文档d j 与查询q 的相似度可以表示为 妫卵( d j , q ) = 1 f 1若 j 砷) 八( v k ,g f ( 万) ( 函 1 ) 0 其它 如果s i m ( d j , g ) = 1 那么布尔模型认为文档眵,与查询q 相关,反之则不相关。 由以上定义可见,布尔模型是一种非常简单的模型。 2 3 向量模型 在一篇文档中,每个词对表达文章内容所作的贡献有所不同,布尔模型的二 进制权重认为所有出现的索引项贡献都为1 ,这样的二进制权重不足以区分不同 索引项。因此向量模型提出了_ 种不完全匹配的机制,为查询和文档中的索引项 分配非二进制的权重。 定义如下:令w i j 为与二元组 k i ,d j 关联的权重,w i , q 为与二元组 k j ,q 关联的 权重,w i , q2 o 。那么查询g 就可定义为1 2 r = ( 心 g ,w ,其中t 是系统中索 引项的总数。文档d i 仍然定义为d = ( w ,w z ,w u ) 。这样文档d i 和查询q 就 表示成两个t 维的向量,文档和查询的相似度就由向量d ,和g 的关系来确定。计 算两个t 维向量的关系有许多方法,比较典型的一种就是计算两个向量的夹角余 弓亥: 咖圳= 涌= 0 u 州 。 正i = 一1w i , j 霭翥 ( 2 - 2 ) 向量模型相比布尔模型有了较大的改进。从权重上将一篇文档的索引项分出 了主次关系,是一种更接近现实世界的模型。 北京邮电火学倾j 匕学位论文 2 4 概率模型 概率模型基于概率理论对信息检索建立模型,从直观上,用户提供查询q , 检索到文档d j ,d j 与查询q 的相关度取决于用户对d i 的感兴趣程度。所以对于给 定的查询q 和文档d j ,概率模型试图估计用户会对d j 文档感兴趣的概率,也就是 将相似度计算转变为概率计算。 假尊:1 、相关度仅取决于查询q 和文档表示;2 、对于每一个查询都有一个 文档集的子集作为答案集,称为理想答案集,标记为r ,r 能够最大化与用户查 询相关的概率; 定义:令索引项权重为二进制变量,即w i , , o ,1 ) ,嵋,g o ,查询q 是索 引项的子集。令r 为已知( 或者事先假定) 与q 相关的文档集合。则p ( r id j ) 一 _ _ _ 。一 为文档d j 与查询q 相关的概率,p ( ra ) 为文档d j 与查询q 不相关的概率。那 么文档d i 与查询q 的相似度定义为 根据贝叶斯公式,有: 咖( d 棚) 二型 ( 2 - 7 尸( 尺id _ ) j i 纷? ( d ,g ) = 掣兰! ! 1 2 ( 2 - 4 ) 。 尸( d , 尺) x 尸( 尺) 其中尸( d ,f 月) 表示从相关文档集合r 中选出文档d j 的概率。p ( r ) 表示从所 有文档中随机挑出一篇文档是相关文档的概率。 2 5 三种模型的比较和演化 三种经典模型中,布尔模型被认为是最弱的模型。而概率模型是否比向量模 型更好尚无定论。从经典模型中又发展出了几个比较主要的模型。其中布尔模型 9 北京邮电大学硕二i 二学位论文 引申出了模糊集模型和扩展布尔模型;向量模型引申出了无特征向量模型、语义 索引模型、神经网络模型;概率模型则有推理网络模型和主要网络模型两个引申 模型。 1 0 北京邮电大学硕士学位论文 第三章折线模型和基于t f idf 的专家权重计算 本文针对专家检索设计了折线模型和基于t f i d f 的专家权重计算方法 e x p e r t r a n k ,两者综合实现给定查询,排序返回相关专家名字的功能。本章节首 先介绍折线模型的设计思路、依据,以及模型的变化,然后介绍一种基于折线模 型设计的检索方法,最后介绍基于t f i d f 确定专家权重的方法。 3 1 折线模型 以往的信息检索解决的是输入查询q ,输出文档d 的问题,即 的关 系问题。其中的文档d 就是语料库的基本组成部分,也是能够独立表达语义的 单位。专家检索需要解决的是输入查询q ,输出专家名字e 的问题,即 的 关系问题。不同的是,在计算机世界中,这里的e 只是一个名字,即只是一个符 号,对应企业中的一个人,这个符号本身没有包含任何语义,只是因为这个人在 企业中,他的工作j 性格、特长、职责等等用文档的形式记录在企业的数据库中, 所以这个符号才有了一定的价值,才会跟某个查询相关。因此,检索专家就必然 要分析文档,即需要解决的其实是 这个三元组的关系。 进一步想,文档包含一定的语义,既能够反映专家的相关领域,也能够反 映与查询相关或者不相关的内容;而名字e 没有任何语义,无法与查询建立关系, 因此文档是 关系中的唯一桥梁,也就是说,研究 等价于研究 以及 的关系。 借用图论可以表述为:q ,d ,e 分别为三个节点,由q 到e 只有一条路径, 且该路径通过d 节点。 图3 - 1 折线模型 北京邮电大学硕士学位论文 模型。 由于查询与返回的结果没有直接语义关系,所以本文将这个模型称为折线 3 。2 折线模型的变化 折线模型直观反映了专家检索的任务,即 的关系。然而对于模型的 具体操作就可以有不同变化,因此也可以设计截然不同的检索系统。 3 2 1 变化为 查询与文档的关系类似于普通文本检索,已经有许多成熟的方法可以采用。 因此先计算 的相关关系,即先根据查询找到相关文档,再从文档中找到相 关的专家,依据相关文档的得分以及文档与专家的相关度得分确定最后的专家排 序结果。也就是说,将计算 的结果作为新的文档d7 ,这时d7 不是普通的文 档,而是已经排序的一组有分值的文档。q 与d7 是一一对应关系。然后再计算 。 3 2 2 变化为 人名是一种本身没有语义的符号,也不像普通词汇一样会有词性和上下文 关系。但由于人名会在文档中出现,因此可以利用文档来为人名建立说明文字, 用说明文字的语义作为人名语义。这样,人名与查询的相关度就可以等价于人名 语义与查询计算相关度。也就是先计算 ,与e 相关的文档或者文档片断组 合为新的文档d7 ,这时d7 是一组文档或者片断的组合,d 与e 是一一对应关系。 然后再计算 。 3 3 基于折线模型的专家检索算法 下面介绍的专家检索算法基于折线模型的第一种变化,即 。 1 2 北京邮电大学硕士学位论文 首先考虑查询与文档的关系。综合考虑开发实现的难度和检索性能,本文 采用了基于向量空间模型的文本检索模型。 第二步计算文档与专家的关系。这一步是实现专家排名的关键,针对给定 查询为专家进行权威性排序的问题,可以转化为寻找证明其为专家的依据,通常 考虑的依据有: 人名在文档中出现次数。基于在同一篇文档内越活跃越重要这一假设; 这里的同一篇文档可能是一组邮件。 人名在文档中的位置,即分析文档结构。通常作者都是在紧接着标题的 位置,相比文档中提到的人名,文档作者与该文档必定更相关; 个人主页。w 3 c 文档集有专门一个子集p e o p l e 包含一些成员的个人主 页。主页中通常都有对该成员的工作职责、兴趣爱好等等各方面的描述, 所以是相关索引词出现最集中的文档; 邮件列表。w 3 c 的l i s t s 子集专门是企业内部讨论组的文档集合,参加 某个主题的讨论通常意味着这个成员与该主题下的文档相关: c 组信息。在w 3 c 以及通常的企业中,每个成员都会隶属于一个或爹个 部门或小组,这个部门或小组的名称就是组信息。如果成员与组信息总 是一起出现,则意味着这个成员很可能属于这个小组,那么关于小组的 描述文档也可以用于描述这个成员。 反向文档频率。文档中的人名可以看成是成员本人留在网站中的脚印。 因为在企业局域网中人的活跃程度有所不同,所以留在文档集中的脚印 数量就会有很大的区别,但是不一定最活跃的人就是最权威的人。同时 涉及太多文档的人很可能只是一个活跃分子,或者是管理员。所以反向 文档频率也被本文列入考虑范畴。 本文在设计系统时采用了文档中出现次数与反向文档频率结合的方法。 综合起来,完整的专家检索算法就是:对给定的查询进行预处理,利用v s m 模 型进行普通文本检索,对每一个查询都得到一组排序的带有得分的文档;对于这 组相关文档,计算每个人名的出现次数和出现的文章数,结合文档得分,对每个 人名得到一个相关度分值,未出现的分值为0 。最后根据分值进行排序,就得到 与查询相关的一组专家。 北京邮电大学硕二l 二学位论文 3 4 相关计算公式 设索引词数为n 。查询q ,表示为n 维向量虿,= w o , iw u ,- ,w 州) ,文档d j 表示 为n 维向量弓= 如。m ,1 缈亿川。索引词的权重w 采用如下t f - i d f 公式计算: 砒弧1 n 罴 ( 3 _ 1 ) 其中,矿( 2 l ,孑) 为索引词t 在文档d 中的出现次数,为文档总数,玎,为出现 索引词t 的文档数。 查询q j 与文章d 的相似度由两个向量的点乘积来表示: s i m ( q , ,d j ) = 虿,d j , ( 3 - 2 ) = ( w 孑,) ) 这样对每个查询o ,所有的文档都有一个相关分值,并按照分值从大到小 排序o 设定正整数,对每个查询q ,取出n7 个文档作为相关文档组,进行进一步 的计算。n 取值一般为5 0 到10 0 ,可以根据文档集规模以及训练数据确定。 设文档d 与专家色的相关度为c - 0 刀( d ,邑) ,则可得查询q ,与专家巨的相 关摩计笪公式如- v : n i c o 门( q ,乓) = 鼢( q ,d j ) c o n ( d j ,毛) ( 3 3 ) 3 5 基于t fid f 的专家权重计算e x p e r t r a n k 如何量化专家与文档的关系尚无定论,所有的方法都只是在一定假设基础上 进行的实验。本文设计的基于t f i d f 的专家权重计算思路来源于索引词的t f i d f 权 重计算。 1 4 北京邮电大学硕士学位论文 索引词的t f i d f 权重设计认为索引词要具有代表性,要在某篇文章中频繁出 现,但又不能在很多篇文章里面都出现的,才是能够表达这篇文章语义的索引词。 也就是在文档内活跃,但在文档间不活跃的词。 引申到专家检索,我们假设:在一篇文档内频繁出现的候选人与该文档的关 系比偶然出现的候选人更大,另外,又假设在文档间频繁出现的候选人与某文档 关系必然比只出现在该文档中的候选人更弱。 简单套用t f i d f 公式,得到文档d ,与专家e t 的相关度: c 彻( d j - ,e 沪t f ( e 一) xi n 兰( 3 - 4 ) 其中t f ( e 七,d ) 为候选人在文档d 中出现的次数,门乓为候选人在文档集中出 现过的文档数。由于这个公式是最终用于对专家进行排名,所以称之为 e x p e r t r a n k 。 3 6 实验结果与分析 网页检索的方法以及准确度已经有过很多的研究,本文只讨论在同一个网页 检索模型基础上专家排序所起到的作用。 为便于比较,本文设计一个基线( b a s e i l n e ) ,使用直接词频作为候选人的权 重,然后分别用不同文档集和查询组进行试验和评价。结果见表3 1 ,其中的t r a i n 代表训练,t e s t 代表测试; f 代表是用完整的文档集,d 表示使用除了d e v 开发 文档以外的作为文档集。例如t r a i n f 就代表使用全部文档集和1 0 个训练主题进 行实验。 表3 - 1 专家权重:tf 与e x p e rtr a n k 权重计算的比较 a v e r a g ep r e c i s i o n c o i i e c t i o n i m p r o v e m e n t r a wt f e x p e r tr a n k t r a i n f0 4 0 7 7 0 4 1 6 42 13 t r a i n d0 3 9 2 10 4 0 0 4 2 12 t e s t f0 i 4 11 0 1 4 9 86 1 7 t e s t do 1 4 830 18 332 3 6 0 北京大学硕土坐位论立 使用e x p e r c r a n k 计算,比使用直接出现次数作为专家权重,平均准确度提 高都在2 以上。尤其是t e s t d ,提高了2 36 0 ,司以看出,专家排序公式对提 高平均准确度的确有所帮助。同时,越活跃的人未必越权威的假设也可从这个 实验得到验证。 6 北京邮电大学硕士学位论文 第四章重名消歧算法 专家检索任务给出了每位候选人的编号、姓名和邮件地址,用于确定候选人 在文档中出现的形式和位置,我们称之为名单。本章将分析姓名作为命名实体的 特点,提出根据名单确定候选人存在的问题,然后介绍一种解决的方案,即重名 消歧算法。 4 1 姓名作为命名实体的特点 在智能信息处理领域中,姓名、街道名称、公司名称等被称为命名实体,命 名实体通常会由若干个单词组成,用于代表现实中的一个实体。与一般的索引词 不同,命名实体的几个部分组合成一个整体作为名词出现,形式可以是全称也可 以是简称或者缩写。在信息处理时,要求对命名实体做整体识别,其中任何一个 部分不需要通过普通索引词的预处理步骤。 4 1 1 姓名的多种组合形式 姓名作为一种命名实体,可以有称呼( 或头衔) 、姓、中间名、名几个部分。 几个部分的组合很灵活。为便于建模,我们将每个部分用英文单词的首字母代表: 头衔t ( t i t l e ) ,姓s ( s u m a m e ) ,中间名m ( m i d d l en m n e ) ,名g ( g i v e nn a m e ) 。分别举 一个中文名字一个英文名字作为比较。例如一个人叫做j a m e sh m i c h a e l ,中文 名字张吉姆,那么文档中称呼这个人的方式有: 全名: g + m + s ,j a m e sh m i c h a e l ,张吉姆 省略中间名:g + s , j a m e sm i c h a e l ,张吉姆 直呼名: g ,j a m e s ,吉姆 带头衔的称呼:t + s , m r m i c h a e l ,张先生 另外还有昵称,很多人在公司的环境中,互相都熟悉,习惯用昵称来互相称 呼,这个昵称可能跟本来姓名没有任何字面上的联系。 北京邮电大学预二卜学位论文 以上这些都是j a m e sh m i c h a e l 的合理称呼方式。只要从上下文中判断出来 某个组合指代的人,那么不管这个组合是不是全名,都应当被识别为被指代的人。 注意,有一种形式也会在文档中偶尔出现,就是 只写姓: s ,m i c h a e l , 张 这种方式不符合通常的行文习惯,不能认为指代的是j a m e sh m i c h a e l 。 4 1 2 重名 仍然以j a m e sh m i c h a e l ( 张吉姆) 这个名字为例。其他人的名字可能会与 这个名字部分相同。这也分为四种情况: 同姓: t o n yh m i c h a e l , 张三 同名:j a m e sh w a s h i n g t o n , 李吉姆 以姓作名: m i c h a e lh w a s h i n g t o n , 李张 或者名作为姓,对于m i c h a e lh w a s h i n g t o n 来说,j a m e sh m i c h a e l 就是以 名作姓。 4 2 姓名识别存在的问题 命名实体的识别分为有词典和无词典。专家检索任务给出的名单就是全名的 词典,因此本文只讨论有词典识别。所有姓名组合中只有全名可以作为某个候选 人的唯一标识,其他形式的名字都应该通过某种方法转变为这个唯一标识,从而 转变为词典中的唯一编号。对姓名的识别难度正是来源于姓名的多种形式和重名 两个同时存在的一对矛盾。 4 2 1 单一词典 在给定全名词典的情况下,最直接的识别方法就是在文档中直接查到候选人 的名字或邮件地址,并标记出来。但是文档中以全名形式出现的人名非常少,如 果采用这种方法,所有其他形式出现的名字信息就全部损失掉了,所以其他形式 的名字也需要根据全名词典标记出来。 北京邮【b 大学硕士学位论文 4 2 2 穷举词典 既然人名的变化简单,就可以考虑将所有的变化穷举出来,形成新的完整词 典。但是由于重名问题的存在,这样的穷举词典只能帮助定位人名出现的位置, 无法确定出现的是哪一个人。 因此,我们不仅需要一个帮助定位的穷举词典,而且需要一组帮助识别实体 的规贝l f 。 4 3 重名消歧算法 首先构造穷举词典。仍然假设头衔t ( t i t l e ) ,姓s ( s u r n a m e ) ,中间名m ( m i d d l e n a m e ) ,名g ( g i v e nn a m e ) 。头衔可以穷举出来作为一个集合 t 2 ( “m r ”,“m r s ”,“m s ”,“m i s s ,“d r ”,“p r o f ” 然后可以从全名词典中提取全名,将所有的g + m + s ,g + s ,t + s ,g 的形式都 列举到穷举词典中。 使用穷举词典将人名定位出来之后,就需要尽量判断这些人名所指代的实 体。考虑通常的行文习惯,上下文提到的同一个名字指的是同一个人,如果提到 的两个人姓名有重名现象,作者会使用全名加以区分。受到行文习惯的启发,本 文采用一组基于上下文的规则消除重名造成的歧义。 定义4 一l 直接识别体:在一篇文档中,如果出现的一个命名实体形式可以根 据词典直接判断出指代的实体,而无需其他条件,则称这个命名实体为直接识别 体。 例如,在企业信息检索中,电子邮件地址就是直接识别体。因为所有人的电 子邮件地址必定是不同的。在姓名识别时,所有无歧义的姓名组合是直接识别体。 定义4 - 2 识别段落:从一个直接识别体到下一个直接识别体之间称为一个 一 识别段落。 基于上下文的重名消歧规则: 19 北京邮电大学硕士学位论文 令:头衔t ( t i t l e ) ,姓s ( s u m a m e ) ,中间名m ( m i d d l en a m e ) ,名g ( g i v e nn a m e ) 。 假设:企业给出的字典中没有两个人名字完全相同,即没有全名重复的情况。 这时全名作为直接识别体。无歧义的姓名组合和邮件地址也是直接识别体。 1 分析词典,记录所有重名的情况; 2 顺序检查文档,出现g + s 或g + m + s 或其他直接识别体则识别段落开始; 3 下文中的所有t + s ,g 都视作指代g + m + s ; 4 若s 没有带头衔t ,即使在识别段落中出现也不视作指代g + m + s ,但此 时识别段落不结束,继续进行; 5 出现另一个直接识别体则上一识别段落结束,下一识别段落开始,转到 2 ; 6 文档结束则识别段落自动结束; 4 4 实验数据 t r e c 提供了1 0 9 2 个候选人( c a n d i d a t e ) 的编号、全名和邮件地址。经过分析 得到其中: 重名218 组 以姓作名以名作姓2 3 组 每组人名数 2 2 9 个 可以看出,欧美企业中重名的现象还是很多的。重名现象与文化与时代都有 很大的关系。在将来的企业信息检索系统中,对重名的分析以及确认命名实体的 指代实体必

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论