已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ah蛇口d abs t r act wi t h t h e d e v e l o p m e n t o f wo r ld wi d e w e b , s e a r c h i n g o n t h e i n t e r n e t h a s b e e n w id e l y a p p l i e d i n p e o p l e s d a i l y l i f e , w h ic h r e s u l t s i n a r a p i d l y in c r e a s i n g i n t e r e s t i n t h e s t u d y o f i n t e rn e t s e a r c h i n g t e c h n o l o g y i n r e s e a r c h c o m m u n it y . t h e f o c u s o f r e s e a r c h o n i n t e rn e t s e a r c h i n g h a s b e e n g r a d u a ll y c h a n g e d fr o m t h e t r a d it i o n a l k e y w o r d s e a r c h t o m o r e i n t e l l i g e n t , m o r e c o m p li c a t e d s e a r c h t a s k s , s u c h a s t h e e n t ity s e a r c h a r e a . e n t it i e s c a n b e c l a s s i f i e d i n t o t w o c a t e g o r i e s : f a c t o i d e n t i t y a n d a b s t r a c t e n t i ty . f a c t o i d e n t ity r e f e r s t o p e r s o n , t i m e , l o c a t i o n , e t c . a b s t r a c t e n t i ty r e f e r s t o 此 d e fi n i t i o n o f t e c h n i c a l t e r m s , u s e r o p i n i o n s , e t c . e n t i ty s e a r c h h a s v e ry p r o m i s i n g p r o s p e c ts i n t h e p r a c t i c e o f i nt e r n e t s e a r c h i n g , s u c h a s t h e e x p e rt s e a r c h i n e n t e r p r i s e i n t r a n e t , t h e t im e s e a r c h o f h i s t o r i c a l e v e n t , a n d p r o d u ct s e a r c h o n t h e i n t e r n e t . t h i s t h e s i s s t u d i e s t h e p r o b l e m o f e n t ity s e a r c h o n t h e i n t e r n e t a s w e l l a s e n t e r p r i s e i n t r a n e t . i n t h e s e a r c h t a s k s f o r e n t i t i e s , g iv e n a q u e ry o f k e y w o r d s o r s e g m e nt i n n a t u r a l l a n g u a g e s ( e .g . w e b o n t o lo g y l a n g u a g e 几 a m e r i c a n n a t i o n a l d a y , e t c .) , t h e s e a r c h s y s t e m w o u l d r e t u rn a r a n k e d l i s t o f e n t i t i e s ( e .g ., p e r s o n n a m e s , t i m e e x p r e s s i o n s ) t h a t a r e a s s o c i a t e d w it h t h e q u e ry , i n a d e s c e n d in g o r d e r o f t h e s t r e n g t h o f a s s o c i a t io n . i n t h i s t h e s i s , w e a d d r e s s t h e p r o b l e m o f e nt i ty s e a r c h w it h a g e n e r i c s o l u t i o n w h i c h c o n s i s t s o f t h r e e s t e p s : ( 1 ) n a m e e n t i t y r e c o g n it i o n , ( 2 ) c a n d i d a t e e n t i ty r e tr i e v a l a n d ( 3 ) c a n d i d a t e e n t i ty r a n k i n g . t o d o e n t ity s e a r c h , fi r s t w e h a v e t o i d e n t 访w h a t a n a m e e n t ity i s , w h i c h t y p e o f e n t i ty it b e l o n g s t o , a n d w h e r e i t o c c u r s i n t h e d o c u m e nt s . t h e n , a m o n g d o c u m e nt s i d e n t if i e d o f n a m e e n t it i e s , w e a r e t o r e t r i e v e t h e s e t o f r e l e v a n t d o c u m e n t s t o t h e g iv e n q u e ry , a n d i d e n t i f y t h e n a m e e n t i t i e s i n t h e s e r e l e v a n t d o c u m e n t s a s e n t ity c a n d i d a t e s . l a s t , w e r a n k t h e r e t r i e v e d e n t ity c a n d i d a t e s i n a d e s c e n d i n g o r d e r a c c o r d i n g t o t h e i r r e l e v a n c e t o t h e g i v e n q u e ry . a ft e r t h e s e t h r e e s t e p s , t h e r a n k in g r e s u l t s a r e t h e n p r e s e n t t o u s e r s a s t h e fi n a l r e s u lt s o f e n t i ty s e a r c h . d u r in g t h i s p r o c e s s , r a n k i n g i s t h e k e y i s s u e t h a t a ff e c t s t h e p e r f o r m a n c e o f s e a r c h in g s i g n i f i c a nt l y . i n t h e s t e p o f e n t ity r e c o g n it i o n , w e i n v e s t ig a t e d iff e r e n t m e t h o d s t o i d e nt i f y v a r i o u s t y p e s o f e nt i t i e s . i n t h e r e c o g n it i o n o f e nt it i e s , t h e r e e x i s t s a c o m m o n p r o b l e m o f e n t ity r e s o lu t i o n , w h i c h a i m s t o c l a s s if y t h e m u l t ip l e m e n t i o n s o f t h e s a m e e nt it y i n t o o n e c l u s t e r . w e a d d r e s s t h e r e s o l u t i o n p r o b le m i n t h i s t h e s i s w it h t w o t y p e s o f a吮电日 比 e v i d e n c e : s u r f a c e s t r i n g s i m i l a r ity a n d c o n t e x t u a l s i m i l a r ity . i n t h e s t e p o f c a n d i d a t e e n t ity r e t r ie v a l, w e f i r s t a p p ly s o m e t r a d it io n a l i n f o r m a t i o n r e t r i e v a l m e t h o d s s u c h a s b m2 5 a l g o r it h m t o r e t r i e v e q u e ry - r e l e v a n t d o c u m e n t s . s i n c e n o t a ll t h e r e t r i e v e d d o c u m e n t s a r e v a lu a b l e f o r t h e s e a r c h i n g o f t a r g e t e d e n t i t i e s , b e f o r e r a n k i n g t h e c a n d i d a t e e n t i t i e s w e h a v e t o id e nt i f y w h i c h d o c u m e nt is r e l i a b l e , a n d w h i c h o n e i s w i t h lo w - q u a li ty t h e r e f o r e s h o u l d b e ig n o r e d . i n t h is t h e s i s w e p r o p o s e a c l a s s i f i c a t i o n - b a s e d a p p r o a c h t o d e t e c t i n g a n d fi lt e r i n g l o w - q u a l ity d o c u m e n t s . i n t h e s t e p o f c a n d i d a t e e n t ity r a n k i n g , w e p r o p o s e t w o e ff e c t iv e a p p r o a c h e s t o e n t ity r a n k i n g . o n e i s a n u n s u p e r v i s e d a p p r o a c h e m p l o y i n g a t w o - s t a g e m o d e l , w h i c h i s c a p a b l e o f e x p l o i t i n g m a n y t y p e s o f a s s o c i a t i o n r e l a t i o n s h i p s a m o n g q u er y t e r m s , d o c u m e n t s a n d e n t i t i e s , a n d c o m b i n i n g t h e m i n a u n i fi e d a n d t h e o r e t i c a l l y s o u n d w a y . t h e t w o - s ta g e m o d e l c o n s i s t s o f t w o p a rt s : r e le v a n c e m o d e l , w h i c h c h a r a c t e r i z e s t h e r e l e v a n c e o f d o c u m e n t s t o q u e r ie s ; a n d c o - o c c u r r e n c e m o d e l , w h i c h c h a r a c t e r i z e s t h e c o -o c c u r r e n c e o f e n t i t i e s a n d t e r m s ( i .e ., q u e r i e s ) i n v a r i o u s t y p e s . t h e o t h e r a p p r o a c h t o e n t ity r a n k i n g w e p r o p o s e i s a s u p e r v i s e d l e a r n i n g a p p r o a c h , w h i c h e m p l o y s t h e c o- o c c u r r e n c e f o r r a n k i n g e n t it i e s a n d w o r k s w e l l f o r g e n e r i c e n t i ty s e a r c h . s p e c i fi c a l l y , w e a p p l y a l i n e a r r a n k i n g m o d e l t o r e p r e s e n t v a r i o u s f e a t u r e s a n d e m p l o y t h e h i l l - c l i m b i n g a lg o r i t h m t o t r a i n t h e p a r a m e t e r s i n t h e m o d e l . w e i d e n t if y a s e t o f f e a t u r e s t h a t a r e n o t o n l y u s e f u l f o r s p e c i f i c e nt it i e s ( s u 比 a s p e o p l e a n d t i m e ) , b u t a l s o c o u ld b e a p p l i e d t o g e n er i c mi ry s e a r c h . e x p e r i m e n t a l r e s u l t s i n d i c a t e t h a t o u r p r o p o s e d a p p r o a c h e s s i g n i fi c a n t l y o u t p e r f o r m t h e b a s e l i n e m e t h o d s o n g e n e r i c e n t ity s e a r c h , a n d r e s o lv e t h e p r o b l e m o f e n t ity s e a r c h o n t h e i n t e n e t / i n tr a n e t i n a n o v e l w a y . me a n w h i l e , t h e a p p r o a c h e s p r o p o s e d a r e i n d e p e n d e n t o n t h e e n t i ty t y p e s , a n d c o u l d b e a p p li e d t o g e n er i c d o m a i n s . t h e m e t h o d o f e x p e r t s e a r c h w e p r o p o s e d w o n t h e s e c o n d p l a c e i n t h e e n t e r p r i s e s e a r c h t r a c k o f t r e c ( t e x t r e t r ie v a l c o n f e r e n c e ) 2 0 0 5 , a n d h a s b e e n e m p l o y e d t o t h e e x p e r t s e a r c h a p p l i c a t i o n o n m i c r o s o ft i n tr a n e t . ke y w o r d s : e n t it y s e a r c 权t e x t m i n i n g , i n f o r m a t i o n r e t r i e v a l , r a n k i n g a l g o r it h m , e x p er t s e a r c h , t i m e s e a r c h i 图示目 录 图示目录 图 . 1 . 1 . 实体搜索系统界面. . . . 一,. ,. . . - 一 ” . - - - . 一 ,. ” 一“ . ,. :. ,. “ . ” - . . ” . ” 一 3 图 1 . 2 . 搜索任务的 调查统计. ,. ” ” 二 ” 一 “ . “ ”. - - - . - . . ” - - .” ” 一 , “ :.” 一 “ “ . . . . . . . . . 4 图. 2 . 1 . 文本间的相似度 . “ . “ “ :.“ . “ “ . . 一 ” . ” ,. ,. . “ . ” . . 一“ ” 一 ” 一”一, 图 . 4 . 1 . 不同 类型的 评论实例. .一 ,. . .- - . 一 ,. ” 一 ,. :. “ ” ” - - 一 “ . . . . . . . . . . . . . . . . . . - - - . - . . .,. . , “ .2 3 图 . 5 . 1 . 基于文档结构的同时出 现率“ .,“ 二“ ” . . 一“ ” ,. “ 二,. 一 ” . “,- .一 甲 一 2 6 图 . 5 2 . 窗口 模型种不同窗口 大小的实验结果 - - - . . . - - 一 ” 一 ,. ” : ” :. ” - . . 一 ,“ 二 2 8 图. 5 . 3 . 聚类模型中不同x的实验结果. 一 ,. 一,. ” . . . 一, . 一. -. . - . . . . . . . . . . . . . . . . . . . . . . . . 2 8 图. 6 . 1 . 在不同特征集 卜 的实验结果. “ . - 一 ” ” 一“ ” ” ” - 一 ” . . - . ., . . . 一 , .一3 4 n 表格目录 表格目录 表 3 . 1 . 人名识别规则一” . . . - - . . . . . . . . . . . . . . . . . . . . ” ” . 一 ,- . ” . 一,- . “ “ “ . . ” . ,. 一 “ “ :.” 一 ,一” . “ . ” 表 3 .2 . 人名缩写示例 , . , , . , , . . . , ., . . - - . “ ” . . - . . - . . . ” ” ” 二,. “ 一 ” ” . “ “ - - . . . . . . . . . . . . . . . . . 1 6 表 3 . 3 . 时间实体识别的实验结果 , . “ ” . - - . - . . . - - 一 一“ , , :._ 一 甲 甲 一 ” . - 一,- 二 ,. . . . . . . 1 6 表 4 . 1标注统计, , , . . . - . . - . - . 一 ,. . . . . . 一 , ”. . . . . - . - - 一“ :.“ . . . 一 “ 一, .2 4 表 4 .2 . 文本过滤实验结果 , . . “ . “” - 一 “ ” . . - - - 一“ . “ . ” . ” - . . - 一 , ,. “ . “ 一,. :., . - . . 一 2 4 表 5 . 1试验结果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ,. ,- . ” ” . - 一 ,. :. . ”- . . ” “ - 一,. . . .2 9 表 5 .2 . t r e c 2 0 0 5 专家搜索结果 二 , 甲 , 一 , 一 ” ,. . , . , ”一, , , ” , , - - . . 甲 . 甲 一 2 9 表 6 . 1时间 搜索特征 - 一 ” . - - - . . . . . - - - 一,. . ” , ” “ . - .“ ”“ :.“ . - 一 , ” 一 3 1 表 6 .2 . 专家搜索特征. . - . . - . . “- . - - . . . . . . .一 , 一 , . . . . - . - . . - . ” . “ 一“ . . “ ” - . - 一 ,. . . . . . 3 1 表 6 . 3 . t r e c专家搜索数据集统计. ” . ” - - 一 ,. . . 一 ,. , 一“ “ 一 “ . ” . . . . . - - 一,. . . . - 3 3 表 6 .4查询集的统计信息 一, ,.” , 一 ” :.“ 一 ,. . ” . ” 一 ” , “,. , ” “ ,. 一” . . . . . . . . . . 3 3 表 6 . 5 . 基准方法的最佳参数, -. ” ”- . 一,. . . “ . “ ” 一 ” “ “ . ” 二, . 3 4 表 6 .6 . 实验结果比 较, “ . ” ” .一, . . ” - - 一 “ . “ -. . .- . - - - . . . . . . . . - . . . . . . . . . . . . . . 3 4 甲u 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印 刷本和电子版 本;学校有权保存学位论文的印 刷本和电子版, 并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门 或者机构送交论文的复印 件和电子版: 在不以赢利为目 的的前 提下,学校可 以适当复制论文的部分或全部内容用于学术活动 。 学 位 论 文 作 者 签 名 : 剑 奢 等 孙 厂 门年 6 月 i 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内 部咚 ( 最 长 万 年 , 可 少 于 5 年 ) 秘 密* 1 0 年 ( 最 长t o 年, 可 少 于t o 年 ) 机密2 0 年 ( 最长2 0 年, 可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明: 所呈交的 学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中已 经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 已 公开发表或者没有公开发表的 作品的内容。 对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均己 在文中以明 确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 叫 年 -o l拜 石 月 7日 第一章引言 第一章引言 1 . 1 实体搜索的 定 义 目 前针对信息检索的研究领域大部分集中 在对文本的检索方面。尽管在一 般性的搜索问题上,即 根据关键词的查找方向, 搜索技术已趋于成熟,但是很 多特殊的搜索问 题仍未得到很好解决。企业搜索就是其中之一。和传统的网络 搜索不同,在企业网中搜索信息的用户,更关心的是特殊类型的信息,而非一 般性文本,比 如,公司员工想知道下一个关于 产品发布的有关事件的具体时间, 产品发生某类问 题应该向 谁咨询,等等。由 于 缺乏对特殊化信息的查找技术, 公司内部的搜索通常集中 在某一类特殊类别的 信息,以 便用户可以 浏览并查询 相关此类型的信息。然而,随着信息类型的不断增多和公司规模的不断壮大, 这种搜索方法己 越来越不能满足于多类型信息的企业搜索。 本文针对实体搜索问 题展开研究。实体搜索,即为用户提供特殊类型的信 息。用户输入搜索查询,系统即返回给用户一个与查询相关的实体列表 ( 如时 间,人名,地点,组织或域名等) ,此列表以 返回实体和查询的相关性作降序排 列。实体搜索包括专家搜索,时间搜索, 地点 搜索, 组织搜索及域名搜索等。 例如, 在专家搜索中, 用户输入一个关于某个领域的查询, 系统即返回 给用户 一个此领域专家的人名列表。类似的, 在时间 搜索中, 用户输入一个关于某个 事件的查询, 系统将返回一个时间表达的列表。 用户可从中得到关于此事件的 确切时间。 例如,在企业内部,知道哪些人是哪些领域的专家,是个很重要的研究课 题 ( h a w k i n g , 2 0 0 4 4 9 ) 一 种解决此问 题的 方 法是 手动建构并维护一个存储专 家信息的 数据库。 然 而, 此方法存在两个问 题: ( a ) 建 构并 持续更新这 样的 数据 库需要很大的 资金 投入,( b ) 很难 保证信息的 完 整 和特殊化. 一个可行性的 方 法是,从企业提供的文本数据中自 动发现并搜索此类专家信息 如企业内部网 络) 。虽然此方法并不完美, 但解决了以 上提到的 种种问 题。 在专家搜索中, 用 户向系统提交一个表述某一领域的查询, 搜索系统将找到与这个领域密切相关 的人名,把这些人按照他们同此领域的关联性排序,并返回一个排序结果。 i 第一章引言 实体搜索,即 搜索与查询语句密切相关的实体。目 前存在一些对实体搜索 得研究。 研究最多的实体类型就是人名。传统的搜索技术并不支持实体搜索。 比如, 有一 个查询“ 某某展览的时间” , 此查询语句中的每一个词都将被作为关 键字,来搜索相关信息, 包括 “ 时间” 。结果是,很多包含 “ 时间”的文本都会 作为 相关信息被返回。 然而,即使这些文本被排在列表的最顶端, 它们也未必 包含用户所要到信息,即“ 某某展览的时间气 查询语句, 文档和实体 之间的 各种关联关系是对实体搜索非常重要的信息。 文本和查询语句之间的关联,查询语句和实体在文本或文本题目 中的同时出现, 即实体和实体在文本中的同时出现,都是非常有用的关联信息。这里存在两个 问 题, ( a ) 哪 种 关联信息 对实 体搜索是 有用的 , ro ) 是不是有一个一般性的 解决 方 案可以 有效的 利用所有的 关联信息。 本文就是致力于解决这两个问 题,并对实 体搜索寻找一般性的解决方案. 1 . 2 实体搜索的 发展方向 1 . 2 . 1 企业内 部网的实体搜索 实体搜索问 题,如专家搜索和时间搜索,可以描述如下:搜索系统维护一 个文本数据集。当用户对系统输入一个查询,系统将返回与此查询相关的此类 型的实体列表。 图 1 . 1 显示了 一种可行性的实体搜索的 用户界面。 在此界面中,系统需要 用户输入要搜索的实体的类型。 用户可通过选择来告知系统想要搜索的实体类 型,并输入查询。 图 1 . 1显示了一个专家搜索的实例。当用户输入 “ 网络协议” , 系统将返回 一系列在 “ 网络协议, 领域的专家名字。每一个人名都和一些支撑的文本相关。 这些支撑文本可帮助用户找出哪些答案是正确的。从此例的结果中 可以 看到, l a u r e n t c a r c o n e , m a t t h i e u f u z e ll i e r , 和 t e d g u i l d很可能 是此领域的 专 家。 第一章引言 为例, 在最近的几年中,越来越多的人关注如何从大量的 产品评论中找到 有用 的 用 户 评 测 信息。 ( p a n g , e t a l, 2 0 0 2 1 1 ; l iu , e t a l , 2 0 0 5 s ; p o p e s c u 和e t z io n i, 2 0 0 5 1 2 )然而 , 由 于 对网 络评 论 缺乏 管 理 和 质量 监督, 这 些 用 户 发 布的 产 品 评 测在质量上有很大的差异性。所以,需要有一个合理的机制来衡量这些产品评 价的质量,并识别和过滤不可靠数据。 所以,在解决互联网上的实体搜索时, 要考虑如何以比 较合理的文本过滤机制来控制数据质量。 1 .3 研究目 标和论文结构 本文针对在互联网 和企业内 部网上的实体搜索问 题,将研究对实体搜索的 一 般性的 解决 方案。 实体 搜索 可分 解为 三个子问 题: ( 1 ) 实 体识别,( 2 ) 备 选实 体查 找,( 3 ) 备 选实体排序。 实体识别, 即 识别出 哪些是实 体, 属于哪一 类实 体类型,出现在文本的哪个位置,等等。备选实体查找,即在已识别出实体的 文本数据中,找到和输入查询相关的文本,并从中提炼出已识别出的实体,作 为备选实体。备选实体排序,即把备选实体按其对于查询的相关性做排序。排 在最顶端,即与查询最相关的实体被当作最终的搜索结果返回给用户,当作最 终的搜索结果。在这个过程中,排序是核心问 题,直接影响实体搜索的 效率和 准确性。 针对实体识别问题,我们将针对不同的实体类型,研究不同的实体识别方 法。在对实体的识别中,存在实体归一化的问题,即将多个表述同一实体的不 同 表达方式归到同 一类。 本文将应用两种方法息:字符串 相似度和上下文相似 度来解决实体归一化的问 题。 针对备选实体查找问 题,我们将应用一些传统的信息检索技术,如 b m 2 5 算法,来查找与查询相关的文本数据。通过这种方法查找到的文本并不都是跟 最终实体搜索相关的数据, 所以 在从这些文本中提取实体之前, 要先对搜索到 的文本进行分类的过滤,将一些不可靠的文本过滤掉。文本提出了 一种基于分 类的文本过滤方法,可解决此问题。 针对备选实体排序问题,我们提出两种实体排序算法。其一是无监督的两 层模型算法。在此算法中,我们应用查询语句、文本及实体之间的多重关系, 第一章引言 以 合理的方式将这些关联关系结合起来。 两层模型方法包括两个模块:关联性 模型和同时出现率模型。 前者应有文本和查询之间的关系, 后者应用实体和查 询语句之间的同时出 现关系。另一种排序算法是无监督的 学习算法。在此算法 中,我们将应用一个线型模型来表示不同的 特征,并应用爬山 算法来训练模型 参数。 通过对此方法的 研究, 我们将定义一系列适用于一般性实体搜索的特征。 实验结果表明,本文提出的方法大大提高了传统算法在实体搜索中的准确 率和效率,很好的解决了 互联网 及企业内部网的实体搜索问 题。同时,文本提 出的方法具有一般性和可扩展性,不依赖于具体实体类型,因而可以 应用到多 种领域。 本文其他部分组织如下:第二章介绍了相关工作:第三章描述了实体识别 方法和实体归一化问 题;第四章介绍了备选实体的查找方法,包括对搜索文本 的分类和过滤;第五章和第六章分别介绍了 无监督和有监督的 两种实体排序算 法,即在具体搜索任务上的实验结果;第七章对本文作出总结并指出 未来的研 究方向. 第二章 相关工作 第二章相关工作 实体搜索己 逐渐成为搜索 研究领域的热门 课题。 有很多人对人名搜索作了 一 些 研 究18 2 2 2 32 9 3 13 2 8 8 (39 。 在 t r e c 2 0 0 5 文 本 检 索 研 究 会 议 中 , 专 门 设 立 了企业搜索的研究 课题, 其中就包括一个专家搜索的任务。 然而, 所有现有的 方法,都是依赖于传统信息 检索的方法,或者依赖一些简单的特征来对实体进 行排序。 例如, 1 9 ) 通过 对 人名于关键字在文 本中的同时出 现率 作为线索, 来 对人名进行排序。而且,大部分现有的工作都应用一些人为定义的规则来选择 特征。 另一些研究者试图 用问 答系统的技术来解决此类问题。然而,问 答系统和 实体搜索存在着很大的差别。 对问答系统而言, 查询多是一些完整的语句, 而 对实体搜索来讲,查询多是一些关键字。 所以,很多问 答系统的 技术并不适用 于实体搜索。 本文基于文本挖掘的技术来研究实体搜索问题。在这一章,我们将介绍与 实体搜索相关的一些研究问 题, 包括文本挖掘技术、 问 答系统, 专家搜索、 t r e c 企业搜索专题等。 2 . 1 文本挖掘技术 i 1 lt e rn e t 以 惊人的速度发展起来,随之而来的是互联网上容纳的 海量的 各种 类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海 而又纷繁芜杂的文本中 掌握最有效的 信息始终是信息处理的一大目 标。 近年来, 文本挖掘技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结 合,有效地提高了 信息服务的 质量。例如基于人工智能技术的文本分类系统能 依据文本的 语义将大量的文本自 动分门 别类, 从而更好地帮助人们把握文本信 息。 第二章相关工作 2 . 1 . 1 文本表示与向 量空间 模型 目 前自 然语言理解领域的多项实践标明, 在以自 然语言为 研究对象的知识处 理和知识获取问题中,知识表示始终是其主要的瓶颈。要将文档相互比较,首 先 就 要 描 述 文 档. 在 文 献 13 0 1第 一 次 提出自 动 文 本 检 索 ( a u t o m a t ic t e x t r e t r ie v a l) 和信息 检索 0 n f o r m a t io n r e t r ie v a l) 概念 后, 出 现了 许多 基于 文 档 仍o c u m e n t) 和 ( q u er y ) 之间相关词语比 较的计算模型,具有代表性的有布尔模型(b o o le a n m o d e l) 3 11 ,向 量空 间 模型 ( v e c t o r s p a c e m o d e l , v s m ) 13 2 1 聚 类模型 ( c lu s t e r m o d e l) p 3 1 , 基 于 知 识 模 型 ( k n o w le d g e -b a s e d m o d e l) 13 1和 概 率 模 型 ( p r o b a b i l is t ic m o d e l) 13 3 , 3 s 等 . 上 述 几 种模型中 ,向 量空间 模 型( v s m ) 由 于具 有较 强的 可计 算 性和 可操作 性,得到了 广泛的应用。特别是随着网上信息的迅速膨胀,它的应用己 经不仅 仅局限于文本检索、自 动文摘、关键词自 动提取等传统问题,还被广泛地应用 到搜索引擎、个人信息 代理、网上新闻发布等信息检索领域新的应用中,并取 得了较好的效果。 向量空间模型的最大优点在于它在知识表示方法上的巨大优势。在该模型 中, 文 档的 内 容 被形 式 化为 多 维空 间中 的 一 个点, 通 过向 量 ( v e c t o r ) 的 形 式 给出. 文本分类则可方便地转化成对向量的处理、计算。也正是因为 把文档以向 量的 形式定义到实数域中, 才使得模式识别和其他领域中的各种成熟技术得以 采用, 极大地提高了自 然语言文档的 可计算性和可操作性。 空间向 量模型的 缺点在于 关键词之间线性无关的 假说前提。 在自 然语言中, 词或短语之间存在着十分密切地联系,即存在 “ 斜交”现象,很难满足假定条 件,因此对计算结果地可靠性 造成一定的影响。此外,将复杂地语义关系归结 为简单的向量结构,丢失了许多有价值地线索。 2 . 1 . 2 向 量空间模型的基本概念 项 t e r m ) : 文本的内 容 特征常 常用它 所含有的 基本语言 单 位( 字, 词, 词组, 9 第二章 相关工作 或短语等) 来表示,这些基本的语言单位被统称为文本的项,即文本可以用项 集 ( t e r m l is t ) 表 示为d ( t tz , . , t ) , 其中tk 是项,l s k s n o 项的 权重( t e r m we i g h t ) : 对于 含有n 个项的 文 本d ( t t 2 , 二 , 动, 项t k 被赋予 一定 的权重 w k,表示它们在 文本 d中的重要程 度 ,即 d = d ( t , iv ,t ; if , z t ,; w一简记为d= d ( f v ; w 2 ; 二 巩) 。 这时 我 们说 项t k 的 权 重为巩,1 _ k 5 n o 向 童空间 模型( v s 咐: 给定 文本d= d 认 , 不几, 巩; . 人, 然) ,由 于t k 在文本 中既可以重复出 现又有先后次序的关系,分析起来仍有一定的困 难。为了简化 分析,可以暂时不考虑t : 在文档中的先后顺序并要求t k 互异。这时可以 把 tl , t 2 , ., t 看成一个n 维的坐标系,而斌, 巩, 嗽为相应的坐标值,因而 d ( w , ; 巩补 巩) 被 看 成n 维 空 间 中 的 一 个向 量。 我 们 称d ( w ; 溅; 二 然) 为 文 本d 的向量表示。 相似度( s i m i l a r i t y ) : 两 个 文本几和几之间的内 容相关 程 度常 常用它 们之间 的 相 似 度s im ( dd z ) 136 1来 度 量 . 当 文 本 被表 示 为向 量 时 , 我 们 可以 借助 于向 量 之间的某种距离来表示文本之间的相似度,常用向量之间的内积进行度量: (1l)侧 s i- ( d i , d o = 艺w a x w u 或者用夹角余弦 值表示, 如 公式 ( 2 . 2 ) 和图2 . 1 所示。 s i m ( 几, 几) = c o s t3 2 : w k - w 2 k 2月 艺w. k 艺w e 众- 1几 二】 d1 d2 图. 2 . 1 . 文本间的相似度 第二章相关工作 2 . 1 . 3 项的 选择 如前所述, 项可以是文本中的各种语言单位, 对中文来说有字、词、短语, 甚至是句子或句群等更高单位。项也可以是相应词语或者短语的语义概念类。 因此,项的 选择只能由处理速度、精度、存储空间等方面的具体要求来决定。 选出的项越具有代表性,语言层次越高,所包含的信息就越丰富,但是分析的 代价就越大, 而且受分析精度 ( 如句法分析的正确率)的影响就越大。 由 于词 汇是文本最基本的 表示项, 在文本中出 现的频度越高, 就越能呈现一 定的统计规律,再考虑到处理大规模真实文本所面临的困难,选择词作为特征 项是比 较合理的,常常被应用于文本检索与分类邻域。但是直接选用文本中的 词作为文本特征项也会存在以下问 题: ( 1 ) 文本中 存在一些没有实际 意义但是使用 频率 很高的 虚词和功能词, 入中 文 中的“ 的气“ 把” , “ 了” 等, 英语中的“ g l e n s $ . o ff 等,常常把一些真正 有分类作用的实词淹没掉。 解决这个问 题的方法是把这些词组织成一个禁用词 表( s t o p l i s t ) , 把禁用词表中 的 词从 特征 集中 过滤掉。 此外, 还可以 在文本预处理时进行词性标注, 从词汇特征集中滤去那些对区 分类别贡献极小的大部分虚词和功能词。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子设备维修与维护预案手册
- 2025年全国高中数学联赛(四川预赛)试题(含答案)
- 吉林省长春市农安县2026届十校联考最后英语试题含答案
- 人教版高二化学上册第一次月考含答案及解析
- 劳动项目六 自制红薯干说课稿2025年小学劳动四年级下册人教版《劳动教育》
- 7.1 日本 第1课时 教学设计2025-2026学年 人教版地理七年级下册
- 公司股票和债券说课稿2025学年中职专业课-经济法律法规-纳税事务-财经商贸大类
- 小初中积极心态“乐成长”主题班会说课稿2025
- 小初中高中小学:2025年兴趣探索主题班会说课稿
- 小初中高中小学:2025年诚信行为践行主题班会说课稿
- 国开(浙江)2024年《领导科学与艺术》形成性考核作业1-4答案
- 北京海淀区重点高中高一物理下学期期中考试试卷含答案
- (正式版)JBT 7122-2024 交流真空接触器 基本要求
- 宗教活动场所财务管理办法
- 关于大学生网络安全教育
- 新课标高中化学必修课程学生九个必做实验
- 第01讲:一元二次方程(必刷8大考题8大题型)原卷版
- 水泵吊装施工方案
- IT-IT开发-通用-L1题目分享
- 火龙罐技术课件
- 美的中央空调系统投标书正文
评论
0/150
提交评论