




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
彩铃智能搜索引擎的设计与实现 摘要 彩铃业务是一项由被叫( 或主叫) 用户定制,为主叫用户提供一 段悦耳的音乐或一句问候语来替代普通回铃音的业务。用户申请开通 彩铃业务之后,可以自行设定个性化回铃音,在其做被叫时,为主叫 用户播放个性化定制的音乐或录音,来代替普通的回铃音。 近几年来,随着彩铃业务的迅猛发展,彩铃平台中的铃音数量与 日俱增,数以万计的铃音出现在用户的眼前,各家铃音制作商创作的 千奇百怪的彩铃使用户越发不知所从,难以挑选,现有的各种接入方 式中的传统铃音查找方式已经不能满足用户的需要。另一方面,由搜 索巨头g o o g l e 公司所引领的搜索技术革新使得搜索领域有了突飞猛 进的发展,各种分词、索引、排序等算法不断涌现,并出现了以l u c e n e 、 n u t c h 等为代表的开源搜索引擎工具,搜索技术已经日趋成熟。 垂直搜索是目前搜索领域的重点发展方向之一它是搜索引擎的 细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分 字段抽取出需要的数据进行处理后再以某种形式返回给用户垂直搜 索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构 化信息抽取,将非结构化数据抽取成特定的结构化信息数据,网页搜 索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。然 后将这些数据存储到数据库,进行进一步的加工处理。 本文所介绍的彩铃智能搜索引擎正是利用现有的搜索技术,针对 彩铃平台所开发的一套高效、智能的垂直搜索引擎。第一章引言简单 介绍了目前垂直搜索引擎的发展现状。第二章对彩铃平台做了一个总 体的介绍,从组网、数据、接入方式等方面分析了彩铃平台的特点。 第三章介绍了目前搜索引擎领域中所用到的关键技术,以及今后的发 展趋势。第四章是本文的重点之一,在对彩铃平台中各项数据进行了 统计分析后,研究了在彩铃平台中应用搜索引擎技术的可行性,并提 出了目标系统所应具备的能力,随后对各种不同搜索方式的搜索流程 进行了设计,在全面分析了系统功能后,提出了一套较详细的系统框 架设计方案,并定义了与外部功能实体间的交互协议。在第五章中, 重点说明了彩铃智能搜索中所用到的分词、模糊匹配、权值算法等关 键技术;其中s k m 算法是针对彩铃平台的数据特点开发出的模糊匹 配算法,在本章中做了详细论述;本章第三节则重点讨论了在搜索结 果排序过程中所使用的一套独特的权值算法,对单字、关键词、铃音 等对象的权重计算方法做了详细的阐述。第六章贝, w j n 用现有测试数据 对算法的效率与已知算法进行比较,并对算法性能做了详细讨论。 关键字:彩铃搜索引擎分词算法模糊匹配 d e s i g na n di m p l e m e n t a t i o no f c r b ts e r v i c ed o 心no r i e n t e di n t e l l i g e n t s e a r c he n g i n e a b s t r a c t c o l o rr i n gb a c kt o n e ( c r b t ) i sab u s i n e s ss e r v i c et h a tc u s t o m e dl a y r e c i p i e n tu s e r , p r o v i d i n gap l e a s a n tm u s i co ras a l u t a t i o nt or e p l a c e o r d i n a r yr i n gt o n e s a f t e rr e g i s t e r i n gc r b ts e r v i c e ,c u s t o m e r sc a l ls e t t h e i ro w np e r s o n a l i z e dr i n gt o n e s ,w h i c hw i l lb ep l a y e dt ot h ec a l l e rt o r e p l a c et h eo r d i n a r yr i n gt o n e sw h e nt h e ya r ec a l l e d , i nr e c e n ty e a r s ,w i t ht h er a p i dd e v e l o p m e n to fc r b t s e r v i c e ,c r b t p l a t f o r mi nt h eg r o w i n gn u m b e ro fr i n gt o n e s ,t e n so ft h o u s a n d so fr i n g t o n e si nt h eu s e r si m m e d i a t e ,t h ev a r i o u sk i n d so fr i n gt o n e sm a d eb y i n d i v i d u a lr i n gt o n e sp r o d u c e r sm a k ec u s t o m e r sf e e li t s g e t t i n gm o r e d i f f i c u l tt om a k es e l e c t i o n a l le x i s t i n ga c c e s si nt h es e a r c ha p p r o a c hh a s b e e nu n a b l et om e e tt h en e e d so fu s e r s o nt h eo t h e rh a n d ,s e a r c hg i a n t g o o g l e ss e a r c ht e c h n o l o g yh a v em a d er a p i dd e v e l o p m e n to fv a r i o u s s e a r c hi n n o v a t i o n s ,s u b t e r m ,i n d e x i n g ,s o r t i n ga l g o r i t h m sa r ec o n s t a n t l y e m e r g i n g ,a n dt h e r et ol u c e n e ,n u t c ha st h er e p r e s e n t a t i v eo ft h eo p e n s o u r c es e a r c he n g i n et o o l s ,s e a r c ht e c h n o l o g ym a t u r e s v e r t i c a ls e a r c hi so n eo ft h ek e yd e v e l o p m e n td i r e c t i o nf o rs e a r c h i n g t e c h n o l o g y i t s ak i n do fd e t a i l e da n de x t e n d e ds e a r c he n g i n e ,a n i n t e g r a t i o nf o rt h ew e b s i t e so fc e r t a i nt y p e so fs p e c i a l i z e di n f o r m a t i o n , t a r g e t i n ga tt h en e e d so ff i e l dd a t ae x t r a c t e da f t e rt r e a t m e n ti ns o m ef o r m b a c kt ot h eu s e r t h eb i g g e s td i f f e r e n c eb e t w e e nv e r t i c a ls e a r c he n g i n e s a n dt h eg e n e r a lw e bs e a r c he n g i n e si st h ei n f o r m a t i o no nt h ew e b s i t eo f s t r u c t u r e di n f o r m a t i o nc o l l e c t e d ,u n s t r u c t u r e dd a t aw i l lb ec o l l e c t e di n t oa s p e c i f i cs t r u c t u r eo f t h ei n f o r m a t i o na n dd a t a f o rt h ew e bs e a r c he n g i n e , w e bp a g ei st h es m a l l e s tu n i t ,w h i l ef o rt h ev e r t i c a ls e a r c hi ss t r u c t u r e d d a t a t h e s ed a t aa r et h e ns t o r e dt ot h ed a t a b a s e ,f o rf u r t h e rp r o c e s s i n g t h i sp a p e ri n t r o d u c e st h ec r b t i n t e l l i g e n ts e a r c he n g i n e ,w h i c hi sa v e r t i c a ls e a r c he n g i n et h a tu s e se x i s t i n gs e a r c ht e c h n o l o g y , o r i e n t e dt o c r b t p l a t f o r mf o rt h ed e v e l o p m e n to fah i g h l ye f f i c i e n ta n di n t e l l i g e n t d a t as e a r c h i n g c h a p t e ro n eb r i e f l yi l l u s t r a t e sv e r t i c a ls e a r c he n g i n eo ft h e c u r r e n ts t a t u so fd e v e l o p m e n t ;i nc h a p t e rt w o ,t h ec r b tp l a t f o r mi s d e s c r i b e da saw h o l e ,i nt h ev i e wo fn e t w o r k , d a t at y p ea n da c c e s sw a y c h a p t e rt h r e es h o w st h ek e yt e c h n o l o g i e si nt h ea r e ao fs e a r c he n g i n e ,a s w e l la st h ed e v e l o p m e n t 仃e n do ft h ef u t u r e c h a p t e rf o u ri so n eo ft h e e m p h a s e so ft h i sa r t i c l e ,a f t e rs t a t i s t i c i a na n da n a l y s i so nc r b td a t a , i t s t u d i e st h ef e a s i b i l i t yt ou s es e a r c he n g i n et e c h n o l o g yo nc r b t p l a t f o r m , a n dp u t sf o r w a r dt h et a r g e ts y s t e ms h o u l dh a v et h ea b i l i t yt o ,a n dt h e n d e s i g n ss e a r c hp r o c e s s e sf o ra l ld i f f e r e n ta c c e s sw a y s ,i nac o m p r e h e n s i v e a n a l y s i so ft h es y s t e m ,s e t sf o r t haf r a m e w o r kf o rm o r ed e t a i l e ds y s t e m d e s i g n ,a n dt h ed e f i n i t i o no ff u n c t i o n sa n de x t e r n a li n t e r a c t i o na g r e e m e n t b e t w e e nt h ee n t i t i e s i nt h ef i f t h c h a p t e r , i tf o c u s e so nt h ec r b t i n t e l l i g e n t s e a r c hi nt h e s u b t e r m ,f u z z ym a t c h i n ga l g o r i t h ma n d k e y - w e i g h t sa l g o r i t h mt e c h n o l o g i e s t h es k ma l g o r i t h mi se x p o u n d e d v e r b o s e l y , w h i c hi sak i n do ff u z z y - m a t c h i n ga l g o r i t h md e v e l o p e da i m i n g t ot h ed a t at y p eo fc i 淝t t h et h i r ds e c t i o no ft h i sc h a p t e ri sf o c u s e do n t h er a n k i n gi nt h es e a r c hr e s u l t si nt h ec o u r s eo ft h eu s eo fau n i q u e a l g o r i t h mw e i g h t so ft h ew o r d ,k e y w o r d ,r i n gi t e m sa n do t h e ro b j e c t s c a l c u l a t i o no ft h ew e i g h to fad e t a i l e de x p o s i t i o n c h a p t e rs i xu s e s e x i s t i n gt e s t d a t at o c o m p a r et h ee f f i c i e n c y w i t ht h ew e l lk n o w n a l g o r i t h m s ,m o r e o v e rd i s c u s s e dt h ep e r f o r m a n c eo fa l g o r i t h m si nd e t a i l k e yw o r d s :c r b ts e a r c he n g i n e s e g m e n t a t i o na l g o r i t h mf u z z ym a t c h i n g 缩略语 a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e a u t o m a t e ds p e e c hr e c o g n i t i o n c o l o rr i n gb a c k t o n e c o n t r o ln o d e i n t e m e te n g i n e e r i n gt a s kf o r c e i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l i n t e m e tp r o t o c o l i n t e l l i g e n ts e a r c he n g i n e i n t e r a c t i v ev o i c er e s p o n s e r e q u e s tf o rc o m m e n t s r e s o u r c el i s ts e r v e r r e s o u r c en o d e s e r v i c ea c c e s sp o i n t s e r v i c ec o n t r o lp o i n t s u b s e q u e n c e - b a s e dk e y w o r dm a t c h i n g s e s s i o ni n i t i a t i o np r o t o c o l s t , 曩- v i c em a n a g e m e n tp o i m s e r v e r - s e r v e rp r o t o c o l t e x tt os p e e c h u s e ri n t e r a c t i o ns c r i p t x m ld o c u m e n tm a n a g e m e n t x m ld o c u m e n tm a n a g e m e n ts e r v e r e x t e n s i b l em a r k u pl a n g u a g e e x t e n s i b l em e s s a g i n ga n dp r e s e n c ep r o t o c o l 应用编程接口 自动语音识别技术 多彩回铃音业务 控制节点 i n t e m e t 工程组 独立智能外设 因特网协议 智能搜索引擎 即互动式语音应答 请求注解 资源列表服务器 资源节点 服务接入点 业务控制点 基于子序列的关键字匹配 会话起始协议 业务管理点 服务器一服务器协议 文本语音转换 用户交互脚本 舭文档管理 x m l 文档管理服务器 可扩展标记语言 可扩展的消息和p r e s e n c e 协议 魍 搬 一 叫 | 耋 肼 m 髓 胍 哦 雌 心 沁 孵 喜| e i 暑| 卿 | 兰 一 一 一 舭 一 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意 申请学位论文与资料若有不实之处, 本人签名:二犟豸l 本人承担一切相关责任 日期:塑蜂母里 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被 查阅和借阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、 缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守 此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释:本 本人签名:j 蔑整 日期: 导师签名:他日期: 北京邮电人学硕i j 学位论义彩铃智能搜索f j l 擎的设计与实现 第一章引言弟一早ji 百 在互联网络日益渗入我们日常生活的今天,海量的贮存和科学的搜索是人们 信息行为中两样最重要的能力【l 】搜索引擎以一定的策略搜集、发现信息,对信 息进行理解、提取、组织和处理【2 翔,并为用户提供检索服务,从而起到信息导 航的目的。在搜索引擎领域中,基于字符串匹配的分词算法( 也称机械分词算法) 眇】是一种常用的可以从用户的输入串中分离出关键字的算法,其发展已经较为 成熟,并已经出现了以l u c e n d 6 1 、n u t c h 刀等开源项目为代表的开源项目。 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是 对某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以 某种形式返回给用户嘲垂直搜索引擎和普通的搜索引擎的最大区别是对信息进 行了结构化抽取,然后将这些数据进行进一步的加工处理,最后再以搜索的方式 满足用户的需求。关于垂直搜索,已经有不少研究理论【9 】,但由于垂直搜索是面 向领域的搜索技术,在应用时要针对所在领域的数据格式特点采用不同的搜索算 法,不同领域的搜索方式之间缺少互通性,因此其发展并不像传统搜索引擎技术 那样成熟。 针对彩铃平台【l o 】的数据特点,彩铃领域的搜索引擎应满足如下几个要求: 应包含歌名、歌手名、歌曲类型等信息; 与网页搜索相比数据量较少,对搜索速度要求不高。为保证用户体验感 和系统效率,搜索耗时在秒级以下即可; 由于很多歌名、歌手名包含非常用字,为提高命中率,对算法的纠错能 力要求较高。 对于纠错能力的实现,较常见的方法是采用编辑距离算法f n , 1 2 1 ,在l u c e n t 中的模糊查询功能也是使用此算法实现的【1 3 】。但由于其计算的是两个字符串之间 的相似程度,算法难以将用户输入的搜索信息与冗余信息加以区分,当用户输入 的冗余信息过多时,编辑距离算法的搜索命中率将大幅降低,难以符合彩铃搜索 的要求。 北京邮电大学网络与交换技术国家重点实验室 北京邮1 1 1 人学硕l :学位论文彩铃智能搜索引擎的设计j 实现 同时,智能搜索系统中采用了一种符合彩铃数据特点的关键字权重算法以及 铃音权重算法。算法融合了自然语言文字使用频度、模糊分词算法、铃音使用频 度,以及用户个人喜好等多个因素,使得搜索结果更加合理,更加人性化。 彩铃智能搜索是一种彩铃使用方式人性化新型业务。用户只要使用自然语言 即可与彩铃系统进行交互并下载到想要的铃音,可以提高用户对彩铃的体验度, 从而提高彩铃平台铃音定制的成功率和定制总量。 2北京邮电大学网络与交换技术国家重点实验室 北京邮电人学硕上学位论文彩铃智能搜索引擎的设计0 实现 2 1 业务简介 第二章彩铃平台介绍 彩铃业务是一项由被叫( 或主叫) 用户定制,为主叫用户提供一段悦耳的音 乐或一句问候语来替代普通回铃音的业务【1 4 1 。用户申请开通彩铃业务之后,可以 自行设定个性化回铃音,在其做被叫时,为主叫用户播放个性化定制的音乐或录 音,来代替普通的回铃音。当被叫用户处于忙、不在服务区、关机等非空闲状态 情况下时,仍播放原网络系统提供的语音通知。 2 2 组网结构 h $ 为 旷酋溽7 一移 图2 。1 彩铃平台组网结构 智能外设( i i p :i n d e p e n d e n ti n t e l l i g e n tp e r i p h e r a l ) 是智能网体系结构中韵 一个重要功能实体,完成特殊资源功能( s l 江) ,向智能网的终端用户提供各种 专用资源服务,例如向用户发布提示音,接受用户拨号等等。 在智能网发展初期,由于智能业务对专用资源功能的需求比较简单i i5 1 ,s r f 的功能往往被集成在s s p 中,由交换机向网络提供发提示音和收集用户信息的 设备。 随着智能业务不断发展,业务功能日趋复杂,要求s r f 具有更灵活的对用户 交互的控制能力以及特殊资源的提供和处理能力;因此这部分功能逐渐从s s p 北京邮电大学网络与交换技术国家重点实验室 1 蕊睡 鳓 申信 艟 由 北京邮电人学硕i :学位论文彩铃智能搜索引擎的砹计。j 实现 中独立出来。 彩铃业务是在原有的i i p 平台上开发的,其所基于的i i p 平台已经是按照中 国移动集团要求改造的增强型独立i p ;其具有业务逻辑执行功能,具有主动户 出被叫用户功能【1 6 1 ,即:既能够处理如局呼叫,同时也可以发起出局呼叫;其具 备s s p 的一些基本呼叫控制功能;与此同时增强型i i p 还具备和b o s s 、s m s c 相连的功能,同时增加w e bp o r t a l 作为业务受理平台界面。 2 3 彩铃数据特点 彩铃平台中的数据具有如下特点: 1 数据平台封闭,数据量不大。 与普通的互联网搜索不同的是,彩铃平台中的数据均属于内部数据,数 据集中,易于管理,省去了传统搜索引擎中的数据收集过程。同时,由于彩 铃数据在制作和上传过程中都是需要经过严格审核,也就造成了彩铃数据量 不会很大,通常情况下一个省的彩铃平台铃音数据量为十万级别。 2 多条铃音对应于同一首歌曲。 对于一首当前非常火的歌曲,通常有多家s p ( s e r v i c ep r o v i d e r ) 同时为 其制作彩铃,因此就造成了彩铃平台中一首歌曲对应多条铃音的情况非常普 遍,在此情况下通常是以扩展名的方式将不同的铃音加以区别。例如,“童 话( 高潮版) 一、“童话( 深情版) 一、“童话( 龙腾阳光板) 一等等。 3 铃音数据错误以及不一致的情况多。 。在s p 进行铃音上传时,由于人为的原因,经常会造成一些信息填写错误 的情况。例如将铃音名称和歌手名称填反,或者某些信息空缺等等。同时, 更多的情况是铃音信息的彼此不一致,例如,有的铃音的歌手名是“蔡依林 , 也有的是“蔡依琳”;有的是“陶拮,也有的是“陶哲,这些情况都会对 用户搜索和查找产生困难。 2 4 各种接入方式及其现有的查找方式 4 目前彩铃平台提供给用户的接入方式有以下四种:短信方式、语音方式、网 北京邮电大学网络与交换技术国家重点实验室 北京邮电人学硕上学位论文彩铃智能搜索引擎的设计j 实现 站方式、s t k 接入方式。其中s t k 方式属于彩铃平台对外开放接口,本文内暂 不对此进行讨论。 在短信方式下,用户可以将铃音的短编号通过短信方式发送到1 2 5 3 0 进行铃 音查找,在系统返回提示的帮助下进行铃音各种相关操作。使用短编号进行铃音 查找的缺点在于,用户必须先获得铃音的短编号信息,而一首普通铃音的短编号 通常在6 至1 0 位之间,不便于用户记忆;同时,此种查找方式的宣传广告通常 出现在电视广告或楼宇广告中,宣传成本较高,且获益铃音数量有限。在对实际 现网中的数据统计表名,与其他几种查找方式相比,使用短信查找业务的用户所 占的比例较低。 在语音方式下,用户使用手机拨打接入号( 归属地区号+ ) 1 2 5 3 0 可根据语 音提示,选择各种音乐排行榜的铃音进行试听和下载。与其他查找方式相比,语 音查找方式的最大特点在于可以直接对铃音进行试听,提高用户体验度;但其缺 点在于难以对所要查找的铃音进行定位,除了与短信方式类似的输入铃音短编号 外,只能通过各种排行榜及铃音分类信息进行线性查找,给用户带来很大不便, 不适合下载目标性强的用户使用。 在网站中,用户可以在页面的搜索栏中输入自己想要的铃音名称或者歌手名 进行查找。目前彩铃网站中的铃音查找是一种基于数据库的字段匹配查找,对数 据库系统的负荷压力较大。同时,此种查找方式只支持单关键字查找,无法对多 关键字进行匹配,例如用户输入“周杰伦菊花台一无法找到期望的结果。 从业务的需求来看,仅仅以上进行的铃音定制已经不能满足用户的需要,彩 铃平台必须提供一种更加直观、更加方便的铃音查询方式。智能搜索平台所要完 成的目标就是实现与用户之间的自然语言交互,能够理解用户的意图并引导用户 完成相应的操作。 2 5 本章小结 本章对彩铃平台系统作了简要的介绍。彩铃业务是一种时尚的、以增强趣味 性为目的的业务,以年轻人为主要使用群体。其数据特点主要有数据量小、扩展 名较多、数据不一致等,在日益增长的铃音数量面前,各种接入方式的传统铃音 查找方式均具有不可忽略的局限性,不能满足用户对铃音搜索的需要,有必要针 北京邮电大学网络与交换技术国家重点实验室 5 北京邮电人学硕:学位论文彩铃智能搜索0 l 擎的设计与实现 对彩铃平台的数据开发一套独立的、智能化的搜索平台。 6北京邮电大学网络与交换技术国家重点实验室 北京邮电人学颂l :学位论文彩铃智能搜索弓l 擎的设计与实现 第三章搜索引擎技术现状介绍 3 1 基于l u c e n e 的全文搜索技术 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的计算机程序搜集 互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把互联网 上的所有信息归类,以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把互联网中的资源服务器的地址收集起来,由其提供的资 源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信 息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这 其实是最原始的方式,只适用于互联网信息并不多的时候。随着互联网信息按 几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的 开始,随后搜索互联网上的所有超级链接,把代表超级链接的所有词汇放入一个 数据库。这就是现在搜索引擎的原型【1 7 】。 随着y a h o o ! 的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更 加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更 加综合化,完美化了以搜索引擎权威y a h o o ! 为例,从1 9 9 5 年3 月由美籍华裔 杨致远等人创办y a h o o ! 开始,到现在,他们从一个单一的搜索引擎发展到现在 有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明 了搜索引擎的发展从单一到综合的过程。 l u c e n e 是一个基于j a v a 的全文索引工具包它可以方便的嵌入到各种应用 中实现针对应用的全文索引检索功能。l u c e n e 最核心的特征是通过特殊的索引 结构实现了传统数据库不擅长的全文索引机制,并提供了扩展接口,以方便针对 不同应用的定制。 基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率 低,但对于中小型应用来说,基于2 元语法的切分还是够用的。基于2 元切分后 的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的 3 0 - 4 0 不同。 北京邮电大学网络与交换技术国家重点实验室 7 北京邮电人学硕 :学位论文彩铃智能搜索弓i 擎的设计j 实现 自动切分词表切分 实现实现非常简单实现复杂 查询增加了查询分析的复杂程度, 适于实现比较复杂的查询语法规则 索引冗余大,索引几乎和原文一样 存储效率索引效率高,为原文大小的3 0 左右 大 词表维护成本非常高:中日韩等语言需要分 维护成本无词表维护成本别维护。 还需要包括词频统计等内容 嵌入式系统:运行环境资源有限 适用领域分布式系统:无词表同步问题 对查询和存储效率要求高的专业搜索引擎 多语言环境:无词表维护成本 表3 - 1 分词机制对比 目前比较大的搜索引擎的语言分析算法一般是基于以上两个机制的结合。 3 2 垂直搜索技术的应用 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是 对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行 处理后再以某种形式返回给用户。 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构 化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比 网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位, 而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进 一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户 的需求【1 引。 整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后 以非结构化的方式和结构化的方式返回给用户 垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物 搜索、房产搜索、人才搜索、地图搜索、m p 3 搜索、图片搜索几乎各行各 业各类信息都可以进一步细化成各类的垂直搜索引擎。 8 北京邮电大学网络与交换技术国家重点实验室 北京邮电人学硕士学位论文彩铃智能搜索引擎的- 歧计与实现 3 3 搜索引擎技术的发展趋势 搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术 也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面: 、 一、提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语 言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。 用户可以输入简单的疑问句,搜索引擎在对提问进行结构和内容的分析之后,或 直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言 的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有 效,搜索引擎会将更有意义的信息提供给用户,提高了检索效率。 二、对检索结果进行处理 1 ) 基于链接评价的搜索引擎 基于链接评价的搜索引擎的优秀代表是g o o g l e ( h t t p :w w w g o o g l e t o m ) ,它独 创的“链接评价体系 是基于这样一种认识,一个网页的重要性取决于它被其它 网页链接的数量,特别是一些已经被认定是“重要的网页的链接数量。这种评 价体制与科技引文索引的思路非常相似,但是由于互联网是在一个商业化的 环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系, 因此这种评价体制在某种程度上缺乏客观性。 2 ) 基于访问大众性的搜索引擘 基于访问大众性的搜索引擎的代表是d i r e c th i t ,它的基本理念是多数人选择 访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际 所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重 要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众 性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。 3 ) 去掉检索结果中附加的多余信息 有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的 附加信息,可以采用用户定制、内容过滤等检索技术。 北京邮电大学网络与交换技术国家重点实验室9 北京邮电人学硕上学位论文彩铃智能搜嗦弓i 擎的设计与实现 三、垂直主题搜索引擎 网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全 所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难 将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的 搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如 象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满 意度较高。 3 4 本章小结 本章简单介绍了搜索引擎技术的历史及发展趋势。从未来的趋势可以看出, 基于人工智能的自然语言理解、垂直领域搜索将是今后搜索引擎发展的一个方 向。 对于彩铃平台而言,开发出一个面向彩铃领域的智能搜索引擎十分适合技术 发展的需要。 1 0北京邮电大学网络与交换技术国家重点实验室 北京邮电人学硕上学位论文彩铃智能搜索f j | 擎的 歧计与实现 第四章彩铃智能搜索的研究与设计 4 1 彩铃平台的数据建模 4 1 1铃音名称统计与词汇频率分析 彩铃铃音库中包含普通铃音、集团铃音和用户d i y 铃音三大类别,其中集团 铃音与用户d i y 铃音只允许有特定权限的用户使用,其他用户无法浏览、下载。 因此,本文中所讨论的彩铃铃音搜索的范围只包含普通铃音范畴。 彩铃库中的铃音具有如下特点:铃音名称的命名通常为“x x x ( y y 版) , 其中x x x 为对应的流行歌曲名称,在下文中称为“铃音精确名称 ,y y 为铃音 制作方为其添加的版本信息,以与其他类似铃音区别,在下文中称为“铃音扩展 名称一。 。 对于铃音精确名称相同的铃音,将其定义为“重复歌曲。对全国八个省份 彩铃铃音库中的数据做出的铃音名称统计如图4 _ 1 所示: 图4 - l 彩铃铃音数量统计 从此图中可以看出,在合并了重复歌曲后,铃音的总数下降了一半以上,也 即平均每个铃音精确名称对应于2 首铃音。可以认为在对歌曲的标识中,铃音扩 展名也起到了很重要的作用,因此在下面的建模过程中,将会对铃音精确名称和 北京邮电大学网络与交换技术国家重点实验室 i i 北京邮i u 人学硕i :学位论文 彩铃智能搜索引擎的设计;实现 铃音扩展名称单独作讨论。 图4 2 是铃音精确名称长度分布统计图: r 1 一r r 黪ll 锄 隧缀缵貔勃缓黝戮缴绂缓缀缓缓绷缓缀缀缀缀缮缀缀黝缓缴缓缀缀籀貔缀缓凝黝黝鞘糍缀戮猫麴渤嬲戮缎燃a l i 一i 一一 豸 宦缓荔磊辘澎蕊蕊罐l 瓣籀赣搿黝籀蕊荔魏镕魏。主。箍,i 镕荔;纭施i 络l !镬 翰缓缓缀黼溯绷嬲绷糍獬鳓缓糍糊 ” 罐 凑 鐾二二 莛 , ,缓 0 图4 2 铃音精确名称长度分布统计 4 0 0 0 0 从统计图可以看出,字符长度为3 的铃音精确名称最多,长度为2 _ 4 的名称 数量占全部歌曲总数的7 0 以上。在进行铃音搜索的过程中,我们可以按照此表 的数据来判断用户所要搜索的内容。可以认为,用户搜索一首铃音名称长度为3 个字符的可能性更大一些,可以适当增加此长度范围铃音名称的权重,使得系统 更倾向于帮助用户选择一首名字在此长度范围内的铃音。 同时,在统计过程中会发现,铃音名称的特点是“单字远远多于单词一所 谓单字,就是一个中文字符;所谓单词,就是一个中文的词语( 这里暂时只对中 文进行分析,不考虑英文及数字等) 例如,“秋天不回来 中包含5 个单字,而 按照普通的单词分词技术则会被分成“秋天,不,回来 共3 个单词。但是对于 更多的其他歌名,例如“死了都要爱、“爱你一万年 这些歌名而言,几乎每一 个单词与单字等同,已经没有按照单词分词的需要。并且,为了提高模糊匹配时 的搜索精确度,按照单字分词反而比按照单词分词更具有优势。对于歌曲“秋天 不回来,如果用户a 误输入为“冬天不回来 ,用户b 输入“我们不回来,在 按照单词分词的处理方式中,系统对二者均会处理为匹配“不,回来 两个单词, 匹配度没有差别;而在按照丹迪分词的处理方式中,系统会认为用户a 匹配到 了“天不回来 四个单字,而用户b 匹配到了“不回来三个单字,相比之下 1 2 北京邮电大学网络与交换技术国家重点实验室 1 2 3 4 5 6 7 8 9 0 北京邮电人学硕卜学位论文 彩铃智能搜索引擎的设计j 实现 用户a 与该歌曲名的匹配度更高,匹配度信息就有了明显的区分。 图4 - 3 是铃音扩展名称长度分布统计图: 图4 3 铃音扩展名称长度分布统计 这里的长度统计都是将符号信息与“w 版 中的“版字去掉之后统计的, 例如虮匿你( 无限深情版) 一中的铃音扩展名计为4 个字符。 从对铃音扩展名的统计看出,通常情况下,铃音扩展名为一到两个2 至3 字 的形容词,而且绝大部分的铃音扩展名都有重复。例如,出现频率最高的扩展名 有“高潮版一、“经典版一、“怀旧版一等等。而4 字以上的扩展名,通常是两 个( 甚至更多) 形容词的组合,例如“纯美高潮版力、“网络开篇版 、“情歌 王子招牌主打版一等等。 铃音扩展名的特点是,几乎所有名称都是以单词的形式出现,而且重复频率 较高,相比之下单字的出现率较低。例如,在参加统计的2 7 6 8 1 3 首铃音中,包 含“高潮版一扩展名的铃音达到3 1 8 2 首,见图4 - 4 。 北京邮电大学网络与交换技术国家重点实验室 1 3 北京邮电大学硕,i :学位论文彩铃智能搜索引擎的设计o j 实现 图“铃音扩展名单词出现频率统计 因此对于铃音扩展名称,在分词过程中适合采用按照单词分词的方式。 4 1 2 歌手名称统计与词汇频率分析 对于铃音歌手名长度所做的统计如图4 5 : 图4 - 5 歌手名长度分布统计 对于歌手名而言,长度为l 的关键字基本不存在,主要以2 至3 字的人名为 主。四字以上的名称,主要以演唱组合为主,例如“动力火车、“凤凰传奇 等等。 1 4 北京邮电大学网络与交换技术国家重点实验室 北京邮电人学硕士学位论文彩铃智能搜索引擎的设计j 实现 需要注意的是,在以上的统计过程中,如果一首歌曲包含两个或以上歌手, 则将其分开进行处理,而并非每首歌曲只对应一个歌手。例如,某首歌曲的歌手 名为“林俊杰、金莎等,则统计时将其分为“林俊杰和“金莎两个关键字。 同理,在建立搜索索引时,也许要做同样的处理,两个关键字彼此独立,每个关 键字所对应的铃音列表中均包含此首铃音,这样可以保证用户对任意关键字进行 搜索时均可搜索到此首铃音。 与铃音精确名称相类似的,歌手名称也是属于“单字远远多于单词 的情 况,使用词库对歌手名称进行分词的效果不是很好,同时考虑到今后会对关键字 进行模糊匹配的需要,例如用户输入“张少涵系统可以找到“张韶涵,此处 使用单字分词方式为宜。 4 1 3 歌词统计与词汇频率分析 在彩铃搜索所涉及的各种关键词中,歌词搜索属于最特殊的一个相比于铃 音名称、歌手名称等其他关键词,歌词信息通常都长度较长。对于歌词的搜索过 程更加接近普通的搜索引擎的全文检索。 歌词搜索中的一条关键字,即一首歌曲的全部歌词,相当于普通全文检索中 的一篇文章。在搜索过程之前,使用词库对全部歌词信息进行索引,于其他关键 字相比,歌词关键字所包含的信息较多,索引时占用的系统资源也相对较多。 下面是对歌词库进行的一些统计需要说明的是,彩铃平台系统中本身不包 含歌词信息,这里所统计的歌词库是从互联网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制度化常态化活动方案策划
- 生涯咨询招募方案有哪些
- 企业咨询培训收费结构方案
- 健身教练私教活动方案策划
- 潍坊钢制保温门施工方案
- 家庭教育专家咨询方案
- 2025年虚拟现实行业虚拟现实游戏与虚拟现实影视研究报告
- 2025年网络安全行业网络安全技术与信息安全研究报告
- 2025年医疗科技行业医疗健康大数据应用前景研究报告
- 安顺导视堡垒施工方案
- 2025合肥市辅警考试试卷真题
- 2024年安徽国元农业保险股份有限公司招聘笔试真题
- 淘宝客服合同协议书模板
- 骨水泥测试试题及答案
- 中国糖尿病合并慢性肾脏病临床管理共识 课件
- 职业人群心理健康促进指南 2025
- 无人机教育培训创业计划书
- 咸阳社区面试题及答案
- 电力工程施工进度及安全保障措施
- GB/T 19973.2-2025医疗产品灭菌微生物学方法第2部分:用于灭菌过程的定义、确认和维护的无菌试验
- 装修合同意向协议书
评论
0/150
提交评论