




已阅读5页,还剩66页未读, 继续免费阅读
(计算机应用技术专业论文)本地搜索领域poi缩略词词典的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j j 、 , t 0 , t - 一_一1 at h e s i si nc o m p u t e ra p p l i c a t i o n1 e c h n o l o g y | | i l l l f l i i l 川j l l i i i i | l i i l f f l f 舢 y 18 4 16 2 3 t h e s t u d yo f p o i a b b r e v i a t i o n s d i c t i o n a r y i nt h ef i l e do f l o c a t i o ns e a r c h b yh u 觚gh e s u p e r v i s o r :p r o f e s s o rz h u j i n g b o n o r t h e a s t e r nu n i v e r s i 锣 j u n e2 0 0 8 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了 明确的说明并表示谢意。 学位论文作者签名:彳乏彩 日期:m ,fl g 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年历一年口一年半口两年口 学位做储签名旋修 签字日期:功咿歹瑶 导师签名: 染绲氍 签字日期:小访易涉 l尊 f、, , 东北大学硕士学位论文摘要 本地搜索领域p 0l 缩略词词典的研究 摘要 随着社会的日益信息化,人们越来越强烈地希望能够通过计算机获取到大 量的信息,尤其是对生活信息的获取。人们有强烈的愿望通过自然语言语句的查 询搜索到和他们的什么密切相关的信息。本地搜索就是一个致力于帮助人们实现 对生活信息检索的技术,可能检索到诸如餐饮、娱乐、金融机构、旅游景点、地 标建筑、加油站,甚至是停车场的信息。这个技术极大的丰富人们的生活,使人 们足不出户就可以获取大量的生活信息。 目前的本地搜索技术的主要搜索内容是一个被称作为p o i 的信息。p o i ( p o m 0 f 妣s t ) 的全称为地理兴趣点,顾名思义,就是令人感兴趣的点。每个不同的 p o i 都分布在地图上不同的坐标点上,而本地搜索的任务就是根据用户输入的检 索语句将可能的p o i 输出出来。为了能够满足用户的需求,就需要各种不同技术 手段提取检索的准确率。 但是由于存储在数据库中的p o i 地理兴趣点一般都为该信息点的全名,所 以名称一般都比较长,而用户在输入查询语句时有时并不愿意使用全称查询。一 般会选取关键字查询,或者会使用该信息点的缩略词查询。对于关键字查询,目 前已经有较好的办法实现,但是对于缩略词的查询有时确无能为力。因为大量的 名称缩略词和它所指的p o i 之间存在复杂的关系。一个有效的办法就是将这些存 在复杂关系的名称缩略词和它所指代的p o i 之间所构成缩略词关系构造成缩略 词词典。这样在进行搜索时,可以首先判断用户查询是否是一个缩略词表达形式。 本文首先讨论p o i 信息点简介等资源的获取,随后介绍条件随即场的相关 内容,并展示通过条件随机场模型来对这些资源进行命名实体识别,最后将这些 提取出来的命名实体和p o i 信息点进行模式匹配,最终从这些资源中提取出缩略 词词典的信息。实验表明通过这种方法提取出来的缩略词具有很好的效果,并且 具有很好的现实意义。可以通过这样一个提取缩略词的机制扩充缩略词的词库, 并最终提高该类词本地搜索的准确率。 关键词:本地搜索;p o i 信息点;缩略词词典;条件随机场;命名实体识别 n ,4, 东北大学硕士学位论文 a b st r a c t t h es m d yo fp o ia b b r e v i a t i o n sd i c t i o n 哪i n t h ef i l e do fl o c a t i o nse a r c h a b s t r a c t i i lt 1 1 e 乎潲gi i l f o r m a t i 0 i 卜b a s e ds o c i e 锣,t h eh o p et 0a c c e s si n f o n i l a :t i o n 丘- o m t l l e c o m p u t e rh 勰b e e nm o r e 觚dm o r e 鼬r o n g l y ,e s p l e c i a l l yt 1 1 e c e s st 0i i f c i i l l = b r m a t i o n p e o p l e1 1 a v eas 仃o n gd e s t 0s e a r c hf o rt l l ei i 曲吼撕o nw l l a lm i e y 盯e c l o s e l yr e l a 士e dt 0b y 嫩l t 眦越l a n g 啪唱| ee x p r e s s i o n s 。l o c a ls e a r c hi sat e c h i l o l o g yt 0 h e l pp e 叩l ea c l l i e v e 也el i f eo fi l 讧o m a t i o nr e t r i e v m ,w i l i c hm a yb e 枷e v e d ,锄c h 嬲 c 舭r i n g ,锄t e n ;l i l m l e n t ,f m a i l c i di 璐t i t u _ t i o 嬲,t o u r i s ta t 嗽c t i o 船,l a 幽a r kb u i l d i i 塔s , g 硒s t a t i o 璐缸l de v e np 破i n gi i l f o 瑚1 a t i o n t l l i st e c l l i l o l o g yg r e a t l ye 1 1 r i c h e sp e o p l e s l i v e s ,s 0 l a tp e o p l ec a i lg e tl a r g ei 1 1 f 1 0 咖a t i o n0 nm el i f eo fi n f o 咖a t i o n t h ec m r e ml o c a ls e 疵ht e c l u l o l o g yi sam 萄o rs e 鲫c ht h a tw a sr e f e n e dt o 嬲p o i :i 1 1 f o r m a t i o n p o i i mo fi i l t e r e s t ) 鹧t l l ee n t i r eg e o g r a p 崎cp o i mo fi i i t e r e s t ,弱t l l e n 黝es u g g e s t s ,i s 觚硫e r e s t i n gp o i n t e a c ho f 此d i f 触n td i 矧b u t i o n0 fa j lt h ep 0 1 0 n 也em a pc o o r d i n a :t e so fd i 矗e r e n tp o i n t s ;讹l et l l e1 0 c a ls e a r c hb 鹤e d0 nl l s e ri i l l ,u t t 晒ki st 0r e t r i e v et l l es t a t e m e n tm a yb ee x p o n e do u to fm ep o i i i lo r d e rt om e e tm e n e e d so f 邺e 瑙,i ti sn e c e s s a 巧t 0e x m i c tt l l ev 撕。哪t e c m c a lm e a 施r e l 丽e v 2 l lr a t eo f a c c i 黼c y - h o w e v e f ,b e c 哪es t o r e di i la 妣a b 舔eo fp o ig e o 鲫l l i cp o i n to fi n t e r e s tf o rm e g e n e r a li i l f i o 加a t i o n ,n l e 向l ln 锄e ,t i t l el o n g e r 廿l a i ln o 珊a l ,锄du s e r se n t e raq u e r y l a i l g u a g e ,锄ds o m e t h e sr e l u c t a l l tt 0u n l e 如nn 锄1 eo fe n q u i r i e s o n e 埘l l n o m l a l l ys e l e c tt l l ek e ”v o r dq u e 巧,o rm a y 砸et l l e 她f 0 m l a t i o np o i m f o rt l l ea c r o n y m s f 0 rt l l ek e ”删q u e 巧,i sn o wab 甜e rw a yt 0a c h j e v e ,b u ti td o e sp 0 、e d e s sl y s 0 m e t i m e sf o r r o n y m s b e c a u s eal o to f 彻m e s 趾da c r o n y m so f 也ep o i “r e f e r r e d t 0t l l er e l a t i o l l s l l i pb 咖e c nt 量1 ee ) 【i 咖n c eo fc o m p l e x a ne f r e c t i v ea 辩小) a c hi st l l ee x i s t l m c eo f 也e s e m p l e xr e l a t i o 船l l i p s 锄d 也e 彻m eo f r o n y m sa n di tr e f e 盯e dt 0m ep o ip o s e db yt l l ea c r o n y m sr e l a t i o n s b i p i n s 东北大学硕士学位论文 b e 钾岭e n 也es n 眦t i l r e si i l t 0a c r o n ”啮t l l i st a s ki n1 0 c a l a r c 也l l s e r sc 趾f i r s t d e t e 池w h e m e rt h eq u e r ) ri saf o n no f e x p r e s s i o no f a c r 0 岬 1 1 i i sa l t i c l ef i r s td i s c u s sp o i 珊湎m 撕o na tb r i e f i n g s ,a n do m e rr e s o u r c e sf o rn 圯 a c q u i s i t i o i l ,m e ni l l 昀d u c e dt h er c l e 1 tm a r k e tc o n d i t i o n si m m e d i a t e l y ,锄d 晰n 1 c o 槭t i o n 胁d o mf i e l dm o d e ln l r o u g hm ed i s p l a y0 fm o d e l st 0 “姗m e dc n t i t i e s s u c hr e s o u r c e st 0i d e n t i 母,e x 仃a c tt h ef m a l 、) l ,i l lb et l l en a m i n go fn l e s ee n t i t i e s 狮d p o ii 0 m l a t i o np o i n :t sp a t t e mm a t c l l i n g ,丘o mt l l ee 1 1 do ft l l e r e s o u r c e s m t e d 蠡o m 批i 硝0 n s0 fi i 曲瑚a t i o n e x p 函m e n t ss h o wn l a t 灿u g hn l i sm e t l l o dt 0 e x 仃a c tt l l ea b b r e 、,i a t i o 璐h a v e v e 巧9 0 0 dr e s u l t s ,觚dh a v ea9 0 0 dp r 枷c a l s i g i l i f i c a n c c c a nb ee ) ( t 觥d 也r o u g hs u c ham e c i 瑚1 i s mt 0e x p a n d 也ea b b 舱v i a t i o 璐 o ft l l ev o c a b u l a 巧o fa c r o ,i i l s ,s u c hw o r d s 锄dl l l t i m a t c l yi i l l p r 0 v em ea c c u r a c yo f l o c a ls e a r c h k e yw o r d s :l o c a ls e a r c h ;p o i 幽珊a l i o n ;a b b r e v i a 廿0 1 1 sd i c t i o n a d ,;c 0 n d i t i o n r a r l d o mf i e i d ;n 锄e de n t i 哆r - e c o 鲥t i o n 东北大学硕士学位论文 目录 目录 独创性声明i 摘 要 a b s t r a c t i i i 第1 章前言1 1 1 研究背景1 1 2 研究现状2 1 2 1 命名实体识别2 1 2 2 缩略词词典的研究3 1 3 本文的主要内容4 第2 章数据资源7 2 1 地理信息数据7 2 2 网络资源的获取8 2 2 1 地理信息网站资源8 2 2 2 网站主页资源9 2 3 资源获取的讨论1 0 第3 章条件随机场模型1 1 3 1 图模型。j 1 1 3 1 1 随机变量的条件独立性1 1 3 1 2 有向图模型。1 2 3 1 3 无向图模型13 3 2 马尔可夫随机场和h a m 瑚e r s l y c l i 肋r d 定理1 5 3 2 1 马尔可夫随机场。1 5 3 2 2 吉布斯分布。1 5 3 2 3h a 皿n e r s l y - c l i 舶r d 定理1 7 3 3 条件随机场2 0 v 东北大学硕士学位论文 目录 3 3 1 条件随机场的原理2 0 3 3 2 条件随机场的选择。2 1 3 3 3 链式条件随机场2 2 3 3 4 链式条件随机场的训练2 2 3 3 5 链式条件随机场的推理2 3 3 3 6 条件随机场的讨论2 3 3 4 讨论2 4 第4 章命名实体识别2 5 4 1 命名实体2 5 4 2 命名实体识别。2 6 4 3 实验设计2 7 4 3 1 序列标注2 7 4 3 2 识别性能2 9 4 3 3 系统流程3 2 4 3 4 命名实体的提取3 3 4 4 讨论3 8 第5 章缩略词词典的构造4 l 5 1 缩略词的定义。4 1 5 1 1 一般的缩略词4 1 5 1 2 地理名缩略词4 3 5 2 缩略词的提取4 3 5 2 1 提取规则4 3 5 2 2 模式匹配算法4 4 5 3 实验设计4 6 5 3 1 实验数据。4 6 5 3 2 实验结果4 7 5 3 3 实验分析4 8 5 4 讨论4 9 第6 章结论5 l 壁查堂硕士学位论文 目录 参考文献5 3 致谢5 7 i 东北大学硕士学位论文第1 章前言 1 1 研究背景 第1 章前言 本地搜索,作为一种新兴的搜索引擎,用于在网上查找当地的各种生活服务 场所与公司。本地搜索集成了当地信息搜索、电子地图、空间位置查询、公交和 驾车路线计算等服务,为互联网用户提供当地的生活、娱乐、出行等所需地点信 息,甚至可以提供诸如营业时间、餐馆菜单和饭店环境等详细信息。作为搜索引 擎的一项细分服务,本地搜索更加贴近用户需求,已经显现出良好的商业前景。 在本地搜索任务中,无论是要地图位置信息显示、公交线路查找,还是对更 高级的信息,如营业时间、饭店环境等等检索,首要的任务是要根据用户输入的 查询,把该信息的地址位置查找出来。而用户输入查询是以自然语言形式给出的, 这样就要求有相应的对自然语言处理的技术应用到信息的检索上。尽管目前的已 经有了相对比较成熟的搜索技术,能够很好的检索出一般的用户查询要求,但仍 有一些超越搜索技术的自然语言方面的问题,影响到用户的查询结果。 在本地搜索中,查询任务可以分为定点查询、周边查询、公交查询、空间查 询等。但是由于存储在数据库中的p o i 地理兴趣点一般都为该信息点的全名, 所以名称一般都比较长,而用户在输入查询语句时有时并不愿意使用全称查询。 一般会选取关键字查询,或者会使用该信息点的缩略词查询。对于关键字查询, 目前已经有较好的办法实现,但是对于缩略词的查询有时确无能为力。因为大量 的名称缩略词和它所指的p o i 之间存在复杂的关系。 一个有效的办法就是将这些存在复杂关系的名称缩略词和它所指代的p o i 之间所构成缩略词关系构造成缩略词词典。这样在进行本地搜索任务时,可以首 先判断用户查询是否是一个缩略词表达形式。 由于搜索引擎上存储的地理位置信息,都是以全称的形式存储的。而用户在 查询输入时,更倾向于输入名称的简写或缩略。例如,用户要查找“北京师范大 学 的位置信息。在输入查询语句时,用户可能不输入全称,而仅输入“北京师 范大学”的缩略词“北师大 查询,这样,在搜索引擎的返回结果中,也返回了 “北京师范大学 的信息。而仅仅依靠搜索引擎的技术无法满足这种功能。因而, 东北大学硕士学位论文 第1 章前言 构造一个能够匹配的缩略词的词典,就成了一个必要的工作。 1 2 研究现状 目前,存在的同义词词典中主要有哈尔滨工业大学实验室的同义词词林,但 是这个词典内容包含的信息面太广,由于存在太多的对地理信息数据无关的内 容,不能很好的应用在本地搜索方面上。所以有必要构造一个完全作为地理信息 点词语的缩略词词典,缩略词词典中的每个词条都表达一个具有清晰涵义的地理 信息点名称。而目前对于缩略词词典构造的方法一般也只是以词语之间的直接匹 配为主。但现实世界中,词短语之间匹配成功还不能够判断它们能够构成缩略词 词条。首先,缩略词在词性上应该是名词,并且在含义上应该能够表达一个地理 词,也就是说,缩略词必须为一个命名实体,可能表达的是组织名,或者是地址 名。所以在判断缩略词词条时,先要识别缩略词是否是一个命名实体。 1 2 1 命名实体识别 命名实体识别的主要研究内容包括识别语料的标注、识别规则的自动抽取、 识别模型的构建以及识别特征的自动选取等。常常表现为对新词识别。目前,命 名实体识别的方法主要归于两类。 一种是基于规则的方法。其基本思想就是将人类用于识别专有名词的语言学 知识编写成若干条规则,利用这些规则对文本中的专名进行自动识别。人工规则 对于识别结果精确度有较大贡献。然而规则可能过于繁琐复杂,对不同语言需编 写不同的规则。另外,如何将人类知识有效地编码为规则,也是基于规则的识别 方法所要面对的问题。 早期的基于规则的命名实体识别系统比较简单。但需要语言专家人工制定规 则,费时费力,且单个系统不可能包含所有的语言规则,难免有所遗漏:另一方 面,由于不同语言的相异性,对应的语言规则不尽相同。所以基于某一套规则的 系统很难再移植到另一种语言。为了克服上述困难,现在的基于规则的命名实体 识别系统一般都是从训练语料中自动的学习规则。它们从少量的种子规则出发, 借助标记或未标记的训练数据,自动地产生语言规则。比较典型地如基于转换 ( t r a r l s f o m a t i o n b 部ei e 踟:l i i l g ) 的规则推理方法。 一2 一 东北大学硕士学位论文第i 章前言 另一种命名实体识别方法是基于统计的机器学习方法。其基本思想是利用训 练语料中的数据作为先验信息,来对测试语料数据的标注项做概率估计。由于统 计方法与具体语言之间的相对独立性,是目前较受关注的方法。 当前流行的专有名词识别方法仍主要集中在机器学习方面,使用诸如隐马尔 可夫模型( h m m ,h i d d e nm a r k o vm o d e l ) 【1 】【2 】【3 】,最大熵模型( m a x i m u me 腑o p y m o d e l ) 【4 j ,基于转换的错误驱动学习方法( t r a i l s f o m a t i o n - b a s e d 锄r - d r i v 饥 l e a n l i n g ) 【5 l 等。 在近年来命名实体评测中,中文命名实体识别的方法还包括基于类的语言模 型( c l 弱s - b 嬲e dl a n g u a g em o d e l ) 嘲,其对每个命名实体识别,使用不同的模型方法; 在改进的基于类的语言模型中集成人类的先验知识,如语义信息川;随机角色模 型( 渤c h a s t i cr o l em o d e l ) 【8 】,在命名实体的上下文环境中,预先提取并定义角 色标注集。基于不同角色标注集对命名实体进行分类识别。 由于中文中特定语言的问题,构建一个高性能的命名实体识别系统依然会遇 到很大挑战。与其他欧美语系,如英语、西班牙语等不同,在中文中是使用分隔 符来界定词的边界信息。所以使用统计的方法进行命名实体识别,包括对字单元 进行识别标记和对词单元进行识别标记。两个不同点在于后者需要准确的分词系 统进行预分词。 与基于规则的方法相比,基于机器学习的统计方法更具有适应性和健壮性。 系统易于在不同的语言平台之间移植。但基于统计的方法一般需要大规模的语料 进行训练才能达到很好的识别效果。要求一定的训练时间和存储空间。而且很多 时候会不可避免的遭受数据稀疏问题。 今年来,命名实体识别系统的评测也受到越来越多会议的关注。多语言实体 任务( m e t m u l t i l i n g u 2 i le n t 蚵协k ) ,信息理解会议( m u c ,m e s s a g e u n d e r s t a i l d i n gc o n f e r e n c e s ) ,c o n l l 0 2 和c o n l l 0 3 会议的独立性语言任务, a c e ( a u t o i n a t i cc o m e n te x t r a c t i o n ) 等,都进行着命名实体识别等相关内容的评 测。 1 2 2 缩略词词典的研究 目前,国内外对英语缩略词这方面的研究已经取得了很大的进展【9 】,国内大 东北大学硕士学位论文第1 章前言 多数的研究是一种较为特殊的指代,即代词和名词名称短语间的指代问题,其 中复旦大学的钱伟等人用基于最大熵模型对英文名词短语指代消解,还有使用统 计与规则,统计机器学习方法等1 0 】f 1 1 】1 1 2 1 ,不能广泛应用到缩略词中;也有少量 对德文,西班牙文等的研究;对现代汉语缩略词的专门研究,目前主要有崔士起 的应用统计对齐模型,支流的应用模糊模式识别【1 3 l 等比较少的方法,因此对现 代汉语缩略词值得进行更进一步的研究和探索。 1 3 本文的主要内容 本文的主要讨论如何通过网络获取信息资源,提取出重要的有用信息,然后 如何对提取出来的信息进行自然语言处理分析,寻求缩略词信息,构建缩略词的 词典。根据寻找到的网络信息资源,提取出其中的文本信息,然后对这些文本信 息进行命名实体识别的处理,提取其中的地名、组织名,然后对提取出来的命名 实体做实体匹配分析,将可能组成原实体和其缩略词的命名实体对找到,再经过 其他的一些校验技术,选取合适的实体对,构成缩略词词典。 在命名实体任务识别的过程中,本文采用的方法为条件随机场模型。条件随 机场是当前流行的统计语言模型,其模型的原理和特点使得其非常适合序列标注 任务。通过对网络上获取的资源做预处理,提取有用信息,将命名实体识别任务 转换为序列标志问题。本文在对条件随机场做简单的介绍后,主要讲述如何应用 其在命名实体识别的任务上,包括对任务特征的选取等问题。 在缩略词词典构造任务中,本文介绍缩略词词典的构造原理,生成方法,缩 略词的模型匹配规则等。 本文的结构安排如下: 第2 章的内容为本文中应用到的数据资源的获取,包括介绍地理兴趣点等数 据资源,并讨论如何能够从网络上获取的有用的资源信息。 第3 章主要介绍条件随机场的基本原理,图模型的相关内容,以及条件随机 场的结构和具体表现形式。最后介绍了条件随机场的训练方法和如何使用条件随 机场完成序列标注任务。 第4 章主要介绍如何通过条件随机场场模型,将命名实体识别任务转化称为 序列标注任务,给出此命名实体识别任务的评测方法及评测结果。并最终实验生 查! ! 查兰堡主兰堡垒查一一 第1 章前言 一- := 成每个地理信息点简介资源中的命名实体。 第5 章介绍缩略词匹配算法,对网络资源中提取出来的命名实体进行匹配, 提取出可能成为缩略词的词语对,然后分析进行进一步的提出处理,生成缩略词 词典。 第6 章是本文的结论及下一步工作。 一6 一 东北大学硕士学位论文 第2 章数据资源 第2 章数据资源 本章主要介绍本地搜索领域用到的数据资源,以及实验中应用到的数据资源 的获取,并讨论应该对什么样的数据进行有效的查找并下载。最后讨论为什么需 要通过对网络数据的提取,才能提取缩略词词典。为了能够实现对缩略词词典的 提取,首先就要根据采集能够生成缩略词词典的数据,只有得到了有效的数据, 才能够进行有效的工作。对于本地搜索领域中,最重要的数据莫过于地址名称的 数据了。 2 1 地理信息数据 本地搜索任务目前是个比较新颖的技术,但是对该任务并没有一个清晰准确 定义,一般也是以描述的说明本地搜索要完成的任务,搜索的具体内容也是千差 万别,涵盖了餐饮、娱乐、金融机构、旅游景点、地标建筑、加油站,甚至停车 场的具体位置等信息。但是尽管查询的内容形式不一,但是这些数据最终都要在 地图上以坐标点的形式显示出来。所以在本地搜索任务中,最重要的数据资源就 是这些坐标点所能表达的地理信息数据。能够表达这些地理信息的数据一般被称 作为p o i ( p 0 硫o f i l l t c r e s t s ) ,也即是地理信息点,又称地理兴趣点。 一条p o i ,可以包含该地理信息点上的所有有用的信息。p o i 的属性有很多, 但最重要的是下面几个属性: ( 1 ) p o i 的i d 号,用来指定一个特定的p o i 数据。一条p o i 具有唯一的一 个i d 号,不同的p o i 就是通过i d 号来区分的。 ( 2 ) p 0 1 名称,是指这个兴趣点的名称,一般都是该信息点的名字的全称, 这个属性也是我们处理缩略词词典的一个重要属性。所有的缩略词词典的词条信 息中,地理名称词都要至少对应一条p 0 1 名称信息。 ( 3 ) p o i 类型,即该p o i 属于那种具体的地理类型信息。不同的任务对于p o i 的分类体系不一样,但一般都是以地理名称的功能分类。如:“饮食服务 、“公 共设施”、“医院保健服务 等等类别。每个类别都表达了一类地理名称点的信息。 ( 4 ) 经度,纬度坐标值。存储在p o i 信息点内的经度、纬度值是用来定位一 个地理信息点在地球上的位置信息。在实现对地图上显示的功能时,该属性点是 一7 一 东北大学硕士学位论文第2 章数据资源 主要的定点因素。 ( 5 ) 其他属性。除了上面所述的主要属性外,还有其他的一些属性。如地址 信息,电话号码,p o i 录入时间等等信息。 本地搜索任务中,用户在查找某一个地理信息点时。实际上是通过对p 0 1 名称的匹配实现的。如果找到一条p o i 与用户查找的内容匹配成功,则返回该 p o i 点,并以地图的形式显示出来。 但是用户输入缩略词表达查询时,应用现有的技术并不能很好的处理缩略词 定位的问题。有时即使能够识别出来,也不能够将其定位为一个确定的点。这的 问题促使了有一个缩略词词典的要求。如果能够实现缩略词与源短语的一一对应 关系,那么在用户输入缩略词进行查询时,系统也就能够返回完整的p 0 1 名称 信息,并定位到地图上给用户展示。 2 2 网络资源的获取 如何寻找有效的数据资源最终会很大程度的影响缩略词词典的质量。由于缩 略词词典中的词典都是通过网络获取的资源中匹配得到,所以要求网络资源内容 要丰富,并且能够和p o i 数据的名称属性对应起来,否则提取出来的缩略词即 是存在现实意义,但由于缺少p o i 的信息也不能在地图上体现出来。 为了能够得到有效的数据资源,目前主要通过两种手段来进行网络资源的提 取处理。一种是在具有专业的地理信息网站上寻找资源,这种方法的好处是同一 网站上可以存在多个p o i 数据名称的信息。另一种方法就是通过查找每个p o i 信息名称的网站主页。 2 2 1 地理信息网站资源 目前网络上存在大量的地理信息为主的网站,这些网站涵盖的内容也比较广 泛,有的网站的内容为医院类型的数据,如三九网等,介绍了全国主要的各大医 院名称、别名、网站主页、医院的简介、医院的特色、医院的医疗水平等各式各 样的信息。还有的网站的内容是以介绍餐饮类型的数据为主,如饭桶网等,介绍 各个大酒店的名称、菜系、酒店的简介、酒店的价位、酒店的营业时间等不同的 信息。 一8 一 东北大学硕士学位论文 第2 章数据资源 在各个类型的网站中,都包含着能够对构造缩略词词典有帮助的属性,如名 称、别名、简介、点评等。通过对网站的分析和提取,提取出其中的这些个对缩 略词构造有帮助的信息,就可以不断的产生全称的缩略词的表达,丰富缩略词词 典的词条。由于不同的网站存在不同的架构,而且所包含的数据属性也是各部相 同的,这就要求针对各个网站采用不同的提取数据的方式。根据具体的网站属性 内容,定义不同的数据结构,将网站中所有的名称的词条都以标准化了的数据结 构形式输出。 在本文的实验中,共提取了六个网站的内容信息,见表2 1 。命名实体识别 任务和缩略词模式匹配任务都是在这些数据上进行的。 表2 1 实验数据来源的网站 t l b l e2 1w e b s i t et h a to 丘b r e dt h ed a :t ao fe x p e r i m e 鹏 2 2 2 网站主页资源 除了通过公共的网络资源获取地理名称词的资源,提取其中的缩略词外,另 外一种网络资源对于提取缩略词也是非常有用的。那就是对应的每个地理信息点 如果存在自己的网站的话,那么在网站中又很大的可能会出现对该地理信息点名 称的简略表达,可以构成缩略词。 例如在东北大学的网站首页上( h t t p :价哪w n e u e d u c l l ) ,就可以看到里面出 现了“了解东大 、“东大简介 、“东大快递、“东大要闻 等信息。可以发现“东 大 可以作为“东北大学 的一个缩略词。类似的情况在其他的网站上也大量的 出现。出现这种缩略词表达的主要原因就是在表达一件事物时,人民希望能够用 简单的形式表达清晰的内容,这正好也是缩略词产生的重要原因。 一9 一 东北大学硕士学位论文 第2 章数据资源 2 3 资源获取的讨论 从本章中的内容可以看出,要完成缩略词词典的构造,必须能够寻找到足够 的数据资源支撑。一般缩略词的词条都是可以通过模式匹配的方法匹配出来。也 就是说缩略词的产生是可以遵循一定的规则的。那么为什么不直接通过规则的形 式直接产生缩略词呢? 原因很简单,就是即是在规则上完全满足了的缩略词词条,在现实世界中并 不一定会被人民所采用。例如,“北华航天工业学院这样的缩略词,如果完全 采用规则的方式可能得到的结果是“北航 等等。但是在实际中,“北华航天工 业学院 的缩略词形式是“华航 。也就是说,在做出对一条地理信息名称提取 缩略词时,需要现实世界中存在这样种表达才行。而通过公共地理信息网站及 每个地理信息点本身的网站资源可以给我们提取这样的一种现实氛围。所以,在 提取缩略词词条时,实验中采用这些网站上的数据。 而在对缩略词词条进行扩充时,也要通过对网站数据的不断更新,不断的增 加具有现实意义的这些数据资源的方法来实现。这样做出来的缩略词才会有充分 的说服力。 东北大学硕士学位论文第3 章条件随机场模型 第3 章条件随机场模型 条件随机场属于图模型中的无向图马尔可夫随机场,是序列标注任务中 流行且优秀的统计语言模型。本章主要介绍条件随机场的基本原理。着重介绍了 图模型的相关内容,条件随机场的结构和具体表现形式。最后介绍了条件随机场 的训练方法和如何使用条件随机场完成序列标注任务。 3 1 图模型 图模型( g r a p l l i c a lm o d e l ) 表示一簇概率分布( 细= i l i l yo fp r o b a b i l 时 d i 始b u t i o n ) ,是结合了概率论和图论而产生的理论模型。图模型主要分为两种: 有向图模型( d i r e e d 掣印k c a l 毗1 ) 和无向图模型( u n d i r e c t l 甜g r a p k c a l i n o d e l ) 。 在图模型中,图中的结点表示随机变量;边或弧表示随机变量之间的相互关系或 逻辑关系;通过边或弧的有无来表示图中对应随机变量之间的条件独立性假设; 在整个图模型中,随机变量的联合概率分布可以通过定义在结点子集上的局部函 数的乘积来表示。每个简单的模块通过概率论相互胶合在一起。概率论确保整个 模块合成的系统整体具有一致性,并且对访问图所表示的随机变量提供了一种接 口。借助于成熟、完整的图论知识,图模型框架为计算随机变量的边缘概率分布 和条件概率分布提供一个综合的框架。在诸如统计、系统工程、信息论、模式识 别等领域,很多经典的多元概率系统都隶属于概率图模型框架。图模型的另一个 优势就是,它能够根据图结构,有效地控制与图表示相关分布的计算复杂度。 3 1 1 随机变量的条件独立性 随机变量的概率密度分布与变量之间的条件独立性有很大关系。概率密度的 表示会由随机变量的独立性而大大简化。所以,这里先给出随机变量条件独立性 的定义: 局和娲分别表示两个不同的随机变量集合。如果j p ( 尼,肠) = p ( 尼) p ( ) ( 3 1 ) 那么,我们就说随机变量集局与随机变量集娲是相互独立的,表示为 东北大学硕士学位论文第3 章条件随机场模型 而且。如果: p ( 咒,皿i 托) = p ( 尼i 盈) p ( 必l 烃) ( 3 2 ) 或者:p ( 彪l 肠,屉) = p ( i 蚯) ( 3 3 ) 那么,我们就说在给定随机变量集合的条件下,随机变量集膨与随机变 量集娲是条件独立的。表示为且肠i 屉。 3 1 2 有向图模型 有向图模型是以图论中的有向图为基础。在这里,g 加“( y ,e ) 用以表示有 向非循环图。矿表示图的结点集,e 表示图的边集。图中每一个结点与随机变量 一一对应。 墨:v y ) 表示随机变量集合。在有向图中,每个结点会有父亲结点 集合( 可以为空集) 。有向图中的弧是由双亲结点指向孩子结点。对于每个结点 ,我们用历来表示其双亲结点集合。在有向图中,双亲结点和孩子结点之间是 一种逻辑关系,表示双亲结点是产生孩子结点的一种条件。我们可以通过双亲结 点和孩子结点之间的这种条件关系的局部性质,来方便性的表示有向图中随机变 量的联合概率分布。 3 1 2 1 有向图中的条件独立性假设 在有向图中,在给定结点,的双亲结点集合历的条件下,结点i ,与其祖先 结点是条件独立的。 兄 x lx s 图3 1 有向图模型 f i g 3 1d i r e c t e dg 呷h i c a lm o d e l 在图 3 1中,条件独立的随机变量集可以是: x 4 l x l ,x 3 ,工s ,x s l x z , x 6 ) j l x l ,x 3 i x 2 ,x 毋。 东北大学硕士学位论文 第3 章条件随机场模型 如果某簇概率分布可以用有向图结构来表示,那么该概率分布的随机变量必 须满足有向图所表示的条件独立性假设。 3 1 2 2 有向图的联合概率密度 对每个结点1 ,y 来说,因为父亲结点是孩子结点的产生条件,所以我们就 可以在结点v 上,借助于孩子结点,的条件概率密度函数,来表示父亲结点与孩 子结点所对应的随机变量之间的逻辑条件关系。通过有向图结构所表示的条件独 立性假设,根据概率论中基本的链式法则( c h a i nm l eo f p b a b i l i t ) rt h e o 巧) ,有向 图中随机变量的联合概率密度可以表示为: p ( x l ,x 2 ,渤) = 兀p ( 崩lx 厢)( 3 4 ) f - l 上式中,p ( 船i 渤) 是关于随机变量的条件概率函数,表示的是有向图 g 慨r ( 矿,e ) 的局部条件概率性质。 在图中,根据有向图的定义和条件独立性性质,有向图中的随机变量的联合 概率可以表示为: 烈x i ,耽,觞,泓,淞,舶) = 烈舶) 烈娩i 朋) 烈勋i 工1 ) 烈朋lx 2 ) 从崩l 船) 烈泓i 耽,淞) ( 3 5 ) 有向图模型又称为贝叶斯网( b a y e s i a l ln e t w o r k s ) 。在我们经常使用到的语言 模型中,隐马尔可夫模型就属于贝叶斯网的特例。在后面的第四章有详细介绍。 有向图模型中的结点可以表示随机变量之间的时间或逻辑因果关系。所以在 人工智能领域如专家系统,统计领域如概率网等方面有着广泛的应用。 。 3 1 3 无向图模型 无向图模型是以图论中的无向图为基础。在这里,( 矿,e ) 用以表示无 向图模型。y 表示图的结点集,e 表示图的边集。 墨: ,矿 表示随机变量集合。 图中每一个结点与随机变量一一对应。在无向图中,结点之间的边表示结点所对 应的随机变量之间的关系。 东北大学硕士学位论文 第3 章条件随机场模型 3 1 3 1 无向图中的条件独立性假设 在无向图中,如果结点集合能够将蜀中的所有结点与拖中的所有结点 “隔开 ( s e p 删i o n ) ,那么我们就说,在给定结点集的条件下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南海区的初中数学试卷
- 医学知识培训总结报告课件
- 医学知识培训建议课件
- 出车安全检查课件
- 2025四川南充市高坪区医疗卫生辅助岗招募29人考试备考题库及答案解析
- 2025年网络空间治理专家考试试题及答案
- 2025年甘肃省兰州新区兰新能源科技集团有限公司夏季高校毕业生招聘19人考试备考试题及答案解析
- 2025年网络工程师专业素质考核试卷及答案
- 2025年安庆市双生谷发展促进中心公开招募就业见习1人笔试模拟试题及答案解析
- 2025年山东体育学院公开招聘博士人员(第二批)笔试参考题库附答案解析
- (完整word版)中国户口本英文翻译模板
- 反家暴法课件
- JJG 366-2004接地电阻表
- GB/T 34557-2017砂浆、混凝土用乳胶和可再分散乳胶粉
- 外来手术器械及植入物管理课件
- DB37-T 3080-2022 特种设备作业人员配备要求
- 新北师大单元分析六上第六单元《比的认识》单元教材解读
- Q∕SY 13001-2016 承荷探测电缆采购技术规范
- GB∕T 33425-2016 化工产品中防结块剂抗结块性能的评价方法
- 华为客户接待规范接待礼仪课件
- 地基动力特征参数的选用
评论
0/150
提交评论