




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)语义匹配在信息监管系统中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 改善传统信息匹配分类系统性能的一个有效途径就是根据文本的语义 或者说概念主题来进行分类。 基于知网的语义计算匹配分类,在计算词语、句子间相似度时给 出了“整体相似度等于部分相似度加权平均”的策略。首先将一个整体分 解成部分,再将两个整体的各个部分组合配对,通过计算每个组合对相似 度的加权平均得到整体的相似度。对概念语义表达式反复使用这一策略, 可将两个语义表达式的整体相似度分解成一些义原对的相似度组合。义原 间的相似度由其语义距离转换计算得到。 提出的基于隐含谮义索引( l s i ) 的k n n 文本分类方法属于l s i 在中文 文本分类方面的应用。该方法既充分利用了向量空间模型在表示方法上的 巨大优势,又弥补了其不考虑文本语义的不足。基本思想是利用文本中词 与词之间存在的某种潜在语义结构,先抽取能反应文本的关键词,通过分 析关键词之间的关联和潜在的语义关系来进行文本匹配分类。 本研究是应国家药品监督管理局的要求,对i n t e r n e t 网上涉药站点自 动搜索,发现违规信息及时报警。原型系统经试用取得了良好效果。 关键词:语义计算;相似度;相关度:文本分类:向量空间模型;隐含语 义索引;奇异值分解 华中科技大学硕士学位论文 a b s t r a c t a ne f f e c t i v es o l u t i o nt oi m p r o v et h et r a d i t i o n a li n f o r m a t i o nc l a s s i f y i n g s y s t e mp e r f o r m a n c e si st oc l a s s i f yi n f o r m a t i o na c c o r d i n gt ot h es e m a n t i c so r t h ec o n c e p t i o ns u b j e c t s t h em e t h o do f c o m p u t i n g t h es e m a n t i c s i m i l a r i t ya m o n g w o r d so r s e n t e n c e sb a s e do nh o w n e tg i v e sa s t r a t e g yt h a tt h ei n t e g r a t i v es i m i l a r i t y e q u a l s t ot h ew e i g h t e da v e r a g eo fe v e r yp a r t s i m i l a r i t y d e c o m p o s i n g a n i n t e g r a t o r i n t os o m e p a r t s ,w e c a n g e t t w o i n t e g r a t o r s s i m i l a r i t yb y c o m p u t i n g t h e w e i g h t e da v e r a g e s i m i l a r i t i e sb e t w e e nt h ed i s a s s e m b l e d c o u n t e r p a r t s i n t h i s w a y ,t h ei n t e g r a t i v es i m i l a r i t yb e t w e e nt w os e m a n t i c e x p r e s s i o n sc a nb ed e c o m p o s e di n t oc o u p l e so f p r i m i t i v es i m i l a r i t y p r i m i t i v e s i m i l a r i t yi sc o m p u t e db yc o n v e r t i n gt h es e m a n t i cd i s t a n c e t h ek - n e a r e s t n e i g h b o r ( k n n ) t e x t c l a s s i f i c a t i o nb a s e do nl a t e n t s e m a n t i c i n d e x i n g ( l s i ) i sa na p p l i c a t i o n o fl s ii n t h ec h i n e s et e x t c l a s s i f i c a t i o nf i e l d i tt a k e st h ea d v a n t a g e st h a tv e c t o r s p a c em o d e ( v s m ) h a s i ne x p r e s s i o n ,a n dm a k e s u pt h es h o r t a g ei g n o r i n gs e m a n t i ci nv s m t h em a i n i d e ai st o p i c ko u ts o m et e x tk e y w o r d s ,a n da n a l y z et h el a t e n ts e m a n t i c r e l a t i o n sa m o n gt h e m w ec a nm a t c ha n dc l a s s i f yt h ed o c u m e n t s b yt h i sw a y e f f i c a c i o u s l y t h i sr e s e a r c h ,w h i c hi sa tt h er e q u e s to ft h es t a t ed r u ga d m i n i s t r a t i o n , c a nb ea p p l i e dt os e a r c hi a t r i c a lw e b ,s i t e s a u t o m a t i c a l l yo nt h ei n t e r n e ta n d g i v e a w a r n i n gi ft h e r ew e r ea n yi l l e g a li n f o r m a t i o n t h ed e m os y s t e mh a s a c h i e v e dav e r yg o o de f f e c t k e yw o r d as e m a n t i cc o m p u t e ;s i m i l a r i t y ;r e l e v a n c y :t e x tc l a s s i f i c a t i o n : v e c t o rs p a c em o d e ;l a t e n ts e m a n t i ci n d e x i n g :s i n g u l a rv a l u e 华中科技大学硕士学位论文 1 1 课题背景 1 绪论 随着文本信息的快速增长,尤其是i n t e r n e t 资源信息的迅猛发展,如何 在浩瀚如烟的网络资源中去伪存真,过滤无用信息但又不遗漏有用信息已 成为当今亟待解决的一个重要课题。由于汉语语义丰富,表达形式多样, 而且存在大量同义词、近义词,故对搜索到相关内容的判别造成很大困难。 因此,基于语义的匹配分类技术愈来愈受到人们的关注,对该技术的研究 探讨具有重大而深远的意义。 传统信息分类系统主要基于三神经典模型:布尔逻辑模型、向量空 间模型”和概率模型。“。这些模型的出现使信息分类的准确性和完整性有了 很大提高。然而,它们也都存在这样或那样的缺陷。布尔模型是通过对关 键字集进行各种逻辑关系运算形成布尔表达式,根据所得的布尔表达式的 值l 或o 进行匹配分类。这样检索的结果集经常是海量的,没有主次之分。 向量空间模型只是把每一篇文本用一个字项权重的向量来表示,只是一个 数学描述,没有考虑到各种用户的实际情况和信息需求,乃至文本的语义。 而概率模型则比较依赖于训练所用的语料库,计算量大,计算方法复杂。 这三种模型均采用累引词柬表示用户查询和文档,通过匹配用户查询 和文档之间的字、词来实现检索或分类。尽管这种匹配在三种模型中表现 形式各异,但都是某种形式上的浅层次概念匹配,而非深层次的语义匹配。 所以其准确性和完整性都不够理想。 传统信息匹配系统中,对于相同的概念使用不同的词汇表示,即同义 词或近义词问题,或同一词汇在不同的语言环境中拥有不同的语义,即一 词多义问题,存在无法逾越的障碍。同义词辞典的使用,在一定程度上提 高了信息匹配的查全率,但却降低了分类的精度。而且在实际应用中,需 要不断更新同义词库,才能满足系统不断变化的要求。 一词多义可能导致不相关的文档被检索到,使得需要分类的文档匹配 华中科技大学硕士学位论文 到其实并不相关的文档类中去,导致匹配分类结果的准确率降低;而一义 多词则会使相关文档,由于没有包含某些关键词而不能被检索到,或待分 类文档因字、词或语句的表达方式不同而被忽略,以致不能被分配到正确 的文档类别中去,降低了匹配分类结果的完整性。 产生上述问题的根本原因是:信息分类的实质是基于语义的匹配分类, 而传统的匹配分类方法都是基于独立词索引。事实上,汉语是一种依赖语 义理解型语言,独立的字、词集合并不能完全、准确地反应文档和查询的 语义。因此,改善传统信息匹配分类系统性能的一个有效途径就是根据文 本的语义或者说概念主题来进行分类。 1 。2 国内外现状 1 2 1 国外研究概况 语义匹配属于自然语言理解研究的一部分【5 8 l 。国外关于语义分析方 面的研究起步较早,比较有影响的理论有: 1 系统语法:1 9 7 2 年美国t w i n o g r a d ( 维诺格拉德) 根据 h a l l i d a y ( 哈里迪) 的系统语法提出了s c h r d l u 模型。系统语法把 语言看成是一种社会现象,采用描述和归纳的方法进行研究。 w in o g r a d 认为语义理论必须在三个平面上描述关系:确定词的意 义;确定词组在句法结构中的意义:一个自然语言的句子决不应 该被孤立地解释,一种语义理论必须描述一个句子的意义如何依 赖于它的上下文,语义理论必须涉及语言学背景( 说话的上下文) 和现实社会( 世界) 背景( 即同非语言学事实的知识的相互作用) , 语义理论必须同句法和语占的逻辑方面( 演绎推理) 相联系。 s c h r d l u 是一个在“积木世界”中进行英语对话的自然语言理解系 统。同样由于系统只在一个简单的限定领域( 积木世界) ,所以自 然语言对话中的某些常见的复杂问题被回避了。 2 格语法和语义网络理论:1 9 7 3 年美国r f s i m m o n s ( 西蒙) 在 华中科技大学硕士学位论文 w a w o o d s ( 伍兹) 的a t n 的基础上,采用f i l i m o r e ( 菲尔摩) 的格语 法( c a s e g r a m m a r ) 建立了语义网络理论。格语法将自然语言理解 中的语法和语义分析结合起来,它的语法规则是用于描述语法规 律而不是语义规律的,但规律所产生的最终结构不是严格表示语 法结构而是描述语义关系。语义网络表示描述了知识的分层分类 结构下的概念关系,主要推理形式是概念( 结点) 间属性的继承。 这种分层的继承关系刻画了客观知识与人类常识。语义网络表示 有实现系统,但一直缺乏理论基础。 3 概念依存理论:1 9 7 3 年美国c s c h a n k ( 杉克) 提出了概念依存理论 ( c o n c e p t u a ld e p e n d e n c yt h e o r y ) 建立了m a r g i e 系统,1 9 7 5 年建 立s a m 系统,1 9 7 7 年建立了模拟儿童学语的程序。c s c h a n k 认为 句子的句法分析对语言理解的帮助不大,句法结构无法提供必要 的信息来理解语义,人类在理解语句时全靠生活知识。在理解时, 语法只起到一个指引的作用,即根据某些输入词语找到所需的概 念结构。任何两段话,只要意思相同,无论是否属于同一种语言, 都有同一个概念内容。概念内容应具有中性的结构形式,超脱于 特定的语言文法,超脱于一切表层结构。概念内容由概念及其相 互之间的从属关系构成。由于用概念依存理论来理解自然语言时, 大量使用到语义知识,使得对纯粹语法分析有二义性的句子也能 赋予唯一的解释。但另一方面,要很好地完成分析工作又需要庞 大的语义知识库。 4 境况语义学:1 9 8 3 年美国的j o h nb a r w is e ( 巴杯士) 和j o h np e r r y ( 佩里) 建立了系统的语义学一一境况语义学( s i t u a t i o n s e m a n t ic s ) ,发表了他们的代表性著作境况与态度。b a r w i s e 和p e r r y 认为他们的语义理论可以克服传统的真值条件语义学遇 到的一些困难,特别是如何处理态度动词等问题上。境况语义学 是一种语义与语用相结合的语义分析理论。广义的境况包括客观 世界中所有动态和静态的事件,它是连续时间和连续空间中呈现 华中科技大学硕士学位论文 的连续画面:狭义的境况是指与某个言语活动相联系的动态或静 态事件,即包括该言语活动所涉及的事件。境况理论认为,语言 表达式的含义是两个境况之间的关系:一个是话语发生时的境况, 另一个则是该话语所描述的境况。这两个境况之间的关系要受人 们对语言使用规则的约束正是这种约束决定了语言表达式的含 义。语言之所以具有交流信息的功能,就是因为对语言使用规则 的约束要为整个社会所遵从。境况理论的任务,就是要从客观世 界存在的大量真实境况中,抽象出所有境况共有的内部结构。在 此基础上探讨境况之i 甘j 的约束关系,揭示出语言表达式的含义, 从而为基于境况的自然语言理解提供一个具有可计算的数学模 型。 5 隐含语义索引【9 2 1 1 :1 9 8 8 年s t d u m a is 等人提出了一种新的 信息检索代数模型:隐含语义索引( l a t e n ts e m a n t i ci n d e x in g ) , 或者称为隐含语义分析( l a t e l i ts e m a n t i c a n a l y s i s ) 。其基本思 想是文本中的词与词之间存在某种潜在的语义结构,因此采用统 计方法寻找该语义结构;用语义结构来表示词和文本,最终达到 消除词与词之间的相关性,化简文本向量的目的。l s i 利用计算导 出的概念索引进行信息检索,克服传统信息检索系统基于字、词 匹配带来的局限性。 6 语义网络:l9 9 6 年美国q u i l l i a n ( 奎廉) 首次提出了一种知识表示工 具一一语义网络( s e m a n t i cn e t w o r k ) 。q u i l l i a n 建议用语义网络来 描述人对事物的认识,实际上是对人脑功能的模拟,并希望这种 语义网络能用于进行知识推导。在这个网络中,代替概念的单位 是节点,代替概念之间关系的则是节点间的连接弧,称为联想弧。 因此这种网络又称为联想网络。语义网络在人工智能的知识表示 中有着广泛的应用。 7 语料库语言学:近几年来,在国际范围内掀起了语料库语言学 ( c o r p u sl i n g u i s t i e s ) 的研究热潮。语料库语言学研究机器可读的 4 华中科技大学硕士学位论文 自然语言文本的采集、存储、检索、统计、语法标注、句法一语 义分析以及具有上述功能的语料库在语言定量分析、词( 字) 典编 撰、作品风格分析、自然语言理解和机器翻译等领域的应用。例 如d a g a n 2 2 】使用大规模的语料统计,结合复杂的概率模型来计算 词语的距离,从而得到词语句子语义相似度的值。 1 2 2 国内研究现状 由于汉语是一种无形态变化的语种,因此无法直接套用西方现有的语 法、语义结构体系,这使得汉语自然语言理解研究工作困难重重【2 。相比 之下,国内在语义分析方面较为系统的研究成果则为数不多。 我国早在1 9 5 6 的就开始了俄汉机泽研究,并于1 9 5 9 年取得突破性进 展。但当时的技术主要是词与词翻译和模式匹配,缺乏句法和语义分析, 几乎谈不上理解。 实际上,从1 9 7 8 年我国彳+ 开始真正意义上的汉语理解研究。经过2 0 余年的时间,无论在句法和语义分析方面,还是在各语言单位的语义表示 与获取方面以及在歧义消解等方顽都取得了较大进展,并建立了一批汉语 理解的实验系统,其中一些系统已实用化和商品化。在这2 0 年间,基于 语义的汉语句子理解研究归纳起来基本上经历了以下几个阶段: i以语形分析为主基于语法规则的早期阶段 早期的研究主要集中在对句子的形式描述和分析,建立了一批汉语甸 子理解系统和人一机接口实验系统。这些系统基本上都基于转换生成语法、 扩充转移网络等语法理论等,注重汉语句子的语形分析。主要通过构造语 法规则来实现对汉语句子的分析,相对忽略语义检查,功能较弱。它们能 处理的语言现象非常狭窄,或哲语言本身受限,仅能处理有限的词汇与句 型,或者领域受限,仅局限于某个专用领域。 2 注重语义分析基于语义规则的中期阶段 在总结早期研究成果和实验经验的基础上,我国计算语言学界逐渐将 华中科技大学硕士学位论文 研究重点转移到了语义方面。从8 0 年代开始,借鉴国外的自然语言语义 理论,先后提出了一系列符合汉语特点的语义分析方法和语义表示理论。 如汉语格语法理论、汉语的各种信息在语义网络中的表示方法等。在构造 语义规则时,基本上采用上下文无关文法( c f g ) 。与语法规则不同的是, 表示非终止符和终止符的内容是与语义有关的概念知识,而不是n p ( 动词 短语) 、或n ( 名词) 等语法术语。其中以中国科学院的黄曾阳先生提出的 h n c ( h i e r a r c h i c a ln e t w o r ko f c o n c e p t ) 概念层次网络理论最具代表性。它是 面向整个自然语言理解的理论框架。这个理论框架是以语义表达为基础, 并以一种概念化、层次化和网络化的形式来实现对知识的表达。这一理论 的提出为语义处理开辟了一条新路。 由于语义表示的最佳方法就是枚举法,亦即知识粒度愈小愈好,但这 将意味着巨大的多学科人力投入和机器存储空间的庞大开销,同时还要付 出搜寻时间的昂贵代价。因此,如何将语义知识运用逻辑的方法有机地组 织起来并便于计算,一直是计算语言学工作者苦苦索求的目标。到目前为 止,语义的表示还没有较系统的理论框架,所以语义的运用也无法大规模 实施。 3 基于语料库统计方法的近期阶段 我国基于语料库的汉语理解研究方兴末艾,目前正处在初期探索阶段。 利用各级语料库可以完成自动分词、自动建造知识库、自动生成句法规则、 自动统计字、词、短语、句子的使用及关联频率等工作,然后将各种统计 数据可以有效地应用于汉语句子理解中,同时运用语科库的标注来进一步 验证或统计汉语句子理锵结果。例如:可以基于语料库来计算词语的相似 度,从而定量的综合反映词语在句法、语义、语用等方面的相似性和差异。 李涓子【2 4 1 曾利用这种思想来实现语义的自动排歧;鲁松 2 5 】研究了如何利 用词语的相关性来计算词语的相似度。 基于语料库的方法比较客观,但语料库知识的数量以及知识类型的覆 盖面都直接影响着统计数据的真实性和普遍性。 华中科技大学硕士学位论文 1 3 项目背景 目前i n t e r n e t 上信息泛滥,各种合法与非法的信息如商品广告、商务 信息等等层出不穷。为了加强互联网信息服务的管理,2 0 0 0 年9 月朱镕基 总理签署了中华人民共和国国务院第2 9 2 号令互联网信息服务管理办 法。根据2 9 2 号令,国家药品监督管理局( s t a t e ) r u ga d m i n is t r a t i 0 1 1 , s d a ) 出台了互联网药品信息服务管理暂行规定并同时开展了药品电子 商务试点工作,使互联网药品信息服务与药品交易服务逐步走上法制化、 规范化的轨道。但是,面对日益深入普通老百姓生活的网络,由于它的特 殊性和复杂性,给药品信息和交易的监管工作带来了极大的困难和挑战。 为加快建设全国药品市场监督管理系统,进一步推进药品网络信息监 管信息化的进程,满足互联网药品信息服务与交易服务监管工作的要求, 需要建设市场监督管理系统的子系统一网上药品信息监管系统。该系统 主要包括:对网上涉药站点进行自动搜索,发现未经审核站点立即报警: 对站点信息进行自动监控,发现违规信息及时报警,同时根据自身所带的 有关政策法规库为执法者提供决策支持依据;自动监控网上药品交易,保 证互联网药品交易服务稳定有序地开展,为人民群众安全用药提供坚强有 力的技术保障。网上药品信息监管系统的建成,将解决因互联网上信息发 布快捷、隐蔽等特点而导致的信息难于监控的难题。依靠先进科技手段管 理相关药品信息,将有助于打击制售假劣药品,有利于提高监管工作的效 率,规范药品流通秩序,有利于统一标准从而实现互联互通与资源共享。 它对开创药品网络信息监督工作的新局面有重要的意义。 目前,网上药品信息的监管工作面临着以下几方面的问题: 1 政府行使网上信息监管的方法单调,传统的“立法”管理与互联 网高速发展、自由的特性之间存在一定的冲突。如何保障互联网 信息的真实可靠,已成为各国政府迫切要解决的问题之一。 2 目前的网络信息监管,无论在法制建设上,还是在技术解决方案 上,还仅限于网络安全与防止有害于人类文明的信息传播这两大 华中科技大学硕士学位论文 方面。而在剔除虚假信息,保障网络信息质量方面还有很大的漏 洞。 3 现已制定的法规在实施中还存在很大的技术障碍。网络的无国界 性造成对不同社会意识形态之间的价值冲突,最终使得网络信息 管理的具体标准趋于复杂化。在其上产生的法律纠纷跨地区、跨 行业,具有民事、经济、刑事犯罪和侵犯产权等多重性质的特征, 单一管理部门执法困难重重。 4 s d a 拥有的数据库资源分数,各数据库接口又不统一,对日后资源 共享造成很大困难。这一问题的解决需调用大量的专业技术人员 共同协作,今后的维护工作也十分复杂,这将是一项长期的工作。 根据对近4 0 个较大的网站的随机抽查,发现有超过8 0 的药品广告 内容不符合药品管理法和药品广告审查标准的要求:所调查的网 站中全部存在着非法发布药品广告行为。网上药品广告发布和内容相当混 乱,迫切需要加以整顿和规范。与西方一些先进国家相比,我国的药品监 管手段落后,法规体系建设和执法队伍建设亟待加强。加上我国的药品生 产企业和药品经营企业队伍庞大、鱼龙混杂,给药品监管工作带来了巨大 的难度。在这种情况下,亟需建立一个快速、高效的技术平台一药品信 息监管系统,在全国范围内开展药品监管执法工作,切实保障人民群众用 药安全有效,完成国务院赋予药品监管部门的神圣职责。 1 4 项目意义 本项目对于药品信息监管的意义可以简要概括如下: 1 药品信息监管由传统的人工管理转变为计算机自动监管,将大大 改善药品监管环境,提高监管执法效率,克服原来手工慢、容易 遗漏等缺点。达到药品监管工作信息化管理的目标: 2 能够应对s d a 政策法规的发展,及时采取监管措施,提高国家对 药品监管的力度,有助于扶持先进,打击假冒伪劣; 华中科技大学硕士学位论文 3 加强各级药品监管部门对信息的采集和利用,推动药品监管法规 体系的建立和监管执法队伍的建设,为进一步加快药品监管信息 化进程奠定坚实的基础。 综上所述,本项系统主要需要完成以下几方面的工作: 1 授权的医药站点及授权的医药广告信息监管。包括授权发布药品 广告的站点管理,发布的广告信息内容的合法性、正确性检查等; 2 i n t e r n e t 上其他有关药品的广告、介绍、以及软广告( 包括图像、 声音等) 信息的内容正确性、完整性检查及管理; 3 药品电子商务的监管。用于对i n t e r n e t 电子商务平台的信息流进 行监控,保障交易双方的公平合法,以及检查网上药品交易的情 况。 1 5 课题主要研究工作 项目中关键的一步就是将过滤后得到的信息结果与数据中心保存的药 品广告信息发布规范进行匹配,按照s d a 的要求,将那些未经审批的、未 经注册的药品广告信息,以及那些夸大疗效、有误导消费者倾向的广告信 息等等各种不符合我们规范的药品广告抽取出来,并按照有关规定给予一 定的处罚。 由于汉语语义丰富,表达形式多样,如果采用传统的精确匹配方法、 模糊串匹配等方法不但判断准确率低,而且容易漏掉许多非法广告信息, 给不法分子以可乘之机。 作为一种依赖语义理解型语言,汉语由于自身语言特点的特殊性,使 得本研究有其自身的特点和困难。 首先,汉语以词作为实体表现各种关系。词与词之间通过语义建立相 应的关联,而不像英语那样具有较强的语法依附性。因此,可直接通过计 算词的语义距离来比较相关性( 2 6 1 ,从而得到词语间的相似度和相关度,进 而得到语句间的相关度和相似度,达到基于语义的信息匹配分类目的。 华中科技大学硕士学位论文 其次,汉语只能以字义和词义为中心表达,很少通过词形和时态等的 变换来帮助表达意义。所以可以通过借鉴机器翻译领域内一些对语句相似 度的研究【2 ”,主要利用句子的表层信息,即组成句子的词的语法、语义信 息,而不需对语句进行语法结构分析,避免考虑句子的整体结构。 最后,汉语中普遍存在的同义词、多义词以及兼类词的现象,使得一 个词语或短语真正含义无法通过孤立地分析得到,而必须将其与其所处的 句子结合起来加以综合分析能得出最后结果。利用基于隐含语义索引的方 法可以增强匹配效率,提高判断准确率,完善系统。 另外,语义分析时的语义组合层次歧义和语义组合关系歧义( 如:下 午学生会讨论这个问题。) 等等都是计算机难以处理的,增加了工作的难 度,也为我们今后的工作提出了更大的挑战。 综上所述,汉语是种依赖语义理解型语言,改善传统信息匹配分类 系统性能的一个有效途径就是让用户根据文本的概念主题或者说语义来进 行信息检索。本研究充分利用汉语是以字义和词义为中心表达这一特点, 从两种不同角度挖掘文本间的内在联系,以不同方式计算词语或文本间的 相似度,最终实现对信息进行基于语义的匹配分类。 第二章基于知网的语义计算匹配分类1 2 s - 3 0 1 ,在计算词语、句子间 相似度时,给出了一种“整体的相似度等于部分相似度加权平均”的策略。 首先将一个整体分解成部分,再将两个整体的各个部分进行组合配对,通 过计算每个组合对的相似度的加权平均得到整体的相似度。通过对概念的 语义表达式反复使用这方法,可以将两个语义表达式的整体相似度分解 成一些义原对的相似度组合。对于两个义原的相似度,则采用根据上下位 关系得到语义距离并进行转换的方法。 第三章提出的基于隐含语义( l s i ) 的k n n 文本分类方法属于l s i 在中 文文本分类方面的应用。该方法既充分利用了向量统计模型在表示方法上 的巨大优势,又弥补了其不考虑文本语义的不足。基本思想是利用文本中 的词与词之间存在的某种潜在语义结构,先抽取能反应文本的关键词,通 过分析关键词之问的关联和潜在的语义概念来进行文本匹配分类。首先对 华中科技大学硕士学位论文 训练文档库建模并进行奇异值分解,然后将待分类文档投影到降秩后的语 义空间中,并计算它和训练文档库中各文档的相似度,最后根据计算结果 匹配分类。 第四章简要介绍系统原型,结合前两章对语义匹配技术的研究,探讨 了该技术在信息监管系统中的实际应用。 华中科技大学硕士学位论文 2 基于知网的语义计算匹配分类 2 1 知网简介 知网( h o w n e t ) 是一个以汉语和英语的词语所代表的概念为描述 对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内 容的常识知识库引1 。它不是一个在线的词汇数据库,也不是一部语义词典。 知网概括了八百多个事件义原,通过义原的组合来标注各种各样 的单纯的或复杂的概念,以及各个概念与概念之间、概念的属性与属性之 涮的关系。相对来蜕,新词虽然层出不穷,但义原的增加却极少。显然, 从理论上说,处理好了这八百多个义原就可以对信息匹配分类了。 2 1 1 知网的结构 在介绍知网的结构之前,首先要理解知网中两个主要的概念: “概念”与“义原”。“概念”是对词汇语义的一种描述。每一个词可以 表达为几个概念。 “概念”是用种“知识表示语言”来描述的,这种“知识表示语言” 所用的“词汇”叫做“义原”。 “义原”是用于描述一个“概念”的最小意义单位。 与一般的语义词典( 如同义词词林,或w o r d n e t ) 不同【”】,知网 并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是 试图用一系列的“义原”来对每个“概念”进行描述。 知网一共采用了15 0 0 义原,这些义原分为以下几个大类: e v e n t l 事件 e n t i t y l 实体 a t t r i b u t e l 属性值 a v a l u e l 属性值 q u a n t i t y f 数量 华中科技大学硕士学位论文 q v a l u e f 数量值 s e c o n d a r y f e a t u r ej 次要特征 s y n t a x l 语法 e v e n t r o l e i 动态角色 e v e n t f e a t u r e s l 动态属性 对于这些义原,把它们归为三组: 第一组,包括第l 到7 类的义原,称之为“基本义原”,用来描述单个 概念的语义特征: 第二组,只包括第8 类义原,称之为“语法义原”,用于描述词语的语 法特征,主要是词性( p a r to fs p e e c h ) ; 第三组,包括第9 和第1 0 类的义原,称之为“关系义原”,用于描述 概念和概念之间的关系( 类似于格语法中的格关系) 。 除了义原以外,知网中还用了一些符号来对概念的语义进行描述, 如表2 1 所示: 华中科技大学硕士学位论文 表2 1 知网知识描述语言申的符号及其含义 多个属性之间,表示“和”的关系 撑表示“与其相关” 表示“是其部分” 表示“可以被该v 处置,或是该v 的受事,对象,领有 $ 物,或者内容” 表示“会。v 或主要用于v ,即施事或工具” 对v 类,它表示它所标记的角色是一种隐性的,几乎在实际语 + 言中不会出现 &表示指向 表示多半是,多半有,很可能的 表示可以做“v ”的空间或时间 表示可以是“n ”的材料,如对于布匹,我们标以“? 衣服”表 o 示布匹可以是“衣服”的材料 ( 1 ) 对于v 类,置于【】中的是该类v 所有的“必备角色”。 如对于“购买”类,一旦它发生了,必然会在实际上有如下角 )色参与:施事,占有物,来源,工具。尽管在多数情况下,一 个句子并不把全部的角色都交代出来 ( 2 ) 表示动态角色。如介词的定义 ( )置于其中的应该是一个词表记,例如,( c h i n a 国) 表示不存在,或没有,或不能 表示菜属性为一种敏感的属性,例如:“味道”对于“食物”, t “高度”对于“山脉”,“温度”对于“天象”等 f 】标识概念的共性属性 把这些符号又分为几类,一类是用来表示语义描述式之间的逻辑关系, 包括以下几个符号:,n ,另一类用来表示概念之间的关系,包括以下几 个符号: 撑$ + + & ? ! ,第三类包括几个无法归入以上两类的特殊符 1 4 华中科技大学硕士学位论文 号: ) ( ) 】。 可以看到,概念之间的关系有两种表示方式:一种是用“关系义原” 柬表示,一种是用表示概念关系的符号来表示。前者类似于一种格关系, 后者大部分是一种格关系的“反关系”,例如“$ ”就可以理解为“旌事、 对象、领有、内容”的反关系,也就是说,该词可以充当另一个词的“旋 事、对象、领有、内容”。 一方面,义原作为描述概念的最基本单位;另一方面,义原之间又存 在复杂的关系。在知网中,一共描述了义原之间的8 种关系:上下位 关系、同义关系、反义关系、对义关系、属性宿主关系、部件整体关系、 材料成品关系、事件角色关系。可以看出,义原之间组成的是一个复杂 的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还 是的上下位关系。根据义原的上下位关系,所有的“基本义原”组成了一 个义原层次体系,如图2 1 所示。这个义原层次体系是一个树状结构,这 也是进行语义相似度计算的基础。 - e n t i t y l 实体 卜t h i n g 】j 物 卜p h y s i c a l 物质 卜a n i m a t e l 生物 卜a n i m a l h u m a n 动物 - h u m a n j i l h u m a n i z e d l 拟人 l a n i m a l l 兽 卜b e a s t l 走兽 图2 1树状的义原层次结构 从表面上看,其他的语义词典,如同义词词林和w o r d n e t ,也有 华中科技大学硕士学位论文 一个树状的概念层次体系,好像知网和它们很相似,但实际上有着本 质的不同。在同义词词林和w o r d n e t 种,概念就是描写词义的最小单 位,所以,每一个概念都是这个概念层次体系中的一个结点。而在知网 中,每一个概念是通过一组义原来表示的,概念本身并不是义原层次体系 中的一个结点,义原才是这个层次体系中的一个结点。而且,一个概念并 不是简单的描述为一个义原的集合,而是要描述为使用某种专门的“知识 描述语言”来表达的一个语义表达式。也就是说,在描述一个概念的多个 义原中,每个义原所起到的作用是不同的,这就给相似度计算带来了很大 的困难。下面就对这个描述概念的知识描述语言进行一些考察 2 1 2 知网的知识描述语言 知网对概念的描述是比较复杂的。在知网中,每一个概念用 一个记录来表示,如下所示: n o ;0 1 7 1 4 4 wc = 打 g c = v ec = 网球,牌,秋千,太极,球得很棒 w e = p l a y g e = v e e = d e f = e x e r c i s e l 锻练,s p o r q 体育 其中n o 为概念编号,w c ,g c ,e c 分别是汉语的词语、词性和 例子,w e 、g e 、e e 分别是英语的词语、词性和例子,d e f 是知网对 于该概念的定义,称之为一个语义表达式。其中d e f 是知网的核心。这里 所说的知识描述语言也就是d e f 的描述语言。 在知网的文档中,对知识描述语言做了详尽的介绍。不过,由于 陔文档过于偏重细节,不易从总体上把握。这里,我们结合表2 2 的几个 华中科技大学硕士学位论文 例子,对于这种知识描述语言给出一个简单的概括。 表2 2知网知识描述语言实例 打0 1 7 1 4 4e x e r c is e f 锻练,s p o r t l 体育 男人 0 5 9 3 4 9 h u m a n 】人,f a m i l y i 家,m a l e f 男 a v a l u e i 属性值,c i r c u m s t a n c e si 境况,h a p p y f 高兴0 2 9 5 4 2 福,d e s i r e d f 良 t i m e f 时间。d a y f 日。o c o m e t o w o r l d l 问 生日0 7 2 2 8 0 世,$ c o n g r a t u l a t e 祝贺 写信0 8 9 8 3 4w r i t e i 写,c o n t e n t p r o d u c t = l e t t e r i 信件 p l a c e l 地方,c a p i t a li 国都,p r o p e r n a m e 北京0 0 3 8 1 5 专,( c h i n a i 中国) 爱好者0 0 0 3 6 3 h u m a n l 人,* f o n d o f i 喜欢,# w h i l e h w a y i 消闲 必须0 0 4 9 3 2 m o d a l i t yl 语气 富 0 1 5 2 0 4 n o u n u n i t l 名量,( g r a p e l 葡萄) ,( k e y 钥匙) 从良0 1 6 2 5 l c e a s e 停做,c o n t e n t = ( p r o s t i t u t i o n i 卖淫) s u b t r a c t f削减。p a t i e n t = p r i c ei价 打对折0 1 7 3 1 7 格,c o m m e r c i a ll 商,( r a n g e 幅度= 5 0 ) 儿童基 p a r t i 部件,i n s t i t u t i o n i 机构,p o l i t i c s l 0 2 4 0 8 3 政,# y o u n g l 幼,# f u n d l 资金,( i n s t i t u t i o n l 机 金会 构= u n i 联合固) 从这些例子可以看到,知网 的知识描述语言是比较复杂的。将这种 知识描述语言归纳为以下几条: 1 知网收入的词语主要归为两类,一类是实词,一类是虚词; 2 虚词的描述比较简单,用“ 句法义原 ”或“ 关系义原 ”进行 描述: 3 实词的描述比较复杂,由一系列用逗号隔开的“语义描述式”组 成,这些“语义描述式”又有以下三种形式: 1 7 华中科技大学硕士学位论文 ( 1 )独立义原描述式:用“基本义原”,或者“( 具体词) ”进行 描述: ( 2 )关系义原描述式:用“关系义原;基本义原”或者“关系义 原;( 具体词) ”或者“( 关系义原= 具体词) ”来描述; ( 3 )符号义原描述式:用“关系符号基本义原”或者“关系符 号( 具体词) ”加以描述。 4 在实词的描述中,第一个描述式总是一个基本义原。这也是对该 实词最重要的一个描述式,这个基本义原描述了该实词的最基本 的语义特征。 2 2 词语相似度及其计算的方法 2 2 1 词语相似度 词语相似度是一个主观性相当强的概念。脱离具体的应用去谈论词语 相似度,很难得到一个统一的定义。因为词语之间的关系非常复杂,其相 似或差异之处很难用一个简单的数值来进行度量。从某一角度看非常相似 的词语,从另一个角度看,很可能差异非常大。 不过,在具体的应用中,词语相似度的含义可能就比较明确了。例如, 在基于实例的机器翻译中,词语相似度主要用于衡量文本中词语的可替换 程度;而在信息检索或匹配分类中,相似度更多的要反映文本或者用户查 询在意义上的符合程度。 由于我们的研究主要以信息监察为背景,旨在提高相关信息匹配分类 的准确率,因此词语相似度就是两个词语在不同的上下文中可以互相替换 使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下 文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相 似度就越高,否则相似度就越低。 相似度是一个数值,一般取值范围在 0 ,1 】之间。一个词语与其本身的 语义相似度为l 。如果两个词语在任何上下文中都不可替换,那么其相似 18 华中科技大学硕士学位论文 度为0 。 相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面 面的特点。其中,对词语相似度影响最大的应该是词的语义。 2 2 2 词语相似度与词语距离 度量两个词语关系的另一个重要指标是词语的距离。一般而言,词语 距离是个 0 ,o 。】之间的实数。一个词语与其本身的距离为0 。词语距离与 词语相似度之间有着密切的关系。两个词语的距离越大,其相似度越低; 反之,两个词语的距离越小,其相似度越大。二者之间可以建立一种简单 的对应关系。这种对应关系需要满足以下几个条件: 1 两个词语距离为0 时,其相似度为l : 2 两个词语距离为无穷大时,其相似度为0 ; 3 两个词语的距离越大,其相似度越小( 单调下降) 。 对于两个词语w l 和w 2 ,记其相似度为s i m ( w l ,w 2 ) ,其词语距离为 d i s ( w l ,w 2 ) ,那么可以定义一个满足以上条件的简单的转换关系: 跏( 彤,) 2 面蒜 2 1 ) 其中a 是一个可调节的参数。a 的含义是:当相似度为0 5 时的词语 距离值。 这种转换关系并不是唯一的,这里只是给出了其中的一种可能。 在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词 语的距离,然后再转换成词语的相似度。所以在后面的有些章节,为了方 便我们只谈论词语的距离,而没有提及词语的相似度,其实这二者是可以 互相转换的。 2 2 3 词语相似度与词语相关性 度量两个词语关系的另一个重要指标是词语的相关性。词语相关性反 f 9 华中科技大学硕士学位论文 映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中共现 的可能性来衡量。词语相关性也是一个【0 ,1 】之间的实数。 词语相关性和词语相似性是两个不同的概念。例如“医生”和“疾病” 两个词语,其相似性非常低,而相关性却很高。可以这么认为,词语相似 性反映的是词语之间的聚合特点,而词语相关性反映的是词语之间的组合 特点。 同时,词语相关性和词语相似性又有着密切的联系。如果两个词语非 常相似,那么这两个词语与其他词语的相关性也会非常接近。反之,如果 两个词语与其他词语的相关性特点很接近,那么这两个词一般相似程度也 很高。 2 2 4 词语相似度的计算方法 词语距离有两类常见的计算方法,一种是根据某种世界知识 ( o n t o l o g y ) 来计算,一种利用大规模的语料库进行统计。 根据世界知识( o n t o l o g y ) 计算词语语义距离的方法,一般是利用一 部同义词词典( t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 私人办公室出租合同范本
- 离婚房屋过户子女协议书
- 渝中区恒温配送合同范本
- 材料外加工产品合同范本
- 深井钻机出售合同协议书
- 破产安置协议书模板模板
- 美术班教师聘用合同范本
- 聘用安全协议书合同范本
- 自制水泥砖销售合同范本
- 玩具厂代理加工合同范本
- 厨房6S管理课件
- 2025年全国新高考语文一卷评讲课件(共66张)
- 2025年计算机科学入学考试试题及答案
- 口腔咨询培训课件下载
- 橙色插画风部门纳新活动模板
- 起重作业安全知识考核试题(含答案)
- 2025至2030中国医疗头戴式显示器行业产业运行态势及投资规划深度研究报告
- 提高麻醉后饮食护理知晓率
- 2025年 江苏苏州昆山国创投资集团有限公司第一期招聘考试试卷附答案
- 浙江水利专业高级工程师任职资格考试题及答案
- 《建筑基坑工程监测技术标准》(50497-2019)
评论
0/150
提交评论