(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf_第1页
(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf_第2页
(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf_第3页
(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf_第4页
(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(语言学及应用语言学专业论文)基于语料库的数学定义研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内容摘要 内容摘要 定义研究不仅是术语学的一个重要方面,同时也是词典学的重要研究内容, 在信息大爆炸的今天,术语定义的自动获取也日益受到了中文信息处理领域的关 注。本文选取了一个特定领域的定义数学教材中的定义作为我们的研究对 象。 本文采用基于语料库的方法,以义务教育阶段的中小学数学教材中的定义为 研究对象,结合定量分析和定性研究,对其中的定义从语言学角度和定义自动获 取两个角度进行了探索,研究的主要内容有: 首先,本文在前人研究的基础上,对定义与概念、定义与释义的关系进行了 探讨,指出了定义与释义之间的联系与不同。 其次,从认知和表述手段两个角度,对定义的方式方法进行了分类,并简要 指出了各种分类方法的特点( 优缺点) 。 第三,在基于语料库的基础上,面向定义的自动获取,总结了数学教材中定 义的模式,并将定义模式表示成规则模板,采用正则表达式匹配的方法对数学概 念的定义进行了提取研究。实验证明,该提取方法效果较好,正确率和召回率分 别达到了9 0 0 9 和9 9 0 3 。 第四,对数学概念的定义的用字情况进行了统计,并根据频次和覆盖率将数 学概念的定义用字做了分级,同时对数学术语的用字位置特点进行了研究,这些 研究对于术语提取以及自动分词标注都具有一定的参考价值。 关键词:定义;定义方法;定义提取;用字分析 基于语料库的数学定义研究 a b s t r a c t t h er e s e a r c ho fd e f i n i t i o n si sai m p o r t a n ta s p e c to ft e r m i n o l o g ya n da l s ot a k e s v e r yi m p o r t a n tp a r ti nl e x i c o g r a p h y t o d a y ,a l o n gw i t ht h er a p i dd e v e l o p m e n to f i n f o r m a t i o n ,t h ea u t o m a t e dd e f i n i t i o n se x t r a c i n gt e c h n i q u eh a sb e e np a i da t t e n t i o n m o r ea n dm o r e i nt h i sa r t i c l e ,w ec h o s ed e f i n i t i o n si nap a r t i c u l a ra r c 嬲 m a t h e m a t i c a ld e f i n i t i o n sa so u ro b j e c to fs t u d y t h i sa r t i c a lu s e sc o r p u s - b a s e dr e s e a r c hm e t h o da n dc h o o s e st h em a t h e m 撕e a l d e f i n i t i o n si nm a t ht e x t b o o k so fw h i c ha r eu s e di nc h i n e s ep r i m a r ya n dm i d d l es c h o o l a sr e s e a r c ho b j e c t i na d d i t i o n ,w ec o m b i n et h eq u a n t i t a t i v ea n a l y s i sm e t h o dw i mt h e q u a l i t a t i v ea n a l y s e sm e t h o d ,w h i c hg u i d i n gu st om a k ea na l l r o u n ds t u d ya b o u tt h e m a t h e m a t i c a ld e f i n i t i o n s t h em a i nr e s e a r c hc o n t e n t so ft h i sa r t i c l ea r e : f i r s t ,t h ea r t i c l es u m m a r i z e st h ep r e v i o u sr e s e a r c ha b o u tt h ec o n c e p t i o n so f d e f i n i t i o n sa n dm a k e sad i s c u s s i o na b o u tt h er e l a t i o n s h i po ft h ed e f i n i t i o n s 、 p a r a p h r a s e sa n dc o n c e p t i o n s t h e r e b y ,w ec l a r i f yt h er e l a t e dq u e s t i o n se s p e c i a l l yt h e d i f f e r e n tb e t w e e nd e f i n i t i o na n dp a r a p h r a s e i nt h es e c o n d ,t h ea r t i c l es u m m a r i z e st h ed i s a d v a n t a g e so fp r e v i o u sr e s e a r c ho n m e t h o r d so ft h ed e f i n i t i o n s ,a n dd i v i d e st h ed e f i n i t i o n sm e t h o r d si n t ot w ok i n d sa ta d i f f e r e n ta n g l e o n ea n g l ei st h i n k i n g ,t h eo t h e ri ss u p p l e m e n t a r ym e a n s b e s i d e s , w ed i s c u s s e sb r i e f l ya b o u tt h ec h a r a c t e r i s t i c so fd i f f e r e n tc l a s s i f i c a t i o n s t 1 1 i 1 d ,t h ea r t i c l es u m m a r i z e sm o d e so fm a t h e m a t i c a ld e f i n i t i o nb a s e do nt h e c o r p u s a n de x p r e s s e dt h em o d e sa sr e g u l a t i o nt e m p l a t e s ,t h e ne x t r a c tt h e m a t h e m a t i c a ld e f i n i t i o nf r o mt h ec o r p u sb a s e do nt h em e t h o do fr e g u l a re x p e r s s i o n m a t c h i n g t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e dm e t h o di se f f i c i e n t , b o t h r e c a l lr a t i oa n dp r e c i s i o nr a t i oa r em e a s u r eu p a tl a s t ,w em a k eas t a t i s t i c st ot h eu s e di nm a t h e m a t i c a ld e f i n i t i o n ,a c c o r d i n gt h e f r e q u e n c ya n dc o v e r a g er a t e ,w ec l a s s i f yt h ec h a r a c t e r si n t ot h r e el e v e l s ,a n dm a k e a l l a n a l y s i st oe a c hl e v e l b e s i d e s ,w ea l s od oar e s e a r c ht ot h ec h a r a c t e r i s t i c so fu s i n g h c h a r a c t e r so fm a t h e m a t i c a lt e r m s ,i ti sp r o v i d e dw i ms o m er e f e r e n c ev a l u et ot h e t e r m e x t r a c t i n ga n da u t o m a t i cw o r ds e g m e n t a t i o n k e y w o r d s :d e f i n i t i o n s ;m e t h o do f d e f i n i t i o n s ;d e f i n i t i o n s e x t r a c t i n g ; a n a l y s i so fu s i n gc h a r a c t e r s ; i i i 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成 果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均 在文中以适当方式明确标明,并符合法律规范和厦门大学研究生学 术活动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的 资助,在() 实验室完成。( 请在以上括号内填写课 题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 声明人( 签名) : 年月日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书 馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国 博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和 摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 () 2 不保密,适用上述授权。 ( 请在以上相应括号内打“ 或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人( 签名) : 年月 日 第一章绪论 第一章绪论 第一节研究的起因 早在古希腊、罗马时代,哲学领域的学者们就开始研究各种哲学概念、自然 科学概念、人文科学概念,这可以看做是术语定义研究的雏形。1 9 世纪末2 0 世 纪初,一些西方的译著开始逐渐被介绍到中国,在翻译的过程中,遇到了术语的 译名问题,这时,术语的制定和规范化开始被人们所重视。随着知识的加速膨胀 和科技的发展,各领域的术语越来越多的出现,人们开始逐步认识到术语研究的 重要性。如何发现新的术语、如何给术语下定义、如何对现有的术语进行审定和 规范,成为语言学界、术语学界、中文信息处理学界普遍关心的问题。于是,关 于术语词典编纂、术语标准化、术语数据库、术语定义的研究开始展开,一门新 的研究领域术语学随之产生。 现代术语学的重要研究对象之一就是术语的定义。中国术语学的创始之作一 一冯志伟先生的现代术语学引论中,就专门列出一章介绍术语的定义、定义 的分类等知识,并指出了定义研究的意义:“术语的概念是靠定义来揭示的,定 义是对某个知识领域的术语进行解释和阐述。定义的科学性和逻辑性直接影响到 人们对于术语的理解,由此可见定义研究的重要性。近年来,关于定义的研 究迅速展开,定义的本体研究、定义的系统性研究、定义的自动提取研究、定义 的生成研究、法律定义研究、经济学定义研究、哲学定义研究等等,都取得 了较大的成绩。 在数学教育领域,数学定义研究历来为广大数学教育工作者所重视。因为数学 知识集中体现在数学术语当中,这些术语是人类数学研究的成果,是数学知识在语 言中的结晶。如何清晰的、简洁的、精确的阐释数学术语所包含的概念,使学生更 容易的掌握数学知识,就涉及到数学定义各方面的研究。因此,数学定义的定义方 法研究、定义特点研究、定义的认知心理学研究是数学定义研究的主要内容。 冯志伟现代术语学引论叫北京:语文出版社,1 9 9 7 8 :3 1 基于语料库的数学定义研究 本文就是在此背景下,综合吸收利用当前术语定义研究的相关成果,采用基 于语料库的方法,结合定量和定性分析,面向实际应用,分别从数学定义的定义 方法、定义提取模式、用字情况等各个角度,对现行义务教育阶段数学教材中出 现的数学定义进行了较为详细的研究,期望研究成果能够在研究定义的提取、了 解数学定义的真实存在状况以及数学定义教学等方面提供一定的参考作用。 第二节相关研究综述 1 、术语学领域的定义研究: 定义的研究一直是术语学的研究的重要内容。术语学是研究全民语言词汇中 的专业术语规律的一门语言学科,主要研究术语的概念和概念系统、术语的定义、 术语的标准化、术语数据库的建设、术语的语法和语义结构等。 在现代术语学产生之初,现代术语学四个学派之一的德国一奥地利学派就主 张,研究术语首先要划分概念,然后才能划分概念的名称,概念系统是术语的基 础。因此,术语学的研究应该先从概念出发,即先从概念的定义开始,而不是先 从词语开始。“术语学应该研究概念的本质、概念的产生、概念的特性、概念之 间的相互关系、概念系统的结构、概念的描述和定义等等 ,并认为语言学只对 语言进行描写,而术语学不仅要对语言进行描写,而且还要对语言进行规定。该 学派认为定义在术语学研究中占有特殊重要的地位,为了保证术语定义的一致性, 他们建立了一套严格的定义方法。德国一奥地利学派的这些观点是有关定义研究 的最早论述,他们肯定了定义研究的重要性,强调对定义方法进行深入研究。 冯志伟在现代术语学引论一书中,介绍了术语下定义的一般原则和方法, 阐述了内涵定义、外延定义、上下文定义、定义的规则、定义的系统性、定义的 辅助手段等问题,是国内最早的关于定义的研究。另外,他也对术语形成的经济 律做了深入的研究,指出了术语系统的经济指数,单词的术语构成,并把术语定 冯志伟现代术语学引论 m 北京:语文出版社,1 9 9 7 8 :6 2 第一章绪论 义分为了六类,分别为:定义中的种差部分揭示了被定义事物本质特点的“实质 性定义 ;定义中的种差部分表示被定义事物发生、来源和形成情况的“发生性 定义 ;定义中的种差部分表示事物所起的作用的“功能性定义 ;定义中的种差 部分表示事物发生的原因的“因果性定义 ;定义中的种差部分表示事物所在的 位置的“空间性定义:定义中的种差部分表示事物的成分、结构等的“结构性 定义 。冯志伟先生关于定义的研究具有开创性的指导意义,但作为国内定义研 究的开创者,他对定义的研究是从宏观角度进行论述的,没有更好对定义进行详 细深入的分析。 刘青对定义方法以及下定义应该遵循的基本原则作了研究,认为“把术语学 作为一个体系来研究,术语仅有定名仍不完备,还必须有准确的定义加以阐释 。他归纳了科技术语定义的几种形式,包括属加种差的方法、特殊方式揭示术 语内涵的方法、数字式定义方法,并指出了定义的基本要求,包括概念准确、紧 跟时代、反映本质、资料可靠;他还提出了拟定定义过程中应该注意的问题,包 括定义应当确定所界定概念中最基本的特性、体现出概念在概念体系中的位置、 更清楚的表明此术语的实际意义以及定义的理想结构由单句或短语构成、定义应 当采用属+ 种差形式等1 1 点原则。他的研究对于定义的拟定、术语定义的标准化 起到了很大的指导作用。同冯志伟先生一样,他的研究主要面向术语标准化的宏 观角度,并没有对定义进行微观细致的研究。 2 、中文信息处理领域的研究 信息时代新的概念、术语层出不穷,因此,发现和提取术语以及术语的定义 显得非常重要,国内的学者对定义的计算机自动提取进行了研究。 中科院自动化所张艳等人于2 0 0 3 年做了汉语术语定义的结构分析和提取方 面的工作 。他们从科技期刊的语料中选出大量定义句,面向自动提取,对这些 定义的定义模式进行人工总结,并且对语料进行了分词和词性标注处理,然后应 用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型结构,总结出 刘青关于科技术语定义的基本问题阴术语学研究2 0 0 4 ( 3 ) :1 3 1 4 张艳宗成庆徐波汉语术语定义的结构分析和提取明中文信息学报2 0 0 3 ,1 7 ( 6 ) :9 - 1 6 3 基于语料库的数学定义研究 术语定义的结构特点,自动对其他语料库中的定义进行了提取,并且借助语义、 句法等规则进行了定义的生成研究。 许勇、苟恩东等人,在贾爱平研究的基础上,利用计算机技术,自动从网上 直接获取原始文本,利用定义模式( 语言学规则) 对定义进行了提取。张榕在 前人研究的基础上,采用规则和统计相结合的提取方法,从真实文本中提取定义, 并且她提出了“词语的定义隶属度 和“句子的定义隶属度 两个概念,由术语 定义的匹配规则和排除规则筛选出候选定义,通过计算句子的定义隶属度以及向 量空间模型的相似度,给出了每个定义的权重( 准确度) ,根据权重从候选定义 中选取最为准确的定义。除此之外,她还利用知网进行义原、义项、词语以 及句子的相似度计算,实现了术语定义的按领域聚类 。张榕的研究突破了单纯 基于规则的定义提取技术,结合了统计方法,大大提高了抽取准确率,把定义自 动提取技术提高到了一个新层次。但是,我们也可以看出,她的统计方法是基于 规则将定义提取出来之后才使用的,目的是对提取结果应用统计方法来提高准确 率,而不是在提取过程中将规则和统计的方法相结合然后输出提取结果,因此, 从这一点上来说,她的定义提取技术仍然是基于规则的。 陆勇( 2 0 0 5 ) 在面向信息检索的汉语同义词自动识别研究中涉及到了释义信 息的定义模式 。在他的研究中,把词典释义作为知识获取的语料,根据词典中 的释义,自动进行同义词的提取和识别。他的研究采用的语料库是包含有3 8 0 0 多个经济词汇的注释语料,该语料库中的主要词汇注释来自于中国大百科全 书经济卷和当代金融词典。他提出了四种定义模式以及这四种模式的主 要特征词汇:一是同义词式定义,用一个与被定义项具有相同意义的另外一个词 来进行词汇的定义;二是反义词式定义,就是指词汇的定义项是由与被定义项具 有相反意义的内涵来说明词汇的含义;第三种是列举式定义,即通过列举被定义 项所表达的概念,从而显示被定义词语的意义的方法,根据其列举的完全与否, 又可以分为:枚举式和穷举式;第四种是混合式定义模式,这类模式主要是上述 模式的综合。 许勇、苟恩东基于互连网的术语定义获取系统明中文信息学报2 0 0 4 ( 4 ) :2 5 张榕术语定义抽取一聚类与术语识别研究【d 】北京语言大学博士论文,2 0 0 6 6 陆勇,侯汉清用于信息检索的同义词自动识别及其进展阴南京农业大学学报( 社会科学版) ,2 0 0 4 ,( 0 3 ) 4 第一章绪论 3 、数学教学界关于数学定义的研究 李树臣( 2 0 0 0 ) 对初中数学教材中概念的定义方式进行了研究,提出了属+ 种差、发生性定义和派生定义、关系定义、外延定义、否定式定义、描述性定义 和公理定义、形式定义等7 种定义方式。但是他的分类没有依据统一的标准, 同一个定义可以归到其中的两类甚至三类当中。 辛颖( 2 0 0 3 ) 认为,数学概念构成了数学知识的基础。要搞好概念的教与学, 必须了解概念的定义方式及其定义规则。并把数学概念的定义方式归纳为五种, 分别是:提示概念内涵、揭示概念外延、相关概念、否形式定义、序列性定义, 除此之外还有公理定义方式和不定义的概念定义方式 。 以上二人对定义方法的研究大多属于经验性的总结,缺乏理论指导,因此他 们的分类没有形成系统。还有很多研究者探讨了数学定义在教学中的重要性,例 如:刘勋( 2 0 0 7 ) 不可忽视的数学概念学习、陆海泉( 2 0 0 8 ) 把握概念是 学好数学的关键等等,这些研究多是根据自己的教学经验进行散论性质的探讨, 普遍缺乏理论支持。 4 、其他领域的定义的研究 在各个学科领域,定义都是研究的重要内容,所以很多学者都对自己领域的 定义进行了研究。例如,李鸥对经济概念及其定义的方法进行了研究,缪四平分 析了法律定义的特点与作用、法律定义的基本类型,并重点考察了法律定义不同 于普通定义的特殊定义形式 。孔易人的评哲学教材中的三种定义模式对哲 学教材中的几种错误定义进行了分析。 综观以上各个研究领域的定义研究,我们可以看出,术语学领域的定义研究 注重理论,多停留在宏观层面,探讨定义的一般问题,研究没有深入。中文信息 处理领域的研究基本上是面向工程,不重视定义的本体研究,定义模式和方法的 李树臣论数学概念的分类形式【j 1 山东教育2 0 0 7 ( 1 7 ) :2 6 2 9 辛颍数学概念的定义方式阴安徽电子信息职业技术学院学报2 0 0 3 ( 1 ) :1 2 1 3 缪四平法律定义研究 j 华东政法学院学报,2 0 0 3 ,( 3 ) :4 8 5 1 孙晓天近年来我国中小学数学教材建设述要 j 数学教育学报,2 0 0 8 ,( 4 ) 5 基于语料库的数学定义研究 研究都是服务于他们的软件系统设计。其他领域的研究大都缺乏系统性,一般根 据个人经验进行总结。总体来看,对定义的系统的、量化的分析研究尚未开展。 第三节研究对象、研究方法、研究意义 1 、本文的研究对象 2 0 0 1 年全日制义务教育数学课程标准( 实验) 、普通高中数学课程标准 ( 实验) 施行以来,各种版本的数学教材层出不穷,“迄今已有小学6 套,中学 9 套,高中6 套共2 l 套根据标准要求编写的新数学教材 ,分属1 3 家出 版社出版。尽管数量众多,但是从小学到高中全系列出版的并不多。人民教育出 版社版和北京师范大学出版社出版的中小学数学教材种类齐全,使用范围较广, 可以代表了国内数学教材的一般情况。本文的研究对象是这两套教材中出现的数 学术语的定义,下文我们简称它们为数学定义。这些数学定义我们利用自动提取 技术提取出来,并对提取结果进行人工校对后,将结果导入数据库,然后对这些 原始语料进行了多个方面的统计分析,对数学定义的各种属性进行了标注,从而 形成了一个数学定义语料库。 对数学教材语言的研究,可以促进数学教育和教学,对数学定义的研究,对 于教材的规范和内容的科学性都有意义。目前,学科语言的研究正在受到各方的 关注。如李宇明先生在1 9 8 6 年就对数学教材语言中的数量词语和代词的语法特 点、比较旬的类型、祈使句和疑问句等做了深入的分析,总结出了数学语言不同 于自然语言的一些特点,提出了很多新颖独到的见解。本文是从语言学和定义 自动获取的角度对数学定义进行的研究,不涉及数学定义本身的知识内涵。 2 、本文的研究方法 2 1 基于语料库的分析方法 基于语料库的研究方法是理性主义与经验主义的结合,语料库与计算机技术 李宇明数学语言初见 j 语文教学与研究,1 9 8 6 ( 3 - 6 ) 6 第一章绪论 结合已经成为语言研究现代化的重要手段,其特点是定量调查+ 定性的分析和解 释,这是理性主义和经验主义在语料库语言学上的统一,是当代语言学研究的特 色。语料库方法的运用及其提供的数据,使语言研究建立在更可靠的量化基础上, 使研究者一定程度上避免对某些语言现象主观臆测,使研究结论更为客观可信。 定量研究的方法已经成为语言研究的重要方法,“语言研究中的定量方法就是通 过对语料进行数的反映,来达到认识语言规律和特点的作法。” 2 2 定量分析与定性研究相结合的方法 “定量分析,当然是在理论指导下的,而更重要的是在定量分析之后的理论 升华,这是创新的核心内容。 圆而且“定性取舍要有量的依据,定性结果要有量 的限制 。因此,我们在本研究中力图将定量分析和定性分析这两种方法结合 起来,定量分析是手段,定性分析是目的,在相关的词汇学、术语学理论指导下 选取数学定义进行分析,在分析中,通过数据统计对研究对象进行量化,然后通 过分析数据得出结论。遵循“定性定量定性”的研究方法,在定性的指 导下,进行定量验证,然后再通过定性分析进行更高一层的总结。定量分析可以 通过相关数据的比较,更直观、更科学、更准确的了解数学定义的情况,增强研 究结果的效度( v a l i d i t y ) 和信度( r e l i a b i l i t y ) ,而定性研究则通过对定量分析 之后的理论进行归纳和升华,从而发现规律,指导实践。 3 、本文的研究意义 本文根据术语学原理等相关理论,从数学教材中的定义为研究素材,对定义 进行多方面的统计描述,将定义的真实面貌呈现出来。其意义表现在以下两个方 面: l 、数学教学方面的意义: 数学定义在数学教育中的重要性前文已经说过,此处不再赘述,然而对数学 教材中的定义的微观分析研究尚不多见,因此,本文针对现行的九年义务教育新 课程标准数学教科书中用到的数学定义,通过穷尽性的量化分析,对数学定义的 苏新春汉语词汇计量研究 m ,厦门,厦门大学出版社2 0 0 2 7 :1 张志毅,张庆云汉语词汇学的创新问题e a 苏新春,苏宝荣词汇学理论与实践 c 北京:商务印书 馆,2 0 0 4 安华林现代汉语释义基元词研究 m 北京:中国社会科学出版社,2 0 0 5 :i i 7 基于语料库的数学定义研究 定义方法、定义模式、用字情况等多方面的研究探索,将有助于我们了解数学定 义的概貌和特点,同时,这些数据对于数学教学以及数学教材建设也都具有一定 的参考作用。另外,本文的研究方法对丰富术语学尤其是定义的研究方法,深化 定义研究的层次,也会起到一定的帮助作用。 2 、中文信息处理方面的意义: 面向信息处理的定义研究已经成为中文信息处理领域的热门方向。当前的术 语词典编写、术语数据库建设及其更新、术语定义标准化、自动问答系统、词典 编纂等多个领域,都需要定义的自动提取和生成技术作为重要辅助手段。本文面 向定义提取,对数学教材中的定义模式的研究,以及对数学术语用字用词特点的 分析,都可以为数学领域的术语以及定义自动提取提供统计数据,从而提高当前 基于统计的定义自动提取方法的效率,完善定义提取的手段。 8 第二章定义以及相关概念的分析 第二章定义以及相关概念的分析 第一节定义 对于定义的界定,相关研究较少,以下是三种不同的界定方法: 1 、描述一个概念并使其区别于同一概念体系内其他概念的表述。( g b 术语 工作:计算机应用:数据类目) 2 、对于一种事物的本质特征或一个概念的内涵与外延的确切而简要的说明。 ( 现代汉语词典) 3 、用一个已知概念来对一个概念作综合的语言描述,就是定义。( 现代 术语学引论) 从结构上说,一个定义可以分为被定义项( d e f i n i e n d u m ) 和定义项 ( d e f i n i e n s ) 两部分。定义项就是被定义的概念,它一般又可分为属概念( g e n u s ) 和种差( d i s t i n c t i v ec h a r a c t e r i s t i c s ) 两部分圆。冯志伟先生用了如下的图来 表示: 例如,在“质数就是只能被1 和它本身除尽的数这个定义中,“质数 是 被定义项,“只能被l 和它本身除尽的数”是定义项,它由属概念“数加上种 差“只能被1 和它本身除尽的 两部分构成。 上面列举的几个定义的界定基本上是从定义与概念的关系角度来阐述的,由 此可以看出定义和概念之间的密切关系。为了更好的理解定义,下面我们对定义、 概念和术语三者之间的关系来进一步阐述。 中国社会科学院语言研究所词典编辑室 m 北京:商务印书馆,2 0 0 5 冯志伟现代术语学引论 m 北京:语文出版社,1 9 9 7 8 :3 6 9 基于语料库的数学定义研究 第二节定义与相关概念的关系 1 、定义、概念、术语 概念、定义、术语是术语研究工作重要内容,三个环节是相互依存的整体。 概念是人类思维的基本形式。“人们在认识事物的过程中,通过观察、分析、推 理等思维方式,把客观事物的本质属性加以抽象概括而形成概念。术语是在某一 特定专业领域内表达一个特定科学概念的语词形式,术语依附概念产生与消失, 概念是术语生成的基础,术语是概念的载体。定义则是术语和概念之间的桥梁, 定义的任务是表述概念,用最简练的文字科学地说明概念的内涵 。 2 、定义与释义 定义与释义是不是同一个概念? 这个问题,尚没有学者进行过研究。二者在 现代汉语词典中的解释分别是: 【定义】对于一种事物的本质特征或一个概念的内涵与外延的确切而简要 的说明。 【释义】解释词义或文义。 对比这两个概念,二者都是对事物的解释说明,但可以解释的对象是不同的, 释义除了对词进行解释外,还可以指对“文 进行释义,而定义解释的对象是术 语,术语一般是词或词组。从这里可以看出,释义比定义解释的对象范围要更广 泛。下面我们通过词典学和词汇语义学对于对释义方式的研究进行一些考证。 论及释义方式的主要词典学著作主要有:兹古斯塔主编的词典学概论、 胡明扬等编的词典学概论、黄建华著的词典论、章宜华著的语义学与 词典释义,我们选取了两个代表性的研究。胡明扬等通过对尔雅、新华 字典的释义的考察,认为释义方式有两大类,大类之下又可再分。如下图所 示: 刘青关于科技术语定义的一般问题明术语学研究,2 0 0 4 6 ( 3 ) :5 8 胡明扬词典学概论 m 北京:中国人民大学出版社,1 9 8 2 :6 9 1 0 第二章定义以及相关概念的分析 释 义 方 式 f 同义语词对释 j词语交叉对释 、 反义对释 l 限制性同义对释 厂逻辑定义释义 l 说明定义释义 黄建华通过对现代汉语词典的释义进行考察,认为释义方式可分为两大 类,大类之下又可层层分出小类。具体分法如下图: 释 义 方 式 m ,北京:北京大学出版社2 0 0 2 :2 0 6 1 5 基于语料库的数学定义研究 差与属概念结合而成的复合概念,即为定义项。被定义项与定义项通过“叫做” “就是 这类词连接,便形成一个完整的定义表达式。实际上,运用属加种差的方 法下定义的过程,也是对概念进行概括与限制的运作过程,即先对被定义项进行 一次概括,确立它的属概念,然后再对这一属概念进行限制,直到将其限制到与 被定义项外延相等为止。 根据种差的不同,我们可以把数学定义分为以下几种: 1 ) 实质性定义 定义种差部分揭示被定义项的本质属性,例如: 分母中含有未知数的方程叫做分式方程( f r a c t i o n a l e q u a t i o n ) 。 两组对边分别平行的四边形叫做平行四边形( p a r a l e ll o g r a m ) 。 无限不循环小数叫做无理数( i r r a ti o n a ln u m b e r ) 。 2 ) 关系定义 这类定义通过阐述被定义概念内各因素之间的关系,来揭示种差。由于数学 定义大多涉及到量与量、物体与物体之间的关系,因此这类定义较多,例如: 满h a 2q - b = c 2 的三个正整数,称为勾股数 极差是指一组数据中最大数据与最小数据的差 3 ) 发生性定义 发生定义是一种常见的特殊的属加种差定义方式,它是用一类事物产生或形 成过程作为种差所作出的定义,即没有直接说明种差,而是把其放在一个动态的 过程中。也就是说,发生性定义是以概念的发生或形成的本质属性作为种差的定 义。例如: 由不在同一直线上的三条线段首尾顺次相接所组成的图形叫做三角 形( t r i a n g l e ) 连接多边形不相邻的两个顶点的线段叫做多边形的对角线 1 6 第三章数学定义的定义方法 1 2 外延定义的定义方法 外延定义一般列出被定义概念的外延对象,通过描述概念所包含的数量或者 范围,使人获得对概念的某种理解或认识。外延定义一般通过列举的方法,因此 往往带有“统称 、“总称 之类的标志词。在数学定义中,当一些概念用属+ 种差的方法阐述会非常复杂以致难于理解时,一般就会采用这种定义方法。外延 定义方法根据其列举的完全性与否又可分为枚举式定义方法和穷举式定义方法。 1 ) 枚举式定义 此类定义无法给出被定义概念的所有个体,只能给出有代表性的一部分,例 如: 3 像5 ,1 2 ,5 ,o 0 5 ,这样的数叫做正数( p o s it i v e n u m b e r ) ,它们都比o 大。 像o ,1 ,2 ,3 ,4 ,5 ,6 ,这样的数是自然数。 2 ) 穷举式定义 通过列举被定义概念的全部个体或范围来展示外延。 正整数、o 、负整数统称整数( i n t e g e r ) ,正分数和负分数统称分 有理数和无理数统称实数( r e a ln u m b e r ) 2 、表述手段角度的定义方法 根据下定义时采用的辅助手段的不同,我们把数学定义的定义方法分为以下 几类: 1 ) 纯文字叙述式。 1 7 基于语料库的数学定义研究 这类定义不借助其他辅助形式,完全用语言叙述来说明概念,我们见到的大 多数定义都是这类,例如: 把等式一边的某项变号后移到另一边,叫做移项。 把单位“1 ”平均分成若干份,表示其中一份的数叫分数单位。 2 ) 借助图表式。 数学定义中有些概念如果仅仅用语言叙述的方法,往往不能简洁、直观的表 达概念,而借助图形或者图表的形式则可以化抽象为具体,例如: 如图4 - 8 ,点m 把线段a b 分成相等的两条线段a m 与蹦,点m 叫做 线段a b 的中点( m i d p o i n t ) 。 如图2 - 7 ,具有么b m n 与么c n m 这样位置关系的角称为内错角 am b a c b d 3 ) 借助数学表达式式。 有些数学定义描述的不是个体,而是具有某些共同特征的一类事物,而这类 第三章数学定义的定义方法 事物的共同特征往往比较复杂,因此这类定义就通过借助数学表达式来概括这些 共同特征。例如: 形如a 2 + 2 a b + b 2 或a 2 2 a b + b 2 的式子称为完全平方式。 一般地,形如y = a x 2 + b x + c ( a ,b ,c 是常数,a 0 ) 的函数叫做x 的二次函数( q u a d r a ti cf u n c ti o n ) 。 4 ) 形象描述式。 通过日常生活中的自然现象来阐述概念的定义,把抽象的概念具体化,例如: 探照灯、手电筒、路灯和台灯的光线可以看成是从一点发出的,像 这样的光线所形成的投影称为中心投影( c e n t r a l p r o j e c ti o n ) 物体在光线的照射下,会在地面或墙壁上留下它的影子,这就是投 影( p r o j e c t i o n ) 现象。 5 ) 实例说明。 分为通过描述具体事件的的过程说明定义和采用枚举的方式说明定义,这种 定义大多是临时定义,不属于严格意义上的定义。例如: 当我们抽取一张卡片时,1 - 9 的某个数字会随机地出现,大量重复 实验就会产生一串数,这样的一串数称为“随机数” 像上面那祥,通过配成完全平方形式来解一元二次方程的方法,叫 做配方法。 6 ,1 2 ,1 8 ,是3 和2 公有的倍数,叫做它们的公倍数。 与其他领域的定义相比,数学定义借助纯文字叙述之外的其他辅助手段表示 定义的数量很多,为2 1 5 条,占总数( 3 8 9 ) 的5 5 2 7 。究其原因,主要是因为 数学概念本身就是从现实世界的具体事物中抽象出来的,理解起来具有较大的难 1 9 基于语料库的数学定义研究 度,为了让人更容易理解,介绍这些概念时就需要还原抽象为具体,加上我们 所研究的对象是中小学的数学定义,如果单纯依靠文字叙述来给数学概念下定 义,必然会用到较为复杂的字、词语、句型,这势必加重学生的理解和学习负 担,不利于数学的学习。采用各类辅助形式,可以使数学定义更加简洁、直观, 易于理解。 第四章数学定义的提取研究 第四章数学定义的提取研究 第一节语料来源及定义提取的基本方法 1 、语料来源 本文的语料从国家语言资源监测中心教育教材分中心的中小学数学教材语 料库中进行抽取,该语料库收录了国内义务教育阶段( 中小学) 现行的两套数学 教材,分别由北京师范大学和人民教育出版社出版。某图书网站对广东、山东、 海南、宁夏四省数学教科书版本使用情况进行的的调查显示,使用人民教育出版 社版本( 简称人教版) 数学教材的占六成,北京师范大学出版社版( 简称北师版) 数学教材接近三成,其他版本占一成。由这一数据,我们可以看出,无论是从 权威性还是使用范围,这两套教材都可以代表了国内数学教材的总体状况。 该语料库对进行了多个层次的加工,含有原文语料库、分词语料库等多个子 库。本文的数学定义就是由原文语料库中利用计算机自动抽取后,经过人工校对, 形成了一个数学定义语料库。在该数学定义语料库的基础上进行各种统计分析和 研究。 2 、定义抽取的基本方法 本文综述中曾经提到,国内已经有学者对术语定义的自动抽取进行了专门研 究。北京语言文化大学的贾爱平、王强军、张榕等人均进行了定义提取方法的研 究。 贾爱平( 2 0 0 2 ) 最早对科技文献中术语定义的语言模式进行了研究。她通过 对计算机应用、计算机研究与发展、计算机学报、计算机工程与科学 等四种科技刊物的2 0 0 0 年光盘杂志中的1 0 0 篇文章,共7 5 3 ,8 2 4 字的原始语料 h 廿p :,、帆fl o o o b o o k c o l l l p 岫d l l c l a s l 羽呐c t i d = 1 5 9 5 8 2 2 l 基于语料库的数学定义研究 的考察与分析,总结了一些术语定义的语言模式。例如,利用规则: 句首号+ 被定义项+ ( 逗号) + 是i 是指l 指的是i 就是i 即+ 词语串+ 句号 就可以提取出 软加密即用纯软件方法来实现软件的加密,主要有密码方式、软件 自校验方式和钥匙盘方式。 这一定义,她还对关键词出现但不是定义的地方进行了分析,获得了一些有效的排 除模式,并对这些语言模式进行了封闭测试和开放测试,测试结果非常理想。尽管 贾爱平没有进行计算机自动提取的尝试,但是,她对术语定义的语言模式进行的研 究,为后来的定义自动提取研究开辟了一条道路,这就是基于语言学规则的术语定 义提取方法,可以说,她的研究具有开创性意义。 中科院自动化所张艳、宗成波( 2 0 0 3 ) 等人,对汉语术语定义的结构分析和 提取进行了研究。他们选取了计算机工程与科学等四种科技期刊的1 0 0 篇文 章,7 5 3 ,8 2 4 字的语料,对电子学和计算机领域的语料进行了分词和词性标注 处理,然后应用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型 结构,总结出术语定义的结构特点,自动提取定义的模板,再利用模板提取定义, 并结合语义,利用知网等资源进行了定义生成的尝试。 许勇、苟恩东( 2 0 0 4 ) 等人,在贾爱平研究的基础上,利用计算机技术,自 动从网上直接获取原始文本,利用定义模式( 语言学规则) 对定义进行提取。网 络的传播速度是很快的,有很多的新词语,新现象最早也是通过网络向外传播的。 如果能够从网络上直接获取术语的定义,这对于科学技术的普及是有很大帮助 的。本文的研究工作,尤其是提取模式的确定,借鉴了贾爱平、许勇等人的研究 成果,采取了基于定义模式的模板匹配方法。 张榕( 2 0 0 6 ) 在前人研究的基础上,采用规则和统计相结合的提取方法,从 贾爱平科技文献中术语定义的语言模式研究【m 】北京语言文化大学硕士论文,2 0 0 2 第四章数学定义的提取研究 真实文本中提取定义,她提出了“词语的定义隶属度”和“句子的定义隶属度 两个概念,由术语定义的匹配规则和排除规则筛选出候选定义,通过计算句子的 定义隶属度以及向量空间模型的相似度计算,进一步抽取更为准确的定义,并给 出每个定义的权重( 准确度) ,在此基础上,利用知网进行义原、义项、词 语以及句子的相似度计算,实现了术语定义的按领域聚类。张榕的研究突破了单 纯基于规则的定义提取技术,结合了统计方法,提高了抽取准确率,把定义自动 提取技术的研究向前推进了一步。但是,我们也可以看出,她是基于规则方法进 行定义提取,然后对提取结果应用统计方法以提高准确率,而不是在提取过程中 将规则和统计的方法相结合然后输出定义提取结果,因此,从这一点上来说,她 的提取技术仍然是基于规则的。 综上所述,目前的术语定义自动提取研究基本上都是采用了基于规则的方 法,这主要是因为术语定义有较为明显的“标志 ,这种标志可以将定义句同其 他句子区分出来,同时,这种规则模板的总结也较为容易,通常都是明白易懂的, 表达很清晰,描述也很精确。此外,这些规则与计算机科学中的一些高效算法是 兼容的,具有很强的操作性。当然,基于规则的提取方法的弊端也是显而易见的, “基于规则的理性主义方法研制的语言模型一般都比较脆弱,鲁棒性很差,一些 与语言模型稍微偏离的非本质性的错误,往往会使得整个的语言模型无法正常的 工作,甚至导致严重的后果”,以定义提取为例,基于规则的模型对一句话的 判定只有两种结果“是 和“非,因此,它的灵活性就不够,只要稍微与定义 模板不符合,就会被排除出去。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论