已阅读5页,还剩47页未读, 继续免费阅读
(应用数学专业论文)基于因素空间的学科分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页 摘要 在当前学科建设的进程中,发展多学科交叉融合已成为许多综合性大学 探索的热点。学科的发展与创新有其自身的规律,只有对这种客观规律有了 深入的理解,才可能采用有效的管理、引导和激励措施促进学科发展与创新, 进而造就自己的优势特色学科和高层次人才。 学科专业的合理分类对学科专业评估、交叉学科的识别以及新学科的培 育是至关重要的,也是深入认识学科发展和创新规律的关键一步。在目前的 学科专业分类方法中,对各学科专业的描述还停留在定性阶段,并且决定各 学科专业概念的部分内涵不够明确,从而使各学科专业概念的界定呈现出不 同程度的不确定性。 本文在上述背景之下,利用相关数学理论进一步描述了学科概念,对如 何有效识别创新性交叉学科以及对其进行学科归类的问题进行了研究。本文 在内容上主要包括以下方面: ( 1 ) 以因素空间理论为基础,构建一种学科概念的描述方式,对其不 确定性进行合理解释。 ( 2 ) 在已有学科体系的基础上,构建一种动态学科结构,并给出此结 构的一种刻画方式,进而提出一种创新性交叉学科的识别和归类方法,对学 科体系的动态更新进行了讨论。 关键词:学科概念学科分类因素空间广义关键词集匹配度 西南交通大学硕士研究生学位论文第1 i 页 a b s t r a c t d u r i n gt h ec o t l r s co fd i s c i p l i n a r yc o n s t r u c t i o na tp r e s e n t , t h ed e v e l o p m e n to f i n t e r d i s c i p l i n e h a sd r a w nt h e a t t e n t i o na n db e c o m eah o t p o i n t i n m a n y u n i v e r s i t i e s h o w e v e r , t h ed e v e l o p m e n ta n di n n o v a t i o no fd i s c i p l i n eh a si t so w n l a w o n l yh a v i n gad e e pc o m p r e h e n s i v ea b o u tt h i sk i n do fl a w , c a nw et a k e e f f e c t i v em a n a g e m e n tm e a s u r et op r o m o t et h ed e v e l o p m e n ta n di n n o v a t i o no f d i s c i p l i n e ,t h e nt r a i n i n ga d v a n t a g es p e c i a l i t ya n dh i g ht a l e n t e dp e r s o no fo w n t h ee f f e c t i v em e t h o do fs u b j e c ti d e n t i f i c a t i o ni si m p o r t a n tf o rt h ee v a l u a t i o n o fs p e c i a l i t ya n dt h et r a i n i n go fn e wa d v a n t a g es p e c i a l i t y i ti sa l s ot h ek e yt o m a s tt h el a wo fd e v e l o p m e n ta n di n n o v a t i o no f d i s c i p l i n e f o rt h ec u r r e n tm e t h o d o fs u b j e c ti d e n t i f i c a t i o n , c o n c e p t sa l ed e s c n b e di na q u a l i t a t i v ew a y ;w el a c ka n e f f e c t i v em e t h o df o rs u b j e c ti d e n t i f i c a t i o n a l lt h es u b j e c tc o n c e p t sa p p e a rt h e i n d e t e r m i n a t i o ni nd i f f e r e n td e g r e e b a s e do nt h ef u r t h e r d e s c r i p t i o na b o u ts u b j e c tc o n c e p t s w i t hr e l a t i v e m a t h e m a t i 岱t h e o r y , t h i sp a p e rd i s c u s st h ep r o b l e m h o w t oi d e n t i f yi n n o v a t o r y i n t e r d i s c i p l i n ea n ds u b j e c ti d e n t i f i c a t i o ne f f e c t i v e l y i tm a i n l yc o n t a i n st h ef o l l o w i n g t w op a r t s : 1 w i t hf e a t u r es p a c et h e o r y , t h i sp a p e rg i v ead e s c r i p t i o na b o u ts u b j e c t c o n c e p t s ,i ti su s e dt oe x p l a i nt h ei n d e t e r m i n a t i o no fs u b j e c t 2 o nt h eb a s e so fp r e v i o u sw o r k s ,t h i s p a p e rp r o p o s e dad y n a m i c c o n s t m c t i o na b o u ta s u b j e c t s , w h i c hi su s e df o r i d e n t i f y i n gi n n o v a t o r y i n t e r d i s c i p l i n e a n de f f e c t i v e s u b j e c ti d e n t i f i c a t i o n d u r i n gt h e s a m ec o u p e , d i s c i p l i n es y s t e mi sr e n e w e d 西南交通大学硕士研究生学位论文第1 ii 页 k e y w o r d s :s u b j e c tc o n c e p t ,s u b j e c ti d e n t i f i c a t i o n ,f e a t u r es p a c e , e x t e n d e dk e y w o r d ss e t ,m a t c h i n gd e g r e e 西南交通大学硕士研究生学位论文第1 页 第一章绪论 1 1 本文背景 当前,对于人才的重要性人们有了更深刻的认识。人才,尤其是各领 域的高层次人才,从宏观上讲对一个国家综合国力的提高起着不可替代的 作用,成为综合国力竞争中越来越具决定意义的要素;从微观层次讲对各 个行业领域的发展进步也是不可或缺的。通过国内外相关资料统计可以发 现这样一个事实,即高层次人才大多直接或间接受过高等教育,高校已成 为培养和产生高层次人才的主要基地。以英美两国为例,直接从事科学研 究的专家学者自不用说,那些在经济界或行政界取得重要成就的杰出人物 许多也都具有在知名高校里接受高等教育的经历。资料显示,在近百年来 的英国首相中,有相当一部分毕业于牛津大学或剑桥大学这两所世界著名 学府;自上世纪以来的美国总统中,没有接受过高等教育的寥寥无几,而 最近的三位总统均毕业于著名的耶鲁大学。不仅如此,那些在经济界取得 巨大成功的管理者中,具有博士学位的也不在少数。在我国情况也类似, 在越来越多的行业里有越来越多的高层次人才是受过高等教育的。基于以 上诸多事实可以看出,建设和发展高校尤其是一流高校已经普遍引起了各 个国家的高度重视,我国政府也先后在高校中推行“2 1 1 工程”和“9 8 5 工 程”以促进高校建设水平,不少国内高校更是将建设成为世界一流高校作 为追求目标。遍观世界知名高校,世所公认的是,一流高校的重要标志之 一是要拥有一定数量的一流学科。因此,提高学科建设水平进而造就自己 的优势特色学科便具有重要的现实意义。 然而,学科的发展与创新有其自身的规律,只有在对这种内在规律有 了深入认识基础之上,才可能采用有效的管理、引导和激励措施促进学科 西南交通大学硕士研究生学位论文第2 页 发展与创新,进而造就高层次人才。 现代学科发展的趋势可以概括为高度分化与高度综合的同时进行,并 且综合化的发展方向更加明显。一方面学科分类越来越细,另一方面各学 科间的相互渗透、相互融合也越来越多,出现了一大批新兴交叉学科。“学 科”一词在历史上由多种定义,它在辞海中的解释就有两种: ( 1 ) 学术的分类。指一定科学领域或- - f - j 学问的分支。如自然科学部门 中的物理学、生物学,社会科学部门中的史学和教育学等。 ( 2 ) 教学的科目。学校教育内容的基本单位。如普通中小学的语文、数 学、外语、物理、化学、历史和地理等。 在本文中“学科”这一概念取上述第一种含义,特指一定的科学研究 领域。对于交叉学科这一概念的不同定义也有许多,但一般认为交叉学科 是两门或两门以上学科相互结合、相互渗透交叉而形成的新学科。 从近年来国内外资深教育家、学者以及知名大学校长发表的有关学科 发展与创新的学说、理念或成功经验中可以了解到,世界知名大学普遍高 度重视推动多学科交叉与融合。在单一学科研究已经比较深入的今天,对 单一学科研究很难有新的重大突破。而通过开展交叉学科研究,通过相互 借鉴则更容易出成果,形成新的学科,而这正是提高大学竞争力的基础。 因此,在当前学科高度综合化发展的趋势下,发展多学科交叉融合已成为 许多大学当前探索的热点,也是当今世界许多一流大学管理者的共识。 学科专业的合理分类对新学科的培育和学科专业评估是至关重要的, 也是深入了解学科发展和创新规律的关键一步。对于学科分类的定义有多 种,一般认为所谓学科分类就是依据一定的原则对学科体系的内在联系加 以揭示,并以严格的符合逻辑的排列形式表达出来。基于学科分类的重要 性,我国相关机构先后颁布了三种分类标准: 西南交通大学硕士研究生学位论文第3 页 ( 1 ) 1 9 9 2 年国家技术监督局颁布了国家标准学科分类与代码,它 将学科分为5 个门类,又细分为5 8 个一级学科,6 3 5 个二级学科以及2 0 5 8 个三级学科。 ( 2 ) 1 9 9 7 年国务院学术委员会、国家教育委员会( 教育部) 颁布了授 予博士、硕士学位和培养研究生的学科专业目录,其中设置了1 2 个学科 门类,8 8 个一级学科和3 8 1 个二级学科( 后增添了民族医学,现为3 8 2 ) 。 ( 3 ) 1 9 9 8 年教育部颁布了普通高等学校本科专业目录,它设置了 1 1 个学科门类,7 1 个大类和2 4 9 个专业。 与高等教育相关的是后两种分类,它们的区别不仅在于学科门类下的 学科数目不同,部分学科名称不同,而且即使名称相同,它们的内涵也不 尽一致。这两种学科分类方法在如今得到了广泛应用,尤其是授予博士、 硕士学位和培养研究生的学科专业目录,该分类方法层次结构清晰且比较 合理,它引导了高校的学科设置。近年来国内流行的高校学科专业评估排 名更是以其建立的学科体系为基础,因此它的影响力也更加广泛。但是它 们也有不尽完善的地方。 1 2 研究现状及目前存在的问题 在信息交流快捷化和全球化的今天,多学科交叉融合产生了或正在产 生众多富有生机的新兴交叉学科。由于它们涉及的专业内涵呈现出亦此亦 彼的模糊特征,使得这些新学科的识别或归类存在一定困难。概括起来主 要包括以下两点: 首先,在目前的学科专业分类标准中,对学科概念的描述还停留在定 性阶段,用于分类的各学科专业概念体现出不同程度的不确定性。 由于这种不确定性的存在。导致与学科分类有关的诸多问题得不到合 理的解决。例如,现有的学科评估标准和方法中经常使用的一个数据指标 西南交通大学硕士研究生学位论文第4 页 “核心期刊上发表的论文数量”就是如此。一般地,核心期刊都是在 某一个学科范围内界定其“核心”性的,一种期刊针对某一学科而言具有 核心地位,但针对另一个学科就不一定能够作为核心期刊( 当然像n a t u r e 、 s c i e n c e 等期刊例外) 。由于学科发展的高度综合性与交叉性,一些学科之 间并没有明显的界限,根据学科概念的定性描述,有些文献难以恰当确定 所属学科。同时一些其它因素的影响,可能在某个学科的核心期刊上发表 有并非完全属于这个学科的文章,而这样的文章或许在它应属学科的核心 期刊上根本不能被录用,但它却会被记入核心期刊发表的论文数量,进而 这样的数据被使用,得出不尽合理的结果。 。 类似的情况还有很多,虽然对学科概念的定性描述可以包含更丰富的 信息,但随之出现的诸多问题也对更有效的描述方式提出了要求。 其次,学科是动态发展的,而现有学科专业分类标准所体现的学科体 系是静态的。现有学科分类标准对一些发展成熟的交叉学科进行了归类, 而未将那些处于萌芽状态的交叉学科纳入学科体系。学科专业概念内涵体 现出的不确定性使得对新兴交叉学科的归类得到不同结果。一些可能被归 入合适的学科门类,而另一些前瞻性强、发展空间广阔的交叉学科则可能 无法有效识别或者无法在这个学科分类体系中找到合适位置。没有恰当的 学科位置,那么一些诸如研究经费和研究队伍等重要条件就会缺乏,不利 于学科的进一步发展。 从某种意义上说,正是上述问题客观上影响了对新兴交叉学科的有效 管理和发展战略规划。 针对学科分类问题,一些研究人员对学科专业分类的方法也进行了有 益的探讨。这些研究成果借鉴国内外的经验从不同角度探讨了学科的分类, 具有很大的合理性,但它们侧重于从宏观上对学科类别概念的划分,而对 西南交通大学硕士研究生学位论文第5 页 学科专业概念内涵体现出的诸如模糊性等不确定性并没有进行深入讨论, 未给出解释和解决此种不确定性的有效方法,给人们留下的印象仅仅是学 科名词的重新归类,在实际中缺乏可操作性。一些研究甚至将仅仅是名称 相近而实际内涵大不相同的学科专业划归为一类,不仅没有起到促进学科 发展的初衷,还对学科发展造成某些不利影响。 此外,一些研究工作讨论的重点侧重于发展较为成熟的学科,而对新 兴交叉学科的研究较少涉及,未能有效识别新兴边缘学科、交叉学科或综 合学科并对其进行恰当的类别归属判定。如 1 中提出了“五分法”的学科 分类方法,其结构如下: 文中把一级学科分为五类,认为哲学和数学研究的对象都是抽象的概 念,而不是具体的社会或自然的现象,所以哲学不属于社会科学,数学也 不属于自然科学,它们都应该归属于思维科学。从学科的地位来说,思维 科学与其他四大类学科是平等的,但从学科的功能来说,思维科学是涵盖 其它四大类学科的。文献中提出把数学和哲学从原有学科体系中分离出来 的依据具有较大合理性,但从整篇文章讲,讨论的只是宏观概念的划分。 又如,文献 2 中认为现有的1 2 个学科门类缺乏科学性,也没有层次, 往往误导教学研究,建议保留现有的1 2 个学科门类,但要将其重新划分。 西南交通大学硕士研究生学位论文第6 页 文献中将学科门类从整体上划为基础学科层次和实用学科层次,前者包括 自然科学、社会科学和人文科学。将理学归入自然科学,将经济学、法学 中的政治学、社会学,教育学中的心理学归入社会科学,将文学、历史学 和哲学归入入文科学。其余学科则全部归入实用学科层次。 文献 2 3 借鉴国外知名高校实践经验提出了一种学科层次结构,但其仅 仅是将已有学科类别进行重新组合,对学科概念中存在的不确定性问题的 解决并未涉及。 类似的研究还有很多e 3 - 8 ,在此不再一一赘述。这些研究或者是对现 行学科体系的重新组合,或者提出一种全新学科结构,并且以定性的分析 居多,而缺乏一种用于学科分类的对学科概念的有效刻画方式,对新兴学 科的识别和归类的研究也较少涉及。 1 3 本文的主要内容 本文正是在上述背景之下,利用因素空间理论等相关数学知识对学科 概念内涵的不确定性进行研究。 本文主要包括以下内容: ( 1 ) 以因素空间理论为基础,构建一种学科概念的描述方式,对其不 确定性进行合理解释。 ( 2 ) 在已有学科体系的基础上,构建一种动态学科结构,并给出此结 构的一种刻画方式,进而提出一种新兴交叉学科的识别和归类方法,对学 科体系的动态更新进行了讨论。 西南交通大学硕士研究生学位论文第7 页 第二章基础知识 弟一早荃伽刘以 本章将引述与本文密切相关的一些重要概念与结论,它们作为本文的 基础。 。 2 1 有限覆盖思想 首先介绍有限覆盖定理。 定理2 。1 1 ( 海涅一波莱尔( h e i n e - b o r e d 有限覆盖定理) 设【口,b 】是 一个闭区间,开区间集日覆盖闭区间【口,b l ,则日中存在有限个开区间也覆 盖了闭区间,b 】;或设【口,纠是一个闭区间,日为【口,b 】的一个开覆盖, 则日中必存在有限个开区间,它构成【4 ,卅上的一个开覆盖。 海涅一波莱尔( h e i n e b o r e l ) 有限覆盖定理是有关实数完备性的一个基 本定理,它是一种在特殊点集意义下无限向有限转化的数学方法,它的推 广是一般点集意义下的b o r e l 有限覆盏定理。 定理2 1 2 ( b o r e i 有限覆盖定理) 设f 是一有界闭集,是一族开邻 域,p 完全覆盖了f o t x e f ,j p 使x ) ,则在f 中一定存在有限多个 邻域1 ,2 。它们也完全覆盖了, 有限覆盖定理( 本文将海涅一波莱尔( h e i n e - b o r e l ) 有限覆盖定理和 b o r e l 有限覆盖定理统称为有限覆盖定理) 是一种在度量空间条件下体现完 备性的数学定理,它揭示了在无限与有限之间存在着一定的关系,但它的 完备性特点也对定理成立的前提提出了较严格的要求,而在许多情况下这 种前提条件并不满足。 西南交通大学硕士研究生学位论文第8 页 虽然有限覆盖定理是一个抽象的数学定理,但它体现出的无限向有限转 换的思想有限覆盖思想,即在一定条件下,可以用有限的因素替代无 限的因素起作用却在实际中得到了广泛应用。在信息检索研究、文本 自动分类研究等研究领域中,需要对原始文献进行预处理,用预处理后形 成的特征空间代替文本,进而对此特征空间进行研究。这一过程尽管没有 明确提出,但却隐含了有限覆盖思想。 相对于有限覆盖思想只是一种抽象的描述,更具体的刻画则在因素空间 理论中得到体现。 2 2 因素空间 因素空间这个概念是由汪培庄教授首先提出来的,它是一个更抽象的 状态空间,在模式识别中的特征空间,在医疗诊断中的症候空间等都可视 为因素空间的特殊情况。因素空间的核心思想之一是“变维”,在知识表示 技术上,它是信息压缩的依据。 本节简要引述因素空间理论的研究成果,有关详细内容可查阅文献 2 3 - 2 6 。 定义2 2 1 【矧( 因素) 因素作为因素空间理论的一个源词汇,难以给 出一个确切定义,它的含义可以从三个方面刻画: l 、归因性 归因性有两层含义:其一是由结果寻找原因,这时的因素理解为引起某 种结果的事物。例如,庄稼获得了好的收成,总要考虑获得丰收的原因, 比如雨水充足,于是便把降雨作为这次丰收的主要原因。 因素与其状态或特征是有区别的,一般地,因素常是个名词,状态常用 数字来表示,而特征往往是形容词。如,温度是个名词,它是因素;3 6 , 1 0 0 等是数字,它们是温度的状态;冷、热等是形容词,它们是与温度有 西南交通大学硕士研究生学位论文第9 页 关的特征。因素是与其有关的各种状态和特征的公共提示,状态是关于某 个因素的特殊提示,而特征是关于某个因素的粗略提示。 其二是由状态或特征选择名称,此时因素被视为一类状态或一组特征的 标号。当认为一个因素的状态或特征引起某一结果时,这个引起结果的事 物不再是状态或特征,而是因素。把一个结果归因于因素比归因于状态或 特征更本质。 如果我们只观察到了充足的雨量伴随着丰收,还不能肯定好收成是由降 雨引起的。之所以认为充足的雨量引起好收成,是根据人们正反两方面的 经验:好收成的时节总是雨量充足,而雨量缺乏常常带来减产。在变异中 可以认识因素之间的影响并找出因果关系。 对于归因性的认识中,前者是初等的,后者的认识更抽象、更本质。 2 、解析性 概念是与思维密切相关的,概念的形成是通过对比,用对比来寻找不同 事物之间的差别。对比是在既有共性又有差异的事物中才能进行的。比如, 男和女是有差异的,之所以能够通过对比形成概念“男”和“女”,是因为 他们有共性的东西性别。这些共性的东西就是因素,它们是一类状态 或一组特征的公共标志。像年龄、身高、职业等都是因素。因此,因素可 以理解为解析识别现实世界的一种方式。 3 、描述性 任何事物都是诸因素的交叉。一个人可以由他在年龄、性别、职业、身 高、体重、性格、兴趣等方面的表现加以确定,人就是上述因素的一种交 叉。这种交叉意味着可以建立一种广义坐标架,事物被描述成这种广义坐 标系中的一个点。建立这一广义坐标系的关键是要把握像年龄、性别等一 些名称,它们就是因素。因素就是广义坐标系的维名称。 西南交通大学硕士研究生学位论文第10 页 定义2 2 2 ( 左配对) 我们称( u ,y 为一个左配对,如果u 和v 分 别是由一些对象和一些因素组成的集合,且对任意u e u ,一切与“有关的 因素都在y 中。 这里所谓的事物u 与因素厂相关,是指从,谈论u ,有一个状态f ( u ) 与 之对应。 定义2 2 3 t ”1给定一个左配对( u ,y ,可以在【,与矿之间规定一个 关系: r ( u ,f ) - 1 一u 与厂有关 称r 为相关关系。 定义2 2 4 【矧因素f e v 可视为一个映射,作用在一定的对象u e u 上获得一定的状态f ( u 1 : 这里 f :d ( ,) 一x ( ,) , ( 2 2 1 ) nb - - ) f ) d ( f ) 皇( u e uir ,f ) - 1 ) y ) 皇 f e vir 0 ,f ) - 1 ( 2 2 2 ) ( 2 2 3 ) ( 2 2 4 ) 称x ( 厂) i f ( u ) i t e u 为,的状态空间,x ( f ) 中任何一个元素都叫做 ,的一个状态。 因素之间存在着一些以下的关系和运算。 定义2 2 5 1 划零因素 引入一个符号0 ,它表示空状态。规定:对任一状态x ,无论它与0 组 西南交通大学硕士研究生学位论文第11 页 成集合还是组成序偶均不起作用,即 x ,0 ) = x ) ,( x ,0 ) = x = ( 0 ,x )( 2 2 5 ) 称符号0 为零因素,如果 x ( 0 ) = p ( 2 2 6 ) 即,零因素只有一个状态,且该状态还是个空状态。 定义2 2 6 i 卅因素相等 称因素,与因素g 相等,如果,与g 作为映射是等价的,即 d ( ,) - d ( s ) ,x ( f ) 1 x ( g ) ( 2 2 7 ) 且对任意的u e d ( f ) ,f ( u ) 1 9 ( u ) 。 定义2 2 7 1 2 6 j 子因素 因素g 叫做因素,的真子因素,记作f g ,如果存在集合y 满足 y - 妒且y - 0 ),使 x ( ,) - x ( g ) y ( 2 2 8 ) 称g 为,的子因素,记作f 苫g ,如果f 占或f l g 显然,零因素是一切因素的子因素。 定义2 2 8 t ”1 因素的合取 称因素h 为因素,与因素g 的合取因素,记作 h l f g ( 2 2 9 ) 如果j l 是,与g 的最大公共子因素。亦即f 2 ,g _ j i ,并且对任一因素e , 必有( f e ,g 之e ) h 苫e 。 西南交通大学硕士研究生学位论文第1 2 页 例设,为立方体的长和高,g 为立方体的宽和高,则_ l = ,a g 为立方 体的高。 定义2 2 9 【矧因素的析取 称因素h 为因素f 与因素g 的析取因素,记作 h 一,v g ( 2 2 1 0 ) 如果h 以,g 为子因素,并且是这样因素的最小者,亦即 z ,h g ,且 对任一因素e ,必有( e 土,e 乏g ) e h 。 例设,为点的横坐标,g 为点的纵坐标,则_ l 一,v g 为点的平面坐标 定义2 2 1 0 1 卅独立因素 称因素族 f 旧) 是两两独立的,如果满足条件 ( 协,t r x l 正- o ) ( 2 2 1 1 ) 定义2 2 1 l l u 因素的差 称因素h 为因素,与因素占的差因素,记作 hi f g ( 2 2 1 2 ) 如果满足( , g ) v h 一,h g 0 。 定义2 2 1 2 1 2 f l 因素的余 在一个问题中,往往只考虑与该问题有关的一类因素f 。称1 为关于f 的全因素,如果1 e f 且( v ,1 2 ,) 对f 中任一因素,记 西南交通大学硕士研究生学位论文第13 页 f c 叁1 一f 若f f ,则称,为,关于1 的余因素。 ( 2 2 1 3 ) 定义2 2 1 3 t 硐原子因素 因素叫做原子因素,如果除了零因素以外,没有真子因素。 定义2 2 1 4 ”1( 因素空间)给定左配对( u ,v ,f c v ,称集合 族x ( ,) ( f e f ) 为【,上的一个因素空间,如果满足公理: ( 1 ) f = f ( v , ,c a o ) 为完全的布尔代数; ( 2 ) z ( 0 ) 一妒 : ( 3 ) v t c f ,若,t e t ) ( s - t sa t 一0 ) ,则 函,。玎, 2 2 1 4 这里玎,是指映射的直积视因素为映射f 叫做因素集,f 叫做 因素,x ( f ) 叫做,的状态空间,1 叫做全因素。 2 3 概念的描述架 通常,从三个方面来描述一个概念,一为概念的内涵,它指概念所具有 的本质属性:二为概念的外延,即所有符合某概念的全体对象所形成的集 合;三为概念结构,它在概念之间的相互联系中去说明一个概念。 定义2 3 1 硐( 描述架) 如果一组概念1 i ,一 口,卢,y , ,它们的论 域记为u 。取因素族矿,使u 与v 组成一个左配对( u ,y 。再取因素集 f c v ,使f 对u 是充足的,即满足条件: ( v “1 ,u 2e u ) ( 3 f e r ) ( f ( u 1 ) - f ( u 2 ) ) ( 2 3 1 ) 西南交通大学硕士研究生学位论文第1 4 页 此时,称三元组( u ,掣,f 】或,v , 工( ,) ( ,毫f ) 】为v 的一个描述架 注解上述“充足性”是指,对于【,中任何两个不同对象h ,与“:,在因 素集f 中总能找到至少一个因素,使,能将h 。与h :的状态区分开来: f ( u 。) 一f ( u 2 ) 如见表2 3 1 : 表2 3 1 充足性 对象性别职业身高学历 a 男教师高研究生 b 女教师高研究生 c 男学生矮本科 d 男学生高研究生 e 男医生矮本科 f 女教师 高本科 对于“人”这个概念来说,与其相关的因素很多,可视为诸多因素的 交叉。在表2 3 1 中,论域为由a 、b 、c 、d 、e 、f 六个对象构成的集合, 另取性别、职业、身高、学历四个因素构成因素集,即【,= a ,b ,c ,d ,e , f ,f = 性别、职业、身高、学历) 。如果在u 中选取a 和b 两个对象,则 可通过,中的“性别”这一因素将其区分,如果选取对象c 和d ,则可通过 “身高”或“学历”因素将他们区分。 显然,无论从【,中选取任意两个对象,在f 中都至少存在一个因素, 可以将他们进行区分,对【,是充足的。 西南交通大学硕士研究生学位论文第15 页 第三章学科概念描述 学科是指一定研究领域或一门学问的分支,由于描述一门学科所涉及的 因素很多或许有无限多个,使得一直以来学科的确切定义变得较为困难, 甚至造成各学科之间关系的不明朗化。基于此种情况,本文首先利用有限 覆盖思想将一门学科所涉及的因素界定在有限范围之内;其次采取事物描 述的基本形式概念的描述,通过概念形成的内涵和外延两个方面给出 了学科概念的定义,并选取学科概念描述架对一组学科之间的关系进行刻 画;最后,在已有的学科刻画的因素抽取问题上,更详细地给出了学科概 念刻画的广义关键词提取方法。 3 1 学科概念描述架 对于完整地描述某一学科而言,所需要的因素可能会有无数个,而这 些因素可能又由若干个子因素构成,若直接用由无限因素形成的空间来描 述,例如,b 一 x a ,屯,l ,这里,b 表示一门学科,鼍a - 1 , 2 ,3 ) 表 示用于刻画学科口的因素。由于空间的维数高,将会对问题的讨论造成困 难,为解决这一问题,需要利用有限覆盖思想将上述因素的维数转换到合 适的有限维上,即b - 而,而,o * o9 ) 。 针对一组学科概念之间的关系,下面给出一组学科概念的描述架。 定义3 1 1 我们令1 l - a 。) ( f - 1 , 2 , ,尼) 表示一组学科概念,它们的 论域记为u ,取因素族y ,使( 【,y 组成一个左配对。另取因素集,c y , 使f 对u 是充足的。此时,称三元组,1 l ,f 】为一组学科概念甲的一个描 西南交通大学硕士研究生学位论文第16 页 述架。 以下从概念形成的内涵和外延两个方面,给出学科概念的定义。 定义3 1 2 称q = ( u i ,e ) 为某一学科概念,其中,u j 与e 分别是由 一些对象和一些因素组成的集合,且满足: u t 一杠 v r e f , ,| “以,s t r ( u ,f ) - 1 ( 3 1 1 ) e - t l v u , ,b f e f , ,s t r ( u ,i ) - 1 ( 3 1 2 ) 例如,对于模糊数学学科,取其研究领域内的文献所构成之有限集为 u ,并取各文献中关键词所构成之有限集为e = 模糊集,隶属度,隶属函 数,截集 ,且u l 和墨满足( 3 1 1 ) 和( 3 1 2 ) ,则“模糊数学学科 概念”就定义为:a z = ( u 1 ,e ) 。 3 2 学科概念因素集的抽取 在刻画学科概念的时候,由于应用的需要,我们关注的不是完全充分的 因素集,而是近似充分的因素集。用它们来刻画学科概念,虽然不是完全 充分,却也基本接近。这种因素集的提取可以高效率地实现信息压缩。 一般地,每一学科都有其特定研究领域,在这个领域内有着丰富的研究 内容,每年均有大量的文献出现,一些以论文形式发表在本领域的期刊杂 志上,或者相关学术会议上,还有一些以专著形式出版。它们对领域内的 各种问题进行了探讨,体现了本学科各个方面的内容以及该学科最新研究 动态,并由此推动了学科的发展。因此,可以用一定时期内针对某一学科公 开发表的所有文献作为该学科概念的对象集,由定义3 1 2 ,一组学科概念 的对象集就构成了这一组学科概念的论域。 由于某一学科概念的对象集所包含的信息量很大,可能存在大量重复甚 西南交通大学硕士研究生学位论文第”页 至无用的信息,给一组学科概念的因素确定工作带来了麻烦。文献 2 0 , 2 7 3 2 显示,通过相关技术操作可以将文献中表达文献主题的特征项提取 出来( 通常情况下为文献的关键词) ,用其来表示文献。对于一组学科概念, 本文采用文献分类特征项抽取特征项选择三个步骤,从这一组学 科概念的论域文献中提取出描述不同学科主题的特征项,组成这一组学科 概念的因素集。其主要过程如下: 1 文献分类 文献分类是指将所有学科概念的对象集中的文献首先由相关学科领域 专家按照不同学科进行人工分类,进行人工分类的目的是为了保证分类的 准确性。 2 特征项抽取 特征项抽取是指从专家按不同学科分类的文献中抽取描述不同学科主 题的特征项。 在进行特征项抽取之前要首先确定特征项的粒度,常用的粒度有字、词、 词组或短语,一般地,使用字为特征项最简单,但字对文献的表达能力差, 它不能完整表示一个语意范畴。用词作为粒度更常见,它比较符合自然的 思维习惯,蕴含比较丰富的语言信息,能够比较完整准确表示文献主题, 但是它需要预先对文献进行分词处理,而目前国内相关分词软件的分词效 果并不理想。 从目前的认识和实践看,文献中的词为这种特征项较理想的代表。此外, 由于在科研论文中除了文字以外,还有大量的特殊符号,如在数学上常用 的极限符号: h 里,积分符号:f , ) 等,它们对学科的内涵具有重要的 区分作用,也应列入文献特征项行列。 特征项抽取的目的就是为了抽取能表达文献主题的词( 通常情况下为文 西南交通大学硕士研究生学位论文第1 8 页 献的关键词) 以及这些特殊符号。 常用的特征项抽取方法有两种: 1 ) 词匹配法 指将文献与关键词库进行匹配,然后将文献中被词库收录的词条抽出来 作为文献特征。其基本思想是:假设词库中的最长词条是n 个字,则取被匹 配文献当前字符串序列中的前抖个字作为匹配字段,查找词库,若词库中存 在这样的一个 字词,则匹配成功,匹配字段被作为一个词切分出来;如果 在词典中找不到这样一个n 字词,则匹配失败,匹配字段去掉最后一个字, 剩下的字段重新进行匹配,这样循环进行下去直到匹配成功,也就是完成 一轮匹配切分出一个词为止。 这种方法有两个缺点:第一,一般关键词库要滞后于文献,一些文献中 新出现的词可能未在关键词库中收录,因此不能被抽取出来;第二,这种 方法不能保证抽出的词就是文献真正的关键词。 2 ) 基于词频统计的词汇权重法 它包括两个步骤,首先将文献中诸如动词、形容词、虚词和介词等没有 内容指示意义的词( 停用词) 以及诸如图表等非文本形式清除,将文献转 化为只包含能够表达文献内容的词汇;其次,通过定义和计算各个词的权 重以反映该词汇对表达文献内容所起作用,接着根据设定阈值选出作为文 献特征的词。 首先引入以下符号: 文献k 中词汇i 相对于表达一个文献内容的重要程度 丘文献k 中词汇f 的出现频率 m 对象集中文献形式转换后的词汇总数 r 对象集中文献总数 西南交通大学硕士研究生学位论文第19 页 n s 词汇i 在整个对象集中出现的频率 计算词汇权重的方法很多,常用的有以下几种: 布尔权重法 布尔权n t t 纳q - 值权重或二元权重( b i n a r yw e i g h t i n g ) ,是最简单的权 重计算方法,见( 3 2 1 ) 。在这种方法中,特征权重只有“0 ”、“1 ”两个值, 如果某个词汇在一篇文献中出现,则将其4 。值定义为1 ,否则为0 。它描述 很粗糙,文本中大量的信息被忽略。 ; :凳产文献中出现 ( 3 2 1 ) 2 i 仉否则 ( 3 2 1 词频权重法, 词频权重法是根据每个词汇在特定文献中的出现频率来确定其重要程 度的一种加权方法,即 a m 2 丘 ( 3 2 2 ) 它是基于这样的假设:当某个作者要深入阐述或解释他的话题时,常常 会重复使用某些特定的词。 t f i d f 权重法: t f i d f 权重法是目前应用最广泛的一种方法。 t f ( t e r mf r e q u e n c y ) 表示词汇在单篇文献出现的频率,i d f ( i n v e r s e d o c u m e n tf r e q u e n c y ) 表示词汇在整个对象集的文献中出现的频率。其计 算公式为i 蚓: 丘l o g ( 马 ( 3 2 3 ) 啊 它是基于实际中的两点经验:词汇在某一特定文献中出现频率越高,则 西南交通大学硕士研究生学位论文第2 0 页 与该文献主题越相关,被选为文献特征的可能越大;词汇在整个对象集中 出现频率越高,则与该文献越不相关,被选为文献特征的可能越小。这两 点是作为一个整体出现的,单独运用哪一点都是不准确的。 t f i d f 权重法没有考虑文献长度的影响,它的变形( 3 2 4 ) 运用了文 献长度对t f i d f 公式进行规范化。 厶。l o g ( 盟) 口盛- ( 3 2 4 ) t f i d f 权重法基于的思想非常简单,但在文本处理中,t f i d f 权重法 仍然表现了非常好的性能。 熵权重法 它依据信息论建立,被认为是目前最成熟的加权方法。词汇i 的熵表示 为【列: 熹童盘l o g 凼 (325)l o g ( ) 角啦“ 7 若某个词汇在所有文献中的分布极度均匀,则熵等于- 1 :如果该词汇只 在一篇文献中出现,则熵等于零。熵权重法定义如下: a a = l o 烈丘瑚+ 去薹鲁b g c 和 c 3 2 6 , 可以看出,上述词匹配法和基于词频统计的词汇权重法都忽略了文献中 的特殊符号的抽取,无论用哪一种方法,诸如极限符号:m 和积分符号: f , ) 等特殊符号都不能被抽取出来。而这些特殊符号对学科主题的描述 作用是不能被忽视的。因此本文建议将两种方法结合起来使用,即 西南交通大学硕士研究生学位论文第2 1 页 首先,用匹配法抽取特殊符号 由于这些公认的特殊表示符号在数量上相对稳定,更新速度慢,因此 可以建立各学科的特殊符号库,然后参照词匹配法的过程,将那些具有重 要区分功能的特殊符号抽取出来。它可以保证抽取的准确性。 其次,用基于词频统计的词汇权重法进行抽取。 由于动词、数词、量词以及虚词、介词等没有内容指示意义的词( 停 用词) 在汉语常用词中所占比重较小,因此该方法可以提高抽取的速度。 总之,特征项抽取应该遵循以下的原则: 1 ) 特征项应能确实反映文献的主题; 2 ) 单个字符的单词和术语不应包含在内; 3 ) 文献中出现频率小于两次的单词和术语不应包含在内; 4 ) 所有的功能性单词如动词、形容词等不应包含在内; 5 ) 参照汉语主题词、科学技术名词术语等词表选用规范化的单 词和术语; 3 特征项选择 经过上述步骤得到的原始特征项集合元素个数一般还比较大,甚至可达 上万个,在它们之中还有一些是没有意义的,还需要通过诸如特征频度 ( t f ) 、信息增益( i g ) 、交叉熵( c e ) 以及互信息( m i ) 等特征评价函数 进一步计算特征项的评分,并从原始特征项集合中选择出比较重要的、更 能表达文献主题的特征项。 1 ) 特征频度( t f ) 7 特征频度是指描述学科概念的对象集文献中特征项出现的次数,它是最 简单的特征项选择方法。并且认为特征项在文献集中出现次数越多,对文 献分类的贡献越大。由于原始特征项集合中绝大部分是低频特征,因此, 西南交通大学硕士研究生学位论文第2 2 页 设定了阈值过滤低频特征可以取得较大的降维效果 4 3 1 。对于高频特征来说, 当均匀地分布在各类型的文献中时,它对分类是没有作用的。但是当它分 布不均匀时,对分类作用是很大的。 2 ) 信息增益( 1 g ) 特征的信息增益定义为i 矧: 一荟p ( c ,) l o g p ( c j ) + p ( i ) j 善p ( c ,i o l o g p ( c 外) + p 荟p ( c ,i t ) l o g p ( c 用 ( 3 2 7 ) 其中,m 表示类别总数,p ( c ) 表示包含词汇f 的类。的文献在整个对象集 中所占的比例,p g ) 表示包含词汇i 的文献在整个对象集中所占的比例, p ( c 外) 表示包含词汇f 的类c 文献数占包含词汇f 全部文献的比例,p ( c ,p 表示不包含词汇i 的类c ;文献数占包含词汇i 全部文献的比例。 词汇的信息增益值越大,被选取的可能性就越大。信息增益值小于规定 阈值的词汇将被删除。 3 ) 互信息( m i ) 互信息公式1 2 1 如下: m l ( i , c j ) | l o g 丽p ( i , c j ) ( 3 2 8 ) 其中p ( i ,。,) 表示。j 中出现特征f 的文献数除以对象集中文献总数。其它符号 皆同( 3 2 7 ) 。m i 值越大,表示类别和词汇之间的相关程度越高,用m i 选择特征时,应该选择互信息大的特征。 经过特征项选择之后得到的特征项组成的集合就是一组学科概念描述 西南交通大学硕士研究生学位论文第2 3 页 架中的因素集。相对于学科定性描述中产生的学科概念的不确定性,本文 给出的学科概念描述方式可对这种不确定性进行合理解释。 3 3 广义关键词集 在进行上述工作之前,首先对得到的学科概念的因素集进行结构上的处 理,并用“广义关键词集”这个概念概括。 广义关键词集是以关键词为基础提出来的,因此首先给出关键词的严 格定义,以体现它与广义关键词集之间的联系与区别。 关键词是一篇科研论文的重要组成部分,关于在学术论文中规范关键 词选择的决定( 试行) 中指出:关键词是为了文献标引工作而从报告、论 文中选取出来用以表示全文主体内容信息款目的单词和术语。关键词之间 具有一定逻辑关系,通过这种逻辑组合揭示论文主题内容。关键词按以下 顺序选择: 第一个关键词列出该文主要工作内容或所属二级学科名称。 第二个关键词列出该文研究得到的成果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园教师职业发展阶段与支持需求匹配-基于发展阶段评估与需求调研数据
- 黑河市2025年新闻记者职业资格考试(新闻基础知识)复习题库含答案
- 椎管减压护理技术操作规范
- 机场企业数字化转型与智慧升级战略分析报告
- 2025-2030年日用品国际贸易代理服务行业跨境出海战略分析研究报告
- 2026年电气工程师发输变电重点
- 2026年房长助理笔试模拟题含详细解析
- 初中生人际边界说课稿
- 2026年福建省造价工程师考试模拟题
- 小学拖延习惯养成主题班会说课稿
- 2026湖北武汉首义科技创新投资发展集团有限公司招聘8人笔试历年备考题库附带答案详解
- 2026年苯丙乳液行业分析报告及未来发展趋势报告
- (四模)新疆2026年高三普通高考五月适应性文科综合试卷(含答案及解析)
- 邮政寄递活动方案策划(3篇)
- 2026四川宜宾市科教产业投资集团有限公司下属子公司第一批自主招聘33人考试备考题库及答案解析
- 对外经贸函电课程课件-新Unit-10-Packing
- 导线展放出口张力、牵引力计算表格
- 行星齿轮减速器设计DOC
- 中建八局(国家奖)卓越绩效管理手册
- 电气设备巡查记录表
- 《中山王三器》铭文
评论
0/150
提交评论