




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向学科的主题词库构建及其应用研究 硕士学位论文MASTERS THESIS412主要工作流程?2542主要功能模块设计?27421文档预处理模块?一27422主题词提取模块?27423关系挖掘模块?2743数据结构设计?27431索引库的设计?27432主题词库的设计?2844面向学科的主题词库构建?29441文档预处理模块的实现?29442主题词提取模块的实现?32443关系挖掘模块的实现?3445爿、结?一395面向学科的主题词库应用研究?。 51主题词库应用研究?4052垂直搜索引擎总体架构?4053基于主题词库的垂直搜索引擎?42531体系结构设计?42532索引模块的设计与实现?44533结果分析?一4754J、结?一496总结与展望5061研究总结?5062问题与展望?50参考文献项目资助及发表论文情况。 致谢。 51?55硕士学位论文MASTERS THESIS1绪论11研究背景及意义主题词,又称为叙词或序词,是指经过了一定的规范化处理的、用于表示文献主题的词或词组及其之间的各种关系。 主题词库,又可称为叙词表,是由一定专业领域的具有一定语义关联的词经过一定的规范化处理形成的集合。 简单的说,主题词库就是经过规范化处理了的主题词及其之间的关系所构成的词典。 从定义上可以看出,主题词库包括两个部分词库和关系库,词库用于存储主题词,关系库则用于存储主题词间的各种关系。 主题词库具有非常重要的应用价值,它是自然语言处理中其它研究工作的前提和基础。 主题词库是信息组织与检索的重要语义工具,其应用非常广泛主题词库可以解决方便、快速、科学的检索大量文献的问题;特定学科领域的主题词库可以用于构建针对具体学科领域的垂直搜索引擎;由于主题词库中描述了主题词之间的语义关系,还可以起到知识导航的作用;在主题词库的基础上可以更加容易的构建领域本体库;此外,主题词库也被应用到人工智能、云计算等诸多相关领域中。 国外关于主题词的发展已经有了比较长的历史了,相比于国外,国内的主题词研究工作相对滞后j对主题词库的研究也起步较晚。 目前国内关于主题词库的研究也取得了一些成果,但是随着研究工作的深入,主题词库的构建过程中出现了一些新的问题国内的主题词库大都采用手工完成,需要大量的人力物力财力,主题词库的自动构建技术尚不成熟,这样就使得主题词库的构建工作难以推广到具体的学科领域,而且目前面向具体学科领域的主题词库构建的相关研究也很少。 此外,目前构建的主题词库中主题词之间的关系都是简单的两两主题词间的直接关系,并没有挖掘主题词之间潜在的、间接的隐性关系。 所以,研究面向具体学科领域的主题词库的构建工作意义重大。 12研究现状针对主题词库的研究源于二十世纪五十年代,它的发展是建立在分面组配分类法、标题法、元词法等知识组织方法基础上的。 最早的主题词库由美国杜邦公司编制,至今国外的主题词库已发展N-千多种,国内主题词库的种类也超过一百三十多种。 自上个世纪60年代末,主题词库已经逐渐成为信息检索的主要语言并且得到了极大的发展,各国现有的主题词库已经涵盖了各个领域并且达到数以千计。 硕士学位论文MASTERS THESIS121国外研究现状主题词库的发展在国外已经有比较长的历史了,国外主题词库的数量也已达到几千部。 以美国为代表的西方国家是以主题词库作为其主要检索语言的,19世纪下半叶标题法的始祖卡特对标题表的编制做出了非常重要的贡献,他于1876年发表了字典式目录规则。 在此基础上,美国图书馆协会出版的美国图书馆协会标题表于1895年问世,它是世界上首部权威性的标题表。 美国人穆尔斯在二十世纪四十年代,首提情报检索、情报检索系统、叙词法、叙词等概念,但并没有构建具有实质意义的主题词库。 美国陶柏于1951年提出了利用组配标引来实现检索的元词法,元词法概念的提出为现代的计算机检索起到了一定的奠定意义;首部适用于文献检索的主题词库由美国杜邦公司于1959年编制。 美国武装部队技术情报局于1960年出版的ASTLA词表在主题词库的发展史上具有划时代的意义,它是第一部计算机使用的主题词库。 l lJ50年代到60年代是主题词库迅速发展的时期,其发源地也从美国传到欧洲各国,这_时期涌现了很多针对主题词研究的著名人物。 卢恩被公认为是题内关键词、计算机定题服务系统、计算机编码系统、自动标引和自动编制文摘等方面的创始人;英国图书馆、情报学家莱夫顿,第一次提出了检准率、标引相似度、词汇专指性、检全率等概念。 12萨尔顿利用他做的自动化情报检索系统实现了词语的自动化规范处理,自动聚类,自动编制上下位词、同族同级词、同义词概念词表;70年代,英国电气化公司的艾奇逊等人编制出了分面叙词表,它的出现说明主题词库的编制水平进入了一个新的阶段。 上世纪八十年代,随着计算机技术在图书情报等领域的发展与应用,主题词语言已经成为信息检索的主流语言。 特别是WordNet的出现,标识着主题词的发展进入到了一个更加成熟的阶段。 它是由普林斯顿大学语言、心理以及计算机工程等方面的专家合作开发的一部以认知语言学为理论指导的在线英语词典数据库系统;它将英文组织为同义词集合用以表示单个基本的词汇概念,集合涉及到动词、名词、副词和形容词等。 进一步在这些词汇概念间建立各种词汇语义关系上下位关系、反义、部分、同义及完全关系等。 3WordNet在当今国际计算语言学领域已有很大的影响,WordNet研究学会于xx年成立,第一届WordNet国际会议也于xx年在印度召开。 WordNet已经成功地被用于语言学自动处理、检索系统、双语机器翻译等多个方面,是文本分析等众多相关领域的重要资源,许多国家都已开始实施构造本国语言的WordNet版本,中文WordNet的实现已经有了一些进展。 到目前为止,国外先后编制了上千种主题词库并且在各个领域都得到了广泛的2硕士学位论文MASTERS THESIS应用。 122国内研究现状相比于国外,国内对主题词库的研究工作起步较晚,但是发展还是比较快的。 主题词库在我国的发展总结起来有两个阶段,第一阶段为1964年以前,主要表现为标题表的发展,在1950年诞生了国内最早的标题表中文图书馆题法,但是很少有人采用此标题法;1964年,以ASl lLA表为基础,我国编制了第一步实用型标题表航空科技资料主题词库(第l版)。 1964年以后,我国的科技文化事业如雨后春笋般蓬勃发展起来,主题词库也得到了较快的发展,我国正式步入主题词库的发展阶段。 第二阶段始于70年代,期间主题词库编制工作得以大规模的开展。 1971年,由航空共进部编制的专业主题词库航空科技资料主题词库(第2版)得以出版。 接着,具有影响力的主题词库首推1979年出版的汉语主题词库,它是由我国科学技术情报研究所、北京图书馆主编的,国内首部大型综合性的主题词库。 该主题词库的工作耗时五年,前后有505个单位以及1378位专业人士参编而成,迄今为止,它仍是国际上收词量最高的主题词库,它的编制是我国主题词库发展史上的重大里程碑,给我国主题词库的发展带来了重大的推动作用。 80年代,我国主题词库的发展进入飞速发展时期,在这一期间,国内编制出了大量的主题词库。 具体列举如下1981年的冶金专业叙词手册;1983年的常规武器工业分面叙词表、农业主题词库、华工汉语主题词库;1984年的图书情报学及相关学科主题词库、地质学汉语叙词表、仪器仪表主题词库、纽约时报主题词库;1985年的国防科学技术叙词表、船舶工业范畴表、石油工业汉语主题词库、国防科学技术叙词表航天专业范畴表、林业汉语主题词库、联合国教科文组织叙词表、医学汉语主题词字顺录、技侦情报主题词典、国防科学技术叙词表、档案主题词简表、广播电影电视专业主题词库、交通专业汉语主题词库;1986年的测绘科学技术主题词库、海洋科学主题词库、计量学与测试技术主题词库、国防科工委档案主题词库、煤炭科技文献检索词典;1987年的矿山机械主题词库、教育分面叙词表、公安部文件主题词库、国际共产主义运动主题词库、钢铁工业主题词库、水利水电科学技术主题词典、新闻叙词表、军事公文常用主题词库、光学汉语主题词库、汽车工程叙词表、城乡建设汉语叙词表、中医药主题词库、建筑材料工业主题词库;1988年的有色金属工业叙词简表、工程兵技术武备叙词表、军事情报主题词库、中国档案主题词库、国际军事约章主题词库、铁路汉语主题词库、硕士学位论文MASTERS THESIS后勤科学技术主题词库、稀土叙词表、生物学主题词库、纺织汉语叙词表、装甲兵常用主题词库、标准文献主题词库;1989年的环境科学叙词表、自动化科学技术主题词库。 4190年代前期,主题词库的编制工作持续高速发展,但是后期热潮有些回落,但是这一时期仍然编制了很多主题词库。 如1990年军用专业词表军用主题词正式出版;1991年的水产科学叙词表、军用公文主题词库、资源科学主题词典等;1992年的中国地震科学主题词库、艺术科学叙词表、军用后勤主题词库等;1993年的军用医学主题词库、军用主题词释义词典、世界汉语教学主题词库、公文主题词库、航空航天医学主题词库、邮电通信技术主题词库、英汉对照表等;1994年的物理学汉语主题词库、石油主题词库、农业科学叙词表、民航主题词库范畴纲目、军队档案常用主题词库、生物分类叙词表、计算机科技英语主题词库、中国分类主题词库等;1995年的音像资料叙词表、兵器科技档案主题词库、教学汉语主题词库、中国档案主题词库、环保保护档案主题词库、地理科学叙词表、航天科学技术叙词表等;1996年的中国中医药学主题词库、管理科学主题词库、社会科学检索词表等;1998年的军队政治工作主题词库、中国铁路叙词表、公文主题词库、大气科学主题词库等;1999年的标准文献主题词库与分类法对照索引、黄河水利委员会公文主题词库等。 41进入二十一世纪以来,国内最有影响力的主题词库是由中国科学院董振东先生创立的知网(英文名称为HowNet)。 知网的基本内容涉及概念间以及概念属性间的关系,其基本单位是英语或汉语所代表的概念,它是一个概念间以及概念属性间关系的网状的知识系统。 51知网的创建具有重大的意义,它可以被认为是中文的WordNet。 13论文主要工作本论文的主要工作是以教育技术学为例,构建面向特定学科领域的主题词库,主要包括改进主题词抽取的相关算法实现主题词的自动提取工作;在两两主题词简单关系的基础上,利用ISM算法实现主题词间间接的隐性关系的挖掘工作。 论文的主要研究工作有 (1)介绍了国内外关于主题词库的研究现状以及与主题词相关的理论基础。 (2)改进并实现了主题词抽取的相关算法。 通过研究传统主题词抽取的算法,提出了一种文档结构与统计相结合的主题词提取方法,并通过实验证明此方法在准4硕士学位论文MASTERS THESIS确率、召回率等方面要优于传统的TFIDF方法。 (3)研究ISM算法并将其运用在主题词隐性关系的挖掘上。 实现了利用ISM算法挖掘主题词间隐性关系,形成主题词的层级关系图的工作。 (4)利用主题词的抽取算法和隐性关系挖掘算法以教育技术学为例构建面向特定学科领域的主题词库。 (5)最后,对构建出的教育技术学主题词库做一应用研究,在主题词库的基础上开发针对教育技术领域的垂直搜索引擎。 论文的特色之处在于改进了主题词抽取的相关算法,并且在主题词及其简单关系的基础上实现了主题词间隐性关系挖掘的算法形成了主题词的层级关系图,这是以往任何主题词库构建工作都没有研究过的。 最后,通过主题词及其关系挖掘算法构建了面向教育技术学的主题词库并对其做了应用研究。 14论文的组织结构本论文的章节组织结构如下,组织结构图如图11所示第一章为绪论,分别介绍了本论文所研究课题的研究背景和意义,以及研究课题的国内外研究现状,并对本文的主要工作和组织结构进行了阐述。 第二章对与主题词相关的概念进行了介绍。 分别对关键词、主题词、本体等概念进行了较为详细的介绍,并比较了它们之间的区别。 在主题词的基础上,对词间关系进行了介绍。 第三章详细论述了面向学科主题词库构建过程中所用到的两个算法的实现过程,是本文的核心部分。 这两个算法分别是主题词抽取方法和隐形关系挖掘方法,其中,详细论述了各个算法的思想、原理、步骤和实现过程等。 第四章介绍了利用主题词抽取算法和隐形关系挖掘算法构建面向教育技术学科的主题词库的具体构建过程。 首先利用改进的主题词抽取算法完成主题词的提取工作,提取出主题词后通过人工标注的形式,手工的标注两两主题词间的简单关系,在主题词及其之间简单关系的基础上,利用ISM算法完成隐形关系的挖掘,形成主题词的层级关系图。 第五章对主题词库做应用研究,利用开发的主题词库开发面向教育技术学科的垂直搜索引擎。 第六章对论文所进行的研究进行了总结与展望。 5硕士学位论文MASTERS THESIS图11论文组织结构图6硕士学位论文MASTERS THESIS2主题词相关理论综述21主题词概述主题词是在标题词、自由词、关键词的基础上形成的一种新型的检索语言。 标题词是指直接从文章标题中抽取出来的词,自由词是从文章的标题、摘要或正文中抽取出来的词,关键词的概念与主题词最接近,是未经规范化处理的具有实质意义的自然语言。 相比较于标题词、自由词和关键词,主题词具有更大的检索和标引价值,而主题词未来的发展趋势是本体,所以下面就从与主题词关系比较大的自由词、关键词、本体等方面介绍。 211相关概念的界定 (1)自由词概述关于自由词的定义有很多种,现根据时间顺序列举几种如下1999年,黄茂辉等人在中国医院管理的第六讲医院科室的信息管理中给自由词的定义如下关键词是文献中自己所使用的语言,一般是用计算机自动抽取排序的,也称为自由词。 xx年,王慕东在图书馆学刊“数字图书馆的发展及面临的问题一文中将自由词定义为自由词是指检索的关键词,是由用户选择的不受任何限制的。 xx年,朱芊在国家图书馆学刊“自由词补充标引刍议一文中将自由词定义如下所谓自由词,是指词表以外的未经规范化处理的自然语言词汇。 终上所述,所谓自由词是指直接从文献的标题、摘要或正文中提取出来的,能够反映文献主题的、对识别检索文献起重要作用的自然语言,例如汉语主题词库中的上位词、下位词、替代词等名词术语或非正式的主题词。 【6J (2)关键词概述关键词源于英文的keywords,是指从论文、报告等文献中提取出来的能够表示全文主题概念的、具有实质意义的、未经规范化加工的关键词汇。 在学术期刊中,一般认为关键词主要包括名词和术语。 在描述文献主题内容方面,关键词是非常重要的,关键词为文献提供了一个简要的概括,读者可以通过阅读关键词就能在比较短的时间里大致了解文献的基本内容,而不需要通篇阅读文献。 关键词自身的功能作用决定了关键词所应具有的性质专指性。 专指性是指每个关键词都要对应于文献的主题概念。 全面性。 全面性是指一组关键词要能够反映文献的专业主题和相关主题。 硕士学位论文MASTERS THESIS形式上,关键词是直接从文献标题、摘要或者正文中提取出来的词汇,因此它使用的是作者本人使用的词汇,是自然语言。 内容上,关键词应是一种具有实际意义的名词性的词或词组,其可以是某个学科内的专业术语,如教学设计、教学策略、学习风格等。 功能上,关键词一定要能表征文献的主要内容,具有一定的检索意义。 关键词与主题词等其它人工语言最大的区别之处在于用词的自由性和灵活性。 关键词有2大特点关键词是未经规范化处理过的词,它摆脱了词表的限制,是非受控语言;关键词能够表征文献的主题内容,由主题词和自由词两部分组成。 (3)主题词界定主题词,又称为叙词,是指以概念为基础的,经过规范化处理的,具备组配功能的、可以显示词问语义联系和动态性的词或者词组,是用来描述文献主题的一种标识符号。 【加J与自然语言中的词不同,主题词是从自然语言的重要词汇中选择出来的经过规范化处理了的词或词组,是专门设计的一种人文性质的词汇。 主题词是经过规范化处理了的,它们之间具有一定的语义联系和位属关联。 主题词之间有三种主要关系,它们分别是用代关系、属分关系及相关关系。 主题词以概念性质为出发点,每个主题词都可以作为领域内的一个概念收录到主题词库中。 主题词库,也即叙词表,是指由主题词及其之间的关系构成的一种规范化的词典。 主题词库是一种由概括一定学科或者专业领域的具有一定语义关联的词或者词组,并经过了经过规范化处理、按特定顺序排列所形成的后组式检索词典,是一种能够将人们的自然语言转换成标准的非自然语言的工具。 主题词库中的词都是一个个的概念,这些概念都是经过规范化处理的且相互之间有语义关系的词。 简单的说,主题词库就是经过规范化处理了的主题词及其之间的关系所构成的词典。 相比较与普通字典,主题词库中的词是经过规范化处理的,其中的词没有给出明确的定义,是通过主题词之间的语义关系表示该主题词的含义的。 领域主题词是指用来描述某领域内的使用较频繁的主题词,是对某学科领域概念的系统性、完整性的描述,在其它领域或者日常生活中使用较少。 领域主题词必须满足以下两个条件主题词必须是合法的词或词语;主题词描述的是表征该领域内的概念。 领域主题词构成领域主题词库,主要研究如何定义该领域中的概念及概念之间的关系,提供该领域中发生的活动、领域的主要理论及基本原理等。 (4)本体概述关于本体的定义很多,但其实质都是一样的。 本体(英文名称为ontol ogy)是一个关于特定主题的规范化的说明,它是一个被广泛认同的规范化的描述。 其中的8硕士学位论文MASTERS THESIS专业术语特定的学科或者专业领域;逻辑说明用来描述术语的涵义及术语与术语之间关联规则。 概括来讲,本体提供了一个词与关系的集合,词表用来存储一定专业领域的专业术语;关系集用来描述术语之间的语义关联。 本体可以解决四个方面的问题通过相同的底层本体,可以在不同的用户之间或软件代理之间传递和交流信息,有利于信息的共享。 本体可以实现特定学科领域知识的多次重复利用。 例如如果教育技术学科建立了自己的本体库,那么其他的研究组织在想用到教育技术领域的本体时可以直接拿来用,而不需要再重新创建。 而且不同的小本体之间可以合并集成为更大的本体库。 由于本体进行了明确规范的说明,故专业领域内的知识变得更加容易被理解。 通过本体,专业人士可以深入分析该专业领域内的知识的共性,这对特定学科领域的发展是很有意义的。 212概念问的比较 (1)主题词与关键词、自由词间的比较自由词是未经规范化处理的词语,主要包括标题词(直接从论文标题中抽出来的词)、专业术语和其他单词或者词组,而主题词是反映论文主题的且经过规范化处理了的;它们之间是属概念与种概念之间的关系。 广义上讲,关键词包括规范了的主题词和没有规范的自由词,但是从专指性、规范性方面来说,主题词大于关键词,而关键词又大于自由词。 关键词与主题词之间的相同点是都可以简要明确地表达文献的主要内容,具有一定的检索意义。 不同点是主题词与关键词是各自独立的、自成系统的检索语言,它们之间无等同关系,也没有隶属关系。 主题词属于受控语言,相比较于主题词,关键词则比较灵活,摆脱了词表的限制,是非受控语言。 因为主题词是没有经过规范化处理的自然语言,相比较于主题词,其检索意义不大,而主题词是经过规范化了的人工语言,它在信息检索方面具有很大的价值,因此关键词应尽量能与主题词保持一致。 从字面形式来看,它们也是有区别的。 主题词库达统一主题,无论在何种情况下其字面形式都是完全一致的;而从关键词的定义中可以知道,它是一种未经过规范化的自由词,是直接从论文中抽取出来的,保持着论文中原有的字面形式,无需进行规范化,这就决定了关键词字面形式的多样化。 不同的作者在不同的文献中表达同一主题时,可能会出现多种字面形式的关键词。 如“主题词、“主题概念”、“主要内容”等表示此类概念的词语都可以用作关键词,但是经过规范化后的词语只能是“主题词。 正是因为这样,主题词可以降低由词汇字面差异而带来的文本处理时的不确定性,所以主题词作为检索语言体现了更大的检索价9硕士学位论文MASTERS THESIS值。 (2)主题词与本体间的比较主题词与本体的相同点是都是对特定的学科领域内的知识的描述。 它们的不同点主要体现在以下几个方面【41】主题词与本体在逻辑表达形式上是不同的。 主题词是经过规范化处理了的人工语言,而本体中的词则是通过自然语言和半自然语言来描述的。 主题词与本体在组织结构上也是不同的。 主题词库中的知识点的分布呈现一种一维的、线性的状态,而本体中的知识点的分布是网状结构的。 本体是一个开放性的系统,它的知识点可以随着特定学科领域的不断发展而得到及时的更新,而主题词库则是相对稳定的体系,其中的词不会轻易的被更改。 主题词库与本体最大最主要的区别是主题词库中主题词间的关系相对比较简单,其中表述的语义关系为“用、代、属、分、参、族。 本体中概念之间的关系比主题词库中主题词间的关系更加广泛、深入、细致和全面。 这也是主题词库有待改进的地方。 主题词库仅是一个简单的词汇库,其中表达了主题词及其之间的关系,但是本体不仅包括词汇库,也是一个知识库。 主题词库结构比较保守,相对比较稳定,不能随时进行更新,但本体结构比较开放,是一个基于XML的体系,可以利用本体将不同信息源中的知识进行整合,有利于资源的重用与共享。 从上面的讨论中我们可以看出,虽然本体在某些方面优于主题词,但是构建主题词库是构建该学科领域的本体的前提,因为主题词库与本体的概念集是完全相同的。 主题词库中主题词之间的语义关系虽然没有本体中的关系复杂,但是主题词库仍然描述了概念之间的简单的语义关系,具备本体的一些基本特征,故从这个角度上来讲,主题词库也是一种简单的本体。 由于主题词库与本体的原理是相同的,所以通过将现有的主题词库转化成相应的本体的方式来构建领域本体是本体发展的必然趋势。 22主题词问关系概述关于词与词之间的关系,知网对其做了最详尽的描述。 知网规定词与词之间的关系共有16种,它们分别是材料一成品关系,工具一事件关系,同义关系,属性宿主关系,对义关系,部件整体关系,值一属性关系,场所事件关系,时间事件关系,上下位关系,受事内容领属物等一事件关系,反义关系,事件一角色关系10硕士学位论文MASTERS THESIS施,事经验者关系主体一事件关系,相关关系和实体值关系。 每个主题词都有一定的含义,某个主题词的含义是通过该主题词与其它主题词之间的相互关系(也称为语义关系)体现出来的。 相对于知网中规定的词与词之间的关系,主题词之间的关系则比较简单。 主题词之间的关系主要有“用、“代两种语义关系,它们包括了同义关系,属分关系和相关关系。 【7】 (1)同义关系是指同一概念在字面形式上的不同反映。 具有同义关系的词所表达的实质是同一事物对象,因为每个人建构事物对象的维度不同,对同一事物可能采用了不同的字面形式,但其实质都是一样的。 (2)属分关系主要包括种、属概念。 在特定的学科领域内,具有属分关系的词在语义关系上可以是指整体与部分概念的关系,也可以是指上位概念与下位概念的关系。 (3)相关关系是指主题词之间既不是同义关系也不是属分关系的其它语义关系,如反义关系、因果关系等。 相关关系可以使语义得到扩展。 教育技术学科的主题词都是一些实体型概念,有其本身的特殊性。 结合教育技术学科本身的特点,我们规定教育技术学两两主题词之间的简单关系主要有同义关系、反义关系、上下位关系、整体与部分关系和相关关系。 同义关系在特定的学科领域内,具有同义关系的不同词语都具有相同的内涵和外延,只是字面形式不同而已。 举例压量是当刺激停止作用后,在短时间内感觉仍不消失的现象,是神经兴奋留下的痕迹,故又称“蹙觉残留,它存在于各种感觉中,如视觉、听觉、味觉、肤觉等都可能伴随后象,其中视觉后象简称“视后象表现最为明显;视后象分为正后象和负后象两种。 说明“后象与“感觉残留是同义关系。 反义关系具有反义关系的主题词在语义上表达相反、相对立的意思。 举例扬独童丝是一种普遍存在的认知方式,具有该认知方式的个体对客观事物作判断时,倾向于利用自己内部的参照,独立对事物作出判断,不易受外来因素影响和干扰。 堑筮在丝是一种普遍存在的认知方式,具有该认知方式的个体对事物的判断倾向于以外部参照作为信息加工的依据,难以摆脱环境因素的影响。 说明“场独立性与“场依存性是反义关系。 上下位关系具有上下位关系的主题词在语义上是上位概念与下位概念之间的关系。 处于上位关系的概念表达的事物更抽象,而处于下位关系的概念表达的事物更具体。 硕士学位论文MASTERS THESIS举例拯准叁墨型坠是以具体体现教学目标的标准作业为准,看学生是否达到标准以及达标的程度如何所进行的测验。 说明“标准参照测验这一词语表达了“测验领域的某一个具体概念,因此,我们可以说“标准参照测验与“测验是上下位关系,其中“测验”是上位概念,“标准参照测验是下位概念。 整体与部分关系具有整体与部分关系的主题词在语义上是整体与部分的关系。 具有整体关系的主题词表达的事物包含具有部分关系的主题词所表达的事物,具有部分关系的主题词是整体的一部分。 举例煎壁坌堑在设计过程中早期完成的事项,包括筮堑噩噩、目的、目标以及组织课程单元。 说明“前端分析一与“分析需要是整体与部分的关系,“前端分析包括“分析需要,“分析需要一是“前端分析的一部分。 相关关系具有除了上述四种关系以外的其它关系的主题词之间的关系称为相关关系。 举例揎晶迟程建设要体现现代教育思想,符合科学性、先进性和教育教学的普遍规律,具有鲜明特色,并能恰当运用现代麴堂量苤、方法与手段,教学效果显著,具有示范性和辐射推广作用。 说明“精品课程一与“教学技术之间是相关关系。 23主题词抽取原则抽取出的主题词应具备以下基本原则嗍 (1)客观性原则。 抽取出的主题词要客观、真实地体现出特定学科领域的事物或者研究对象。 主题词抽取所采用的语料必须是真实的资料(例如特定学科领域的著作、论文、报告、书籍等),而且要是资料的全部(例如一整篇一整篇的文献、报告或者著作),不能仅根据资料的替代者(例如文献的文摘,著作的篇名、前言、引用、结论或图表等)来抽取主题词。 (2)专指性原则。 抽取出的主题词要选用特定学科领域的专指主题词,不能用与此学科领域无关的概念来充当主题词。 (3)实用性原则。 抽取出的主题词必须满足特定学科领域的要求,例如教育技术学科主题词应该符合教育技术学科的需求,由于教育技术学科本身的特点,抽取出的主题词都必须要是实体型的。 (4)全面性原则。 抽取出的主题词要尽可能全面地体现特定学科领域各个方12硕士学位论文MASTERS THESIS面的内容,以保证抽取出的主题词能覆盖到整个学科领域的各个方面。 (5)规范性原则。 抽取出的主题词必须满足特定学科主题词描述的规范,要有清晰、明确、统一的结构和组织形式。 (6)准确性原则。 抽取出的主题词必须能够准确的描述和表达相关概念的含义,应该能消除歧义,不能模棱两可、一词多义。 24小结本章主要对与主题词相关的概念进行了详细地介绍。 包括自由词、关键词、主题词及本体等概念的介绍,并对这些概念做了比较区别。 在主题词的基础上,对其词间关系进行了介绍,并讨论了主题词抽取的一些原则。 传统的主题词提取方法利用预先制定的主题词表,人工标注文献的主题词,费时费力,效率低下,已不能满足海量信息处理的需求。 目前,对给定文档提供主题词一般有两种方法指定主题词和抽取主题词。 19】指定主题词是从预先制定的主题词表中利用机器学习的方法为给定文档指定几个最符合文档主题的词语。 这种方法要依赖预先制定的主题词表,当给定文档的主题词超出主题词表的范围时,很难准确的抽取出文档的主题词,可扩展性和可移植性较差。 抽取主题词是利用机器学习算法和统计知识,从文档中自动的抽取出反映文档主题的一些词语或词组作为主题词。 这种方法不依赖于主题词表,直接利用文档的统计信息,具有较好的可扩展性和可移植性。 抽取主题词的方法根据使用的技术不同,又可以进一步分为有监督的抽取方法和无监督的抽取方法。 有监督的抽取方法把主题词抽取看成一个分类问题,使用成熟的分类技术抽取文档的主题词。 如文献1011和文献【12】,有监督的抽取方法需要手工标注大量的语料库,而这正是国内所缺乏的。 无监督的抽取方法不需要标注语料库,直接利用给定文档的结构和统计信息,成为近年来国内研究的热点。 无监督的抽取方法较多,如文献1320】,其中最成熟是徐文海,温有奎及钱爱兵等提出的利用TFIDF算法提取文档主题词。 这些方法都都利用了文档的统计信息,有的也结合了文档的结构,如郑家恒等提出的基于成对比较法的主题词提取。 但是,这些方法都存在两个共同的问题一是将词语的频率作为词语重要程度的主要参数,过分强调词频的重要性,导致得出的主题词大多是一些常用词;二是没有充分利用词语本身的特征及文档的结构特征,如词性,词长及词语的位置等,造成主题词提取的准确率不高。 311算法流程图针对主题词提取过程中存在的问题,本文提出一种文档结构与统计相结合的主题词提取方法。 该方法的基本思想是准确提取反映文档内容主旨的主题词,需要充分利用词语本身的各项特征和文档的结构特征,其中最重要的特征是词语的词频、词性、词长及其位置;基于此,该算法结合文档的结构和统计信息,利用词语的词频、词性、词长和位置信息,高效准确的提取海量文档的主题词。 算法的基本流程图如图31所示14硕士学位论文MASTERS THESIS-文档1Ir词频统计位置记录词长计算?I权重计算I|1IrI主题词l矗J图3一l基于结构和统计的混合式主题词提取方法312算法原理分析l候选词的确定为了高效准确的提取文档的主题词,首先需要对文本进行分词和词性标注,然后借助停用词表和词性对词语进行过滤,确定出候选主题词。 (1)中文分词中文的词与词之间不同于英文,没有明显的空格作为分隔符,因此,需要先进行词语切分。 目前,中文分词技术已经非常成熟,其中最成熟的是中科院的分词系统ICTCLIS,最新版本的30其分词速度单机达到996KBs,分词精度达到98345,API不超过200KB,各种词典数据压缩后不到3M。 (2)基于词性和停用词表的候选词过滤研究表明,并不是所有的词都有可能是文档的主题词,对于一些虚诃和停用词,因为没有实际的意义或含义过于宽泛,基本不可能成为文档的主题词,为了提高主题词抽取的效率和精度,需要借助词性和停用词表将其过滤掉。 给定文档通过ICTCLIS分词和词性标注后,我们将副词、介词、连词、助词、叹词、拟声词、语气词、标点符号和方位词等去掉。 并通过停用词表,将含义过于宽泛的常用词如“别人、“不但、“固然等也过滤掉。 2词语权重计算、词语的权重计算方法是主题词提取的核心和关键,目前的词语权重计算函数有很多,其中被用的最多最成熟的是TFIDF值和词频位置加权法。 对于没有语料支持的单文档主题词抽取,无法计算词语的DF值,为此,徐文海等提出将句子作为文档来计算DF值。 然而,如果一个词语在同一篇文章中的多个句子出现,却只在很硕士学位论文MASTERS THESIS少的几篇文档中出现,这将导致它的DF值很大,显然得出的DF值与实际不符。 词频位置加权法是将词语的权重看成是词频和位置的函数。 以前很多学者认为词语权重是词频和位置的线性函数,但是,近年来人们普遍认为词语权重是词频和位置的非线性函数。 词频和位置加权法也存在一个问题,就是没有考虑词语本身的信息,如词长等。 而研究表明,文档的主题词80为4字词、5字词和6字词。 【14】针对上述问题,我们结合TFIDF值和词频位置加权法,将词语的权重看成是词频、位置和词长的非线性函数,词语权重计算函数如下weightj以fie+i l+pro厂蕊高毫丽其中,weightr表示词语i的权重,儿表示词语i的词频,Dq表示词语i所在的位置,1表示词语i的词长,口、7分别表示词频、位置和词长的调节因子,t a+fl+r一。 词语权重计算函数中,词频因子和词长因子都很容易计算,对于词语的位置因子,我们采用文献【2l】中的成对比较法进行计算,将文档划分为标题、摘要和结论、正文三个区域,并分别用 5、 3、l表示,取最大的位置标号表示词语的位置,计算词语的重要性比值矩阵,然后使用成对比较法计算每个词语的位置因子。 3主题词提取根据候选主题词的权重计算函数与计算方法,我们可以计算出每一个候选词的权值,并对其按降序排列。 按照权值从高到低的顺序取一定数量的候选词作为最终的文档主题词。 7313试验结果及分析l试验数据与评价标准由于国内没有标准的主题词抽取测试语料库,我们选取了100篇教育技术学核心期刊论文作为测试语料库。 对于主题词抽取的评价,国内外也没有统一的标准,但通过分析文献1221,发现国内学者基本上都采用两种方式对主题词抽取进行评价 (1)用户打分的方式。 将试验结果分为“满意、“认可、“稍差和“不好四个等级,让用户进行选择,然后统计语料库中各个等级的百分比。 (2)计算试验结果的召回率和准确率。 召回率和准确率主要用于对信息检索结果的评价,然而在主题词抽取评价中也得到了广泛的应用。 2试验结果与分析16硕士学位论文MASTERS THESIS依据上述评价标准,我们采取了两种方法相结合的评价方式。 在口=0 5、=0 3、72O2的情况下,利用本文方法抽取了100篇测试文档的主题词,然后将100篇测试文档及其试验结果分给20名用户,让其对抽取结果进行评价,选择“满意、“认可、“稍差或“不好,并要求用户抽取5-9个词语作为文档的标准主题词,用于计算抽取结果的召回率和准确率,用户的满意度评价结果如表31所示表3一l用户满意度评价结果主题词个数满意认可稍差不好5503010107305020109405010096平均值4043331333667在文献【2l】中满意占42,认可占37,稍差占21,合起来可接受占79,我们的可接受程度占达到了90以上,较文献【2l】要高。 为了更加准确的评价试验结果,我们还将用户抽取的主题词作为标准结果,计算了在抽取主题词数量分别为 5、 7、9时的平均召回率、准确率和Fl值,并将其与使用TFIDF值抽取主题词的结果进行了比较,结果如表32所示表32本文方法和TFIDF方法试验结果对比平均召回率平均准确率平均Fl值主题词个数TFIDF本文方法TFIDF本文方法TFIDF本文方法5265053092864002708562572793550927145000275051829291856342667400027634626从以上试验结果可以看出,运用本文的方法获得的平均Fl在抽取5个主题词时,取得最大值,此时效果最好。 且本文提出的基于结构和统计结合的主题词提取方法较TFIDF方法效果要好。 32主题词层次关系的自动生成算法研究对抽取出来的主题词进行人工标引,手工的标注出两两主题词之间的简单关系,然后在简单关系的基础上,利用相关的算法进一步发现、挖掘出主题词间的隐性关系,生成主题词层次关系图。 主题词层次关系的生成利用解释结构模型法实现。 解释结构模型法(Interpretati veStructuralModeli ngMethod,简称ISM法)首先对较为复杂的系统进17硕士学位论文MASTERS THESIS行分析,从中分解并抽取若干要素,并结合实践经验以及一定的信息处理知识获得一个层次清晰的结构形式。 它属于一种结构化建模技术,是广泛使用的一种系统结构分析方法。 22】其基本原理是首先用图形和矩阵来描述各种已知的关系,通过一些基本假设和有向图、矩阵的运算,可以得到可达矩阵;然后在可达矩阵的基础上进一步计算,分解可达矩阵以此来推导系统的结构,使复杂的系统分解为多级递阶的结构形式。 【23】ISM法从提出到现在,已经被广泛应用于解决各种复杂系统问题,例如湖泊治理工程阱1,人口增长问题【251,对Col eman人体大循环系统模型进行修IT_1261,系统化科技政策目标的制定【271,成品油价格影响因素分析t281和业务流程重组(BRP)29-30】等。 【311分析发现,可以将ISM法应用于主题词的层次关系生成。 主题词之间的关系可以表示成一个有向图,主题词是有向图中的节点,两两词间的简单显性关系可以用有向图中的有向边表示,通过可达矩阵的计算,可以使两要素之间隐性的相互可达关系显性化;在可达矩阵的基础上作进一步计算、推导、可视化等,可以得出主题词的层级关系图。 321ISM法的三要素1有向图解释结构模型是一种表示系统内部各要素之间相互关系的模型,它描述了系统内部各个实体之间的关系,表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省大理州2024-2025学年七年级上学期期末考试历史试卷(含答案)
- 手抄报的设计课件
- 学生食品安全培训课件
- 橡胶厂成本核算管理办法
- 手外伤的康复课件
- 学生消防安全培训照片课件
- 培训课件战略(48-6)竞争战略
- 学生暑期安全知识培训内容课件
- 重庆南线种子公司招聘工作人员试题带答案分析2024年
- 学生宿舍安全培训报告课件
- 口腔护士藻酸盐取模操作规范
- 机扩根管治疗讲课件
- 农村道路交通宣传课件
- 控制工程基础课件第二章
- JG/T 187-2006建筑门窗用密封胶条
- 2025材料员考试试题及答案
- 陕煤集团运销合同协议
- 航空货物运输管理操作手册
- DB3502T 141-2024城市道路开口设置指引
- 混凝土搅拌站扬尘管理制度
- 行政管理毕业论文-我国地方政府行政机构改革问题研究
评论
0/150
提交评论