




已阅读5页,还剩80页未读, 继续免费阅读
基于特征的传统科技论文结构化析取关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学校代号:1 0 5 3 2 学 密 号:g 0 8 2 4 0 1 5 8 级:公开 湖南大学工程硕士学位论文 基于特征的传统科技论文结构化 析取关键技术研究 l- 。 s t u d y o nk e y t e c h n i q u e so fs t r u c t u r e di n f o r m a t i o ne x t r a c t i o nf r o m t r a d i t i o n a lp a p e rb a s e do nf e a t u r e b y c h e nj i a n g u o b e ( m i n j i a n gu n i v e r s i t y ) 2 0 0 7 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro f e n g i n e e r i n g l n s o f t w a r ee n g i n e e r i n g i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r a s s o c i a t ep r o f e s s o rc h e nh a o s e n i o re n g i n e e rl i ub a n g m o u m a r c h ,2 0 1 1 56 4709 川iy 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律后果由本人承担。 作者签名: 体童 = 】日期:7 , ol1 年歹月巧e t 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 不保密口。 、 ( 请在以上相应方框内打”) 作者签名:能尘、d 导师签名: e l 期:汐年 箩月污1 9 ,。, 日期: 沙年印巧e l 却行炎 幕于特征的传统科技论文结构化析取关键技术研究 摘要 科技论文是科学技术研究活动产出的一种重要形式,是促进现代科学技术转 化为现实生产力的重要媒介。目前科技论文大多采用文字处理软件( 如m i c r o s o f t w o r d 等) 进行编辑,由于w o r d 等格式为非结构化的文本,不能直接提取标题、作 者、摘要、关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、 关联分析等高层次应用需求。 本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文 的基本构成和格式特征,基于特征学习提炼析取规则,设计并实现一个传统论文 结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本。论 文的主要工作和创新包括: 1 ) 通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技 论文的结构化存储要求,设计并实现了一个科技论文结构化析取的总体技术框架, 该框架具有良好的可扩展性。 2 ) 提出一种w o r d 文档结构化信息析取算法,该算法由三部分组成: 首先,样本学习:由于各期刊的论文发表格式不尽相同,先对各期刊的传统 论文分别进行样本学习,标识w o r d 文档中各论文要素的文本、格式特征,生成 析取规则并存入规则文档库。 其次,信息析取:选择与预析取期刊论文相对应的析取规则,从w o r d 文档 提取出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。 最后,生成多维论文:自动生成基于x m l 的符合多维科技论文存储格式的 结构化多维科技论文。 3 ) 设计并实现一个基于特征的传统科技论文结构化析取系统 x w o r d e x c h a n g e r 。系统开发集成信息析取技术、x m l 结构化技术和机器学习技 术,目前该系统试用情况良好。 关键词:信息析取;传统科技论文;结构化;特征规则 工程硕上学位论文 a b s t r a c t s c i e n t i f i cp a p e ri sa ni m p o r t a n tf o r mo ft h es c i e n t i f i c t e c h n o l o g i c a lr e s e a r c h a c t i v i t i e s o u t p u t ,i sa ni m p o r t a n tm e d i u mo fp r o m o t et h em o d e r ns c i e n c et e c h n o l o g y t r a n s f o r mi n t op r a c t i c a lp r o d u c t i v ef o r c e s m o s ts c i e n t i f i c p a p e r sc u r r e n t l yi se d i t e d b yw o r d - p r o c e s s i n gs o f t w a r e ( s u c ha sm i c r o s o f tw o r d ,e t c ) ,b e c a u s eo ft h ew o r d f o r m a ti sa nu n s t r u c t u r e dt e x t ,c a nn o t d i r e c t l ye x t r a c tt h et i t l e ,a u t h o r ,a b s t r a c t , k e y w o r d s ,t e x ta n do t h e re l e m e n t so fp a p e r ,i ti sd i f f i c u l tt om e e tt h eh i g h 1 e v e l a p p l i c a t i o n so fs c i e n t i f i cp a p e r ss u c ha ss t r u c t u r e dr e t r i e v a l ,s t a t i s t i c a lc l a s s i f i c a t i o n , a s s o c i a t i o na n a l y s i s t h i st h e s i sm a i n l ys t a r t w i t ha r o u n d i n gt h es t r u c t u r ee x t r a c t i o no ft r a d i t i o n a l s c i e n t i f i cp a p e r s t h i st h e s i sa n a l y z e st h eb a s i cs t r u c t u r ea n df o r m a tf e a t u r e so ft h e t r a d i t i o n a ls c i e n t i f i cp a p e r s ,a n dl e a r n st h ee x t r a c tr u l e sb a s e do nf e a t u r e d e s i g na n d i m p l e m e n t a t i o no fas y s t e mf o rt h ef e a t u r e b a s e di n t e l l i g e n ts t r u c t u r e di n f o r m a t i o n e x t r a c t i o nf r o mt r a d i t i o n a lp a p e r , w h i c hc a ne x p o r ts t r u c t u r e dt e x tt h a tm e e tt h e f o r m a tr e q u i r e m e n t so fm u l t i - d i m e n s i o n a ls c i e n t i f i c p a p e r sf r o mt r a d i t i o n a lp a p e r t h ei n n o v a t i o na n dm a i nr e s e a r c hw o r kc a nb es u m m a r i z e da st h ef o l l o w i n g : 1 ) a n a l y s i st h ef o r m a tf e a t u r e sa n ds t o r a g es t a n d a r d so ft r a d i t i o n a ls c i e n t i f i c p a p e r sp u b l i s hi nt h ec h i n ac o r ej o u r n a l s s ,s t u d yo nt h es t o r a g er e q u i r e m e n t sf o rt h e s t r u c t u r em u l t i d i m e n s i o n a ls c i e n t i f i c p a p e r s ,d e s i g na n di m p l e m e n t a t i o na no v e r a l l t e c h n i c a lf r a m e w o r kf o rt h es t r u c t u r e di n f o r m a t i o ne x t r a c t i o nf r o ms c i e n t i f i cp a p e r s , w h i c hh a sag o o ds c a l a b i l i t y 2 ) p r o p o s e da na l g o r i t h mf o rs t r u c t u r e di n f o r m a t i o ne x t r a c t i o nf r o mw o r d d o c u m e n tb a s e do nf e a t u r e t h ea l g o r i t h mc o n s i s t so ft h r e ep a r t s : f i r s t l y ,e x a m p l el e a r n i n g :s i n c et h ej o u r n a l sp u b l i s hp a p e r si nd i f f e r e n tf o r m a t t oe a c ho t h e r ,w el e a r n i n ge a c hj o u r n a l s e x a m p l ep a p e r ,i d e n t i f y i n gt h et e x ta n d f o r m a tf e a t u r e sf o rp a p e r se l e m e n t si nt h ew o r dd o c u m e n t ,g e n e r a t i n ge x t r a c t i o n r u l e sa n ds t o r e di nr u l e sd o c u m e n tl i b r a r y ; s e c o n d l y ,i n f o r m a t i o ne x t r a c t i o n :w es e l e c tt h ee x t r a c t i o nr u l ew h i c h c o r r e s p o n d i n gw i t hp r e e x t r a c t i o nj o u r n a la r t i c l e s ,e x t r a c t i o ne a c hp a p e r se l e m e n t f r o mt h ew o r dd o c u m e n t w ea l s oc a nb a t c he x t r a c t i o nt h et r a d i t i o n a lp a p e rw h i c hi s s t o r e di nt h es a m ed i r e c t o r yo ft h ej o u r n a l s ; f i n a l l y , g e n e r a t e m u l t i - d i m e n s i o n a l p a p e r : a u t o m a t i c g e n e r a t i o n t o 慕于特征的传统科技论文结构化折取天键技术研究 m u l t i d i m e n s i o n a ls c i e n t i f i cp a p e r ,w h i c hb a s e do nx m l s t o r a g ef o r m a ta n dm e e t st h e m u l t i d i m e n s i o n a ls t r u c t u r eo fs c i e n t i f i cp a p e r s 3 ) d e s i g n a n d i m p l e m e n t a t i o n o faf e a t u r e - b a s e ds t r u c t u r e di n f o r m a t i o n e x t r a c t i o nf r o mt r a d i t i o n a lp a p e rs y s t e m 一一x w o r d e x c h a n g e r s y s t e mi n t e g r a t e dt h e i n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y ,x m ls t r u c t u r e dt e c h n o l o g ya n d m a c h i n e l e a r n i n gt e c h n i q u e s ,s y s t e mi ng o o dc o n d i t i o nc u r r e n t l y k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n ;t r a d i t i o n a lp a p e r ;s t r u c t u r e d ;f e a t u r er u l e s 丁程硕上学位论文 目录 学位论文原创性声明和学位论文版权使用授权书i 摘要i i a b s t r a c t i l l 插图索引v i i i 附表索引i x 第1 章绪论1 1 1 课题研究背景1 1 2 国内外研究现状2 1 2 1 国内外研究现状综述:2 1 2 2 现有研究存在的不足3 1 3 本文研究内容和结构4 1 3 1 研究内容4 1 3 2 论文结构4 1 4 研究意义5 1 4 1 理论意义5 1 4 2 应用价值5 第2 章基础理论和相关技术7 2 1w o r d 文档介绍7 2 1 1w o r d 的对象7 2 1 2w o r d 的程序控制8 2 2x m l 技术ll 2 2 1x m l 技术简介1 1 2 2 2x m l 解析工具一d o m 1 2 2 2 3x m l 转换工具一x s l t 1 3 2 3w o r d 中的x m l 支持13 2 3 1w o r d p r o c e s s i n g m l 13 2 3 2o p e nx m l 规范l4 2 3 3w o r d 对象模型中的x m l 功能1 5 2 4 文本信息析取技术1 9 2 4 1 文本信息析取技术1 9 2 4 2 信息提取系统实现的方法1 9 v 基于特征的传统科技论文结构化析取关键技术研究 2 5 小结2 0 第3 章科技论文元数据规范研究2 1 3 1 传统科技论文结构介绍2 l 3 1 1 传统科技论文的结构2 1 3 1 2 传统科技论文格式标准2 2 3 2 科技论文的多维表达技术一2 3 3 2 1 多维科技论文系统架构2 4 3 2 2 多维科技论文元数据规范研究2 5 3 2 3 多维科技论文的存储结构2 6 3 3 基于特征的信息析取技术2 8 3 3 1w o r d 信息析取解决方案的形成2 8 3 3 2 基于关键词的定位方式2 9 3 3 3 基于特征的定位方式一3 0 3 3 4 基于语义的定位方式3 0 3 4 小结3 0 第4 章基于特征的传统科技论文结构化析取算法3 1 4 1 算法总体思路3 1 4 2 传统科技论文要素智能识别和抽取算法一3 2 4 2 1 传统科技论文预处理3 2 4 2 2 样本学习及规则生成3 2 4 2 3 信息智能析取一3 6 4 2 4 生成多维科技论文? 3 7 4 3 ,j 、结4 0 第5 章基于特征的传统科技论文结构化析取系统4 1 5 1 系统概述4 l 5 2 系统的总体框架4 1 5 2 1 系统功能模块4 l 5 2 2 系统体系结构4 2 5 2 3 功能模块介绍4 3 5 3 系统实现4 4 5 3 1 传统科技论文管理模块4 5 5 3 2 样本学习及析取规则管理模块4 6 5 3 3 智能信息析取模块5 0 5 3 4 多维科技论文管理模块5 2 5 4 系统测试与评价5 3 v i 工程硕十学位论文 5 5 小结:5 5 结论与展望5 6 参考文献一5 8 致 射6l v i i 基于特征的传统科技论文结构化析取关键技术研究 插图索引 图2 1w o r d 对象模型抽象图8 图2 2w o r d2 0 0 7 文档对象一1 4 图3 1 软件学报论文格式( 部分) 一2 3 图3 2 科技论文多维表达与集成创作平台系统架构图2 4 图3 3 多维科技论文集成创建系统界面2 6 图3 4x w o r dx m l 格式文档模型图2 7 图3 5 智能文档结构图2 7 图3 6 多维科技论文存储结构2 8 图3 7 基于关键字的x s l t 代码示例2 9 图4 1 基于特征规则的信息析取流程图3 1 图4 2 期刊分类及传统科技论文存储目录结构一3 2 图4 3 传统科技论文样本3 3 图4 4 科技论文结构3 3 图4 5 样本学习及析取规则生成流程图3 4 图5 1 系统功能模块4 2 图5 2 系统体系结构一4 3 图5 3 系统主界面4 3 图5 4 期刊管理4 5 图5 5 规则生成模块( 一) 4 7 图5 6 规则生成模块( 二) 一4 8 图5 7 规则生成模块( 三) 4 8 图5 8 规则生成模块( 四) 5 0 图5 9 自动批量析取一5 0 图5 1 0 手动析取一5 2 v i i i 丁程硕j 二学位论文 附表索引 表2 1w o r d 对象的基本组成一7 表2 2w o r d p r o c e s s i n g m l 基本元素1 3 表4 1 目录操作常用方法3 8 表4 2 文件操作常用方法3 8 表4 3x m l 对象的属性方法一3 9 表5 1 系统测试结果5 4 t 程硕一j j 学位论文 1 1 课题研究背景 第1 章绪论 科技论文是科学技术研究活动产出的一种重要形式,是反映科研成果、开展 学术交流的重要手段,是科学研究工作最常用的学术思想表达与交流方式,也是 促进现代科学技术转化为现实生产力的重要媒介【l 】。随着现代多媒体技术与网络 通信技术的迅速发展,信息技术知识的表现形式已开始从单一的二维平面形式向 音频视频等多媒体、三维立体动画等综合表达形式发展,科研人员可以利用多媒 体方式多角度、形象生动地展现动态、复杂的科技实验过程,全方位地展示和传 播自己的学术思想和见解。所谓多维论文,就是利用信息技术手段,完整、清晰 地表达论文所涉及到的科学事件动态过程、空间( 三维) 、时间( 一维) 、能量( n 维) 以及元过程等重要的知识内容,是一种新的论文写作方式【2 j 。 目前科技论文大多采用文字处理软件( 如m i c r o s o f tw o r d 、w p s 等) 进行编辑, 缺乏有效的支持多种媒体格式的多维科技论文编辑手段,尽管w o r d 等文字处理 软件支持以插入对象方式嵌入多媒体对象,但是在元数据析取及格式转换方面很 不方便;由于w o r d 等格式为非结构化的文本,不能直接提取标题、作者、摘要、 关键词、正文等论文要素,难以满足科技论文结构化检索、统计分类、关联分析 等高层次应用需求。 “科技论文多维表达与集成创作关键技术研究”课题来源于教育部博士点基金 专项研究课题,主要针对科技论文的多维表达方法以及相关实现技术展开研究, 该课题将实现一系列与多维科技论文创作相关的软件工具集,包括:一个支持丰 富媒体格式的科技论文集成创作平台;一个涵盖所有读者、作者和审编人员的新 一代中国科技论文服务平台,以及在现有中国科技论文在线管理功能的基础上进 行功能拓展,构建一个一站式科技论文管理平台。目前,该课题已经设计并实现 了多维科技论文集成创作平台,( h t t p :n d a r t p a p e r e d u c n ) 【引。该系统针对传统科 技论文的诸多不足,研究集成文字、图形、图像、声音、视频、动画等多种媒体 的科技论文多维表达方式及集成创作关键技术,借助先进的计算机网络技术陆续 构建分布式环境下的科技论文集成创作平台及相关服务和管理平台,突破传统科 技论文发表周期长、表达方式单一等诸多限制,实现作者、读者、编审人员的跨 时空沟通和零距离管理。 多维科技论文是一种基于x m l 标准的集成文字、图像、声音、视频、动画 等多种媒体格式的结构化的新一代科技论文表达方式,能智能存储论文各关键要 素( 标题、作者、来源、摘要、文章各章节等) ,多维科技论文将成为今后科技论 基于特征的传统科技论文结构化析取关键技术研究 文发展的趋势,今后广大科研人员将通过多维论文创作工具来编写、阅读科技论 文。 由于已有的科技论文( 下文简称传统科技论文) 大都以w o r d 等非结构化的 文本文档形式保存,格式与结构表现力差,无法自动识别标题、作者、摘要、关 键词、正文等论文要素。为了在多维科技论文创作工具中阅读w o r d 文档形式的 传统科技论文,我们需要把从w o r d 文档形式存储的传统科技论文中析取各论文 要素,转换生成以结构化形式存储的多维科技论文。这样可以提高传统科技论文 在未来科学研究事业的利用率,保护已有的科研成果,加速学术思想传播速度以 及科研成果转化效率。 本文工作主要围绕传统科技论文的结构化析取展开,通过分析传统科技论文 的基本构成和格式特征,基于特征学习生成析取规则,设计并实现一个传统论文 结构化析取系统,可将传统论文按多维科技论文的格式要求导出结构化文本,能 够在多维论文创作工具中编辑与阅读。 1 2 国内外研究现状 1 2 1 国内外研究现状综述 文本信息析取( i e ,i n f o r m a t i o ne x t r a c t i o n ) 【4 】是指对一段文本信息进行分析 学习,根据具体应用领域的要求,析取出相关信息,并以层次分明、结构清晰的 形式表示,为具体应用领域的程序处理提供数据来源的过程。随着信息析取研究 工作的不断积累和深入,文本信息析取可以从实现过程、实现方法、析取对象三 个方面分支出多种信息析取研究方向。 文本信息析取技术的发展经历了人工编程生成、半自动化生成和自动化生成 三个阶段【5 j 。最早的信息析取程序是由编程人员首先对析取对象进行分析和理解, 然后设计专用的信息析取算法、最后编程代码实现。随着科学技术的发展和人工 智能技术的广泛使用,信息析取采取了机器学习、数据挖掘等方式,在一定程度 上得信息析取工作能够半自动地进行。在信息析取过程中,首先对样本文档进行 学习、人工分析文本信息并生成析取规则,然后结合机器学习、数据挖掘等技术 对大量文本信息进行信息析取,半自动化信息析取是目前最常使用的方法。目前, 国内外对全自动的信息析取的研究都处于探索阶段,完整的信息析取系统很少, 例如:i e p a d 系统【6 j 。 根据实现方法的不同,可以分为基于字典的文本信息析取【7 1 ,基于马尔可夫 模型和隐马尔可夫模型的文本信息析取【8 1 、基于特征规则和语义规则的文本信息 析取1 9 j 。其中,基于字典和基于马尔可夫模型的文本信息析取主要应用于w e b 领 域;只有基于特征规则和语义规则的方法不仅可以应用于w e b 领域中,也可以用 于w o r d 、p d f 等文本文档的信息处理领域。 2 t 程硕1 :学位论文 根据析取对象的不同,文本信息析取处理的对象可以分为自由文本、半结构 化文本和结构化文本。国外对信息析取研究已经取得一定的成果,美国斯坦福大 学的j h a m m e r 等人开发了一个基于w e b 的信息析取系统【l0 1 ,能基于网页的结构 从w 曲上提取半结构化的信息,析取效果好,准确率高,但是对于不同的w e b 结构需要编写不同的析取规则,规则的生成非常繁琐,而且只适用于w e b 领域, 不具有通用性。 在对半结构化文本的研究方面,国内学者针对具体领域也对信息析取进行了 研究。其中,在w o r d 文档信息析取、基于x m l 的格式转换方面的研究成果的成 果有: ( 1 ) 从h t m l 到x m l 的w e b 数据格式转换,它实现了为h t m l 网页信息附 加语义信息,并生成x m l 文档,主要由附加语义、样本学习、规则优化和信息 抽取四个过程组成,其目的是使得目标文档符合x m l 的语法规范,但是没有真 正实现x m l 的自描述特性j 。 ( 2 ) 从p d f 到x m l 的数据格式转换,其转换原理是先将p d f 文档转换为文 本文档,再对文本文档进行抽取信息,对对描述符和内容向量建立多维索引,来 支持对文档的查询和管理,但是目标文档仍然缺乏语义信息【1 2 】。 ( 3 ) w o r d 文档向x m l 结构化文档数据转换:通过研究和操作w o r d 对象库进 行信息的识别和析取,获取相关信息块,然后保存到x m l 结构化文档或关系数 据库中【1 3 】;有通过利用v b a 编程向m i c r o s o f tw o r d 程序嵌入相关脚本代码,通 过调用w o r d 宏功能,让w o r d 执行指定任务,对w o r d 文档进行读取j 最终生成 x m l 文件【l4 1 。以上两种技术并没有做到基于特征的信息识别,更没有针对科技 论文的关键要素识别技术的研究。 ( 4 ) 国内外现有的w o r d 文档格式转换工具:m a j i x 是由t e t r a s i x 公司研发的 一款开源软件,可以r t f 格式文档转换到x m l 文档,但只能对整篇的w o r d 文 档进行转换,实现的只是数据存储格式的转换,而不是根据用户需求对w o r d 文 档的内容进行分析和抽取,并且在格式转换过程中会造成数据丢失【l5 1 。另外 m i c r o s o f tw o r d 自带的s a v ea sx m l 模块也可以将w o r d 格式的文档转换为符合微 软自定义模式文件w o r d m l 的x m l 文档i l 刚,但是生成的x m l 文档不具有规则 特征,因此无法发挥x m l 结构化的优势,从而无法在具体应用领域中得应用。 还有通过j a v a 程序中a p a c h e 的p o i 模块来操作简单的w o r d 文档【r 7 1 ,但对于格 式复杂、带有图片、表格的w o r d 文档信息析取目前还不够完善。 1 2 2 现有研究存在的不足 通过对国内外大量相关论文的阅读分析、结合作者的研究实践发现:国内外 对信息析取技术的研究都能从文本中析取相关信息并生成x m l 结构化文档,但 在析取对象的研究方面和析取技术的应用方面还存在不足: 基于特征的传统科技论文结构化析取关键技术研究 1 ) 现有研究面向w e b 领域多于面向w o r d 文档 由于i n t e r n e t 技术的飞速发展和广泛应用,国内外关于信息析取技术的研究 大多集中在对w e b 信息析取的研究,有面向w e b 结构、w e b 内容的信息析取, 但面向w o r d 等传统文本文档的信息析取技术研究方面较少。 2 ) 研究工作侧重算法研究,忽视成果应用 现有的文本信息析取研究成果仅停留在算法研究和原型系统的构建,很少有 针对具体领域应用的完整的信息析取系统实现。已有的信息析取研究成果中也有 以科技论文为例进行原型系统的构建,对信息析取的应用也仅停留于浅层分析, 没有深入研究析取规则的应用,没有实用的系统。 1 3 本文研究内容和结构 1 3 1 研究内容 本文围绕传统科技论文的结构化析取工作展开,通过分析传统科技论文的基 本构成和格式特征,基于特征学习提炼析取规则,研究基于特征的传统科技论文 结构化析取算法,设计并实现一个传统论文结构化析取系统,可将传统论文按多 维科技论文的格式要求导出结构化文本。 论文的主要内容包括如下几个方面: 1 ) 通过分析国内核心期刊中科技论文的格式特征与存储标准,结合多维科技 论文的结构化存储要求,分析并提炼论文要素信息,设计并实现了一个科技论文 结构化析取的总体技术框架。 2 ) 提出一种w o r d 文档结构化信息析取算法: 由于各期刊的论文发表格式不尽相同,先对各期刊的传统论文分别进行样本 学习,标识w o r d 文档中各论文要素的文本、格式特征,生成析取规则并存入规 则文档库。其次,选择与预析取期刊论文相对应的析取规则,从w o r d 文档提取 出相应的论文各要素信息。也可对期刊存储目录的论文进行批量提取。最后,自 动生成基于x m l 的符合多维科技论文存储格式的结构化多维科技论文;并对算 法进行测试与评估。 3 ) 设计并实现一个基于特征的传统科技论文结构化析取系统 x w o r d e x c h a n g e r 。以科技论文为析取对象,设计并实现了一个传统科技论文信息 析取系统,系统开发集成信息析取技术、x m l 结构化技术和机器学习技术。 1 3 2 论文结构 全文共分五章。 第一章是绪论部分,介绍了本课题的研究背景、国内外的研究现状、本课题 的研究内容及意义。 4 t 程硕j :学位论文 第二章介绍了本文研究所依靠的相关基础理论和技术标准,阐述了w o r d 文 档结构的基础知识以及x m l ,x s l t ,s a x ,d o m ,x p a t h 等相关技术内容,对 现有的w o r d 信息析取技术进行分析对比。 第三章介绍了传统科技论文结构化析取关键技术,包括传统科技论文格式介 绍、科技论文的多维表达技术、x m l 技术在论文格式转换中的应用以及基于特 征的信息析取技术,并对本文思路的形成过程进行阐述。 第四章是本文的重点章节,基于特征的传统科技论文结构化析取算法研究, 包括设计的基本思想,传统科技论文要素智能识别和析取算法,对中间文档的文 本内容特征提取,论文关键信息提取,基于x m l 的多维科技论文自动生成算法。 在第五章中,根据以上所分析的传统科技论文结构化析取算法及基于x m l 的多维科技论文自动生成算法对基于特征的传统科技论文结构化析取系统进行了 设计与实现,详细介绍了系统主要模块的设计和实现的相关问题。 论文的结论部分,对全文的总结并对今后的研究和学习方向进行了展望。 1 4 研究意义 二, 1 4 1 理论意义 “ 本课题研究实现一个w o r d 文档格式传统科技论文要素智能识别析取及多维 论文自动生成技术的应用软件,用于将现有的非结构化的传统科技论文自动化、 高精度、高效率地转换成结构化的多维科技论文。本课题研究意义主要包括: ( 1 ) 详细分析国内外具有代表意义的核心期刊论文格式研究,研究科技论文 格式规范,对于国内科技论文的格式统一,提高科技论文的可获取性,提高现有 科技论文在未来科研事业中的利用率,对于扩大我国科技论文的影响力具有积极 作用。 ( 2 ) 研究并实现了从w o r d 文档向x m l 文档数据转换系统,并具体应用于科 技论文中,对多维论文的推广、科技论文的传播,已有科技论文的利用起重要作 用。 ( 3 ) 基于特征的w o r d 文档信息析取技术弥补了信息析取技术研究在规则方 面研究的空白,基于x m l 的智能识别和析取算法可推广应用到数据挖掘、搜索 引擎、自动化等相关研究领域。 1 4 2 应用价值 从应用角度讲,“科技论文多维表达与集成创作关键技术研究”课题来源于教 育部博士点基金专项研究课题,主要针对科技论文的多维表达方法以及相关实现 技术展开研究,该课题将实现一系列与多维科技论文创作相关的软件工具集,多 维科技论文的概念才刚刚提出,尚未被广大科研人员所接受,人们还习惯于使用 基于特征的传统科技论文结构化析取关键技术研究 传统文字编辑软件编写阅读科技论文,传统科技论文析取及多维论文自动生成系 统能帮助科研人员将科技论文从w o r d 文档格式自动批量转换成多维科技论文格 式,轻松实现与多维科技论文的接轨,有助于科技论文多维表达与集成创作系统 的推广,从而为我国科技事业的进步和发展添砖加瓦。 6 工程硕j 二学位论文 第2 章基础理论和相关技术 2 1w o r d 文档介绍 m c i r o s o f tw o r d 【1 8 】是m i c r o s o f to f f i c e 集成办公软件中的重要组件之一,是目 前最流行的文字编辑软件之一。w o r d 文档被广泛应用于各个行业领域。m i c r o s o f t w o r d 也是科研人员在科技文献编辑方面使用频率最高的应用软件之一。本节主要 从w o r d 文档的概念、对象和结构三个方面介绍w o r d 的文档。 2 1 1w o r d 的对象 m i c r o s o f to f f i c e 软件系统不仅为文职人员提供了文字编辑功能,同时还为编 程开发人员提供了一套编程对象库,便于通过程序调用并执行o f f i c e 的部分功能。 m i c r o s o f tw o r d 系统中的对象规模庞大而且结构复杂,最基本的是文档的基本属 性、文字属性、段落属性、表格和图片等对象模型。我们学习w o r d 对象模型与 属性,掌握对象的数据结构或数据类型、对象和属性信息的获取方法,更熟练地 使用这些对象库进行编程,控制w o r d ,调用w o r d 的强大高级功能,更高效地将 这些知识运用于w o r d 文档信息析取系统的开发。 w o r d 文档由基本的对象组成,比如文档( d o c u m e n t ) 、段落( p a r a g r a p h ) 、表格 ( t a b l e ) 等,w o r d 文档中的常用对象如表2 1 所示: 表2 1w o r d 对象的基本组成 对象名称描述 表示w o r d 应用程序 表示当前打开的所有w o r d 文档对象的集合 表示具体某一篇w o r d 文档 表示w o r d 文档中的一个范围,由起始和终止字符进行位置定义 表示w o r d 文档中的所有段落,或选中内容中的所有段落 表示w o r d 文档中的所有表格,或选中内容中的所有表格 表示具体某一个表格 w o r d 的所有对象中,最高层对象是a p p l i c a t i o n ,接下来是d o c u m e n t s 、 d o c u m e n t 对象,d o c u m e n t s 、d o c u m e n t 对象包含的对象有:r a n g e 、p a r a g r a p h s ( p a r a g r a p h ) 、t a b l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业技术服务合同范本模板
- 店铺股东退出协议书
- 扬子空调售后协议书
- 校外居住免责协议书
- 提前退租免责协议书
- 桑园租地合同协议书
- 水利渠道清淤协议书
- 手工木雕买卖协议书
- 推广代理电子协议书
- 校园医院合作协议书
- 《风扇及其系统设计》
- 孕期艾滋病检测及服务流程
- 明渠均匀流计算公式
- 校园超市经营投标方案(完整技术标)
- GB/T 9126.1-2023管法兰用非金属平垫片第1部分:PN系列
- GB/T 9126.2-2023管法兰用非金属平垫片第2部分:Class系列
- 统编版(部编版)语文小学二年级上册《植物妈妈有办法》课件(34张PPT)
- 液压系统原理课件 液压传动与控制
- 《习近平总书记关于安全生产重要论述》考试参考题库150题(含答案)
- 新疆民族发展史和宗教演变史课件
- 可口可乐OBPPC渠道营销促销原理
评论
0/150
提交评论