基于mediawiki的案例维护、回放、分析软件_第1页
基于mediawiki的案例维护、回放、分析软件_第2页
基于mediawiki的案例维护、回放、分析软件_第3页
基于mediawiki的案例维护、回放、分析软件_第4页
基于mediawiki的案例维护、回放、分析软件_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、天津大学2016届本科毕业生设计毕业设计说明书学 院 专 业 年 级 姓 名 指导教师 2016 年 6月14日毕业设计(论文)任务书题目:基于media wiki的语义案例维护、回放、分析软件学生姓名 学院名称 专 业 学 号 指导教师 职 称 一、原始依据工作基础: 在生活中,当人们面临到一个新的、困难的问题时,往往回去回想相似的 例子,用类似的经验来解决问题。案例就是某类案例的例子、是对以往经验的知识表达,也是对想要达到某个目标所需要吸取的经验教训的记录。案例已广泛应用于法律、交通、制造、金融、医疗、军事、信息等领域123。当前media wiki中已包含庞大的案例数据,对案例集数据进行

2、维护、回放、分析4正是目前热门的话题。研究条件: Media wiki中已含有庞大的数据库资源,方便实现对各类案例的检索和整理。且数据的关系结构的可编辑性、数据增删改查的可操作性,以及web service的可调用性为实现media wiki的语义案例维护、回放、分析创造了可行性。研究目的: 由于案例具有内容的真实性、决策的可靠性和处理问题的启发性56等对解决实际发生问题非常有用的特性,而现实世界又是一个与空间有着密切关系的世界,决策者在决策的过程中往往需要案例的支持,对基于media wiki的语义案例维护、回放789、分析的研究可以让案例更加直观形象,更有效的为解决将来发生的类似问题服务。

3、通过对应急案例的管理、回放和推理分析,可以更有效的处理和预防应急事件10。二、参考文献1 谢志刚,任旭,魏震生,鲁军.基于案例推理和模糊诊断的兵器故障诊断专家系统J. 军械工程学院学报,2001,1(3):2124.2 魏元凤,钟文,夏祖勋.案例推理技术在银行信贷的应用J.华东船舶工业学学报(自然科学版),2001,1(3):1419.3 陈保香,曹奇英,夏祖勋.案例推理在海军战术决策中的应用J.华东船舶工业学院学报,2000,1(5):4549. 4 何国辉,江太辉,甘俊英.地理信息系统的研究J.计算机工程与应用,1998,1(8):6886.5 张荣梅,周义,涂序彦.交通事故处理智能决策支

4、持系统(YCIDSS)J.计算机应用,2002,1(9):6061.6 严隽薇,李哲,张浩,谢小轩.基于CBR的设备故障诊断系统的设计与实现J.制造业自动化,2002,1(10):1114.7鲍虎军等.我国 GIS 技术与应用的现状与对策EB/OL.,2005 .8MiehaelN.DMers.地理信息系统基本原理M.北京:电子工业出版社,2001.20 60.9 Wu R,Freeman A J,Olson G B.First principles determination of the effects of phosphorus and boron on iron grain-bound

5、ary cohesionJ. Science,1994, 265: 376- 380.10Smith R W, Geng W T, Geller C B,et al.The effect of Li,He and Ca on grain boundarycohesive strength in Ni J.Scripta Mater,2000, 43: 957- 961.三、设计(研究)内容和要求1、研究内容: 整理与管理:从互联网上搜集整理 预案、案例、法律法规、地名的数据资源,并进行管理。爬取与抽取:爬取上述资源,进行信息抽取,形成语义预案、语义案例、语义法律法规、地名。导入与导出

6、:将语义内容导入mediawiki中;从mediawik中导出多种形式的语义内容。浏览与检索:利用semantic mediawiki进行语义浏览与语义检索。语义分析:开发mediawiki插件,进行语义分析 。2、功能要求:1.案例模板管理功能:系统能够生成不同的案例模板,建立案例时,选择不同的案例类型,对应进入不同的案例模板的编辑界面,为用户提供面向不同种类案例管理的编辑界面。2.开发与案例搜索引擎组件的接口:开发完成与案例搜索引擎组件的接口,通过接口实现对案例搜索引擎爬取的案例结果的模板化数据入库。3.案例管理与地图空间操作:软件支持案例与地理信息平台的对接,能实现案例在地图上

7、的展示,并支持对地图上案例的查询、显示、根据案例的名称定位其地理位置并高亮显示出来。4.案例信息查询功能:软件支持按照案例的属性信息,如案例发生时间、发生地点、案例类型、案例类别、案例级别等单项查询。软件也支持按照案例属性信息的条件组合查询,查询的结果以表格的方式并按照一定时间顺序排序,点击查询结果可以了解案例的详细信息。5.案例发布管理功能:软件提供对系统管理的案例的发布功能,根据对前端案例模板的发布要求,开发数据接口,将案例发布给用户。6.数据管理功能:采用稳定且易于开发的数据库为平台,建立标准化的案例模板,基于案例模板,实现数据的储存、读取、编辑等,支持数据备份导出、导入,实现对案例数据

8、的日常维护、更新,并能生成案例Word文本和打印输出支持。7.用户管理功能:系统能够按照案例提供者、案例应用者、案例管理者三级权限的原则,管理登录用户的权限,允许添加或删除用户,支持多用户网络管理、同时登陆,实现分级录入、逐级管理、资源共享。同时,把管理员与非管理员的权限分开,对拥有不同使用权限的操作员进行区分。8.界面良好,操作便捷。系统应具有友好的中文界面,操作简单,运行流畅,提供系统帮助,便于日常使用及维护。指导教师(签字)年 月 日审题小组组长(签字)年 月 日天津大学本科生毕业设计开题报告课题名称基于media wiki的语义案例维护、回放、分析软件学院名称计算机科学与技术专业名称计

9、算机科学与技术学生姓名刘国杰指导教师戴维迪 1.课题的来源及意义: 在生活中,当人们面临到一个新的、困难的问题时,往往回去回想相似的例子,用类似的经验来解决问题。案例是某类案例的例子、是对以往经验的知识表达,也是对想要达到某个目标所需要吸取的经验教训的记录。案例已广泛应用于法律、交通、制造、金融、医疗、军事、信息等领域。由于案例具有内容的真实性、决策的可靠性和处理问题的启发性等对解决实际发生问题非常有用的特性,而现实世界又是一个与空间有着密切关系的世界,决策者在决策的过程中往往需要案例的支持,对基于mediawiki的语义案例维护、回放、分析的研究可以让案例更加直观形象,更有效的为解决将来发生

10、的类似问题服务。通过对应急案例的管理、回放和推理分析,可以更有效的处理和预防应急事件。 2.国内外发展状况: 2.1国外发展: 国外人工智能领域的学者从20世纪90年代就提出了基于案例的推理方法(Case一BasdeeRasoingn,简称CBR)。CBR用以往案例的知识或信息进行相似问题的求解,可以克服专家系统面临的难题,具有简化知识获取、提高求解效率、改善求解质量、进行知识积累等优点。 CBR提出以来,美国和欧洲相继在各个行业结合自身的需求研制许多系统,随着应用推广,在地学领域也曾开展过应用,如:1993年Jones和Roydhouse应用CBR研究气象卫星图像,进行天气模式的预报;199

11、4年Goel等利用CBR技术和分层的空间模型进行实验:同年Keller利用CBR作为一种知识获取手段辅助制图综合;1999年Si,x和Yh,A.GO.将CBR于GIS相结合用于城市规划;同年Holt和 Benwell探讨了将CBR与GIS共同用于进行环境或空间复杂问题的决策:2002年Branitgn和Hastings利用CBR解决环境问题,开发了CARMA系统来解决牧场的虫灾问题;尽管国外对案例推理及地理案例推理的研究比较早,但是对GIS案例方面缺乏系统的研究。 2.2国内发展:国内有关案例推理分析1的研究工作也在各个领域展开。交通领域。2002年张荣梅等根据交通事故处理领域的特点,提出了基

12、于案例推理(CB)R和基于贝叶斯网推理(Bayes)相结合的交通事故处理智能决策支持系统的开发方案2。制造业领域。2002年严隽薇等从原理、诊断系统设计等方面探讨了制造业中运用CBR技术对数控机床进行故障诊断的新思路34。医疗领域。2002年于跃海等依据应急治疗的医学知识和实践经验,建立了基于案例推理、模糊推理和缺省推理相结合的,能迅速确定重症监护治疗方案的推理模型汇。金融领域。2001年魏元凤等应用CBR对信贷客户的信用等级与信贷额度进行评估,将信贷客户情况与信贷案例库中案例比较,提取相似案例,参考其解决方案提出当前客户的信贷方案,来辅助经办人员和决策人员的工作13;同年周凯波等提出用基于案

13、例推理方法预测金融危机的思想,并给出了基于案例推理的金融危机预警系统CBR FCPSS的原型56。军事方面。1999年王国锋等阐述了专家系统应用于导弹武器系统故障诊断地重要意义,结合某型导弹故障诊断特点,探讨了基于案例推理的导弹故障诊断专家系统的结构和实现方法;2000年陈保香等采用CBR技术,建立战例库,用于战术指挥中的智能辅助决策,同时探讨了如何结合实际进行战例库的结构设计以及技术实现方法;2001年谢志刚等讨论了基于案例的推理和模糊诊断矩阵在兵器故障中的应用7。信息领域。2000年周凯波等提出一种构建信息系统的基于案例推理的新方法8及实现技术9,为信息系统的方案设计提供一个有效的支持;同

14、年张本生等从维修性工程在我国的应用发展入手,提出了基于案例推理专家系统在维修性设计分析中应用的必要性,阐述了系统应具有的功能结构模型和处理过程模型10。 3.本课题的研究目标: 功能目标:1.案例模板管理功能:系统能够生成不同的案例模板,建立案例时,选择不同的案例类型,对应进入不同的案例模板的编辑界面,为用户提供面向不同种类案例管理的编辑界面。2.开发与案例搜索引擎组件的接口:开发完成与案例搜索引擎组件的接口,通过接口实现对案例搜索引擎爬取的案例结果的模板化数据入库。3.案例管理与地图空间操作:软件支持案例与地理信息平台的对接,能实现案例在地图上的展示,并支持对地图上案例的查询、显示、根据案例

15、的名称定位其地理位置并高亮显示出来。4.案例信息查询功能:软件支持按照案例的属性信息,如案例发生时间、发生地点、案例类型、案例类别、案例级别等单项查询。软件也支持按照案例属性信息的条件组合查询,查询的结果以表格的方式并按照一定时间顺序排序,点击查询结果可以了解案例的详细信息。5.案例发布管理功能:软件提供对系统管理的案例的发布功能,根据对前端案例模板的发布要求,开发数据接口,将案例发布给用户。模拟GNU GDB功能开发一个简易调试器,以便于构建和调试实验平台,为整个仿真系统提供一个外部接口,便于观察仿真系统的工作状态。该调试器可实现,设置断点、单步执行、打印程序状态、扫描内存、表达式求值、监视

16、点管理、打印栈帧链等功能。这些功能会随着实验平台的一步步完善而一步步增加、修改、完善。2、x86指令系统仿真9主要是使用c语言模拟x86指令取指、译码、执行的全部流程。主要实现常用的6大类,36小类指令的功能性模拟,包括指令功能的实现和标志寄存器的修改。并最终能够实现对一个程序代码二进制的完整解析。最后可运行简单的程序。6.数据管理功能:采用稳定且易于开发的数据库为平台,建立标准化的案例模板,基于案例模板,实现数据的储存、读取、编辑等,支持数据备份导出、导入,实现对案例数据的日常维护、更新,并能生成案例Word文本和打印输出支持。7.用户管理功能:系统能够按照案例提供者、案例应用者、案例管理者

17、三级权限的原则,管理登录用户的权限,允许添加或删除用户,支持多用户网络管理、同时登陆,实现分级录入、逐级管理、资源共享。同时,把管理员与非管理员的权限分开,对拥有不同使用权限的操作员进行区分。8.界面良好,操作便捷。系统应具有友好的中文界面,操作简单,运行流畅,提供系统帮助,便于日常使用及维护。 4.研究方法和手段 整理与管理:从互联网上搜集整理预案、案例、法律法规、地名的数据资源,并进行管理。爬取与抽取:爬取上述资源,进行信息抽取,形成语义预案、语义案例、语义法律法规、地名。导入与导出:将语义内容导入mediawiki中;从mediawik中导出多种形式的语义内容。浏览与检索:利用seman

18、tic mediawiki进行语义浏览与语义检索。语义分析:开发mediawiki插件,进行语义分析 。5. 研究的主要内容: 5.1案例爬取和存储 本课题所需的案例需要从互联网上爬取获得,为保证案例的完整性,我们要爬取多个网页来获得同一案例的不同信息,并需要爬取更多的页面来保证案例库的充足。爬取获得的案例我们为它们导入案例模板,并存入数据库形成案例库。 5.2语义标识和抽取对案例构建案例本体模型,对实体信息进行语义标识和抽取。获得语义案例后存入semantic media wiki以完成语义检索。5.3案例检索系统要实现对案例的检索,分为全文检索、属性检索和语义检索。全文检索实现关

19、键字匹配,属性检索完成属性值和属性名称检索,语义检索获得语义内容。 5.4案例回放形成案例列表、案例分类列表、结合地图对案例进行描述,实现案例在地图上的分布。 6.进度安排2016年2月-2016年3月: 确定研究课题,查阅相关文献,查阅和学习国内外相关文献资料,充实基础知识,基本了语义标识的研究领域。2016年4月:确定课题研究的具体方法,对课题研究拟使用的技术做认真研究,总结基本原理和基本算法。2016年5月:进行项目架构,完成项目整体功能。分析系统性能。2016年6月:总结研究结果,撰写学位论文。7. 参考文献1 谢志刚,任旭,魏震生,鲁军.基于案例推理和模糊诊断的兵器故障诊断专家系统J

20、. 军械工程学院学报,2001,1(3):2124.2 魏元凤,钟文,夏祖勋.案例推理技术在银行信贷的应用J.华东船舶工业学学报(自然科学版),2001,1(3):1419.3 陈保香,曹奇英,夏祖勋.案例推理在海军战术决策中的应用J.华东船舶工业学院学报,2000,1(5):4549. 4 何国辉,江太辉,甘俊英.地理信息系统的研究J.计算机工程与应用,1998,1(8):6886.5 张荣梅,周义,涂序彦.交通事故处理智能决策支持系统(YCIDSS)J.计算机应用,2002,1(9):6061.6 严隽薇,李哲,张浩,谢小轩.基于CBR的设备故障诊断系统的设计与实现J.制造业自动化,200

21、2,1(10):1114.7鲍虎军等.我国 GIS 技术与应用的现状与对策EB/OL.,2005 .8MiehaelN.DMers.地理信息系统基本原理M.北京:电子工业出版社,2001.20 60.9 Wu R,Freeman A J,Olson G B.First principles determination of the effects of phosphorus and boron on iron grain-boundary cohesionJ. Science,1994, 265: 376- 380.10Smith R W, Geng W T, Geller C B,et al

22、.The effect of Li,He and Ca on grain boundarycohesive strength in Ni J.Scripta Mater,2000, 43: 957- 961.选题是否合适: 是 否课题能否实现: 能 不能指导教师(签字)年 月 日选题是否合适: 是 否课题能否实现: 能 不能审题小组组长(签字)年 月 日摘要随着今社会飞速发展,应急事件的发生也让人防不胜防并给人类带来巨大的经济损失和人员伤害。为了能够预防或及时有效处理应急事件来降低伤亡,减少损失,本文设计了一套基于media wiki的语义案例维护、回放、分析系统,本文主要内容如下:完成了对系

23、统功能需求的分析,包括功能需求、非功能需求好界面需求。功能需求分别从案例使用者、案例提供者、案例审核者和系统管理员四个角度描述的系统功能,非功能需求描述了系统发展的外部条件,界面需求分析了各类用户的界面。完成了对整个项目的设计,包括模块设计、功能设计、数据模型设计和界面设计。模块设计提出了系统的的三个模块,用户管理模块、案例管理模块和案例回放模块,并对爬取、抽取、语义检索进行了重点的介绍;功能设计给出了系统的功能树;数据模型设计提出了案例的本体结构和系统的E-R关系;界面设计分别从普通用户和管理员的角度对用户界面进行构想。完成了对项目实现结果的展示,包括各功能实现的效果和各界面完成的效果。本文

24、提出的基于media wiki的语义案例维护、回放、分析系统,将有效地把案例的爬取、统计、提取、检索、回放等功能基于一身,为用户提供了一条好的案例学习途径。关键词:爬取;抽取;语义检索;应急案例;本体;ABSTRACTWith the rapid development of this society, emergencies happen also to guard against and bring mankind huge economic loss and personnel injury. In order to prevent and effectively deal with e

25、mergency incidents to reduce casualties and reduce losses, this paper designs a set of semantic case maintenance, playback and analysis system based on media wiki.The main contents of this paper are as follows:Completed the analysis of the functional requirements of the system, including functional

26、requirements, non functional requirements and good interface requirements. Functional requirements from the user's case, case providers, audit case with system administrator four angles describe the system function, non functional requirements describe the system development of external conditio

27、ns, interface requirements analysis the various types of user interface. Complete the design of the whole project, including module design, functional design, data model design and interface design. Module design of the system of three module, user management module, case management module and the c

28、ase playback module and to crawling, information extraction, semantic retrieval are introduced in focus; giving the function design of the system function tree; design data model proposed case the body of the structure and the system E-R relation; interface design respectively from the perspective o

29、f ordinary users and administrators of the user interface conception. Completed the display of the results of the project, including the effect of the implementation of the function and the effect of the completion of the interface. In this paper, the media wiki based semantic case maintenance, play

30、back and analysis system, and the will effectively the case of crawling, statistics, extraction, retrieval and playback of function based on a body, for the user provides a good case study approach to learning. Key words:crawling; extraction; semantic retrieval; emergency case; ontology;12天津大学2016届本

31、科毕业生设计目 录 第一章 绪论1 1.1 项目背景1 1.2 项目意义3 1.3 章节结构3 第二章 相关研究5 2.1 领域现状5 2.2 相关技术7 2.3 本章小结9 第三章 用户需求10 3.1 用户需求10 3.2 数据流图14 3.3 需求分析(用例图)18 3.4 本章小结22 第四章 项目设计23 4.1 组成设计23 4.2 功能设计(功能树)30 4.3 界面设计32 4.4 数据模型设计33 4.5 本章小结35 第五章 项目实现36 5.1 模块实现36 5.2 流程实现40 5.3 界面实现47 5.4 功能实现50 5.5 本章小结53 第六章 结束语54 6.1

32、 总结54 6.2 展望54 参考文献55 外文资料56 中文译文66 致 谢7814第一章 绪论1.1 项目背景1.1.1突发事件与应急联动系统2015年8月12日23:30左右,位于天津市滨海新区天津港的瑞海公司危险品仓库发生火灾爆炸事故,造成165人遇难(其中参与救援处置的公安现役消防人员24人、天津港消防人员75人、公安民警11人,事故企业、周边企业员工和居民55人)、8人失踪(其中天津消防 人员5人,周边企业员工、天津港消防人员家属3人),798人受伤(伤情重及较重的伤员58人、轻伤员740人),304幢建筑物、12428辆商品汽 车、7533个集装箱受损。截至2015年12月10日

33、,依据企业职工伤亡事故经济损失统计标准等标准和规定统计,已核定的直接经济损失68.66亿元。损失之巨大再次加深了我国对突发事件的重视,促使我国进一步建立健全突发事件处理体系。本文所说的案例就是突发事件,我们对突发事件的定义是,在某个地方突然发生的,规模较大的且对社会产生一定程度上的不利后果或巨大负面影响的,严重威胁到公众生命安全和财产安全的事件或灾难。为了应对这些时刻威胁公众生命和财产安全以及社会安全的突发事件,各国都在寻求建立一套全面的、能迅捷有效的应对突发事件的应急机制,来综合调用一切社会资源,来对突发事件做出及时效的反应。我国南宁市就建立了一套应急联动系统,简称IERS(Integrat

34、ed Emergency Response System)。当某一突发事件发生时,单靠某一个部门单独来处理几乎是不可能的,往往需要多个部门协同工作才能有效的对该突发事件形成良好的及时的控制。例如当某商场发生重大火灾时,除了出动消防部队进行火势控制和被困人员解救以外,还需要交通部门来对事发地交通进行疏导,医疗部门对伤员进行救助,社会保障部门来处理事后赔偿问题等,只有多个部门联合起来协同工作,才有可能有效的处理好该事件制止事件的进一步恶化,对公众一个满意的处理结果。为了保证联合行动的灵活性和协调性,我们需要对各种应急资源进行综合,建立统一的接警和指挥系统来保障参与联合行动的单位间的协调与配合。应急

35、联动系统就是基于此需要而建立的一套完整的应急事件联合处理系统,应急联动系统实现了对接警和指挥的统一,能够对应急事件做出快速有序而搞笑的反应。1.1.2案例学习的作用案例是就已经发生的,并且已处理完毕的应急事件。突发事件发生后,如果没有当前完全适合的预案,决策者可以将现阶段发生的突发事件与已经发生过案例的相比较,找到类似的案例,通过参考过去类似案例的处理方法,来制定一个应对当前突发事件的处理方案。这样可以让决策者快速、有效地找到相应的应对办法,提高决策的正确性和高效性,让突发事件造成的相关损失和人员伤亡最小化。目前,基于案例推理的案例学习方法CBR(Case Based reason)是利用案例

36、决策的主要方法,通过CBR1系统我们可以更好的使用案例来帮助我们决策,从而快速高效的找到合适的解决方案来解决问题。1.1.3传统案例浏览的不足传统的案例浏览知识单纯的基于案例的文本和关键字23,这样案例浏览方式虽然在一定程度能够帮助人们浏览案例,但是由于案例的文本通常没有固定的结构和算法,计算机不理解其含义,所以这种浏览方式不能让用户提供快速、准确的找到所需要的案例。同时,突发事件的发生,往往需要对其快速高效的进行处理,以防止进一步恶化造成更大损失。因此传统的浏览方式已经暴露出明显的不足,不能够满足当前社会应急处理领域的对案例高效浏览的需要。传统案例浏览的不足主要表现在两点:(1)案例浏览4者

37、必须自行通读整个案例文本来获取取出自己需要的有效信息。由于有的案例文本全文篇幅较长,所以通读耗时较长,而且因为人的精力和集中度有限,阅读过程中容易出现错误和混淆。这样的案例浏览效率十分低下,而且准确性难以保证。(2)传统的案例5浏览,浏览者只能一次阅读一个案例文本。人们是很难从当前能看到的这一个案例自行联想到其他案例中与当前案例相关的更多的有效信息。而单靠一个案例提供的信息和经验往往不足以让决策者做出一个好的决策。1.2 项目意义1.2.1对案例的语义标识和检索 为克服传统案例浏览的不足,本项目在media wiki上建立应急案例本体模型,并给案例文本插入语义标签进行语义标识6,对案例增加语义

38、描述、并实现语义检索,来使决策者有针对性的获得所需要的信息,我们将这些分散的案例信息以语义关联7的方式联合在一起展示给决策者,为决策者提供全面的案例信息,让决策者能快速有效的找到自己所需信息。对案例的语义标识和检索能够保证应急事件处理的科学性8和准确性9。1.2.2研究语义应急案例的作用我国目前的应急体系主要只是制定了上下级之间应急响应和信息传送的流程,而没有告诉在一线指挥救援的指挥人应该怎样去开展行动10。目前,当突发事件发生后,一般以政府领头、多方联合行动的方式来对事件进行处理。突发事件发生后指挥者能在最短的时间内做出正确的有效的处理方案是及时控制住案情,减少伤亡和损失的关键所在。而一线指

39、挥人员为了及时做出决策,通常会参考过往发生的类似事件记录,从中有效的获取处理经验。但是由于突发事件的地域性和突发性,参与每次应急突发事件处理的人员不会相同,由于处理时情况紧急,对于很多在此状态下作出重大决策,并没有时间去专门的对其进行归纳整理和分析。所以我们有必要将已经发生过的突发事件的发生和处理情况以案例文本的形式存储下来加以管理,来为以后类似的应急事件提供处理经验,给决策者一个参考借鉴。而单纯的案例文本存在诸多限制和缺陷,并能不满足我们对高效有针对性获取案例信息的需要,对基于mediawiki的语义案例维护、回放和分析软件的研究通过将案例语义化,将会产生信息全面有针对性的语义案例11。让人

40、类更快速的有针对性的获得所需要的案例信息。1.3 章节结构1.3.1本文的主要研究内容基于media wiki的语义案例维护、回放和分析软件主要实现对案例的爬取、存储、抽取和检索四个流程。为了更系统的显示案例结果,我们还将与12地图空间结合实现案例在地图上的操作。图1.3.1 研究结构如图1.3.1所示本文主要研究内容包括从网页上爬取案例信和案例的模板化存入media wiki,并通过对案例属性的实体的抽取形成语义案例导入semantic media wiki实现对案例的语义检索和属性检索。并实现案例在地图空间上的回放,将案例与地图结合,完成在地图上对案例的检索。1.3.2本文的组织结构第一章

41、 绪论:主要介绍本课题的项目背景和项目意义,在此基础上引出本文的研究工作。 第二章 相关研究:介绍了现语义领域的现状,和几种相关技术。 第三章 需求及分析:系统的介绍了项目的功能和非功能需求,并通过用例图,来直观地体现了用户的各项需求。第四章 项目设计:包括项目的设计思路,实现方法,所使用的技术。第五章 项目实现:介绍地名实体抽取平台、与media wiki相结合的设计和实现。 第六章 结束语:对全文和已有工作不足的地方进行总结,对下一步的工作进行展望。第2章 相关研究2.1 领域现状2.1.1语义网面临的挑战大数据是的的到来导致信息过载的问题在现在的信息社会中越来越常见,万维网的带来巨大容量

42、的同时往往带来很多严重冗余的信息。万维网虽然提供给了我们数百万、数千万的资源,但是却往往忽略了这些所提供资源彼此之间的关联性。而且我们通常只能浏览静态固定的页面信息,却忽略了页面内容之中的各种相关信息。我们可以将万维网看成是由文档构成的一个集合,HTML语言虽然能够表现页面的格式,但却无法提取出页面内容。语义网能够表示页面的数据,可以说是对当前万维网的一个扩展与延伸,但语义网的发展仍然面临以下几个方面的不足13:1)内容的有效性:动态页面、静态页面、已有的xml页面、静态页面、网络服务和多媒体信息等现有的网页内容,他们的数据都仍然不能表示信息内容,其语义内容仍需要进一步扩展。2)本体可用性的演

43、化和发展:本体是语义网组成的关键部分,就目前的技术现状,想要在分布式的网络环境中,建立一个语义网能通用的本体来为本体论的改变、发展、映射和管理提供一个完整的内部构架,仍然很多要做的14。3)可分级性:目前的语义网仍还需要很大的努力来存储和整理网络语义内容以支持与之相应的机制。4)语言多元化:语言多元化是在当前网络中突出显示出来的一个常见的有待解决的问题。在语义网中应该能够通过各种语言来快捷的获取页面信息15。5)可视化。当前信息重载的现象越来月严重,我们需要语义网能够直观的表示出相关的内容,能让用户轻松的找到认出自己所需要的目标内容。这就需要开发一种与当前网络技术不同的新技术16。6)标准化。

44、目前的语义网还没有标准化,未来我们需要对语义网制定统一的标准方便开发新的工具来维护语义网。 2.1.2语义检索的研究现状在当前的语义检索研究中,已经引入了本体模型来用于查询的消歧和扩展以及对文档的标注和索引。通过消歧可以获得查询的准确指向,精确的分析用户获取信息的意图,然后通过向本体中加入与之语义相关的概念扩展本体模型。目前常用的通用本体Word Net能够提供词的不同语义项来完成查询的消歧,并且可以根据本体中的整分、同义、上下位等这些词汇间的关系来扩展查询。我国的学者通常采用知网(HOW-Net)17来研究中文的词义消歧进行中文的语义检索。除此以外,现在的研究还将各类其他的领域本体用于查询处

45、理。在根据人、地、事件、组织等的本体来实现查询消歧时,我们首先为每一个初级查询结果创造一个特别链接,这些链接可供用户选择,通过其所代表的概念来体现用户的查询意图。利用本体来对文本进行语义标注与索引,可以让文本内容转换成电脑可以识别和理解的语言来实现语义检索。检索过程中,用户先通过一般的全文检索来得到初始文本资源。然后系统根据语义标识的内容为用户创建标签链接供用户选择,这些标签链接与标签所代表的语义内容相连,用户点击链接,系统即对当前文本进行本体和规则的查询扩展,在全文中过滤匹配所需的内容。目前,经各国学者的研究已经形成了许多基于本体的语义检索系统,具有代表性的是以下两个;(1)Onto see

46、k:Onto seek是由Guarino等开发的一套智能Agent的检索系统,它可以精确的描述网页中的内容。Onto seek将一个基于本体的内容匹配机制与一个具有一定形式化表达能力的系统相结合,并试着将其与本体和辞典数据库相结合来为用户创造一个能够使用领域内的任何词汇进行查询检索的语义查询系统。Onto seek虽然一定程度的实现了语义化功能,但其对本体的运用程度还不是很高,还是过多的依赖内容。(2)Swoogle:Swoogle是指语义网中一种类似于蜘蛛网概念的语义网检索系统。该系统从网页上搜索得到文本,再从文本中抽取本体,通过计算本体之间的相关联程度来获取文本之间的关系。与Google一

47、样,Swoogle也可以在互联网上爬行来获取各类标签所代表的信息,虽然Swoogle的技术还不够成熟,比较简单,但它能实现对类和属性的检索,不仅能够实现本体搜索,更重要的是它还能形成一个本体词典。通过汇集各种本体,并对本体进行匹配与融合,生成一个更完整和更具权威性的本体库。Onto seek和Swoogle都历经了实践的检验,是当前较为实用语义检索系统。他们能克服传统的检索机制的不足,能够更为广泛地使用领域内的词汇进行检并且能够识别和理解一定的词汇。但是它们仍需要进一步的完善,需要进一步的对他们的本体结构进行改进和优化。 2.2 相关技术2.2.1案例推理在生活中,当人们面临到一个新的、困难的

48、问题时,往往回去回想相似的例子,用类似的经验来解决问题。案例就是某类案例的例子、是对以往经验的知识表达,也是对想要达到某个目标所需要吸取的经验教训的记录。案例推理(case-based reasoning,简称CBR)是人工智能领域的一种对案例类比推理学习的方法,通过查找已有案例库中与当前问题类似的案例,然后根据相似程度从中选择一个或多个进行适当的案例进行推理分析,从而得到当前所遇到问题的解决办法。典型的案例推理过程通常包括4个部分:案例检索、案例重用、案例修正和案例存储。在进行案例检索之前往往我们需要将案例以合理的形式进行表达,有一些学者也将案例表示添加到案例推理的过程中,来作为案例推理的第

49、一步。近年来在世界范围内对CBR的研究正不断深入,这也扩大了CBR的应用范围,在法律、交通、制造、金融、医疗、军事、信息等领域CBR都得到了广泛的应用,运用之广泛充分证明了其实用性和有效性。2.2.2自动文摘抽取自动文摘技术是指通过计算机自动提取页面中最重要和有用信息、并将得到的信息进行整理形成文摘的一项技术。目前自动文摘有两种方法:一种是基于统计的自动文摘方法,另一种是基于自然语言理解的自动摘要方法。两者都能构成文摘,但前者抽取的对象是原文中的句子,技术比较成熟,而后者首先需要借助一定层次的自然语言处理技术来理解原文如语义推理,且基于自然语言理解的自动摘要方法生成的文摘中的句子可能是原文中根

50、本不存在的。自从1958年,Luhn提出自动文摘的概念以后,中外学者都相继提出了各种各样生成文摘的方法。Edmund.son等人提出了根据线索词和句子位置来提取文摘句的方法。No-moto等人提出了一种通过在原页面中查找概念和文摘冗余去除来自动获取摘要的无监督自动摘要方法。Salton等人通过将内容的交叠程度大于一定值的段落归为一组来寻找文章的中心句。李蕾将对句子的理解与文摘信息的提取直接相连,通过设计义块组配的方法,来提高理解的效率和文摘生成的速度。王志琪等提出一种基于互增强关系(MRP)的迭代算法来模拟句子和词之间的循环加权关系,计算并比较句子权重,从而形成文摘。Chen等提出一种基于用户

51、提问的自动摘要方法,在计算句子权重时同时考虑文本的主题内容和用户询问关键词。2.2.3语义检索早在上世纪80年代的SIGIR会议论文中,语义检索就有被提出来,由于语义信息处理发展水平的有限一直发展缓慢。但随着现如今自然语言处理、人工智能等科学的发展,特别是随着语义网技术的兴起与发展让语义检索的研究更加明确,使得相关对语义检索的研究的如雨后春笋一般,正迅速发展。到目前为止我们仍没对语义检索的概念进行统一的规定,尽管如此,不在同的研究中却有一个共同之处,就是通过对资源文本的语义处理来实现高效率的检索。对语义信息的提取一般有两种方法,一种基于语义网方法与技术,另一种基于自然语言处理技术的。就目前现状

52、来看,语义网技术语义检索研究中相对更为普遍。语义检索能够表达和处理信息的语义内容来实现基于语义的匹配和推理,这是传统检索无法做到的。传统检索仍需要借助文献,只能搜索到相关文档的链接。但用户所需的信息通常分布在多个不同文档中,需要多次对所查到的文挡进行通读来提取所需要的信息。而语义检索能实现信息与知识检索,直接将多个文档中的相关有效信息进行组合传递给用户,高效而全面的为用户提供所需内容。本体是语义检索中的一个重要概念,它是对知识内容的表达,在检索中的所有文档推理的过程中都起着重要的支撑作用。无论在自然语言处理还是其他人工智能还不能支持自动化处理的研究中,本体的构建始终是语义检索最主要的问题之一。

53、目前语义检索仍还面临的语义标识、语义标注信息和全文信息的充分利用,检索结果的排序以及提供友好用户接口等方面的问题。2.3 本章小结基于media wiki的语义案例维护、回放、分析软件的研究的关键内容为语义案例的形成和语义检索,这就涉及到语义网和语义抽取的发展,本章首先阐述现在语义网面临的挑战,分别从内容的有效性、本体论可用性、可分级性、语言多元化、可视化和标准化留个方面阐述。本章还简单介绍了语义检索的现状,对现在比较有代表性的两种语义检索系统Onto seek和Swoogle进行了描述,提出了其不足的地方。本章还介绍与本课题有关的三种核心技术一个是用于案例维护的案例推理技术(CBR),另一个

54、是用于抽取的自动文摘,还一种是基于本体的语义检索技术。第3章 用户需求3.1 用户需求3.1.1主要功能需求爬取与保存功能:软件通过爬虫从互联网上爬取案例,并能够实现对所爬取的案例结果模板化数据入库。案例管理功能:案例的管理包括案例的添加、删除、编辑、和检索等子功能。且系统能够对案例进行分类并生成不同的案例模版,用户添加案例时可选择不同案例 类型对应进入不同的案例模版编辑界面。案例管理界面应包含案例检索框、案例分类列表和功能按钮。用户可通过检索框直接查找案例,也可根据分类列表寻找案 例。功能按钮包含添加、删除、修改、提交,用户点击不同的按钮进入相应的操作来完成对案例的编辑管理。案例信息查询功能

55、:软件应支持按照案例的属性信息,如案例发生时间、发生地点、案例类型、案例类别、案例级别等单项查询。软件也支持按照案例属性信息的条件组合查询,查询的结果以表格的方式并按照一定时间顺序排序,点击查询结果可以了解案例的详细信息。案例发布管理功能:软件提供对系统管理的案例的发布功能,根据对前端案例模板的发布要求,开发数据接口,将案例发布给用户。案例管理与地图空间操作:软件支持案例与地理信息平台的对接,能实现案例在地图上的展示,并支持对地图上案例的查询、显示、根据案例的名称定位其地理位置并高亮显示出来。 数据管理功能:采用稳定且易于开发的数据库为平台,建立标准化的案例模板,基于案例模板,实现数据的储存、读取、编辑等,支持数据备份导出、导入,实现对案例数据的日常维护

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论