




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学 术 人物 搜索 系统 的设计与实现 作 者 姓 名: 高铭岑 指 导 教 师: 杨晓春 单 位 名 称: 东北大学信息工程与科学学院 专 业 名 称: 计算机科学与技术系 东 北 大 学 2009 年 6 月 of a y 2009 东北大学本科毕业设计 (论文 ) 毕业设计 (论文 ) 任务书 - I - 毕业设计 (论文 ) 任务书 毕业设计 (论文 ) 题目: 学术人物搜索系统的设计与实现 设计 (论文 ) 的基本内容: 要求设计并实现一个学术 人物搜索系统,提供如下功能: (1) 从网页上抽取 学术 人物信息,根据信息进行人物合并与区分; (2) 根据网上信息抽取人物关系 (师生,合作,同事等 ) ,写入数据库; (3) 提供人物信息查询和人物关系查询。 毕业设计 (论文 ) 专题部分: 题目: 面向学术领域的信息抽取与分析系统 设计或论文专题的基本内容: 设计并实现面向学术领域的信息抽取与分析系统,要求完成学术人物的信息自动抽取与整合,提供友好的用户接口。 学生接受毕业设计 (论文 ) 题目日期 第 1 周 指导教师签字: 2009 年 3 月 6 日 东北大学 本科毕业设计 (论文 ) 摘要 - 学术人物搜索系统的设计与实现 摘要 最近的几年里,越来越多的用户将信息放到了互联网上,互联网上的信息也因此极大地丰富起来。这些信息需要更好地整合在一起,成为一个相互联系的信息集合;尤其在学术领域内,学者或者学生更加需要通过 某种途径获取相关知识,了解领域信息。直到现在,还没有一个学术信息平台可以很好的满足国内学术界人士的这种要求。 基于此,本文设计并实现一个学术人物搜索系统。该设计基于网络信息,将目标人群定位于当代国内学术人物,根据学术人物的特点来搜索其基本信息和活动情况,抽取人物关系,存入数据库,并为用户提供多功能、高效率的查询服务。 本文首先介绍课题研究的背景、来源和研究意义。其次,文章介绍人物搜索的相关系统和本系统应用的技术。接下来,对系统进行需求分析,描述系统的实现目标、开发环境、运行环境以及功能性需求和非功能需求。随 后,对整个系统进行总体设计,将系统分划分为两个子系统,包括数据抽取子系统和数据查询子系统,并分别介绍这两个子系统的设计内容。数据抽取子系统的主要功能是在网络中精确抽取学术人物信息,经过人物识别等技术将信息去重、整合,并写入数据库。数据查询子系统的主要功能是根据用户的查询,高效的提供查询结果。为了能够对关键字进行分类处理,系统使用 构判断人名信息。基于以上设计,介绍数据抽取子系统和数据查询子系统的实现。并对信息资源库准确性、数据爬取速度、四种 储方式的性能、人名模糊搜索功能和论文信息查询功能进 行了测试与分析。测试结果表明系统性能良好。最后,对全文工作进行总结,并对系统的进一步扩展进行了展望。 关键词 :搜索;关系;数据 抽取 ;查询 处理东北大学 本科毕业设计 (论文 ) of a be a of in an to of is no on a on on of is to it in on it of In of is to it is to it To to of on to of of s 北大学 本科毕业设计 (论文 ) 目 录 - 目录 毕业设计 (论文 ) 任务书 . I 摘要 . . 1章 引 言 . 1 题研究的背景和来源 . 1 题研究成果应用的实际意义 . 2 文的内容及主要工作 . 2 第 2章 相关工作简介 . 5 关系统简介 . 5 软人立方关系搜索 . 5 虎人物搜索 . 5 术人物关系搜索 . 6 关技术简介 . 6 档对象模型 . 6 线程编程技术 . 7 构 . 7 术 . 8 询技术 . 8 务框架 . 8 章小结 . 9 第 3章 需求分析 . 11 统实现目标 . 11 统运行环境和开发环境 . 12 能性需求描述 . 13 功能性需求描述 . 16 章小结 . 17 第 4章 系统设计 . 19 统设计原则 . 19 统总体设计 . 19 据抽取子系统设计 . 21 息资源库扩展方案的设计 . 22 东北大学 本科毕业设计 (论文 ) 目 录 - V - 物基本信息搜索方案的设计 . 24 物活动信息搜索方案的设计 . 24 据查询子系统设计 . 29 名提取子模块设计 . 31 物关系查询子模块设计 . 33 息资源库设计 . 35 章小结 . 38 第 5章 系统实现 . 39 据抽取子系统的实现 . 39 物基本信息搜索方案的实现 . 40 物活动信息搜索方案的实现 . 41 点续连功能的实现 . 44 线程、分布式爬取数据的实现 . 46 据抽取子系统的实现 . 47 名模糊搜索功能的实现 . 48 文搜索功能的实现 . 50 章小结 . 52 第 6章 测试 . 53 息资源库准确性测试 . 53 物识别准确性 . 53 本信息准确性 . 54 据爬取速度测试 . 54 储方式的测 试 . 55 名模糊搜索测试 . 56 文信息查询测试 . 57 章小结 . 59 第 7章 结论 . 61 文工作总结 . 61 一步展望 . 62 参考文献 . 63 致谢 . 65 附录 A 信息资源库表项设计 . 67 附录 B 信息资源库中部分典型人名信息 . 69 东北大学 本科毕业设计 (论文 ) 0 引言 - 1 - 第 1章 引 言 题研究的背景和来源 二十一世纪是信息的世纪,是互联网的世纪。互联网 正在走进千家万户 ,在人们的生产生活中扮演了不可或缺的角色。人物利用互联网可以观看有关于世界各地的新闻,可以听到来自全球每个角落的声音,也可以将自己的声音传播出去。毋庸置疑,通过互联网,信息的传播得到了前所未有的提速,信息的覆盖也毫无疑问的面向了全世界。 二十一世纪同样是个以人为本的世纪。人,作为网络的缔造者,同样也是网络信息中的基本单位之一。现代网络中对人物个人信息的搜索已经很丰富,但是对人物关系的提取却并不充分。人物关系的重要性是不言而喻的,通过查找特定人物的关系圈,用户可以了解该人物所处的社会环境、其活 动的范围等等。这样的信息比简单的文字叙述更为生动,更具有说服力和吸引力。 人物搜索应运而生。人物搜索是以网页搜索为计算基础,基于传统搜索的信息挖掘技术,将人和人之间的关系抽取出来,针对知名人士给出围绕知名人物的丰富信息。包括人物简介、人物关系等娱乐化内容,并可以根据指定关系查看详情。 当前,网络上已经出现了有关人物搜索的引擎。如微软人立方关系搜索(雅虎人物搜索 ( 偶社 (等。这些人物关系搜索引擎更多的关注 于社会各个领域的明星,如体育明星,电影明星等等。 对于科学研究者以及在校大学生而言,他 (她 )们更 为关注科学领域上的人物关系以及人物的基本信息。与微软人立方等引擎所提供的服务不同之处在于,这部分使用者更希望 所 得到的信息是基于 “人物 ”的,而并非 “人名 ”。另外, 这个群体 要求在获得学术人物关系的同时,也应该可以得到所查询人物的活动状况,如发表的论文,参加的会议,等等。这就对人物关系搜索引擎的设计提出了新的要求。如何将信息定位到某一特定人物,而并非是特定名字的特定人群?如何有效地获取某一特定学术人物的基本信息 ? 供了这种学术人物的精确关系查询。另外一个提供学术人物关系的系统是 它所提供的功能与 在这样的背景下,本文定位于中国学术领域的人物,利用网络资源获取学术东北大学 本科毕业设计 (论文 ) 0 引言 - 2 - 人物的基本信息以及活动信息 (撰写论文,参加会议 )等,提取并分析人物之间的各种关系 (师生关系,合作关系和同事关系等 )。并构建网站,为用户提供方便,友好,高效的使用界面。 题研究成果应用的实际意义 本文的设计产品着眼于在科研领域方面对人物信息和人物关系 的获取,主要的使用人群是从事科学研究的大学教师,学者和大学生。产品的总体设计目的是面对这部分使用者,为其提供科学研究领域的各类人物的基本信息,科研活动以及人物之间的关系。本设计目前仅应用于当代中国学术人物。 具体说来,可以将设计目的细化为以下几个方面: (1) 将搜索的基本单位定位为人物,而非人名。即,同样的人名可以对应多个人物,他 (她 )们可能从事不同的科学研究方向,拥有不同的科研成果。设计产品应较好的区分相同姓名的不同人物。 (2) 基于网络,提取特定人物的基本信息。包括姓名,性别,出生年月日,学位等等。 (3) 基于网络,提取特定人物的科研从事情况。如,该人物的社会经历,发表的论文,参加的会议以及近年来他 (她 )的科研方面的活跃程度等等。 (4) 基于网络,提取人物与人物之间的关系,包括师生关系,合作关系,同事关系等等。 (5) 面向用户,提供多种信息查询。 本设计产品可以为使用者 (多数为从事科学研究的大学教师,学者和大学生 )提供一个搜索学术人物关系的平台,获得使用者与他人的关系情况;并能够使用户查询特定人物的基本信息,学术活动等情况,从而了解相关人物信息。 文的内容及主要工作 本文在分析介绍了 档 对象模型,多线程编程技术、 构以及术的基础上,基于学术人物在网络资源中的特点,对系统进行了需求分析,并针对 数据抽取子系统 和数据 查询 子系统的设计和实现进行了详细的介绍,实现了人物关系抽取系统的各项功能。 各章的内容组织如下: 第 2 章介绍了涉及的相关技术,如 档对象模型,多线程编程技术、构以及 术的相关知识等等,以及与本文设计相似的已存在的系统; 第 3 章分析了系统的开发环境,利用用例建模分析系统的功能需求,并且根东北大学 本科毕业设计 (论文 ) 0 引言 - 3 - 据实际情况补充了部分需求,提出 了非功能性需求; 第 4 章提出了系统的设计原则,并对系统进行总体设计,并将系统分为 数据抽取子系统 和数据 查询 子系统两个子系统分别进行介绍; 第 5 章主要介绍了 数据抽取子系统 的实现; 第 6 章主要介绍了数据 查询 子系统中的实现; 第 7 章介绍了对系统进行的测试情况,并对出现的错误进行了分析与解决; 第 8 章对论文工作和系统工作进行了总结,并提出了进一步的扩展和展望。 东北大学 本科毕业设计 (论文 ) 0 引言 - 4 - 东北大学 本科毕业设计 (论文 ) 第 2 章 相关工作简介 - 5 - 第 2章 相关工作简介 本章介绍了系统的相关工作, 包括当前已经存在的 人物搜索 系统和本 文 涉及的相关技术。 关系统简介 目前网络中已经存在一些人物搜索的系统。其中即有 面向海量数据的多行业人物搜索系统,如微软人立方、雅虎人物搜索等;也有有关学术界的专业人物搜索系统,如 。本节将对具有代表性的人物搜索系统进行简介。 软人立方关系搜索 微软人立方关系搜索 (1是由微软亚洲研究院网络搜索与挖掘组研发的对象级别 (联网搜索引擎。 微软人立方的搜索资源是数十亿的中文网页。它从这些网页中抽取出包括人名、地名、机构名等中文短语,并利用算法获取各个短语之间存在关系的可能性。在记录人物信息、人物关 系的同时,微软人立方也记录了相关网页索引。 为了能够更为清晰地反映人物关系,微软人立方还自动寻找并记录下最能表达该关系的关系描述词。除了提供查看人物信息,人物间关系的功能, 人立方关系搜索还提供基于人名的新闻浏览功能。很大程度上满足了用户的需要。 值得一提的是, 微软人立方的界面采用的是 术,而并非是 术。界面中的关系是用一个彩色的二维关系图表示的,而其中的人物则使用彩色圆圈来表示。画面生动,让使用者一目了然。 虎人物搜索 雅虎人物搜索 (2是由雅虎中国推出的一款人物关系搜索引擎。 与微软人立方关系搜索相似,雅虎人物搜索也是从海量的网页中进行数据挖掘,自动提取人物信息和人物关系。雅虎提供了包括妻子,好友,同事,子女,父母等丰富的人物关系,并将其用连线的方式体现出来。当点击连线的时候,网页将会提示该种人物关系的来源。值得一提的是,雅虎为人物之间的关系提供了可信度,来表示这个关系的可能性的大小。此外,雅虎提供的人物信息也比较丰富,包括作品,图片,咨询,重名信息等等。雅虎人物关系图界面整体风格与微软人立方相似 ; 略有 不同的是,雅虎在人物关系图上为为知名人物配备了照片,东北大学 本科毕业设计 (论文 ) 第 2 章 相关工作简介 - 6 - 更具人性化。 以上两种利用相似技术开发的人物关系搜索引擎具有一些共同的缺点:信息不准确 (对信息来源的筛选机制不够完善,导致类似于灌水论坛的信息进入数据库 ),人物重名问题 (多个人物被整合到了一个 “人名 ”上,或一个人物被分散到多个 “人名 ”上 ),以及关系描述不清等等问题。总体而言,这 类 人物关系搜索引擎的 实用性 远远低于趣味性 。 是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。供的内容主要是 作者 在国际期刊和会议等公开发表的论文。其 所收录的信息 质量较高, 文献更新速度 快,很好地反应了国外学术研究的前沿方向。 可是,没有收录中文文献。国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。 很好的弥补了这一空缺。它是由中国人民大学网络与移动数据管理实验室 (发,目标是建立一个 “以人为本 ”,即以作者为中心来展示计算机类中文文献 的集成数据库系统,从而为用户提供权威的论文数据和方便的查询服务。该系统 囊括的信息由 计算机期刊、会议中文文献数据 等 。用户可以通过 对 作者 的 检索查看该作者的文献列表, 也 可以 以检索的方式 浏览国内计算机类权威期刊和会议的论文数据。 特点是:以作者为中心的学术成果检索,为每位作者提供集成化的检索结果,展示该作者发表的中文论文情况,并展示该作者的合作作者情况提供基于作者名的精确匹配检索 (基于作者名、论文题目、论文关键字、发表年份的模糊检索基于来源的文献浏览功能,系统支持 对已收录文献按期刊出处和发表会议浏览能够精确地展示论文的基本信息,例如中英文的题目、作者、摘要、关键字等信息。 作为面向中文学术 (主要是计算机方面 )人物的人物关系搜索系统, 搜索范围单一 。另外,它的界面较为简陋,不利于反映人物信息。 关技术简介 档对象模型 ,4是 档对象模型的缩写。根据 ), 一种与浏览器 , 平台 , 语言无关的接口。 东北大学 本科毕业设计 (论文 ) 第 2 章 相关工作简介 - 7 - 以层次 结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。 所以, 认为是基于树或基于对象的。 优势主要表现在: 简单易用,在使用的时候,可以将整个 档放于内存,由于是树形结构,遍历简单。 缺点主要表现在: 在解析的过程中占用较大的内存,比较大的文件使用起来很困难;速度比较慢, 效率低。另外效率低还表现在大量的消耗时间,因为使用 行解析时, 将为文 档的每个 创建一个对象,这样在 制中所运用的大量对象的创建和销毁无疑会影响其效率。 线程编程技术 线程是一组指令的集合,或者是程序的特殊段,它可以在程序里独立执行。线程也可以把被 理解为代码运行的上下文 ,用来 负责在单个程序里执行多任务。 多线程是为了使得多个线程并行的工作以完成多项任务,以提高系统的效率。线程是在同一时间需要完成多项任务的时候被实现的。它具有以下优点: 系统可以 把占据长时间的程序中的任务放到后台去处理; 可以设计更有吸引力的 用户界面, 即界面 的内容可以由过个线程控制,提高美感 ;程序的运行速度可能 会加快。 总体来说, 多线程可以让同一个程序的不同部分 得以 并发执行。 当然 ,多线程要比普通程序设计复杂得多。由于任一时刻都可能有多个线程同时执行,许多的变量、数据都可能会被其他线程所修改。这就 需要系统对合理的对 多线程程序 进行同步控制 。 构 ,6全称为 “异步 是指一种创建交互式网页应用的网页开发技术。 用的交互方面已经具有一定成就 。在基于数据的应用中,用户需求的数据可以从独立 的从服务端被获得并动态的显示于客户端 , 使得 用程序可以像 用程序一样具有美感 。 及的 技术 主要包括: 于界面的展示 ) ; 于动态显示及交互 ); 于 数据交换及相关操作 ); 用于 异步数据查询、检索 )。 最大特色和最大优点,在于使用该技术可以 在不更新整个页面的前提下维护数据。这使得 用程序更为迅捷地 回应用户动作,并避免了在网东北大学 本科毕业设计 (论文 ) 第 2 章 相关工作简介 - 8 - 络上发送那些没有改变过的信息。 术 微软 一个跨浏览器、跨客户平台的技术 , 能够设计、开发和发布有多媒体体验与富交互 (网络交互程序。 软件开发者 提供了一个强大的平台, 不仅 能够开发出具有专业图形、音频和视频的 用程序 ,还集成了 的部分控件。另一方面 , 大的工具来提高 使用 软件开发 效率。 因此, 创建一种具有很高艺术性的应用程序 。这种应用程序使得用户可以在浏览器中直接对网页元素进行控制,可以使得动画更加频繁、更加流畅的展现页面中。 大的优点在于它是 一种跨浏览器、跨平台的技术。可以在 诸如 和 主流浏览器上运行。 10 即语言级集成查询 。它 给 加 了可以应用于所有信息源的具有多种用途的语法查询特性。 从而很大程度上降低了访问和整合信息数据的复杂度,从而提高了软件开发的效率。 用简单的语句,便可以实现 句具备的功能。这种替代不仅仅是语义上的清晰,同时也更好的兼容了软件开发语言和软件开发环境,保证了软件开发过程中的准确性问题和效率问题。 13 构建面向服务的应用提供的分布式通信编程框架 , 是 重要组成部分。 可以说, 微软分布式应用程序开发的集大成者。因为它整合了 通信角度讲, 以跨进程、跨机器、跨子网、企业网乃至于 宿主程序上讲, 。从支持的协议上来看, 以支持 。在 架下,一直处在严重理论话的 布式开发模式变得更加容易实现。 有 的优势包括:它既有很高的统一向,集成了多种技术;增强了系统之间的户操作性;基于 架开发的软件是安全可信赖的; 有很好的兼容性。 东北大学 本科毕业设计 (论文 ) 第 2 章 相关工作简介 - 9 - 因此,使用 架,开发人员可以构建跨平台、安全、可靠和支持事务处理的企业级互联应用解决方案。 章小结 本章首先对与本文设计系统相关的其他人物搜索系统进行了简介。它们包括面向海量人物的微软人立方人物关系搜索、雅虎人物搜索以及面向学术人物关系的英文系统 中文系统 们各自具 有鲜明的优点,但也存在不足。相对于 言,虽然人立方和雅虎面向海量数据搜索,但准确度不高,且个人信息不足;相反, 然信息准确,但展示方式较为单一,吸引力和亲和力不足。 接下来,本章介绍了系统所涉及到得相关技术。首先介绍了 档模型以及优缺点;接着对多线程技术以及其所具备的优点进行了简要的阐述;然后介绍了 构,以及用于开发界面的 术和用于数据库查询的 后本章对 构做了简单介绍。 本系统正是致力于克服当前 人物 搜索系统 信息准确性差,人物关系表现形 式表现单一等不足 ,利用以上技术开发 出学术领域的人物搜索系统。 东北大学 本科毕业设计 (论
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初级中学生源稳定计划
- 小学数学奥数思维训练 数论专项:带余除法(含解析)
- 教科版六年级科学信息技术应用计划
- 婚礼布场拆卸流程
- 2024-2025年苏教版小学数学四年级上册校本教学计划
- 小学2025年春季学期学生行为教育计划
- 三年级下册数学个性化教学计划
- 工程监理单位竣工报告范文
- 私人诊所产科急救流程
- 以建构与应用为翼:小学高段数学模型教学实践探索
- 2025年医师三基考试题及答案
- 中远海运招聘笔试题库2025
- 2025至2030中国纳米二氧化硅市场消费前景与投资价值综合分析报告
- 温州市2024-2025学年高一下学期6月期末-英语试卷及答案
- 2025至2030中国核应急机器人行业市场现状分析及竞争格局与投资发展报告
- 导管室护理管理制度
- 专利代理所管理制度
- 律师所案件管理制度
- 玄隐遗密(含黄帝内经)
- 2025年毕节市大方富民村镇银行招聘题库带答案分析
- 深静脉血栓的试题及答案
评论
0/150
提交评论