(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf_第1页
(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf_第2页
(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf_第3页
(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf_第4页
(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)文档模型在舆情信息系统中的设计与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文 成 包 教 何 研 留 阅 复 北京邮电大学硕士研究生学位论文 北京邮电人学硕士研究生学位论文 文档模型在舆情信息系统中的设计与应用 摘要 舆情,是指在一定的社会空间内,围绕舆情因变事项的发生、发 展和变化,作为主体的民众对作为客体的执政者及其所持有的政治取 向产生和持有的社会政治态度。舆情信息是对舆情的一种描述和反 映。 在舆情信息系统中,表现舆情信息的形式可以有多种,目前还没 有固定标准。由于进入舆情信息系统中的信息来源于多种多样的数据 源,而对于舆情信息的抽取和分析所使用的程序和算法是固定的,这 就需要为各种数据源建立起一个统一的存储模型。本文提出了一种基 于树的文档模型,对这种紧密结合用户需求的文档模型的操作借鉴但 不局限于w 3 c 的d o m 。 本文基于和北京市某中心的合作项目,主要完成了以下工作:1 对不同来源的数据进行抽象并建立基于树的文档模型;2 文档模型建 立后,在其之上进行信息抽取、信息过滤以及模型中各个分支的抽取 与过滤;3 经过处理后的文档模型,可被序列化存储到数据库中,并 且分类和提供检索;4 对信息抽取和过滤计算准确率和召回率。测试 文档生成的效率和占用内存情况,做出分析和解析,使文档模型能够 更加准确地存在于系统之中。 在设计和开发的过程中,应用了许多计算机技术,如数据库连接 池、面向对象的i a v a 语言程序设计,g u i 部分用到的s w i n g 类库和 j f r e e c h a r t 包,软件单元测试和极限编程的若干开发思想等等。在信 息抽取源的选择上包括了网页、p d f 、w o r d 等,对于每种数据源都 有相应的数据适配器。对文档模型的分类,采用了贝叶斯分类器,并 动态调整反馈器的参数。 关键词:文档模型舆情信息j a v a 信息过滤贝叶斯分类器 北京邮电大学硕士研究生学位论文 一 北京邮电大学硕十研究生学位论文 t h ed e s i g na n da p p l i c a t l 0 no fd o c i7 m 卫n t m o d e li nc o n s e n s u s i n f o rm a t i o ns y s t e m a b s t r a c t c o n s e n s u sr e f e r r st ot h en e w e s ts o c i o - p o l i t i c a la t t i t u d e sh e l db yp e o p l ea l o n g 、历lt h eo c c u r r e n c e d e v e l o p m e n ta n dc h a n g eo fs o c i a le v e n t s p e o p l ea c ta st h em a i n b o d ya n dp o l i t i c i a n sa c ta st h eo b j e c t c o n s e n s u si n f o r m a t i o ni sad e s c r i p t i o no fa n d r e f l e c t i o no f p u b l i co p i n i o n i nt h ec o n s e n s u si n f o r m a t i o ns y s t e m ,t h ep e r f o r m a n c eo f p u b l i co p i n i o nc a nh a v e av a r i e t yo ff o r m so fi n f o r m a t i o n t h e r ei sn of i x e ds t a n d a r d a st h ea c c e s st op u b l i c o p i n i o n ,t h ei n f o r m a t i o ns y s t e mo ft h ec o n s e n s u sc o m e sf r o mav a r i e t yo fd a t as o u r c e s i n f o r m a t i o ne x t r a c t i o na n da n a l y s i so fp u b l i co p i n i o nu s e di nt h ep r o c e d u r e sa n d a l g o r i t h m sa r ef i x e d t h i sr e q u i r e sav a r i e t yo fd a t as o u r c e st ob u i l dat m i f i e ds t o r a g e m o d e l t h i sp a p e rp r e s e n t sat r e e - b a s e dd o c u m e n tm o d e lw h i c hh a sc l o s ec o n n e c t i o n 。 w i t ht h eo p e r a t i o no ft h ed o c u m e n tm o d e lo fl e a r n i n gt om e e tt h en e e d so fu s e r s t h i sa r t i c l ei sb a s e do nac o o p e r a t i o np r o j e c tw i mb e i j i n gm u n i c i p a lc e n t e r i ti s m a i n l yt oc o m p l e t et h ef o l l o w i n gw o r k :1g e ta b s t r a c td a t af r o md i f f e r e n ts o u r c e sa n d t h ee s t a b l i s h m e n to ft r e e - b a s e dd o c u m e n tm o d e l ;2a f t e rd o c u m e n tm o d e li s e s t a b l i s h e d ,g oo nt od oi n f o r m a t i o ne x t r a c t i o n , i n f o r m a t i o nf i l t e r i n g , a n dm o d e lt h e v a r i o u sb r a n c h e so ft h ee x t r a c t i o na n df i l t r a t i o n ;3a f t e rt r e a t m e n t ,t h ed o c u m e n t m o d e lc a nb es e r i a l i z e dt ot h ed a t a b a s ei ss t o r e di n ,a n dt h ec l a s s i f i c a t i o na n dt h e p r o v i s i o no fr e t r i e v a l ;4u s e r so p e r a t eb yt a p p i n gi n t ot h ei n f o r m a t i o np r o v i d e d ,s o t h a tt h ed o c u m e n tm o d e lc a nb es e l f - a d j u s t i n g ,s e l f - o p t i m i z a t i o n , t oa c h i e v ef e e d b a c k l o o po ft h ef e a t u r e st h a tm a k et h ed o c u m e n tm o r ea c c u r a t em o d e lc a ne x i s ti nt h e s y s t e m s i nt h ed e s i g na n dd e v e l o p m e n tp r o c e s s ,t h ea p p l i c a t i o no fan u m b e ro fc o m p u t e r t e c h n o l o g y , s u c ha sd a t a b a s ec o n n e c t i o np o o l i n g ,o b j e c t - o r i e n t e dj a v ap r o g r a m m i n g l a n g u a g e ,g u ip a r to ft h el i b r a r ya n dj f r e e c h a r tu s e di ns w i n gp a c k a g e ,t h es o f t w a r e u n i tt e s t i n ga n dan u m b e ro fd e v e l o p m e n ti d e a so fe x t r e m ep r o g r a m m i n ga n ds oo n i nt h ei n f o r m a t i o ne x t r a c t i o n ,e a c hd a t as o u r c ei n c l u d i n gp d f , w o r da n dw e bp a g e 北京邮电大学硕士研究生学位论文 h a sac o r r e s p o n d i n gd a t aa d a p t e r t h ec l a s s i f i c a t i o no ft h ed o c u m e n tm o d a l ,u s i n g b a y e s i a nc l a s s i f i e r , c a nd y n a m i c a l l ya d j u s tt h ep a r a m e t e r so ff e e d b a c kd e v i c e s k e yw o r d s :d o c u m e n tm o d e lc o n s e n s u sb a y sj a v ai n f o r m a t i o nf i l t e r ,_ 北京邮电大学硕士研究生学位论文 目录 第一章前言1 1 1 舆情信息系统简介1 1 i 1什么是舆情信息系统i 1 1 2舆情信息系统的发展状况3 1 1 3舆情信息系统仍存在的问题4 i 2 舆情信息系统中文档模型的研究方法5 1 3 现有解决方案及其问题7 i 4 课题来源8 1 5 本文的工作8 第二章文档模型的设计1 0 2 1 文档模型简介1 0 2 2 数据源处理1 2 2 2 i 数据源的介绍与分析1 2 2 2 2 用户对数据的要求1 5 2 2 3 数据过滤方案1 6 2 3 文档模型在系统中的角色1 7 2 4 文档模型分支的详细分析1 8 2 4 1 结构拼装设计1 8 2 4 2 外部操作接口设计1 9 2 4 3 d o m 的研究和借鉴2 0 2 4 4 模型序列化存储的设计2 4 2 4 5 贝叶斯分类器与参数调整2 5 2 5建立文档模型2 6 第三章文档模型的实现2 8 3 1 数据源适配器的实现2 8 3 2 文档模型对象极其子对象3 1 3 2 1 子对象的实现3 1 3 2 2 数据接l 层3 3 3 3 文档模型对象的序列化3 4 3 4 子对象及其存储3 6 i v 北京邮电大学硕士研究生学位论文 3 5 模型可伸缩性设计3 9 第四章文档模型的测试4 l 4 1 单元测试评价标准4 l 4 2 性能测试评价4 1 4 3 测试结果及其分析4 4 第五章文档模型的应用示例4 8 5 1 初始数据的收集4 8 5 2模型的建立、估计4 9 5 3 文档模型分类分析s 1 总结5 3 参考文献5 4 致谢5 6 v 北京邮电大学硕士研究生学位论文 1 1 舆情信息系统简介 1 1 1 什么是舆情信息系统 第一章前言 舆情是“舆论情况 的简称,是指在一定的社会空间内,围绕中介性社会事 件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向 产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的 信念、态度、意见和情绪等等表现的总和。舆情信息是对舆情的一种描述和反映, 从理论上讲,所谓舆情信息,就是指在民众社会政治态度的收集、整理、分析、 报送、利用和反馈的信息运动过程中,用以客观反映舆情状态及其运动情况的资 讯、消息、音信、情报、指令、数据和信号l l j 。 广义上的舆情信息又叫社会舆情信息,它属于社会信息范畴,包括了经过人 们意识而产生的、能够对社会产生影响的各种知识、消息、信号、情报、讯息的 总和。狭义上的舆情信息是指反映舆情状态及其运动情况的各种载体。宣传思想 战线舆情信息工作中的舆情信息,是特指经过舆情信息工作者对收集到的舆情, 进行整理、分析、加工后形成的以文本形态( 也可以其他形态) 存在的一种反映 民众社会政治态度的文字( 也可有其他方式) 材料。或者说,舆情信息是专门反 映民众各种思想意识状态及其变化情况的以文字为主的书面材料。简单说,舆情 信息就是指反映舆情的文字材料。它是宣传思想战线舆情信息工作的一个重要的 载体【l 】o 舆情信息说到底是民众思想状况的一种反映方式。无机界信息、生物界信息、 科技信息、经济信息、社会信息、文献信息等都不属于舆情信息,只有人们接受 这些信息后产生了普遍看法和认识后,这些“普遍看法和认识”才能称之为舆情 信息。比如非典和禽流感,其本身不是舆情而是舆情因变事项,只有发生了非典 和禽流感,引起社会民众恐慌和不安而形成的某种民众社会政治态度、看法和意 见,才能算是舆情。我们将人们的社会政治态度、看法和意见进行收集、整理而 形成的文字材料,才是舆情信息。 舆情信息与舆情是不同的两个概念。舆情是由舆情因变事项而引发的民众社 会政治态度,不管你反映不反映,它都每时每刻存在于客观世界之中;而舆情信 息则是人们有组织、有目的的对舆情进行采集并经过加工而形成的,是专门对某 些特定舆情状态及变化情况进行描述、反映的一种载体形式,它所能触及到的舆 北京邮电大学硕士研究生学位论文 情事项只是很少的一部分。因此,我们说,舆情信息与舆情的主要区别就在于舆 情是客观存在的,而舆情信息只是舆情的一种反映形式。在实际工作中,舆情信 息员对舆情概念的理解,必须把握四层义:1 舆情是民意集合的反映。换句话说, 民意是形成舆情的始源,没有民意,就没有舆情;2 舆情所要反映的民意,是那 些对执政者决策行为能够产生影响的“民意 ,而非民意的全部;3 舆情因变事 项是舆情产生的基础,研究、分析舆情,首先要深入研究、分析舆情因变事项的 发生、发展和变化的规律;4 舆情空间对舆情传播及其对执政者决策行为的影响 有重要作用。这里特别强调的是,舆情定义中的“民众社会政治态度”,是指民 众对执政者及其所持有的政治取向的看法、意见和态度。民众的这种社会政治态 度说到底是对自身利益需求的一种诉求和表达,它不仅包括民众对国家政治的看 法、意见和态度,对社会政治的看法、意见和态度,同时还包括民众对社会事物 的看法、意见和态度。一句话,“民众社会政治态度”是民众要求执政者不断改 善民情状况的一种诉求和意愿的集合【2 】。 基于以上基本定义,我们可以看出,舆情信息系统是一个很庞大的概念,一 般来说,它就是服务于客体进行理解分析舆情从而做出决策的系统。舆情信息系 统中信息流如图1 1 所示: 图1 1 舆情信息系统中的信息流 主体即是发表舆论的民众,客体即是执政者( 或希望获取舆情人员) 。 北京邮电大学硕士研究生学位论文 1 1 2 舆情信息系统的发展状况 近年来由于国内外形势的要求,我国舆情工作有了较大进步,涌现出很多已 经实用的平台。比如军犬网络信息采集系统,它主要涵盖如下几个领域:1 、搜 索引擎与垂直搜索2 、综合门户与行业门户3 、电子政务与电子商务4 、知识管 理与知识共享5 、企业竞争情报系统6 、b i 商业智能系统7 、信息咨询与信息 增值8 、信息安全和信息监控。 上述几大方面涵盖了图1 2 所示的数据源: 鬣删曩 黟了己哩。二二 ;| | ”舆鼯 篡秀 | 毒罗7 市长信籍灞 貔论 蛭磊。o 图l - 2 舆情传播渠道 针对上述渠道,一般的舆情信息系统包括以下技术: 一互联网信息采集技术 1 强大的信息采集功能:强大的信息采集功能是其他所有功能的保障。采集 技术不过硬的产品不可能达到有效的舆情监测效果。2 支持各种网络载体的监 控,可监控各大搜索引擎,新闻门户,b b s ,博客,留言版。3 元数据搜索功能, 元搜索引擎集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。 查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时, 元搜索可指定搜索条件,从而既提高信息采集的针对性又扩大了采集范围的广 度,收到事半功倍的效果。4 可监控各种语言,各种编码的网站无需配置自动识 别语言和网站编码。5 信息智能提取技术,网页内容智能提取技术能有效地提取 网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的 多个网页内容进行自动合并、网络论坛信息自动提取等。6 结构化采集技术, 对非结构化的网页数据在采集的时候进行结构化的信息抽取和数据存储,以满足 北京邮电大学硕士研究生学位论文 多维度的信息挖掘和统计需要。7 全天候不间断监控,可定时监控,也可7 * 2 4 全 天候监控。实际应用中可以做到分钟级的采集更新。 二自然语言智能处理技术 。 1 自动分词技术,采用以词典为基础,规则与统计相结合的分词技术,有效 解决了切分歧义。这项工作将由同项目组的董超同学完成。2 自动关键词和自动 摘要技术,在文本语义分析的基础上,综合考虑词频、词性、位置信息,实现准 确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。3 自动分类技术,不需要人工干预的自动分类技术,一般分为两类,即基于内容的 文本自动分类基于规则的文本分类。4 自动聚类技术,自动聚类技术是基于相似 性算法的自动聚类技术,自动对海量的无类别文档进行归类,把内容相近的文档 归为一类,并自动为其生成主题词,为确定类目名称提供方便。可应用于自动生 成舆情专题,重大新闻事件追踪等等。5 相似性检索和查重技术,基于文档“指 纹 的文本查重技术,支持海量数据的信息查重。相似性检索是指对于给定样本 的文本,在文本集合中查找出与之内容相似的其他文本的技术。在实际应用中, 找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似 性,形成专题报道,背景分析等等。 三智能检索技术 垂直搜索引擎将传统的全文检索技术与最新的w e b 搜索技术相结合,大大 提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及 同义词等智能检索方式【川。 1 1 3 舆情信息系统仍存在的问题 当前,有很多系统都号称是舆情信息和监控系统,不少单位也号称对舆情进 行监控,可能是有意识的商业宣传,也可能是一种无知,但这确实是一个漂亮的 毒蘑菇。网络舆情监控表面上是技术手段自动抓取网站内容,实际上和派人入室 布控没有区别。从法理和道义来看,私自对舆情信息毫无节制的滥取和监控都是 没有依据的,夸张的商业宣传往往会对所在单位以及国家的形象都会造成恶劣影 响,对社会和个人都是一种侵掣4 | 。 从技术层面来看,正如在本章第- d , 节介绍舆情信息而言,这是一个很大的 范畴。国内尚没有形成一个完整统一的标准,现有的应用系统也存在诸多问题: 1 信息采集杂乱无章,乱码、垃圾信息很多,更有甚者,系统不灵活时遇到 的垃圾信息比有用信息还多。给使用者造成了很大困扰。 2 多信息源的加入,使得重复、同意信息大量增加,往往使用者会看到千篇 一律的内容。 4 北京邮电大学硕士研究生学位论文 3 人工智能和模式识别等领域的技术应用还不成熟,过分强调自动化和一体 化的同时往往适得其反。 4 由于各个国家机关等客体具体需求不同,舆情信息系统提供商往往在做不 同项目时不是生搬硬套,就是在不同系统的移植上花费巨大的人力物力,不利于 系统开发效益的提高。 概括以上几点列入表1 1 。 表1 - 1 舆情信息系统各种问题 外在表现内在原因 垃圾信息多系统过滤器不够准确、架构考虑不够全面 信息重复缺乏去重原理研究及技术实现 获取信息方式笨拙系统基于大量生硬的配置,初始化参数等等 用户无所适从系统大而杂,广而不精,造成用户不知从何学起 系统移植困难定制化不够 1 2 舆情信息系统中文档模型的研究方法 针对上一小节所分析的问题,我们可以看出,如何让信息高效、内聚同时与 系统具体实现降低耦合度,是舆情信息系统的关键。鉴于舆情信息系统涉及到相 关技术领域的复杂性和客户需求的特定性,本文提出一个基于城市管理科学的舆 情信息系统中文档模型的应用技术与方法。 所谓文档模型是一个比较大的概念,常见的论文版面要求( 标题、摘要、作 者和正文等) ,以及网页的关键字( m e t ad a t a ) 、标题、主体域( b o d y ) 等都是一种 文档模型。只是这种文档模型包含了一定应用系统下的具体要求。比如论文版面 就是用来规范写作格式和出版格式,网页的文档模型就是为了规范浏览器呈现给 用户的样式。所以在不同的应用场合,文档模型是不同的,那么如果想采集多种 数据源的信息,就必须适应相应的文档模型。 一个文档可以采用层次化的组织的物理和逻辑结构进行描述,物理结构反映 文档布局情况,逻辑结构反映文档的组织结构。物理结构和逻辑结构在概念上是 独立的,实际上是紧密相关的,二者整体也叫文档模型。文档模型也被称为通用 文档,是对一个文档类的结构规则的一种描述,它定义了一个具体文档如何被结 构化的通用途径【6 j 。 本文涉及的研究对象主要是网页、p d f 和w o r d 等具有排版文档格式的文档。 它们可以是一页,也可以是多页。为了能够合理表示各种格式的文档,并用树模 5 北京邮电大学硕士研究生学位论文 型来表示它们,则需要对它们进行一定程度的抽象,在此我们借鉴w 3 c 的d o m 标准并结合图书文档版面的一般逻辑元素( 标题、正文段落、图标标题、脚注等 等) 来进行表示,如图1 3 所示。 文档 图1 - 3 论文排版模型 由上图看出,这样的文档模型是基于树结构的,所以可以根据d o m 所定义 的接口来映射至上述模型的程序设计接1 :3 。文档对象模型( d o c u m e n to b j e c t m o d e l ,d o m ) 是一种用于h t m l 和x m l 文档的编程接口。它给文档提供了一 种结构化的表示方法,可以改变文档的内容和呈现方式。这里需要指出的是, d o m 一般是脚本开发人员通过文档对象的属性、方法和事件来掌控、操纵和创 建动态的网页元素,程序语言通常是j a v a s c r i p t 。每一个网页元素( 一个h t m l 标签) 都对应着一个对象,而本人所对应的是存在于硬盘上的文档文件。网页上 的标签是一层层嵌套的,最外面的一层是 ,文档对象模型也这样一层层 嵌套着,但这里设计为一棵树的形状,对树的操作都有很成熟的算法和集合包。 下面看一下d o m 典型的结卡勾l 5 | 。 6 北京邮电大学硕士研究生学位论文 移裕獭簇等 园 四 r “嚆 # 镕# 口砒 霪:霪 錾j 黜 “p , “ ,4 k pq “ 图l _ 4d o m 的结构 树根是w i n d o w 或d o c u m e n t 对象,相当于最外层的标签的外围,也就是整 个文档。( 注意此处w i n d o w 对象是为了控制网页而生的节点,在本文所述的模 型的根节点是d o c u m e n t ) 。树根之下是子一级的对象,子对象也有它自己的子对 象,除了根对象以外,所有的对象都有自己的父对象,同一对象的子对象之间就 是兄弟的关系。比如h i s t o r y 和l o c a t i o n 就是第一级的结点,并且没有子结点。 在这种由“父子兄弟”组成的“单性繁殖家族图谱树 框架结构中,每个网页元 素都可以被确切地定位。文档对象模型把整张网页组织成这样的一个树状的结 构,树结构中的每一个元素都被视为一个节点( n o d e ) ,正如。包括j a v a s c r i p t 在内的各种编程语言都可以通过文档对象模型来访问和改变网页的各种细节,本 文使用j a v a 来操控图1 3 所示的文档对象模型。 1 3 现有解决方案及其问题 从国内外关于文档抽取建模方面看,外国有p d f b o x 、i t e x t 、c o n n a l 和 j f r e e r e p o r t 等开源项目,它们在一定程度上解决了如何通过从文档中提取关键信 息的方法,通过制作文档模板,模板的版面按照特定样式划分成信息片。基于模 板生成文档,通过读取标记字符串中的信息类别,获取特定关键信息所在的位置, 从而获取该文档中的关键信息。另外,c o n n a l 实施该方法的文档模板。 国内状况来看,虽然在文档信息抽取方面没有如此多的、有活力的开源项目。 但多个商用的系统已经有一定的成熟度。如汉王、清华t h o c r 等产品。拿汉王 p d f 图像o c r 识别系统来说,它涵盖了目前p d f 文档内的全部图片存储格式的 顶级p d f 图像o c r 识别系统。有专家认为,该系统的推出使得政府机构中大量 p d f 格式文档无法编辑、拷贝和检索这个问题迎刃而解。该项产品虽然是解决了 7 北京邮电大学硕士研究生学位论文 图像识别p d f 的一些问题,但对多种数据源的支持并不理想,而且它内部的存 储结构也没有公开,所用文档模型就更不得而知。 总的来说,这些研究各自的出发点与研究重点不同:有的侧重于模式版面的 处理,如支票和名片;有的侧重于版面分析和版面对象分类;还有的侧重于特殊 类型的文档页信息抽取,如目录识别、表格识别和参考文献页的识别。而且由于 文档的复杂性和多样性,能够适用于大多数文档的抽取方法很难找到,已经成为 该领域一个公开的难题。另外,目前的研究大多数几种在基于图像格式的文档, 对版式文档的研究刚刚起步,结合舆情信息系统具体需求所涉及的文档模型更是 风毛麟角p j 。 1 4 课题来源 随着科技的进步,网络的发达,互联网及一些线下文档已成为反映社会舆情 的主要载体之一,舆情的收集比以往任何时期的政府部门都要容易得多,丰富得 多。网络参与人数暴增导致舆情形成迅速,对社会影响巨大,因此不仅需要各级 党政干部密切关注,也需要社会各界高度重视。目前,互联网传递的社情民意正 在成为行政部门决策的重要依据。但是,在互联网海量的信息背后,也隐藏着一 些黄色、暴力等内容,而且传播的速度往往超乎人们的想象。如何消除这种有害 信息的“内容威胁”,如何在如此众多的舆情信息中提炼出有价值的舆情信息, 及时有效的给政府部门的工作提供有益的参考就突显得非常重要,而政府有关部 门能否在第一时间探查并控制舆情走势更是尤为关键【9 】。 北京市某中心为了工作需要,积极应对新形势下的变化,提出了基于自身需 求的舆情信息系统想法。实验室的项目团队积极应对,紧密贴合用户需求,并且 注重课题的可持续性及长远发展,力争使系统架构灵活,因此文档模型的设计良 好就被摆在了突出位置,本文也专注于解决此问题。 1 5 本文的工作 本人深入参与了与某中心所合作的舆情信息系统项目。在了解了用户需求的 情况下,通过分析领域的各种概念、算法的基础上,设计并编程实现了一个可扩 展、伸缩的文档模型,实现了信息抽取、模型建模,算法分析和模型测试等等一 系列的分析功能。本文所完成的文档模型设计是来源于该项目,目前即将投入使 用,从测试团队的反馈来看,目前使用效果良好。主要工作在于: 从课题中遇到的具体问题出发,研究了这一领域的研究方法和过程,以 及用到的相关工具软件。 定 根 解 用 术 在 使 北京邮电大学硕士研究生学位论文 第二章文档模型的设计 2 1文档模型简介 如第一章中介绍,文档模型是一个比较大的概念,常见的论文版面要求( 标 题、摘要、作者和正文等) ,以及网页的关键字( m e t ad a t a ) 、标题、主体域( b o d y ) 等都是一种文档模型。一个文档可以采用层次化的组织的物理和逻辑结构进行描 述,物理结构反映文档布局情况,逻辑结构反映文档的组织结构。物理结构和逻 辑结构在概念上是独立的,实际上是紧密相关的,二者整体也叫文档模型。文档 模型也被称为通用文档,是对一个文档类的结构规则的一种描述,它定义了一个 具体文档如何被结构化的通用途径,下图显示了这一抽象过程: 图2 1 文档模型的抽象过程 壤母 从上图左下方的数据统计来看,它是来自不同数据源的。系统中数据输出实 现在逻辑上非常简单,大多是g u i 函数调用,但编码烦琐、工作量大。同样在 软件移植中有关输入输出也占有非常大的工作量。为了提高软件的开发效率和 可移植性,较好的方法是,将软件中的文字和数据按文档模型进行组织形成有效 的结构化文档软件输出文档,并为其开发通用的处理组件实现文字和数据的 输出。目前流行的文档类型有h t m l 、w o r d 和p d f 等。h t m l 文档侧重描述文 档显示,其显示和打印过于复杂,而且编程修改其特定部分比较难。w o r d 文档 结构复杂,由m sw o r d 操作,带有编程组件。如果将程序中的文字和数据组织 到w o r d 文档中,在程序中可以使用w o r d 编程组件操作文档,但采用这种方法 有下列缺点:文档操作依赖w o r d 环境,消耗资源较多,速度慢;难以于形成与 软件一致的界面等。针对应用软件在处理h t m l 和w o r d 等文档时存在的问题, 根据软件输出信息的特点,软件输出文档模型应该设计为轻量级的,具有较强的 文字、表格和图形表示能力,编程修改容易,逻辑结构简单、通用性强、易于扩 北京邮电大学硕士研究生学位论文 充,物理结构具有跨语言、跨平台特性。x m l 是用结构化的方法来描述数据、 用纯文本格式来存储数据的一个标准。它有一个直接的好处是任何设备都可以读 取它,因为文本文件在不同平台上都是一样的。重要的是,人们为x m l 文档制 定了多个配套标准【n 】。如x m ls c h e m a 、x p 砒、x s l t 、d o m 等,且各种平台 提供了处理x m l 文档的工具。因此,本文将使用x m l 来作为描述和存储软件 输出文档( 即序列化) 。 同时为了支持多种数据源,还应该将文档模型存储在数据库中以便随时提取 数据。 总的来说文档模型在系统中的位置如下: 图2 - 2 文档模型在系统中位置 北京邮电大学硕士研究生学位论文 2 2数据源处理 2 2 1 数据源的介绍与分析 由图2 2 中,可以看出涉及的数据源主要由网页、p d f 、w o r d 和文本( 不 包括需要恢复文档模型实例时从数据库读取时的源) 。下面对于各个数据源进行 分析。首先对于网页数据,本文针对舆情信息系统的特定需求,结合采集页面的 特点,设计了一个预处理模块来完成前期工作,流程如图2 3 。 图2 - 3 网页数据源分析 目前流行的网页信息抽取技术包括:基于隐马尔科夫链理论的h m m ( h i d d e n m a r k o vm o d e ) 模型,基于本体论( o n t o l o g y ) 信息抽取方法,数据记录挖掘 m d r ( m i n i n gd a t ar e c o r d s ) 圈方法,基于r b f 神经网络和关联规则的w e b 文本 分类规则获取方法等等,以上方法在信息抽取上都取得了成功,但多基于复杂的 数学模型,实施较困难。工程上,已有的舆情分析系统,对子网页信息的抽取多 基于网页结构的分析,利用模板进行网页信息的抽取,这方面的研究包括:模板 化网页主题信息提取的研究,以及针对模板生成网页的自动信息提取的研究 1 2 】。 在图2 3 中,文档库就是由网页爬虫所下载的网页,因为爬虫算法比较成熟,因 此在本文中不再涉及。页面解析文档库就是一些解析的规则,这个规则可以是人 手动来进行匹配的。当人来配置这个规则时,需要引入机器学习技术,来记住这 个规则,并在下次运行中应用。另外,解析、匹配模块主要主要用来过滤类似 c s s 和脚本语言等无关的信息。 p d f ( p o r t a b l e d o c u m e n tf o r m a t ) 是一种结构化的文档格式。它由美国著名 】2 北京邮电大学硕士研究生学位论文 排版与图像处理软件a d o b e 公司于1 9 9 3 年首次发布。1 9 9 7 年底,国际标准化组 织已经开始酝酿将p d f 接纳为国际标准。 p d f 的特点可以归纳如下:可传递性。p d f 文件支持7 位a s c i i 码和二 进制码这两种编码方式,可以正确地在各种网络环境下进行传输。支持交互操 作。p d f 包含了交互表单和超链接等交互对象。支持声音、动画。支持对页 面内容的随机存取,提高了页面的各种操作速度。支持不断追加的修改方式, 以便于少量修改和提高效率。支持多种压缩编码方式,文件结构更加紧凑。 字体无关性。p d f 文件中可以自带字库描述信息,以便于在用户系统缺乏所需字 体的情况下,仍然能够保证文档的正确显示。平台无关性。p d f 文件具有软、 硬件的平台独立性。这个特点非常适合于网络传递中的信息交换,以免除乱码的 苦恼。安全性控制。p d f 文件支持各种不同级别的安全性控制,这种安全性控 制对于保护电子出版物的版权是非常重要的,我们可根据各种不同电子出版物的 安全性要求来进行不同级别的安全设置。 p d f 的文件结构( 即物理结构) 包括四个部分:文件头、文件体、交叉引用 表和文件尾,可参见图2 4 。 p d f 文件结构图 p d f 文档结构树 图2 _ 4 p d f 结构 文件头指明了该文件所遵从的p d f 规范的版本号,它出现在p d f 文件的第 一行。文件体由一系列的p d f 间接对象( i n d i r e c t o b j e c t ) 组成。交叉引用表则 是为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。文件尾 声明了交叉引用表的地址,即指明了文件体的根对象( c a t a l o g ) ,还保存了加密 等安全信息。 p d f 的文档结构即是p d f 文件内容的逻辑组织结构,它反映了文件体中各 间接对象间的等级层次关系。p d f 的文档结构是一种树型结构,如图2 4 中右图 1 3 北京邮电大学硕士研究生学位论文 所示。树的根节点也就是p d f 文件的根对象,根节点下面有四个子树:页面树 ( p a g e st r e e ) 、书签树( o u t l i n et r e e ) 、线索树( a r t i c l e t h r e a d s ) 和名字树 ( n a m e d d e s t i n a t i o n ) 。其中,在页面树中,所有页面对象都是该树的叶子节点, 它们将继承父节点的各属性值来作为其相应属性的缺省值。书签树则是按照树型 层次的等级关系来将书签( b o o km a r k ) 组织起来的,书签建立了某个书签名与 一个具体页面的位置关联,它使得用户可以按照书签名来访问文档的内容。线索 树则将文章线索以及线索下的各文章块( a r t i c l eb e a d ) ,按照树型的结构组织起 来进行管理。至于名字树,它则是建立了一种字符串( 即名字) 和页面区域的对 应关系,树中的各叶子节点保存着字符串及其相应的页面区域,而非叶子节点则 只是一种索引,以便让应用程序能够对叶子节点进行快速存取。名字树的作用就 是让p d f 文件中的其它对象也能够用字符串名字来代表其某一个页面区域【1 3 】。 由上述的内容可以看出,p d f 是一种版式文档,就是说它页面内的每个元 素是绝对定位的。也许读者有过这样的经历,将一个p d f 文档放入手机中,由 于手机屏幕肯定要比电脑屏幕窄许多,阅读它时,即使看一行内容,也要移动文 件在屏幕上的位置。为什么不能转成类似纯文本的流式文档呢? 原因就是上述所 写的。所以,当版式文档p d f 转换为流式文档时,信息丢失是不可避免的。在 进行上述转换时,采用开源的项目p d f b o x 来进行转换。 w o r d 文件是微软公司独有的格式,当前很多桌面应用程序,比如w p s 都不 能实现对它的完全兼容。但它仍能被一些开源的包来解释,比如j a c o b ,下图是 用该开源包对w o r d 文档转换的效果: 湛毫警番掣粤擘垡也免鸯些昔? 羔芑尝锚氅竺望一。,勿r 锄盘互凰殛蜮蕊二二二_ _ := = 擎纛罴 争子辫皆乎黔毒掣争擎雾筹;萼孝铡鬟1 0 1 劈麓茹i 甄;羔五哂 墓。燃楣iq 吁”呷掣口一掣呷秒呼一吁掣呷节l 秀赫赫:滋盈:二芒弗讳圹一:焉 :m - 伽i n f o :企业会员( 制造商) 信息登记表 im 川,s e i lm o r e 矾f o :翻造商销售渠道信息 h l 旺l 工且t 啪:企业台贯销鲁两) 伯息量黯 一 lm n u 艇r c em 饼q m 盯。牖商艉务崩嘲嘎疆信童 二m a 删一s e l l - m o r e i n f o :制造商销售渠道信息l 田i 琢:掘l r e 娜。锵商黼蚓i 信息 m a n u:制造商服务雕修渠道信毫 l 缸l l 琢j 鲫l 傀j r 功谭。黼商晨务糠掺榘递信息_ s e r v i c e _ m o r e i n f o ; 吼m 必删信膳谶 i = :篡泼 图2 5 转换效果对比 可以看出,左侧的w o r d 文件中的黑体大字号字体再h t m l 文件里边也有体 现,这无疑给识别程序增加了信息量。使得我们可以用本节第一种方法即网页信 息的抽取方法来做。 文本文件的抽取可以直接用其他模块进行,在此不做赘述。 1 4 北京邮电大学硕士研究生学位论文 2 2 2 用户对数据的要求 某中心对数据进行了以下的要求:数据源包括网页( 指定了若干网站) 、p d f 文档和w o r d 文档。其中网页有某信息提供页面,如下图示。 何一二: 堂j 口在结果中羞嗜口在结果中熊 本次馘为您找到4 4 3 2 篇有关的页氨耗时01 8 7 秽 1 珥秘田盘掼:善。名埔管将捞“圣诞老人送a 七篡城市管彦行政缘台执接局l 本报及观在闷论坛携手潮北电信发起的。我的圣诞天翌温暖行动”大型城市公益活动得到了城首执法人员和环卫工 的丈力支持 和积极响应昨日江汉区域莒局和江汉路步行街管理办公室的:名城首人员加入温暖行动:日至:4 日你随时可毙遢到这些城首“圣 诞老人- ,他们将向侉送出温暖的圣诞礼物 步行街苔强办公室的工作人员说,每年圣诞节一 h t t p b j e g o vc n ,c 弘t ,c 舯,g 缸t ,煳l 挖l 拼9 2 8 :m - 5 ;啪- 响贾t 踅购 0 2 棚r r 蚓城管执法税关散好太威降温准备 甘啊c 城市管理行政绦合执法局1 爝首执法部阿芷一直关注天气、气候变化售况- 目为它直接影响著广大市民日常工作生活、出 亍、安全和空气质量从昨晚开抬- 北褒市 气温骤降并且有可能出现大风天气,城市管理执法部门按照职责分工擞好了应列的准备针对大风、降温、降雪等恶劣天气,辅 首部门已经带淀了比较完善的应盒溅- 确俣在愚判恶劣天气时- 第一时问发布应盒指令投入应惫僳障工作 h i t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论