已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)基于三层构架模式统计软件包表示层的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于三层构架模式统计软件包表示层的研究与实现 基于三层构架模式统计软件包表示层的研究与实现 摘要 统计软件包在社会发展中发挥着重要作用,中国在统计软件方面的发展相对 较晚。目前流行的通用统计软件包一般都是国外产品。它们不支持中文操作界面, 并且获取和分析数据需编写s q l 脚本,对非专业用户来说使用困难,不具有跨平 台获取异构数据库数据的应用功能。这些使用要求和获取数据的限制,加上不菲 的购买或租赁费用,使得国外统计软件包至今在中国不能被广泛使用。 在当今社会,统计理论和方法的研究已相当成熟,在许多学科和领域中得到 应用,统计软件包的研究与开发在国内鲜有报道。因此,研究、设计和实现国产 统计软件包很有必要。 本论文针对三层构架模式研究统计软件包的设计与实现方法,重点对实现表 示层的技术路线展开研究。本文主要的研究工作如下: 1 ) 针对三层构架模式统计软件包的总体设计目标,通过对人机操作界面设 计理论和方法的研究,设计和实现了符合国内用户实际操作习惯和数据库元数据 结构信息中文语义展现的导航式人机交互界面: 2 ) 采用l 格式文档技术,研究和实现适合三层构架模式统计软件包的数 据接口协议,解析和生成x 眦格式接口协议并得到实际应用; 3 ) 研究和实现了s o c k e t 通信原理与人机交互界面理论的结合应用; 4 ) 研究和实现了基于数理逻辑推理的表示层统计请求优化生成获取数据路 径的创新技术,该技术在多数据源数据抽取和或数据量大的情况下能够帮助优 化获得有意义的统计分析数据对象,提高抽取数据和进行关系运算的效率。 5 ) 参与了统计信息的收集、存储的结构设计,以及结合) ( m l 数据源优越性 的动态图表生成技术的研究与实现。 在上述研究工作中,作者提出基于数理逻辑推理的思想和方法优化统计数据 对象抽取路径的技术,并已发表研究文章,具有一定的学术参考价值。 本文研究、实现与总结的基于三层构架模式统计软件包表示层的实现技术, 对于行业领域的统计软件开发具有参考意义。本文研究成果为数据分析系统软件 实现奠定了相关理论和技术基础,其应用能够显著提高生产管理与辅助决策水 平。 关键词:统计软件包,数据分析,三层构架模式,表示层,人机交互界面,条 件语句 器于三层构架模式统计软件包表示层的研冗与实现 r e s e a r c ha n dr e a l i z a t i o nf ;i 口rt h ee x p r e s s i n gl a y e ro f s t a t i s t i cs o f 1 1 v a r ep a c k a g eb a s e do nt h r e e t i e ra r c h i t e c t u r e a b s t r a c t s t a t i s t i cs o 小v a r ep a c k a g ep l a y s 趾a c t i v er o l ei nt h es o c i e t yd e v e l o p m e n t c m n a i s c o m p 锄t i v e l y1 a t eh ls t a t i s t i cs o 龟a r ed e v e l o p m e n t m o s to fm em a i n s t r e 锄 s t a t i s t i cs o f 机a r ep a c k a g e sa r ef o r e i g np r o d u c ta tp r e s e n t nd o n ts u p p o r tc 1 1 i n e s e o p e r a t i n gi f l t e r f l a c ea n dh a v et 0w d t es q ls c r i p tw h e no b t a i n i n ga 1 1 da n a l y z i n gd a t a ;i t a s kt o om u c ho fo p e r a t o r sp r o f e s s i o n a lq u a l i t i e sf o rn o n p r o f e s s i o n a lu s e r s ;i td o n t h a v et 1 1 e 如1 1 c t i o no fo b t a i l l i n gi s o m e r o l l s d a t a 丘0 mc r o s sp 】a t f o n ne t c a l lt h e s e d e m a l l d i n ga i l dr e s t r i c t i o n ,s p e c i a l l yc o n s i d e r e dt l l ec o s t l yc h a 唱e s ,m 狄et h e mn o tb e u s e dw i d e l yi nc h i n at i l ln o w a tc o n t e n l p o r a d ,s o c i e t y s t a t i s t i ct h e o 叫觚dm e i h o dr e s e a r c hi s v e r ym a n 鹏, a n di s 印p l i e di nm 锄ys u b j e c t sa n dr e a h i l s ,w h i l et l l er e s e a r c ha i l d d e v e l o p i n go f s t a t i s t i cs o r w a r ep a c k a g ei s r a r e l y b er e p o r t e d t h e r e f o r e ,i ti s n e c e s s a r ) r t o s t u d y ,d e s i 印a n dr e a l i z ed o m e s t i cs t a t i s t i cs o 胁a r ep a c k a g e t 址sm e s i si s 缄e n d i n gt 0r e s e a r c hd e s i 印i n ga n dr e a l i z i n gm e t h o do fs t a t i s t i c s o 胁a r cp a c k a g eb a s e do nt 1 1 r e e - t i e ra r c i l i t e c t u r e ,e s p e c i a l l yf o c u so nt h er e a l i z a t i o n t e c l l l l i q u e so fm ee x p r e s s i n gl a y e r t 1 1 em a i nc o n t e n t so ft h i sp 印e ri n c l u d e : 1 ) a i m i n ga tm et o t a ld e s i g n 吨e to fs t a t i s t i cs o f t w a r ep a c k a g eb a s e do n t h r e e - t i e r a r c l l i t e c t u r c , b yr c s e a r c l l i n g m e d e s i 印 t h e 0 拶 a 1 1 dm e t h o do f h 啪a n - c o m p u t e ro p e r a t i n gi n t e k e ,d e s i 萨 a 1 1 dr e a l i z et h e n a v i g a t i n g - s t y l e h 啪a n - c o m p u t e ri n t e r a c t i v ei n t e r f 如ew l l i c hm a t c hm e0 p e r a t i n gh a b i to fl o c a l c u s t o m e ra n dm a t c hm ec t l i n e s ei a n g u a g ee x p r e s s i n gr e q u i r e m e n to fm em e t ad a t a s t m c n l r ei n f o n n a t i o ni nd a t a b a s e 2 ) a d o p t i n gt h e 蹦lf 0 姗a td o c 啪e n tt e c m q u e ,r e s e a r c ha n dr e a l i z et 1 1 ed a t a i n t e r f 犯ep r o t o c o lw m c hs u i t sm es t a t i s t i cs o m ,a r ep a c k a g eb a l s e do nt h r e e t i e rl a y e r r e s o l v ea 1 1 dp r o d u c ex m lf o h l l a ti n t e r f a c ep r o t o c 0 1a l l d 印p l yi t 3 )r e s e a r c ha n dr e a l i z ec o 珈b i n a t i v ea p p l i c a t i o no ft h es o c k e tc o m m l m i c a t i o n p r i n c i p l ea n dt h eh 啪a n c o m p u t e ri n t e r a c t i v ei n t e r f a c em e o 4 ) r e s e a r c ha n dr e a l i z em ei m l 0 v a t i v et c c h n o l o g yw h j c ho b t a i nt h eo p t i m i z i n g d a t ap a t ho fs t a t i s t i cc o n d i t i o ns t a t e m e n ti ne x p r e s s i n gl a y e rb a s e do ns y m b o l i cl o 百c r e a s o n i n g t h i st e c h n o l o g yh e l p st 0o b t a i no p t i m i z i n g 觚dm e a i l i n g m l s t a t i s t i c a i l a l ) ,z i n gd a t ao b j e c tu n d e rm ec i r c 哪s t a i l c eo fm u l t i p l ed a t as o u r c ee x n a c t i o n 锄d 0 r n 棼于二坛俐笊俣叭玩计祆仟也衣尔坛删计冗h 头巩 t h ec i r c u m s t a n c eo fa b u n d a n td a t a 5 )p a r t i c i p a t e dt ot i l ed e s i g no fs t a t i s t i ci n f o m l a t i o nc o l l e c t i n ga n ds t o r i n gd a t a s n u c t l l r e ,a l s or e s e a r c h 觚dr e a l i z et h ec h a n 锄dr e p o r tp r o d u c et e c h i l o l o g yw h i c h c o m b i n et h ea d v 锄t a g eo f ld a t as o u r c e i i lt h ea b o v e - m e n t i o n e dr e s e a r c hc o n t e n t ,m ea u m o rp u t sf o n v a r dt h et e c l l i l o l o g y o fo b t a i n i n gm eo p t i m i z i n gd a t ap a 1o fs t a t i s t i cc o n d i t i o ns t a t e m e n tb 船e do n s y m b o l i cl o g i cr c 嬲o n i n g ,a n dh a v ep u b l i s h e dr e l a t e dr e s e a r c hp 印e r w h i c hh a s a c a d e m i cr e f e r e n c ev a l u e t h i sp a p e rh 弱r e s e a r c h e d ,r e a l i z e da i l ds 啪a r i z e dm er e a l i z a t i o nt e c i l i q u e so f s t a t i s t i cs o f h v a r eb a s e do nt 1 1 r e e - t i e ra r c h i t e c t u r e nh 硒c o n s i d e r a t i o nm e a n i n gi n t r a d es t a t i s t i cs o m a r er e a l m t h er e s e a r c hr e s u l to ft l l i sp a p e rl a yt h er e l a t e dt h e o d , a 1 1 dt e c l l n i c a lf o u n d a t i o no fd a t a 锄a l y t i c a ls y s t e m ,a n d t 1 1 e 印p l i c a t i o no fm i s r e s e a r c hr e s u l tc a l li m p r 0 v ep m d u c tm 锄a g e m e n ta n dt h el e v e lo f 嬲s i s t a n tt om a k e d e c i s i o n s 1 ( e yw o r d s :s t a t i s t i cs o 胁a r ep a c k a g e ,d a t a a n a l y s i s ,t h r e e t i e ra r c h i t e c t u r e p a t t 锄,t h ee x p r e s s i n gl a ) r e r ,h u m a n - c o m p u t e ri n t e r a c t i v e1 1 1 t e r f a c e ,c o n d i t i o n s t a t e m e n t i 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中己明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:哥丐赫多 日期:沙谢年岁月厂日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 , 不保密戳 学位论文作者签名:前韵;乡 日期:枷年明歹日 指捌币签名名君芬 日期:) 卵矿年 月厂日 基于三层构架模式统计软件包表j 层的研究。j 实现 1 1 引言 第一章绪论 工业化时代管理的基本特征是专家+ 经验;而信息化社会管理的基本特征是 计算机及网络+ 数学,其统计分析的工具是系统思想+ 数学方法+ 信息技术。国 外自上世纪2 0 年代就开始用各种数理统计、最优控制理论、流体力学、管道流 体力学和元胞自动机方法等研究、分析城市交通配流问题,以减少投资、降低 能源、促进环保和提高服务质量瞳1 。目前我国大部分业务领域中的管理与决策分 析工作,缺少有效的专业统计软件包,需要借助于社会科学统计软件包( s t a t i s t i c p a c k a g ef o rt h es o c i a is c i e n c e ,s p s s ) 统计分析系统( s t a t i s t i ca n a l y s i ss y s t e m ,s a s ) 等通用统计软件包。这些功能强大的通用统计软件包不仅租余昂贵,而且要求使 用者必须具有良好的数理统计、试验设计、扎实的英文基础和类似计算机第四代 语言及s q l 查询语句的编程技巧,才能真正融会贯通地驾驭它们。对于每次数据 分析与决策支持需求,使用者都必须专门设计数据抽取与转换的策略、汇总与分 析的方法,才能从繁杂的缺乏中文语义的数据中得到有意义的统计分析结果,这 导致工作效率低下,增加了数据分析的出错率,降低了统计结论的可信度,i 白j 接 影响各个行业的生产管理和经营决策的效果。 经济全球化,促进全球统计一体化。中国的统计指标、统计标准理论与方法 应与国际接轨。但是,中国有其自己的国情和特殊的统计信息需求。如何解决中 国特色与国际接轨之间的矛盾? 本文依据“城市轨道交通自动售检票( a u t o m “c f 犯c o l l e c t i o n ,a f c ) 运营管理数据分析系统”的项目需求与总体设计目标,设 计和丌发了基于三层构架模式的统计软件包,在统计分析功能、人机交互界面和 应用方面符合国内轨道交通a f c 行业辅助决策软件的研制目标,是国产统计软件 包的一个成功范例,开发出适合国内轨道交通a f c 数据分析需要的,具有高效率、 高准确性、更适合中国人使用和更为人性化的统计软件包。 本文的研究成果已用于轨道交通a f c 运营管理数据分析系统的设计与 实现。在该项目中,本文作者主要的研究、设计和创新工作如下: 1 ) 针对三层构架模式统计软件包的总体设计目标,通过对人机操作界面设 计理论和方法的研究,设计和实现了符合国内用户实际操作习惯和数据库元数据 结构信息中文语义展现的导航式人机交互界面; 2 ) 采用x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 格式文档技术,研究和实现 适合三层构架模式统计软件包的数据接口协议,解析和生成x m l 格式接口协议并 基于三层构架模式统计软件包表,】:层的研究j 实现 得到实际应用; 3 ) 研究和实现了s o c k e t 通信原理与人机交互界面理论的结合应用; 4 ) 研究和实现了基于数理逻辑推理的思想和方法优化获取表示层统计请求 数据对象的路径,该技术在多数据源数据抽取和或数据量大的情况下能够帮助 优化获得有意义的统计分析数据对象,提高收据抽取和关系运算的效率。 5 ) 参与了统计信息的收集、存储的结构设计,以及结合x m l 数掘源优越性 的动态图表生成技术的研究与实现。 轨道交通a f c 运营管理数据分析系统已于2 0 0 7 年7 月1 2 同通过上海 市科学术委员会组织的科研项目验收;2 0 0 7 年8 月7 同获上海市科学技术委员 会科学技术成果证书( 登记号:9 3 1 2 0 0 7 y 1 1 6 8 ) ;2 0 0 7 年8 月3 0r 获国家版 权局计算机软件著作权登记证书( 登记号:2 0 0 7 s r l 3 2 1 4 ) 。 1 2 统计软件包的功能与特点 1 2 1 统计软件包的功能 目前,商业化统计分析软件包,如s p s s 和s a s ,一般包括下述四大应用功能 【3 1 1 ) 数据管理 主要由数据读取、编辑、转化和保存等处理组成。目前的统计软件包不仅可 以对打开的数据文件进行增加、删除、复制、剪切和粘贴等常规操作,还可以对 数据文件中的数据进行排序、转置、拆分、聚合和加权等操作,对多个数据文件 可以根据变量或个案进行合作。 2 ) 统计分析 统计分析是统计软件包的核心部分,如s p s s 和s a s 等都包括下述统计分析 功能。 ( 1 ) 样本数据的描述和预处理。 ( 2 ) 假设检验( 包括参数检验、非参数检验及其它检验) 。 ( 3 ) 方差分析( 包括一般的方差分析和多元方差分析) :该方法用于比较各 组样本数据均数之间的差异以获得科学结论。 ( 4 ) 多维列联表分析:该方法用于产生多维列联表统计量以及进行多维表 的相关分析的统计方法。 ( 5 ) 相关分析:该方法用于研究变量叫的密切程度的统计方法。 ( 6 ) 回归分析:该方法是研究一个或多个自变量与一个因变量之间是否存 在某种线性关系或非线性关系的统计分析方法。 堆十三层构架模- 统汁软件包衷_ :层的f i j | :究j 实现 ( 7 ) 聚类分析:该方法是研究对样品或指标进行分类的一种多元统计方法。 ( 8 ) 差别分析:该方法是用于判断样品所属类型的一种统计分析方法。 ( 9 ) 因子分析:该方法研究相关阵或协方差阵的内部依赖关系,它将多个 变量综合为少数几个因子,以再现原始变量与因子之问的相关关系。 ( 1 0 ) 对应分析:该方法常用于研究多个分类变量的关系,而且可以对名义 变量进行分析。 ( 1 1 ) 时间序列分析:该方法对某个时间间隔顺序排列的序列进行分析,可 以选择指数平滑法( e x p o n e n t i a ls m o o t h i n g ) ,自回归分析( a u t o r e g r e s s i o n ) , 综合自回归移动平均模型( a r i m a ) ,c e n s u si ix 一1 1 法进行季节调整( x l la r i m a ) 及季节分解法( s e a s o n a ld e c o m p o s i t i o n ) 进行科学预测预报与最佳决策。 ( 1 2 ) 生存分析:一个人从出生( 治疗丌始) 到死亡( 痊愈) 的时间称为生存时 间,而研究生存时间的方法称为生存分析。 ( 1 3 ) 可靠性分析:该方法又称为信度分析,是检验测量工具的可靠性和稳 定性的主要方法。 3 ) 图表分析 图表分析主要用于把数据结果以图和表的形式直观地表现出来,方便分析人 员理解。统计软件包都有专门的绘图模块,根据计算结果绘制各种相应图形。图 形一般分为两种:基本图形和交互图形。 4 ) 输出管理 输出管理主要用于各种统计分析的结果和图、表存储为合适的格式,便于操 作员读取、修改、转化和发布。 1 2 2 三大统计软件包简介 目前三大统计软件主要指s p s s ,s a s 和b m d p ( b i o m e d i c a lc o m p u t e r p r o g r a m s ) 。它们共同的优点是:具有全面的功能,系统地集成了多种成熟的统 计分析方法:具有完善的数据定义、操作和管理功能;方便生成各种统计图形和 统计表格;具有完备的联机帮助功能;软件开放性好,能方便地和其它软件进行 数据交换。 2 0 世纪6 0 年代末,美国斯坦福大学的三位研究生研制丌发了最早的统计分 析软件s p s s 。1 9 8 4 年s p s s 总部首先推出了世界第一个统计分析软件微机版本 s p s s p c + ,确立了个人用户市场第一的地位。此后,又逐步推出了9 个语种版本。 s p s s p c + 很快应用于自然科学、技术科学、社会科学的各个领域。s p s sf o r w i n d o w s 是一个组合式软件包,它集数据整理、分析功能于一身。用户可根据实 际需要和计算机的功能选择模块。 基于三层构架模统计软件包表,j :层的 i j f 究j 实现 s p s s 同国际上几种统计分析软件相比优越性突出。在众多用户对国际常用 统计软件s a s 、b m d p 、g l 工m 、g e n s t a t 、e p i l o g 、m i n i t a b 的总体印象分的统计中, 其诸项功能均获得最高分。在国际学术界有条不成文的规定,即在国际学术交流 中,凡是用s p s s 软件完成的计算和统计分析,可以不必说明算法,由此可见其 影响之大和信誉之高。但s p s s 与些常用应用软件的兼容性不够好:而且s p s s 作为三大综合性统计软件之一,其统计分析功能与s a s 等软件相比仍有一定欠 缺。 s a s 是美国s a s 软件研究所研制的一套大型集成应用软件系统,具有完备的 数据存取、数据管理、数据分析和数据展现功能。尤其是创业产品统计分析 系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理 和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应 用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。 s a s 系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、 决策分析、财务分析和全面质量管理工具等等。 s a s 系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是 b a s es a s 模块。s a s 系统具有灵活的功能扩展接几和强大的功能模块。s a s 有 个智能型绘图系统,不仅能绘各种统计图,还能绘出地图。s a s 提供多个统计过 程,每个过程均含有极丰富的任选项。用户还可以通过对数掘集的一连串加工, 实现更为复杂的统计分析。此外,s a s 还提供了各类概率分析函数、分位数函数、 样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。目日i s a s 软件对w in d o w s 和u n i x 两种平台都提供支持。s a s 通过对0 d b c 、c o l e 和m a i1 a p is 等业界标准的支持,大大加强了s a s 系统和其它软件厂商的应用系统之间相互操 作的能力,为各应用系统之间的信息共享和交流奠定了坚实的基础。 然而,由于s a s 系统是从大型机上的系统发展而来,其操作至今仍以编程 为主,人机对话界面不太友好,系统地学习和掌握s a s ,需要花费一定的时间和 精力。而对大多数科技工作者而言,需要掌握的仅足如何利用s a s 来解决自己的 实际问题,因此往往会与s a s 软件失之交臂。 b m d p 第一版诞生于1 9 6 1 年,是最早的综合专业统计分析软件,在国际上影 响很大,它方法全面、灵活,早期曾有很多独具特色的分析方法。但是b m d p 的 发展路途不畅,从1 9 9 1 年的7 0 版以后就没有新版本,最后被s p s s 公司收购, 并且没有更多的发展。尽管如此,b m d p 统计软件在国外仍然影响巨大,国外许 多大学的统计学网站均对其关照有加,著名大学统计学系丌设的多变量分析课程 当中就有b m d p 软件的教学内容,而且大型学术研究机构的服务器上也通常安装 着b m d pf o ru n i x 软件供终端用户使用1 。 4 基于三层构架模j 弋统计软件包表,j 层的研究j 实现 1 2 3 流行统计软件包在应用方面的局限性 目前流行的统计软件包在应用方面的局限性表现在: 1 ) 运行维护成本高,p c 版可以购买,u n i x 版只能租赁。随着计算机应用 普及,统计软件包已逐步渗透到需要现代管理方法和工具的企事业单位,如宝钢 每年花费在s a s 软件的租用费达2 0 0 多力元人民币,国家统计局和各省市统计局 都使用s p s s 作为统计工具。 2 ) 不支持中文语义界面,操作界面不友好。为了追求通用性,这些统计软 件包的界面设计只是单纯地满足功能特性,而忽视人的特性、人的认知过程以及 色彩对于人的影响等等。为了照顾到原有用户的使用习惯,通常会尽量减少它们 在界面设计上的变化。这使得陈旧的界面得以延续,其弊端也随之遗留下来。弊 端包括:缺乏“人性”的界面设计,缺乏友好的操作引导;功能布局认知性差; 界面审美性差等问题。 3 ) 统计脚本需进行类似4 g l ( f o u r t hg e n e r a ll a n g u a g e ) 语言编程,要求 使用者具备计算机相关专业知识。即使美国研制的s p s s 和s a s 统计软件至今走 过了近3 0 个年头、引入和被介绍到中国已快3 0 年( 最早在人民大学计算中心的 h p9 0 0 0 小型机上租用了s p s s ) ,但到目前为止,在需要作大量数据统计分析的 业界,专家或实际使用人员谈起s a s 和s p s s ,还称它们是“阳春白雪”。要真正 融会贯通地驾驭这些软件,需要有良好的数理统计及试验设计功底。对我们中国 人来说,还要有扎实的英文基础。这对使用者的专业素质提出较高的要求,并非 一般人所能理解和掌握。 4 ) 与专业统计软件相比,在需频繁进行业务分析的领域中应用效率不高 5 ) 对于每次的数据分析与决策支持需求,使用者都必须专门设计数据抽取 与转换的策略、汇总与分析的方法,才能从繁杂的缺乏中文语义的数据中得到有 意义的统计分析结果,这导致了工作效率的低下,增加了数据分析的出错率,降 低了统计结论的可信度,影响了各个行业的生产管理和经营决策的效果。 6 ) 属于客户服务器构架模式,不支持跨平台数据获取。 7 ) 不具有跨平台自动获取数据源数据的自动图表生成功能。 1 3 研究目标、内容及意义 综上分析,本论文旨在针对三层计算构架统计软件包表示层的实现技术展开 研究。总结出适合国内轨道交通运营管理数据分析需要的,更为人性化和更适合 中国用户使用的统计软件包表示层实现技术。本研究需解决的主要内容和核心技 术描述如下: 基于三层构架模统计软件包表,j :层的倒f 究。j 实现 1 ) 基于三层构架模式统计软件包表示层的关键技术研究与实现,包括: ( 1 ) 统计信息的收集与存储的数据结构设计:考虑到统计信息中数据量巨 大,和统计请求相似度大的特点,设计出一种方便合理,易于修改,消除冲突, 减少冗余的统计信息收集和存储形式。 ( 2 ) 统计结果的展现设计:由于是在三层构架模式下的统计结果的展现, 所以统计结果的获取比单机统计软件中统计结果的获取要复杂得多有同用户不 同机,同机不同用户,不同用户不同机等情况;还必需考虑到统计结果的时效性 问题,因为在大数据量的统计运算情况下,统计结果不一定能立即展现,所以可 能在下次的登陆时提示用户打丌上次统计结果。 ( 3 ) x m l 的生成与解析:x m l 是统计请求和统计结果的暂存形式,所以x m l 的生成和解析是必须实现的技术环节。 ( 4 ) s o e k e t 通信: 这部分包括s o c k e t 通信技术,文件的存储和迁移的设 计等。 ( 5 ) 条件语句的生成与优化:根据轨道交通运营管理数掘分析系统的实际 需要,必须对统计的样本数据量做出描述和限制,而提出条件语句的实现需求条 件语句的设计与实现,既要照顾到用户的使用需求,又要考虑到源数据库中数据 的存储形式和数据抽取的实现可能性,还必须便于中文语义映射的实现需要。 ( 6 ) 统计报表的生成:自动报表生成功能实现了四种通用报表( 包括简单 报表、可计算报表、多维列联表 c r o s s t a b s 、层析表 b r e a k d o w nt a b l e ) 和 2 0 种专用报表( 包括断面客流分析、运载量o d 分析、设备状况分析、营收数据 分析、专用统计报表五大类) 。报表的设计不仅考虑到实现技术问题,还要结合 社会生产的实际需要,使得生成的报表更好地支持轨道交通运营管理和决策。 ( 7 ) 统计图形的实现:图形做为报表信息的直观展现,是报表的有益补充。 本文研究的是基于三层构架模式统计软件包、结合了x m l 数据源优越性的动念图 表实现技术。统计图形有条形图,饼图,直方图,折线图,散点图等。 2 ) 基于三层构架模式统计软件包表示层的人机交互界面设计,包括: ( 1 ) 适合中国用户需要的,具有中文语义展现的,人性化、导航式统计软 件包表示层人机交互界面设计。 ( 2 ) 适合于轨道交通运营管理数据分析的表示层人机交互界面设计。 统计是适应人类社会实践活动的需要而产生和发展起来的哺。实践表明,通 用统计软件往往不能很好地完成特定的统计任务,比较流行的统计软件如s p s s 和s a s 只是侧重于工业工程统计和社会经济统计。因此,专用统计软件的功能设 计和实用性设计就显得尤为重要m 3 。从最原始的统计活动“结绳记事”到当代社 会追求的“统计信息化、统计现代化”,统计算法的理论研究已同臻完善并达到 6 基于三层构架模式统计软件包表, j 层的研究j 实现 一个平原期,而统计学的应用研究方兴未艾。专用统计软件包能否成功应用的关 键不仅在于算法,更在于其功能设计,而表示层正是软件功能的最直接展现,是 软件人性化、实用性和优越性的最有力体现。 本文研究与总结的基于三层构架模式统计软件包表示层实现技术,对于专业 领域的统计软件开发具有参考意义。本研究成果的应用能够显著提高生产管理与 决策水平、节约社会资源、提高劳动生产率、符合中国国情与科学发展观。 1 4 本文组织结构 首先在第一章分析本文研究的原因,总结了研究的目标、内容及意义:然后 在第二章介绍了三层构架模式以及各个层次之间的关系;第三章论述x m l 技术、 s o c k e t 通信原理与人机交互界面设计的指导原则及在表示层设计与实现中的结 合应用:在第四章详细阐述基于数理逻辑推理的表示层统计请求生成与优化的创 新技术;第血章论述基于三层构架模式的统计软件包,结合x m l 数掘源优越性的 动态报表与图形的生成技术;第六章介绍本文研究成果在“上海市轨道交通运营 管理数据分析系统”中的应用实例;第七章对全文进行总结和展望。 基于三层构架模式统计软件包表j 层的研究j 实现 第二章系统构架 2 1 基于三层构架模式统计软件包的技术框架 2 1 1 三层构架模式 网络三层构架模式不同于当前主流统计分析软件单机构架模式的一种新的 软件系统构架模式,它在结构层面及其技术实现上依次为:表示层,计算层和数 据层。层次之间分工明确,每个分析请求过程一般需跨越三层协同工作后彳能完 成。表示层部署在客户端,提供表结构字段定义信息的中文语义描述、统计方法 和图表输出等选择;计算层部署在应用服务器,提供命令解析、数据抽取、数据 整合处理、统计计算和结果反馈;数据层系线路中央计算机系统( i i n ec e n t r a l c o m p u t e rs y s t e m ,l c c s ) 或车站计算机系统( s t a t i o nc o m p u t e rs y s t e m ,s c s ) 的 宿主数据库系统,提供欲被分析的数掘源并支持数据获取;层问指令和参数交换 采用x m l 格式;层阳j 数据传输通过s o c k e t 技术实现。 首先由用户输入请求,客户端整理请求,并把请求发送给计算服务器,计算 服务器解析后执行,并把计算结果返回给客户端。在执行过程中计算服务器会请 求恰当的数据抽取器进行数据获取。三层构架模式的处理视图如图2 1 所示。 图2 1 三层构架模式的处理视图 通过三层构架模式的设计与实现,可以根据网络计算资源的实际情况把集中 处理的统计分析作业松耦合地部署在不同的计算资源上,并可方便地实现跨平台 数据抽取。在特殊情况下,也可以根据实际情况把所有的应用模块部署在同一台 计算资源上,使统计分析软件的应用模块部署具有灵活的拓扑结构。在性能、安 全、可修改和易用性等方面具有明显的技术优势并能满足设计的质量属性,与传 统的集中式处理的统计软件相比,差异显著。基于三层构架技术设计和实现的统 计分析软件包更能体现当前信息技术发展及应用的前瞻性,也符合生产系统应用 部署的实际需要。如在轨道交通a f cl c c s 中,由于主机系统需高可靠性地7 8 基于三层构架模式统计软件包表j j 层的研究与实现 2 4 小时连续运行,一般出于性价比考虑,主机系统的处理负载在满负荷工作时 最多只留2 0 一3 0 的资源空闲:为了对主机系统联机存储的票务数据和设备状念 进行在线联机分析处理( o nl i n ea n a l y s i sp r c e s s ,o l a p ) ,必须单独考虑o l a p 应用模块的异机部署以尽量减少对主处理系统的资源占用和分析干扰,确保计算 机生产主系统的可用性达到预定的9 9 9 9 的设计目标。基于三层构架模式设计 和实现的统计软件包在部署方面可以与生产系统现场实际拥有的网络计算资源 及其计算机资源的应用部署相吻合,不会造成计算资源占用冲突和产生i o 瓶 颈。本文研究和实现的三层构架模式、层与层这| 日j 相互独立,通过x m l 格式文件 定义接口协议并通过s o c k e t 编程实现通信传输和信息交互 1 。 2 1 2 表示层 如上所述,三层构架模式中的表示层部署在p c 客户端,组成表示层应用软 件的模块结构视图如图2 2 所示。 图2 2 表示层模块的结构视图 对于表示层请求统计分析的操作界面,需实现以下功能: 1 ) 设计友好的人机交互界面。 2 ) 验证功能和避免误操作的设计:用户登陆的身份验证。用户输入用户 名、密码,提交登陆请求。系统生成登陆请求x m l 文件并通过s o c k e t 通信向计 算层发送。随后接收并解析登陆请求反馈x m l 文件和下发的统计权限文件,并根 据不同的登陆结果做出不同响应并进入系统,响应交互操作或提示操作错误类 9 基于三层构架模八统计软件包表,j :层的m 究j 实现 型;统计请求设置的合法性验证。验证的根据包括登陆成功后下发的权限文件, 统计意义和功能需求;统计度量规范数据字段重新分类。根据字段的类型及其 语义,参照统计度量重新定义统计实用性,避免操作员误用计算函数;自动推 理操作员选择字段逻辑关联的合理性。对于操作员跨表选择的字段,系统需要检 查这些字段间是否存有逻辑关联,否则无法进行跨表数据的连接。通过0 r a c l e 数据库字典的相关信息,系统能够自动推理操作员所选跨表字段的逻辑关联性, 据此求得耗时最优的笛卡尔积路径。 3 ) 显示功能。客户端显示的是经过数据库表结构元数据影射后的中文语义 信息描述信息,因此在用户登陆后需要存储计算服务器传递来的关于数据集市的 源数据字段定义信息及其对应中文描述信息,并予以显示。 4 ) 设置功能。系统参数配置和密码设计。包括配置客户机编号、客户机 i p 、客户机端口号、计算机服务器i p 、计算机服务器端口号;收集用户的统 计请求设置的统计请求信息,通过预定义的代码表和元素标识符转换成合适的 x m l 格式文件的信息,并通过。s o c k e t 通信向计算层发送。 5 ) 通信功能。经t c p i p 协议、通过s o c k e t 通信发送统计请求,在客户端 启动监听进程接收由计算服务器传输反馈的x m l 格式结果文件。针对每次与计算 服务器的交互,客户端显示交互细节信息,方便用户查看计算服务器服务状态, 在交互模块和显示界面间建立信息通道,把交互的信息随时发送到界面进行显 不o 6 ) 结果展现功能。按照接口约定解析由计算服务器反馈的x m l 格式结果文 件,显示统计结果数据,生成相应类型的报表和图形。 对于操作授权和系统维护方面的操作客户端,采用c s 结构与计算服务器进 行交互,具体需编程完成下述三方面的设计内容: c l i e n t 部署控制和认证管理,包括c l i e n t n o ( 客户端编号) 、i p a d d ( i p 地 址) 、s o c k e t p o r t n o ( s o c k e t 通信端口号) 、r e g is t e r d a t e ( 登记日) 、 e x p i r e d a t e ( 截止日) 。用于客户端信息录入和执行过程中的认证,并提供增、删、 改操作; 操作员登录和访问数据权限管理,包括u i d ( 操作员名) 、p w d ( 密码, 密文存储) 、d e p t ( 部门) 、p o s t ( 职务) 、t e l ( 电话) 、m o b i l e ( 手机) 、 g r a d e ( 操作员等级,如a d m i n 、m a n a g e r 、o p e r a t o r 等) 、g i d ( 分组标识) : 数据维护管理,包括过时文件和数掘仓库历史数据的迁移、备份刻盘和删 除。 此外,为了维护和测试客户端,必须在客户端编写专门的计算服务器模拟程 序,提供固定的功能模拟机制。 l o 基于三层构架模工c 统汁软件包表,j 层的研究j 实现 2 1 3 计算层 计算层是整个三层构架模式设计中的关键业务核心处理层,它主要由计算处 理功能模块和数据抽取器等组成,并且要实现计算层所有处理功能。其模块结构 视图如图2 3 所示。 图2 3 计算层模块结构视图 如图2 3 所示,本文研究的计算层( 计算服务器) 存储的数据包括对照信息 数据、参数数据、数据源信息数据、权限控制信息数据和存储信息数据。在计算 层定义和创建下述3 个数据库: 1 ) 数据仓库d w h ( d a t aw a r e h o u s e ) 。基于统计模型的数据仓库包括数据仓 库数据表和运营时效参数表,主要存储经挖掘、提炼生产现场相关源数据、个性 化专用统计结果的输出形式、统计结果等。具有静态数据表和动态建表的处理性 能,被存储的数据特征有:具有统计目的:集成:不可人为更改和可自 动或批处理更新。数据仓库d w h 中存储数掘的特征及其组织方式完全由专用统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学必修全部的试卷及答案
- 俄语三笔翻译真题及答案
- 2025年申论真题套用模板及答案
- 昌都专干考试历真题及答案
- 钻车司机岗前生产安全考核试卷含答案
- 光学显微镜分辨率增强实践方法
- 公司广播电视线务员设备安全技术规程
- 塑料焊工创新应用知识考核试卷含答案
- 跨平台用户画像构建-第14篇-洞察与解读
- 普外科专科应急预案脚本(3篇)
- CJT 3008.3-1993 城市排水流量堰槽测量标准巴歇尔水槽
- DL-T5706-2014火力发电工程施工组织设计导则
- 临床护理实践指南模拟试题(含答案)
- GA/T 1466.3-2023智能手机型移动警务终端第3部分:检测方法
- 婴幼儿烧烫伤的处理(婴幼儿保育课件)
- MOOC 机械设计-华中科技大学 中国大学慕课答案
- MOOC 创业管理-江苏大学 中国大学慕课答案
- 数据标注项目策划书
- 周至仙游寺建设规划方案
- 肺结核的患者的饮食护理
- 企业申请参展书
评论
0/150
提交评论