数学模型在档案信息开发利用中的应用_第1页
数学模型在档案信息开发利用中的应用_第2页
数学模型在档案信息开发利用中的应用_第3页
数学模型在档案信息开发利用中的应用_第4页
数学模型在档案信息开发利用中的应用_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品资料数学模型在档案信息开发利用中的应用李学广/林秉雄/梁炎2012-11-23 14:58:29来源:中国档案(京)2010年7期【英文标题】The Application of Digital Model in Exploitation and Utilization of Archives Information【作者简介】李学广,长春市档案馆长春130062;林秉雄,大连理工大学大连116024;梁炎,中山大学广州510080随着改革开放的深入和政府信息公开进程的加快,公众对档案信息的需求也越来越迫切。档案利用需求快速增长,馆藏档案数量逐年增加,档案数字化能力弱的矛盾凸显出来。为此,长春市档案馆承担的国家档案局科技项目档案信息资源开发利用数学模型研究课题已完成,初步探索了用数学的方法系统、定量研究档案利用需求、档案数字化能力、数字化档案利用之间的关系,直观、理性地表达其内在规律。一、引用的方法1.Monte Carlo方法该方法也称计算机随机模拟方法。此法源于美国在第二次世界大战进研制原子弹的“曼哈顿计划”。近来随着计算机技术的发展该方法已经成为解决数学问题的重要方法。2.TOPSIS法该法是属于多目标决策这一数学分支中的一种重要方法。其基本原理是通过检测评价对象与最优解、最劣解的距离来进行排序,若评价对象最靠近最优解同时又最远离最劣解,则为最好;否则为最差。其中最优解的各指标值都达到各评价指标的最优值。最劣解的各指标值都达到各评价指标的最差值。3.MATLAB软件该软件和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。4.术语说明全宗年代单元:将档案按照全宗和年份来进行分类,如此得到的类别这里称为全宗年代单元。全宗年代单元编号:所有全宗年代单元的统一编号。全宗年代单元的档案卷数:该全宗年代单元所包含的档案总卷数。全宗年代单元的利用卷数:该全宗年代单元所包含的档案总的利用卷数。档案价值权重:一个全宗档案价值大小所占的比重。成功率:用户访问到已数字化档案的概率。5.数据说明格式说明:全宗年代单元编号对以全宗和年代进行档案分类的,我们特将如此的类别称为全宗年代单元,它也是这里的要研究数据的基本对象。这里将把全宗年代单元排列成如下格式(其中共m个全宗,n年)。其中全宗号往下逐渐增大,年份往右逐渐减小,所有全宗年代单元按照从左到右,从上到下的顺序从1开始递增编号(各全宗年代单元所在空格数据即为对应的全宗年代单元编号)。档案卷数:档案进馆整理完成后,每个全宗年代单元的档案卷数都已进入档案统计范围。这里视为已知数据,按表1格式排列的矩阵。利用卷数:对每个全宗年代单元档案的利用卷数进行统计汇总,这里视为已知数据,按表1格式排列的矩阵。档案价值权重:为了能够区分不同全宗档案的价值不同,这里特引入一个指标,其确定方法后文有具体说明。对这里是未知数据,按表1格式排列的矩阵。扫描情况数据:有每年平均投入多少资金,每年平均扫描档案的卷数。二、准备工作1.档案利用情况数据将档案利用数据分解成以下两点:一是所有档案利用总数;二是档案利用数据在全宗年代单元的分布。对于前者,利用线性最小二乘法,将已知的m年的拟合出直线,从而来预测未来的档案利用总数。其中,是第i年的年份,是第i年的档案利用总数。方法如下:第一步从下式解出对于后者,用今年的档案利用总数在不同的全宗年代单元的分布作为下一年的分布。因此必须做出如下假设:不同档案利用总数对其在不同全宗年代单元的分布没有影响。2.档案扫描量与投入资金的数据由于地区差异,不同地方的物价等差异较大,并且从投入的资金到最后产生数字化的档案信息,中间有多种因素在影响,但总体上扫描量与投入资金是正比关系,对于比例系数,直接取为若干年的总扫描卷数与总投入资金的比例。三、数学模型建立选择模型目标:在档案数字化的过程中主要遵循的原则有:实用性原则,开放性原则,价值性原则,抢救性原则,时效性原则。然而在实践中,公众已成为利用档案的主体,可见档案信息实用性无疑是首先需要考虑的。因此本模型的目标即是最大化访问到已数字化档案的成功率。指标:档案利用数据代表了档案的利用率,为了最大化成功率,就得以档案利用数据为指标。分析:由于档案利用数据存在明显的扎堆现象“二八现象”,即20全宗的利用卷数之和可能占了总数的80,20年份的利用卷数之和可能占了总数的80。如果盲目或粗放式的制定数字化顺序,那么产生“要用的档案未数字化,已数字化的档案却没有用”现象也就不足为怪了。通过以上分析,显然已经将问题归结为如何从档案利用数据中选出那些利用卷数占的比例比较大的全宗年代单元。显然最笨的蛮干法(也称穷举法)可以实现选到最优的组合(利用卷数总和最大)。然而,仅长春市档案馆这样中型规模的档案馆,就有428个全宗、143个年份(1866-2008)。假设选出15个全宗,15个年份的组合,则一共有 种组合,显然已经不是普通的个人电脑所能够计算的了。为了提高效率,我们将从如何选择全宗与年份的组合入手,分别采取两种不同选择方法得到两个模型。1.直观选择模型本模型主要想法是用局部最优来体现整体最优,即选择总利用卷数最高的全宗与总利用卷数最高的年份的组合。步骤如下:求出每个全宗的总利用卷数(所有年份利用卷数之和),按从大到小次序,根据实际情况选取排在前面的部分全宗。求出每个年份的总利用卷数(所有全宗利用卷数之和),按从大到小次序,根据实际情况选取排在前面的部分全宗。按照以上两步所选的全宗与年份组合的全宗年代单元即为应该先数字化的全宗年代单元。2. Monte Carlo选择模型使用Monte Carlo方法来进行优化。其基本思想是每次试验选取一种全宗与年份组合并求出该组合总的利用卷数,从大量的试验中找出总卷数最大的组合。由于涉及组合问题,所有的情况太多,所需进行的试验的卷数必须非常非常大才能够得到较理想的结果。在长春市档案馆的计算中,在不加改进的情况下进行试验,发现即使进行1亿次试验,所得到的结果也不如直观选择模型来得好。这里主要的思想是减少组合的数量,考虑到利用卷数是典型的稀疏矩阵,其中有很多全宗和年份其实是可以先被排除的,结合直观选择模型的方法,我们采用的方法是,先将利用卷数矩阵按照“行和”与“列和”大小从大到小进行排列,根据实际情况选择排在前面所占比例比较大的行和列,然后再利用下面的流程进行计算。符号定义STEP:最大迭代次数,i:当前迭代次数,S:当前组合对应的全宗年代单元的利用卷数之和,m:随机产生的全宗向量,n:随机产生的年份向量MAX:最优组合全宗年代单元的利用卷数之和OPTm:最优组合所对应的全宗OPTn:最优组合所对应的年份。流程流程图在具体应用时只要根据该流程图,即可编写程序进行求解。在后面的具体应用中使用的是Matlab数学软件进行求解。3.TOPSIS模型目标:考虑到2提出的五个原则,以及具体的量化难易程度,本模型的目标是最优化档案的实用性与价值性。指标:具体将考虑每个全宗年代单元的三个指标:利用卷数,档案卷数,档案价值。档案价值权重量化:由于是以全宗年代单元为研究对象的,全宗的价值主要由档案形成机构的性质、职能、作用、年代久远、稀缺程度等多种因素来决定的。其分类原则如下:一是考虑各种因素,把档案价值权重分五个档次;二是现行档案主要考虑职能与来源因素,历史档案则考虑年代和来源因素。TOPSIS法排序符号定义Y:决策矩阵,Z:规范化决策矩阵,w:不同属性的权重,X:加权规范阵E:综合评价指数(优先权)。对于每个全宗年代单元有三个数据指标:利用卷数,档案卷数,档案价值。使用决策论中的TOPSIS(逼近理想解的排序方法)法给每个全宗年代单元计算综合评价指数(即优先权),同时也就给了它们的排序。决策矩阵按照数据说明中给出的全宗年代单元编号,有如下表形式的决策矩阵。步骤六,按照的值由大到小排列数字化优先顺序。4.仿真分析利用仿真技术,分别模拟长春市档案馆按照三个模型的档案数字化顺序,2009-2010两年内的,具体到每一天的成功率的变化情况。主要方法是利用产生服从一定概率分布的随机数,来模拟真实的随机事件。(1)模块分析数据输入:档案卷数矩阵利用卷数矩阵全宗年代单元的排序(对于选择模型以选到的全宗年代单元的先后次序排列,第三个模型用TOPSIS法产生的次序)每天平均数字化档案卷数:数据输出:每天访问到已数字化的全宗年代单元的成功率。(2)符号定义a:档案卷数矩阵,b:利用卷数矩阵,F:全宗年代单元的排序Arr_daily:每天平均用户数量,D_num:每天平均数字化档案卷数,k:当前天数,Time:仿真的时间(天),Sum:b的利用卷数之和,Digit(i,j):已数字化的档案卷数,UDigit(i,j):未数字化的档案卷数,Succ(k):每天访问到已数字化档案卷数之和,NSucc(k):每天访问到未数字化档案卷数之和,Q(k):每天已数字化档案的成功率。(3)仿真取值取每天用户数量的平均值均为Arr_daily。取每天数字化档案卷数的平均值均为D_num。只计算每天利用数字化档案接待用户的数,即先完成数字化,再接待用户的“常用先扫”的范围,不考虑档案未数字化“现用现扫”的情况。5.主要步骤初始化:a,b,F,Arr_daily, D_num等。按照TOPSIS法产生的全宗年代单元顺序选择全宗年代单元。完成数字化档案工作,并记录Digit与UDigit。产生随机顾客。确定所需的全宗年代单元。确定该档案是否已数字化。计算Succ,NSucc及Q。6.流程图(见图2)流程图2四、理论应用1.模型应用step1准备相关数据统计最近几年的档案利用总数,得到拟合直线从而预测几年内的档案利用总数变化。统计近几年的档案数字化卷数以及投入资金,从而按2.2可得投入资金与数字化卷数的关系。统计馆藏档案,并按照全宗年代格式转换成档案卷数矩阵。统计最近一年档案利用卷数,并按照全宗年代格式转换成档案卷数矩阵。按照不同全宗重要性及其他因素,统计档案价值,并按照全宗年代格式转换成档案价值矩阵。step2代入模型按照理论部分内容,利用MATLAB编程,带入相应数据,即可得三个模型的相应结果。2.仿真分析应用按照仿真分析要求,输入数据:档案卷数矩阵,利用卷数矩阵,全宗年代单元的排序以及每天平均数字化档案卷数。按照流程,利用MATLAB编程,带入相应数据,即可预测三个模型的数字化方案所带来的成功率变换。3.应用推广这里具有很强很广的应用性,对于不同的需求可以使用不同的模型来满足。对操作的简易性要求比较高的用户,这里建议采用直观选择模型,该模型简单实用,仅需简单操作即可实现较好的结果。所需数据:利用卷数矩阵方法:按照上文直观选择模型的两个步骤操作。对于要求从本质上理解并提高数字化效率的用户,这里建议采用TOPSIS模型,该模型稍微复杂,但是效果非常良好。所需数据:利用卷数矩阵,档案卷数矩阵,档案价值矩阵,数字化能力。方法:按照上文TOPSIS模型的六个步骤操作。五、课题研究启示档案利用统计及需求分析是档案数字化精细管理的基础。2004年长春市档案手工汇总了2001-2003年档案利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论