数学模型在档案信息开发利用中的应用

上传人：n*** IP属地：中国上传时间：2020-04-06 格式：DOC 页数：17 大小：374KB 积分：20 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学模型在档案信息开发利用中的应用数学模型在档案信息开发利用中的应用李学广林秉雄梁炎 2012 11 23 14 58 29 来源中国档案京 2010 年 7 期英文标题英文标题 The Application of Digital Model in Exploitation and Utilization of Archives Information 作者简介作者简介李学广长春市档案馆长春林秉雄大连理工大学大连梁炎中山大学广州随着改革开放的深入和政府信息公开进程的加快公众对档案信息的需求也越来越迫切档案利用需求快速增长馆藏档案数量逐年增加档案数字化能力弱的矛盾凸显出来为此长春市档案馆承担的国家档案局科技项目档案信息资源开发利用数学模型研究课题已完成初步探索了用数学的方法系统定量研究档案利用需求档案数字化能力数字化档案利用之间的关系直观理性地表达其内在规律一引用的方法一引用的方法 1 Monte Carlo 方法该方法也称计算机随机模拟方法此法源于美国在第二次世界大战进研制原子弹的曼哈顿计划近来随着计算机技术的发展该方法已经成为解决数学问题的重要方法 2 TOPSIS 法该法是属于多目标决策这一数学分支中的一种重要方法其基本原理是通过检测评价对象与最优解最劣解的距离来进行排序若评价对象最靠近最优解同时又最远离最劣解则为最好否则为最差其中最优解的各指标值都达到各评价指标的最优值最劣解的各指标值都达到各评价指标的最差值 3 MATLAB 软件该软件和 Mathematica Maple 并称为三大数学软件它在数学类科技应用软件中在数值计算方面首屈一指 4 术语说明全宗年代单元将档案按照全宗和年份来进行分类如此得到的类别这里称为全宗年代单元全宗年代单元编号所有全宗年代单元的统一编号全宗年代单元的档案卷数该全宗年代单元所包含的档案总卷数全宗年代单元的利用卷数该全宗年代单元所包含的档案总的利用卷数档案价值权重一个全宗档案价值大小所占的比重成功率用户访问到已数字化档案的概率 5 数据说明格式说明全宗年代单元编号对以全宗和年代进行档案分类的我们特将如此的类别称为全宗年代单元它也是这里的要研究数据的基本对象这里将把全宗年代单元排列成如下格式其中共 m 个全宗 n 年其中全宗号往下逐渐增大年份往右逐渐减小所有全宗年代单元按照从左到右从上到下的顺序从 1 开始递增编号各全宗年代单元所在空格数据即为对应的全宗年代单元编号档案卷数档案进馆整理完成后每个全宗年代单元的档案卷数都已进入档案统计范围这里视为已知数据按表 1 格式排列的矩阵利用卷数对每个全宗年代单元档案的利用卷数进行统计汇总这里视为已知数据按表 1 格式排列的矩阵档案价值权重为了能够区分不同全宗档案的价值不同这里特引入一个指标其确定方法后文有具体说明对这里是未知数据按表 1 格式排列的矩阵扫描情况数据有每年平均投入多少资金每年平均扫描档案的卷数二准备工作二准备工作 1 档案利用情况数据将档案利用数据分解成以下两点一是所有档案利用总数二是档案利用数据在全宗年代单元的分布对于前者利用线性最小二乘法将已知的 m 年的拟合出直线从而来预测未来的档案利用总数其中是第 i 年的年份是第 i 年的档案利用总数方法如下第一步从下式解出对于后者用今年的档案利用总数在不同的全宗年代单元的分布作为下一年的分布因此必须做出如下假设不同档案利用总数对其在不同全宗年代单元的分布没有影响 2 档案扫描量与投入资金的数据由于地区差异不同地方的物价等差异较大并且从投入的资金到最后产生数字化的档案信息中间有多种因素在影响但总体上扫描量与投入资金是正比关系对于比例系数直接取为若干年的总扫描卷数与总投入资金的比例三数学模型建立三数学模型建立选择模型目标在档案数字化的过程中主要遵循的原则有实用性原则开放性原则价值性原则抢救性原则时效性原则然而在实践中公众已成为利用档案的主体可见档案信息实用性无疑是首先需要考虑的因此本模型的目标即是最大化访问到已数字化档案的成功率指标档案利用数据代表了档案的利用率为了最大化成功率就得以档案利用数据为指标分析由于档案利用数据存在明显的扎堆现象二八现象即 20 全宗的利用卷数之和可能占了总数的 80 20 年份的利用卷数之和可能占了总数的 80 如果盲目或粗放式的制定数字化顺序那么产生要用的档案未数字化已数字化的档案却没有用现象也就不足为怪了通过以上分析显然已经将问题归结为如何从档案利用数据中选出那些利用卷数占的比例比较大的全宗年代单元显然最笨的蛮干法也称穷举法可以实现选到最优的组合利用卷数总和最大然而仅长春市档案馆这样中型规模的档案馆就有 428 个全宗 143 个年份 1866 2008 假设选出 15 个全宗 15 个年份的组合则一共有种组合显然已经不是普通的个人电脑所能够计算的了为了提高效率我们将从如何选择全宗与年份的组合入手分别采取两种不同选择方法得到两个模型 1 直观选择模型本模型主要想法是用局部最优来体现整体最优即选择总利用卷数最高的全宗与总利用卷数最高的年份的组合步骤如下求出每个全宗的总利用卷数所有年份利用卷数之和按从大到小次序根据实际情况选取排在前面的部分全宗求出每个年份的总利用卷数所有全宗利用卷数之和按从大到小次序根据实际情况选取排在前面的部分全宗按照以上两步所选的全宗与年份组合的全宗年代单元即为应该先数字化的全宗年代单元 2 Monte Carlo 选择模型使用 Monte Carlo 方法来进行优化其基本思想是每次试验选取一种全宗与年份组合并求出该组合总的利用卷数从大量的试验中找出总卷数最大的组合由于涉及组合问题所有的情况太多所需进行的试验的卷数必须非常非常大才能够得到较理想的结果在长春市档案馆的计算中在不加改进的情况下进行试验发现即使进行 1 亿次试验所得到的结果也不如直观选择模型来得好这里主要的思想是减少组合的数量考虑到利用卷数是典型的稀疏矩阵其中有很多全宗和年份其实是可以先被排除的结合直观选择模型的方法我们采用的方法是先将利用卷数矩阵按照行和与列和大小从大到小进行排列根据实际情况选择排在前面所占比例比较大的行和列然后再利用下面的流程进行计算符号定义 STEP 最大迭代次数 i 当前迭代次数 S 当前组合对应的全宗年代单元的利用卷数之和 m 随机产生的全宗向量 n 随机产生的年份向量 MAX 最优组合全宗年代单元的利用卷数之和 OPTm 最优组合所对应的全宗 OPTn 最优组合所对应的年份流程流程图在具体应用时只要根据该流程图即可编写程序进行求解在后面的具体应用中使用的是 Matlab 数学软件进行求解 3 TOPSIS 模型目标考虑到 2 提出的五个原则以及具体的量化难易程度本模型的目标是最优化档案的实用性与价值性指标具体将考虑每个全宗年代单元的三个指标利用卷数档案卷数档案价值档案价值权重量化由于是以全宗年代单元为研究对象的全宗的价值主要由档案形成机构的性质职能作用年代久远稀缺程度等多种因素来决定的其分类原则如下一是考虑各种因素把档案价值权重分五个档次二是现行档案主要考虑职能与来源因素历史档案则考虑年代和来源因素 TOPSIS 法排序符号定义 Y 决策矩阵 Z 规范化决策矩阵 w 不同属性的权重 X 加权规范阵 E 综合评价指数优先权对于每个全宗年代单元有三个数据指标利用卷数档案卷数档案价值使用决策论中的 TOPSIS 逼近理想解的排序方法法给每个全宗年代单元计算综合评价指数即优先权同时也就给了它们的排序决策矩阵按照数据说明中给出的全宗年代单元编号有如下表形式的决策矩阵步骤六按照的值由大到小排列数字化优先顺序 4 仿真分析利用仿真技术分别模拟长春市档案馆按照三个模型的档案数字化顺序 2009 2010 两年内的具体到每一天的成功率的变化情况主要方法是利用产生服从一定概率分布的随机数来模拟真实的随机事件 1 模块分析数据输入档案卷数矩阵利用卷数矩阵全宗年代单元的排序对于选择模型以选到的全宗年代单元的先后次序排列第三个模型用 TOPSIS 法产生的次序每天平均数字化档案卷数数据输出每天访问到已数字化的全宗年代单元的成功率 2 符号定义 a 档案卷数矩阵 b 利用卷数矩阵 F 全宗年代单元的排序 Arr daily 每天平均用户数量 D num 每天平均数字化档案卷数 k 当前天数 Time 仿真的时间天 Sum b 的利用卷数之和 Digit i j 已数字化的档案卷数 UDigit i j 未数字化的档案卷数 Succ k 每天访问到已数字化档案卷数之和 NSucc k 每天访问到未数字化档案卷数之和 Q k 每天已数字化档案的成功率 3 仿真取值取每天用户数量的平均值均为 Arr daily 取每天数字化档案卷数的平均值均为 D num 只计算每天利用数字化档案接待用户的数即先完成数字化再接待用户的常用先扫的范围不考虑档案未数字化现用现扫的情况 5 主要步骤初始化 a b F Arr daily D num 等按照 TOPSIS 法产生的全宗年代单元顺序选择全宗年代单元完成数字化档案工作并记录 Digit 与 UDigit 产生随机顾客确定所需的全宗年代单元确定该档案是否已数字化计算 Succ NSucc 及 Q 6 流程图见图 2 流程图 2 四理论应用四理论应用 1 模型应用 step1 准备相关数据统计最近几年的档案利用总数得到拟合直线从而预测几年内的档案利用总数变化统计近几年的档案数字化卷数以及投入资金从而按 2 2 可得投入资金与数字化卷数的关系统计馆藏档案并按照全宗年代格式转换成档案卷数矩阵统计最近一年档案利用卷数并按照全宗年代格式转换成档案卷数矩阵按照不同全宗重要性及其他因素统计档案价值并按照全宗年代格式转换成档案价值矩阵 step2 代入模型按照理论部分内容利用 MATLAB 编程带入相应数据即可得三个模型的相应结果 2 仿真分析应用按照仿真分析要求输入数据档案卷数矩阵利用卷数矩阵全宗年代单元的排序以及每天平均数字化档案卷数按照流程利用 MATLAB 编程带入相应数据即可预测三个模型的数字化方案所带来的成功率变换 3 应用推广这里具有很强很广的应用性对于不同的需求可以使用不同的模型来满足对操作的简易性要求比较高的用户这里建议采用直观选择模型该模型简单实用仅需简单操作即可实现较好的结果所需数据利用卷数矩阵方法按照上文直观选择模型的两个步骤操作对于要求从本质上理解并提高数字化效率的用户这里建议采用 TOPSIS 模型该模型稍微复杂但是效果非常良好所需数据利用卷数矩阵档案卷数矩阵档案价值矩阵数字化能力方法按照上文 TOPSIS 模型的六个步骤操作五课题研究启示五课题研究启示档案利用统计及需求分析是档案数字化精细管理的基础 2004 年长春市档案手工汇总了 2001 2003

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学模型在档案信息开发利用中的应用

文档简介

温馨提示

最新文档

评论

数学模型在档案信息开发利用中的应用

文档简介

温馨提示

最新文档

评论

相关文档