数学模型在档案信息开发利用中的应用_第1页
数学模型在档案信息开发利用中的应用_第2页
数学模型在档案信息开发利用中的应用_第3页
数学模型在档案信息开发利用中的应用_第4页
数学模型在档案信息开发利用中的应用_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学模型在档案信息开发利用中的应用数学模型在档案信息开发利用中的应用 李学广 林秉雄 梁炎 2012 11 23 14 58 29 来源 中国档案 京 2010 年 7 期 英文标题英文标题 The Application of Digital Model in Exploitation and Utilization of Archives Information 作者简介作者简介 李学广 长春市档案馆长春 林秉雄 大连理工大学大连 梁炎 中山大学广州 随着改革开放的深入和政府信息公开进程的加快 公众对档案信息的需求 也越来越迫切 档案利用需求快速增长 馆藏档案数量逐年增加 档案数字化 能力弱的矛盾凸显出来 为此 长春市档案馆承担的国家档案局科技项目 档 案信息资源开发利用数学模型研究 课题已完成 初步探索了用数学的方法系 统 定量研究档案利用需求 档案数字化能力 数字化档案利用之间的关系 直观 理性地表达其内在规律 一 引用的方法一 引用的方法 1 Monte Carlo 方法 该方法也称计算机随机模拟方法 此法源于美国在第二次世界大战进研制 原子弹的 曼哈顿计划 近来随着计算机技术的发展该方法已经成为解决数 学问题的重要方法 2 TOPSIS 法 该法是属于多目标决策这一数学分支中的一种重要方法 其基本原理是通 过检测评价对象与最优解 最劣解的距离来进行排序 若评价对象最靠近最优 解同时又最远离最劣解 则为最好 否则为最差 其中最优解的各指标值都达 到各评价指标的最优值 最劣解的各指标值都达到各评价指标的最差值 3 MATLAB 软件 该软件和 Mathematica Maple 并称为三大数学软件 它在数学类科技应用 软件中在数值计算方面首屈一指 4 术语说明 全宗 年代单元 将档案按照全宗和年份来进行分类 如此得到的类别 这里称为全宗 年代单元 全宗 年代单元编号 所有全宗 年代单元的统一编号 全宗 年代单元的档案卷数 该全宗 年代单元所包含的档案总卷数 全宗 年代单元的利用卷数 该全宗 年代单元所包含的档案总的利 用卷数 档案价值权重 一个全宗档案价值大小所占的比重 成功率 用户访问到已数字化档案的概率 5 数据说明 格式说明 全宗 年代单元编号 对以全宗和年代进行档案分类的 我们特将如此的类别称为全宗 年代 单元 它也是这里的要研究数据的基本对象 这里将把全宗 年代单元排列 成如下格式 其中共 m 个全宗 n 年 其中全宗号往下逐渐增大 年份往右逐渐减小 所有全宗 年代单元按 照从左到右 从上到下的顺序从 1 开始递增编号 各全宗 年代单元所在空格 数据即为对应的全宗 年代单元编号 档案卷数 档案进馆整理完成后 每个全宗 年代单元的档案卷数都已 进入档案统计范围 这里视为已知数据 按表 1 格式排列的矩阵 利用卷数 对每个全宗 年代单元档案的利用卷数进行统计汇总 这里 视为已知数据 按表 1 格式排列的矩阵 档案价值权重 为了能够区分不同全宗档案的价值不同 这里特引入一个 指标 其确定方法后文有具体说明 对这里是未知数据 按表 1 格式排列的矩 阵 扫描情况数据 有每年平均投入多少资金 每年平均扫描档案的卷数 二 准备工作二 准备工作 1 档案利用情况数据 将档案利用数据分解成以下两点 一是所有档案利用总数 二是档案利用 数据在全宗 年代单元的分布 对于前者 利用线性最小二乘法 将已知的 m 年的拟合出直线 从而来预测未来的档案利用总数 其中 是第 i 年的年份 是第 i 年的档案利用总数 方法如下 第一步从下式解出 对于后者 用今年的档案利用总数在不同的全宗 年代单元的分布作为 下一年的分布 因此必须做出如下假设 不同档案利用总数对其在不同全宗 年代单元的分布没有影响 2 档案扫描量与投入资金的数据 由于地区差异 不同地方的物价等差异较大 并且从投入的资金到最后产 生数字化的档案信息 中间有多种因素在影响 但总体上扫描量与投入资金是 正比关系 对于比例系数 直接取为若干年的总扫描卷数与总投入资金的比例 三 数学模型建立三 数学模型建立 选择模型 目标 在档案数字化的过程中主要遵循的原则有 实用性原则 开放性原 则 价值性原则 抢救性原则 时效性原则 然而在实践中 公众已成为利用 档案的主体 可见档案信息实用性无疑是首先需要考虑的 因此本模型的目标 即是最大化访问到已数字化档案的成功率 指标 档案利用数据代表了档案的利用率 为了最大化成功率 就得以档 案利用数据为指标 分析 由于档案利用数据存在明显的扎堆现象 二八现象 即 20 全宗的利用卷数之和可能占了总数的 80 20 年份的利用卷数之和可能占了 总数的 80 如果盲目或粗放式的制定数字化顺序 那么产生 要用的档案未 数字化 已数字化的档案却没有用 现象也就不足为怪了 通过以上分析 显然已经将问题归结为如何从档案利用数据中选出那些利 用卷数占的比例比较大的全宗 年代单元 显然最笨的蛮干法 也称穷举法 可以实现选到最优的组合 利用卷数总和最大 然而 仅长春市档案馆这样中 型规模的档案馆 就有 428 个全宗 143 个年份 1866 2008 假设选出 15 个 全宗 15 个年份的组合 则一共有 种组合 显然已经不是普 通的个人电脑所能够计算的了 为了提高效率 我们将从如何选择全宗与年份 的组合入手 分别采取两种不同选择方法得到两个模型 1 直观选择模型 本模型主要想法是用局部最优来体现整体最优 即选择总利用卷数最高的 全宗与总利用卷数最高的年份的组合 步骤如下 求出每个全宗的总利用卷数 所有年份利用卷数之和 按从大到小次序 根据实际情况选取排在前面的部分全宗 求出每个年份的总利用卷数 所有全宗利用卷数之和 按从大到小次序 根据实际情况选取排在前面的部分全宗 按照以上两步所选的全宗与年份组合的全宗 年代单元即为应该先数字 化的全宗 年代单元 2 Monte Carlo 选择模型 使用 Monte Carlo 方法来进行优化 其基本思想是每次试验选取一种全宗 与年份组合并求出该组合总的利用卷数 从大量的试验中找出总卷数最大的组 合 由于涉及组合问题 所有的情况太多 所需进行的试验的卷数必须非常非 常大才能够得到较理想的结果 在长春市档案馆的计算中 在不加改进的情况 下进行试验 发现即使进行 1 亿次试验 所得到的结果也不如直观选择模型来 得好 这里主要的思想是减少组合的数量 考虑到利用卷数是典型的稀疏矩阵 其中有很多全宗和年份其实是可以先被排除的 结合直观选择模型的方法 我 们采用的方法是 先将利用卷数矩阵按照 行和 与 列和 大小从大到小进 行排列 根据实际情况选择排在前面所占比例比较大的行和列 然后再利用下 面的流程进行计算 符号定义 STEP 最大迭代次数 i 当前迭代次数 S 当前组合对应的全宗 年 代单元的利用卷数之和 m 随机产生的全宗向量 n 随机产生的年份向量 MAX 最优组合全宗 年代单元的利用卷数之和 OPTm 最优组合所对应的全 宗 OPTn 最优组合所对应的年份 流程 流程图 在具体应用时只要根据该流程图 即可编写程序进行求解 在后面的具体 应用中使用的是 Matlab 数学软件进行求解 3 TOPSIS 模型 目标 考虑到 2 提出的五个原则 以及具体的量化难易程度 本模型的目 标是最优化档案的实用性与价值性 指标 具体将考虑每个全宗 年代单元的三个指标 利用卷数 档案卷 数 档案价值 档案价值权重量化 由于是以全宗 年代单元为研究对象的 全宗的价 值主要由档案形成机构的性质 职能 作用 年代久远 稀缺程度等多种因素 来决定的 其分类原则如下 一是考虑各种因素 把档案价值权重分五个档次 二是现行档案主要考虑职能与来源因素 历史档案则考虑年代和来源因素 TOPSIS 法排序 符号定义 Y 决策矩阵 Z 规范化决策矩阵 w 不同属性的权重 X 加权规范阵 E 综合评价指数 优先权 对于每个全宗 年代单元有三个数据指标 利用卷数 档案卷数 档案 价值 使用决策论中的 TOPSIS 逼近理想解的排序方法 法给每个全宗 年代 单元计算综合评价指数 即优先权 同时也就给了它们的排序 决策矩阵 按照数据说明中给出的全宗 年代单元编号 有如下表形式的决策矩阵 步骤六 按照的值由大到小排列数字化优先顺序 4 仿真分析 利用仿真技术 分别模拟长春市档案馆按照三个模型的档案数字化顺序 2009 2010 两年内的 具体到每一天的成功率的变化情况 主要方法是利用产 生服从一定概率分布的随机数 来模拟真实的随机事件 1 模块分析 数据输入 档案卷数矩阵 利用卷数矩阵 全宗 年代单元的排序 对于选择模型以选到的全宗 年代单元的先后 次序排列 第三个模型用 TOPSIS 法产生的次序 每天平均数字化档案卷数 数据输出 每天访问到已数字化的全宗 年代单元的成功率 2 符号定义 a 档案卷数矩阵 b 利用卷数矩阵 F 全宗 年代单元的排序 Arr daily 每天平均用户数量 D num 每天平均数字化档案卷数 k 当前天 数 Time 仿真的时间 天 Sum b 的利用卷数之和 Digit i j 已数字 化的档案卷数 UDigit i j 未数字化的档案卷数 Succ k 每天访问到已 数字化档案卷数之和 NSucc k 每天访问到未数字化档案卷数之和 Q k 每天已数字化档案的成功率 3 仿真取值 取每天用户数量的平均值均为 Arr daily 取每天数字化档案卷数的平均 值均为 D num 只计算每天利用数字化档案接待用户的数 即先完成数字化 再接待用户的 常用先扫 的范围 不考虑档案未数字化 现用现扫 的情况 5 主要步骤 初始化 a b F Arr daily D num 等 按照 TOPSIS 法产生的全宗 年代单元顺序选择全宗 年代单元 完成数字化档案工作 并记录 Digit 与 UDigit 产生随机顾客 确定所需的全宗 年代单元 确定该档案是否已数字化 计算 Succ NSucc 及 Q 6 流程图 见图 2 流程图 2 四 理论应用四 理论应用 1 模型应用 step1 准备相关数据 统计最近几年的档案利用总数 得到拟合直线从而预测几年内的档案利用 总数变化 统计近几年的档案数字化卷数以及投入资金 从而按 2 2 可得投入资金与 数字化卷数的关系 统计馆藏档案 并按照全宗 年代格式转换成档案卷数矩阵 统计最近一年档案利用卷数 并按照全宗 年代格式转换成档案卷数矩 阵 按照不同全宗重要性及其他因素 统计档案价值 并按照全宗 年代格 式转换成档案价值矩阵 step2 代入模型 按照理论部分内容 利用 MATLAB 编程 带入相应数据 即可得三个模型的 相应结果 2 仿真分析应用 按照仿真分析要求 输入数据 档案卷数矩阵 利用卷数矩阵 全宗 年代单元的排序以及每天平均数字化档案卷数 按照流程 利用 MATLAB 编程 带入相应数据 即可预测三个模型的数字化方案所带来的成功率变换 3 应用推广 这里具有很强很广的应用性 对于不同的需求可以使用不同的模型来满足 对操作的简易性要求比较高的用户 这里建议采用直观选择模型 该模型 简单实用 仅需简单操作即可实现较好的结果 所需数据 利用卷数矩阵 方法 按照上文直观选择模型的两个步骤操作 对于要求从本质上理解并提高数字化效率的用户 这里建议采用 TOPSIS 模 型 该模型稍微复杂 但是效果非常良好 所需数据 利用卷数矩阵 档案卷数矩阵 档案价值矩阵 数字化能力 方法 按照上文 TOPSIS 模型的六个步骤操作 五 课题研究启示五 课题研究启示 档案利用统计及需求分析是档案数字化精细管理的基础 2004 年长春市档 案手工汇总了 2001 2003

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论