数学建模国赛国家一等奖论文.pdf

上传人：灯*** IP属地：河北上传时间：2019-12-01 格式：PDF 页数：6 大小：1.07MB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1期破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要应用。传统的拼接复原由人工完成，准确率较高，但效率很低。特别是当碎片数量巨大，人工拼接很难在短时间内完成任务。随着计算机技术的发展，人们试图开发碎纸片的自动拼接技术，以提高拼接复原效率。文献1给出 5 个碎纸片实例，对应三个复原问题，要求分别建立拼接复原模型和算法，并完成复原。如果复原过程需要人工干预，需写出干预方式及干预的时间节点。 1问题一一页单面印刷文字的文件被纵向切割成 19 条碎纸片，按 018 编号，且顺序打乱。附件 1、附件 2 1 给出中、英文各一页文件的碎片图像，要求拼接复原。 1.1数字化图像处理将图像分为有限个离散点（x， y），每个离散点收稿日期：2014-09-12 作者简介：王智刚，沈晔星，郭羽涵均为参赛选手；本文获 2013 年高教社杯全国大学生教学建模竞赛本科组全国一等奖，指导教师为邱中华。破碎文件碎纸片的自动拼接复原王智刚 a，沈晔星a，郭羽涵b，邱中华c （南京邮电大学a.通信与信息工程学院；b.电子科学与工程学院；c.理学院，南京 210023）摘要：针对文献1提出的三个问题，讨论文件碎纸片的计算机自动拼接技术。利用像素点作数字化图像处理，引入图像梯度和碎片边缘特征差异度计算公式，建立最短路径的规划模型，对碎片进行最优化匹配；根据中英文字特点，给出不同的碎片行特征确定方法，据以解决聚类与纵向拼接。经过 LINGO 运行，得到了 5 份碎片实例的拼接复原结果。关键词：碎纸片拼接；数字化处理；最短路径；边缘特征；差异度；行特征；聚类中图分类号：TP391.41 文献标志码：A文章编号：1008-5327（2015）01-0067-05 Splice Recovery of Broken File Fragments WANG Zhi-ganga, SHEN Ye-xinga, GUO Yu-hanb, QIU Zhong-huac (a.School of Communication and Information Engineering; b.School of Electronic Science and Engineering; c.School of Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China) Abstract： As for three questions presented by document1, the paper discussed the computer automatic splic ing technology of file fragments. Author processed digital image by using pixel, and introduced the image gra dient and difference degree calculation formula of fragment edge characteristic; then it established planning model with shortest path to optimally match fragments. The paper presented different methods to determine different fragments line characteristics according to characteristics of words in both English and Chinese. Fi nally, recovery results of five slice fragment instance were attained after LINGO operation. Key words: fragments splice; digital process; shortest path; edge characteristic; different degree; line charac teristics; cluster 29 1 Mar. 15 第29卷第1期 15年3月 ! 南通职业大学学报 UNIVERSITY doi:10.3969/j.issn.1008-5327.2015.01.017 67 南通职业大学学报15年都有特定的位置和灰度，称为像素点 2 ，图像的灰度定义为二维离散函数 f（x， y）。利用 MATLAB 的数字图像输入功能可建立函数 f（x， y）。由于图像并不只是黑和白，文字周围还存在灰色部分，所以实际处理时，黑色像素点取数值 255，灰色像素点根据灰度取值 2541，白色像素点取值 0。取每张碎片左、右两个边缘纵向上的像素点 f（1， y）， f（72， y）作为该碎片的特征点。 1.2图像的梯度与匹配度对图像的二维离散函数求导，可反映图像的边缘特征。定义图像梯度 3， 4 为 G（x， y）= f（x + 1， y）- f（x， y） + f（x， y + 1）- f（x， y），碎片 i 与碎片 j 的边缘特征差异度为 Rij= 1 n n y = 1 移Gi（k， y）- Gj（1， y），其中 n 为总行数。由此可得碎片之间的梯度差距表（Ri j）1919，在除 Ri j= 0 以外的有效数据中，最小数值代表两碎片的图像梯度差距最小，匹配度最高，有可能是相邻的碎片。 1.3最短路径的规划模型利用最短路径算法建立碎片匹配的最优化模型。做出如下类比：碎片间两两的边缘特征差异两两碎片间的 “路径” ；是否拼接该碎片是否 “经过” 该碎片。引入 0-1 矩阵（Bij）1919，其中 Bij= 1 表示经过该点， Bij= 0 表示不经过该点。优化模型的目标函数为经过所有碎片的路径最短，约束条件为路径能够经过所有的碎片且每个碎片仅经过一次。最短路径的数学模型为 5， 6 min f = 18 i = 0 移 18 j = 0 移RijBij s.t. 18 i = 0 移Bij= 1， 18 j = 0 移Bij= 1， Bij B ji= 0， 0i， j18， ij。 1.4模型求解将图像数字化处理为像素点后，可以确定左列特征点都为白点的碎片为第一片，此后基于图像梯度和文字边缘特征，根据上述最短路径模型，用 LINGO 求解最优路径，无需人工干预即可依次确定碎片的最佳拼接顺序。实际计算的结果：中文文件由左到右的复原碎片编号为： 8， 14， 12， 15， 3， 10， 2， 16， 1， 4， 5， 9， 13， 18， 11， 7， 17， 0， 6。英文文件由左到右的复原碎片编号为： 3， 6， 2， 7， 15， 18， 11， 0， 5， 1， 9， 13， 10， 8， 12， 1 4， 17， 16， 4。按这一顺序拼接附件 1 和附件 2 的图片，即可得到中文文件和英文文件的复原图。 2问题二一页单面印刷文字的文件被纵向又横向切割成 1119209 块相同大小的矩形碎纸片，按 0 208 编号，附件 3、附件 4 1 给出中、英文各一页文件的碎片图像，要求拼接复原。 2.1中文碎片的复原 2.1.1行特征及碎片的聚类引入行特征：从底部起，取第一个纵向完整的行到碎片下边缘的间距（用像素点的个数表示）为该碎片的行特征 d，如图 1 所示。打印稿的行间距为 68 个像素点，所以应有 d68。如果出现 d 68，说明少了一到两行文字，可减去 68 的整数倍，使之恢复到 d0， 68。由于附件 3 中的碎片及文字都是正向放置，所以同一行向碎片的行特征应当一致，由此可以按照行特征将碎片聚类。不过有些汉字的长度不一样，会使少部分同行碎片的行特征存在差异，但差异很小，不会影响聚类。聚类结果为： d = 2， 9， 15， 21， 28， 33， 40， 46， 52， 58， 64，共分为 11 类，每类碎片的个数均为 19。在该聚类的基础上，可用 1.3 节的最短路径模型对每一类碎片实施行拼接。 2.1.2行碎片的纵向拼接单张碎片像素为 72180，即单张碎片纵向有 180 个像素点，上下吻合拼接的两张碎片中，会有 23 个完整的文字行。设上、下两个碎片的行特征分别为 d0和 d，则 d0+（180 - d）恰好容下这些完类比类比图1中文行特征 dd 68 第1期整的文字行，即 d0+（180 - d）为 68 的整数倍，由此易找到各行的下一行碎片的行特征。例如对于 d0= 2，可找出 d = 46，满足（2 180 46） 68 2。由于同行文字的长度也会有微小差别，所以下片行特征也会有微小差别，但不影响对应关系。例如 d0= 9，可找出 d = 52，满足（9 180 52） 68 2.012。各行的下片行特征对应如下： 2 46， 9 52， 15 58， 21 64， 28 2， 33 9， 40 15， 46 21， 52 28， 58 33， 64 40。该对应有循环性。然后用上下边缘特征差异为 0 的后者作为拼接段落的开头。中文段落开头行特征为 33，由上述对应关系递推拼得整个段落。拼接复原的结果如表 1 所示。表1中文文件复原拼接的碎片编号次序表序号12345678910111213141516171819 14954651431862571921781181909511221292891188141 2611978676999162961317963116163726177205236 3168100766214230412314719150179120861952618718 4381484616124358118912210313019388167258910574 5711568313220017803320219815133170205851521652760 6141283159821991351273160203169134393151107115176 794348418390471214212414477112149971361641275843 812513182109197161841101876610615021173157181204139145 929641112015921804837755544206101049817217159 107208138158126681754517401375356931537016632196 1189146102154114401512071551401851081174101113194119123 2.2英文碎片的复原 2.2.1英文碎片的相对行特征英文字母中存在 5 个特殊字母 g， j， p， q， y，其下方拖出一个尾巴，故不能沿用图 1 的中文碎片行特征的确定方法。模拟英文单词本，对英文字符进行切割，分为上、中、下三个部分。分析英文单词的结构特征可以发现，每行字母中部 7225 像素部分的像素点最为密集，所以利用 7225 的长方形搜索框从碎片底部以 1 个像素点为间隔向上移动覆盖，搜索框覆盖区域有效点最多的地方即为字母中部，如图 2 所示。设搜索框的下边界纵坐标为 d，纵向长 h=25，搜索模型为 max d + h - 1 y = d 移 72 x = 0 移f （x， y）， s.t.0 d n - h + 1。英文稿的行间距为 64 个像素点，所以应有 d64。如果出现 d 64，说明有空行，或者搜索到的密集区不在最后一行，如图 3 所示。这时可减去 64 的整数倍，使之恢复到 d0， 64。搜索得到的 d 并不整齐，故称之为相对行特征，聚类也要以范围分。聚类结果为 d = 6 10， 16 19， 26 31， 38 42， 50 52， 59 62，共分为 6 类， d = 50 52 的碎片个数为 19，其他 5 类的碎片个数均为 38。 2.2.2英文碎片的拼接用类似于 1.3 节的最短路径模型对每一类碎片实施横向行拼接。同类碎片个数为 38，说明有两行碎片混在了一起，部分碎片的边缘是白色，此类特殊碎片会被误连接，由 LINGO 自动拼接的序图2搜索框图3锁定字母不在最后行搜索框上部下部中部王智刚，等：破碎文件碎纸片的自动拼接复原 69 南通职业大学学报15年列中出现这种特殊碎片，其编号为： 202， 19， 171； 86， 134； 70， 201； 2， 143， 149， 28， 191； 20； 81， 159。在序列中将这些碎片处的拼接断开，以人工方式将这些片段进行移动拼接。由于英文碎片的行特征不够明显，所以在纵向拼接时，主要考虑碎片上、下边界的边缘特征差异，辅助考虑上、下片行特征的递推关系。碎片上、下边界的边缘特征差异由下式给出： Rij= 1 n 72 19 y = 2 移Gi（y）- Gj（y）， Gi（y）= 2fi（180， y）- fi（179， y）- fi（180， y - 1）， Gj（y）= 2fj（1， y）- fj（1， y - 1）- fj（180， y）。利用已成行碎片上、下边界的边缘特征差异 Rij先对行碎片进行拼接，具体方法与横向拼接相同，对于边缘特征模糊的行碎片再辅助以行特征的递推关系来确定位置。英文碎片拼接复原的结果如表 2 所示。表2英文文件复原拼接的碎片编号次序表序号12345678910111213141516171819 11917511154190184210418064106414932204653967147 2201148170196198941131647810391801012610061728146 38651107294015818698241171505595892303746127 419194931418812112610515511417618215122572027116582 5159139112963138153533812312017585501601879720331 6204110811613673362071351576431994517379161179143 72082174961119331421686216954192133118189162197112 8708460146817413719584717215696239912290185109 91321819569167163166188111144206313034131102527178 1017142662051015774145831345518563516918315244 1181771282001315212514019387894872121771240102115 3问题三一页印刷文字的双面打印文件被切割成 11 19209 块相同大小的矩形碎纸片，按 000a， 000b208a， 208b 编号， a， b 表示同一碎片的两个面，附件 5 1 给出一页英文双面打印文件的碎片图像，要求尝试拼接复原。 3.1依据相对行特征聚类碎片对于英文字母，用相对行特征来表征碎片特征。附件 5 中的碎片无法直接按面分类，但可以根据同一碎片正、反面的相对行特征一致，先将同行的碎片聚类。相对行特征的确定方法与 2.2 节一致，聚类结果为 d = 01， 811， 2023， 2833， 4044， 5254，共分为 6 类， d = 5254 的碎片个数为 19，其他 5 类的碎片个数均为 38。 3.2建立各行拼接的优化模型碎片有正反面之分，同类碎片之间有四种拼接方式： ia ja，ia jb，ib ja，ib jb。设聚类后同行的碎片数为 p。在每种拼接方式下，某一碎片与同行的每个碎片拼接都会产生一个边缘特征差异度 Ri j， ia ja 和 ia jb 连接的边缘特征差异最小分别为： min p i = 1 移 p j = 1 移Ria，jaB1ij+ p i = 1 移 p j =1 移Rib，jbB2ij， min p i = 1 移 p j = 1 移Ria，jbB1ij+ p i =1 移 p j =1 移Rib，jaB2ij。 ib ja 和 ib jb 连接的边缘特征差异最小与之类似。利用贪心算法进行拼接复原。对于 a 面碎片，若 an作为首片被拼接碎片，可按照上面两个最小化模型寻找同行碎片中边缘差异度最小的碎片 am （b m）与之拼接，再以 am （b m）作为新的被拼接碎片 an，寻找对应的 am （b m），依次递推。由于存在左右边空白的特殊碎片，它与其他存在白边的碎片能达到最优匹配，所以在用上述模型自动拼接时，需要进行人工监视，当出现特殊 70 第1期序号12345678910111213141516171819 1136a 047b 020b 164a 081a 189a 029b 018a 108b 066b 110b 174a 183a 150b 155b 140b 125b 111a 078a 2005b 152b 147b 060a 059b 014b 079b 144b 120a 022b 124a 192b 025a 044b 178b 076a 036b 010a 089b 3143a 200a 086a 187a 131a 056a 138b 045b 137a 061a 094a 098b 121b 038b 030b 042a 084a 153b 186a 4083b 039a 097b 175b 072a 093b 132a 087b 198a 181a34b156b 206a 173a 194a 169a 161b11a199a 5090b 203a 162a 002b 139a 070a 041b 170a 151a 001a 166a 115a 065a 191b 037a 180b 149a 107b 088a 6013b 024b 057b 142b 208b 064a 102a 017a 012b 028a 154a 197b 158b 058b 207b 116a 179a 184a 114b 7035b 159b 073a 193a 163b 130b 021a 202b 053a 177a 016a 019a 092a 190a 050b 201b 031b 171a 146b 8172b 122b 182a 040b 127b 188b 068a 008a 117a 167b 075a 063a 067b 046b 168b 157b 128b 195b 165a 9105b 204a 141b 135a 027b 080a 000a 185b 176b 126a 074a 032b 069b 004b 077b 148a 085a 007a 003a 10009a 145b 082a 205b 015a 101b 118a 129a 062b 052b 071a 033a 119b 160a 095b 051a 048b 133b 023a 11054a 196a 112b 103a 055a 100a 106a 091a 049a 026a 113b 134a 104b 006b 123b 109a 096a 043b 099b 碎片时，中断递推过程，取出特殊碎片进行人工的移动、拼接，再恢复流程完成最后的优化复原。尽量拼接出较长序列，并由人工判定正确性，再组合之前被筛除的数据，得出完整序列。实际人工干预拼接的碎片编号为： 158， 184； 55， 106； 119， 15， 132， 87， 173； 129， 17； 178， 147， 36， 137。 3.3行碎片的纵向拼接英文碎片的纵向拼接

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数学建模国赛国家一等奖论文.pdf

文档简介

温馨提示

最新文档

评论

数学建模国赛国家一等奖论文.pdf

文档简介

温馨提示

最新文档

评论

相关文档