版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于最小二乘法和分治算法的
碎纸片拼接复原
成员:沈旭东张郁哲吴鹏中国石油大学(华东)引言:
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。碎纸片自动拼接复原技术现今可以归结到计算机视觉和模式识别领域内的问题。引言:
问题的重述:
首先,对于给定的来自同一页单面印刷文字文件的碎纸机破碎中、英文纸片(仅纵切),建立碎纸片拼接复原模型和算法;
其次,在第一问的基础上设计出单面印刷文件既纵切又横切的碎纸片拼接复原模型和算法;
最后,对还有可能出现双面打印文件的既横切又纵切的碎纸片设计出相应的拼接复原模型与算法。问题的分析:
对于碎纸片的拼接问题的解决,我首先想到的是可不可以考虑笔画连续性问题来进行求解,然后我就想到了关于运用函数连续性的证明?但是发现这好像行不通,然后查阅资料知道将照片数字化处理后得到灰度,用0表示黑色,1表示白色,可以考虑运用最小二乘法来进行匹配程度的表达。然后根据贪婪算法思想,每一步都取最优,对于可能会出现的不匹配情况结合人工干预进行调整。
模型的假设及符号说明:1、同一附件中的碎纸片来自于同一页文件,且未缺失;2、文章中同一行汉子均在同一条水平线上,没有倾斜,且字纵向上长度相同(“一”除外),英文字母大小在三条间距相同的横线间,且均占满所在的间隔。3、碎纸片表面光滑平整无磨损且无污点;4、假设破碎纸片边缘完好无缺损。
符号说明
碎纸片经matlab数字化得到1980x72的矩阵,矩阵中的值就是像素,取值在0-1,如图所示其中M=1980,N=1368. 当k=72i-71与k=72i分别对应于第张纸片数字化后所对应矩阵的第一列与最后一列。 令为第i张纸片的最后一列与第s张纸片第一列第行数据的平方欧氏距离,该值为模型准备:问题一:被纵切后碎纸片的拼接复原模型的求解
为了寻找已经确定好位置的第张碎纸片最相匹配的碎纸片,要求确定好位置的第i张碎纸片最后一列与其拼接碎纸片的第一列平方欧氏距离总和最小,数学表达式如下:
借助了贪婪算法的思想。现根据目标函数作最优选择,每做一次贪心选择就将未实现拼接的碎纸片集合。为未匹配碎纸片的集合。集合中碎纸片数量为:n=19-i。模型准备:拼接流程
问题二:被横、纵切后碎纸片的拼接复原模型的建立
(一)碎纸片的层次聚类问题二:被横、纵切后碎纸片的拼接复原模型的建立
(一)碎纸片的层次聚类 一幅黑白照片,它在水平与垂直方向上的亮度变化是连续的,在经过数字化后,即表现为它所对应矩阵的灰度值取值是连续的。进而可以了解到,若两张碎纸片位于复原文件中同几行时,那么其对应矩阵灰度值在纵向上分布近似。经观察测试,原始文档碎片具有下列特点:(1)字体大小:字体的最大高度和最大宽度一致。(2)切割的均匀性:同方向的切割线平行,图片大小均相等,沿纵横方向按直线切割。(3)文字的行距:文字的行间距等同,段落间距为定值。因此可以通过此特点先将图片进行数字化处理放入.xls文件中然后导入SPSS软件进行K型聚类分析(二)碎纸片类内拼接
在经过碎纸片的聚类后,假设将碎纸片分为了m类,第i类所含碎纸片数量为
,i的取值为
1-m。现需对这类碎纸片进行类内拼接。拼接规则借助模型一中碎纸片拼接模型目标函数。将209张碎纸片经matlab数字化后得到209个的矩阵。矩阵中的值,即像素,取值为0-1。其中该值越接近0,则表示该值所对应点的实际颜色越接近黑色;相反该值越接近1,则表示该点的实际颜色越接近白色。 碎纸片经matlab数字化得到1980x72的矩阵,矩阵中的值就是像素,取值在0-1,如图所示其中M=1980,N=1368. 当k=72i-71与k=72i分别对应于第张纸片数字化后所对应矩阵的第一列与最后一列。 令为第i张纸片的最后一列与第s张纸片第一列第行数据的平方欧氏距离,该值为模型准备:
为了寻找已经确定好位置的第张碎纸片最相匹配的碎纸片,要求确定好位置的第i张碎纸片最后一列与其拼接碎纸片的第一列平方欧氏距离总和最小,数学表达式如下:
借助了贪婪算法的思想。现根据目标函数作最优选择,每做一次贪心选择就将未实现拼接的碎纸片集合。为未匹配碎纸片的集合。集合中碎纸片数量为:n=11-i。模型准备:
(三)碎纸片块类间拼接
在经碎纸片聚类后,以及运用matlab编程加人工干预的方法拼接后,得到11块仅横向拼接的碎纸片块。现需对这11块仅横向凭借的碎纸片块进行块间拼接。
该11块仅横向拼接的碎纸片块与问题1中仅被纵向切割的碎纸片类似,根据碎纸片块上下边缘部分内容可将这11块碎纸片分为两种类型,其中第一种类型为上下边缘部分含有部分文字信息,第二种类型为碎纸片块上下边缘无文字全为空白。对于第一种碎纸片块可借助模型1仅纵切碎纸片拼接模型的方法,将该种类碎纸片实现拼接。而对于第二种碎纸片块而言,它相当于上面Ⅱ碎纸片类内拼接中我们所定义的无匹配碎纸片(即在评判条件为碎纸片间灰度值平方欧式距离最短的情况下,该碎纸片有多于1张碎纸片可与之匹配),现无法编程实现拼接过程,故引入人工干预过程。人工干预实现碎纸片拼接的原则为:段间文字的间距为一定值。问题三:被横、纵切后碎纸片的拼接复原模型的求解
我组成员通过研究讨论,认为问题三可被看成两份文件复原的问题,即问题二的叠加问题。通过讨论认为可先将碎片采用与问题二相同的标准进行聚类分析然后采用类内拼接的方法先将碎片平成横向条状,再通过类间的欧氏距离进行纵向拼接模型的评价:优点:
从问题一到问题三、中文到英文由于难度的增加依次将模型进行改进,可认为模型对该类问题有很好的可用性。并且大大的提高了文件复原拼接效率。缺点:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理文书改进措施
- 病理科组织病理学标本处理流程
- 2026四川成都市青白江区医疗卫生事业单位考核招聘急需紧缺卫生专业技术人才18人备考题库及答案详解【网校专用】
- 2026福建泉州石狮市祥芝镇人民政府招聘编外工作人员3人备考题库及参考答案详解(预热题)
- 2026江苏宿迁市卫生健康委员会所属事业单位招聘11人备考题库带答案详解(培优)
- 2026春季中国工商银行宁波市分行校园招聘120人备考题库及参考答案详解(b卷)
- 2026西藏阿里地区革吉县人力资源和社会保障局(医疗保障局)补聘基层劳动就业社会保障公共服务平台工作人员1人备考题库附参考答案详解(a卷)
- 中华财险广州中心支公司2026届春季招聘备考题库附答案详解(夺分金卷)
- 2026西藏中共林芝市委员会宣传部招聘公益性岗位工作人员2人备考题库含答案详解(能力提升)
- 2026北京首华物业管理有限公司招聘2人备考题库含完整答案详解【名校卷】
- 小学刑法知识讲座
- 城发公司行业分析
- 口腔材料学课件
- 麻醉科临床诊疗指南2020版
- 中建综合支架专项施工方案
- 非常规时段施工安全管理方案
- 2023年北京市中国互联网投资基金管理有限公司招聘笔试题库含答案解析
- 普通气动调节阀规格书
- 如何保证伙伴成功举绩
- GB/T 41155-2021烧结金属材料(不包括硬质合金)疲劳试样
- 发展经济学 马工程课件 0.绪论
评论
0/150
提交评论