(计算机应用技术专业论文)书法牌匾生成技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)书法牌匾生成技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)书法牌匾生成技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)书法牌匾生成技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)书法牌匾生成技术的研究与实现.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕十学位论文摘要 摘要 中国的书法艺术历史悠久,博大精深。书法字应用也极为广泛,牌匾就是其 中重要的应用之一。本文主要研究利用计算机技术自动生成书法牌匾,用户只需 提供牌匾的内容,系统从书法家字库中选取内容符合且风格一致的书法字,自动 产生书法牌匾。书法牌匾自动生成涉及计算机科学技术和书法艺术学,在计算机 领域未曾见到相关的研究。这项服务的关键在于选取风格相似的书法字,因此如 何提取书法字的风格特征,以及如何利用这些特征度量书法字的相似度便是本文 的研究重点。 在艺术领域,书法风格往往是只可意会而不可言传的,本文从计算机领域出 发。通过对“书法字图像特征”和“书法风格”的关联统计与融合分析,解决了 书法图像底层特征向高层语义的映射问题。 本文首先介绍了课题的研究背景,并概括了本文的主要工作。 在第二章中,我们首先介绍了与本文研究相关的内容,包括笔迹鉴别、汉字 字体识别的技术和检索相关的技术。最后简要介绍了框架的总体。 在第三章中,我们首先定义并提取了一系列量化的特征来表征书法风格,主 要包括书法字的结体形态和笔画形态特征。并在此基础上,提出了书法字之间的 相似度衡量方法。 用户的相关反馈有助于系统的优化。在第四章中,本文引入检索领域的相关 反馈技术,包括长期反馈技术和传递反馈技术。通过不断学习用户的反馈信息, 建立书法字之问的相似度关系。同时利用传递反馈的方法,根据反馈中的信息, 建立书法作品之间以及书法家之间的相似度关系。系统利用这些反馈技术,搜索 出接近用户感知的书法字词组。 本文的第五章介绍了书法字牌匾生成的相关系统,第六章对本文做了总结, 并讨论了未来的研究方向。 关键词书法字风格,风格相似度,相关反馈,对等索引,传递反馈 浙江大学硕士学位论文 a b s t r a c t t h ea no f c l l i i l 黜c a l l i 蹦【p h yh 船a1 1 i s t o r yo f m o u 娜d so f y e 掷b e c 撇o f i 忸 舱s m c t i cv a l u ,c a l l i 乒a p h yh 嬲b e w i d d yu s e di nm 柚yo c c 笛i s i t sa p p l i t i o ni n t a b l e t si so n eo f m ei m p o r t a n tu s a g 船ht h i sp a p e r w em a i l l l yf o c 憾t l l er c s e a r c ho f t h eg 锄t i o no f c a l l i g r a p h yt a _ b l e tu s i i 培c o i n p u t e rt c c 虹l o l o g y iw i t l lt l l ec o m e n to f m e t a b l e cp r o v i d e db yt h e 懈e r ,m es y s t 啪w o u l dc h o o s u i t a b i ec a l l i g m p h yw o r di m a g w i t l lt l l es 锄es 哆l e 孤dc r e a t et l l ec a l l i 粤a p h yt a b l c t t h e 懈黜l l w l l i c hr e l a t 鹤t 0 c o m p u t e r 鲰湘呻l o g y 锄dc a l l i g r a l p h ya n ,i sr a r c i ys t l l d i c di nc o m p 咖s c i e i 雠d o m 咖 t h ek c yp o i n to ft l l er e 眦hl i 鹤i i il l o wt of i g u o u tw h e t l l 盯c a l l i g r a p h yw o r d s r 髓朋曲l ei i is 哆l e t l n 硌h o wt o 佗啊e v ec a l l i 乎a p h yw o f df e 曲盯器缸l dh o wt ou t l l 雠 f e a t u r 髂t om 韶s u r ec a l l i 伊a p h yw o r ds i n 瑚撕t i 鹤a r et l l ef o c 憾铭o f t l l ep a p e f u 蚴1 l yc a l l i 伊a p h ys t y l e i sd i m 砌t t o t e l l i n t l l i sp a p w e 脚o a m c l l l o d t o r e p 嘲锄tc a l l i g r a p h ys t y l el l s i n gc a l l i 鲫h yi m a g ef c a 嘛,w i l i c h l v 鹤t h ed i 伍c l l l t y o f m 印p i n gt l l eu n d c f l i n gi m a g ef b t u l e st ol 量l eu p p e rs b d eo f t l l ec a l l i g r a p h yi n l a g e w ep r e s 锄t 锄o i e wo fm eb a c k 鲫d ,m o t i v 砒i o i l m db 勰i ca p p f o a c h 锶o f o u rf e a r c hi l lt 1 1 eb e 酉l l l l i n go f “sp 印睨 h c h 印t c f2 ,w ep r 铝ta 坨、,i e wo f t l i er 髂e 卸c h l a 湖t oo l 】r 珊嘲r d i l ,i n c l u d i n g t l l et e c h n o l o g y1 1 s e di ns i 印a t i l f cv e r i f i c a t i o n 觚dt c c t l i l o l o g yc o n c 锄i n gi l l f o 眦a t i o n r e 啊e v a l w ba l s ob r i c n yi n t r o d u c ca n dd i s c 噼st l l em a i nw o 戊n o wo f t l l e 化s e a r c l l h lc h a p t 盯3 ,w ep r o p o t w o 勺,p 鹤o ff b a n 脑t o 他p r e s e n t l l i g m p h ys t y l e ;o n ei s r c l 删t o t h c w o r ds h 印e 锄d t l l e o m 盱r e l a t c d t o t h es 臼- 0 k 鹤o f t h e w o r d b 勰e d m e f 孤鹤,w ep r e s c n tm em e t l l o d so fh o w t om e a s u t l l es i i i l i l a r i t i 嚣b c t w 嘲d i f f 酣t c a l l i g f a p h yw 咖s a s u s e 心鼢i 【s h e i p t o m a l 【e t l l es y s t e m m o a c c o r d a n t t o m e 璐e 舟n e e d ,w e i i l 删u c e1 1 1 er e l “锄c e 锹加a c k 奴b o l o g yu s c di ni m a g er e t r i 州a l 鲫。a i n c l u d i n g l o n gt 蝴f e e d b a c k 锄ds i m i l 撕t yp r o p a g a t i t 1 1 r d u g hc o n t i n l l a l l yl e a m i n go fu s e r s f e e d b a c kw ee s t a b l i s h l l l e s i m i l 撕t y r e l a t i o nb e t 、v e e nc a l l i 伊a p h yw o r k s 柚d c a l l i 鲫i l i s t w i t hl l l 雠锄d b a c kt o d m o l o 舀部,w ec o l l l d 咖i e v a lm 0 他s u i 协b l e c a l l i 脚h yi m a g e st of b 哪t l l et a _ b l e t s h c h 印t 盯5 ,、p r e s e n tt l l es y s 锄no f a l i n 鼯ec a l l i g r a p h yt a b l c tc r e a t i o na n ds o m e o l l l e rr c l a t c dw o f i c w bc o n c l u d e 坞w h o l ep 印e ri nc h a p t 盯6 ,w i ma 晡e fd i s c 噼s i 蚰 o f t h ea p p l i 酬p r o s p 喇锄df i 】t u r er 鹪e a r c hd i r e c t i o k e y w o r d 摹c a l l i 掣a p h y 亿n 峨f b a h s i l i l i l a r i 吼r c l c v 锄c cf e o d b a c k p e 盯枷懿i n 吕 s i m i l a r i t yp m p a g a t i 浙江大学硕士学位论文 图目录 图目录 图2 1 系统框架图 图3 1 书法字风格相似度计算步骤图9 图3 - 2 结体形状1 1 图3 3 链码映射图1 2 图3 4 不同风格书法字1 3 图3 5 不同风格书法字骨架1 3 图3 6 不同风格书法字笔画数 图3 7 笔画骨架点宽度示例1 5 图3 8 毛刺和空穴的例子1 7 图3 9 轮廓提取例子1 9 图3 1 0 骨架提取例子1 9 图5 1 书法字切分系统界面3 5 图5 2 作品录入系统界面。3 6 图5 3 书法词组检索系统3 7 图5 4 原始检索结果3 8 图5 5 正反馈结果3 9 图5 6 负反馈结果 4 0 i 浙江大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 课题背景 中国的书法艺术历史悠久,博大精深。书法是一种表现性艺术。书法家们通 过书法作品表达其生活的感受、学识、修养、个性以及情趣爱好。同时,书法还 是一种实用性艺术。由于书法的线条具有独特的韵律,文化内容也极为丰富,因 此书法字常常被用于题词,楹联和牌匾中。 在古代,无论是名楼古迹,学校机构,还是民间商铺,几乎所有的牌匾都由 书法写就,其中很多还是出自名书法家之手牌匾书法在书法文化的传播方面, 起着很大的视觉传带效应。如今,许多商家为了省时省力,从电脑中提取标准字 样作为牌丽的题书,与书法字组成的牌匾相比,这种千篇一律的牌匾缺乏韵味。 中国古代的书法家留下了大量的书法作品,如果能够利用这些古人的书法字,组 成用户需要的牌匾,将是一项非常有意义的工作。 本文的主要工作是研究利用计算机自动生成书法牌匾,这项工作涉及了计算 机科学技术和书法艺术学,在计算机领域未曾见到相关的研究。牌匾生成的主要 过程是利用用户提供的牌匾的内容,从书法家字库中选取内容符合且风格一致的 书法字,自动产生书法牌匾。名家书法字库是研究的基础之一汉字的产生阶段 发展至今,历代的名家留下了很多优秀的书法作品。我们通过采用高精度的扫描 仪,将这些历代书法书籍数字化成图像。将书法作品图像切分成书法字图像,组 成名家书法字库。系统可以从书法字库中选取合适的书法字图像,组成满足用户 审美的牌匾。 由于书法字机械堆砌而成的牌匾缺少美感,本文研究的重点在于选取具有风 格一致的书法字,因此如何提取书法字的风格特征,以及如何利用这些特征度量 书法字的相似度便是本文的研究的主要工作。 1 2 本文的主要工作 中国书法经过几千年不断的继承、发展和创新,从图画、符号到创造、定型, 由古文大篆到小篆,由篆而隶、楷、行、草,各种书法形体逐渐形成,不同风格 的书法字形态各异。书法牌匾上的书法字不仅仅要求具有相同的字体,还要求书 法字的形态和风格等相似。 书法牌匾生成的工作包括:将数字化后的书法作品图像经过预处理和切分后 浙江大学硕士学位论文第1 章绪论 得到书法字,通过标注得到书法作品和书法字内容的相关信息并存入数掘库中。 当用户输入需要生成的牌匾内容时,系统从数据库中搜索到对应内容的书法字图 像,且按照风格一致性的原则,选出合适的书法字图像组合并推荐给用户。关于 书法字的切分,论文0 1 中已经有所研究和应用。所以在书法牌匾生成的研究中, 最重要的工作是如何从计算机的角度定义和判断书法字的风格,以及如何有效且 正确地判定几个书法字之间的风格相似度。关于书法风格的研究,论文0 1 中提出 关于书法风格学习的方法,即通过选取书法字的一些特征向量,建立书法字底层 特征向高层书法风格的语义映射。通过学习书法家的风格特征,为计算机鉴别真 伪书法作品提供辅助。文中提到的书法字底层特征,对书法牌匾生成中书法风格 的识别具有很好的启示。 与基于内容的图像检索相同,书法字的底层特征往往不能精确地表达书法字 的风格特征,仅仅依靠书法字特征的检索结果不尽人意。为此,我们将图像检索 中应用的相关反馈技术引入书法字词组检索中,通过用户的反馈改进检索性能。 本文的主要研究工作包括: ( 1 ) 首先针对书法风格的研究,借鉴前人的工作,定义并提取书法字的底层 特征,利用这些特征定义书法字的风格,在此基础上定义书法字之间的风格 相似度。 ( 2 ) 在检索系统中,引入相关反馈技术。根据不断学习用户的反馈信息,利 用对等索引的方法建立数据库中书法字图像之间的风格相似度关系。并将传 递反馈的概念引入到系统中,建立书法作品之间以及书法家之间的风格相似 度关系。 1 3 本文的组织结构 本论文详细介绍了书法牌匾生成中的关键问题一书法字特征提取、书法字风 格定义,书法字词组的风格相似度计算以及相关反馈的技术,包括长期反馈和传 递反馈,具体内容组织如下: 本文的第一章,我们简要介绍了论文的课题背景、相关研究、主要工作和文 章的组织结构。 在第二章中,我们从总体上介绍本文的框架和主要算法。 在第三章中,我们提出了书法字的风格以及书法字之间风格相似度的定义, 给出了书法字的一些可识别的风格特征,并实现了书法字特征的提取。 在第四章中,我们介绍了反馈技术,包括相关反馈和传递反馈,并提出将反 2 浙江大学硕士学位论文第1 章绪论 馈技术应用到书法字词组检索中的算法。 在第五章中,我们将呈现基于目前的研究我们所实现的书法字词组检索系统, 以及其他与书法字处理和特征提取的相关系统。 在论文的最后,我们总结了书法牌匾生成中的技术,并展望了下一步的研究 方向。 3 浙江大学硕上学位论文第2 章相关研究与主要框架 第2 章相关研究与主要框架 2 1 相关研究介绍 扫描的原始书法作品在本质上是图像,因此书法牌匾生成的研究实际上与基 于内容的图像检索c o n t c n t - b a s c di i l f o 哪a t i o nr e 缸c v a l ( c b i r ) 相似,只是书法牌匾 生成中需要判别书法字词组的相似度。c b i r 主要根据图像的视觉特征找出数据 库中跟样本图像相似的图像,所采用的主要视觉特征有颜色、纹理、形状及其它 们的组合,显然对于书法字而言,颜色、纹理都不具备鉴别力,唯有形状是能区 分书法字且具有鉴别力的特征。而从图像中检测和获取形状没有统一的方法,对 于不同的书法字,形状的匹配和度量也无法度量其风格相似度,因此书法牌匾生 成难点有:先要寻找合适的表达书法图像特征的表征,接着根据这些特征表征选 取合适的相似度度量方法,最后根据度量值排序找出风格最相似的书法字图像组 合。 2 1 1 1 笔迹鉴别技术 笔迹鉴别( s i 鼬a n 聃d f i c a t i o n ) 的目的是通过分析和比较手写签名笔迹的书 写风格来判断书写人身份。作为一种身份鉴别的手段,签名鉴别已经广泛地应用 在金融,刑侦甚至考古学等领域。利用计算机来鉴别签名的研究已经进行了3 0 多年,取得了不少成果。签名鉴别与书法风格鉴别有相似的问题,即两者都需要 根据已有的信息分辨书写者的风格。因此我们可以从签名鉴别的研究中,学习和 借鉴相关的技术,以应用到书法字风格的鉴别中。 笔迹鉴定可分为离线比较鉴定和在线笔迹鉴定。在线笔迹鉴定是以现场书写 时记录的笔压、笔的运动轨迹作为鉴定的主要特征,较成功的有m a r i o 。1 通过跟踪 签名轨迹来鉴定英文手写体,y o n g 等“1 的基于笔迹的个性特征鉴别方法,k g 通过匹配局部相似性以鉴别真伪。离线笔迹鉴定是以光学扫描的纸张上的字符为 特征,其中文献“1 从笔画的角度出发鉴定笔迹,文献”1 给出了离线笔迹鉴定的综 述。 根据所考察的对象,又可以将笔迹鉴定的方法分为与内容有关的笔迹鉴定和 与内容无关的笔迹鉴定,即结体依存和结体独立两类。前者一般要求书写者书写 固定内容的文本,从检验笔迹和参考笔迹中选择相同的字进行比较,主要有标准 模板变形法、线段高阶相关法、弧模式频率法、方向指数直方图法、笔画匹配法 等。由于结体依存方法可以对限定的字符形状和书写风格进行深入的分析,因此 4 浙江大学硕上学位论文第2 章相关研究与主要框架 对该范围对象可以得到较高的鉴定率和可靠性,但是汉字字库是如此庞大,辞书 中无疑不可能囊括可能遇到的所有汉字,所以只能是一个极有限的有效范围,辞 书以外的汉字就无能为力了。而结体独立的方法主要通过比较笔迹文本的布局特 征和字符大致形态,对书写者书写文本内容没有限定,可从任何字符集提取与字 符类别无关的特征,因此这类方法实用性较广。已有的结体独立方法主要有变换 法和自相关法、游程直方图法、笔段直方图法等。 笔迹鉴定的一般过程分为五个阶段”:数据获取、预处理、特征提取、匹配比 较、性能评估。其中,前三个步骤与书法风格的鉴别相同。在上述笔迹鉴定的技 术中,与书法风格相关的研究是离线笔迹鉴定和结体独立的笔迹分析。而在离线 汉字笔迹鉴定研究中,主要根掘四类特征:运笔,结体,用词和造句。重点比较 笔画特征、笔画间关系特征、字的结构特征、书写顺序特征、错字特征,文献嘲 综述了汉字笔迹鉴定的一般过程和方法。下面总结了离线签名验证系统所采用的 常用方法。 ( 1 ) 纹理分析方法 手写笔迹的书写特征可以看做是纹理特性,如行字排列是一种有规则的纹理, 单个字符的笔画搭配关系也可以用纹理来度量。笔迹鉴别方法有不少都采用了纹 理分析的方法笔迹特征:如f o l | r i 盯变换和自相关法,游程长度直方图法,笔段长 度直方图法以及笔段方向直方图等。以上方法都是提取笔迹( 版面或特征字) 的全 局特征。文献o ”中使用的是基于简化的、i 辨盯分布纹理分析的文本依存笔迹鉴 别方法,其中w i 盟盯分布是一种图像的局部频谱表示。 ( 2 ) 基于笔画的分析方法 书法字运笔特征蕴含在笔画上。基于笔莉的分析方法采用从笔迹中提取出书 法字的基本笔画,如点,横,竖,撇,捺,提,勾等。在笔画的基础上提取特征, 如文献1 中通过提取笔画单侧轮廓,并在此基础上定义包括笔画倾斜度,笔画长 度之比,笔画夹角等作为笔画骨骼运笔特征,基于运笔特征来鉴别笔迹的真伪。 文献“”中则通过提取笔画的起收笔特征作为鉴别的依据。 ( 3 ) 统计分析法 统计分析法的支柱是概率论和数理统计,采用根据签名的特征对签名进行分 类的思维。用在签名鉴别上较典型的统计分析法有隐马尔可夫模型法h i d d m a r l 【o vm o d e l s 文献“引埘,文献“5 1 在交叉验证法的基础上导出隐马尔可夫模型法, 并根据上下文内容为每个作者设置一系列“接受拒绝”的阈值。 ( 4 ) 谱分析法 5 浙江大学硕十学位论文第2 章相关研究与主要框架 谱分析法是通过多尺度分析签名的特征以决定其真伪,譬如签名中曲笔的曲 率。多尺度分析的一个典型是小波分析,采用小波分析进行笔迹鉴定的典型文献 有文献“邮”。其基本原理是:将签名在不同尺度下进行分解,提取每个尺度下的 有鉴别力的特征,在不同尺度下进行特征的匹配比较,根据综合匹配值决定签名 的真伪。 ( 5 ) 神经网络法 神经网络法的理论基础是神经网络理论,将图像每个象素看作特征向量的一 维,利用神经网络的自动学习和记忆功能,通过对真迹签名的训练建立起记忆, 而后输入未知的可疑签名让神经网络回忆起该签名所属的真伪类别。最早将 该方法引入离线签名鉴定的是文献“”。 笔迹鉴定中所使用的方法,譬如对于笔迹的特征选取,如基于笔画的特征等 对研究书法字风格鉴别具有很好的借鉴作用。所不同的是,在特征选取之后,笔 迹鉴定一般采取与已知的真迹相比较的方法,来判断未知样本是真是假。而在书 法牌匾生成中,我们需要根据提取出的特征判断书法字之间的风格的相似度。 2 1 1 2 汉字字体识别技术 汉字字体识别是光学字符识别( o c ro p t i c a lc l i a r a c t 盯r c c o g l l i t i o n ) 中版式恢 复过程中的重要组成部分。在印刷字体识别的研究中,基于全局纹理特征的字体 识别是比较有效和常用的方法。该方法“”把不同字体的文本块看作是不同的纹 理,通过提取纹理特征识别字体。对纹理的分析主要是使用g a b 盯变换法,该方 法根据人的视觉机理,利用一组在空间域和频率域同时取得较好局部特性的 g a b o r 滤波器对纹理图像进行滤波,滤波结果的统计值作为纹理特征。 文献中将印刷体的字体识别技术引入到了书法字的字体识别中。由于在 g a b o r 滤波器函数中,有三个自由参数:中心频率、角度和空间常量。它们在取 值范围内不同的取值组合确定的多个滤波器对就形成了一个滤波器组。文中通过 实验选择合适的参数使用g a b o r 滤波器进行纹理识别。同时针对书法字的特殊性, 文中提取了书法字的几何特征,如利用提取一系列的椭圆表征书法字的结构信 息,结合g a b o r 滤波器的纹理分析,以区分书法字的不同字体。 2 1 1 3 检索相关技术 书法牌匾生成需要从现有的数据库中检索到内容相同且风格相似的的书法字 图像,所以检索相关的技术也可以有所借鉴。用户一般不关注检索系统的运行远 离,而只对检索的结果有兴趣。因此,衡量一个检索系统的好坏,就看系统能够 检索到符合用户兴趣的结果,即系统的查准率。为了提高系统的查准率,现有的 6 浙江大学硕士学位论文第2 章相关研究与主要框架 很多检索系统引入了相关反馈的技术所谓相关反馈指的是系统根据初始查询检 索到一组样本结果,然后根据用户在样本结果的选择,构造出改进的查询,并据 此再次进行检索。把新的检索结果作为新的样本结果,这一过程可循环进行,从 而得出较为精确的查询,并由此得出较好的检索结果。文献1 中介绍了当前搜索 引擎中常用的相关性反馈技术。 相关反馈技术最早被应用于传统的文本检索( i r ) 领域中,r u i 和h 啪g 啪1 最早开始将相关反馈技术运用于基于内容的图像检索这以后出现了很多用于图 像检索的相关反馈算法。与基于内容的图像检索相同,书法字的底层特征往往不 能精确地表达书法字的风格特征,仅仅依靠书法字底层特征的检索结果不尽人 意。为此,我们将图像检索中应用的相关反馈技术引入书法牌隔生成的检索过程 中,通过用户的反馈改进检索性能。 2 2 框架总体介绍 书法牌厩生成的主要工作是从现有书法数据库中找到与牌匾内容一致且满足 风格相似的书法字图像。为了获取风格相似的书法字图像,我们主要按照如下方 法进行, ( 1 ) 数据获取。由于书法字是组成牌匾的元素,所以本文工作的第一步是获 取足够多的书法字图像,我们通过从数字化后的书法作品中切分出书法字图 像的方法实现。书法作品经过预处理和切分后得到书法字,通过标注得到书 法作品和书法字内容等相关信息并存入数据库中。 ( 2 ) 特征提取。对数据库中的每一个书法字,定义并提取书法字的风格特征, 保存在数据库中。 ( 3 ) 用户查询。书法当用户输入需要制作的牌匾的内容时,系统从数据库中 搜索到对应内容的书法字,计算组合后的书法字词组的相似度,按照相似度 由高到低推荐给用户。 ( 4 ) 用户反馈。用户从系统推荐的结果中选取满意的书法字组合,并向系统 提交反馈,系统学习反馈信息,利用相关反馈等技术,指导书法字词组查询。 工作流程如图2 1 所示: 7 浙江大学硕十学位论文 第2 章相关研究与主要框架 重新计算 ; i i 图2 - l 系统框架圈 2 3 本章小结 书法风格的定义和提取是书法牌匾生成的重要步骤之一由于笔迹鉴别与汉 字字体识别中同样需要提取汉字的风格特征,我们通过研究当前国内外常用的技 术,如基于笔画的分析方法等,借鉴其中相关的技术,引入到书法牌匾生成中。 同时,为了使系统更能反应用户的感知,本文介绍并引入了搜索引擎中常用的反 馈技术。基于以上技术,本章给出了书法牌匾生成技术研究的相关工作以及系统 实现时的主要框架。 浙江大学硕士学位论文第3 章书法字风格相似度 第3 章书法字风格相似度 本章首先定义了书法字的特征信息,包括书法字的基本标注信息以及与书法 字图像相关的特征,并给出了提取书法字特征的方法与步骤。在特征提取的基础 上,定义了书法字风格的计算方法。最后,本章提出了书法字风格相似度的定义 以及计算方法。图3 1 描述了书法字风格相似度计算的步骤。 数据获取r 1 预处理r 1 特征提圾 计算f 5 法字 风格 计算 ;法字 风格相似度 图3 - l 书法字风格相似度计算步骤幽 3 1 书法字特征的定义 3 1 1 书法字基本信息 书法字的基本信息指的是书法字的标注信息,书法作品经过扫描,切割后得 到一个个的书法字,在书法字存储的过程中,经过用户标注或者系统自动获取得 到的信息,主要有书法字的内容,书法字作者,书法字所在的作品,书法字所在 书的信息等。书法字的基本信息与书法字图像本身的特征无关,但对于辨别书法 字风格的相似度具有指导性的帮助。由于系统中所指的书法作品指的同一书法帖 子,而一般认为,书法家在书写同一个帖子时采用的是同一种风格的文笔,所以 同一个书法作品中的书法字具有很高的风格相似度。同样的,由于书法家的书写 风格一般变化不是很大,所以也可以相应地认为同一个书法家所写的书法字具有 一定程度的风格相似性。 3 1 2 书法字的特征风格 书法是汉字的书写艺术。纵观我国三千多年来书法艺术发展的历史,可以说 是一部点画、结体、章法不断发展变化的历史,书法艺术是线条的艺术,它之所 以能成为一门审美价值很高的艺术,主要是因为用毛笔写出的字具有线条千姿百 态、变化无穷的特点,体现了一种变化美。“通过点画线条的强弱、浓淡、粗细 等丰富变化,以书写的内容和思想感情的起伏变化,以字形字距和行间的分布, 9 浙江大学硕上学位论文 第3 章书法字风格相似度 构成优美的章法布局。有的似玉龙琢雕,有的似奇峰突起,有的俊秀俏丽,有的 气势豪放,这些都有使书写文字带上了强烈的艺术色彩。”点画、结构、章法是 书法的变化美的三个重要方面。但是书法的变化美还应该包括对同一种书体不同 书家写出不同风格的美,即个性美。例如同样是楷书体,欧阳询的风格是清癯险 绝,精整工稳;颜真卿的风格是端庄雄健、内舒外紧;柳公权的则体势劲媚、内 紧外松。同样是行书,王羲之的字秀丽神逸,如”清风出补袖,明月入怀”;黄山 谷的行书,气魄宏大,笔画作向外辐射状;米芾的行书,似快刀利剑,八面出 锋。这种不同风格的变化美,体现了个性美。对于普通的书法欣赏者来说,对 于书法字特征的辨别仅仅局限于书法字点画与整体结构上的辨折,如某个书法字 是否比较规整,或者某个书法字比较草。而对于书法字的个性美的辨别,则对欣 赏者有更高的要求。 利用计算机来辨析书法字的特征风格时,我们主要从书法字的整体和部分两 个方面考虑。整体上主要考虑书法字的整体结构,即书法字结体形态特征,部分 上是从书法字的基本构成元素一一点画上出发,不同风格的书法字在笔画上的差 异也非常明显。 3 1 2 1 结体形态特征 书法字在结体上的特征主要是从书法字整体上考虑的,是书法风格的一个重 要特征。这里主要介绍书法字的结体形状和重心位置。 结体形状 有人这样评论楷书大家颜真卿和柳公权的字体:颜体方正茂密,圆润浑厚, 柳体瘦硬坚挺,骨锋清俊。通俗的讲,就是指颜真卿的书法字则偏胖,整体结构 偏向正方,柳公权的书法字偏瘦,结体形状偏长方,如图3 2 所示。因此书法字 结体的形状也可以作为衡量书法家书法风格的一个重要特征,计算每个书法字结 体的高宽比例的方法如公式3 一l 所示: 尺:丝丝 ( 3 _ 1 ) l o 浙江大学硕上学位论文 第3 章书法宁风格相似度 圜囵 圈3 - 2 结体形状 ( a ) 选白柳公权玄秘塔碑( ”选白颜真卿多宝塔碑 重心位置 现代书法家启功经过潜心研究,得出每个书法字的重心并不一定是在正中,而 常常是在偏左或偏上位置的结论。重心的具体位置因书写者的书写习惯而异,如 研究发现,何绍基后期作品字体重心多往右下方偏斜。书法字的重心是书法字结 体的重要特征之一,因此也可以作为书法字的特征风格之一令m 和分别为字 的宽度和高度,“五y ) 为图像函数,字的重心( 五j ,) 可通过下式计算: 其中定义为: ;:监 肌 ;:血 ( 3 - 2 ) 些j 必 ( 3 - 3 ) 所卿= x 9 j ,9 “y ) 一 j = o ,= o 3 1 2 2 笔画形态特征 笔画是构成各种书体字的最基本的零件,因此笔画的变化是书法变化的最基 本的因素。笔画形态特征是反映了书法家的书写习惯,体现着书法家的书法风格。 提取出笔画,我们可以计算笔画的笔画熵,笔压,笔画的弯曲度等信息,用于区 分书法字的风格。 笔画熵 书法字不同的书体有各自的特点,古人有云:“楷如坐,行如走,草如跑”。 楷书追求“平直方正”,而行草均不追求工整,从笔画角度来看,楷书笔画的扭 曲程度不及行草书笔画的弯曲度。我们用笔画熵来度量同一类笔画在不同书写风 格下所包含的信息,也即笔画扭曲的程度。 浙江大学硕十学位论文第3 章书法字风格相似度 在提取笔画熵之前,需要首先根据书法字的骨架和轮廓信息,得到书法字的 笔画,这在后面的书法字特征提取中将具体介绍。然后计算每一笔画的链码。链 码最早由f r 啪锄提出,并广泛应用到包括图形图像处理在内的很多领域中。对 于笔画骨架来说,如图3 3 ( a ) 代表骨架上当前象素点相对周围象素点的方向编码。 在( b ) 中可以更清楚的看到,中间点代表当前象素点,其8 方向的邻接点对应该点 有各自的编码。 4 米。田 图3 3 链码映射图 ( a ) 编码对应的方向( ”8 邻接点编码 得到笔画链码后,根据如下公式计算笔画熵e : 冒= 一壹耐【1 1 l 。g :( 耐【f 】) 耐【f 】= 墼掣 ( 3 棚 冒= 一善耐【1 1x 1 0 9 :( 耐p 】) ,耐p 】_ 旦老i ;蠹兰 其中,如,为8 方向链码中第,编码的值,z 哪跏为链码总长度,妇【f 】相当 于第_ ,编码在总链码中所占的比例。当笔画为直线或斜线时,笔画熵达到最小值; 当该笔画的8 方向链码中每个方向所占比例相等,即该笔画为圆时,笔画熵达到 最大值。笔画扭动度越大,其笔画熵就越大。 弯曲度 弯曲度是描述曲线弯曲程度的参数,定义为曲线长度与曲线两端点定义的线 段长度之比,在实际应用中,弯曲度主要用来反映曲线的迂回特性。一般来说, 楷体的书法字笔画分明,工整规范,干净利落,不潦草或者粘连,笔画的弯曲度 较小。而草体的书法字则笔画连带、字形奔放,笔画弯曲度较大。 由于弯曲度与书法字的笔画宽度无关,可以通过提取书法字的骨架,在骨架 的基础上计算弯曲度。如下定义书法字笔画的弯曲度: d = ,2 ;( 3 - 5 ) 其中 表示笔画两端点之间的曲线长度,对于象素分布的书法字来说,可以认 为是笔画骨架图像上象素点的个数,厶表示两端点之间的直线距离,具体计算为: ,2 = ( 五一恐) 2 如一咒) 2 ,其中( 而,h ) ( 屯,咒) 分别是两个端点的坐标。 浙江大学硕i 二学位论文 第3 章书法字风格相似度 对于点、横、竖、撇、捺等基本笔画来说,当d 为l 时,笔画没有偏移 迹的现象,也表明了书法字笔画非常工整。当书法字中笔画的d 偏大时, 为书法字笔画弯曲的比较厉害。 ( a ) 楷 5 图3 4 不同风格书法字 ( b ) 行书 ( c ) 标准楷f 5 对于图3 - 4 中的三个书法字,字a 选自赵孟颓的玄妙观重修三门记 楷体,字b 的选自行书二赞二诗卷,属于行书,两个书法字的风格迥另 选自经过骨架提取后得到如图3 5 ,根据骨架计算书法字图像,这里比较 计算得到,字a 的横笔的弯曲度d = 1 o l ,字b 的横笔的弯曲度d = 2 0 4 。 ”r 、 印l l “镟。j 图3 5 不i 司风格书法字骨架 由于书法字中的笔画除了简单的横竖撇捺外,还有横折,横勾,竖折,竖勾 等组合笔画,即使是对标准楷体的书法字来说,这些组合笔画的弯曲度也不为l 。 因此不能单纯地与l 比较,弯曲的组合笔画不一定比工整的组合笔画弯曲度大, 因此对于这些笔画不能只通过比较弯曲度来决定书法字的风格。单个笔画的弯曲 度并不能代表整体的特征,为了整合每一笔画的弯曲度特征,我们根据书法字中 每一个笔画的弯曲度,与标准的楷体书法字比较,计算每一对应笔画的偏差,然 后对这些偏差利用公式计算出整体书法字的弯曲程度c 。公式如下: 浙江大学硕七学位论文第3 章书法字风格相似度 c = a ( 一- 量) 2 ( 3 - 6 ) f 扣l 其中吐是书法字的第i 笔的弯曲度,丑是对应标准楷体字相应笔画的弯曲度, c 为0 时,表明该书法字与标准的楷体字越接近,也即该字越规整。c 越大,说 明该书法字的弯曲度大。当两个书法字的弯曲度之差ic 。gig 时( q 为一常量 阈值) ,可以认为这两个字具有一定的风格相似度。 笔画的数目 与楷书相比,草书是为书写便捷而产生的。草书按一定规律将字的点划连写, 结构简省,偏旁假借,所以对比相同内容的楷书与草书的书法字,草书的书法字 图像中分割出的笔画要少。如图3 6 所示,图“1 ) 中永字出自唐代颜真卿的多 宝塔碑,属于楷书,图b ( 1 ) 出自东晋王殉的伯远帖,属于行草书。图a ( 2 ) 和 b ( 2 ) 分别是这两个字的骨架图像,可以看出,楷体书法字的笔画基本遵循标准楷 体字的写法,而偏草体的书法字的笔画数与标准楷体字的笔画数少。对于任意一 个书法字图像,我们通过将该字与同样内容的标准楷体字相比较,提取各自的笔 画信息,比较笔画的个数。如果笔画个数比标准楷体字的笔画的差距越大时,则 该字为偏草体的可能性就越大。 永永y s 夕_ 夕 图3 - 6 不同风格书法字笔四数 笔画的宽度 由于草书的特点是风驰电掣,赴速急就,从下图书写时笔压的大小变化是书 法风格的重要特征。对于在线书写的字符,可通过联机的特殊笔实时记录笔压、 加速度大小;然而对于离线书法字,没有任何笔压记录。但毛笔在书写时笔压越 大,笔画就越粗,即毛笔书法字的笔画粗细在一定程度上反映了书写时笔压的大 小变化。笔画骨架的宽度计算方法为:跟踪骨架线,计算每个骨架点的宽度。 1 4 浙江人学硕l 学位论文第3 章书法字风格相似度 图3 7 笔画骨架点宽度示例 第f 个骨架点宽度是以第f 个骨架点为圆心的半径长,采如下的迭代法计算得 到:半径的初始值为每= l ,步长为1 ;令工明咖,、砌ih 分别为以第f 个 骨架点为圆心、半径为z 的圆周内| i 景色象素总个数和背景色象素总个数,若它 们满足以下公式,则停止半径增长: 竽丝咝 耐 ( 0 5 9 p 舒删+ o 1 1 c _ 6 ( 3 1 0 ) 其中 为权值,此处 = 1 2 5 。 对于自然沧桑腐蚀形成的划痕、斑点,可采用数学形态学方法中的开运 算( 先做腐蚀,再作膨胀) 剔除书法字边缘小毛刺,用闭运算( 先作膨胀,后做 1 6 浙江大学硕上学位论文第3 章书法字风格相似度 腐蚀) 填充书法字由于自然腐蚀造成的小窟窿。采用平滑的算法,剔除一部分噪 声。 3 2 1 3 平滑 为进一步去除噪声,需对二值化之后的图像进行平滑。对于象素的5 5 邻域, 如果出现如图3 8 所示的毛刺或者空穴,则将该象素点反色。 圆田一 图3 8 毛刺和空穴的例子 3 2 2 页面切分 手写体的切分有过很多研究。然而,却没有已发表的文献研究汉字书法字的 切分。书法字的切分并不比普通手写体切分简单,主要原因是书法字页面干扰噪 声比较多,譬如色彩丰富的背景( 彩纸、墓碑、木板) 、人为的印章等。我们先 对原始作品进行对比度调整,去掉部分噪声、红色印章,接着对图像进行去噪和 二值化处理,然后对整页书法作品进行投影。最后,根据直方图问的空白问隔将 页面切割成一列一列的字块。 3 2 3 归一化 由上述切分算法所得的书法字大小是不同的。由于书法字帖与碑拓的不同, 切出来的字颜色也不尽相同。由于牌匾中的书法字具有相同的大小与颜色,因此 需要首先将它们归一化成相同尺度和相同颜色。 通过二值化将书法字图像转化成黑白两色的图像,而后根据图像的来源类型 ( 字帖或者碑拓) ,将其转存为黑字白底的图像。对书法字大小的归一化处理跟 对手写体的归一化处理一样,有两类归一化方法:线性归一化和非线性归一化。 为了保留了书法字的密度信息,我们采用文献嘲1 中描述的基于笔画穿透数目的非 线性归一化方法。 令,( x ,y ) 为归一化之前的书法字图像点阵膨。o ,g 沏,以) 为归一化之后的 书法字点阵膨,l ,m = 1 2 m 。,n = 1 2 l ,d “) ,) 为书法字点阵在各处的 笔划密度函数,日( 曲,矿( ,) 分别为密度函数在水平和垂直方向上的密度投影, 则有: 1 7 浙江大学硕士学位论文 第3 章书法字风格相似度 日t 功= 粪d c 五y , y c y ,2 善d c 毛j , 。一。, 归一化算子可写作: m :宝耶) f l “ 艺( f ) 舻扣。盎 以= ( m 产 ,l 、h ,n ( 3 一1 2 ) ( 3 一1 3 ) 3 2 4 特征提取 3 1 2 节中所述的书法字图像的风格特征中,在提取笔画形态特征时,首先需 要提取出书法字的轮廓信息和骨架信息。从图像的形态学角度考虑,轮廓 ( c 伽 o l l r ) 即书法图像的边界,它保留了书法字笔画宽度信息,同时在保持书法 字拓扑结构的情况下用更少的点( 即更小的维数) 来表示书法字。通过轮廓可以 恢复书法字原来的精确的形状。 骨架( s k e l e t o n ) 是通过细化( 倘皿i n 由算法获取的,且满足如下特征:( 1 ) 只有 一个象素宽;( 2 ) 骨架穿越书法字的中间;( 3 ) 保持书法字的拓扑结构。由于骨架 只有一个象素点宽,相对于一张书法字图像来说,信息缩减了很多,对于骨架信 息的特征检测比较简单。但是由于它丢失了书法字的宽度信息,不能忠实的表达 物体的原来的形状。 3 2 4 1 书法字的轮廓提取算法 在书法字归一化后,即可对书法字轮廓进行计算,用书法字轮廓来表示一个 书法字,能大大减少表示一个书法字所需的象素。我们采用坎尼c 锄n y 最优边缘 检测算子瞄1 来获取书法字轮廓。c 锄y 边缘检测的基本思想:首先对图像选择一 定的g 姗s 滤波器进行平滑滤波;然后采用非极值抑制技术进行处理得到最后的 边缘图像。非极大值抑制的思想:如果图像上某一个象素点( i ,j ) 的边缘强度 a ( i ,j ) 小于沿着梯度方向的两个相邻象素点的边缘强度,则认为该点是非边缘 点。 图3 - 9 显示了边缘检测算子对书法字图像进行边缘检测后得出的效果。 1 8 浙江大学硕士学位论文第3 章书法字风格相似度 石屠天暴 图3 - 9 轮廓提取例子 3 2 4 2 书法字的骨架提取算法 自1 9 6 7 年b l u m 等首先用中轴表示连续平面上的图形以来,人们已经相继提 出了许多提取图像骨架的算法。当前存在着多种细化算法,如迭代算法,跟踪算 法,极值算法等。但是这些细化算法在不同程度上存在着骨架畸变,主要表现在: ( 1 ) 笔画交叉处骨架畸变:( 2 ) 笔画转折处出现分岔骨架;( 3 ) 骨架上有短的毛刺。 文献 2 6 中提出了一种有效的针对书法图像的细化算法,能够比较好地解决上述 问题。算法的主要思想为:( 1 ) 保留图像的内点、突出部分以及图像中绝对不能 被删除的特殊点( 如交叉点、拐角点等) ,保持骨架的连通性。( 2 ) 由于笔画边界 的粗糙易产生骨架毛刺( 包括骨架短毛刺,分岔骨架等) ,因此为得到光滑的图 像骨架需对这些毛刺进行删除。( 3 ) 将骨架细化到单个象素,去掉多余的像素点。 经过该算法得到的骨架信息能够比较好的反映书法字的信息。如图3 1 0 所示: 天天石 图3 1 0 骨架提取例子 3 2 4 3 书法笔画提取 上述骨架提取算法将书法字的信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论