(计算机应用技术专业论文)简谱识别方法的研究.pdf_第1页
(计算机应用技术专业论文)简谱识别方法的研究.pdf_第2页
(计算机应用技术专业论文)简谱识别方法的研究.pdf_第3页
(计算机应用技术专业论文)简谱识别方法的研究.pdf_第4页
(计算机应用技术专业论文)简谱识别方法的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)简谱识别方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 简谱是大家非常熟悉和常用的乐谱之一,但是在目前光学乐谱识别领域中对它的 研究几乎空白,研究的焦点都集中在五线谱识别上。本文在深入分析简谱特征的 基础上,提出了一整套简谱识别系统的实现方法。输入的光学简谱经预处理后, 首先通过每行的小节线特征提取出简谱部分,然后通过投影法和种子填充算法定 位出简谱符号基元的位置,并由此采用不同的识别算法识别出每个简谱符号基元 的类型,最后通过组装把各个简谱符号组装成音乐特征符,形成数字化乐谱。实 验表明,这套方法对印刷乐谱的识别达到了令人满意的效果,是一项有意义的研 究。 关键字简谱识别定位简谱符号基元类型识别组装 塑望茎兰堡主堂垡篓塞 a b s t r a c t n u m b e r e dm u s i c a ln o t a t i o n ( n m n ) i so n eo ft h em o s tf a m i l i a ra n dc o l t l m o nm u s i c s c o r e s ,b u ti ti ss e l d o mt h a ta n y o n es t u d i e sa b o u ti t sr e c o g n i t i o ni no p t i c a lm u s i c r e c o g n i t i o n ( o m r ) f i e l da tp r e s e n t ,a n de v e r y o n ef o c u so nt h er e s e a r c ho fs t a f fs c o r e r e c o g n i t i o n i nt h eb a s eo fd e e p l ys t u d yo ft h ef e a t u r e so fn m n ,t h i sp a p e rp r o p o s e s a l la p p r o a c ho ff u i f i l i i n gt h er e c o g n i t i o n a f t e rp r e d e a l i n gt h e i n p u t t e do p t i c a lm n m , e x t r a c t st h en m n p a r ta c c o r d i n gt ot h eb a rl i n ef e a t u r ea tf i r s t t h e nl o c a t e 谢m i t i v e o b j e c t st h r o u g hp r o j e c t i o n sa n df l o o d - f i l la l g o r i t h m s a n du s ed i v e r s ea l g o r i t h m st o r e c o g n i z et h et y p eo fe v e r yp r i m i t i v eo b j e c t l a s t l ya s s e m b l et h e mt om u s i c a lf e a t u r e s t of o r md i g i t a lm u s i c a ls c o r e t h er e s u l to ft h ee x p e r i m e n ti n d i c a t et h es a t i s f y i n g e f f e c tt h a ta c h i e v e db yu s i n gt h i sm e t h o dt or e c o g n i z et h en m n k e y w o r d sn u m b e r e dm u s i c a ln o t a t i o n r e c o g n i t i o n l o c a t e p r i m i t i v e o b j e c tt y p er e c o g n i z ea s s e m b l e 1 1 一一一 塑坚查堂堡主兰焦丝苎; 第一章概述 1 1 乐谱的背景 简谱为一种简易的记谱法。有字母简谱和数字筒谱两种。一般所称的科谱, 系指数字简谱。数字简谱以可动唱名法为基础,用i 、2 、3 、4 、5 、6 、7 代表音 阶中的7 个基本音级,读音为d o 、r e 、m i 、f a 、s o l 、l a 、s i ,休止以o 表示。每 一个数字的时值名相当于五线谱的4 分音符( 如图i 1 ) 。数字简谱的雏形初见于 1 6 世纪的欧洲。1 7 世纪时法国天主教方济名会教士j j 苏艾蒂加以改进后用来教 唱家教歌曲。1 8 世纪中叶著名的法国思想家j j 卢棱再加改进,大力倡导,并 编入他的音乐辞典之中。1 9 世纪,经过p 加兰、a - 帕里斯和e j t m - 谢韦3 人的继续改进和推广,才在群众中得到广泛使用。因此这种简谱在西方被称为“加 一帕一谢氏记谱法”。 1 9 世纪束叶,简谱传到日本,再传入中国。1 9 0 4 年沈心工编著出版的学 校唱歌集是中国最早自编的一本简谱歌集;之后逐步普及到各地的学校,3 0 年代随着救亡歌咏运动的开展,简谱得以在群众中广泛流传。 、 ,、,、,、 4 ,55 ,35 ,660104 56 11 127 67 65 ,50 117 11 13 4 5 ,一堑4 34 ,耋18 旱弓“拿:l4 吐一o1 0 6 一监| 3 3 一塑蠡 图1 1 简谱片段 五线谱的前身可追溯到中世纪的纽姆记谱法及有量记谱法。纽姆谱以横线为 标准,用符号表示音的高低,但不显示音值长短。从7 世纪起,这种记谱法出现 于欧洲天主教堂内,最初只用1 根线代表f 音高,1 1 世纪经阿雷佐的圭多逐步 发展成4 根线。规定音高为d 、f 、a 、c ,并将f 线画成红色,c 线画成黄色( 后 成为五线谱中高音及低音谱号的起源) 。1 3 世纪有人使用第5 根线,成为五线 谱的前身。1 6 世纪又有加线的办法,使音高的记载更完备。 有量电谱法为1 3 世纪科隆教士弗兰科创始。这种记谱法用音符、休止符和 记号严格规定了音的长短,是对纽姆谱的补充和丰富。在1 4 5 0 年左右,音符是 涂以黑色的,称为有量黑符,以后改用空心音符,称为有量白符,这种记谱法在 浙江大学硕士学位论文 西方使用到1 7 世纪左右。 五线谱在前两者的基础上出现,到1 7 世纪逐步完善,1 8 世纪开始定型而沿 用至今。如小节线原用于文字谱,1 7 世纪末被五线谱所采用;升降记号通用于 1 8 世纪,表情记号取有量记谱法;装饰音记号源于纽姆谱,1 7 世纪系统化用于 五线谱。 五线谱( 如图1 2 所示) 现在是世界上使用最广泛的记谱法,在目前的记谱 法中,五线谱相比较而言最为严密、准确、科学。它用五条平行横线记录声音的 高低,用空心( 或实心) 椭圆或在它侧加竖线( 有的还在竖线的一端加“尾巴”) 的图形作音符,表示音的长短。具有立体感,便于记录多声部音乐。在五线谱中 所有音符的音高都是由音符所在的谱线位置来确定的,绝大多数符号和标记都叠 加在谱线这一特征上。 图1 2 五线谱片段 1 2 研究背景 随着信息化和数字化的普及,越来越多的纸式文档迫切需要通过识别技术 自动转换为数字形式保存下来,以便于检索、管理和利用。在文字识别研究领域 中,除了诸如中文识别、英文识别等般意义上的文字识别( 0 d t i c a lc h a r a c t e r r e c o g n i t i o n ,o c r ) 研究外,另一个大类就是音乐界的光学乐谱识别( 0 p t i c a l m u s i cr e c o g n i t i o n ,o m r ) 的研究。o m r 系统包括识别从纸上扫描的乐谱。并对 它们进行翻译使得可以由计算机进行演奏或输入到音乐编辑器中。 o m r 与o c r 相比,在研究上面临更多更显著的挑战。首先,鼯者之间很大 的一个不同是乐谱是二维的( 纵轴为音高,横轴为时间) ,而文字则是完全一维 的。其次,乐谱中的符号通常都叠加在一起,这使得乐谱显得更复杂。比如,五 线谱中所有的的符号都叠加在五条谱线上,简谱中所有的符号都分散在七个数字 符号的上下左右四个空间内,符号上面有连音线,这使得独立出每个符号变得十 分困难。同时,与o c r 不同的是,符号是由符号以不同的方式组合而成,比如 浙江大学硕士学位论文 五线谱中,符干可能带有几个符头,也可能与其他符干连结在一起。简谱中短横 线可能在数字符号的下端也可能在数字符号的右端以组成不同时值的音符。然 后,同样的符号也可能以不同的形状呈现,比如连音线的长度就取决于它所使用 的上下文的位置【jj 。 o c r 的研究历史比较就技术也已比较成熟,在现实生活中的运用也已非常 广泛。有关0 m r ( 光学乐谱识别) 技术的研究最早开始于2 0 世纪6 0 年代后期,由 于当时技术条件尤其是硬件设备的限制,研究内容十分有限。到了2 0 世纪7 0 年 代,随着计算机音乐技术的诞生、光学扫描仪的出现和机器性能的提高,0 m r 才 真正引起众多学者的广泛关注,其中代表人物有m i t 的d e n n i sh o w a r dp r u s l i n ( 1 9 6 6 ) 和d a v i ds t e w a r dp r e r a u ( 1 9 7 0 ) ,其研究的主要内容是利用传统轮 廓跟踪方法对乐谱进行研究。 进入2 0 世纪8 0 年代之后,随着计算机图形图像技术的不断发展与成熟,o m r 的研究也越来越深入并逐步进入实用阶段,代表人物有n i c h o l a sp a u lc a t e r , i c h i r o f u j i n a g e ,d a v i db a i n b r i d g e ,b e r t r a n dc o l l a s n o n ,n i c kc a r t e r 等。他们在o m r 领域 开展了大量有价值的开创性工作,在他们的文献中提出了许多创造性的思想和完 整算法,部分成果已开始在一些软件系统中得到应用。一些被广泛研究和使用的 方法包括:投影法,h o u g h 转换,模板匹配,以及线性邻接图法等。比较著名的 o m r 系统有m ps c a n2 、c a p e l l a - s c a n6 0 、o m e r ( o p t i c a lm u s i ce a s yr e a d e r ) 2 1 、 p h o t o s c o r e4 0 、s c o r e m a k e r4 0 、s m a r t s e o r ep r o3 3 等等。 但是目前的研究主要集中在五线谱上,对于简谱却鲜有问津。与五线谱相比, 简谱中所有的符号没有五线谱中五条谱线作为基准线叠加上去,而都是分散在简 谱段空间中。其次,五线谱中的符号都准备的叠加在五条线上或两条线的中间, 而简谱中只是在7 个数字音符的上下左右加各种标记来表示音长和音高,然后再 添加各种符号和标记,其中并无任何特征来标记其位置。然后,五线谱中所有的 符号都在五条谱线或上加第一线和下加第一线之间,符号高度有一定的规定,而 简谱书写随意、松散,如符号间没有规范的空闻约束,小节线长度也许跟整段高 度一样也可能只跟数字音符高度一样等等。这些都使得简谱识别的难度大大增 大。 虽然简谱具有各种缺点并且也不是目前国际上广泛采用的形式,但是在我国 浙江大学硕士学位论文 最普及的仍然是简谱形式。在我国简谱对音乐的普及和推广,作出了重大的贡献。 在今后相当长的时期内,简谱将会继续发挥它的积极作用。目前国内很少有针对 简谱识别的研究,所以实现简谱的识别以使得最终实现五线谱和简谱的相互转换 显得十分迫切。因此我们展开简谱识别的研究。 1 3 简谱识别的几个阶段 简谱识别和一般的光学乐谱识别( o m r ) 一样都分为以下几个阶段:( 1 ) 扫 描输入与预处理;( 2 ) 符号对象定位;( 3 ) 符号识别;( 4 ) 音乐语义的理解。 1 3 1 扫描输入与预处理 这个阶段我们把简谱图象处理成易于计算机识别的形式。首先经过扫描仪把 简谱输入到计算机中,受到乐谱质量、纸张质量、扫描质量等影响,输入到计算 机内的乐谱会带有随机噪声和干扰。可以对乐谱图像进行去噪声和清晰化处理以 尽可能排除各种噪声和干扰。为了提高后面阶段的处理速度和处理效率,我们在 这一阶段对图像进行二值化处理,把输入的灰度图像转换成黑自图像。此外,系 统要求输入图片的要求为8 位灰度图象。 1 3 2 符号对象定位 我们把这阶段分成两部分,简谱正文部分识别和简谱符号对象定位。由于简 谱识别系统不需要关注歌词部分,以免把它们曲解为简谱符号”1 ,所以我们分 离出每行筒谱正文部分,并去除任何文字部分( 标题,歌词,动态标记等等) 。 然后,割离出简谱中的每一最小的符号基元,并记录这一符号基元在简谱图像中 所占矩形框架的顶点坐标位置,以供下一步的符号基元处理。 1 3 3 符号识别 这一阶段中将要识别出上一阶段所得到的符号基元,根据符号基元的特点, 和其所在简谱行的位置特征采用不同的方法确定并记录每一符号基元的类型。符 号分为四种:如1234567 的音符,来表示表示不同的音高;位于音符下边和 右边的横线以及位于音符右边的附点,用于表示音符时值;位于音符下边和上边 将音符升高或降低八度圆点以及将标准的音符升高或降低的变化音;其他各类符 号。 1 3 4 音乐语义的理解 一旦简谱中的符号基元被识别出后,必须要把它们组装成它们所属的更大的 一堑望盔兰堕主堂垒堡塞 最普及的仍然是简谱形式。在我国简谱对音乐的普及和推广,作出了重大的贡献。 在今后相当长的时期内,简谱将会继续发挥它的积极作用。目前国内很少有针对 筒谱识别的研究,所以实现倘谱的识别以使得最终实现五线谱和简谱的相互转换 显得十分迫切。因此我们展开简谱识别的研究。 1 3 筒谱识别的几个阶段 简谱识别和一般的光学乐谱识别( o m r ) 一样都分为以下几个阶段:( 1 ) 扫 描输入与预处理;( 2 ) 符号对象定位;( 3 ) 符号识别;( 4 ) 音乐语义的理解。 1 3 1 扫描输入与预处理 这个阶段我们把简谱图象处理成易于计算机议别的形式。首先经过扫描仪把 简谱输入到计算机中,受到乐谱质量、纸张质量、扫描质量等影响,输入到计算 机内的乐谱会带有随机噪声和干扰。可以对乐谱图像进行去噪声和清晰化处理以 尽可能排除各种噪声和干扰。为了提高后面阶段的处理速度和处理效率,我们在 这一阶段对图像进行二值化处理,把输入的灰度图像转换成黑白图像。此外,系 统要求输入图片的要求为8 位灰度图象。 1 3 2 符号对象定位 我们把这一阶段分成两部分,简谱正文部分识别和简谱符号对象定位。由于筒 谱识别系统不需要关注歌词部分以免把它们曲解为简谱符号【”,所以我们分 离出每行简谱正文部分,并去除任何文字部分( 标题,歌词,动态标记等等) 。 然后,割离出简谱中的每一最小的符号基元,并记录这一符号基元在简谱图像中 所占矩形框架的顶点坐标位置,阱供下一步的符号基元处理。 1 3 3 符号识别 , 这一阶段中将要识别出上一阶段所得到的符号基元,根据符号基元的特点, 和其所在简谱行的位置特征采用不同的方法确定并记录每一符号基元的类型。符 号分为四种:如1234567 的音符,来表示表示不同的音高;位于音符下边和 右边的横线以及位于音符右边的附点,用于表示音符时值;位于音符下边和上边 将音符升高或降低八度圆点以及将标准的音符升高或降低的变化音:其他各类符 号。 1 3 4 音乐语义的理解 一旦简谱中的符号基元被识别出后 一且简谱中的符号基元被识别出后 必须要把它们组装成它们所属的更大的 必须要把它们组装成它们所属的更大的 浙江大学硕士学位论文 最普及的仍然是简谱形式。在我国简谱对音乐的普及和推广,作出了重大的贡献。 在今后相当长的时期内,简谱将会继续发挥它的积极作用。目前国内很少有针对 简谱识别的研究,所以实现简谱的识别以使得最终实现五线谱和简谱的相互转换 显得十分迫切。因此我们展开简谱识别的研究。 1 3 简谱识别的几个阶段 简谱识别和一般的光学乐谱识别( o m r ) 一样都分为以下几个阶段:( 1 ) 扫 描输入与预处理;( 2 ) 符号对象定位;( 3 ) 符号识别;( 4 ) 音乐语义的理解。 1 3 1 扫描输入与预处理 这个阶段我们把简谱图象处理成易于计算机识别的形式。首先经过扫描仪把 简谱输入到计算机中,受到乐谱质量、纸张质量、扫描质量等影响,输入到计算 机内的乐谱会带有随机噪声和干扰。可以对乐谱图像进行去噪声和清晰化处理以 尽可能排除各种噪声和干扰。为了提高后面阶段的处理速度和处理效率,我们在 这一阶段对图像进行二值化处理,把输入的灰度图像转换成黑自图像。此外,系 统要求输入图片的要求为8 位灰度图象。 1 3 2 符号对象定位 我们把这阶段分成两部分,简谱正文部分识别和简谱符号对象定位。由于简 谱识别系统不需要关注歌词部分,以免把它们曲解为简谱符号”1 ,所以我们分 离出每行筒谱正文部分,并去除任何文字部分( 标题,歌词,动态标记等等) 。 然后,割离出简谱中的每一最小的符号基元,并记录这一符号基元在简谱图像中 所占矩形框架的顶点坐标位置,以供下一步的符号基元处理。 1 3 3 符号识别 这一阶段中将要识别出上一阶段所得到的符号基元,根据符号基元的特点, 和其所在简谱行的位置特征采用不同的方法确定并记录每一符号基元的类型。符 号分为四种:如1234567 的音符,来表示表示不同的音高;位于音符下边和 右边的横线以及位于音符右边的附点,用于表示音符时值;位于音符下边和上边 将音符升高或降低八度圆点以及将标准的音符升高或降低的变化音;其他各类符 号。 1 3 4 音乐语义的理解 一旦简谱中的符号基元被识别出后,必须要把它们组装成它们所属的更大的 浙江大学硕士学位论文 对象。比如,数笔字音符加上音符后的四条短横线组成全音符,如果为两条短线 则组成二分音符;小节线加上柱状符号组成终止符等等。 1 4 本文的工作 本文的工作与贡献包括以下几个方面: ( 1 ) 分析了各种o m r 技术,比较他们的优劣及其适用范围。并分析这些在五线 谱识别中运用的技术如何在简谱识别中运用。 ( 2 ) 分析了简谱识别的四个阶段,以及各个阶段该实现所不同于五线谱的任务。 ( 3 ) 针对定位阶段,对扫描线种子填充算法进行了改进。 ( 4 ) 在识别阶段,把符号进行分类,对每类采用不同的识别技术。并且识别过 程中采用符号几何分析法和多种识别技术相结合的方法已提高识别率。 1 5 论文的组织 第一章中分析了o m r 研究的背景,并简要介绍简谱识别各个阶段的任务以及 论文的构思。 第二章中介绍了现在集中o m r 技术,包括投影法、模版匹配法、h o u g h 变换 以及轮廓跟踪法。由于现有的分析都是基于五线谱,所以这章中介绍的也都是针 对五线谱研究的算法过程。 第三章中介绍了预处理阶段的任务。在预处理阶段需要把图片转换成系统易 于处理的模式。主要介绍了图像二值化的几种算法。 第四章中介绍了对象定位阶段的任务。分析了三种不同的符号定位算法优 劣,最后采用扫描线种子填充算法,同时针对简谱符号的特征队扫描线种子填充 算法中的扫描线上的扫描方向改进为左右两边同时进行扫描。 第五章中介绍了符号识别阶段的任务,把定位出的符号分成三类,根据三类 符号各自不同的特征,采用符号特征分析法和模版匹配、投影法、切片技术、连 通性等算法相结合对符号进行识别。 第六章中介绍了简谱符号语义理解的内容。介绍了简谱符号组装的文法,以 及以x m l 文件形式输出的一些书写规则。 第七章中列出了实验的结果,包括定位和识别过程的结果,并分析错误出现 的原因以及如何改进。 浙江大学硕士学位论文 第二章o m r 技术综述 这章主要介绍o m r 技术上用到的几种主要技术,由于目前的研究都是基于 五线谱的,所以这章技术的介绍都是基于五线谱上的。后面几章在关于简谱识别 具体介绍中将介绍在简谱识别中能够使用这些技术以及如何运用这些技术。 2 1 投影法 投影法【2 】是一种被普遍使用的方法。这种方法对于识别谱线5 f o d , 节线等特 别有效,并且抗干扰能力较好。首先用投影的方法先识别谱线,再识别小节线最 后识别音符包括和弦和休止符,谱线是用y 方向的投影来发现的,用y 方向投影最 大峰值的0 7 倍来选取候选谱线,用这些候选谱线来寻找五条间距相等的谱线, 下一步形成一个仅包含谱线核心( 即五条语线间的区域) 的图象,再用x s f o y 方向的 投影来寻找小节线。乐符的识别是用包围乐符的小窗口于x 和y 方向上的投影来实 现的,投影的特征因素用来为乐符分类,把投影与已知乐符投影比较来识别乐符, 试验例子包括和声和水平连音线、音高和拍子被识别出来,但这种方法对旋转和 倾斜很敏感。所以图象若不正则系统无效。 f u j i n a g e 3 】研究了另一种推广的投影方法,对切分和乐符识别都有效,文中 首先用整体y 投影粗略确定出谱线的位置。然后由局部y 投影来精确确定谱线的位 置。接下来再用x 投影来定位个列的音符。由于相关的符号如表情记号、拍数和 歌词的干扰,x 2 r 向的整体投影会变得很难分析,而文中采用谱线核心的投影。 这种投影去除了谱线顶部和底部突出的部分,因而较易定位。语线在x 方向投影 形成一个背影投影,在投影值超出背影值一个谱线间距的地方即可定位一个乐 符,在此位置再进行局部y 投影来确定乐符的竖向范围,在此竖向范围内再进行 一次。x 投影,现在把谱线从x 投影去掉,计算出下列乐符特征值:宽、高、面积 和x 投影的峰值数,这些特征值和句法约定连起来给乐符分类,句法约定包括: ( 1 ) 乐谱投影的第一个乐符为四个谱号之;( 2 ) 紧接着一组乐符,若其水平方 面间隔不到一谱线间距则为调号,( 3 ) 在连音符内仅出现调号;( 4 ) 附加点只出现 在音符和休止符后,在某些地方用局部投影来区分乐符比如用谱线底部空间的y 投影来区分高音谱号和低音谱号,而音符符杆两边的y 投影被用来测验符尾和连 音线。 6 - 浙江犬学颂_ | 。学位论文 在意大利学者s m a r i n a i 和p n e s i 的【4 1 则提出了乐符定位与识别不用删除 谱线,并利用适当的滤波器消除背景干扰,与其他学者的方法有所不同。其具体 方法大致分为三步, ( 1 ) 在y 方向投影,并借助低通滤波由峰值确定谱线的位景。 ( 2 ) 在x 方向投影,并借助柔化高斯滤波确定乐符位置,并将各个乐符分割 开来。 ( 3 ) 在y 方向投影,确定分割出的乐符的音高。经过s m a r i n a i 录q p n e s i 在 第2 步对各类滤波器进行测试,最后得出高斯柔化滤波是最佳选择的结论。 测试结果如图2 1 。 f - x , l l l l i l i t if 1 :x a m p i c 二 - - - 。 一。 嘻嚣皇爹; f 者醪! p 嘲 i e s tm c a 儿i r c s 1 蝴。童“ 一l i l 山 “i - - _ 。山。i n o f i l c s u n s h ;u - pg a t i s $ 1 a n s 潼嚏塞霁 ! 砉黻壤i 。黪剖 l :选lo l _ 上_ “- - - 叠_ :2 鼢;,霸 i 霪褰鍪 0 眦旧l i l f i n a l “、一趣 蔷“ _ l 越。l - 4 1 。i - i l l t k j x ;+ :黔f 霸 ;i 鞭魏靠酾! 誊 lo f : “岫。o j 目l 4 i 。一l k l l 出“ 。也0 - 盘j j ; :。i 磊蠢f ;鹤 ,舛嘎j i ! 嚣。量 li i i c i i l ig r a d i e n l 壤。曼。 一h 一。山“ l j j _ 上j 。h 一上 图2 1 国内学者张登胜、李海州在 5 1 文中对投影法的具体算法进行了描述,根据图 浙江大学硕士学位论文 像水平方向投影的直方图采用二次取平均的算法( 第一次算出全部投影的均值, 第二次算出大于此均值的投影的均值) 算出一个阈值,据此闽值找出五条谱线的 位置( 或近似位置) 、并算出谱线的间距及线宽。若线宽大于l ,则只取其中的 一条,按下来根据谱线的位置和线宽把谱线去除,但保留谱线经过音符的部分, 以免在符杆和符头留下空隙,这是通过判断像素所在列图像的竖直投影是否符合 符杆与符头的条件而实现的,小节线是通过判断其周围有无黑像素块而与符杆区 分开后去除的,但由于小节线一般较符杆粗且有时倾斜及弯曲,因而不易去除干 净,但这并不影响后面的音符识别,在音符识别阶段还需对小节线作单独处理。 音符的识别是以小节为单元进行处理的。把以理想高度为高、音符宽为高 宽的矩形逐渐向右移动,若遇到小节线则认为是一个新的小节单元。小节线的识 别和谱线的识别类似,采用二次平均算法,不过它还需与符杆区分。从矩形区域 在竖直方向的投影寻找出符杆的个数,若是单个符杆或无符杆,则矩形内是单个 音符,否则是由连音线连成的音符串。首先若矩形内无符杆,则认为是全音符, 若是单个符杆,把包含单个音符的矩形区域在y 轴上水平局部投影,分别找出主 峰与次峰。在主峰上找出第一峰值与第二峰值,主峰的第一峰值与第二峰值间的 距离用以判断音符是否为半分音符。接下来找出次峰峰值,次峰峰值被用来区分 一个音符是四分音符、八分音符还是十六分音符。因为次蜂峰值是用来识别符尾 的,再用主峰第一峰值与谱线的相对位置来找出音符的音高。 2 2 模版匹配算法 模板匹配的方法主要是计算已建立的模板和待匹配的图像中与模板相同大 小的区域之间的相关度,从而判断模板与待匹配图像中该区域的相似程度。一种 简单的计算相似度的方法是这样的: 设有大小为d x * d y 的模板t 和待匹配图像s ,模板t 在s 中移动,对它覆盖 下的子圈s 。计算两者的相似度。其中( i ,j ) 表示模板在图s 中的起始位置。 设模板和它覆盖下的子图的差距是: d ( i ,j ) = 瓯( 朋,门) 一丁( m ,n ) 】2 , h in f = 】 展开得到: 浙江大学硕士学位论文 yjy j d ( i ,) = e s ,( 佩哟】2 - 2 e e t s , ( 碍哟术r ( 鸺哟】 = 1m = 1n = lm = l y z + 【丁功】2 ,dm = l 其中第1 项表示子图的能量,随( i ,j ) 的位置而改变;第2 项表示模板和 子图之间的相互关系,也随( i ,j ) 的位置而改变;第3 项是模板本身的能量, 与( i ,j ) 的位置无关。 从式中可见,当两者越相似的时候,d 的值越小,同时式中的第2 项取值越 大。 i s 。( 小,甩) + r ( m ,n ) l 可以将相关函数定义为:c ( j ,_ ,) = 生血寺_ 一 吼( m ,竹) 】2 可以知道,o c ( i ,) i 。 当s j ,j 和t 越相似的时候,c ( i ,) 就越接近1 0 。 用模板匹配的方法虽然思路十分清晰,但是计算量很大,也常常被认为是导 致系统效率低下的方法,同时由于使用固定的模板,也被认为是会导致系统扩展 性差的方法 采用模板匹配法的一个典型的应用是w a b o t 一2 系统。8 0 年代早期,日本 w a s e d a 大学的研究人员开发出一种很精采的演奏键盘乐器的机器人除具有其 他能力外,w a b o t 一2 系统有一个能阅读摆在谱架上的书面乐谱的视觉系统( 一架 c c d 摄像机) 。乐符的识别是用双层识别的方法来实现的。上层由硬件实现而下 层用软件实现。谱线,音符符头及小节线,由于会经常出现在乐谱中,由上层识 别来实现。模板匹配是由“与”运算来进行的,即计算出遇到的黑象素数,其中为 符头用了八个标准模板。每个模板有九个大小不同的尺寸从8 x 8 到1 6 1 6 象 素,该系统是在未去除谱线的情况下用模板匹配的。先检测出谱线,并用它们来 规范化图像、决定图像的几何性质,限制寻找乐符的范围。谱线是由硬件上一个 水平线过滤器测出的,为了容许弯曲,用的是短过滤器,过滤器范围可以从8 到 8 0 象素长,若发现五条间距相等的线,则必定是谱线。算出每个谱表的规范化 参数,这些参数包括谱表的位置,倾角,面积和音符头的大小,图像中的每个谱 浙江大学硕士学位论文 表皆以这些参数规范化,依据规范化的参数来选取大小合适的模板。下层识别的 乐符包括其定位受到上层识别限制的那些乐符。这些乐符通过软件实现寻找定 位。下层识别包括休止符,符杆,符尾,反复号,断音符、升降音符,附加点, 谱号和拍号。用模板匹配寻找实心符头会发生错误,这在后阶段处理中用乐符句 法知识来解决,不过对较复杂的乐符这种错误匹配会更严重,因而w a b o t - 2 仅对 包含较简单乐符的乐谱才有很好的识别效果。 但是模版匹配也存在他的优点: 1 模板匹配的方法并不是一种十分精确的方法。它不需要模板与目标图 像完全一致。在投影法中,对于阈值的设定可能需要经过大量的样本 统计,并且有的符号可能因为投影值十分相近而无法得到区分。而在 模板匹配中,无论怎样都是可以得到一个相关度的数值的。即使在预 处理的时候残留了一些杂质,或者对一些音符的形状有一点损坏都没 有关系。但是,这并不影响匹配豹进行。对于两个形态相似的东西, 尽管有一些细节上的差异,其相关度仍然会是显著的。用投影法配合 模板匹配,可以提高匹配的效率,同时提高识别的准确度。 2 关于扩展性的问题,其实模板匹配的方法也是可以适应于不同的出版 商的印刷习惯的。因为模板是独立于系统存在的,为不同的出版商建 立起不同的模板库是完全可行的。只需要更新这个模板库,而无需对 系统进行其他的改动,就可以适应不同的出版商。 3 此外,可以通过算法的改进,使得用模板匹配的方法的效率得以提高。 比如“部分匹配”算法【“】。这种算法将一个横板分为几个部分,每 个部分作为原模板的一个样本。在检测匹配的时候,每个部分在待匹 配图像中进行一次扫描,计算出一个匹配的中间结果的值,这个值和 匹配每一象素所得到的值相近。一个足够低的中间匹配值使得这个模 板被淘汰掉,这样就可以避免在明显不匹配的情况下还耍对每个象紊 进行匹配计算。这种方法可以将匹配检测的效率提高5 0 6 0 。 2 3 h o u g h 变换 h o u g h 转换在检测直线方面效果非常显著,p a u lh o u g h 于1 9 5 9 在美国取得 1 0 浙江大学硕士学位论文 对这项技术的专利权。在1 9 8 1 年,d 。h 。b a l l a r d 发表了一篇论文,在这篇论 文中,把h o u g h 转换推广到检测圆形和椭圆形,以及一些无法进行简单分析描 述的形状。 h o u g h 转换在允许在特征边界存在缝隙并且相对上不受图像噪声的影响这两 项优点上使其备受关注,但是一些人也指责h o u g h 转换占用过多时间和内存空 间。由于这些原因,直接把h o u g h 转换运用到o m r 上不是个很实用的解决方法, 但是它仍然值得被研究这是因为一些基于h o u g h 转换上的研究如果适当采用的 话可以预期来提高运用的效率。这些研究也产生了许多h o u g h 转换的衍生,比 如概率h o u g h 转换、随机h o u g h 转换,适应能力的h o u g h 转换,等级h o u g h 转 换等等方法,这些方法弥补了h o u g h 转换的内在不足并一些特殊运用方面进行 优化。但是对于h o u g h 转换,我们一般都认为是标准直线h o u g h 转换。 在o m r 问题中采用h o u g h 转换的想法来源于乐谱的主要构成是谱线和音乐符 号,它们的几何形状为直线和圆形。我们可以采用直线h o u g h 转换方法来检测 谱线,采用圆形h o u g h 转换来检测符头。 这一过程包括在预处理阶段寻找到阈值并注意采用相应的阈值的方法来找到正 确的值。谱线将不会被移除,因为主要目标是在原图中尽量准确地检测到谱线和 符头,甚至在图像倾斜的情况下也可以检测出来。最终音高和高级数据比如谱号 一起在后面的过程中检测出来。 2 3 1 直线h o u 【g h 转换 标准的h o u g h 转换公式如下;。 h ( p ,e ) = d i 氏y ) 5 ( p xc o s e ys i n 0 ) d x a y ( 1 ) h o u 曲转换的直接解释是x y 平面上的直线映射到0 p 平面上的点,这里p 是直线 和圆点间的垂线( 也就是最短) 距离,e 是直线的方向角( 如图2 2 ) a 如果e 限 制在【0 ,m ) 区域内,那么每个可能的直线与在h o u 曲域一个点对应,也称作储存数 组( 也就是在直线检测的情况下的e p 平面) 。 浙江大学硕士学位论文 i 图2 2 函数p i ( e ) = x ic o s 0 + y is i n e 在h o u 曲域中生成正弦曲线,表示所有在x y 平面中经 过点( x i ,y i ) 的所有直线。如果计算出所有点的p i ,那么正弦曲线对应的同一直 线上点将会交叉( 如图2 3 ) 。 分。 e 图2 3 把o 到霄划分成- 4 , 块- 4 , 块p i ,记录在h o u 曲域量子化的矩阵表格牛。对于每 + p i 交叉矩阵单元的h 0 p 以加1 的形式递增。如果p i 和p j 在( 0 ,p ) 附近交叉,两个都 将使h e p 加1 。因此h e p 表示多少直线上有多少由( o ,p ) 参数化的点,【司此使得 h o u g l l 域成为量子化矩阵视觉表示的虚拟图像一暗色的区域表示低值,亮色的区 域表示高值。高值表示这一区域有足够的票数来证明为原x y 平面上的一条直线。 图像由3 0 0 或4 0 0 d p 的扫描仪扫描输入。重复选择合适的阈值,考患到原图没有 复杂的灰度等级,使用阈值进行二值化。过程如图2 4 所示: 去除h o u g h 来显示使用最大值查找出的直线。首先通过查找图像的最大值然 后给出闽值来寻找接近最顶端亮度的值来得到最大值。储存矩阵在给定的像素六 浙江大学硕士学位论文 s c a n n e di m a g e s ei e c t i o no ft h r e s h o l dv a l u e b i n a r i z a t i o n h o u g ht r a n s f o r m l o c a t i o no fl o c a lm a x i m a d e ,h o u g hf o rr e s u l tv e r i f i c a t i o n 圈2 4 小窗口内对每个像素进行扫描。h o u g h 转换可以在任何角度检测出任何直线,它 可以用于检测倾斜来纠正文档的方向。 2 3 2 圆形h o u g h 转换 虽然前面用来检测直线,但是h o u g h 转换可用生成来判断任何参数化的路 径或者甚至那些正被查找的役有简单可分析的形式但有着特殊轮廓的对象。 h o u g h 牟专换用于检测任何形状可以描述为参数曲线( 也就是直线或二次曲 线) 如下: h ( p 0 ,p n ) = fd i ( x ,y ) 6 ( p ( p o ,p n ) ) d x a y 这里p 定义为点集h ( p o ,p n ) ;di ( x ,y ) 8 ( p ( p o ,p n ) ) d xd y 的路径。 符头一般为椭圆形,但是可以大致接近圆形。用圆形来代替椭圆形可以大大 减少参数量,因为椭圆等式含有四个参数( 如下面的等式) ,这样计算量和储存 矩阵的大小随着参数的增加将里指数增长,这样使得这种技术只能用于含有很少 参数的曲线。 浙江大学硕士学位论文 ( x x o ) 2 ( y - y o ) 十一= l a 2 b 2 这里x 是边缘点,x o ,y 0 ,a 和b 为参数。 圆可以参数化成r 2 ( x a ) 2 ( y - b ) 2 = 0 ,这里( a ,b ) 是圆的圆心,r 是其半径。因 此圆的h o u g h 转换是: h ( a ,b ,r ) = d i ( x ,y ) 8 ( r 2 一( x - a ) 2 ( y - b ) 2 ) d xd y 现在h o u g h 域为3 维空间,参数为a ,b ,和r 。然而参数数可以减少为两个,如 果r 大小已知的话。 在实际运用中,因为符头大小己知,r 则就可以固定为谱线间距的一半大小,因 此把h o u g h 空间减少n 2 维并简化了计算。圆( 符头) 的半径可以使用直线h o u g h 转换的局部最大值,通过计算位:j z h o u g h 域相同0 坐标的5 个不同的局部最大值的 平均值得到。如果每个连续的最大值间的距离在士2 像素范围内相同的话,那么这 个距离就可以认为是谱线空间的大小。 检测符头的过程参见图2 5 : c a l c u l a t i o no fs t a f fs p a c e c 打c u i a rh 。u g ht r a n s f ) r m l c , c a t i o no fi o c a lm a xi m a 图2 6 ( a ) 图2 5符头检测和重组阶段 ( b ) ( c ) 浙江大学硕士学位论文 图2 6 ( a ) 显示了圆形查找图2 6 ( a ) 中符头片段的h o u g h 转换。圆形h o u 仨h 转换算法试图以士i 像素距离误差沿着给定半径圆的边界。找到圆心的最大值可以 以直线检测同样的方式运用,但是当给定像素窗口的大小以对比获得最精确结果 时,圆心间的距离最好要考虑到。图2 6 ( b ) 显示使用9 * 9 像素窗口0 9 阕值来定 位前1 0 亮度值检测到的局部最大值。# ( 升号) 符号的中心包括近视圆形的点 集,也会被误认为符头。图2 6 ( c ) 显示使用( b ) 重建的圆形,包括了错误的 圆形。之后的程序使用高级域知识必然可以解决这一误测。 2 4 轮廓跟踪法 首先预处理时去除了所有水平细线和竖直细线,包括空白谱线( 语线上无乐 符的部分) 段和符杆,留下孤立的乐符图象符头及水平连音线等,然后用轮廓跟 踪来描述水平和竖直细线去除留下的相连的图象区域,这种识别既依赖于跟踪性 能又依赖于跟踪间的距离。d h p r i s l i n 7 】还用轮廓跟踪研究出一种实现模板匹 配的方法。 d s p r e r a ul s 】提出一种“分割和装配”的方法来处理谱线和孤立的乐符,在 分割阶段,系统沿谱线顶部和底部边缘扫描,认出谱线间,谱线上面及下面的乐 符部分,同一乐符被谱线穿过则被分成不同的片断,在装配阶段这些片断被重 新连结起来,连结法则是:被谱线分开的两个乐符片断若它们在水平方向有相对 的部分则被连结起来,但是与谱线相交的乐符并不总是有水平相对的部分,如低 音谱号的顶部或与谱线相切的滑音线,按这种方法就会被分开。在识别阶段文中 用简单的措施来识别一部分乐符,初步分类是由乐符的相对大小来实现的,把每 乐符边界况的尺寸用语线的间距来表示,用边界框的高与宽来寻找可能的匹 配,这种匹配从预先计算好的表中获得,表中包含每个乐符以边界框的高宽空 间出现的块,这种高宽块表是通过人工测量每类乐符的大量的样本后构造的, 从每类乐符得的测度形成高宽区域的小块,再放大这些小块以容许印刷偏差。 就被处理的较少的乐符来说,每个乐符典型的会有- - n 五个匹配,最后用启发式 测试来区分那些高宽区域重叠的乐符,这些测试利用了乐符的句法知识、冗余 度、位置及特征性质。这种分类技术只能专对某一出版商,但却很易采用a 浙江大学硕士学位论文 第三章预处理阶段 在这一阶段,简谱将被处理成计算机易于处理的形式。如果输入的简谱图片 比较模糊,带有随机噪声和干扰,就会对之后的识别过程产生巨大的影响,因此 需要对图片进行去噪和清晰化处理。现有的一些的图片处理软件如p h o t o s h o p 都 可以很好地实现这一过程。 3 1 二值化 为了简化之后的处理过程,在于处理阶段,对图像进行二值化处理,即只有 黑与白两种颜色。黑色的索引值为o o ,白色的索引值为f f 。然后,利用 p i x e l v a l u e0 将第y 行,第x 列的颜色信息设定为,像素是黑色返回1 ,白色返 回0 。所谓二值化就是: 选择某个闽值t ,将原始图象变换为二值图象: 当f ( x ,y ) = t 时,f ( i ,j ) = l : 当f ( x ,y ) t 的称做组2 ; o ,2 ( t ) ,。z 2 ( t ) 是i 组和2 组各自的方差;q ,( t ) ,q 2 ( t ) 是i 组和2 组各自的概 率;pt ( t ) ,uz ( t ) 是i 组和2 组各自的灰度平均值。定义组内方差o ,z ( t ) 为这 两个组的方差的加权和: ( 7 w2 u ) = 叮l ( f ) 盯l2 ( ,) + 9 2 0 ) 仃2 2 ( f ) 所有像素的平均灰度和方差记做u 和o2 。有下面的关系式成立: 盯2 = o w2 p ) + 0 8 2 p ) 其中0a 2 ( t ) 叫做组间方差, 盯a 0 ) = q l ( r ) ,o ) 一】2 + q 2 0 ) :( f ) 一卢 2 = g ,( r ) 【1 一g ,( f ) 】阻】( ,) 一:( f ) 】2 显然o2 并不随t 变化,所以使褥组内方差最小的t 就是使得组间方差最大 的t 。寻找这个t 的方法是穷举法,即搜索t 的每一个可能值,计算出相应的o ,? ( t ) ,然后找出最大的o ,( t ) 对应的t 。 当阈值为t 时的各参量已知时,阈值为t + 1 时的各参量可以用下列递推公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论