(信号与信息处理专业论文)基于omr技术的乐谱数字化系统的研究与实现.pdf_第1页
(信号与信息处理专业论文)基于omr技术的乐谱数字化系统的研究与实现.pdf_第2页
(信号与信息处理专业论文)基于omr技术的乐谱数字化系统的研究与实现.pdf_第3页
(信号与信息处理专业论文)基于omr技术的乐谱数字化系统的研究与实现.pdf_第4页
(信号与信息处理专业论文)基于omr技术的乐谱数字化系统的研究与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 摘要 基于o m r 技术的乐谱数字化系统的研究 与实现 学生姓名:王育峰导师姓名:邹采荣 东南大学信息科学与工程学院 乐谱数字化是指将纸质乐谱由扫描仪输入到计算机,经过处理,把乐谱图像自动转化为计算机能 “读懂”的数字音乐,即标准的数字音乐格式文件,它的原理是“记谱”,记录的不是乐谱所表达的 具体的音乐内容,而是其表现形式。在计算机软、硬件强大功能的配合下,人们可以轻松地对其进行 编辑、加工、打印、传播或实时演奏。利用计算机强大的处理能力和海量的存储空间,人们可以对海 量的乐谱进行查询、检索和保存,并且可以利用现代模式识别技术与人工智能技术对乐谱进行分析, 使计算机产生类似于人类的音乐的情感。数字化乐谱在计算机音乐、计算机辅助音乐教学、数字音乐 图书馆等众多领域有着广泛的应用前景。 o m r ( o p t i c a lm u s i cr e c o g n i t i o n ) 是本文中乐谱数字化系统的核心组成部分,本文的o m r 系统 主要包括图像预处理、谱线的定位与分割、音符的分割、音符的识别、音符数据结构的建立五个部分, 在图像预处理部分,对图像的增强、降噪技术进行了研究,并采用能增加对比度的彩色图像灰度化技 术。在谱线的定位与删除部分,采用了区域扩张、多次投影与游程编码等技术来删除歌词,定位谱线 从而删除谱线。在音符分割部分,采用了先粗分割后细分割的办法来处理音符,获得了较好的效果。 在识别音符的部分,对基于s v m 的模式识别技术进行了研究,对l i b s v m ( l i b r a r yf o rs v m ) 在不同模 型下的识别效果进行了分析,并采用l i b s v m 来对音符进行识别。对谱线迸行定位与分割,并在不影 响音符的情况下删除谱线。最后,对乐谱的语法在乐谱识别中的应用进行了研究。针对每一种音符设 计了不同的音符都设计了一个数据结构,并且对这些结构进行了改进,以提高整个乐谱数字化系统的 性能。 关键词:数字化乐谱;光学乐谱识别;支持向量机;l i b s v m 。 a b s t r a c t a b s t r a c t d i g i t a lm u s i cs c o r er e f e r st os c a nam u s i cs c o r ef r o mp a p e r , t h e nt a k ei ti n t oac o m p u t e r , a f t e rp r o c e s s e db yt h ec o m p u t e r , t h em u s i cs c o r ew a sc o n v e r ti n t oaf o r m a tw h i c hc a nb e ”r e a d ”b yt h ec o m p u t e r , t h a ti s t h es t a n d a r dd i g i t a lm u s i cf o r m a t w i t ht h ep o w e ro ft h e c o m p u t e rh a r d w a r ea n ds o f t w a r e ,d i g i t a lm u s i cs c o r ec a nb ee a s i l ye d i t e d ,p r o c e s s e d ,p r i n t e d , t r a n s m i t t e do rp l a yo n - t i m e w ea l s oc a nm a k eu s eo fc o m p u t e r sp o w e r f u lp r o c e s s i n gp o w e r a n dm a s ss t o r a g et oq u e r ys e a r c h e so rs t o r a g et h em u s i cs c o r e w i t ht h ed e v e l o p m e n to f m o d e mp a t t e mr e c o g n i t i o na n da r t i f i c i a li n t e l l i g e n c et e c h n o l o g y , d i g i t a lm u s i cc a nb ea n a l y z e d s ot h a tt h ec o m p u t e rc a ng e n e r a t e dm u s i ce m o t i o nw h i c hi ss i m i l a rt ot h eh u m a n d i g i t a lm u s i c s c o r ew i l lb ew i d e l yu s e di nc o m p u t e rm u s i c c o m p u t e r - a s s i s t e dm u s i ct e a c h i n g ,d i g i t a lm u s i c l i b r a r i e s ,a n dm a n yo t h e rf i e l d s o m rt e c h n o l o g yi st h ec o r eo fd i g i t a lm u s i cs c o r es y s t e m , t h em a i nc o m p o n e n to fo m r s y s t e mi nt h i sa r t i c l ea r ei m a g ep r e p r o c e s s i n g ,l i n es e a r c h i n ga n ds e g m e n t a t i o n ,m u s i cn o t e s s e g m e n t a t i o n , m u s i c n o t e s r e c o g n i t i o na n dt h eu s e o fm u s i c s y n t a x i nm u s i cs c o r e u n d e r s t a n d i n ga n dr e c o n s t r u c t i n g i nt h ep a r to fi m a g ep r e p r o c e s s i n ga n de n h a n c e m e n t ,n o i s e r e d u c t i o nt e c h n o l o g i e sh a v eb e e ns t u d i e da n dt h e nw ei n c r e a s e dt h ec o n t r a s tw h e nc o n v e r t st h e c o l o ri m a g ei n t og r a y r e g i o ne x p a n s i o ni sa d o p tt od e t e c ta n ds e g m e n tm u s i cl i n e sw h i c hi s r o b u s tt ot h ee x i s t e n c eo fm u s i cl y r i c m u l t i - p r o j e c t i o nt e c h n o l o g ya n dr u n l e n g t hc o d i n g t e c h n i q u e sa r ea l s oa d o p t e d t od e l e t et h ew o r d s ,m u s i cl i n e s t h e nm u l t i s e g m e n tt e c h n o l o g yi s a d o p tt os e g m e n tt h em u s i cn o t e s ,f i r s tw es e g m e n tt h en o t e si n t ot w oc l a s s e s ,t h en o t eo fo n e c l a s sn e e ds u bs e g m e n tb u ta n o t h e rn o t i nn o t e sr e c o g n i t i o n ,s v mp a r e mr e c o g n i t i o n t e c h n o l o g yi ss t u d i e da n dl i b s v mi su s e dt or e c o g n i z et h en o t e s f i n a l l y , t h ee f f e c to fm u s i c g r a m m a ri nm u s i cs c o r er e c o g n i t i o ni ss t u d i e d ,a n dc r e a t e sad a t as t r u c t u r ef o re a c hn o t et o s t o r a g ea n dp r e d i g e s ti tt oi m p r o v et h ep e r f o r m a n c eo ft h es y s t e m k e y w o r d s :d i g i t a lm u s i cs c o r e ;0 m r :s v m ;l i b s v m v 独创性声明 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:至宣:生 日期:丝翌皇二匕,比 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容 和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以 公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究 生院办理。 研究生签名:垒氢:塾导师签名:盈錾虽日期:竺12 :兰: 第一章绪论 1 1 课题研究的背景及意义 第一章绪论 乐谱的发明是人类音乐史上的里程碑,它的出现使人们可以在一个相对标准的平台上进行音乐的 交流和传承。但是,古往今来大部分的优秀音乐作品是以纸质乐谱的形式保留下来,直至今天,纸质 乐谱仍是表达和描述音乐作品的主要载体。纸质乐谱的存在使得人们可以交流和保存音乐,但是纸质 乐谱的保存需要占用大量的存储空间,并且在交流的时候必须以十分不便的实物传递的方式,十分费 时。另外,纸质乐谱仅能以人工的方式进行查询和检索,很难实现高速的自动化查询与检索。纸质乐 谱的这些缺点,严重地妨碍了音乐资源的利用以及音乐文化的发展与交流。 另一方面,自计算机发明以来,计算机技术的迅速发展使得人类社会步入一个数字化时代,计算 机的出现使得人们可以更为方便快捷的交流与存储信息。于是,人们自然地想到将现代计算机科学与 音乐艺术的结合,从而产生了计算机音乐,即基于数字乐谱的数字音乐系统,它的出现体现了音乐艺 术的一次革命,从根本上变革了音乐艺术的生活形式,人们对音乐的创作、演奏、传播从传统的手工 作业方式一跃面为高科技方式。 乐谱数字化是指将纸质乐谱由扫描仪输入到计算机,经过处理,把乐谱图像自动转化为计算机能 “读懂”的数字音乐,即标准的数字音乐格式文件( 如m i d i 格式) 。这数字音乐文件与采集声音数据 的音频文件( 如w a y 格式) 不同,同时它与图像格式的文件也是有本质区别的,它的原理是“记谱”, 记录的正是乐谱所表达的音乐内容。在计算机软、硬件强大功能的配合下,人们可以轻松地对其进行 编辑、加工、打印、传播或生成声音文件从而实现实时演奏。 以下我们重点从计算机辅助音乐教学和数字音乐图书馆建设两方面介绍数字乐谱技术在其中的 应用: ( 1 ) 计算机辅助音乐教学 在由应试教育向素质教育转轨并不断发展的今天,多媒体电脑音乐走进课堂已成为时代发展和音 乐教育的需要。一台集成数字乐谱系统、m i d i 音乐系统的多媒体电脑即可代替传统的“课本+ 黑板+ 钢琴”音乐教学模式。通常,音乐教师在黑板上写出的谱例在学生心中难以形成音响的听觉联想,而 钢琴上弹出的声音转瞬即逝。借助o m r 系统,教师则可在课堂上即时地将课本上的谱例生成m i d i 文 件,利用其非常直观的乐谱显示功能以及实时性、动态性的特点,将谱例与实践音响同步展现在学生 面前,并可迅速重新演奏或演奏乐谱中的任一片段,使学生的听觉与视觉形象融为一体,从而激发学 生的学习兴趣。 ( 2 ) 数字音乐图书馆 随着数字图书馆的蓬勃发展,数字音乐图书馆也悄然兴起。如同音乐文献资源建设是传统音乐 图书馆的基础性业务工作一样,获取大量的数字化音乐内容是建设数字化音乐图书馆的核心内容。在 建设过程中,必然会面临的一个突出问题就是已有音乐资源的数字化问题。传统音乐资源最主要的对 象是印刷型纸介质乐谱,快速准确地将传统图书馆保存的纸质乐谱资源数字化便成为建设数字音乐图 书馆的当务之急。 数字化的音乐乐谱有着许多纸质乐谱难以比拟的优点,但是绝大多数前人创造的乐谱是以纸质的 形式保存和流传下来的,虽然我们可以利用计算机光学成像技术这些纸质乐谱转化为数字化的格式, 但是这些以图片格式存在的乐谱并不是真正的数字化格式的乐谱,其仅仅是换了个存储的载体而已, 这种图片格式的文件,只能在上面进行标注。而无法对其内容进行修改,并且很难对乐谱中的音乐进 行分析与理解,从而实现基于内容的检索,只能对其进行基于文件名的检索,在存储这种以图片格式 存在的乐谱时,依旧会占用系统较大的存储空间。图片格式乐谱的这些缺点使得图片格式的乐谱相对 于纸质的乐谱改进并不大,限制了音乐文化的交流与发展,难以利用现代的计算机技术进行处理。所 9 东南大学硕士学位论文 以,有大量的纸质的和图片格式的乐谱需要转化为数字化格式的乐谱。 纸质乐谱的数字化有两种形式:一种是采用光学扫描压缩存贮乐谱图像,存贮格式有t i f f 、j p e g 、 g i f 等多种。另一种是根据乐谱描述的音乐内容将其转化成数字化音乐文件,如m i d i 文件。同样作 为数据资源,数字化音乐文件具有存贮空间小、表现方式灵活、检索方便快速等许多图像文件无法比 拟的优势,是数字音乐图书馆在i n t e r n e t 环境下理想的数据载体。将纸质乐谱转化成数字音乐文件 有两种方式:纯手工输入和计算机光学乐谱识别( 0 m r ) 。纯手工方式是利用音序编辑软件进行手工输 入( 市场上这类软件也比较多,常见的有c o m p o s e rm a s t e r ,o v e r t u r e ,g u i t a rp r o ,e n c o r e 、c a k e w a l k 等) ,即手工录入+ 校对+ 修改的方法,乐谱完成后可以进行编辑,也可以由其内置的播放器播放,或 保存成乐谱文件。纯手工输入的方式要求录入人员必须具有一定的音乐专业知识,而且输入工作量大、 效率低。因此,在纸质乐谱数字化的进程中,不可避免地产生了低速的音乐信息输入与高速信息处理 之间的矛盾。另外音乐图书馆所藏的乐谱数以万计,如此浩大的电子化工程,若单纯靠传统的人工录 入,将是漫长和繁重的工作,既费时又昂贵。这时,便需要使用光学乐谱识别技术( o p t i c a lm u s i c r e c o g n i t i o n ,简称o m r ) 来将纸质乐谱转化为数字化乐谱。 设计一个快速准确、误码率低的乐谱识别系统,是进行大批量纸质乐谱数字化的关键。o m r 技术 正为数字音乐图书馆解决乐谱数字化难题提供一套完整便捷的解决方案。国内外,光学字符识别( o c r ) 技术在数字图书馆文献录入的应用已经获得了巨大的成功。同样,在数字音乐图书馆领域,m r 拥有 巨大的市场潜力和价值。 l2 乐谱数字化的研究内容 在纸质乐谱数字化的过程中,o m r 技术是乐谱数字化的核心组成部分,o m r 技术是一项综合应 用数字图像处理、模式识别、人工智能、音乐理论等多门相关学科的交叉技术,其目的就是要让计算 机”读懂”乐谱。一个完整o m r 系统主要由五大模块组成【1 j 【2 1 :乐谱扫描输入与图像的预处理、谱线 定位与删除、音符的分割、音乐符号的基元识别、符号的基元重组与语义理解,其处理流程如图1 1 所示。 图像扫描输入 i 弋,罗 图像的降噪,畸变校。1 ,正,二值化j j 弋罗 谱线的定位与删除 l 匀 夕 谱线群的分割与歌词的删除 l 飞少 音符的分割j f j 弋。沙 音符的重组,音l 乐语义理解j i ll 弋,夕 音乐信息重建 图i i 乐谱识别流程图 + t o 第一章绪论 ( 1 ) 乐谱扫描输入与预处理 将纸质乐谱经扫描仪等输入设备输入计算机生成乐谱数字图像,并对图像中的噪声、局部变形 等缺陷进行消除和弥补。 ( 2 ) 谱线定位与删除 针对乐谱图像绝大多数符号和标记都叠加在谱线上这一特征,在提取和识别音符对象前首先对谱 线进行定位和删除,这样可将各种乐符从谱线中分离出来,以消除谱线在识别音符过程中造成的巨大 干扰。 ( 3 ) 音符基元识别 谱线删除后的乐谱图像可视作一幅仅由音符基元组成的图集。所谓音符基元就是由各种音符分解 得到的最小符号图形,它们通常是符头、符干、符尾、升降号、谱号、休止符等,这些图形的有效组 合即构成了具有音乐语义的音符对象。识别音符基元的目的就是经过计算机的模式识别处理,使计算 机能“认识和区分”这些最小音乐符号。 ( 4 ) 音符基元重组 利用乐谱知识规则将音符基元重新组合成特征音符对象。其功能是通过基于知识的意愿重组技术, 将人所具备的音乐知识“传授”给计算机,使计算机能模拟“识谱”这样一个人类特有的学习过程。 ( 5 ) 音符语义理解 对音符对象所代表的音乐语义进行解释,生成语义编码,最后根据语义编码将识别结果输出成音 乐格式文件。 乐谱识别的研究内容和文字识别比较相近,但是乐谱识别的难度比文字识别要大得多,其原因在 于乐谱在信息表达上和文字是不同的,非常不利于计算机的处理,具体表现如下口1 : ( 1 ) 待识别对象的复杂性上,文字识别中文档仅由字符组成,每一个字符的大小相差不大,而 乐谱图像中有音符、字符等多种符号,这些符号有的呈细长的线形形状,有的呈块状,符号的形状差 异较大,这种差异大大增加了识别难度。 ( 2 ) 排列方式上:文字在一行内水平排列,而乐谱图像上每一个五条线附近,符号的排列是上 下左右的二维排列,这使得乐符的分割更为困难。 ( 3 ) o c r 中每一个字即为识别的最小单位,o m r 中的符号的重组现象比较常见,需要分解才会 出现可识别的基元。 ( 4 ) o m r 识别出的符号信息需要根据音乐语义进行理解,并且保存成可以编辑的乐谱格式文件, 在需要的时候,可以方便地转换成声音文件。 从总体考虑,o m r 系统应是一个基于乐谱识别的专家系统,该系统应具有音乐工作者阅读和书 写乐谱的智能,不仅需要有音符特征判断的规则和算法,而且需要音乐理论知识和经验。最近这方面 的努力向着更为成熟、复杂、综合的方向发展,人工智能、神经网络与专家系统技术在o m r 系统中的 深入应用将是未来o m r 技术的发展趋势。 1 30 豫国内外研究现状 国外已经意识到o m r 对数字音乐图书馆建设潜在的巨大作用。有关o b i r 的研究起始于6 0 年代后 期,当时由于技术条件和硬件设备的限制,所研究的内容也是非常有限的。到了7 0 年代,随着光学 扫描仪的出现和机器性能的提升,o m r 才真正已经引起众多学者的广泛注意。进入8 0 年代后,随着计 算机图形图像技术的不断发展与成熟,研究内容越来越深入,其研究成果也逐步进入实用阶段。1 9 9 4 年9 月,美国国家科学基金会( n s f ) 正式公布了一项为期四年投入2 4 4 0 万美元的“数字图书馆首创 计划”( d i g i t a ll i b r a r yi n i t i a t i v e ) 。1 9 9 8 年,由国家科学基金会( n s f ) 、国家人文学资助会( n e h ) 等机构联合资助数字图书馆倡议第二阶段。在中标的4 7 个项目中有3 项是关于数字音乐图书馆的研 究和开发,其中以o m r 为技术支持的研究项目有美国马萨诸塞大学的连机音乐识别和查询系统 1 1 东南大学硕士学位论文 ( o m r a s ) ,琼斯霍普金斯大学的l e s t e rs 。l e v y 数字化活页乐谱藏品录入与查询系统。此外,在 新西兰,瓦卡托大学为新西兰数字图书馆开发了乐谱联机识别系统和基于音乐内容检索的查询系统 ( m e l o d yi n d e x ) 。值得关注的是,以上系统的乐谱录入方案均采用的是o m r 技术。 进入二十一世纪后,o m r 技术有了长足的进步,基于o m r 技术的软件系统开始在市场上出现,常 见的有o m e r 、m i d i s c a n 、s m a r t s c o r e 、s h a r p e y em u s i cr e a d e r 、p h o t o s c o r e 等,对于常见的印刷体 五线谱乐谱,它们的识别率均在9 0 以上,同时提供强大的后期编辑、打印功能,最终识别结果可导 出为m i d i 、n i f f 、m u s i cx m l 等数字音乐文件。 虽然国外出现了许多基于o m r 技术音乐软件,但是这并不意味着o m r 技术已经成熟。经试用,上 述几中软件在图像质量不理想的时候,识别效果将会大打折扣甚至导致系统长时间停止响应,例如 s m a r t s c o r e ,在输入的待识别图像过大或过小,都会导致系统停止响应,并且在识别的时候需要手工 设置图像的d p i ,d p i 过大或过小同样会影响系统识别的成功率。因此,图像的大小和分辨率需要根 据经验选取的,图像过大并不能提高识别正确率,相反会由于数据量巨大而导致识别时间过长甚至导 致系统长时间停止响应,而分辨率太小则会导致无法图像质量下降造成识别困难。因此,o 胍技术的 实用化依旧有许多的技术难题需要克服。 由于国内数字音乐研究刚刚起步,目前能见到的关于o m r 的研究报道比较少,市场上也未有基于 o m r 技术的国产数字音乐系统。这是由于,一方面由于计算机音乐发展起步晚,计算机音乐只是少 数音乐工作者的“专利”,社会缺乏计算机识别乐谱的需要;另一方面,由于国内高校的学科设置综 合化程度、学科交叉的跨度与国外有着相当大的差距,长期以来,从事计算机音乐研究的专业人才严 重缺乏。因此,o m r 技术在国内的系统研究和实践工作几乎为空白。目前,西北工业大学与西安音乐 学院合作正在开展印刷体光学乐谱识别技术的研究。随着我国大规模传统资源数字化进程的推进,数 字化音乐教育与图书馆界国际交流与合作的增加与扩大,o m r 技术必将逐步受到国内学者与研究机构 的重视。相信在不远的将来,o m r 技术将在我国数字化音乐教育与数字音乐图书馆的建设中发挥巨大 的作用,缩小我国计算机音乐在应用高新技术方面与国外的差距,早日研究和开发出国内自己的o m r 系统,对于我国未来数字音乐图书馆的建设推广和摆脱国外的技术垄断具有及其重要的意义,而且势 在必行。 1 4 模式识别技术在o 腿系统中的应用 数字化乐谱技术是计算机技术在音乐领域的发展和应用,其中o m r 技术是乐谱数字化系统的核心 组成部分,o m r 技术利用了现代的图像处理技术、图像分割技术、模式识别技术与人工智能技术,对 乐谱图像进行增强降噪、音符分割,符号分析与识别、音符语法分析、文档图像分析等相关技术,把 乐谱图像自动转化成通用的数字音乐格式,并对乐谱进行重建。在设计基于o m r 技术的乐谱数字化系 统中,图像处理和模式识别技术决定了系统性能。由于乐谱图像中音符的排列方式比较复杂、形态大 小不固定以及符号问粘连现象比较严重,使得乐谱识别中的图像处理技术不同于传统的图像处理技术, 实际上,在乐潜图像的分割当中,已经涉及很多人工智能技术。一个好的基于o m r 的系统,必须充分 考虑各种可能出现的情况,在音符分割的时候必须结合模式识别技术,才能使得系统有较强的鲁棒性。 另一方面,音符的识别过程,则是一个完整的模式识别系统的实现,模式识别的性能对乐谱识别的正 确率存在这至关重要的影响。 1 5 模式识别技术 1 5 1 模式识别的定义及研究内容 模式识别临( p a t t e r nr e c o g n i t i o n ) 又常称作模式分类,是指对表征事物或现象的各种形式的信 息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,从处理问题的性质和解决 问题的方法等角度,模式识别分为有监督的分类( s u p e r v i s e dc l a s s i f i c a t i o n ) 和无监督的分类 第一章绪论 ( u n s u p e r v i s e dc 1 a s s i f i c a t i o n ) 两种。模式还可分成抽象的和具体的两种形式。前者如意识、思想、 议论等,属于概念识别研究的范畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波 形、地震波、心电图、脑电图、图片、照片、文字、符号、生物的传感器等对象进行测量的具体模式 进行分类和辨识。 模式识别是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。随着2 0 世纪 4 0 年代计算机的出现以及5 0 年代人工智能的兴起,人们当然也希望能用计算机来代替或扩展人类的 部分脑力劳动。( 计算机) 模式识别在2 0 世纪6 0 年代初迅速发展并成为一门新学科。模式识别是信息 科学和人工智能的重要组成部分。 模式识别研究主要集中在两方面,一是研究生物体( 包括人) 是如何感知对象的,属于认识科学的 范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、 生物学家和神经生理学家的研究内容,后者通过数学家、信息学专家和计算机科学工作者近几十年来 的努力,已经取得了系统的研究成果。 模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智 能、 图像处理的研究有交叉关系。例如自适应或自组织的模式识别系统包含了人工智能的学习机 制;人工智能研究的景物理解、自然语言理解也包含模式识别问题。又如模式识别中的预处理和特征 抽取环节应用图像处理的技术;图像处理中的图像分析也应用模式识别的技术洲。 1 5 2 模式识别方法 决策理论方法 又称统计方法,是发展较早也比较成熟的一种方法。被识别对象首先数字化,变换为适于计算机 处理的数字信息。一个模式常常要用很大的信息量来表示。许多模式识别系统在数字化环节之后还进 行预处理,用于除去混入的干扰信息并减少某些变形和失真。随后是进行特征抽取,即从数字化后或 预处理后的输入模式中抽取一组特征。所谓特征是选定的一种度量。它对于一般的变形和失真保持不 变或几乎不变,并且只含尽可能少的冗余信息。特征抽取过程将输入模式从对象空间映射到特征空间。 这时,模式可用特征空间中的一个点或一个特征矢量表示。这种映射不仅压缩了信息量,而且易于分 类。在决策理论方法中,特征抽取占有重要的地位,但尚无通用的理论指导,只能通过分析具体识别 对象决定选取何种特征。特征抽取后可进行分类,即从特征空间再映射到决策空间。为此而引入鉴别 函数,由特征矢量计算出相应于各类别的鉴别函数值,通过鉴别函数值的比较实行分类。 统计模式识别的主要方法有:判别函数法,k 近邻分类法,非线性映射法,特征分析法,主因子 分析法等。 句法方法 又称结构方法或语言学方法。其基本思想是把一个模式描述为较简单的子模式的组合,子模式又 可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式 基元。在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。通常要求所选的基元 能对模式提供一个紧凑的反映其结构关系的描述,又要易于用非句法方法加以抽取。显然,基元本身 不应该含有重要的结构信息。模式以一组基元和它们的组合关系来描述,称为模式描述语句,这相当 于在语言中,句子和短语用词组合,词用字符组合一样。基元组合成模式的规则,由所谓语法来指定。 一旦基元被鉴别,识别过程可通过句法分析进行,即分析给定的模式语句是否符合指定的语法,满足 某类语法的即被分入该类。 模式识别方法的选择取决于问题的性质。如果被识别的对象极为复杂,而且包含丰富的结构信息, 一般采用句法方法;被识别对象不很复杂或不含明显的结构信息,一般采用决策理论方法。这两种方 法不能截然分开,在句法方法中,基元本身就是用决策理论方法抽取的。在应用中,将这两种方法结 合起来分别施加于不同的层次,常能收到较好的效果。 1 5 3 模式识别技术的应用 东南大学硕士学位论文 模式识别技术是人工智能的基础技术,2 1 世纪是智能化、信息化、计算化、网络化的世纪,在这 个以数字计算为特征的世纪里,作为人工智能技术基础学科的模式识别技术,必将获得巨大的发展空 间。在国际上,各大权威研究机构,各大公司都纷纷开始将模式识别技术作为公司的战略研发重点加 以重视。 语音识别技术 语音识别技术正逐步成为信息技术中人机接口的关键技术,语音技术的应用已经成为一个具有竞 争性的新兴高技术产业。中国互联网中心的市场预测:未来5 年,中文语音技术领域将会有超过4 0 0 亿人民币的市场容量,然后每年以超过3 0 的速度增长。 生物认证技术 生物认证技术本世纪最受关注的安全认证技术,它的发展是大势所趋。入们愿意忘掉所有的密码、 扔掉所有的磁卡,凭借自身的唯一性来标识身份与保密。国际数据集团( i d c ) 预测:作为未来的必 然发展方向的移动电子商务基础核心技术的生物识别技术在未来1 0 年的时间里将达到1 0 0 亿美元的 市场规模。 数字水印技术 9 0 年代以来才在国际上开始发展起来的数字水印技术是最具发展潜力与优势的数字媒体版权保 护技术。i d c 预测,数字水印技术在未来的5 年内全球市场容量超过8 0 亿美元。 模式识别从2 0 世纪2 0 年代发展至今,人们的一种普遍看法是不存在对所有模式识别问题都适用 的单一模型和解决识别问题的单一技术,我们现在拥有的只是一个工具袋,所要做的是结合具体问题 把统计的和句法的识别结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起 来,把统计模式识别或句法模式识别与支持向量机的机器学习结合起来,把人工神经元网络与各种已 有技术以及人工智能中的专家系统、不确定推理方法结合起来,深入掌握各种工具的效能和应有的可 能性,互相取长补短,开创模式识别应用的新局面。 对于识别二维模式的能力,存在各种理论解释。模板说认为,我们所知的每一个模式,在长时记 忆中都有一个相应的模板或微缩副本。模式识别就是与视觉刺激最合适的模板进行匹配。特征说认为, 视觉刺激由各种特征组成,模式识别是比较呈现刺激的特征和储存在长时记忆中的模式特征。特征说 解释了模式识别中的一些自下而上过程,但它不强调基于环境的信息和期待的自上而下加工。基于结 构描述的理论可能比模板说或特征说更为合适。 1 6 本文的组织结构 本文完整的介绍了一个基于o m r 技术的乐谱数字系统的实现过程,在本文的第二章,我们详细分 析乐谱识别中所需要的图像预处理技术,并对几种现有的图像预处理技术进行了分析比较,根据乐谱 图像的特点,对现有的图像预处理技术进行了改进,完成了乐谱图像的预处理过程。 第三章分析了其他学者在谱线定位预删除所采用的技术的优缺点,创造性地采用了图像标定、区 域生长、游程编码与二次投影技术来定位谱线,解决了谱线的定位与删除问题; 第四章乐谱符号的分割与初步分类问题, 采用根据音符直线数来对音符分类,并采用边缘扩展 技术来分割音符,解决了连接音符的分割难题。 第五章不含直线的乐符的识别,对神经网络的优缺点进行了研究,并采用基于生物视觉神经系统 的神经认知机来的改进算法来识别音符。 第六章主要是解决乐理知识在乐谱识别中的应用问题,并对乐谱识别系统进行了实现,对系统的 性能进行了研究。 第七章对本文所做的工作进行了总结,并对研究前景进行了展望。 1 4 第= 章m 谱图像的预处8 第二章乐谱图像的预处理 2 1 本章概述 乐谱图像在扫描时,当扫描仪的照明或设置有问题,扫描获得的固像将会产生图像亮度不足、过 亮、不均匀、噪声、披暗、模糊等现象,另外,过于光滑的纸张会反光从而造成亮度不均匀,乐谱的 印刷质量不理想会造成符号断裂或粘连的现象,而若是从书籍上扫描的乐谱,将会发生形状上的畸变。 队上这些原因使得我们几乎不可能将乐谱图像无任何失真的输八l 计算机内,而这些失真的存在将会 严重影响乐谱的识别成功率,因此,在乐谱识别系统中,必须埘图像存在的各种噪声和变形进行处理, 将输入的带有各种干扰的图像转化成带有较少干扰与畸变的图像,并将图像转化成计算机容易处理的 数据结构。 本文的图像预处理包括三个部分:图像的降噪与增强,倾斜校正,低对比度的彩色图像的增强与 二值化四个部分。 2 2 图像的降噪与增强 对与扫描扶得的乐谱图像,亮度缺陷的现象最为常见,具体表现为图像过暗、过亮或亮度不均匀 的现象。此外,由于印刷问鳆造成的符号粘连断裂现象也很常见。对于图像的不均匀缺陷可以通 过基十区域的二值化闻值技术来解决,下面我们首先需要对图像进行降噪, 常用的图像降噪方法有矩阵平滑、高斯滤波,或变换域滤波等“”。矩阵平滑实际上是通过周 围像素来对中央像素进行修正将周围像素和中问像素的加权和来代替中央像崇。平滑后图像上的异 常像素被削弱,降低了鬯突变噪声的干扰,但是也使得图像的边缘变得模糊。对于一般的整数平滑 矩阵,如表21 ( a ) 和( b ) ,在平猾的时候易产生边缘锯齿感( 见图22 ) ,而高斯矩阵则可以避免 这个情况。由于高斯函数的傅立时变换之后依然是高斯函数,所以高斯平滑和频域滤波实际上是等效 的,这里可以通过采用不同方差的高斯矩阵来得到不同的平滑效果。 在保留图像边缘这方面,中值滤波与青接用矩阵平滑有巨大优势,中值滤波是用周围像素的中 间值来代替中央像素。从中值滤被的原理可以看出,其对椒盐噪声处理有较大优势,并且对图像的干 扰小。在乐谱图像上并不适台采用中值涟渡,对乐潜图像进行分析町以看出,在乐谱图像上很多的 符号存在尖锐细长的边缘,点状的符号也很多,这对采用中值滤波将会消弱线条的边缘,而图中的 附点等点状音符则会被完全滤去,结果导致很难得到完整的音符图像,见图21 ( b ) 。 ,n ,“ :* 一 l 。_ m 璺己 :”! ;、f 巫:_ j : 7 + j 。 一。,h 一一 、扎一;塑董- j -l 扎 塑韭; 一 1 。“1 一+ - _f ,1 。,。,。o 。, l ;立r 堑蔓骱,叠堕奠 f 一i _ r ,“,# i - f ,_ i - ,一,- - 一一o o 一一一_ l ”5 :! 一;“i 7 ;- w 坐。“,:叠f h 一,? _ 五 ( a )( b ) 图2l 寿边为原始图像,右边为中值滤波处理的乐谱图像 东南大学硕士学位论文 瞬191伪91瓣9 1 1 6 6 “1 1 6 4 1 1 6 1 6 1 91 91 91 1 6 1 1 61 1 6 il ii i八j ( a )( b ) 表2 1 几种常见的平滑矩阵, 由于彩色图像有r ,g ,b 三个通道,故平滑图像的时候需要 f 0 0 11 3 0 0 8 3 80 0 11 3 1f r 0 0 5 0 9q 1 2 3 80 ( 1 5 0 9 、i l0 0 8 3 80 6 1 9 30 0 8 3 8l iq 1 2 3 80 3 0 2q 1 2 3 8i 10 0 11 30 0 8 3 80 0 1 1 3 八0 0 5 0 9q 1 2 3 80 0 5 0 9j 矩阵( c ) 是方差为0 5 的高斯矩阵,矩阵( d ) 是方差为0 7 5 的 高斯矩阵 ( a )( b ) ( c )( d )( e ) 图2 2 表1 中几种矩阵的平滑效果,( a ) 为原始图像,( b ) ( c ) ( d ) ( e ) 分别为表1 ( a ) ( b ) ( c ) ( d ) 的平滑效果 2 3 乐谱图像的二值化 在扫描乐谱图像的时候,由于扫描仪照明或纸张颜色的原因扫描获得的乐谱图像可能不是白色 的图像,而若是从书籍上扫描获得的图像,在书脊部位将会产生非常明显的照明不足现象。若图片整 体亮度较低时,图像中的文字与背景的对比度将会很小,这时若直接进行二值化将会产生较多的噪声, 为此在二值化之前我们采用图像增强技术来增强图像中音符等符号与背景的对比度,然后再将彩色图 像灰度化与二值化。为此,本文采用灰度化时的r g b 权值进行调整来达到对彩色图像进行增强。 2 3 1 基于图像背景彩色估计的彩色图像灰度化方法 图像对比度增强的方法有很多,常见的彩色平衡、彩色增强1 、直方图修正阳儿刀等方法,实际上, 这些彩色图像的增强原理均是通过调整r 、g 、b 分量对整个图像的贡献权值来达到对图像增强的目的。 本文中的彩色图像增强算法通过降低图像中较常出现的背景分量对图像的贡献比例从而达到改善图 像质量的目的,相近的算法可见参考文献 6 ,这里对其算法进行了改进。 彩色图像的每一个像素由红绿蓝( rgb ) 三种颜色组成,彩色图像的亮度为: ,2 舴母,+ 串g + y b 宰6 ( 2 1 ) 其中( 炸,) = ( 0 2 9 9 ,0 5 8 7 ,0 6 1 4 ) 彩色图像每种颜色的权重为: m = n g m ,( 掰)厶v ”, 形= 生一以“,竹 = 肛n l i m g ( 聊) m = l 1 6 ( 2 2 ) ( 2 3 ) 第二章乐谱图像的预处理 6 ( 朋) 阪= j 丝一 n u m ( 2 4 ) 式中,n u m 为图像总的像素数目。 由于在图像中背景颜色占绝大多数,所以上述每种颜色的统计分量即为彩色背景的颜色估计。根 据估计值对亮度的计算公式做如下修正: 概川一南慨揣, 像5 , ”蒜岛心鹋耘 仁6 , 概川一赢慨c 赫, x c r ;,形,形做归一化处理 ( 2 7 ) ( 2 8 ) ( 2 9 ) 力:_ 善i 形+ 以+ 圪 ( 2 1 0 ) 灰度化的时候采用新的亮度计算权重。 ,= 牛,+ 形幸g + 形宰b f 21 1 、 经过改进后,新的权值减少了图像中出现概率较多的颜色对灰度化后图像的贡献比例,增加了图 像中较少出现的颜色部分对灰度化后图像的贡献作用。在一般情况下,背景往往占据了图像较大的部 分,这样在计算图像亮度时,背景对亮度的贡献被减弱,而字符像素点的灰度值并没有明显变化,新 的权值增强了字符与背景的对比度。 2 3 2 图像的二值化 二值化在图像分析与识别中起着熏要作用,最常用的二值化方法是采用阈值法。阈值法的关键是 选取合适的闭值,阈值选得太高或太低,都会影响目标的分割,造成目标大小和形状的变化,甚至丢 失目标。目前常用的阈值选取方法有单阈值法、局部阈值法、直方图法、最大类间方差法、最大熵法, 共生矩阵法、统计法、概率松弛法、矩保持法、最小误差法等多种方法h 儿5 m 1 。 对于乐谱,图像并没有复杂的背景和前景,背景往往是过渡平滑的颜色,而前景则是颜色相近的 一些符号,这使得乐谱二值化的难度并不是很大,这里采用区域阈值化技术来解决图像的二值化问题。 由于很多的乐谱图像是从书籍上扫描得到的,而书脊处的颜色与其他地方一般不一样( 书脊畸变 校正见文献 6 1 ) ,这样我们通过估计出图像背景颜色的方法来选取二值化的阈值。 1 7 一形一 = = 砖 东南大学硕士学位论文 我们将在乐谱图像的每一个竖直的列内,统计出每一列像素的平均值,根据此平均值,来选定二 值化的阈值。 图2 3 ( a ) 中乐谱的背景像素曲线图 统计出来的乐谱像素平均值曲线上,实际上背景像素值对均值的影响占绝大部分,根据曲线图可 以估计出每一列的背景像素值。本文将背景曲线平滑后,取每一列均值的2 3 作为二值化的阈值。另 外为了防止在某些地方出现异常的背景突变,在利用上面的背景曲线进行二值化之前,需要对曲线进 行低通过滤。 2 4 倾斜校正 在扫描图像的时候,由于摆放不正造成的图像倾斜是无法避免的,存在的倾斜若不校正将会严重 影响乐谱识别的效果,因此在识别之前对乐谱图像进行倾斜校正是必不可少的。 2 4 1 基于h o u g h 变换的倾角检测 h o u g h 8 1 变换于1 9 6 2 年由p a u lh o u g h 提出,并在美国作为专利被发表。它所实现的是一种从 图像空间到参数空间的映射关系。由于具有一些明显优点和可贵性质,它引起了许多国内外学者和工 程技术人员的普遍关注。例如,由于其根据局部度量来计算全面描述参数,因而对于区域边界被噪声 干扰或被其他目标遮盖而引起边界发生某些间断的情况,它具有很好的容错性和鲁棒性。多年来,专 家们对h o u g h 变换的理论性质和应用方法进行了深入而广泛的研究,并取得了许多有价值的成果。 h o u g h 变换的实质是将图像空间内具有一定关系的像元进行聚类,寻找能把这些像元用某一解析形式 联系起来的参数空间累积对应点。在参数空间不超过二维的情况下,这种变换有着理想的效果。 h o u g h 变换将空间中的一点映射为参数空间一条正弦曲线,多个共线点的映射曲线将交于参数空 间一点u 引。其变换方程为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论