音频与图像转化的研究_第1页
音频与图像转化的研究_第2页
音频与图像转化的研究_第3页
音频与图像转化的研究_第4页
音频与图像转化的研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、音频与图像转化的研究论文摘要:本文从物理上包括时间轴在内的四维空间概念着手,提出二维的音频与二维的图像之间可以通过坐标轴的替代进行转化。论文关键词:物理空间,类似对,硬性改写,一一对应目录1.引言-32正文-32.1问题的提出-32.2问题的分析-42.4问题的解决-72.5结论和分析-113.参考文献及网站-121引言计算机的出现引起了人类社会很多方面的革命,多媒体技术也是其中的一种。音频和图像文件为适合不同应用场合的不同要求,出现了各种各样的格式。在音频和图形领域中同类的多种格式之间的转化技术已经较为成熟。在此根底上,本文提出了一个问题:音频文件和图像文件之间可以相互转化吗?其实,在此方面

2、已经有一些初步的尝试,如WINAMP中的peaks就是其中之一。它将音乐中不同频率的音量化成波带,根据各时刻该频带声音的响度来定义波带的高度,并以图像的形式表现出来。但这种转化与本文所提到的转化是不同的。它转化而成的波带不是静态的,而是随时间变化的。这种转化不涉及文件内容的改写,仅是软件的一个附加功能,而本文的转化思路是将一个音频文件转化成为一幅静态的图像,是将两者在文件属性上进行本质改变。经过资料调查和分析研究,我们得出结论,音频文件与图像文件之间的转换是可以实现的。2正文2.1问题的提出物理学指出,我们所生活的世界是一个四维空间。四个坐标轴分别为三维空间中的三个坐标轴和时间坐标轴。在这里值

3、得引起注意的是,正如三维空间的三根坐标轴实际上处于等同的位置,没有先后上下之分,四维空间中这四根坐标轴也是等价的,可以相互转换。唯一区别在于:空间的三个坐标轴相互转换时,任意两点间的距离保持不变,倍率为1。而时间坐标轴上两点间的距离转化为任一空间坐标轴的两点距离时,需乘以光速,倍率为。以此为根底,我们提出了音频与图像相互转化的可能性。可以看到,图像和音频都存在于四维空间中的一个二维平面上。区别仅仅在于,确定图像所在平面的两个坐标轴都是空间坐标轴,确定音频所在平面的两坐标轴分别是空间坐标轴和时间坐标轴产生声音的振动是一个一维振动,可以通过质点在一根坐标轴上的位置变换表示。根据上面所说的,时间坐标

4、轴可与空间坐标轴相互转化的理论,当我们将音频中的时间坐标轴转换为任一空间坐标轴,音频就变成了图像。同样,将图像中的任一空间坐标轴转化为时间坐标轴后,图像也就变成了音频。联系到上面所说的倍率关系,音频所转化成的图像文件将会非常庞大。可以归纳为,时间坐标轴转化为空间坐标轴时,两点间距离会展宽;空间坐标轴转化为时间坐标轴时,两点间的距离会缩短。另一个使得这种转化变得可能的条件,是随着计算机的开展,各类信息都最终归为二进制码元。这种二进制码元,即图像与音频在计算机中存储处理的格式的共同点,成为了我们实行这种转化的天然桥梁。不同格式的文件在计算机中都是以二进制数的形式存储的,只有当通过不同的播放软件,经

5、过不同的解码,才可以显示出不同之处。其中播放软件通过对文件头的识别来区分文件的格式。所以即使数据原本表示的信息不一样,但是对于计算机而言它都是0和1两种符号而已。2.2问题的分析基于上述分析思路,我们首先对各类音频格式和图形格式进行研究,确定我们在物理世界中所熟悉的图像或者音频,在计算机内部用二进制码表示时的具体细节。计算机多媒体技术在近些年得到了长足的进步,各类适用于不同场合、满足不同要求的多媒体格式层出不穷。我们对此进行筛选,从最根本的格式入手,通过了解其编码及存储的具体方式,找到实现转化的具体方法。经过筛选,我们将研究对象确定为图像格式中的BMP、JPEG、以及在网络及各类商业LOGO中

6、较为常用的矢量型图形SVG,音频格式中的WAV、MP3、以及在电子音乐制作中大名鼎鼎的MIDI。对这六种格式进行研究后,我们发现BMP与WAV之间存在很多相似关系。BMP的存储机制十分简单。首先,文件头标志出其文件属性为BMP,同时包含其他根本信息,比方文件的大小,文件头大小,位图的宽度和高度,每个像素点中颜色的位数,分辨率,有无压缩等。文件头结束后它便按从左下角到右上角的顺序,将整幅图像中每个像素点的RGB三种色彩值以像素矩阵的形式进行记录,成为数据块。WAV格式中包括三个到四个Chunk。首先是文件头信息。文件头标志该文件属性为WAV,并包含其他根本信息如采样率,声道数目,每个采样所需要的

7、bit数,数据块对应关系等。最后一个Chunk用来保存wav数据。具体存储时,根据文件头所规定的声道数和采样频率,将每次采样时各声道的声音进行不同精密程度的量化,并以二进制码的形式记录下来。综合以上可以看到,除了文件头必须标志出本格式的种种特征以外,BMP和WAV格式在具体数据的存储上是相似的。BMP把图像文件划分为一个个像素,将像素的中心颜色加以记录;WAV把音频文件划分为一个个采样点,将各个采样点对应的声音波形加以记录。因此我们将WAV和BMP称为第一类似对。它们都将文件划分为根本元素,然后进行取样并记录取样值。应用的优点在于可以表现完整丰富的效果,缺点在于文件往往过大,且不易对其进行编辑

8、改变。同样的类似关系也存在于SVG格式和MIDI格式之间。SVG格式属于矢量图形。前面所说的BMP属于位图格式。位图格式的特点是将整幅画面分割成像素分别存储。这种存储方式有利于表现颜色多样且色彩结构丰富的图像。缺点在于文件往往较大,只适合表现静态图像,不适应网页快速翻开或者刷新的要求。而且位图文件在放大到一定程度后,画面的边缘会出现锯齿,也就是马赛克;。这是因为放大的原理是将原来的像素点上的各颜色值通过例如求均值一类的算法,填充出新增的像素点。这个缺点也制约了它在LOGO上的应用。矢量图形的存储机制与位图完全不同。它存储的根本单位不是像素点,而是一个图形,或者说是一个事件。比方一个SVG文件中

9、有一条线段,记录时就只记录这条线段的两个端点,线的粗细颜色等特征。一个圆就记录这个圆的圆心坐标和半径长度等。矢量图像的优点是文件小,而且对图像进行放大缩小不影响图像质量,因此在网页和LOGO上得到大量应用。但是矢量图像对颜色的处理非常粗糙,它只能将某个边缘明确的区域填充一种纯色。因此它无法表现丰富复杂的颜色效果。音频格式MIDI的特点是,它存储的不是声音符号,而是一个事件,包括音符、控制参数等指令。它通过指令控制MIDI设备工作,从而产生不同的声音效果。比方一个MIDI格式文件中有一个音符,它不会像WAV一样记录声音的波形,而是记录这个音符的开始发音时间,结束发音时间,发声通道,音色,音高,音

10、量等信息。在播放时,它将每个音符视为一个事件,在适当的时候控制MIDI设备开始发声,结束发声,并指示MIDI设备按照音色表发出这个音符的音色,这样这个音符就从扬声器中发出。由此可以看出MIDI和SVG的相似之处。二者将物理实体图形或者音符抽象化为事件,只存储事件特征。文件翻开的时候,只需要将事件的各个特征取出,进行判决再生的工作,重构事件,就可以复原整个文件。这种以事件进行的存储非常利于控制。所以,我们将MIDI和适量图形称为第二类似对。第二类似对的优点在于文件小,利于控制。缺点在于往往只能表现简单的画面或者音乐,丰富度不够。这里我们提出两种音频文件与图像文件转化的思路:由第一类似对看到,二者

11、的重大区别仅在于文件头,数据块局部二者都是将文件划分为相应的二维小块再进行存取。因此考虑将文件头进行硬性改写,改写成为另外一种格式的文件头标准格式,数据局部保持不变,就有可能实现音频与图像格式文件之间的转化。由第二类似对看到,二者的共通之处在于将整个文件划分为一个个根本单元的根本领件,并仅对事件特征进行存储。因此考虑将二者所存储的事件中的信息进行一一对应,将一种文件所记录的事件特征转化为另一种文件所记录的事件特征,可以实现音频与图像格式的文件的转化。这里需要注意的是,思路二中的文件头还是要改变的。文件头是标志一个文件格式的最根本依据,所以要实现文件格式转化,文件头必须要改动。此外,我们研究的六

12、种格式中还有两种,图像格式JPEG和音频格式MP3。这两种格式可以算是普通计算机用户最最熟悉的两种格式了。它们不但像第一类似对那样有良好的表现效果,而且像第二类似对那样保持较为适宜的文件大小。这得益于它们成熟的压缩技术。可是正是由于这种成熟的压缩技术,使它们之间不能像前两对那样实现简单的相互转化。JPEG和MP3所采用的都是有损压缩技术,有损压缩后被丢弃的信息是无法恢复的。而对于音频和图像来说,由于它们本身性质的不同,在压缩时考虑丢弃的方面也是不同的。对于图像文件来说,如果将图像中的信息以波形来表现时,处理时我们着重要考虑的是相位关系,因为人眼对于相位关系比频率关系要敏感。而对于音频文件,处理

13、波形时往往比拟重视频率关系,相位只要不要有大的过失就没有关系,而频率有波动时那么会导致声音失真严重。因为人耳对于频率关系要比相位关系敏感。有损压缩的根本思想就在于丢弃人感官中不敏感的信息细节,这样无可防止地造成了信息缺失。所以,我们不能保证在JPEG压缩算法中丢弃的那些细节中是否含有对于MP3十分重要的信息,反之也一样。因此我们在现阶段认为二者转化可能存在一些问题,不把它们作为第三类似对。2.4问题的解决由于播放器音频播放器和图像查看软件都是通过文件头识别文件格式的。为了实现格式转化,考虑更改文件的头文件即文件对象数据以前的局部,让播放器识别。不同格式的文件在计算机中都是以二进制数的形式存储的

14、,所以即使文件头后的数据原本表示的信息不一样,最终只是表现的不同,并不影响文件格式。二进制码的含义是由编程人员定的,与文件格式无关。真正决定文件格式的是文件头数据。转化前必须首先明确一个问题,即后缀名和文件格式之间的关系。后缀名是文件格式的一个标识符,但只对后缀名进行修改并没有改变文件的实质格式。后缀名的功能仅限于方便计算机识别文件,寻找对应的软件翻开或者进行处理。各种后缀名与软件之间存在对应关系。找到对应的软件后,软件会读入文件存储的二进制码,再根据二进制码中头文件所提供的信息对该文件进行相应的操作。之所以要对这个问题进行阐述是因为现在的播放软件大都支持多种格式。所以当你将BMP文件的后缀名

15、改为JPG时,图片浏览软件仍然可以翻开并且正常显示。由此有一种错误观点认为文件格式已经被改变了。其实对于图片浏览软件而言,它还是按照翻开BMP文件的方法翻开该文件的,调用软件内部针对BMP文件的包的依据是文件头中标示出这是一个BMP文件。证明以上结论的方法非常简单:暴风影音播放器同时支持多种视频和音频格式。把一个视频格式AVI或者RMVB文件的后缀名改成音频格式MP3或者WMA后用暴风影音翻开,画面照常显示,证明软件是把它做为一个视频,而不是音频翻开的。用编辑器直接查看文件代码也可以看到,后缀名的改变完全不影响文件的内部编码。我们根据前面所讲的第一种转化思路,对文件头进行硬性改写。事实上根据前

16、面的说明,对文件头硬性改写实现转化的方法适用于任何格式之间。通过一个可以查看并且更改文件内部二进制码的编辑软件UltraEdit,我们采用手动的方法,将一个MP3格式的音频文件的头文件,按照BMP图像格式的头文件的形式更改。步骤如下:1、我们将一个MP3文件的前三行做如下置换,原文件头符合MP3文件标准:494433F76544954320000;0005000000D1A7BBE0000;270000574D2F4D65646961436C617373;修改后的文件头符合BMP文件标准:424D36003C0000002800;18000000;000000003C0000000000;2、

17、将修改后的文件另存为后缀名是BMP的文件,之后利用ACDSee翻开得到:图经过头文件修改之后的mp3图像我们同时对文件的后缀名和文件头进行了改写。双击翻开后计算机查找到与BMP文件相关联的软件并调用。此文件已经可以以BMP图片的形式被图片查看软件识别并显示了。此试验证明了音频文件可以转化为图像文件。但可以看出该图片不具有任何欣赏性。文件头的硬性转换是一个非常粗糙的过程。它仅仅考虑将文件头进行改写,对数据完全不做任何变化,转化后的文件的可视性完全没有保障。现在根据第二种思路,将SVG与MIDI中的各个事件进行一一对应,从而完成两者之间的对应转换。这种方法较第一种方法来说更加科学。它对数据进行了一

18、定的处理,二者间的对应关系可以实实在在的看到。具体对应关系如下:在SVG中,按照图像中图形的属性储存图像。比方一个直线元,在SVG中存储的是1、起始点坐标,在矢量图形中,有一个度量是单位长度,而每个坐标都是这个单位长度的倍数,此单位长度可以改变,以此来改变整个矢量图形的大小。在此,暂且将其定义为1;2、终止点坐标;3、线的宽度;4、线的颜色;直线元的组合就可以形成不同的直线或者曲线,也可以形成其他复杂的图形。对应的在MIDI中,对一个事件的记录是通过对一个音符的属性进行描述的。如:1、音符发音的起始时间,MIDI中有一个单位时间的概念,每一个起始时间和终止时间都是单位时间的倍数,可以通过改变单

19、位时间的大小改变整个曲子的播放时间,同样,在此将其设为1;2、音符的终止时间;3、音符的音高;4、音符发音的响度;5、描述音符所用的乐器;一段音乐或者一首曲子,就是由不同的音符元组合而成的。根据上面论述的坐标转化的原理以及对图像、音频的属性的认识,我们对其做了以下的一一对应。如下列图:图2SVG中直线元和MIDI中音频元的一一对应转换关系由此,通过对每个根本单元的转化,可以将SVG和MIDI进行整体的转换。数据块转化结束后,整理出文件的信息,包括文件名,文件大小,起始地址,偏移量等,将其放到头文件中,对头文件进行相应的改写,就可以生成一个目标格式的完整文件。2.5结论和分析本文我们从两个方面论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论