计算机汇编语言.ppt

上传人：g*** IP属地：河南上传时间：2020-02-08 格式：PPT 页数：87 大小：255.50KB 积分：20 举报 版权申诉

已阅读5页，还剩82页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Linux汇编语言开发指南一简介作为最基本的编程语言之一汇编语言虽然应用的范围不算很广但重要性却勿庸置疑因为它能够完成许多其它语言所无法完成的功能就拿Linux内核来讲虽然绝大部分代码是用C语言编写的但仍然不可避免地在某些关键地方使用了汇编代码其中主要是在Linux的启动部分由于这部分代码与硬件的关系非常密切即使是C语言也会有些力不从心而汇编语言则能够很好扬长避短最大限度地发挥硬件的性能大多数情况下Linux程序员不需要使用汇编语言因为即便是硬件驱动这样的底层程序在Linux操作系统中也可以用完全用C语言来实现再加上GCC这一优秀的编译器目前已经能够对最终生成的代码进行很好的优化的确有足够的理由让我们可以暂时将汇编语言抛在一边了但实现情况是Linux程序员有时还是需要使用汇编或者不得不使用汇编理由很简单精简高效和libc无关性假设要移植Linux到某一特定的嵌入式硬件环境下首先必然面临如何减少系统大小提高执行效率等问题此时或许只有汇编语言能帮上忙了汇编语言直接同计算机的底层软件甚至硬件进行交互它具有如下一些优点能够直接访问与硬件相关的存储器或I O端口能够不受编译器的限制对生成的二进制代码进行完全的控制能够对关键代码进行更准确的控制避免因线程共同访问或者硬件设备共享引起的死锁能够根据特定的应用对代码做最佳的优化提高运行速度能够最大限度地发挥硬件的功能同时还应该认识到汇编语言是一种层次非常低的语言它仅仅高于直接手工编写二进制的机器指令码因此不可避免地存在一些缺点编写的代码非常难懂不好维护很容易产生bug 难于调试只能针对特定的体系结构和处理器进行优化开发效率很低时间长且单调 Linux下用汇编语言编写的代码具有两种不同的形式第一种是完全的汇编代码指的是整个程序全部用汇编语言编写尽管是完全的汇编代码 Linux平台下的汇编工具也吸收了C语言的长处使得程序员可以使用 include ifdef等预处理指令并能够通过宏定义来简化代码第二种是内嵌的汇编代码指的是可以嵌入到C语言程序中的汇编代码片段虽然ANSI的C语言标准中没有关于内嵌汇编代码的相应规定但各种实际使用的C编译器都做了这方面的扩充这其中当然就包括Linux平台下的GCC 二 Linux汇编语法格式绝大多数Linux程序员以前只接触过DOS Windows下的汇编语言这些汇编代码都是Intel风格的但在Unix和Linux系统中更多采用的还是AT T格式两者在语法格式上有着很大的不同在AT T汇编格式中寄存器名要加上作为前缀而在Intel汇编格式中寄存器名不需要加前缀例如 AT T格式pushl eaxIntel格式pusheax在AT T汇编格式中用前缀表示一个立即操作数而在Intel汇编格式中立即数的表示不用带任何前缀例如 AT T格式pushl 1Intel格式push1 AT T和Intel格式中的源操作数和目标操作数的位置正好相反在Intel汇编格式中目标操作数在源操作数的左边而在AT T汇编格式中目标操作数在源操作数的右边例如 AT T格式addl 1 eaxIntel格式addeax 1在AT T汇编格式中操作数的字长由操作符的最后一个字母决定后缀 b w l 分别表示操作数为字节 byte 8比特字 word 16比特和长字 long 32比特而在Intel汇编格式中操作数的字长是用 byteptr 和 wordptr 等前缀来表示的例如 AT T格式movbval alIntel格式moval byteptrval 在AT T汇编格式中绝对转移和调用指令 jump call 的操作数前要加上作为前缀而在Intel格式中则不需要远程转移指令和远程子调用指令的操作码在AT T汇编格式中为 ljump 和 lcall 而在Intel汇编格式中则为 jmpfar 和 callfar 即 AT T格式ljump section offsetlcall section offsetIntel格式jmpfarsection offsetcallfarsection offset与之相应的远程返回指令则为 AT T格式lret stack adjustIntel格式retfarstack adjust 在AT T汇编格式中内存操作数的寻址方式是section disp base index scale 而在Intel汇编格式中内存操作数的寻址方式为 section base index scale displacement 由于Linux工作在保护模式下用的是32位线性地址所以在计算地址时不用考虑段基址和偏移量而是采用如下的地址计算方法 displacement base index scale 其中 base和index是任意的32 bitbase和index寄存器 scale可以取值1 2 4 8 如果不指定scale值则默认值为1 section可以指定任意的段寄存器作为段前缀默认的段寄存器在不同的情况下不一样如果你在指令中指定了默认的段前缀则编译器在目标代码中不会产生此段前缀代码下面是一些内存操作数的例子 AT T格式Intel格式movl 4 ebp eaxmoveax ebp 4 movlarray eax 4 eaxmoveax eax 4 array movwarray ebx eax 4 cxmovcx ebx 4 eax array movb 4 fs eax movfs eax 4三 HelloWorld 真不知道打破这个传统会带来什么样的后果但既然所有程序设计语言的第一个例子都是在屏幕上打印一个字符串 HelloWorld 那我们也以这种方式来开始介绍Linux下的汇编语言程序设计在Linux操作系统中你有很多办法可以实现在屏幕上显示一个字符串但最简洁的方式是使用Linux内核提供的系统调用使用这种方法最大的好处是可以直接和操作系统的内核进行通讯不需要链接诸如libc这样的函数库也不需要使用ELF解释器因而代码尺寸小且执行速度快 Linux是一个运行在保护模式下的32位操作系统采用flatmemory模式目前最常用到的是ELF格式的二进制代码一个ELF格式的可执行程序通常划分为如下几个部分 text data和 bss 其中 text是只读的代码区 data是可读可写的数据区而 bss则是可读可写且没有初始化的数据区代码区和数据区在ELF中统称为section 根据实际需要你可以使用其它标准的section 也可以添加自定义section 但一个ELF可执行程序至少应该有一个 text部分下面给出我们的第一个汇编程序用的是AT T汇编语言格式例1 AT T格式 hello s data 数据段声明msg string Hello world n 要输出的字符串len msg 字串长度 text 代码段声明 global start 指定入口函数 start 在屏幕上显示一个字符串movl len edx 参数三字符串长度movl msg ecx 参数二要显示的字符串movl 1 ebx 参数一文件描述符 stdout movl 4 eax 系统调用号 sys write int 0 x80 调用内核功能退出程序movl 0 ebx 参数一退出代码movl 1 eax 系统调用号 sys exit int 0 x80 调用内核功能初次接触到AT T格式的汇编代码时很多程序员都认为太晦涩难懂了没有关系在Linux平台上你同样可以使用Intel格式来编写汇编程序例2 Intel格式 hello asmsection data 数据段声明msgdb Hello world 0 xA 要输出的字符串lenequ msg 字串长度section text 代码段声明global start 指定入口函数 start 在屏幕上显示一个字符串movedx len 参数三字符串长度movecx msg 参数二要显示的字符串movebx 1 参数一文件描述符 stdout moveax 4 系统调用号 sys write int0 x80 调用内核功能退出程序movebx 0 参数一退出代码moveax 1 系统调用号 sys exit int0 x80 调用内核功能上面两个汇编程序采用的语法虽然完全不同但功能却都是调用Linux内核提供的sys write来显示一个字符串然后再调用sys exit退出程序在Linux内核源文件include asm i386 unistd h中可以找到所有系统调用的定义四 Linux汇编工具Linux平台下的汇编工具虽然种类很多但同DOS Windows一样最基本的仍然是汇编器连接器和调试器 1 汇编器汇编器 assembler 的作用是将用汇编语言编写的源程序转换成二进制形式的目标代码 Linux平台的标准汇编器是GAS 它是GCC所依赖的后台汇编工具通常包含在binutils软件包中 GAS使用标准的AT T汇编语法可以用来汇编用AT T格式编写的程序 xiaowp garycode as ohello ohello sLinux平台上另一个经常用到的汇编器是NASM 它提供了很好的宏指令功能并能够支持相当多的目标代码格式包括bin a out coff elf rdf等 NASM采用的是人工编写的语法分析器因而执行速度要比GAS快很多更重要的是它使用的是Intel汇编语法可以用来编译用Intel语法格式编写的汇编程序 xiaowp garycode nasm felfhello asm 2 链接器由汇编器产生的目标代码是不能直接在计算机上运行的它必须经过链接器的处理才能生成可执行代码链接器通常用来将多个目标代码连接成一个可执行代码这样可以先将整个程序分成几个模块来单独开发然后才将它们组合链接成一个应用程序 Linux使用ld作为标准的链接程序它同样也包含在binutils软件包中汇编程序在成功通过GAS或NASM的编译并生成目标代码后就可以使用ld将其链接成可执行程序了 xiaowp garycode ld s ohellohello o3 调试器有人说程序不是编出来而是调出来的足见调试在软件开发中的重要作用在用汇编语言编写程序时尤其如此 Linux下调试汇编代码既可以用GDB DDD这类通用的调试器也可以使用专门用来调试汇编代码的ALD AssemblyLanguageDebugger 从调试的角度来看使用GAS的好处是可以在生成的目标代码中包含符号表 symboltable 这样就可以使用GDB和DDD来进行源码级的调试了要在生成的可执行程序中包含符号表可以采用下面的方式进行编译和链接 xiaowp garycode as gstabs ohello ohello s xiaowp garycode ld ohellohello o执行as命令时带上参数 gstabs可以告诉汇编器在生成的目标代码中加上符号表同时需要注意的是在用ld命令进行链接时不要加上 s参数否则目标代码中的符号表在链接时将被删去在GDB和DDD中调试汇编代码和调试C语言代码是一样的你可以通过设置断点来中断程序的运行查看变量和寄存器的当前值并可以对代码进行单步跟踪汇编程序员通常面对的都是一些比较苛刻的软硬件环境短小精悍的ALD可能更能符合实际的需要因此下面主要介绍一下如何用ALD来调试汇编程序首先在命令行方式下执行ald命令来启动调试器该命令的参数是将要被调试的可执行程序 xiaowp garydoc aldhelloAssemblyLanguageDebugger0 1 3Copyright C 2000 2002PatrickAlkenhello ELFIntel80386 32bit LSB Executable Version1 current Loadingdebuggingsymbols 15symbolsloaded ald 当ALD的提示符出现之后用disassemble命令对代码段进行反汇编当ALD的提示符出现之后用disassemble命令对代码段进行反汇编 ald disassemble s textDisassemblingsection text 0 x08048074 0 x08048096 08048074BA0F000000movedx 0 xf08048079B998900408movecx 0 x80490980804807EBB01000000movebx 0 x108048083B804000000moveax 0 x408048088CD80int0 x800804808ABB00000000movebx 0 x00804808FB801000000moveax 0 x108048094CD80int0 x80上述输出信息的第一列是指令对应的地址码利用它可以设置在程序执行时的断点 ald break0 x08048088Breakpoint1setfor0 x08048088 断点设置好后使用run命令开始执行程序 ALD在遇到断点时将自动暂停程序的运行同时会显示所有寄存器的当前值 ald runStartingprogram helloBreakpoint1encounteredat0 x08048088eax 0 x00000004ebx 0 x00000001ecx 0 x08049098edx 0 x0000000Fesp 0 xBFFFF6C0ebp 0 x00000000esi 0 x00000000edi 0 x00000000ds 0 x0000002Bes 0 x0000002Bfs 0 x00000000gs 0 x00000000ss 0 x0000002Bcs 0 x00000023eip 0 x08048088eflags 0 x00000246Flags PFZFIF08048088CD80int0 x80 如果需要对汇编代码进行单步调试可以使用next命令 ald nextHello world eax 0 x0000000Febx 0 x00000000ecx 0 x08049098edx 0 x0000000Fesp 0 xBFFFF6C0ebp 0 x00000000esi 0 x00000000edi 0 x00000000ds 0 x0000002Bes 0 x0000002Bfs 0 x00000000gs 0 x00000000ss 0 x0000002Bcs 0 x00000023eip 0 x0804808Feflags 0 x00000346Flags PFZFTFIF0804808FB801000000moveax 0 x1 若想获得ALD支持的所有调试命令的详细列表可以使用help命令 ald helpCommandsmaybeabbreviated Ifablankcommandisentered thelastcommandisrepeated Type help formorespecificinformationon GeneralcommandsattachclearcontinuedetachdisassembleenterexaminefilehelploadnextquitregisterrunsetstepunloadwindowwriteBreakpointrelatedcommandsbreakdeletedisableenableignorelbreaktbreak 五系统调用即便是最简单的汇编程序也难免要用到诸如输入输出以及退出等操作而要进行这些操作则需要调用操作系统所提供的服务也就是系统调用除非你的程序只完成加减乘除等数学运算否则将很难避免使用系统调用事实上除了系统调用不同之外各种操作系统的汇编编程往往都是芾嗨频摹在Linux平台下有两种方式来使用系统调用利用封装后的C库 libc 或者通过汇编直接调用其中通过汇编语言来直接调用系统调用是最高效地使用Linux内核服务的方法因为最终生成的程序不需要与任何库进行链接而是直接和内核通信和DOS一样 Linux下的系统调用也是通过中断 int0 x80 来实现的在执行int80指令时寄存器eax中存放的是系统调用的功能号而传给系统调用的参数则必须按顺序放到寄存器ebx ecx edx esi edi中当系统调用完成之后返回值可以在寄存器eax中获得所有的系统调用功能号都可以在文件 usr include bits syscall h中找到为了便于使用它们是用SYS 这样的宏来定义的如SYS write SYS exit等例如经常用到的write函数是如下定义的 ssize twrite intfd constvoid buf size tcount 该函数的功能最终是通过SYS write这一系统调用来实现的根据上面的约定参数fb buf和count分别存在寄存器ebx ecx和edx中而系统调用号SYS write则放在寄存器eax中当int0 x80指令执行完毕后返回值可以从寄存器eax中获得或许你已经发现在进行系统调用时至多只有5个寄存器能够用来保存参数难道所有系统调用的参数个数都不超过5吗当然不是例如mmap函数就有6个参数这些参数最后都需要传递给系统调用SYS mmap void mmap void start size tlength intprot intflags intfd off toffset 当一个系统调用所需的参数个数大于5时执行int0 x80指令时仍需将系统调用功能号保存在寄存器eax中所不同的只是全部参数应该依次放在一块连续的内存区域里同时在寄存器ebx中保存指向该内存区域的指针系统调用完成之后返回值仍将保存在寄存器eax中由于只是需要一块连续的内存区域来保存系统调用的参数因此完全可以像普通的函数调用一样使用栈 stack 来传递系统调用所需的参数但要注意一点 Linux采用的是C语言的调用模式这就意味着所有参数必须以相反的顺序进栈即最后一个参数先入栈而第一个参数则最后入栈如果采用栈来传递系统调用所需的参数在执行int0 x80指令时还应该将栈指针的当前值复制到寄存器ebx中六命令行参数在Linux操作系统中当一个可执行程序通过命令行启动时其所需的参数将被保存到栈中首先是argc 然后是指向各个命令行参数的指针数组argv 最后是指向环境变量的指针数据envp 在编写汇编语言程序时很多时候需要对这些参数进行处理下面的代码示范了如何在汇编代码中进行命令行参数的处理例3 处理命令行参数 args s text globl start start popl ecx argcvnext popl ecx argvtest ecx ecx 空指针表明结束jzexit movl ecx ebxxorl edx edxstrlen movb ebx alinc edxinc ebxtest al aljnzstrlenmovb 10 1 ebx movl 4 eax 系统调用号 sys write movl 1 ebx 文件描述符 stdout int 0 x80jmpvnextexit movl 1 eax 系统调用号 sys exit xorl ebx ebx 退出代码int 0 x80ret 七 GCC内联汇编用汇编编写的程序虽然运行速度快但开发速度非常慢效率也很低如果只是想对关键代码段进行优化或许更好的办法是将汇编指令嵌入到C语言程序中从而充分利用高级语言和汇编语言各自的特点但一般来讲在C代码中嵌入汇编语句要比纯粹的汇编语言代码复杂得多因为需要解决如何分配寄存器以及如何与C代码中的变量相结合等问题 GCC提供了很好的内联汇编支持最基本的格式是 asm asmstatements 例如 asm nop 如果需要同时执行多条汇编语句则应该用 n t 将各个语句分隔开例如 asm pushl eax n t movl 0 eax n t popl eax 通常嵌入到C代码中的汇编语句很难做到与其它部分没有任何关系因此更多时候需要用到完整的内联汇编格式 asm asmstatements outputs inputs registers modified 插入到C代码中的汇编语句是以分隔的四个部分其中第一部分就是汇编代码本身通常称为指令部其格式和在汇编语言中使用的格式基本相同指令部分是必须的而其它部分则可以根据实际情况而省略在将汇编语句嵌入到C代码中时操作数如何与C代码中的变量相结合是个很大的问题 GCC采用如下方法来解决这个问题程序员提供具体的指令而对寄存器的使用则只需给出样板和约束条件就可以了具体如何将寄存器与变量结合起来完全由GCC和GAS来负责在GCC内联汇编语句的指令部中加上前缀的数字如 0 1 表示的就是需要使用寄存器的样板操作数指令部中使用了几个样板操作数就表明有几个变量需要与寄存器相结合这样GCC和GAS在编译和汇编时会根据后面给定的约束条件进行恰当的处理由于样板操作数也使用作为前缀因此在涉及到具体的寄存器时寄存器名前面应该加上两个以免产生混淆紧跟在指令部后面的是输出部是规定输出变量如何与样板操作数进行结合的条件每个条件称为一个约束必要时可以包含多个约束相互之间用逗号分隔开就可以了每个输出约束都以号开始然后紧跟一个对操作数类型进行说明的字后最后是如何与变量相结合的约束凡是与输出部中说明的操作数相结合的寄存器或操作数本身在执行完嵌入的汇编代码后均不保留执行之前的内容这是GCC在调度寄存器时所使用的依据输出部后面是输入部输入约束的格式和输出约束相似但不带号如果一个输入约束要求使用寄存器则GCC在预处理时就会为之分配一个寄存器并插入必要的指令将操作数装入该寄存器与输入部中说明的操作数结合的寄存器或操作数本身在执行完嵌入的汇编代码后也不保留执行之前的内容有时在进行某些操作时除了要用到进行数据输入和输出的寄存器外还要使用多个寄存器来保存中间计算结果这样就难免会破坏原有寄存器的内容在GCC内联汇编格式中的最后一个部分中可以对将产生副作用的寄存器进行说明以便GCC能够采用相应的措施下面是一个内联汇编的简单例子例4 内联汇编 inline c intmain inta 10 b 0 asm volatile movl 1 eax n r movl eax 0 r b 输出 r a 输入 eax 不受影响的寄存器 printf Result d d n a b 变量b是输出操作数通过 0来引用而变量a是输入操作数通过 1来引用输入操作数和输出操作数都使用r进行约束表示将变量a和变量b存储在寄存器中输入约束和输出约束的不同点在于输出约束多一个约束修饰符在内联汇编语句中使用寄存器eax时寄存器名前应该加两个即 eax 内联汇编中使用 0 1等来标识变量任何只带一个的标识符都看成是操作数而不是寄存器内联汇编语句的最后一个部分告诉GCC它将改变寄存器eax中的值 GCC在处理时不应使用该寄存器来存储任何其它的值上面的程序完成将变量a的值赋予变量b 有几点需要说明由于变量b被指定成输出操作数当内联汇编语句执行完毕后它所保存的值将被更新在内联汇编中用到的操作数从输出部的第一个约束开始编号序号从0开始每个约束记数一次指令部要引用这些操作数时只需在序号前加上作为前缀就可以了需要注意的是内联汇编语句的指令部在引用一个操作数时总是将其作为32位的长字使用但实际情况可能需要的是字或字节因此应该在约束中指明正确的限定符限定符意义 m v o 内存单元 r 任何寄存器 q 寄存器eax ebx ecx edx之一 i h 直接操作数 E 和 F 浮点数 g 任意 a b c d 分别表示寄存器eax ebx ecx和edx S 和 D 寄存器esi edi I 常数 0至31 八小结Linux操作系统是用C语言编写的汇编只在必要的时候才被人们想到但它却是减少代码尺寸和优化代码性能的一种非常重要的手段特别是在与硬件直接交互的时候汇编可以说是最佳的选择 Linux提供了非常优秀的工具来支持汇编程序的开发使用GCC的内联汇编能够充分地发挥C语言和汇编语言各自的优点九参考资料在网站http linuxassembly org上可以找到大量的Linux汇编资源软件包binutils提供了as和ld等实用工具其相关信息可以在网站NASM是Intel格式的汇编器其相关信息可以在网站上找到 ALD是一个短小精悍的汇编调试器其相关信息可以在网站http dunx1 irt drexel edu psa22 ald html上找到 intel2gas是一个能够将Intel汇编格式转换成AT T汇编格式的小工具其相关信息可以在网站http www niksula cs hut fi mtiihone intel2gas 上找到 IBMdeveloperWorks上有一篇介绍GCC内联汇编的文章 gcc中的内嵌汇编语言 Inteli386平台一声明虽然Linux的核心代码大部分是用C语言编写的但是不可避免的其中还是有一部分是用汇编语言写成的有些汇编语言代码是直接写在汇编源程序中的特别是Linux的启动代码部分还有一些则是利用gcc的内嵌汇编语言嵌在C语言程序中的这篇文章简单介绍了gcc中的内嵌式汇编语言主要想帮助那些才开始阅读Linux核心代码的朋友们能够更快的入手写这篇文章的主要信息来源是GNU的两个info文件 as info和gcc info 如果你觉得这篇文章中的介绍还不够详细的话你可以查阅这两个文件当然直接查阅这两个文件可以获得更加权威的信息如果你不想被这两篇文档中的一大堆信息搞迷糊的话我建议你先阅读一下这篇文章然后在必要时再去查阅更权威的信息二简介在Linux的核心代码中还是存在相当一部分的汇编语言代码如果你想顺利阅读Linux代码的话你不可能绕过这一部分代码在Linux使用的汇编语言代码中主要有两种格式一种是直接写成汇编语言源程序的形式这一部分主要是一些Linux的启动代码另一部分则是利用gcc的内嵌式汇编语言语句asm嵌在Linux的C语言代码中的这篇文章主要是介绍第二种形式的汇编语言代码首先我介绍一下as支持的汇编语言的语法格式大家知道我们现在学习的汇编语言的格式主要是Intel风格的而在Linux的核心代码中使用的则是AT T格式的汇编语言代码应该说大部分人对这种格式的汇编语言还不是很了解所以我觉得有必要介绍一下接着我主要介绍一下gcc的内嵌式汇编语言的格式 gcc的内嵌式汇编语言提供了一种在C语言源程序中直接嵌入汇编指令的很好的办法既能够直接控制所形成的指令序列又有着与C语言的良好接口所以在Linux代码中很多地方都使用了这一语句三 AT T的汇编语言语法格式我想我们大部分人对Intel格式的汇编语言都很了解了但是在Linux核心代码中所有的汇编语言指令都是用AT T格式的汇编语言书写的这两种汇编语言在语法格式上有着很大的不同 1 在AT T的汇编语言中用前缀表示一个立即操作数而在Intel的格式中立即操作数的表示不带任何前缀符例如下面两个语句是完全相同的 AT T pushl 4 Intel push4 2 AT T和Intel的汇编语言格式中源操作数和目标操作数的位置正好相反 Intel的汇编语言中目标操作数在源操作数的左边而在AT T的汇编语言中目标操作数则在源操作数的右边例如 AT T addl 4 eax Intel addeax 4 3 在AT T的汇编语言中操作数的字长是由操作码助记符的最后一个字母决定的后缀 b w l 分别表示操作数的字长为8比特字节 byte 16比特字 word 和32比特长字 long 而Intel格式中操作数的字长是用 wordptr 或者 byteptr 等前缀来表示的例如 AT T movbFOO al Intel moval byteptrFOO 4 在AT T汇编指令中直接远跳转调用的指令格式是 lcall ljmp SECTION OFFSET 同样远程返回的指令是 lret STACK ADJUST 而在Intel格式中相应的指令分别为 call jmpfarSECTION OFFSET 和 retfarSTACK ADJUST AT T汇编指令操作助记符命名规则AT T汇编语言中操作码助记符的后缀字符指定了该指令中操作数的字长后缀字母 b w l 分别表示字长为8比特字节 byte 16比特字 word 和32比特长字 long 的操作数如果助记符中没有指定字长后缀并且该指令中没有内存操作数汇编程序 as 会根据指令中指定的寄存器操作数补上相应的后缀字符所以下面的两个指令具有相同的效果这只是GNU的汇编程序as的一个特性 AT T的Unix汇编程序将没有字长后缀的指令的操作数字长假设为32比特 mov ax bxmovw ax bx AT T中几乎所有的操作助记符与Intel格式中的助记符同名仅有一小部分例外操作数扩展指令就是例外之一在AT T汇编指令中操作数扩展指令有两个后缀一个指定源操作数的字长另一个指定目标操作数的字长 AT T的符号扩展指令的基本助记符为 movs 零扩展指令的基本助记符为 movz 相应的Intel指令为 movsx 和 movzx 因此 movsbl al edx 表示对寄存器al中的字节数据进行字节到长字的符号扩展计算结果存放在寄存器edx中下面是一些允许的操作数扩展后缀 bl 字节长字 bw 字节字 wl 字长字还有一些其他的类型转换指令的对应关系 Intel AT T cbwcbtw符号扩展 al ax cwdecwtl符号扩展 ax eax cwdcwtd符号扩展 ax dx ax cdqcltd符号扩展 eax edx eax还有一个不同名的助记符就是远程跳转调用指令在Intel格式中远程跳转调用指令的助记符为 call jmpfar 而在AT T的汇编语言中相应的指令为 lcall 和 ljmp AT T中寄存器的命名在AT T汇编语言中寄存器操作数总是以作为前缀 80386芯片的寄存器包括 8个32位寄存器 eax ebx ecx edx edi esi ebp esp 8个16位寄存器 ax bx cx dx si di bp sp 8个8位寄存器 ah al bh bl ch cl dh dl 6个段寄存器 cs ds es ss fs gs 3个控制寄存器 cr0 cr1 cr2 6个调试寄存器 db0 db1 db2 db3 db6 db7 2个测试寄存器 tr6 tr7 8个浮点寄存器栈 st 0 st 1 st 2 st 3 st 4 st 5 st 6 st 7 注我对这些寄存器并不是都了解这些资料只是摘自as info文档如果真的需要寄存器命名的资料我想可以参考一下相应GNU工具的机器描述方面的源文件 AT T中的操作码前缀段超越前缀 cs ds es ss fs gs 当汇编程序中对内存操作数进行SECTION MEMORY OPERAND引用时自动加上相应的段超越前缀操作数地址尺寸前缀 data16 addr16 这些前缀将32位的操作数地址转化为16位的操作数地址总线锁定前缀 lock 总线锁定操作 lock 前缀在Linux核心代码中使用很多特别是SMP代码中协处理器等待前缀 wait 等待协处理器完成当前操作指令重复前缀 rep repe repne 在串操作中重复指令的执行 AT T中的内存操作数在Intel的汇编语言中内存操作数引用的格式如下 SECTION BASE INDEX SCALE DISP 而在AT T的汇编语言中内存操作数的应用格式则是这样的 SECTION DISP BASE INDEX SCALE 下面是一些内存操作数的例子 AT T Intel 4 ebp ebp 4 foo eax 4 foo eax 4 foo 1 foo gs foogs foo还有绝对跳转调用指令中的内存操作数必须以最为前缀否则as总是假设这是一个相对跳转调用指令 AT T中的跳转指令as汇编程序自动对跳转指令进行优化总是使用尽可能小的跳转偏移量如果8比特的偏移量无法满足要求的话 as会使用一个32位的偏移量 as汇编程序暂时还不支持16位的跳转偏移量所以对跳转指令使用 addr16 前缀是无效的还有一些跳转指令只支持8位的跳转偏移量这些指令包括 jcxz jecxz loop loopz loope loopnz 和 loopne 所以在as的汇编源程序中使用这些指令可能会出错幸运的是 gcc并不使用这些指令对AT T汇编语言语法的简单介绍差不多了其中有些特性是as特有的在Linux核心代码中并不涉及到所有上面这些提到的语法规则其中有两点规则特别重要第一 as中对寄存器引用时使用前缀第二 AT T汇编语言中源操作数和目标操作数的位置与我们熟悉的Intel的语法正好相反四 gcc的内嵌汇编语言语句asm利用gcc的asm语句你可以在C语言代码中直接嵌入汇编语言指令同时还可以使用C语言的表达式指定汇编指令所用到的操作数这一特性提供了很大的方便要使用这一特性首先要写一个汇编指令的模板这种模板有点类似于机器描述文件中的指令模板然后要为每一个操作数指定一个限定字符串例如 extern inline voidchange bit intnr volatilevoid addr asm volatile LOCK PREFIX btcl 1 0 m ADDR ir nr 上面的函数中 LOCK PREFIX 这是一个宏如果定义了 SMP 扩展为 lock 用于指定总线锁定前缀否则扩展为 ADDR 这也是一个宏定义为 volatilestruct dummy addr btcl 1 0 这就是嵌入的汇编语言指令 btcl为指令操作码 1 0是这条指令两个操作数的占位符后面的两个限定字符串就用于描述这两个操作数 m ADDR 第一个冒号后的限定字符串用于描述指令中的输出操作数刮号中的ADDR将操作数与C语言的变量联系起来这个限定字符串表示指令中的 0 就是addr指针指向的内存操作数这是一个输出类型的内存操作数 ir nr 第二个冒号后的限定字符串用于描述指令中的输入操作数这条限定字符串表示指令中的 1 就是变量nr 这个的操作数可以是一个立即操作数或者是一个寄存器操作数注限定字符串与操作数占位符之间的对应关系是这样的在所有限定字符串中包括第一个冒号后的以及第二个冒号后的所有限定字符串最先出现的字符串用于描述操作数 0 第二个出现的字符串描述操作数 1 以此类推汇编指令模板asm语句中的汇编指令模板主要由汇编指令序列和限定字符串组成在一个asm语句中可以包括多条汇编指令汇编指令序列中使用操作数占位符引用C语言中的变量一条asm语句中最多可以包含十个操作数占位符 0 1 9 汇编指令序列后面是操作数限定字符串对指令序列中的占位符进行限定限定的内容包括该占位符与哪个C语言变量对应可以是什么类型的操作数等等限定字符串可以分为三个部分输出操作数限定字符串指令序列后第一个冒号后的限定字符串输入操作数限定字符串第一个冒号与第二个冒号之间还有第三种类型的限定字符串在第二个冒号之后同一种类型的限定字符串之间用逗号间隔 asm语句中出现的第一个限定字符串用于描述占位符 0 第二个用于描述占位符 1 以此类推不管该限定字符串的类型如果指令序列中没有任何输出操作数那么在语句中出现的第一个限定字符串该字符串用于描述输入操作数之前应该有两个冒号这样编译器就知道指令中没有输出操作数指令中的输出操作数对应的C语言变量应该具有左值类型当然对于输出操作数没有这种左值限制输出操作数必须是只写的也就是说 asm对取出某个操作数执行一定计算以后再将结果存回该操作数这种类型的汇编指令的支持不是直接的而必须通过特定的格式的说明如果汇编指令中包含了一个输入输出类型的操作数那么在模板中必须用两个占位符对该操作数的不同功能进行引用一个负责输入另一个负责输出例如 asm addl 2 0 r foo 0 foo g bar 在上面这条指令中 0 是一个输入输出类型的操作数 r foo 用于限定其输出功能该指令的输出结果会存放到C语言变量foo中指令中没有显式的出现 1 操作数但是针对它有一个限定字符串 0 foo 事实上指令中隐式的 1 操作数用于描述 0 操作数的输入功能它的限定字符串中的 0 限定了 1 操作数与 0 具有相同的地址可以这样理解上述指令中的模板该指令将 1 和 2 中的值相加计算结果存放回 0 中指令中的 1 与 0 具有相同的地址注意用于描述 1 的 0 限定字符足以保证 1 与 0 具有相同的地址但是如果用下面的指令完成这种输入输出操作就不会正常工作 asm addl 2 0 r foo r foo g bar 虽然该指令中 0 和 1 同样引用了C语言变量foo 但是gcc并不保证在生成的汇编程序中它们具有相同的地址还有一些汇编指令可能会改变某些寄存器的值相应的汇编指令模板中必须将这种情况通知编译器所以在模板中还有第三种类型的限定字符串它们跟在输入操作数限定字符串的后面之间用冒号间隔这些字符串是某些寄存器的名称代表该指令会改变这些寄存器中的内容在内嵌的汇编指令中可能会直接引用某些硬件寄存器我们已经知道AT 或者 n 隔开操作数限定字符操作数限定字符串中利用规定的限定字符来描述相应的操作数一些常用的限定字符有还有一些没有涉及的限定字符参见gcc info 1 m 操作数是内存变量 2 o 操作数是内存变量但它的寻址方式必须是偏移量类型的也就是基址寻址或者基址加变址寻址 3 V 操作数是内存变量其寻址方式非偏移量类型 4 操作数是内存变量其地址自动增量 5 r 操作数是通用寄存器 6 i 操作数是立即操作数其值可在汇编时确定 7 n 操作数是立即操作数有些系统不支持除字双字节以外的立即操作数这些操作数要用 n 而不是 i 来描述 8 g 操作数可以是立即数内存变量或者寄存器只要寄存器属于通用寄存器 9 X 操作数允许是任何类型 10 0 1 9 操作数与某个指定的操作数匹配也就是说该操作数就是指定的那个操作数例如如果用 0 来描述 1 操作数那么 1 引用的其实就是 0 操作数 11 p 操作数是一个合法的内存地址指针 12 操作数在指令中是只写的输出操作数 13 操作数在指令中是读写类型的输入输出操作数 14 a 寄存器EAX 15 b 寄存器EBX 16 c 寄存器ECX 17 d 寄存器EDX 18 q 寄存器 a b c 或者 d 19 A 寄存器 a 或者 d 20 a 寄存器EAX 21 f 浮点数寄存器 22 t 第一个浮点数寄存器 23 u 第二个浮点数寄存器 24 D 寄存器di 25 S 寄存器si 26 I 0 31之间的立即数用于32位的移位指令 27 J 0 63之间的立即数用于64位的移位指令 28 N 0 255之间的立即数用于 out 指令 29 G 标准的80387浮点常数一汇编语言与高级语言的比较汇编语言与高级语言混合编程二嵌入式汇编许多高级语言中包含了嵌入式汇编程序允许在高级语言源程序内插入用汇编写的个别语句序列 1McrosoftC6 0允许在C语言程序中使用 asm修饰符嵌入汇编语言语句其格式为单行汇编格式 asm汇编语言指令这里 asm指明本行内的后续部分为嵌入式汇编语言语句多行汇编格式 asm 汇编语言语句序列这里 asm指明其后大括号内的每一行都是嵌入式汇编语言语句 2Borland公司的TurboC提供了直接插入汇编指令其格式为 asm汇编指令或换行符例1 if i 0 asmmoval 4elsei 7 三库的使用库文件可分为两种一种是文本形式的汇编语言源程序库另一种是二进制形式的目标文件库对库文件的引用使用以下伪指令 INCLUDE库文件名引用汇编语言源程序库INCLUDELIB库文件名引用二进制形式的目标文件库四汇编语言与C语言的接口在汇编语言与高级语言混合编程时必须遵从一系列的接口约定 1 符号的定义和说明字母的大小写对字母的大小写C语言敏感而汇编语言不敏感许多汇编程序的版本允许使用汇编开关通知汇编程序以大小写敏感的方式进行汇编下划线C语言产生的目标文件自动为每个标识符加入下划线作为前缀所以汇编程序中引用C语言的符号时应在符号名前增加一个下划线而在汇编中定义需要由C语言引用的符号时也要在符号名前加一个下划线例2 在C语言中定义如下变量intnumber则在汇编程序中需要用带有下划线的该变量 mov number ax 2 全局符号的定义和说明 C语言中符号的定义和说明按C语言版本的规定汇编语言中符号的定义和说明如果C语言中使用汇编中的变量或函数则在汇编中使用PUBLIC或EXTERNDEF伪指令说明变量名或函数名具有公共属性反之在汇编中使用C中定义的变量或函数应在汇编中使用EXTERNDEF或EXTERN伪指令说明 3 段和内存模式由于高级语言中段是由编译程序自动生成段结构因此在混合编程中应使汇编程序遵从高级语言的段约定 4 寄存器的约定在混合编程中 CPU内部的寄存器也是公共资源所以在互相调用时要注意如何使用和保护CPU寄存器的问题 5 参数的传递C语言中执行函数调用时函数的入口参数是通过堆栈传递的参数类型 C语言参数类型见下表 80 x86的堆栈是以字为的单位的故相应的类型入栈时都要转换成相应的16位数据类型函数的调用规则C语言的压栈顺序是按从右到左的顺序将参数依次入栈对调用者和被调用者而言当调用返回时由压入参数的调用者负责将堆栈中的参数废弃例3 在C语言中定义如下的函数 voidtest chara int b charc 并给出下面调用 test i 在本例中数组k作为参

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算机汇编语言.ppt

文档简介

温馨提示

最新文档

评论

计算机 汇编语言.ppt

文档简介

温馨提示

最新文档

评论

相关文档

计算机汇编语言.ppt