基于LEX的C语言词法分析器

上传人：建*** IP属地：上海上传时间：2022-03-04 格式：DOCX 页数：13 大小：288.29KB 积分：20 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于LEX的C语言词法分析器一、LEX语法简介（一）文件结构Lex文件结构简单，分为三个部分：dclarations/ 声明%translation rules/转换规则%auxiliary procedures/功能函数声明段包括变量的声明、符号常量的声明和正则表达式声明。希望出现在目标C源码中的代码，用%扩在一起。比如：%#include <stdio.h>int lineno = 1;%正则表达式声明的格式为“命名表达式”，比如：digit 0-9+alphabet A-Za-z+whitespace t+功能函数即为正常的C语言代码，遵守C语言代码格式即可。（二）Lex特

2、性简介1Lex依次尝试每一个规则，尽可能地匹配最长的输入流。2如果有一些内容根本不匹配任何规则，那么Lex将把它拷贝到标准输出。二、正则表达式简介在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。在这里，只用到了字符转义、重复、字符类、反义、贪婪与懒惰等较为基础的语法。以下就简单对涉及到的语法进行介绍。（一）字符转义例如，.*在正则表达式中表示匹配所有，因此若要匹配.或*，则需要对其进行转义，即.和*。（二）重复在对数字和标识符等进行匹配时，字符位数不止一位，但遵守相同的规则，因此使用“

3、重复”进行匹配。例如，对数字进行匹配：0-9+，“+”表示至少重复一次，即数字长度至少为1。例如，对标识符进行匹配，由于C语言标识符必须以下划线或字母开头，所以规则为：_|A-Za-z+(_|A-Za-z|0-9)*。“_|A-Za-z+”表示必须以下划线或字母开头，“(_|A-Za-z|0-9)*”表示之后可以跟字母数字下划线，但是也可以不跟，这就是“+”和“*”所表示的“重复”的不同之处。（三）字符类与反义对没有预定义元字符的字符集合，需要在方括号里将其列出，例如，aeiou就是对任何一个英文元音字母的匹配，同理，0-9代表的含义与元字符d完全一致，都是对一位数字进行的匹配。有时需要查找不

4、属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：对于元字符，其反义即为其大写：D，匹配非数字的字符。更为普遍的表达方式如下：aeiou，匹配除了aeiou这几个字母以外的所有字符。（四）贪婪与懒惰与Lex对规则的处理类似，正则表达式也会在匹配整个表达式的前提下，匹配尽可能多的字符，这就是“贪婪”。有时，需要匹配尽可能少的字符，就是“懒惰”匹配，具体的例子如下：a.*?b，由于.*后加了?，表示“懒惰”匹配，因此会匹配最短的，以a开始，以b结束的字符。例如字符串aabab，“贪婪”匹配的结果是aabab，而“懒惰”匹配的结果则是aab。三、词法

5、分类识别这里，将源程序中的字符分为七类。由于字符串对于词法分析以及后续的语法分析的意义不大，因此，这里将其单独列为一类；由于头文件的声明中会出现“<”“>”“”等分隔符，尤其是“<”和“>”，会与运算符中的大于小于号产生冲突，因此这里把头文件也单独列为一类。（一）保留字C语言共有32个保留字，如图：（二）标识符C语言标识符的要求是，必须以下划线或者字母开头，之后可以跟字母、数字、下划线。（三）常数由于常数的表达方式较多，这里只是代表性地选取了几种方式进行识别。（四）操作符C语言操作符包括一元操作符、二元操作符和三元操作符。（五）字符串这里的字符串是指包围在单引号或双引

6、号内的字符串。（六）分隔符这里选取了以下经常见到的分隔符：（七）头文件头文件的格式有一下两种：四、词法识别分类规则（一）常数的识别根据上述对常数识别的需求，构造出了如下正则表达式：0-9+.0-9*|0-9+.0-9*(e|E+|-0-9+)|0x|X(0-9abcdefABCDEF+)这里，为了美观，以“|”为分隔符，对表达式进行了换行处理，每一行对应一个常数类别。第一行，表示对整数和浮点数进行匹配；第二行，先对整数或浮点数进行匹配，之后匹配e或E，最后匹配一个整数，即123.456e+789的形式，即科学计数法；第三行，先匹配数字0，之后匹配字母x或X，最后匹配0-9及a-f或A-F的字符

8、保留字的识别。（三）分隔符的识别由于分隔符中存在与正则表达式中元字符相冲突的字符，如“.”，“”等，因此需要对这些产生冲突的符号进行转义，构造如下正则表达式：,|;|(|)|'|"|<|>（四）标识符的识别根据上述的C语言标识符的要求，构造如下正则表达式：_|A-Za-z+(_|A-Za-z|0-9)*此处涉及正则表达式语法较为简单，不再赘述。（五）操作符的识别由于操作符中，存在大量运算符号与正则表达式的元字符冲突，因此，根据C语言中的三种操作符，构造以下正则表达式：>>=|<<=|+|-|=|>=|<=|!=|&&am

9、p;|<<|>>|+=|-=|*=|/=|%=|&=|=|=|+|-|*|/|%|>|<|!|&|=可以看到表达式中含有大量转义字符，使得原本容易识别的C语言操作符变得难以分辨，但根据“|”连接符的指示，单个单个的分析，还是很容易明白的。（六）其他字符的识别对于空白、换行、注释、头文件等的识别，规则较为简单，这里不再一一举出。五、词法识别分类顺序由于Lex对正则表达式的支持并不完全，因此存在不同表达式匹配同一字符串的现象。这里，为了减少这种现象的发生，降低出错率，对规则的优先级进行了调整，以更好的满足设计需求。这里从两方面进行说明，一是标识符

10、和保留字的识别顺序，二是一、二、三元操作符的识别顺序。（一）标识符和保留字的识别顺序由于标识符的识别规则会同时把保留字当做标识符进行匹配，从而产生错误，因此，需要调换这两条规则的匹配优先级，调整的结果如图所示：这样就能保证，Lex在进行词法分析时，优先将满足保留字匹配规则的字符串匹配出来，从而避免误判。（二）一、二、三元操作符的识别顺序由于C语言中存在多元操作符，因此在对操作符进行匹配的时候，就要考虑到将其完整匹配，而不是将一个多元操作符分为多个一元操作符进行匹配。这里，就需要对正则表达式内匹配规则的顺序进行一个调整，即对位数多的操作符优先进行匹配，具体的做法就是，将其匹配规则提前，如下所示：

11、>>=|<<=|+|-|=|>=|<=|!=|&&|<<|>>|+=|-=|*=|/=|%=|&=|=|=|+|-|*|/|%|>|<|!|&|=这样在对操作符进行匹配时，就能够正确进行匹配，不产生错误和冲突。六、测试代码为了检验该词法分析器是否能实现词法分析，根据功能需求，设计了如下测试代码ori.c：对头文件、两种注释方式、四种类型的数字、一元和三元运算符、字符串、分隔符、标识符、保留字在词法上进行了相关的构造。由于未涉及语义分析，因此，为了便于做词法分析，代码加入了各种类型的语句，但只

12、是形式，不能正常运行。七、结果分析程序运行命令：其中lex.l即为编写的Lex源代码；是上一步flex对lex.l源代码进行处理，生成的文件；用gcc对进行编译，生成可执行二进制文件flex；运行flex，将对ori.c文件进行词法分析。以下为程序分析结果：可以看出，该词法分析器能够正常运行，对程序的词法进行了准确率较高的识别。但是，仍然存在一些问题，比如，对于负数无法进行识别，程序会将负号识别为操作符，这一错误无法通过调整优先级进行改正，需要对正则表达式进行进一步改进。由于减号和负号的适用场合较为复杂，之前尝试着使用正则表达式的“负向零宽断言”语法进行匹配，但发现Lex无法识别该语法，导致无法运行，目前暂时还未

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于LEX的C语言词法分析器

文档简介

温馨提示

最新文档

评论

基于LEX的C语言词法分析器

文档简介

温馨提示

最新文档

评论

相关文档