




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
编译原理实验一 姓 名:朱彦荣学 号:20132184 专 业:软件工程2 实验题目:词法分析 完成语言:c/c+ 上级系统:vc+6.0 日 期:2015/11/7 词法分析设计题目:手工设计c语言的词法分析器 (可以是c语言的子集)设计内容:处理c语言源程序,过滤掉无用符号,判断源程序中单词的合法性,并分解出正确的单词,以二元组形式存放在文件中。设计目的:了解高级语言单词的分类,了解状态图以及如何表示并识别单词规则,掌握状态图到识别程序的编程。结果要求:课程设计报告。完成日期:第十五周提交报告一 分析要想手工设计词法分析器,实现c语言子集的识别,就要明白什么是词法分析器,它的功能是什么。词法分析是编译程序进行编译时第一个要进行的任务,主要是对源程序进行编译预处理(去除注释、无用的回车换行找到包含的文件等)之后,对整个源程序进行分解,分解成一个个单词,这些单词有且只有五类,分别是标识符、保留字、常数、运算符、界符。以便为下面的语法分析和语义分析做准备。可以说词法分析面向的对象是单个的字符,目的是把它们组成有效的单词(字符串);而语法的分析则是利用词法分析的结果作为输入来分析是否符合语法规则并且进行语法制导下的语义分析,最后产生四元组(中间代码),进行优化(可有可无)之后最终生成目标代码。可见词法分析是所有后续工作的基础,如果这一步出错,比如明明是=却被拆分成和=就会对下文造成不可挽回的影响。因此,在进行词法分析的时候一定要定义好这五种符号的集合。下面是我构造的一个c语言子集。第一类:标识符 letter(letter | digit)* 无穷集第二类:常数 (digit)+ 无穷集第三类:保留字(32)auto break case char const continue default do double else enum extern float for goto if int long register return short signed sizeof static struct switch typedef union unsigned void volatile while第四类:界符 /*、/、 () 等第五类:运算符 、=、=、+、-、*、/、等对所有可数符号进行编码:.,39=,40左移,59右移,上述二元组中左边是单词的符号,右边为其种别码,其中常数和标识符有点特别,因为是无穷集合,因此常数用自身来表示,种别码为99,标识符用标识符符号表的指针表示(当然也可用自身显示,比较容易观察),种别码100。根据上述约定,一旦见到了种别码syn=63,就唯一确定了这个单词。下面是一些变量的约定:/全局变量,保留字表static char reserveword3220 = auto, break, case, char, const, continue,default, do, double, else, enum, extern,float, for, goto, if, int, long,register, return, short, signed, sizeof, static,struct, switch, typedef, union, unsigned, void,volatile, while;/界符运算符表,根据需要可以自行增加static char operatorordelimiter3610= +,-,*,/,=,=,=, !=,;,(,),#,&, &,|,|,%, ,.,?,:,!;static char identifiertbl100050=;/标识符表char resourceproject10000;/输入的源程序存放处,最大可以存放10000个字符。char token20=0;/每次扫描的时候存储已经扫描的结果。int syn=-1;/syn即为种别码,约定$的种别码为0,为整个源程序的结束符号一旦扫描到这个字符代表扫描结束int pproject = 0;/源程序指针,始终指向当前源程序待扫描位置。几个重要函数:/查找保留字,若成功查找,则返回种别码/否则返回-1,代表查找不成功,即为标识符int searchreserve(char reserveword 20, char s)/*判断是否为字母*/bool isletter(char letter)/*判断是否为数字*/bool isdigit(char digit)/*编译预处理,取出无用的字符和注释*/void filterresource(char r,int pproject)/*分析子程序,算法核心*/void scanner(int &syn,char resourceproject,char token,int &pproject)下面说一下整个程序的流程:1. 词法分析程序打开源文件,读取文件内容,直至遇上$文件结束符,然后读取结束。2. 对读取的文件进行预处理,从头到尾进行扫描,去除/和/* */的内容,以及一些无用的、影响程序执行的符号如换行符、回车符、制表符等。但是千万注意不要在这个时候去除空格,因为空格在词法分析中有用,比如说int i=3;这个语句,如果去除空格就变成了“inti=3”,这样就失去了程序的本意,因此不能在这个时候去除空格。3. 选下面就要对源文件从头到尾进行扫描了,从头开始扫描,这个时候扫描程序首先要询问当前的字符是不是空格,若是空格,则继续扫描下一个字符,直至不是空格,然后询问这个字符是不是字母,若是则进行标识符和保留字的识别;若这个字符为数字,则进行数字的判断。否则,依次对这个字符可能的情况进行判断,若是将所有可能都走了一遍还是没有知道它是谁,则认定为错误符号,输出该错误符号,然后结束。每次成功识别了一个单词后,单词都会存在token 中。然后确定这个单词的种别码,最后进行下一个单词的识别。这就是扫描程序进行的工作,可以说这个程序彻底实现了确定有限自动机的某些功能,比如说识别标识符,识别数字等。为了简单起见,这里的数字只是整数。4. 主控程序主要负责对每次识别的种别码syn进行判断,对于不同的单词种别做出不同的反应,如对于标识符则将其插入标识符表中。对于保留字则输出该保留字的种别码和助记符,等等吧。直至遇到syn=0;程序结束。二流程图下面是程序的流程图:三运行与测试比如说,就拿这个源程序的一部分进行测试:运行程序后结果为:同样单词也写入了文件如下:。综上分析,达到了预期的结果。四实验体会 每做一次比较大的实验,都应该写一下实验体会,来加深自己对知识的认识。其实这次的实验,算法部分并不难,只要知道了dfa,这个模块很好写,比较麻烦的就是五种类型的字符个数越多程序就越长。但为了能识别大部分程序,我还是用了比较大的子集,结果花了一下午的功夫才写完,虽然很累吧,但看着这个词法分析器的处理能力,觉得还是值得的。同时也加深了对字符的认识。程序的可读性还算不错。程序没有实现的是对所有复合运算的分离,但原理是相同的,比如“+=“,只需在”+“的逻辑之后向前扫描就行了,因此就没有再加上了。感受最深的是学习编译原理必须要做实验,写程序,这样才会提高自己的动手能力,加深自己对难点的理解,对于以后的求first,follow,fisrtvt,lastvt更是应该如此。五源程序/ lexical_analysis.cpp : 定义控制台应用程序的入口点。/#include stdio.h#include stdlib.h#include string.h#include iostreamusing namespace std;/词法分析程序/首先定义种别码/*第一类:标识符 letter(letter | digit)* 无穷集第二类:常数 (digit)+ 无穷集第三类:保留字(32)auto break case char const continuedefault do double else enum externfloat for goto if int longregister return short signed sizeof staticstruct switch typedef union unsigned voidvolatile while第四类:界符 /*、/、 () 第五类:运算符 、=、=、+、-、*、/、对所有可数符号进行编码:.,39=,40左移,59右移,*/*/全局变量,保留字表static char reserveword3220 = auto, break, case, char, const, continue,default, do, double, else, enum, extern,float, for, goto, if, int, long,register, return, short, signed, sizeof, static,struct, switch, typedef, union, unsigned, void,volatile, while;/界符运算符表,根据需要可以自行增加static char operatorordelimiter3610 = +, -, *, /, , , =, =, =,!=, ;, (, ), , , , , #, &,&, |, |, %, , , , , , , ., ?, :, !;static char identifiertbl100050 = ;/标识符表/*/*查找保留字*/int searchreserve(char reserveword20, char s)for (int i = 0; i = a&letter = a&letter = 0&digit = 9)return true;elsereturn false;/*判断是否为数字*/*编译预处理,取出无用的字符和注释*/void filterresource(char r, int pproject)char tempstring10000;int count = 0;for (int i = 0; i = pproject; i+)if (ri = /&ri + 1 = /)/若为单行注释“/”,则去除注释后面的东西,直至遇到回车换行while (ri != n)i+;/向后扫描if (ri = /&ri + 1 = *)/若为多行注释“/* 。*/”则去除该内容i += 2;while (ri != * | ri + 1 != /)i+;/继续扫描if (ri = $)printf(注释出错,没有找到 */,程序结束!n);exit(0);i += 2;/跨过“*/”if (ri != n&ri != t&ri != v&ri != r)/若出现无用字符,则过滤;否则加载tempstringcount+ = ri;tempstringcount = 0;strcpy(r, tempstring);/产生净化之后的源程序/*编译预处理,取出无用的字符和注释*/*分析子程序,算法核心*/void scanner(int &syn, char resourceproject, char token, int &pproject)/根据dfa的状态转换图设计int i, count = 0;/count用来做token的指示器,收集有用字符char ch;/作为判断使用ch = resourceprojectpproject;while (ch = )/过滤空格,防止程序因识别不了空格而结束pproject+;ch = resourceprojectpproject;for (i = 0; i20; i+)/每次收集前先清零tokeni = 0;if (isletter(resourceprojectpproject)/开头为字母tokencount+ = resourceprojectpproject;/收集pproject+;/下移while (isletter(resourceprojectpproject) | isdigit(resourceprojectpproject)/后跟字母或数字tokencount+ = resourceprojectpproject;/收集pproject+;/下移/多读了一个字符既是下次将要开始的指针位置tokencount = 0;syn = searchreserve(reserveword, token);/查表找到种别码if (syn = -1)/若不是保留字则是标识符syn = 100;/标识符种别码return;else if (isdigit(resourceprojectpproject)/首字符为数字while (isdigit(resourceprojectpproject)/后跟数字tokencount+ = resourceprojectpproject;/收集pproject+;/多读了一个字符既是下次将要开始的指针位置tokencount = 0;syn = 99;/常数种别码else if (ch = + | ch = - | ch = * | ch = / | ch = ; | ch = ( | ch = ) | ch = | ch = , | ch = | ch = | ch = | ch = # | ch = % | ch = | ch = | ch = | ch = | ch = | ch = . | ch = ? | ch = :)/若为运算符或者界符,查表得到结果token0 = resourceprojectpproject;token1 = 0;/形成单字符串for (i = 0; i36; i+)/查运算符界符表if (strcmp(token, operatorordelimiteri) = 0)syn = 33 + i;/获得种别码,使用了一点技巧,使之呈线性映射break;/查到即推出pproject+;/指针下移,为下一扫描做准备return;else if (resourceprojectpproject = )/,=,pproject+;/后移,超前搜索if (resourceprojectpproject = =)syn = 38;else if (resourceprojectpproject = )/,=,pproject+;if (resourceprojectpproject = =)syn = 40;else if (resourceprojectpproject = )syn = 59;elsepproject-;syn = 39;pproject+;return;else if (resourceprojectpproject = =)/=.=pproject+;if (resourceprojectpproject = =)syn = 42;elsepproject-;syn = 41;pproject+;return;else if (resourceprojectpproject = !)/!,!=pproject+;if (resourceprojectpproject = =)syn = 43;elsesyn = 68;pproject-;pproject+;return;else if (resourceprojectpproject = &)/&,&pproject+;if (resourceprojectpproject = &)syn = 53;elsepproject-;syn = 52;pproject+;return;else if (resourceprojectpproject = |)/|,|pproject+;if (resourceprojectpproject = |)syn = 55;elsepproject-;syn = 54;pproject+;return;else if (resourceprojectpproject = $)/结束符syn = 0;/种别码为0else/不能被以上词法分析识别,则出错。printf(error:there is no exist %c n, ch);exit(0);int main()/打开一个文件,读取其中的源程序char resourceproject10000;char token20 = 0 ;int syn = -1, i;/初始化int pproject = 0;/源程序指针file *fp, *fp1;if (fp = fopen(d:zyr_rc.txt, r) = null)/打开源程序cout cant open this file;exit(0);resourceprojectpprojec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 执业药师资格证之《西药学专业一》考前冲刺练习试题附参考答案详解(轻巧夺冠)
- 华中科大传热学课件08传热过程和换热器
- 济宁职业技术学院《风景园林快速设计》2023-2024学年第二学期期末试卷
- 四川体育职业学院《钢琴即兴伴奏1》2023-2024学年第二学期期末试卷
- 营销安全管理试题及答案
- 武汉科技大学《矿山边坡变形监测》2023-2024学年第二学期期末试卷
- 中央美术学院《经济社会学》2023-2024学年第二学期期末试卷
- 南阳理工学院《美术基础与欣赏》2023-2024学年第二学期期末试卷
- 辽宁中医药大学杏林学院《个人理财规划》2023-2024学年第二学期期末试卷
- 咽喉肿瘤分子靶向-洞察及研究
- 抖音直播带货协议书模板
- 变电站-配电房挂轨巡检机器人技术方案
- 高职汽修专业《汽车电气设备维修》说课课件
- 香港(2024年-2025年小学二年级语文)统编版能力评测试卷(含答案)
- 【高校环艺】室内外手绘效果图表现教案
- 《积极心理学(第3版)》 课件 第2章 心理流畅体验
- FURUNO 电子海图 完整题库
- DB50-T 548.4-2024城市道路交通管理设施设置规范第4部分:道路交通安全设施
- 项目股份买断合同范本
- 上海市2023年高中学业水平考试生物试卷真题(含答案详解)
- 校园文印店经营方案
评论
0/150
提交评论