版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,1,MATLAB程式設計:進階篇通用運算式,張智星(RogerJang)/jang台大資工系多媒體檢索實驗室,.,2,基本介紹:UNIX淵源,早期的電腦作業系統(例如UNIX系統)都是以文字為介面,因此對於文字的處理與運算也就有一套特別精心規劃的方式,其中最為人所津津樂道的產出,就是通用運算式(RegularExpressions)的制訂和其廣泛的應用。通用運算式最早出現在UNIX的文字編輯程式,例如ed、vi、emacs,也常被用在以UNIX為基礎的程式語言,例如Perl等。近年來在Web上使用的JavaScript以及VBSc
2、ript也加入了通用運算式的功能。,.,3,基本介紹:通用性,如果照字面來翻譯,RegularExpressions應該是翻成正規運算式,但我們採取的中文名稱是通用運算式或簡稱通用式,強調此方法能由簡單的符號來代表複雜的字串的特性在本章所學習到的通用運算式,幾乎可以原封不動地搬到其他程式語言來使用,例如JavaScript、C、Python、Perl、VBScript等等。MATLAB6.x的通用運算式並不支援中文,但在7.x已經可以完全支援中文了!,.,4,基本介紹:終極目標,你已經在用通用式的概念了!看看你常用到的萬用符號(Wildcardscharacters):dir*.txtdird
3、ata?.txt終極目標用簡單的符號來代表複雜的字串,以便進行特定字串的比對、抽取及代換,.,5,使用regexp指令比對字串,可找出某一個特定型態的字串在另一個字串的出現位置。例如,如果要找出love在一個字串Lovemetender,lovemesweet,neverletmego出現的位置,可用下列程式碼:範例4-1:regExp01.m回傳結果為:startIndex=17代表love在string變數所出現的位置是17。,基本用法:尋找字串開始位置,string=Lovemetender,lovemesweet,neverletmego;pattern=love;startIndex
4、=regexp(string,pattern),.,6,基本用法:大小寫均可,若要進行大小寫均可(IgnoreCases)的比對,則可以使用regexpi指令:範例4-2:regExp02.m回傳結果為:startIndex=117代表Love和love在string變數所出現的位置分別是1和17。,string=Lovemetender,lovemesweet,neverletmego;pattern=love;startIndex=regexpi(string,pattern),.,7,基本用法:字串開始和結束位置,若要找出字串出現的開始和結束位置,可以在使用regexp時,多加一個輸出變
5、數:範例4-3:regExp03.m回傳結果為:start=62242finish=72343其中start和finish代表所比對到的三個me的開始和結束位置。,string=Lovemetender,lovemesweet,neverletmego;pattern=me;start,finish=regexp(string,pattern),.,8,方括弧:列舉欲比對字元,我們可以使用方括弧()來列舉所要比對的字元,可見下列範例:範例4-4:regExp10.m,string=Ibetthereisabatontheboat;pattern=baeiout;start,finish=reg
6、exp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)%列印出比對結果fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings:1:bet2:bat,.,9,方括弧:使用範圍符號,若是連續字母或數字,就可以使用範圍符號-來簡化方括弧中的列舉字元。例如,數字0到9,可以寫成0123456789,或是簡化寫成0-9。26個小寫英文字母可以簡化寫成a-z。26個大寫英文字母可以簡化寫成A-Z。英文字母:a-zA-Z數字或英文字母:0
7、-9a-zA-Z,.,10,方括弧:數字範圍,例如若要比對西元年份,可見下列範例:範例4-5:regExp11.m,string=Mybrotherandmewerebornin1965and1962,respectively.;pattern=0-90-90-90-9;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)%列印出比對結果fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings
8、:1:19652:1962,.,11,向量化的輸入和輸出,事實上,regexp指令也可以接收向量化的輸入,並產生向量化的輸出,例如:範例4-6:regExp07.m,string=Barcelona,Y2K,MATLAB7.3;pattern=lona,0-9,A-Z;start,finish=regexp(string,pattern),start=621x6doublefinish=921x6double其中start和finish都是1x3的異值陣列,而且starti和finishi就是regexp(stringi,patterni)所得到的結果。,.,12,方括弧:範例列表,有關方括弧
9、的使用,列表整理如下:,像不像表情符號?,.,13,特定字元:列表,有些通用式會常被用到,因此已被定義為特定字元,以簡化整體通用式,這些字元列表說明如下:,若是針對中文,可以加上全型空白。,.,14,特定字元:比對數字,我們可以用d來比對由0到9的數字,並用D來比對非數字。假設我們要找出兩個非數字夾一個數字的子字串,可使用DdD。範例4-7:regExp04.m,string=Someterms:RU486,Y2K,900GHz,B2B,B2C;pattern=DdD;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n
10、);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings:1:Y2K2:B2B3:B2C,.,15,特定字元:句點的使用,我們也可以抓出來兩個t中間夾4個任意字元的子字串,請見下例範例:範例4-8:regExp13.m,string=Ilikethetidbitgivenbytimit;pattern=t.t;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(
11、start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings:1:tidbit2:timit,.,16,定位符號:句首和句尾,在通用式裡,最常用的定位符號就是和$,其中代表一個字串的開始位置,因此xy代表以xy開始的字串;而$代表一個字串的結束位置,因此xy$代表以xy結束的字串。範例4-9:regExp14.m,str1=Chapter5ismyfavorite;str2=IlikeChapter2;pat=Chapter;fprintf(regexp(%s,%s)=%dn,str1,pat,reg
12、exp(str1,pat);fprintf(regexp(%s,%s)=%dn,str2,pat,regexp(str2,pat);,回傳結果為:regexp(Chapter1ismyfavorite,Chapter)=1regexp(IlikeChapter1,Chapter)=,.,17,定位符號:列表,以下是對於定位符號的列表與整理:,.,18,字串的重複:範例列表,我們也可定義字元的重複次數,整理如下:,.,19,字串的重複:基本範例,使用上表與字元重複次數相關的特殊符號,我們可以從字串IlikeChapter2,Chapter10,andChapter25ofthisbook!抓出C
13、hapter2、Chapter10,以及Chapter25範例4-10:regExp08.m,string=IlikeChapter2,Chapter10,andChapter25ofthisbook!;pattern=Chapter1-90-9?;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings:1:Chapter22:Chapte
14、r103:Chapter25,.,20,字串的重複:信用卡號碼,若要抓出信用卡號碼,可見下列範例:範例4-11:regExp12.m,string=Mycreditnumberis1234-5678-9012-3456.;pattern=d4-d4-d4-d4;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,Matchedsubstrings:1:1234-5678-9012-3
15、456,.,21,字串的重複:身份證字號,如果要比對身份證字號,可用下列範例:範例4-12:regExp05.m事實上,身份證字號本身就有內在的編碼規則,這些規則和使用者的性別有關,還包含一個檢查碼,並非簡簡單單地由一個英文字母加上九個數字所構成。,string=MyIdnumberisF123765431;pattern=A-Zd9;start=regexp(string,pattern),start=17,.,22,字串的重複:特定樣式比對,若要在一個字串中,找出在b與t中間夾二或三個母音的子字串,可見下列範例:範例4-13:regExp09.m,string=btbatbetbanbit
16、boatbeetberpboaetbaeiout;pattern=baeiou2,3t;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,Matchedsubstrings:1:boat2:beet3:boaet,.,23,字串的重複:小括弧的使用,我們也可以利用小刮號,進行重複字串的比對:範例4-14:regExp18.m,string=Twocards:1234-5678-90
17、12-3456and0987-6543-2109-8765;pattern=(d4-)3d4;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,Matchedsubstrings:1:1234-5678-9012-34562:0987-6543-2109-8765,.,24,字串的重複:比對原則,在通用式所採用的比對原則是最大比對(MaximalMatch)或是貪心比對(Greed
18、yMatch),因此會盡量貪到越多的字元越好,若使用通用式foo.*bar來比對字串Thefoodisunderthebarinthebarn.,所比對到的是長字串foodisunderthebarinthebar,而不是另一個符合比對標準的短字串foodisunderthebar。若要使通用式進行極小比對(MinimalMatch),也就是在符合比對的條件下,選擇最短的字串,那麼就要在星號之後加上問號。,.,25,字串的重複:最大與最小比對,最大比對與最小比對的範例:範例4-15:regExp19.m,string=Thefoodisunderthebarinthebarn.;pattern
19、1=foo.*bar;start,finish=regexp(string,pattern1);fprintf(tGreedymatch:%sn,string(start:finish);pattern2=foo.*?bar;start,finish=regexp(string,pattern2);fprintf(tMinimalmatch:%sn,string(start:finish);,Greedymatch:foodisunderthebarinthebarMinimalmatch:foodisunderthebar,.,26,字串的重複:問號的意義,請注意,問號在通用式的意義是和內文
20、相關(ContextDependent)的,可以分兩類情況來說明:如果問號接在一般字元之後,代表比對前一個字元零次或一次。如果問號接在星號或加號之後,代表極小比對。,.,27,OpenQuestion,如何在使用通用運算式時,一次找到所有可能的比對成功的子字串?,.,28,選項的使用:或的使用,如果同時比對數個通用式,可使用|來他們串起來,而達到或(OR)的邏輯運算效果。如,我們可同時比對信用卡號碼、身份證字號、電話號碼。範例4-16:regExp16.m,string=1234-5678-9012-3456andA123456789and5715131;pattern=d4-d4-d4-d4
21、|A-Zd9|d7;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,回傳結果為:Matchedsubstrings:1:1234-5678-9012-34562:A1234567893:5715131,.,29,小括弧用於或,若是要進行OR運算的通用式有共通的部分,我們就需要使用小括弧來進行更明確的規範,例如下列範例,可以同時比對Chapter和Section,以及後續的數字:範
22、例4-17:regExp17.m,string=IlikeChapter12,particularlySection4!;pattern=(Chapter|Section)1-9d?;start,finish=regexp(string,pattern);fprintf(Matchedsubstrings:n);fori=1:length(start)fprintf(t%d:%sn,i,string(start(i):finish(i);end,Matchedsubstrings:1:Chapter122:Section4,.,30,小括弧:回傳比對符合的字串,小括弧還有一個重要的功能,就是可
23、以將對應於小括弧的子字串傳回來,非常適用於特定子字串的抽取。範例4-18:regExp20.m,string=Ibetthereisabatontheboat;pattern=b(w*)t;start,finish,token=regexp(string,pattern);fprintf(Thereare%dmatchedsubstrings:n,length(start);fori=1:length(start)fprintf(t%d:matched=%s,token=%sn,i,string(start(i):finish(i),string(tokeni(1):tokeni(2);end
24、,回傳結果為:Thereare3matchedsubstrings:1:matched=bet,token=e“2:matched=bat,token=a3:matched=boat,token=oa在上例中,token就是由b和t所夾的字串。,.,31,小括弧:抽取網頁連結,我們可以利用小括弧抽取字串功能來抽取網頁的連結網址和連結文字,這在網頁搜尋引擎的製作上,是一個很重要的步驟,因為網頁蒐集程式(又稱為Robot或Crawler)將網頁抓回來後,就是根據網頁內的連結網址,來決定下次要蒐集的網頁,如此依次(可根據Depth-firstSearch或Breadth-firstSearch)反覆
25、蒐集,就可以抓到很多網頁。使用類似的方法,也可以抽取網頁中的電子郵件帳號,燒成DM電郵光碟牟利!,.,32,網頁範例,網頁範例:regExp.htm,Listofimportantlinks:MathWorks.:RogerJang.:Google.,.,33,小括弧:抽取連結的範例,利用regexp指令所傳回來的第三個輸出變數,我們可以輕易地抓出此網頁的連結網址和連結文字:範例4-20:linkExtraction.m,string=fileread(regExp.htm);pattern=(.*?);start,finish,token=regexp(string,pattern);fpr
26、intf(由檔案%s抽取出%d個連結::n,fileName,length(start);fori=1:length(start)fprintf(t%d:連結文字:%s,連結網址:%sn,i,string(tokeni(2,1):tokeni(2,2),string(tokeni(1,1):tokeni(1,2);end,由檔案regExp.htm抽取出3個連結::1:連結文字:MathWorks,連結網址:2:連結文字:RogerJang,連結網址:/jang3:連結文字:Google,連結網址:,.,34,字串的代換:基本範例,利用通用式來進行字串的代換,主要的指令是regexprep。如,若要將所有b和t中間至少夾一個母音的字串代換為xxx。範例4-21:regExpRep01.m,str=Ibetthereisabatintheboat!;pat=baeiou+t;newStr=regexprep(str,pat,xxx);fprintf(%sn,newStr);,回傳結果為:Ixxxthereisaxxxinthexxx!,.,35,字串的代換:壓縮空白,我們可將一列字串中,連續
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆市江津第四中学2026年初三第三次教学质量检测试题英语试题试卷含解析
- 婴幼儿过敏性疾病预防健康教育专家共识
- 土地分成合同
- 2026年联合种植合同(1篇)
- 企业合同管理审计规范及实操指南
- 2026年企业危化品物流安全管理实践与案例分析
- 2026年基于错题资源的小学数学教学研究
- 2026年社会心理服务(危机干预)数字化平台探索
- 讲课网络教研区片集备《识字七》教学设计
- 皮肤科湿疹患者日常护理培训
- 制药厂绩效考核制度
- 2025-2030中国成像流式细胞仪市场行情走势与投资前景研究研究报告
- 2026年及未来5年市场数据中国植物照明行业发展潜力预测及投资策略研究报告
- 2026江苏徐州地铁集团下属运营公司招聘笔试备考试题及答案解析
- 医疗器械生产质量管理规范自查表(2026版)
- 第一单元《1.多彩的亚洲美术》课件-浙人美版初中美术七年级下册
- CIF贸易术语CIF术语价格构成
- 城市的辐射功能课件高中地理人教版(2019)选择性必修2
- 营养风险筛查评估表
- 《土工试验规程》(SL237999)土力学简版
- 调试手册模板
评论
0/150
提交评论