




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,計算語言學概論,Ch4詞法分析楊允言,2,4.1概論,音節語詞語句語詞是i無意義聲音ku有意義語音關鍵過渡語言學對詞定義:會tng獨立運用,有意義siong細語法單位,3,4.1概論-2,漢字例簡體字后對應繁體字後面、皇后,若是ti字基礎轉換有困難,ti詞基礎做轉換to有可能文字校對系統,羅馬子(字)(拼音輸入法)、于(干)涉(字形輸入法),利用詞基礎來檢查,chiah檢查會出來語詞檢索人為,若是語料庫無經過斷詞處理,有可能會chhe出以人為本、人為按怎beh活leh等無適合例句,4,4.1概論-3,詞法分析第一個任務i話句內底ka詞chhe出來(tokenization)若有需要,koh分析組成這個詞語素成分(lemmatization/morphologicalanalysis)詞法分析第二個任務做PartofSpeechiah是WordSenseTagging這句話三個翻譯(n)lng翻譯(v)了tng-tn去,5,4.1概論-4,詞法分析困難點理論上詞定義?詞意思beh按怎確認?實作上Beh按怎真緊ka詞chhe出來?斷詞beh按怎做disambiguity?詞類beh按怎做disambiguity?,6,4.2詞判別,英文詞(Tokenization)WhiteSpace/標點隔開有詞用標點隔開eg“Ill”“cant”有縮寫詞有句點eg“U.S”有詞有非字母eg“AT1(i)=0Recursively計算行向每一個詞wm每一個詞類標記tisiong好路徑m(i)=max1jNm-1(j)aijbi(wm+1),2mM&1jNm(i)=argmax1jNm-1(j)ajibi(wm),2mM&1iN,35,4.3詞性標注-19,Viterbi演算法:Kusiong尾一個詞wM,計算wMsiong好詞類標記P*=max1iNM(i)tM*=argmax1iNM(i),36,4.3詞性標注-20,Viterbi演算法:isiong尾一個詞siong好詞類標記開始,倒退chhe每一個詞siong好詞類標記tm*=m+1(tm+1*)m=M-1,M-2,1O(N2M)(N個詞類,M個詞),37,4.3詞性標注-21,利用Span概念增加效率:假使其中一個詞kan-na一個詞類,to會tng減少詞串長度UnknownWord主要是名詞(siongchoe)kah動詞,會sika當做是兼類詞(n/v)落去算,38,4.3詞性標注-22,機器學習規則詞類標記方法M是用人工chhe規則,是用機器chhe出修改規則轉換規則形式改寫規則(rewritingrule)eg:將v改做n激發環境(triggeringenvironment)eg:這個詞倒png詞是量詞,koh倒png詞是數詞,39,4.3詞性標注-23,eg:伊/pro寫/v一/m篇/q報告/v利用頂面規則改做伊/pro寫/v一/m篇/q報告/v轉換規則模版,激發環境部分目前這個詞頭前(後壁)一個詞詞類標記是z目前這個詞頭前(後壁)第二個詞詞類標記是z目前這個詞頭前(後壁)二個詞其中一個詞類標記是z,40,4.3詞性標注-24,機器學習規則:根據模版去比對(不管用什麼方法)標記結果kah訓練資料無kng所在,chhe出幾lo條轉換規則(tit一個激發環境下,愛用t一個改寫規則)Chia轉換規則,有真ohchhe出合理語言學解說一pikan-na用一條規則,規則有順序轉換規則可能有Sideeffect,41,4.3詞性標注-25,機器學習規則工作流程愛先chhan好詞類標記集kah轉換規則模版達ku一定規模、標記好詞類語料庫C0(訓練語料),kah語料庫iah未做標記版本C0_raw開始詞類標注器(initialtagger)(會si用HMM/Viterbi,ma會si針對兼類詞kan-na揀頻率siongkan),42,4.3詞性標注-26,機器學習規則演算法用InitialTagger對C0_raw做標記,得著帶詞類標記語料C1ThehC1kah訓練語料C0相比較,算出標記錯誤數量,43,4.3詞性標注-27,機器學習規則演算法照順序i候選規則內底chhe一條規則Ti(i=1,2,),每用一條規則對Ci詞類標注做修改,to會得著一個新版本Ci+1m(m=1,2,),ka每一個Ci+1mkahC0做比較,會tng算出內底詞類標記錯誤數量,liah錯誤siongchihit個當做Ci+1,44,4.3詞性標注-28,機器學習規則演算法重複step3,得著一系列標記語料庫C2k,C3l,C4m,每一個lng愛比前一個錯誤khahchi,每一pilng學著一條改進錯誤siongchoe轉換規則。一直做ku無法度koh減chi標記錯誤數量。,45,4.3詞性標注-29,eg:C0_raw-InitialTaggerC1(Er=5100)C1T1C21(Er=5100)T2C22(Er=3145)C2=C22T3C23(Er=3910)T4C24(Er=6300),46,4.3詞性標注-30,C2T1C31(Er=3310)T2C32(Er=2210)T3C33(Er=1231)C3=C33T4C34(Er=4255),47,4.3詞性標注-31,C3T1C41(Er=1410)T2C42(Er=1251)T3C43(Er=1231)T4C44(Er=1231)C0_raw-InitialTaggerC1(Er=5100)T2C2(Er=3145)T3C3(Er=1231),48,4.4詞義標注,WordSenseTagging/Disambiguation(WSD)Beh處理多義詞,先愛對這個詞每一個意義做區別技術上,ti具體語境內底,ho.多義詞一個確定意義,49,4.4詞義標注-2,WSD基礎資源傳統語文辭典(每一個entry列出這個語詞無kng意思)義類辭典iah是kang義詞辭典標住好義項語料庫(多義詞義項lngkah確定語境有關係),50,4.4詞義標注-3,WSD可能用方法Kah訓練語料做比對(統計方法)規則方法利用辭典、百科全書提供智識Sizeof(詞義)Sizeof(詞類)(beh用統計方法做,看起來不止仔困難),51,4.4詞義標注-4,多義詞有兩種詞類無kngeg編輯/n-v、報導/n-v、計畫/n-vegfly/n-v,book/n-v,time/n-v,plus/p-a-n只要做taggingto會tng解決kang詞類無kang意義eg材料/n(1)文字材料(2)建築材料(實體)(3)一個人是m是適合做某種空kheg薄/a(1)人kah人關係(2)形容氣味(3)形容厚度,52,4.4詞義標注-5,Youshallknowawordbythecompanyitkeeps(看伊伴,知伊意思)若是按呢,會si考慮用搭配詞(Collocation)提供線索:設使一個語詞W有W1kahW2兩個意思,inti實際語境出現時,邊a有搭配詞,W1搭配詞集合C1,W2搭配詞集合C2,咱會tng透過C1kahC2差別,來掌握W1kahW2差別,53,4.4詞義標注-6,利用MI做WSD1991提出,法文翻做英文egprendretake/makeegvouloirwant/likeFlip-Flop演算法,54,4.4詞義標注-7,利用MI做WSD一個多義詞有幾lo個意思T1,T2,Tm,這個多義詞意思特徵是V1,V2,Vnchhn採kaT1,T2,Tm分做兩類,記做R=R1,R2maka分做兩類,記做Q=Q1,Q2調整Q分類,目的behho.MI(R,Q)khahkan,55,4.4詞義標注-8,利用MI做WSDMI(RQ)=TVlog(P(Ti,Vj)/P(Ti)P(Vj)1im,1jn實驗結果舉例:prendresiong適合特徵是賓語(受詞),vouloirsiong適合特徵是時態實驗結果,原來100句有37句正確,變做45句正確(+20%),56,4.4詞義標注-9,BayesianDiscreminationWSD1992提出,處理英文KahHMMkang方法計算一個多義詞Ati語境C內底(C包含真choe語詞w1,w2,wn,記做w)標記做每一個意思(si)機率P(si|C),siong大to是這個多義詞beh標記意思,57,4.4詞義標注-10,BayesianDiscreminationWSDP(si|C)=P(C|si)P(si)/P(C)Behchhesiong大P(si|C),P(C)會si減省掉,所以,咱behchhesiong大P(C|si)P(si)假設C內底每一個詞w互相無牽連(獨立事件)P(C|si)=P(w|si)P(w|si)=Freq(w|si)/Freq(si)P(si)=Freq(si)/Freq(A),58,4.4詞義標注-11,BayesianDiscreminationWSDMI方法kan-na看一個意思特徵,BDWSD方法綜合考慮幾lo個特徵實驗結果,對6個英文多義詞做,正確率有90%duty,frug,land,language,position,sentence,59,4.4詞義標注-12,利用辭典解說來做WSDeg:英文coneti辭典內底有兩條解說Amassofovule-bearingorpollen-bearingscalesorbractsintreesofthepinefamilyorincycadsthatarearrangedusuallyonasomewhatelongatedaxis.Somethingthatresemblesaconeinshape:asacrispcone-shapedwaferforholdingicecream.假使cone前後文出現tree,to表示是第一個意思(柴檑松果);假使出現ice,to表示是第二個意思(圓錐),60,4.4詞義標注-13,利用辭典解說來做WSD1986提出一個多義詞有幾lo個義項(S1,S2,Sm)多義詞每一個義項ti辭典內底分別lng有解說(D1,D2,Dm),每一個解說實際上代表出現ti解說內底詞a1,a2,a3,多義詞ti具體,61,4.4詞義標注-14,利用辭典解說來做WSD1986提出一個多義詞有幾lo個義項(S1,S2,Sm)多義詞每一個義項Siti辭典內底分別lng有解說(D1,D2,Dm),每一個解說Di實際上代表出現ti解說內底詞a1,a2,a3,多義詞ti具體前後文出現時,前後有一ka詞(W1,W2,W3,),chia詞當做這個多義詞特徵詞Wj,62,4.4詞義標注-15,利用辭典解說來做WSD每一個特徵詞Wjti辭典ma分別lng有解說(E1,E2,E3,),每一個解說Ewj實際上ma代表一組出現ti解說內底詞b1,b2,b3,Beh判斷多義詞是t一個義項Si,to是計算Di(Ewj)a1,a2,a3,(b1,b2,b3,b1,b2,b3,)語詞數siongchoehit個Di伊所對應Sito是多義詞義項,63,4.4詞義標注-16,利用辭典解說來做WSDeg:英文pen有兩個意思,一個是筆,一個是(動物)tiu(豬tiu、羊tiu、)假使有一句話”Thesheephasbeenpennedforthreedays”,chia詞內底,kan-nasheep解說kahpen其中一個解說有交集詞Pen有一個解說是”Apenisasmallareawithafencerounditinwhichfarmanimalsarekeptforashorttime.“,sheep解說是“Asheepisafarmanimalwithathickwoollycoat.”所以penti這句話內底意思是羊tiu,64,4.4詞義標注-17,利用辭典解說來做WSD缺點:辭典解說khah單純,表達大概意思,真實語料變化choemakhah複雜正確率kan-na50%70%,65,4.4詞義標注-18,利用義類辭典做WSDThesaurus-basedWSD1992提出,利用RogetsThesaurus一個多義詞ti義類辭典內底可能屬ti無kng義類。Ti具體語境,確定一個多義詞義類,應該to知影伊是t一個意思,66,4.4詞義標注-19,利用義類辭典做WSDeg英文crane有兩個意思,一個是吊車(義類是工具/機械),另外一個是鶴(義類是動物)。若thang知影crane出現ti具體語境時屬t一個義類,to知影cranetichia意思,67,4.4詞義標注-20,利用義類辭典做WSD對Roget辭典每一個義類(1041個義類)內底所有詞,收集包括chiae詞前後文C(頭前50後壁50個詞),當做訓練語料(1991年電子版Grolier百科全書,規模1千萬詞),68,4.4詞義標注-21,利用義類辭典做WSD對C做統計,chhe出會tng有效標示每一個義類特徵詞(Salientwords)計算chia特徵詞WeightWeight(w)=log(P(w|RCat)/P(w)w:特徵詞,RCat:義類,69,4.4詞義標注-22,利用義類辭典做WSDeg動物類特徵詞species(2.3),family(1.7),bird(2.6),fish(2.4),breed(2.2),animal(1.7),tail(2.7),工具類特徵詞tools(3.7),machine(2.7),engine(2.6),blade(3.8),cut(2.6),saw(5.1),lever(4.1),70,4.4詞義標注-23,利用義類辭典做WSD判斷多義詞義類方法這個多義詞前後文若kan-na會tngchhe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论