




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 計算語言學概論 Ch4詞法分析楊允言 2 4 1概論 音節 語詞 語句語詞是 i無意義 聲音k u有意義 語音 關鍵過渡語言學對詞 定義 會t ng獨立運用 有意義 siong細 語法單位 3 4 1概論 2 漢字 例簡體字 后 對應繁體字 後面 皇后 若是ti字 基礎轉換有困難 ti詞 基礎做轉換to有可能文字校對系統 羅馬子 字 拼音 輸入法 于 干 涉 字形 輸入法 利用詞 基礎來檢查 chiah檢查會出來語詞檢索 人為 若是語料庫無經過斷詞處理 有可能會chhe出 以人為本 人為按怎beh活leh 等無適合 例句 4 4 1概論 3 詞法分析第一個任務 i話句內底ka詞chhe出來 tokenization 若有需要 koh分析組成這個詞 語素成分 lemmatization morphologicalanalysis 詞法分析第二個任務做PartofSpeechiah是WordSenseTagging這句話 三個翻譯 n l ng翻譯 v 了t ng t n去 5 4 1概論 4 詞法分析 困難點理論上詞 定義 詞 意思beh按怎確認 實作上Beh按怎真緊ka詞chhe出來 斷詞beh按怎做disambiguity 詞類beh按怎做disambiguity 6 4 2詞 判別 英文 詞 Tokenization WhiteSpace 標點隔開有 詞用標點隔開eg I ll can t 有 縮寫詞有句點eg U S 有 詞有非字母eg AT T Micro oft 數字eg 123 456 789 23 5 2005 12 21 會s i用Regularexpression表示 用FiniteStateMachine處理 7 4 2詞 判別 2 英文 詞形分析 Lemmatization Prefix WordStem 詞根 Suffix Inflection 型態變化 egpossible impossible impossiblyhappy happinesslady ladiescheck checkedmake makerstrong strongest 8 4 2詞 判別 3 台文 tokenization 做WordSegmentation漢羅台文 需要先切做一個一個 音節 全漢字to無需要 查辭典 用siong大比對 MaximalMatching eg 台語文 計算 語言學 是 三 學分 課問題 ambiguityeg 看台語故事 X 看台 語 故事 O 看 台語 故事 BackwardMaximalMatchthang解決 9 4 2詞 判別 4 台文 例eg 真正常用 O 真正 常用 O 真 正常 用 華文 例eg 結合成分子時 FMM BMM X 結合 成分 子時 O 結合 成 分子 時 10 4 2詞 判別 5 Ambiguity分兩種交chhap型AmbiguityABC AB C A BCeg野球場 野球 場 野 球場 組合型AmbiguityAB AB A Beg個人 我 個人 三 個 人 組合型Ambiguity無法度用siong大比對解決 11 4 2詞 判別 6 利用規則來解決組合型Ambiguityif IsNumber LeftWord 個人 then 個 人 else 個人 利用MM Feedback來解決交chhap型Ambiguity學歷史智識 FMM 學歷 史 辭典無 智識 學 歷史 智識 12 4 2詞 判別 7 Siong大機率分詞 統計方法 針對交chhap型Ambiguity eg 0看1台2語3故4事5FMM看台 語 故事0 2 3 5BMM看 台語 故事0 1 3 5查詞頻資料看台90 0002 語2 7870 0688 看14 5660 3595 台語5 5490 1370 P 看台 P 語 P 看 P 台語 選BMM 結果 13 4 2詞 判別 8 演算法將無k ng分詞結果排序w1 w2 wn i辭典查出P wi 並且紀錄倒p ng相 a 詞 LAW P wi P wi 1 P wi 比較得著siong好 LAW BLAW 一直算k uP wn wn開始 i正p ngk u倒p ng將BLAW印出來 to是結果 14 4 2詞 判別 9 eg 0 1 看 0 2 看台 1 3 台語 2 3 語 3 5 故事 P 看 P 看 無LAWP 看台 P 看台 無LAWP 台語 P 看 P 台語 台語 BLAW是 看 P 語 P 看台 P 語 語 BLAW是 看台 P 台語 P 語 故事 是siong尾詞 結束 故事 BLAW是 台語 台語 BLAW是 看 看 台語 故事 15 4 2詞 判別 10 Siong大機率分詞演算法無法度處理組合型Ambiguityeg 華語 例 P 才能 P 才 P 能 X 做完 作業 才能 看 電視交chhap型Ambiguity若t 著詞頻特別k an 詞ma有可能出chh eg 華語 例 X 這 事 的 確定 不 下來 O 這 事 的確 定 不 下來 16 4 2詞 判別 11 其它 問題 辭典無收 詞 定量詞eg三張紙 二十五個人 定量詞若無處理 會影響台語變調結果複合詞問題eg國中小 上下班 Prefix Suffixeg正確性 相關性 重thah詞eg歡歡喜喜 輕輕鬆鬆 人名 地名eg陳水扁 舞鶴 組織名 商品名eg台大資訊系 可口可樂 新名詞 簡省詞egE世代 A菜 資工 術語 Term 17 4 3詞性標注 前提 斷詞愛正確詞類 Sequencema有可能倒頭來檢查斷詞 正確性英文 雖然語詞有型態變化 詞類kang款有Ambiguityeg Time n vflies v nlike p van detarrow n p preposition 介詞 det 冠詞 18 4 3詞性標注 2 華文 例eg 把 q p v n這 r篇 q報導 v n編輯 v n一 m c下 f q vr 代名詞q 量詞m 數詞c 連詞f 方位詞UnknownWordma愛去ioh伊 詞類詞性有Ambiguity 詞 叫做兼類詞 伊 詞性 數量叫做兼類數 19 4 3詞性標注 3 中國 統計 兼類詞所佔 比例兼類數兼類詞數百分比舉例530 01 和c n p q v4200 04 光a d n v31260 23 画n q v21 4752 67 鎖n v 20 4 3詞性標注 4 中國 統計 兼兩類 兼類詞兼類詞數 例詞n v61342 愛好把握報導a n745 本分標準典型a v21715 安慰保守抽象b d1037 長期成批初步n q644 筆刀口a d302 大老真L ng總1 10175 21 4 3詞性標注 5 華語兼類詞Wordtypes 角度 兼類詞比例真chi Wordtokens 角度 兼類詞比例真k an 詞頻k an 詞兼類 比例真k an 大部分兼類詞所兼 詞類是頻率k an 主要詞類 22 4 3詞性標注 6 HMM HiddenMarkovModel 詞性標注背景說明eg 把 q p v n這 r篇 q報導 v n編輯 v n一 m c下 f q v所有可能 詞類Sequence有4 1 1 2 2 2 3 96種情形統計方法to是chhe出Sequence內底機率siongk an hit個Sequcene 23 4 3詞性標注 7 HMM S V A B S 1 2 3 N 是一組狀態 集合 詞類數 V v1 v2 vm 是一組會t ng觀察 符號 集合 語詞 A aij nn aij P qt 1 j qt i 1 i j N 目前詞類是i 情形下 下一個詞類是j 機率 B bj k bj k P vk j 1 k M 1 j N 是開始狀態 機率分佈 24 4 3詞性標注 8 詞類Sequenceto是HMM內底am kh m 狀態Sequence ma是咱beh算 詞串是會t ng觀察 符號詞類集是確定 HMM狀態數是確定 每一個詞類所對應 詞是確定 倒頭講 辭典內底每一個詞有至少一個詞類 25 4 3詞性標注 9 已經有HMM 參數 透過訓練資料算出來 ho 你WordSequenceW w1w2w3 beh算T t1t2t3 T有幾lo個 behchhesiong好 T T argmaxP T W P T W P T W P W 因為所有 情形 l ngkang款 會s i簡省掉 26 4 3詞性標注 10 根據Bayes定理 P T W P T W P W P T P W T P W 對所有 標記結果 P W l ngkang款 會s i簡省掉T argmaxP T W argmaxP T P W T 27 4 3詞性標注 11 P T P t1 t0 P t2 t1 t0 P ti ti 1 ti 2 假設詞類標記kan na受頭前一個標記 影響P T P t1 t0 P t2 t1 P ti ti 1 P ti ti 1 Freq ti 1ti Freq ti 1 28 4 3詞性標注 12 P W T P w1 t1 P w2 t2 t1 w2 w1 P wi ti ti 1 t1 wi wi 1 w1 Kang款 假設 kan nakah頭前一個有關係P W T P w1 t1 P w2 t2 P wi ti P wi ti Freq wi標記作ti Freq ti Siongb i 情形 m個詞 每一個詞l ng有n個詞類 O nm 29 4 3詞性標注 13 Viterbi 利用動態規劃 觀念假設每一個詞l ng有n個詞類標記 wmk uwm 1 j th標記 有n個可能 路徑 假設機率siongk an 是titj這個路徑 iwm 每一個詞類標記k uwm 1 每一個詞類標記移轉 機率 記做aijaij P tj ti 1 i j N 30 4 3詞性標注 14 w1頭前無詞 w1 每一個詞類ma符合一定 機率分佈 記做 iwm每一個詞類標記選wm 條件機率記做bi wm bi wm P wm ti 1 i N 31 4 3詞性標注 15 iw1k uwm i th詞類標記各種可能路徑 有一條是機率siong大 用一個變量 variant 來記錄 叫做Viterbi變量 記做 m i m i maxt1 t2 tm 1 P t1 t2 tm i w1 w2 wm 1 m M 1 i N 32 4 3詞性標注 16 HMM iwm移轉k uwm 1 kui個路徑 機率 會t ng iHMMti前一個狀態 wm 時siong大 機率算出來 意思to是 Viterbi變量會t ngrecurrsive計算 m 1 j max1 i N m i aij bj wm 1 1 m M 1 j N 33 4 3詞性標注 17 iwm移轉k uwm 1 需要一個變量紀錄行過 路徑內底 t 一個是siong好 路徑 記錄這個路徑siong好 詞類標記 記做 m i m i argmax1 j N m 1 j aji bi wm 2 m M 1 i N 34 4 3詞性標注 18 Viterbi演算法 1 i ibi w1 1 i N 1 i 0Recursively計算行向每一個詞wm 每一個詞類標記ti siong好 路徑 m i max1 j N m 1 j aij bi wm 1 2 m M 1 j N m i argmax1 j N m 1 j aji bi wm 2 m M 1 i N 35 4 3詞性標注 19 Viterbi演算法 K usiong尾一個詞wM 計算wM siong好 詞類標記P max1 i N M i tM argmax1 i N M i 36 4 3詞性標注 20 Viterbi演算法 isiong尾一個詞siong好 詞類標記開始 倒退chhe每一個詞siong好 詞類標記tm m 1 tm 1 m M 1 M 2 1O N2 M N個詞類 M個詞 37 4 3詞性標注 21 利用Span 概念增加效率 假使其中一個詞kan na一個詞類 to會t ng減少詞串 長度UnknownWord主要是名詞 siongchoe kah動詞 會s ika當做是兼類詞 n v 落去算 38 4 3詞性標注 22 機器學習規則 詞類標記方法M是用人工chhe規則 是用機器chhe出修改 規則轉換規則 形式改寫規則 rewritingrule eg 將v改做n激發環境 triggeringenvironment eg 這個詞倒p ng 詞是量詞 koh倒p ng 詞是數詞 39 4 3詞性標注 23 eg 伊 pro寫 v一 m篇 q報告 v利用頂面 規則改做伊 pro寫 v一 m篇 q報告 v轉換規則模版 激發環境 部分目前這個詞 頭前 後壁 一個詞 詞類標記是z目前這個詞 頭前 後壁 第二個詞 詞類標記是z目前這個詞 頭前 後壁 二個詞其中一個 詞類標記是z 40 4 3詞性標注 24 機器學習規則 根據模版去比對 不管用什麼方法 標記結果kah訓練資料無k ng 所在 chhe出幾lo條 轉換規則 tit 一個激發環境下 愛用t 一個改寫規則 Chia 轉換規則 有 真ohchhe出合理 語言學解說一p ikan na用一條規則 規則有順序轉換規則可能有Sideeffect 41 4 3詞性標注 25 機器學習規則 工作流程愛先chh an好詞類標記集kah轉換規則 模版達k u一定規模 標記好詞類 語料庫C0 訓練語料 kah語料庫iah未做標記 版本C0 raw開始 詞類標注器 initialtagger 會s i用HMM Viterbi ma會s i針對兼類詞kan na揀頻率siongk an 42 4 3詞性標注 26 機器學習規則演算法用InitialTagger對C0 raw做標記 得著帶詞類標記 語料C1ThehC1kah訓練語料C0相比較 算出標記錯誤 數量 43 4 3詞性標注 27 機器學習規則演算法照順序 i候選規則內底chhe一條規則Ti i 1 2 每用一條規則對Ci 詞類標注做修改 to會得著一個新 版本Ci 1m m 1 2 ka每一個Ci 1mkahC0做比較 會t ng算出內底詞類標記錯誤 數量 liah錯誤siongchi hit個當做Ci 1 44 4 3詞性標注 28 機器學習規則演算法重複step3 得著一系列 標記語料庫C2k C3l C4m 每一個l ng愛比前一個錯誤khahchi 每一p il ng學著一條改進錯誤siongchoe 轉換規則 一直做k u無法度koh減chi 標記錯誤數量 45 4 3詞性標注 29 eg C0 raw InitialTagger C1 Er 5100 C1 T1 C21 Er 5100 T2 C22 Er 3145 C2 C22 T3 C23 Er 3910 T4 C24 Er 6300 46 4 3詞性標注 30 C2 T1 C31 Er 3310 T2 C32 Er 2210 T3 C33 Er 1231 C3 C33 T4 C34 Er 4255 47 4 3詞性標注 31 C3 T1 C41 Er 1410 T2 C42 Er 1251 T3 C43 Er 1231 T4 C44 Er 1231 C0 raw InitialTagger C1 Er 5100 T2 C2 Er 3145 T3 C3 Er 1231 48 4 4詞義標注 WordSenseTagging Disambiguation WSD Beh處理多義詞 先愛對這個詞 每一個意義做區別技術上 ti具體語境內底 ho 多義詞一個確定 意義 49 4 4詞義標注 2 WSD 基礎資源傳統 語文辭典 每一個entry列出這個語詞無k ng 意思 義類辭典iah是kang義詞辭典標住好義項 語料庫 多義詞 義項l ngkah確定 語境有關係 50 4 4詞義標注 3 WSD可能用 方法Kah訓練語料做比對 統計方法 規則方法利用辭典 百科全書提供 智識Sizeof 詞義 Sizeof 詞類 beh用統計方法做 看起來不止仔困難 51 4 4詞義標注 4 多義詞有兩種詞類無k ngeg編輯 n v 報導 n v 計畫 n vegfly n v book n v time n v plus p a n只要做taggingto會t ng解決kang詞類無kang意義eg材料 n 1 文字材料 2 建築材料 實體 3 一個人是m是適合做某種空kh eg薄 a 1 人kah人 關係 2 形容氣味 3 形容厚度 52 4 4詞義標注 5 Youshallknowawordbythecompanyitkeeps 看伊 伴 知伊 意思 若是按呢 會s i考慮用搭配詞 Collocation 提供 線索 設使一個語詞W有W1kahW2兩個意思 inti實際 語境出現 時 邊a有搭配詞 W1 搭配詞集合C1 W2 搭配詞集合C2 咱會t ng透過C1kahC2 差別 來掌握W1kahW2 差別 53 4 4詞義標注 6 利用MI做WSD1991提出 法文翻做英文egprendre take makeegvouloir want likeFlip Flop演算法 54 4 4詞義標注 7 利用MI做WSD一個多義詞有幾lo個意思T1 T2 Tm 這個多義詞 意思 特徵是V1 V2 Vnchh n採kaT1 T2 Tm分做兩類 記做R R1 R2 maka分做兩類 記做Q Q1 Q2 調整Q 分類 目的behho MI R Q khahk an 55 4 4詞義標注 8 利用MI做WSDMI RQ T Vlog P Ti Vj P Ti P Vj 1 i m 1 j n實驗結果舉例 prendresiong適合 特徵是賓語 受詞 vouloirsiong適合 特徵是時態實驗結果 原來100句有37句正確 變做45句正確 20 56 4 4詞義標注 9 BayesianDiscreminationWSD1992提出 處理英文KahHMMkang方法計算一個多義詞Ati語境C內底 C包含真choe語詞w1 w2 wn 記做w 標記做每一個意思 si 機率P si C siong大 to是這個多義詞beh標記 意思 57 4 4詞義標注 10 BayesianDiscreminationWSDP si C P C si P si P C Behchhesiong大 P si C P C 會s i減省掉 所以 咱behchhesiong大 P C si P si 假設C內底每一個詞w互相無牽連 獨立事件 P C si P w si P w si Freq w si Freq si P si Freq si Freq A 58 4 4詞義標注 11 BayesianDiscreminationWSDMI 方法kan na看一個意思 特徵 BDWSD方法綜合考慮幾lo個特徵實驗結果 對6個英文 多義詞做 正確率有90 duty frug land language position sentence 59 4 4詞義標注 12 利用辭典解說來做WSDeg 英文coneti辭典內底有兩條解說Amassofovule bearingorpollen bearingscalesorbractsintreesofthepinefamilyorincycadsthatarearrangedusuallyonasomewhatelongatedaxis Somethingthatresemblesaconeinshape as acrispcone shapedwaferforholdingicecream 假使cone 前後文出現tree to表示是第一個意思 柴檑 松果 假使出現ice to表示是第二個意思 圓錐 60 4 4詞義標注 13 利用辭典解說來做WSD1986提出一個多義詞有幾lo個義項 S1 S2 Sm 多義詞每一個義項ti辭典內底分別l ng有解說 D1 D2 Dm 每一個解說實際上代表出現ti解說內底 詞 a1 a2 a3 多義詞ti具體 61 4 4詞義標注 14 利用辭典解說來做WSD1986提出一個多義詞有幾lo個義項 S1 S2 Sm 多義詞每一個義項Siti辭典內底分別l ng有解說 D1 D2 Dm 每一個解說Di實際上代表出現ti解說內底 詞 a1 a2 a3 多義詞ti具體 前後文出現 時 前後有一k a詞 W1 W2 W3 chia 詞當做這個多義詞 特徵詞Wj 62 4 4詞義標注 15 利用辭典解說來做WSD每一個特徵詞Wjti辭典ma分別l ng有解說 E1 E2 E3 每一個解說Ewj實際上ma代表一組出現ti解說內底 詞 b1 b2 b3 Beh判斷多義詞是t 一個義項Si to是計算Di Ewj a1 a2 a3 b1 b2 b3 b1 b2 b3 語詞數siongchoehit個Di伊所對應 Sito是多義詞 義項 63 4 4詞義標注 16 利用辭典解說來做WSDeg 英文 pen有兩個意思 一個是筆 一個是 動物 ti u 豬ti u 羊ti u 假使有一句話 Thesheephasbeenpennedforthreedays chia 詞內底 kan nasheep 解說kahpen 其中一個解說有交集 詞Pen有一個解說是 Apenisasmallareawithafencerounditinwhichfarmanimalsarekeptforashorttime sheep 解說是 Asheepisafarmanimalwithathickwoollycoat 所以penti這句話內底 意思是羊ti u 64 4 4詞義標注 17 利用辭典解說來做WSD缺點 辭典 解說khah單純 表達大概 意思 真實語料變化choemakhah複雜正確率kan na50 70 65 4 4詞
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年计算机安全与信息保护能力的综合考试题及答案
- 2025年大数据科学与技术专业研究生入学考试题及答案
- 2025年国际会计资格考试试题及答案
- 物资管理资产管理制度
- 特价蔬菜库存管理制度
- 特殊危险设备管理制度
- 特殊感染器械管理制度
- 特殊时期防疫管理制度
- 特殊编辑权限管理制度
- 特殊销售类型管理制度
- 整村授信工作总结
- 校园防火门与窗的维护保养指导
- 酒店客房成本控制方案
- 医疗设备行业微生物学技术培训
- 心肺复苏后病人的护理查房
- 电力销售公司可行性方案
- 美世-2023-2024年度高端医疗保险行业福利市场实践调研报告
- 履行法定义务纠正违法行为的模板
- 电气工程及其自动化-10KV某中学教学楼配电系统设计
- 办公用房自查表
- 三年级数学上册三位数加减法计算练习500题
评论
0/150
提交评论