




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Corpus Linguistics0961128 洪萱眉中文詞彙網路:跨語言知識處理基礎架構的設計理念與實踐 黃居仁 謝舒凱 洪嘉馡 陳韻竹 蘇依莉 陳永祥 黃勝偉Ø 1 前言 a. 中文詞網小組(Chinese WordNet Group) 結合分析詳盡的中文詞彙詞義資料,與網路科技的技術,初步開發了中文詞彙(Chinese WordNet),以利於提供中文詞彙詞義的相關訊息,也便於從事中文詞彙詞義的研究所需。 b. 在語言內部知識的完整表達上,則是建立在完整的詞義關係系統上,利用類義詞(paranym) 整合對比語意關係為主的詞彙網路與界定語意場的不同分類系統(taxonomy
2、),更以完整標記的跨語言詞義關係作為多語知識系統對應的基礎。Ø 2. 中文詞彙意義的知識檢索研究發展2.1 詞義與義面區分的基礎與應用a. 詞網是以詞義(sense) 與語意關係為人類語言知識表達的基本架構。建構完成的詞彙語意網,一方面可作為語言學研究的素材,另一方面在資訊處理上,可作為自然語言處理以及諸多實際應用的基石。b. 詞網裡有兩項重要的元素:(i) 以詞彙為依據的詞彙分組(即所謂的同義詞集(synset)。(ii) 連繫詞集的語意關係。 2.2 詞義判準原則a. 對某一詞彙在語境中傳達訊息的理解,區分出相同的彙(形)的不同涵義,即稱為意義(meaning);根據適當的標準,
3、判斷初步析分的合理性、進行意義的分合、細分等而得到最後的結果,稱為詞義(sense)。在某些語境下,詞可能會受語境影響而暫時改變意義,但人們是可區分出,而這樣的意義區分,稱為義面(meaning facet),是中文詞網中處理文獻中所謂規則化多義(regular polysemy)的重要創新。b. 詞義判斷標準有五個基本原則:(1)一義一項、(2)一物一義、(3)一事一義、(4)義不隨境遷和(5) 義面由觀點與語境定義。 2.3 詞義描述規範黃居仁等(2003)所提出之詞義區辨原則與操作原作,是中文詞義資料庫建檔與詞義區辨小詞典篇纂的依據。本詞典盡可能提供各詞目(lemma)完整而且正確的訊息
4、,包含標音(漢音拼音和國語注音)、釋義、英文對譯、詞類、例句和附註。Ø 3.中文詞彙知識檢索系統設計 3.1 SSMS系統 (Sinica Sense Management System)a. 為了讓機器讀取並儲存大量的詞彙詞義區的資料,以詞彙知識為基礎,來整合詞彙詞義的訊息,開發了中研究詞彙詞義管理系統(SSMS)。(Huang et,al.,2005)b. 功能: 進行詞彙的查詢、詞義的新增、修改以及例句和WordNet同義詞集的查詢和輪入。3.2 CWN介面 在設計階段,以使用者角度和系統功能發展角度為考量,共同建立起系統架構與操作流程,詳細描述系統範圍內相關之資料結構以及操作
5、步驟,特別設計一套整合式即時查詢的方法(陳 等,2006),提供系統使用者一個整合查詢介面快速查詢及瀏覽有興趣的各個詞義資訊。主要的出發點是對詞彙與語義相關的內容,做廣泛與有效的檢索,同時也藉著檢索的比對,來確保釋義語言及語義區分的一致性及強健性。此外,從2006年開始,中文詞網詞義區分資料庫的成果網路化,以方便提供給使用者直接查詢。因此,目前命名為中文詞彙網路(Chinese WordNet)。3.3 Sense Tagging系統 為了證實已分析的詞義可完整地表現在實際語言上,詞網小組設計出一個超過十一萬詞的大規模中文詞義全文標示語料系統,已經分析過的詞義為基礎,以中研院平衡語料庫為標示對
6、象,從中摘錄56篇完整文章,利用N-Gram與搭配資訊等語言知識,並結合機器學習技巧以及機率模式的方式作為處理自動詞義標示的前置作業工作,最後為達高精確之效果,再將自動產生之標示結果經由人工校訂而成。 a. 由於人工標示需要昂貴的成本,造成語料庫標示語意工作的難產,因此,提出一套自動詞義標示的方法,作為標示詞義的前置作業,再經由專門人士校訂。根據柯等(2007)的研究,自動標示詞義的方法,採用誘導式方法(bootstrap)逐步方寬標示條件,來擴增標式語料。 b. 自動標示詞義可分為兩個階段:(i) N-gram模式:將標示出詞義的資料加入訓練集中,以作為第二階段的訓練語料。而使用N-gram
7、的目的為擴大訓練集和過濾訓練資料集的雜訊。(ii) 搭配:使用搭配資訊來增加標示集數量,搭配資訊是一種很強的語言關係,能決定目標詞彙之詞義。3.4 中英雙語知識本體詞網 (Bilingual Ontological Wordnet, 簡稱BOW)a. 為了追求語言知識架構的豐富性,詞網小組採用建議上層共用知識本體(Suggested Upper Merged Ontology, 簡稱SUMO)為基礎來進行語言知識的對照。 c. Sinica BOW主要使用的資源有: WordNet, ECTEC(English-Chinese Translation Equivalents Database)
8、,及SUMO。 (i) ECTEC: 由WordNet為基礎,經由現有的中英或英中電子辭典的詞形對應,替每個同義詞集的詞義找出相對應的中譯詞組,再經由人工檢驗。 (ii) SUMO: 知識本體是以格式化的方式表達概念(concept)、關係(relation)和公理(anxioms)。上層知識本體將一般性、後設性(meta)、摘要性及哲學類的概念指出,所以特殊領域的概念可由其中的概念涵蓋,但特殊領域的知識本體由各領域自行制訂。Ø 4. 詞彙語意關係表達與預測 4.1 詞彙語意關係表達 a. 在CWN裡,參考了普林斯頓WordNet的語意關係連結,如:同義詞、反義詞等。另外, 詞網小組
9、也開發了類義詞(paranymy)的語義關係連結,主要以WordNet為框架,在姊妹詞彙(sister terms) 中的解釋豐富的概念關係(rich conceptual relations)。 b. 類義詞可以為兩大類: (i) 相對類義詞(contrary paranymy): 除了有比較級和最高級外,語意關係的詞彙也可以是中等程度的詞彙,例如:溫的。此外,又可被分為類成認知、感官類(perceptional paradigms)或約定俗成類(conventional paradigms)。 (ii) 重疊類義詞(Overlapping Paranymy): 兩個姊妹詞彙共同擁有一些相同
10、的特徵。根據語言約定俗成的用法來解釋與區分,通常與語言的使用與經驗相符合。例如:箱子vs.盒子,河vs.江。 4.2 詞彙語意關係預測 詞網小組提出一個模形 Bootstrapping from Multilingual Wordnets。此模型是基於中文詞網小組一系列之相關研究所得出。主要論點為假定在詞彙語意標記上,可借力於其他已成形的詞網的跨語詞義關係資源。因此,詞網小組提出了平行進行詞義標記所涉及之邏輯條件,並以反向回饋驗證。Ø 5. 語言知識整合與應用 中文詞彙網路的發展過程中,與歐洲語言、日語以及兩岸中文之詞彙對應進行了語言知識整合與應用之嘗試。5.1 跨語言知識系統的對比
11、與應用 為了解決全球多語化所帶來的問題,中文詞彙網路小組設計跨語言的知識資訊整合平台。設計核心主軸為產生的內容可協作的(content interoperability) 標準化製作,跨語言之分散性知識與交換機制,及其存取與檢索介面。實作方法:以知識本體驅動的方式,利用上層知識本體與全球詞彙網路網格之串接作為知識核心,以文本知識發掘與語意分析技術為輔。 5.2 兩岸詞彙對應a. Chinese Concept Distionary (CCD)中英語的詞網: 發展架構以WordNet為主。依據CCD發展手冊記載,詞義的首要條件不可以破壞原本WordNet之於同義詞集定義概念與其語義關係架構。此外,CCD的研究團隊不止表現對中文詞彙內涵的表達,也發展了中文詞彙語義與概念的關係性,以利於強調中文的特質。b. CCD的研究團隊專注在整個CCD的架構,提出同一概念的同義詞集的定義,其所呈現的概念、定義和概念網的上下位語義關係,每一個同義詞集都有其基本關係,彼此之間也有語義關係的存在。c. 繁體中文系統的英中對譯(CWN) 與 簡體中文系統的英中對譯(CCD),將詞類分為四大類來進行對比:名詞、動詞、形容詞和副詞。以WordNet為主,檢測在同一個Synset 中,將CWN的對譯詞彙與CCD的對譯詞彙加以進行比對。d. 在同一個Synset中,CWN和CCD可能都會有多個相對應的對譯詞彙。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年标准自然人借款合同模板
- 2025简化版房屋租赁合同
- 2025辽宁沈阳市浑南区森工林业集团有限公司招聘56人笔试参考题库附带答案详解
- 2025江苏南通市崇川区潜慧恒馨企业发展有限公司招聘100人笔试参考题库附带答案详解
- 2025山东祥泰商贸有限公司招聘7人笔试参考题库附带答案详解
- 金融基金考试试题及答案
- 采茶劳务合同协议书范本
- 合同变更书面协议书
- 洗井合同协议书图片
- 仓库储存合同协议书范本
- 湖南省天壹名校联盟2025届高三5月适应性考试(化学)
- 房地产广告效果的评测与分析
- 2025年北京市石景山区九年级初三一模语文试卷(含答案)
- 华大新高考联盟2025届高三4月教学质量测评历史+答案
- T-CASEI 015-2023叉车使用安全管理规范
- 2025年浙江省温州市中考一模语文试题(含答案)
- GB/T 12385-2025管法兰用垫片密封性能试验方法
- 油烟机清洗合同协议范本
- 首次透析患者健康教育
- 山洪灾害防御知识课件
- 血吸虫防急感课件
评论
0/150
提交评论