论古籍整理自动化.doc_第1页
论古籍整理自动化.doc_第2页
论古籍整理自动化.doc_第3页
论古籍整理自动化.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

論古籍整理自動化北京大學中文系 李鐸信息科技在古代典籍的整理方面,經歷著三個階段。一是數據文獻的錄入。八十年代,臺灣中央研究院率先錄入整理重要的古代典籍。由於大陸較早使用的GB2312漢字系統僅支持6763個漢字,且不支持繁體,所以,大陸在文獻的整理上僅限於現當代文學作品、大型報刊等。自96年WIN95支持CJK以來,大陸纔開始啟動這方面的工作,但大多數仍處於計算機加手工作坊的階段,即人工錄入。九十年代末香港迪志公司與北京書同文公司聯合開發四庫全書,使用非特定人手寫識別系統,極大的節約了人力物力。僅兩年多的時間,我們就可以使用四庫全書這部近八億漢字的叢書了,後來書同文公司又開發了四部叢刊近一億漢字的古籍資料庫,目前該公司又著手四部叢刊的四編整理。二是文獻的檢索。一旦整理出古籍文獻,它就進入了使用階段,對於小量的文檔,就可以直接在自己的WORD中使用檢索,查找需要字詞,如果會使用VBA,還可以編輯引得、關聯相關的數據庫等等。如果是海量數據,可以使用特定的檢索平臺,甚至可以直接對數據庫操作。還有多種的搜索引擎用來搜索互聯網上的學術資源,這使古代文學、古代漢語的研究有了突破性的進展。三是古籍文獻的自動化整理、多維數據庫建設、智能分析階段。它是在積累了一定的文本數據後的更高級的數據整理與多任務的應用開發,這一階段的特徵是,數據整理與學術研究相互促進,數據整理帶有學術性,學術研究對數據庫建設提出更精細的要求。也就是我們目前所處的階段。我想以我們近期的工作及設想來說明之。全宋詩的自動化分析過程一、文字整理大陸的出版機構在九十年代初就比較廣泛得使用了北大方正的排版系統,今天還有80%以上出版商仍在使用著,迄今出版了數萬種圖書。當初這一系統僅是爲出版紙介而開發設計的,並未考慮到已輸入到計算機的數據以後可以更進一步開發利用。如繁體字文獻,該系統仍使用簡體字內碼,衹是在輸出照排時改變字型輸出繁體字,而且此內碼字庫太少,亦無法適應古代文獻的輸出,所以北大方正又自行設計了一套擴充字庫,用來補充那6763漢字,而這擴充字庫未使用通用的標準系統,在內碼上與後來的GBK中的繁體字完全不兼容,這在轉換上造成了一定的困難,如文獻中的“风B7E7”字,我們如果將之轉換爲繁體的“風”字(EF4C),就會發現,“風”字的數量增大了,因爲在轉換前,文獻中已有“風(EF4C)”,相對GBK而言,它則應是字庫中的“鶖”字,如果先將繁體的“風”(實際上是“鶖”字)轉換爲“鶖”,則與文獻中另一位置的“鶖”(另外一個字)衝突,又多出了很多個“鶖”字。所以北大方正排版系統爲排版而製作的數據需要經過復雜的轉換過程,北京大學中文系語言學實驗室開發了一套北大方正內碼向GBK代碼的轉換系統,除人工即時造字外,基本上可以完整轉換。全宋詩的整理便是基於這一轉換系統,加人工補字來完成的。最初我們也曾考慮到使用錄入、掃描識別等手段,但是由於當時掃描識別率較低,工作量過大,僅校對一項就要花費掉該項目的全部費用。二、格律詩的標注我們在錄入整理全唐詩時還是使用手工作坊的方式:雙機錄入,單機校對。在全唐詩上網前,我想,我們不是一般的公司開發軟體,我們應盡可能地利用我們的學術資源,在數據中融入一些商業公司無法操作的學術內容。所以,首先想到的是將全唐詩標注出格律來,這對我們這個項目組(我和一些研究生們)來說,是一項比較繁重的工作,由於有211項目的資助,我們還是決定人工加標識。可是,有很多作品我們無法判定其格律,所以請了袁行霈、蔣紹愚兩位先生爲我們的顧問,我們凡遇到無法判定的詩作就求教於這二位先生。僅此一項標注工作,就佔去了全唐詩開發工作總量的四分之一。全宋詩有二十五萬餘首詩,是全唐詩的五倍,其格律詩的比例也遠遠大於全唐詩,如果一首一首標注,恐怕需要若干年的時間。如果使用計算機自動標注,會不會出現過大誤差,我們實驗性地開始此項工作。首先,我們依據佩文韻府建設了詩韻庫,又根據詩的格律特徵,依據王漁洋的律詩定體建設了二十八種格律詩模型庫。然後,就由計算機對全宋詩掃描分析,使用加權重算法,使相當一部分的拗體詩(不符合二十八種格律的)也能被檢索到,標識出十六萬餘首格律詩。經過分析對比,這種標識方法比我們原來整理唐詩時人工標注的更爲準確。由於佩文韻府所定義的漢字,有太多的多音字,且分屬不同韻部,尤其是同時分布在平聲字和仄聲字中。而在建宋詩平仄庫時,由於沒有宋詩的詞語庫(我們正在考慮建設),那麽計算機在識別判斷平仄時便遇到了困難,如“相”字,在“相思”詞中,是平聲,在“宰相”中則是仄聲,如果有語詞庫,我們將語詞權重加上,會比較容易地解決這個問題。現在的問題是:我們雖然可以根據詩的格律來判定當平當仄,可是這格律又是在建庫時就要確定的,爲解決這一問題,我們引入了層次分析算法,即第一步先將固定平仄的字標識出來,使用“向量空間模型”,允許有一定量的誤差,做第一層的格律詩數據庫,然後在第二個層面上,使用另一音韻庫二次判別詩的平仄。結果定爲:非格律詩,我們保留了原來多音字的信息,而格律詩,則以比較準確的形式顯示詩的格律,這一做法是比較成功的,以後對語料庫做深加工時,仍有必要使用這種算法。三、重出詩的自動提取臺灣林枚儀教授率先使用計算機研究全宋詞的重出問題。她對重出詞的初步提取,主要是依據詞的句長特徵,而我們面對宋詩,則無法使用這種方法。所以我們認爲使用格律詩的“向量空間模型”可以幫助解決這個問題。現在,我們提取出全部五千餘首重出詩,而且這些重出詩並不是指文字完全相同,而且指達到了一定的相似度。四、信息檢索模型的建設我們在1998年開發的全唐詩檢索系統並不是單一模式的全文檢索,我們使用了新西蘭國家圖書館的布爾模型(Boolean Model),這一模型突破了原布爾模型檢索結果的無序性,使我們在檢索相關信息時,可以得到特定序列的數據,如在詩內容中輸入“酒”字,同時選擇“部分匹配”,返回的結果,第一首詩是李白的月下獨酌之二“天若不愛酒,酒星不在天。地若不愛酒,地應無酒泉”這首含“酒”字最多的詩,如果使用“完全匹配”,則使用一般全文檢索的規則,並返回原書順序。這種檢索方法目前在互聯網上相當普遍。在全宋詩的開發中,我們需要檢索出重出詩,需要標識詞的格律,需要檢索出內容相似的詩作,需要檢索形式相近的詩作,Boolean Model已不能滿足這方面需要。所以,我們參考Cornell大學Salton教授開發的“向量空間模型”(Vector Space Model),它與Boolean Model不同,它把查詢項和數據庫中的信息顯示爲檢索構成的向量空間中的點。這樣,我們可以通過計算向量之間的距離來判斷原數據與檢索項的相似度,這便是“格律詩標識”和“相似詩檢索”的基礎。如果達到一定的“相似度”,也就是根據向量夾角的餘弦值,就可以確定這是一首重出詩或僅是一定程度上的相似詩。這一算法在宋詩的運用中比較成功,然而在未來海量的數據處理中,面對不同類型的數據,這種模型還要進一步完善。我們相信在未來唐宋詩的自動切分語詞或語料庫的整理中,這種模型會發揮更大的作用。查詢擴展功能在全宋詩中的實現。依據作者檢索宋詩,如果輸入的是“王安石”,自然應當找到王安石的全部作品,可是如果輸入“王荊公”或者“王介甫”呢?我們在作者項裏加入了擴展項的查詢。目前還僅限於作者,在全文檢索中還沒有實現這樣的擴展功能,因爲這需要我們擴充語詞的相關內容,它的基礎是建設語詞庫。如果擴展功能應用到全文檢索,當您輸入了“李白”,它同時能檢索到“太白”“青蓮居士”等等相關詩作。目前我們開發的全宋詩檢索系統,今年九月將由北京大學出版社出版發行。我們希望以後出版的這類檢索能融入更多的科研成果,有更高的學術價值。古籍自動化整理中的學術研究一、高深度的數據庫建設現在世界各地所整理的文獻從數量上看,已達到一定的規模,但是,許多文獻庫質量不高,而且深度不夠。因此,我們下一步的工作,將把重點放到文獻庫的精加工上面。我們已經完成了詩經楚辭先秦兩漢魏晉南北朝詩樂府詩集全唐詩全宋詩等,下一步的工作不是去開發全明詩全清詩,而是擬對宋及宋前的詩詞進行深加工整理。它包括:(一)建設詩歌語詞歷史庫,即將已有的文獻做分詞整理,在這方面,我們已經擬定了工作的流程及基本算法,如在分詞的同時,記錄保留原文獻位置等信息。這樣,我們對中國古代詩人詩作的研究並不是簡單基於字頻、用韻等,而且加上了語詞特徵分析及歷史沿習特徵分析,在建設宋詩的語詞庫時,關聯到宋前作品,如同對用典的分析一樣,這樣可以推出詩歌語詞的流變過程。(二)建設二十五史的人名地名關係庫,這是一項極其龐大但又十分有意義的工作。(三)依據袁先生主編的中國文學史,建設“數字中國文學史”,將中國文學史相關的文獻進行精加工整理,建成一個內容豐富的中國文學科研與教學的輔助系統。二、帶著課題做數據很多文獻庫的整理,都有一定的商業性,所以,它所面對的是一般使用者,其功能往往是定義過的,數據本身也是封裝的。我們在進一步的開發中,則是面向學術研究的,例如,我們通過對唐宋詩詞的整理,我們將單獨爲釋家、女詩人、流派、家族等建庫,這樣結合歷史文獻的研究,可以析出女性詩作的用韻、格律、字頻、詞頻等相關曲線,可以對佛教文化對中國詩歌發展的影響進行研究,可以分析宋代家族文學興起發展的過程,可以進一步江西詩派及其影響做更深入的分析。通過地名人名關係庫,我們可以分析歷代文學家在地理上的分布及發展過程,有利於研究中國文學的興衰因素。在精加工數據的同時,自然會要求錄入新的文獻數據,我們也要將之學術化,將學術研究課題融入建庫的過程中。三、自然語言的查詢我們在開發全宋詩的查詢模型時,曾考慮過使用“概率檢索模型”(Probabilistic Model),而非“向量空間模型”,如果這樣的話,可以讓使用者使用自然語言來查詢分析數據,如使用者可以輸入“宋代和尚中用酒字最多的詩”。但是,後來我們認爲由於詩歌的數據類型比較統一,檢索要求也往往一致,數據建庫者又往往是熟悉計算機的人員。所以,使用了“向量空間模型”並加了擴展功能,將底層分析過的數據二次建庫,這樣可以節省數據庫使用者的大量時間。在我們目前準備開始開發的新系統數字中國文學史中,我們便決定使用概率檢索模型,因爲,該項目的數據量大,而且數據類型復雜,除文本數據外,還有大量的超文本(音頻、視頻文獻)。如果給出一個復雜的界面,一方面很難做到適合多種需求的查詢,另一方面,使用者會在學習使用該界面上耗費大量時間。我們設想,使用者在一檢索對話框中輸入“李白曾到過哪些地方”,就可以調出李白遊蹤表和地理圖;輸入“唐代河南有哪些著名詩人”,就可以顯示出“杜甫、李賀、李商隱”等詩人;在讀到琵琶行時,雙擊“琵琶”,就可以看到“琵琶”的圖形,甚至聽一首琵琶曲。目前我們所面臨的難題,一是現有的數據庫模型對西方語言支持度高,對中文支持度低。需要自己重新搭建適合漢語的平臺,一是目前的數據庫主要是面向商業管理的,在數據更新方面功能強大,而我們的數據多是靜態的,需要的是查詢功能的強大,這也需要自己動手開發。四、選擇適合計算機的大型課題計算機進入文科研究領域後,會出現許許多多新的課題,如全宋詩的重出問題,可以說沒有計算機,這種工作幾乎是不可能的。我們利用全宋詩數據庫查出了全部的重出詩,進一步需要將重出的詩作整理定位,依舊利用全宋詩的數據庫可以定位約三分之一的詩作。另外考慮到使用其他數據,如四庫全書、四部叢刊、二十五史等,當然也要進行大量的人工分析,手工檢索大量資料,這樣,我們將用一年的時間整理出一部全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论