语言文字在知识经济中的角色-词语知多少.ppt_第1页
语言文字在知识经济中的角色-词语知多少.ppt_第2页
语言文字在知识经济中的角色-词语知多少.ppt_第3页
语言文字在知识经济中的角色-词语知多少.ppt_第4页
语言文字在知识经济中的角色-词语知多少.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

詞語知多少,鄭錦全 2001 年4月3日,語言,語言是人一生中習得的符號系統 代代傳承 代代有代溝 - 粵語“你我他” 時有古今,地有南北,音有轉移,詞有消長 達爾文觀察物種原始與孳乳,發覺詞語隨時代消長,新詞產生,舊語消失。他的解釋是因為人的記憶有限,詞語不能無限積累,只能新陳代替(Darwin 1871)。,文字,文字的基礎是語言 - “狗戴帽子” Good morning 文化傳承與文字積累,語言的單位,語音 詞素,字 詞語,語詞 詞組 句 句群 段 篇章,多少?,詞素,字 :古今字數 詞語,語詞:報章文字統計 詞組:報章文字統計 句:信息模組 句群:信息模組,初步計量,李莫愁這麼一哭,楊過和程英也自驚覺,歌聲節拍便即散亂。李莫愁心念一動,突然縱聲而歌,音調淒婉,歌道: 問世間,情是何物,直教生死相許?天南地北雙飛客,老翅幾回寒暑?歡樂趣,離別苦,就中更有痴兒女。君應有語,渺萬里層雲,千山暮雪,隻影向誰去? - 金庸神鵰俠侶,情是何物?,直教生死相許,摸魚兒 元好問 泰和五年乙丑歲,赴試并州,道逢捕雁者云:“今日獲一雁,殺之矣。其脫網者悲鳴不能去,竟自投於地而死。”予因買得之,葬之汾水之上,纍石為識,號曰雁丘。時同行者多為賦詩,予亦有雁丘詞。 舊所作無宮商,今改定之。,初步計量,1 有 2 3.509 3.509 2 歡 1 1.754 5.263 3 雙 1 1.754 7.018 4 離 1 1.754 8.772 5 應 1 1.754 10.526 6 趣 1 1.754 12.281 53 中 1 1.754 94.737 54 山 1 1.754 96.491 55 女 1 1.754 98.246 56 千 1 1.754 100.000,神鵰俠侶字數,1 一 15662 1.933 1.933 2 不 14714 1.816 3.749 3 是 12318 1.520 5.269 4 的 11889 1.467 6.736 5 道 11810 1.457 8.194 6 了 11017 1.360 9.553 7 過 9192 1.134 10.688 8 他 8203 1.012 11.700 9 人 8005 0.988 12.688 10 這 7115 0.878 13.566 4094 巳 1 0.000 100.000,神鵰俠侶字數統計,4,094 Word types 字種 810,311 Word tokens 字數 In addition, there are 145,213 punctuation marks 標點符號,文字啟蒙,“開學了” 筆比鋤頭還重 人生憂患識字始 生年不滿百,常懷千歲憂。(古詩十九首),多少才夠用?,人間百態 百般咒罵 百感交集 千方百計 千奇百怪 萬感交集 氣象萬千 萬物 包羅萬象,千字文,天地玄黄 宇宙洪荒 日月盈昃 辰宿列张 寒来暑往 秋收冬藏 闰馀成岁 律吕调阳 云腾致雨 露结为霜 金生丽水 玉出昆冈 剑号巨阙 珠称夜光 果珍李柰 菜重芥姜 海咸河淡 鳞潜羽翔 龙师火帝 鸟官人皇 始制文字 乃服衣裳 推位让国 有虞陶唐 吊民伐罪 周发殷汤 坐朝问道 垂拱平章 爱育黎首 臣伏戎羌 遐迩一体 率宾归王 鸣凤在竹 白驹食场 化被草木 赖及万方 盖此身发 四大五常 恭惟鞠养 岂敢毁伤 女慕贞洁 男效才良 知过必改 得能莫忘 罔谈彼短 靡恃己长 信使可复 器欲难量 墨悲丝染 诗赞羔羊 景行维贤 克念作圣 德建名立 形端表正 空谷传声 虚堂习听 祸因恶积 福缘善庆 尺璧非宝 寸阴是竞 资父事君 曰严与敬 孝当竭力 忠则尽命 临深履薄 夙兴温 似兰斯馨 如松之盛 川流不息 渊澄取映 容止若思 言辞安定,千字文重字,(录自喻岳衡主编传统蒙学丛书:千字文,周艺点校,岳麓书社年月长沙出版 【重字表】千字文实录九百九十四个汉字,重字凡六,以汉语拼音为序列于下: “发”:周发殷汤;盖此身发 “巨”:剑号巨阙;巨野洞庭 “昆”:玉出昆冈;昆池碣石 “戚”:戚谢欢招;亲戚故旧 “云”:云腾致雨;禅主云亭 “资”:资父事君;务资稼穑,千字文非国标字,【非国标字一览表】(音义据现代汉语词典,商务印书馆一九八三年北京第二版; 释义未必切合正文) 【冫青】凉。 【石番】“溪”,太公望垂钓处。(孙谦益注) “义”字无“丶”治理,安定。 【宀是】放置;此;又同“实”。,琴清流楚激弦商秦曲发声悲摧藏音和咏思惟空堂心忧增慕怀惨伤仁 芳廊东步阶西游王姿淑窕窈伯邵南周风兴自后妃荒经离所怀叹嗟智 兰休挑林阴翳桑怀归思广河女卫郑楚樊厉节中闱淫遐旷路伤中情怀 凋翔飞燕巢双鸠土迤逶路遐志咏歌长叹不能奋飞妄清帏房君无家德 茂流泉情水激扬眷颀其人硕兴齐商双发歌我兖衣想华饰容郎镜明圣 熙长君思悲好仇旧蕤葳粲翠荣曜流华观冶容为谁感英曜珠光纷葩虞 阳愁叹发容摧伤乡悲情我感伤情徵宫羽同声相追所多思感谁为荣唐 春方殊离仁君荣身苦惟艰生患多殷忧缠情将如何钦苍穹誓终笃志贞 墙禽心滨均深身加怀忧是婴藻文繁虎龙宁自感思岑形荧城荣明庭妙 面伯改汉物日我兼思何漫漫荣曜华雕旗孜孜伤情幽未犹倾苟难闱显 殊在者之品润乎愁苦艰是丁丽壮观饰容侧君在时岩在炎在不受乱华 意诚惑步育浸集悴我生何冤充颜曜绣衣梦想劳形峻慎盛戒义消作重 感故昵飘施愆殃少章时桑诗端无终始诗仁颜贞寒嵯深兴后姬源人荣 故遗亲飘生思愆精徽盛翳风比平始璇情贤丧物岁峨虑渐孽班祸谗章 新旧闻离天罪辜神恨昭感兴作苏心玑明别改知识深微至嬖女因奸臣 霜废远微地积何遐微业孟鹿丽氏诗图显行华终凋渊察大赵婕所佞贤 冰故离隔德怨因幽元倾宣鸣辞理兴义怨士容始松重远伐氏妤恃凶惟 齐君殊乔贵其备旷悼思伤怀日往感年衰念是旧愆涯祸用飞辞恣害圣 洁子我木平根尝远叹永感悲思忧远劳情谁为独居经在昭燕辇极我配 志惟同谁均难苦离戚戚情哀慕岁殊叹时贱女怀叹网防青实汉骄忠英 清新衾阴匀寻辛凤知我者谁世异浮奇倾鄙贱何如罗萌青生成盈贞皇 纯贞志一专所当麟沙流颓逝异浮沉华英翳曜潜阳林西昭景薄榆桑伦 望微精感通明神龙驰若然倏逝惟时年殊白日西移光滋愚谗漫顽凶匹 谁云浮寄身轻飞昭亏不盈无倏必盛有衰无日不陂流蒙谦退休孝慈离 思辉光饬粲殊文德离忠体一违心意志殊愤激何施电疑危远家和雍飘 想群离散妾孤遗怀仪容仰俯荣华丽饰身将与谁为逝容节敦贞淑思浮 怀悲哀声殊乖分圣赀何情忧感惟哀志节上通神祗推持所贞记自恭江 所春伤应翔雁归皇辞成者作体下遗葑菲采者无差生从是敬孝为基湘 亲刚柔有女为贱人房幽处己悯微身长路悲旷感生民梁山殊塞隔河津,織錦回文,463 Word types 833 Word tokens 據說可以得出 3,752 詩句 仁智怀德圣虞唐,贞妙显华重荣章, 臣贤惟圣配英皇,伦匹离飘浮江湘。 钦岑幽岩峻嵯峨,深渊重涯经网罗,林阳潜曜翳英华,沉浮异逝颓流沙。 嗟叹怀,所离经;遐旷路,伤中情;家无君,房帏清; 华饰容,朗镜明;葩纷光,珠曜英;多思感,谁为荣?,古人用字,總字數 字種 書目 97,973 3,028 禮記 533,505 5,122 史記 34,431 2,716 風俗通 80,121 3,315 桃花扇 459,357 5,225 日知錄 496,855 4,293 紅樓夢前80回 234,980 3,217 紅樓夢後40回 731,835 4,501 紅樓夢120回,資料來源,禮記的數目取自劉典爵、陳方正(1992-95) 史記等史書字數見謝清俊、林晰、許金定、傅武嫦、張翠玲 (1992) 風俗通、桃花扇、日知錄統計由中央研究院資訊科學研究所提供 紅樓夢字數從元智大學的網路電子版計算出來 字書字數部分取自漢語大字典袖珍本(1999),經典,總字數 字種 書目 15,935 1,355 論語 35,417 1,913 孟子 28,073 2,026 尚書 37,438 2,989 毛詩 97,973 3,028 禮記 38,597 2,259 大戴禮記,經典,56,809 1,529 儀禮 49,540 2,236 周禮 1,800 373 孝經 61,753 2,248 春秋繁露 44,379 1,648 公羊傳 40,914 1,604 穀梁傳 51,156 2,614 韓詩外傳 10,379 3,410 爾雅,二十五史,年代 總字數 字種 書目 93BC 533,505 5,122 史記 83AD 742,298 5,833 漢書 289 377,807 4,388 三國志 445 894,020 6,161 後漢書 488 811,893 5,842 宋書 514 299,257 4,962 南齊書 554 998,329 5,417 魏書 636 294,438 4,973 梁書 636 163,382 4,033 陳書,二十五史,636 212,506 4,032 北齊書 636 262,659 4,161 周書 648 1,158,126 5,997 晉書 656 701,698 5,592 隋書 659 677,624 5,376 南史 659 1,106,543 5,572 北史 945 2,002,600 6,346 舊唐書 974 790,879 5,109 舊五代史 1060 1,694,794 6,771 新唐書,二十五史,1072 291,476 3,909 新五代史 1345 3,980,123 7,389 宋史 1344 296,254 4,071 遼史 1344 931,070 5,264 金史 1370 1,611,849 5,854 元史 1739 2,802,544 7,124 明史 1927 4,514,567 8,080 清史稿,公元5世紀以前,年代 字種 書目 1300BC 3,000 甲骨文 93BC 5,122 史記 5 5,340 訓纂篇 83 5,833 漢書 100 9,353 說文解字 289 4,388 三國志 4C 12,824 字林 445 6,161 後漢書 488 5,842 宋書,6-7世紀,514 4,962 南齊書 543 22,726 玉篇 554 5,417 魏書 636 4,973 梁書 636 4,033 陳書 636 4,032 北齊書 636 4,161 周書 648 5,997 晉書 656 5,592 隋書 659 5,376 南史 659 5,572 北史,10-13世紀,945 6,346 舊唐書 974 5,109 舊五代史 997 26,430 龍龕手鑑 1008 26,194 廣韻 1039 31,319 類篇 1060 6,771 新唐書 1067 30,000 集韻 1072 3,909 新五代史 1212 35,189 改併五音聚韻四聲篇海,14-18世紀,1344 4,071 遼史 1344 5,264 金史 1345 7,389 宋史 1370 5,854 元史 1615 33,179 字匯 1671 33,549 正字通 1716 47,035 康熙字典 1739 7,124 明史,現代,1915 48,000 中華大字典 1927 8,080 清史稿 1959 49,965 大漢和辭典 1968 49,905 中文大辭典 1986 54,678 漢語大字典,古人的詞素量,著作總字數從一千多字到四百多萬字不等 各人所用字種只有幾千,上限是八千 人所能操縱的詞素量有涯邊盡頭 對人類語言認知能力我們提出“詞涯八千” 來解釋古人用字的上限,“詞涯八千”,時有古今地有南北,異體字 古今字 方言字 難字 生僻字 罕見異體字,漢語大字典,語言符號知多少?,4,261字 陳鶴琴 (1928) 語體文應用字匯 2,000字 四川省教育科學院(1946) 常用字選 3,500字 中國大詞典編纂處 (1954) 識字正音3500 字表 3,000字 山東省教育廳 (1958) 普通話常用字表,語言符號知多少?,3,100字 北京市教育局中小學教材編審處 (1965) 常用字表 4,444字 中國文字改革委員會漢字組 (1975) 4500 字表 4,574字 北京語言學院語言教學研究所 (1985) 漢字頻率表 3,500字 國家語言文字工作委員會(1988)現代漢語常用字表,古詩文缺字,宋代蘇軾 太白詞,并敘:其一 岐下頻年大旱,禱於太白輒應,故作迎送神辭一篇五章 雷闐闐,山畫晦。 風振野,神將駕。 載雲(原文作左目右干),從玉虯。 旱既甚,蹶往救,道阻修兮。 (羅鳳珠輯),電子文獻缺字,中央研究院臺灣方志資料庫簡介 本資料庫內約有六百多個罕見字,這些字需造字來解決因公共造字檔的剩餘空間有限,只能選擇四十三個在資料庫中出現頻率較高者,上計算中心的公共造字檔,市場經濟與電腦文字缺失,市場經濟決定產品優劣 廠商以賺錢為主要目的 字符已經能夠滿足一般需要 因此一萬多字的字符集通行十幾年 我們到底需要多少字?,電腦字符集,電報碼 資策碼 IBM 碼 電訊碼 國標碼 國標擴展碼 大五碼 Unicode 五胡亂華,萬馬奔騰,知識經濟,基礎是科技 從工業經濟轉到知識經濟,操縱的物件從大型機器轉到電腦上的微型符號 改變符號並不須要改變整個機器的設計,因此容易讓人用符號來創新,在這樣的環境中形成了人們冒險進取的精神 活動全球化 語言是知識建構的媒體 語言文字在科技基礎和全球化活動中佔重要地位,符號創新,.COM 公司無本經營 搜索引擎提供大量知識信息 網站繁衍,靠廣告發展,依賴收購致富 形成只要有電腦就能橫行天下的心態 經濟開始不景氣 .COM 變成 .GONE,E-這個 E-那個,網路教育 電子商務 以語言文字為媒體,漢字需求,5-6 萬字 廣深的知識面,詞語的數目,單音節 多音節 書名 100,000 國語辭典(國大辭典編纂處1937) 10,000 30,000 國語日報字典(何容1976) 6,000 50,000 漢英詞典(北京外國語學院1978) 56,000 現代漢語詞典 (社科院語言所1980) 3,994 90,000 常用構詞字典(傅興嶺陳章煥1982) 2,116 90,000 現代漢語詞表 (劉源 1984) 4,000 58,000 詞林 (張聿忠1986) 31,159 現代漢語頻率詞典 (北京語言學院 1986),詞語的數目,9,700 48,000 新編漢語詞典(李國炎等1988) 13,000 80,000 古今漢語實用詞典 (吳昌恒1988) 60,400 漢語拼音詞匯(編寫組1991) 13,000 36,000 朗文中文高級新辭典(葉立群1996) 11,000 28,000 現代漢語用法詞典(閔龍華1997) 10,000 24,000 古代漢語詞典(陳復華 2000),衍生詞,“機”,可以和許多詞結合衍生出 “計算機” “打字機” “縫衣機” “性”可以和其他詞結合成 “科學性” “積極性” “商業性”,詞語計量,斷詞 (明報1995) , , 。,報章詞語統計,覆蓋率 新加坡詞數 香港詞數 臺灣詞數 90% 5,043 7,477 5,005 100% 24,967 42,689 42,686+ Tsou, Benjamin K., Hing-Lung Lin, Godfrey Liu, Terence Chan, Jerome Hu, Ching-hai Chew, and John K.P. Tse. 1997. “A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Applications“. Computational Linguistics and Chinese Language Processing 2.1:91-104.,“詞涯八千”的理論,如果我們假定能覆蓋95%的文本語料的詞語是大多數人所共有的,覆蓋其他5%的語料的詞語是各人的特殊詞條聚集起來的,那麼,每個人能夠運用的詞語數目就是七八千左右。從上文討論的漢字和詞語的出現情形再加這個假定,我們對人的詞語認知提出“詞涯八千”的理論。,其他語言,既然“詞涯八千”說的是人的認知能力,我們就要檢驗其他語言的情形。Miller 等人(Miller and Gildea 1991) 認為美國中學畢業生所知道的詞語數目是 80,000。 Crystal (1995) 認為說英語的人的“主動”能運用的詞語介於 31,500 和 56,250 之間,而“被動”能認識的數目從 38,300 到 76,350 不等。 前人對詞語數目的調查大致是隨機翻開字典某頁,讓人自己判定能運用或認得幾個字,然後類推到整本字典的字數。,英文詞語,字數 字種 概念字種 32,361 4,727 3,431 Call of the Wild 74,038 7,427 5,316 Tom Sawyer 87,044 8,630 6,046 Beauty and the Beast 161,751 9,281 6,433 Dracula 137,060 8,877 6,218 The American 80,493 8,976 6,377 Paradise Lost,英文詞語,161,974 7,097 4,647 Emma 120,735 6,288 4,199 Sense and Sensibility 123,270 6,288 4,146 Pride and Prejudice 84,128 5,741 3,934 Persuasion 729,792 13,765 8,641 Austens Books,粵語詞語,求其 : 隨便 乜嘢 : 什麽 老細 : 老闆 細蚊仔 : 小孩子 錫佢一啖 : 親她一下 打斧頭: 揩油 心機:耐心,心思 好心機:有耐心,捉伊人,詩經 蒹葭 蒹葭蒼蒼,白露為霜。所謂伊人,在水一方。 溯洄從之,道阻且長;溯游從之,宛在水中央。 蒹葭萋萋,白露未曦。所謂伊人,在水之湄。 溯洄從之,道阻且躋;溯游從之,宛在水中坻。 蒹葭采采,白露未已。所謂伊人,在水之涘。 溯洄從之,道阻且右;溯游從之,宛在水中沚。,方言詞語計數,粵語詞語約 7,500 條 麥耘 譚步云 1997 實用廣州話分類詞典。 粵語詞語 8,000 餘條 曾子凡 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论