版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中文信息处理与汉语研究 现状和发展全国语言文字信息化工作会议 湖南 长沙 2003.10.5 - 10.6 1提 纲中文信息处理研究的格局中文信息处理的现状和发展趋势语言知识资源的建设面向中文信息处理的汉语研究2一 中文信息处理研究的格局信息的两个层次:符号层 中文 / 汉语 / 汉字内容层 符号所承载的意义中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译等等)(信号 vs. 信息)3符号层的信息处理拼音文字:小字符集 比较容易非拼音文字:大字符集 难度很大汉字是一个大字符集说文解字(东汉):9353字玉篇(南朝)收录16,91
2、7字广韵(宋代)收字26,194字字汇(明朝)收录33,197字康熙字典(清朝)收录47,043字汉语大字典(1992年)5.6万中华字海( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号4符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写体识别印刷体识别在线手写脱机手写整字键盘通用键盘主辅式感应式形码音码形音结合码1234567895内容层的信息处理形态丰富的
3、语言(inflecting language):处理难形态不丰富的语言(analytic language):处理更难汉语英语老师都来了All professors came here.张老师都来了Even Professor Zhang came here.编辑工作很难Editing is very difficult.如何当好编辑How to become a good editor6内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文123456789101112机器翻译全过程 需要语言知识!7内容层处理对符号层处理
4、的反作用拼音串(无声调)xue xi dian nao ji shu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术8内容层处理对符号层处理的反作用拼音串(无声调)xue xi dian nao ji shu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑
5、技术9内容层处理对符号层处理的反作用拼音串(无声调)xue xi dian nao ji shu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗 电脑 基数正确文字串学习电脑技术10内容层处理对符号层处理的反作用拼音串(无声调)xue xi dian nao ji shu候选字串雪 系 点 脑 机 树共有149841151676895.8亿种可能性学 洗 电 闹 给 述学 西 颠 挠 记 书候选词串学习 电脑 级数共有21714种可能性血洗 电脑 奇数血洗
6、 电脑 基数正确文字串学习电脑技术11二 中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索12系统演示北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等) (北大计算语言所网上分词、标注、注音系统)13中文信息处理的发展趋势发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视信息家电,内容计算,14三 语言知识资源的建设现代汉语语法信息词典基于配价理论的现代汉语语义词典现代
7、汉语短语结构信息库2700万字现代汉语分词与词性标注语料库句子对齐的汉英双语语料库现代汉语树库现代汉语短语结构规则库15资源演示现代汉语语义词典(詹卫东、王惠等)汉英平行语料库(常宝宝、柏晓静等)现代汉语树库(詹卫东、常宝宝等)16四 面向中文信息处理的语言学研究充分重视各个层次上的语言歧义研究拓展语言现象的研究面强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化 加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源17歧义示例张 店 区 大 学 生 不 看 重 大 城 市 户 口 张店区 大学生 不 看 重大 城市 户口 张店区 大学生 不 看重 大 城市 户口
8、18歧义示例(续)有三百多种树vmcpqnmpnpvpnpvp有三百多种树vmcpvnvpvpnpvpvpvp有 三 百 多 种 树 v m m m q/v n有 三 百 多 种 树19歧义示例(续)请 转告 李宇明 司长 下午 三点 出发 v v n n t t v请转告李宇明 司长下午三点出发请转告李宇明司长 下午三点出发20要让计算机“理解”一个句子,实际上要解决下面两个核心问题:(1)一个句子的结构和意义是什么?(2)如何得到一个句子的结构和意义? 第一个问题是“What”的问题,这是理论语言学关心的问题;第二个问题是“How”的问题,这是计算语言学关心的问题,也就是面向中文信息处理的
9、语言研究需要关心的问题。结 语21参考文献慈林林 鲁元魁,1999,中文信息处理新技术展望,计算机世界1999年第44期“产品与技术”版“专题报道”。刘梦松,1998,中文信息处理软件概述,计算机世界1998年第26期“技术专题”版。许嘉璐,2002,现状和设想 试论中文信息处理与现代汉语研究,中国语文2000年第6期。俞士汶,朱学锋,2002,关于汉语信息处理的认识及其研究方略,语言文字应用2002年第3期。俞士汶,朱学锋,王惠,2001,的新进展,中文信息学报2001年第1期。詹卫东,常宝宝,俞士汶,2002,机器翻译与语言研究,语言科学2002年第1期(创刊号)。詹卫东,2000, 80年
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 梳理热风非织造布制作工安全生产知识测试考核试卷含答案
- 己二腈装置操作工岗前复试考核试卷含答案
- 河南省洛阳市2024-2025学年八年级上学期期末地理试题
- 教育质量与成果探讨
- 特训03 一元二次方程应用题分类通关专练-2025-2026学年九年级数学上学期期中期末挑战满分冲刺卷(人教版)(解析版)
- 2025西安工业投资集团招聘(2人)笔试历年参考题库附带答案详解
- 2025安徽蚌埠自贸区城发人力资源有限公司第六期招聘拟录用人员笔试历年参考题库附带答案详解
- 2025中国国新资产管理有限公司相关岗位招聘4人笔试历年参考题库附带答案详解
- 安徽省七年级地理下学期期末分类专练:西半球的国家和极地地区(5大考点+百题过关)原卷版
- 2025年潍坊市财鑫智慧能源科技集团有限公司招聘笔试历年参考题库附带答案详解
- IATF16949体系推行计划(任务清晰版)
- 车位租赁协议
- 四年级上册-“快乐读书吧”阅读测试题
- XXX公司章程(包含党建内容)
- 2024年重庆十八中小升初数学试卷
- 制氧机使用步骤和说明
- 门学校管理办法(试行)
- NB/T 11446-2023煤矿连采连充技术要求
- JB-T 8236-2023 滚动轴承 双列和四列圆锥滚子轴承游隙及调整方法
- MOOC 数据库原理与应用-北京林业大学 中国大学慕课答案
- 2024高考英语学生学法指导的策略与方法课件共31张
评论
0/150
提交评论