下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《中文文本信息处理的原理与应用》清华大学出版苗夺谦卫志华中文信息处理原理与技术提要(一)、中文信息处理的主要任务1、自然语言处理:语意理解——解释、翻译、文摘生成、回答问题。2、自然语言处理:语音识别——音素、音节、单词、短语、句子;语音合成——单元、韵律。3、多语种环境:建立适应多语种处理的计算机系统、网络系统、嵌入式系统环境。4、多语种应用:多语种混合教学系统、通信系统、发布系统、理解和翻译系统。(二)、中文信息处理理论及技术基础1、语言学知识:语音——音素、音节、单词、韵律;语言——词素、单词、短语、句法;语义——理解、上下文关系、表达、转化。2、算法——统计与规则的结合HMM(隐含马尔科夫模型)模型是语音识别中常采用的统计模型,状态的概率函数能够描述语音的重要属性特征的分布特点,以提供给模式分析/识别模块使用。Gabor小波变换是一种多通道信号分解,能同时在时域和频域中较好地兼顾对信号分析的分辨率要求,快速Gabor变换应用。SVM的分类方法,结构风险最小化原则的SVM技术具有全局最优性和较好的泛化能力。采用SVM技术能够提高分类性能。Lattice采用基于音素的置信度与基于状态的置信度相融合的方法,提高评估准确性。3、资料基础:语料库——音素库(三音子库)、音节库、词库、句法库,不同层次的自然语言原始语料素材库;语料库的标注——切分、主要属性标注;连接库——连接规则、概率。(三)、中文信息处理(阿勒泰语系语言)的主要特征1、语言特征:维吾尔语、哈萨克语属于阿勒泰语系突厥语种,是一种黏着语:名词有数、从属人称、格等语法范畴;动词有态、肯定否定、语气、时、人称、数、形动词、动名词、副动词等语法范畴。词组和句子有严格的词序:主语在谓语之前,限定语在中心词之前。维吾尔文用阿拉伯文字母为基础拼写。现行维吾尔文有8个元音字母,24个辅音字母。2、文字特征:维吾尔文字自右向左横写;每个字母按出现在词首、词中、词末的位置,有4种不同的变形书写方式,32个字母共有128种字形;维吾尔文字母还有不等宽的特点。维吾尔文词根上的语音变化、附加成分与词干在元音和辅音上的和谐的语言特征也出现在文字上,同一个词根往往有不同的书写形式,同一个附加成分往往有几种变体。3、与阿拉伯文的近似性。(四)、中文信息处理(阿勒泰语系语言)依据的标准1、基本标准:信息交换用编码标准、字形标准、术语标准,以及键盘标准、语料库标准。2、现行编码标准:在ISO/IEC10646-1:2000/Unicode4中的阿拉伯文字符集已包括了所有的维吾尔文、哈萨克文、柯尔克孜文常用的字符形式。但由于维吾尔文的变体显现形式与阿拉伯文不完全对应或不完全相同,为确定和规范维吾尔文、哈萨克文、柯尔克孜文字符集在ISO/IEC10646-1:2000/Unicode4中的准确位置与编码,制定标准DB65/2190—2005。本标准已为国际标准化组织接受。另外还有“维哈柯文信息交换用字型标准”、“维哈柯文信息交换用界面标准”。以及键盘标准,哈、柯古文献文字国际/国家代码标准;维、哈、柯整词输入标准;维、哈、柯文自然语言处理语料库规则标准;维、哈、柯文信息处理用音节标准;维、哈、柯文信息处理交换用文献规范名词术语标准。3、在确定了基本字形的基础上,制定了16种字体标准,以及维、哈、克文字的标准字库,以及矢量字库。(五)、中文多文种处理基础系统研究1、基础平台研究:重点解决操作系统平台对多文种的支持,要解决的问题——系统的输入与输出,桌面的编排(横排与竖排)、文字和句子方向(从左到右与从右到左)、不同字母和在不同位置是字符宽度选择;汉、英、其他多文种混合编辑技术。在基础平台的研究方面也经历了外挂式结构(不改变操作系统结构,对输入多文种进行处理后进入显示系统),内核修改(利用操作系统的接口和函数完成多文种处理),以及现在按照国际标准,通过建立支持多文种系统模块,实现多文种处理能力的三个阶段。目前在内部处理上较好的是使用坐标动态变换技术,在操作系统底层实现对多语种文字处理的支持,输入、编辑、排版完全符合多语种文字的使用习惯。用户界面如菜单、工具条等控件符合阿拉伯文靠右对齐的使用习惯。2、跨平台多语种处理技术:基于Java的字母自动选形技术、双向光标控制技术、按音节断行、字母自动拉长、界面控件映射技术、支持多语言的应用集成技术等多语种处理关键技术。通过具体研究开发对象,建立跨平台的多语种文字处理架构并集成多语种处理模块,实现跨平台处理。多种语言混合处理技术,实现不同风格文字混合编辑处理,文字方向、排版方式等都符合使用习惯,实现按照上下文环境智能识别、字符显示宽度自动调整。3、多语种支持软件:多语种Office套件,图形、图像处理软件、支持多语种数据库软件,多语种系统电子邮件,电子词典软件,支持多语种杀毒软件。4、多语种信息网络传输技术。基于互联网的多语种处理技术,采用IDS(信息动态服务)和CGI(公用网关接口)技术相结合的方法,解决了不同方向文字信息在互联网上的信息处理、网上检索、排序和统计技术。实现互联网上多种语言数据传输、存储与转换等操作的一致性与完整性。(六)、中文多文种处理应用系统研究1、多文种发布系统:多文种电子政务系统,办公自动化系统;公众服务系统:多文种电话查询应答系统——识别询问文种,自动进行信息匹配,将文本信息转换为语音文件,实时地将文本信息合成语音并通过电话发布。2、多文种教学系统:多语种多媒体教学系统,实时交互、双屏或多屏、图像与语音的结合。3、多文种语音识别和语义理解系统:建立用于多语种信息处理的大型关键性基础资源库(语种库、语音库等),提高多语种机器翻译和基于内容的互联网多语种信息搜索,信息处理的速度,实现高速识别、语义分类、智能化高速处理。4、多文种手写笔迹的识别和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理实践中的患者安全管理
- 上海海关学院《安全管理与法规》2025-2026学年第一学期期末试卷(B卷)
- 制药资格考试题库及答案
- 办公室上半年总结及下半年工作计划
- 新生儿黄疸护理要点
- 护理实践中的循证医学应用
- 护理脑卒中护理培训
- 急诊灾难医学救援专家共识(2026版)
- 2026年个人职业资源整合报告
- 药品经营企业岗前培训验收员试题(含答案)
- 2026届高三英语二轮复习读后续写专题之修辞手法
- 2026年度省综合专家库评标专家继续教育培训试题及答案解析
- 2026四川成都市公共交通集团有限公司招聘储备人才等岗位备考题库含答案详解(突破训练)
- 2025西安建筑科技大学辅导员招聘考试真题
- 雨课堂学堂在线学堂云《跨文化交际英语(北京理工)》单元测试考核答案
- DB11T 3032-2022 水利工程建设质量检测管理规范
- 媒体创意经济:玩转互联网时代学习通超星期末考试答案章节答案2024年
- GB/T 44299-2024探测器探测范围的测量方法和声明用于大和小运动探测的被动式红外探测器
- GSTGM9000图形显示装置软件用户手册
- 明管结构计算书(Excel)
- 2023年同等学力申硕经济学综合历年真题及答案
评论
0/150
提交评论