




免费预览已结束,剩余74页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、复习提纲,中文信息处理概论徐润华,2014年秋,2,语言信息处理,语言信息处理在自然语言的各层次(词素、词、短语、句子、段落、章)用计算机处理各种表现形式(图像、声音、文本)的信息。 关于智能处理的情况多为“使用计算模型”,不仅仅是“使用计算机”。 3、语言信息的提取和提取,数据具体,知识概括。 现在,数据过多,知识不足,信息爆炸,但面临着知识获取的瓶颈。 数据挖掘从数据仓库挖掘知识,语言信息处理从语料库挖掘语言知识。 4、汉语信息处理的特殊性,汉字的特殊性:字数多,简体字、繁体字和异体字,外语文字的协调处理。 书面汉语的特殊性:需要用词分隔。 汉语语音的特殊性:语音系统简单。 汉语语法的特殊性:形态贫乏。 5、汉语信息处理的研究内容、基础研究:包括汉字字符集编码体系、汉语信息处理的发展战略和基本方法、汉语计算模型、汉语语料库和语言知识库的建设、系统自动评价等。 应用研究:面向最终用户的系统软件和应用软件的设计与开发。 6、中文信息处理的基础技术研究课题,自动分词:切分口语和书面语中的词(词是基本的语言单位,很多应用研究首先需要自动分词)。 词性标记:表示具体语境中的词性(词性系列是现在大部分句法分析器的输入)。 词义标注:表示具体语境下的词义和类别(服务于信息检索、机器翻译等应用研究)。 句法分析:分析句子中语法形式的结构关系和层次(服务于机器翻译等应用研究)。 7、汉语信息处理的应用研究课题、汉字识别(活字识别、手写识别、图像、影像中的汉字识别)汉语语音识别(自动听写、口语查询、口语命令)汉语语音合成(朗读机、自动查询中的口语反馈)汉语信息检索(检索引擎、自动摘要、文本分类) 汉外机器翻译(如谷歌在线翻译)其他:汉字输入法、自动校对、机器辅助词典编纂、机器辅助汉语、汉字教育、少数民族语言信息处理、古汉语信息处理等。 8、以规则为基础的方法,用确定的规则解决问题。 合理主义的方法。 优点:易于利用专家知识,无需事先用人工标记。 困难:专家知识可能不完整、不充分或不适用。 自动分词的最大匹配法是基于规则的方法,用应分写的汉字列中的部分列查词表,发现即使是词(优先寻找较长的部分列)。 例如,这首诗“太平淡”是“太平淡”、“太平淡”还是“太平淡”,中文词汇学不提供这样的知识。 9、根据统计方法,把从语料库得到的统计数据作为模型参数,用模型解决问题。 经验主义方法。 优点:系统易于构建,效果通常较好。 困难:数据稀少,区域迁移困难。 自动分词的概率法是统计方法,根据词表找出应该分割的字符串中的所有可能的词,求出概率积最大的分割。 例如,“平淡”的各可能分割中第一概率乘积最大:平淡过于平淡,10、训练集、开发集、测试集通常将经过人工注释或人工校正的实验用语料库分为训练集、开发集、测试集这三个集。 将训练集用于提供模型参数,开发集用于在实验中检测和改进模型的性能,并且在实验结束之后最终评估模型的性能。 计算机只能从训练集中学习模型参数。 开发集和测试集是评估的标准答案。 例如,将实验用语分为10份,其中开发集和测试集各1份,剩下8份作为训练集。11、常用性能评价指标,正解率:也称正解率(Precision ),正确处理的事例数占被处理事例数的比例。 例如,人名识别的正确率等于正确识别的人名个数除以系统认为是人名的个数。 召回百分比: (召回)正确处理的实例数与要处理的实例数的比率。 例如,人名识别的召回率等于正确识别的人名个数除以文本中实际人名个数。 调和平均值: (F-measure ),正确率和再现率的综合表现,f=(2)pr/(2RP ),通常=1时,使用f=2pr/(RP)12,测试,封闭测试:从训练集取得的数据(模型参数和规则)测试训练集本身但是,封闭式测试的成绩可能主要反映了对模型训练集的过度学习(学到了很多细致、稀有的依赖于上下文的数据)。 开放测试:使用从培训集中获取的数据测试测试集,验证知识垄断能力。 开放测试的成绩通常比闭路测试低,但能够更现实地反映模型的性能。 13、字体和以相同方式创建的字符样式的集合。 根据造型方法,点字体: mn像素阵列表示文字造型,占有空间大,不能保证变焦质量。 矢量字体:用一组多段线表示文字样式,空格小,但是增大大小会使外观不好看。 轮廓字体:以一系列直线或曲线表示字符内外的轮廓,字体质量高,占用空间小,可以无级变更。 目前,轮廓字体已经在窗口平台上普遍使用。 14、字节、字符、代码字符集、字节是计算机上的信息访问的基本单位,1字节是8比特的二进制比特,可以表示28=256种状态。 字符以字符为单位,一个字符可以是ASCII字符之类的字节,也可以是汉字之类的多个字节。 汉字字符集的大小远大于256,所以不能用1字节来表现。 对一组字符进行统一编码,使字符和整数一一对应,以便在计算机上更好地表示,从而形成编码字符集。 15、在ASCII字符、计算机上,西字符的代码一般由美国标准的信息交换代码体系规定,通称为“ASCII代码”,该标准已被国际标准化组织接受。 ASCII代码的7位版本。 阿拉伯数字10个字符,大写52个字符,标点符号32个字符,运算符34个字符,共计128个字符(27=128 )。 1字节为8位,7位的ASCII代码只有后面的7位,最高位为0,可区分ASCII字符和双字节字符。 编码空间的争夺“先进先出者”:其他文字(包括中文)的编码必须避开这个空间。 16、与中国信息交换用汉字编码字符集基本集 (GB2312-80 )、信息交换用、国际标准ISO2022兼容。 每个字符以2字节编码,值范围为161到254,编码空间为9494=8836。 用字形编码,用多音字编码,用同音字编码。 共有6763个汉字,其他文字共7445个。 一级汉字3755个,用拼音排序的二级汉字3008个,用部首排序。 最初的汉字是“啊”,编码为176、161。 最后的汉字“馅饼”被编码为247,254。 17、Big5:台湾地区汉字字符集编码,通行中国台湾地区和港澳地区。 可用于信息交换和信息处理。 被称为“繁体中文”。 分为常用字和次常用字两个字面,按字面按画数和部首排序。 编码空间是第一字节161254、第二字节64126、161254,总共14758比特。 也是94区,但每区94 63人。 18、GB13000(GBK ) :汉字内码扩展规范,GB13000(GBK )为指导性规范,由电子科技质量司和国家技术监督局标准化司于1995年12月公布,可用于信息交换和信息处理。 编码空间包括23940位代码比特,其中第一字节是129到254,第二字节是64到254 (缺口127 ),并且汉字是20907位。 GBK与所有GB2312-80汉字兼容(6763汉字代码简单对应),并且在词汇级别支持复盖Big5的CJK (但代码不匹配)。GBK缓解了汉字编码空间狭窄的困难,但还不够。 19、等长码、字符集内的所有字符都用固定码长度进行编码,称为等长码。 例如,ASCII代码中的每个字符都是1字节、国标代码、GBK和UTF-16,每个字符占2字节。 等长编码的缺点是缺乏灵活性:编码空间越小,能够使用的字符越少,编码空间越大,文本空间的浪费就越大。 例如,文本主要是英文字符,汉字很少,UTF-16会浪费很多空格。 此外,中文古籍在GBK还不够。 汉字使用3字节等长代码时,大多数汉字只需要2字节,因此文本的记忆空间浪费了一半。 20、等长代码: UTF-16(Unicode ),各种字符(包括英文)为16位编码。 每个字符都映射到一个短整数(0到065535 ),以便于计算机处理。 有两种形式: Little-endian和Big-endian。 前者的低位字节在前,而在Word软件中简称为Unicode的后者的高位字节在前。 例如,“买”这个字的unicode码是36023,前者是十六进制的b7c,后者是十六进制的8CB7,即分别是二进制的b7c (1116 ) (81612 ) 256=36023 (81612 ) 256 (11167 )=360238 cb7,21,是可变长度码,码长与UTF-8和GB18030类似,ASCII字符以1字节表示,汉字以2到4字节表示。 可变长度编码的优点:能有效地解决编码空间与文本存储空间的矛盾。 可变长度编码的缺点:使用可变长度编码时,有识别文字边界的方法。 因此,编程很麻烦。 (麻烦留给程序员,方便留给用户。 22、可变长度代码: gb18030-2000、信息交换用汉字编码字符集基本集的扩充由信息产业部和国家质量技术监督局于2000年6月17日共同发表,作为强制国家标准在2001年9月1日以后正式实施。 单字节字符: 0到127,支持ASCII字符。 2字节字符:第一字节129254、第二字节64254(127除外)、对应GBK字符。 四字节字符:第一字节129254、第二字节4857、第三字节129254、第四字节4857、合计1587600位。 例如,:151,50,217,51,23,GB18030如何表示字符边界? 以下是GB18030编码的文本(每个字节以十进制表示):1505555555785214206709748其中包含多少字符?每个字符由多少字节组成? 24、GB18030-2000的优点在于,该标准解决了“汉字稀有文本”的存储问题和巨大汉字字符集文本的存储问题。 所有ASCII文本当然都是GB18030编码文本。 由于与GBK编码兼容,因此显而易见,原始GB2312或GBK编码文本也将是GB18030编码文本。 Windows操作系统不支持GB18030。 另外,25,可变长度代码: UTF8,UTF8是Unicode的另一种具体实现方式,不受字符长度的限制,在每个字节中具有标志位,使得标识变得容易。 例如,以单字节:0*、表示ASCII字符2字节: 110 * * * * * * 10 * * * * * * 3字节: 1110*10*4字节: 11110*10*10*英文字符为主体的文本,如果用UTF16进行保存,则会浪费空间汉字的16位代码是3字节,除去8个标志位后是汉字的UTF-16代码。 26、常用的代码字符集一览表、27、汉字的输入代码、汉字输入方式也称为汉字代码,也称为输入代码,指按键位显示(按键序列),与字符集代码(“内部代码”)不同。 外部代码是键盘输入服务,内部代码是信息交换和信息处理服务。 输入方式的目的是将汉字的外码转换成内码。 汉字的字形只有一个内部符号,但可以用一个输入方式具有多个外部符号,例如,“我”用拼音输入方式具有“w”、“wo”等外部符号。 28、输入代码中的“再代码”,一个内部代码只表示一个汉字。 但是,在一些输入方式中,一种外语可以表示几个汉字,这叫做“重文”。 重型代码是输入代码的模糊性。 例如,在拼音输入方式中,“wo”可以表示“我”、“握”、“窝”等。字符集编码可以以汉字字形为单位,输入编码可以以字、词、字符串、句子为单位。 因此,除了单词,单词也有代码。 例如,“wm”可以表示“我们”、“文明”、“外”等。 29、汉字键盘输入代码、符号:汉字代码中使用的汉字特征信息要素(音素、音韵、笔画、词根、部件等)、符号的集合称为符号集。 键元:输入汉字时的按键(例如字母键、数字键等)、键元的集合称为键元集的编码方案。 密钥源集映射和一组完整的编码规则。 汉字输入代码的主要矛盾是输入速度和容易学习的矛盾:输入速度快,容易学习的速度差。 30、测量汉字识别能力的指标、识别率:正确识别的文字对所有输入文字的比率。 拒绝百分比:拒绝(无法识别)识别所有输入字元的字元百分比。 错误识别率:所有输入字符的错误识别率。 31、概率(probability )在采样空间中有n个采样点,如果事件a中有m个,则事件a的概率在P(A)=m/n例:一个语料库中有835万个词次,其中单词“是”出现3万次。 从这个语料库中随机选择单词的话,那个单词变成“是”的概率是多少?解:语料库的规模足够大,可以用相对频率来近似概率。 此时有835万个样本点,因为事件a (单词为“是”)有3万个样本点,所以P(A )为3/835 .32,概率性质,非负性: P(A )0正规性: P()=1(表示整个基本事件)相加性:无限多个事件A1,A2, 在事件相互不相容(相互独立)的情况下,P(Ai)=P(Ai )例:“是”字只有两种读音,读wei4的概率为0.6,解:利用概率的正规性和加法性,“为”字的读音wei2的概率为1-0.6=0. 4,33,合并概率(jj ) P(AB)=P(BA ) .例:将某个字写作“为”,求出读音为wei4的概率。 解:这里,P(A )是“是”字的概率,P(B )是读音wei4的概率。 求P(AB )的一种方法是统计从语料库读出Wii 4的次数,并将其除以该语料库中所有字符的出现次数。 P(A )和P(B )是众所周知的,能据此求出P(AB )吗? 将事件b发生的条件下的事件a的概率称为a的条件概率。在P(B)0根据上式求联立概率的另一种方法中,当p (ab )=p (a ) P(B|A)=P(B ) p (a|b ) p (a|b )时,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阿拉山口市2024-2025学年八年级下学期语文期中模拟试卷
- 安徽省六安市霍邱县2024-2025学年高一上学期期末考试英语试卷及答案
- 生产文员工作总结2025年
- 社区知识及业务知识培训课件
- 社区消防知识培训课件学校
- 河北省邯郸市复兴区2024-2025学年八年级下学期期末考试数学试卷(含答案)
- 2024-2025学年广东省肇庆市七年级(上)期末数学模拟试卷(含答案)
- 材料复合加工合同范本
- 纸品厂承包送货合同范本
- 衣柜重装服务合同范本
- 2025湖南湘潭湘乡市融媒体中心招聘事业单位工作人员10人笔试备考题库及答案解析
- 2025至2030中国婚庆行业发展趋势分析与未来投资战略咨询研究报告
- 2025年职业病诊断医师资格考试(职业性化学中毒)历年参考题库含答案详解(5卷)
- 2025年安徽高考生物试题及答案
- 2025年国际汉语教师资格考试(对外汉语教学理论)历年参考题库含答案详解(5套)
- 2025年高校机房管理试题及答案
- ESG基础知识培训课件
- 2025广西公需科目真题续集(附答案)
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
- 中小学教师违反职业道德行为处理办法
- HelloChina每集摘抄带翻译
评论
0/150
提交评论