




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
python 中文乱码问题深入分析一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢?在本文中,以哈来解释作示例解释所有的问题,“哈”的各种编码如下: 1. UNICODE (UTF8-16),C854; 2 UTF-8,E59388; 3 GBK,B9FE。 一、python中的str和unicode 一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢? 在python中提到unicode,一般指的是unicode对象,例如哈哈的unicode对象为 uu54c8u54c8 而str,是一个字节数组,这个字节数组表示的是对unicode对象编码(可以是utf-8、gbk、cp936、GB2312)后的存储的格式。这里它仅仅是一个字节流,没有其它的含义,如果你想使这个字节流显示的内容有意义,就必须用正确的编码格式,解码显示。 例如:对于unicode对象哈哈进行编码,编码成一个utf-8编码的strs_utf8,s_utf8就是是一个字节数组,存放的就是xe5x93x88xe5x93x88,但是这仅仅是一个字节数组,如果你想将它通过print语句输出成哈哈,那你就失望了,为什么呢?因为print语句它的实现是将要输出的内容传送了操作系统,操作系统会根据系统的编码对输入的字节流进行编码,这就解释了为什么utf-8格式的字符串“哈哈”,输出的是“鍝堝搱”,因为 xe5x93x88xe5x93x88用GB2312去解释,其显示的出来就是“鍝堝搱”。这里再强调一下,str记录的是字节数组,只是某种编码的存储格式,至于输出到文件或是打印出来是什么格式,完全取决于其解码的编码将它解码成什么样子。这里再对print进行一点补充说明:当将一个unicode对象传给print时,在内部会将该unicode对象进行一次转换,转换成本地的默认编码(这仅是个人猜测)二、str和unicode对象的转换str和unicode对象的转换,通过encode和decode实现,具体使用如下:将GBK哈哈转换成unicode,然后再转换成UTF8三、Setdefaultencoding如上图的演示代码所示:当把s(gbk字符串)直接编码成utf-8的时候,将抛出异常,但是通过调用如下代码:importsysreload(sys)sys.setdefaultencoding(gbk)后就可以转换成功,为什么呢?在python中str和unicode在编码和解码过程中,如果将一个str直接编码成另一种编码,会先把str解码成unicode,采用的编码为默认编码,一般默认编码是anscii,所以在上面示例代码中第一次转换的时候会出错,当设定当前默认编码为gbk后,就不会出错了。至于reload(sys)是因为Python2.5初始化后会删除sys.setdefaultencoding这个方法,我们需要重新载入。四、操作不同文件的编码格式的文件建立一个文件test.txt,文件格式用ANSI,内容为:abc中文用python来读取# coding=gbkprint open(Test.txt).read()结果:abc中文把文件格式改成UTF-8:结果:abc涓枃显然,这里需要解码:# coding=gbkimport codecsprint open(Test.txt).read().decode(utf-8)结果:abc中文上面的test.txt我是用Editplus来编辑的,但当我用Windows自带的记事本编辑并存成UTF-8格式时,运行时报错:Traceback (most recent call last):File ChineseTest.py, line 3, inprint open(Test.txt).read().decode(utf-8)UnicodeEncodeError: gbk codec cant encode character uufeff in position 0: illegal multibyte sequence原来,某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:# coding=gbkimport codecsdata = open(Test.txt).read()if data:3 = codecs.BOM_UTF8:data = data3:print data.decode(utf-8)结果:abc中文五、文件的编码格式和编码声明的作用源文件的编码格式对字符串的声明有什么作用呢?这个问题困扰一直困扰了我好久,现在终于有点眉目了,文件的编码格式决定了在该源文件中声明的字符串的编码格式,例如:str=哈哈printrepr(str)a.如果文件格式为utf-8,则str的值为:xe5x93x88xe5x93x88(哈哈的utf-8编码)b.如果文件格式为gbk,则str的值为:xb9xfexb9xfe(哈哈的gbk编码)在第一节已经说过,python中的字符串,只是一个字节数组,所以当把a情况的str输出到gbk编码的控制台时,就将显示为乱码:鍝堝搱;而当把b情况下的str输出utf-8编码的控制台时,也将显示乱码的问题,是什么也没有,也许xb9xfexb9xfe用utf-8解码显示,就是空白吧。_说完文件格式,现在来谈谈编码声明的作用吧,每个文件在最上面的地方,都会用#coding=gbk类似的语句声明一下编码,但是这个声明到底有什么用呢?到止前为止,我觉得它的作用也就是三个:1. 声明源文件中将出现非ascii编码,通常也就是中文; 2. 在高级的IDE中,IDE会将你的文件格式保存成你指定编码格式。 3. 决定源码中类似于u哈这类声明的将哈解码成unicode所用的编码格式,也是一个比较容易让人迷惑的地方,看示例:#coding:gbkss=u哈哈printrepr(ss)printss:%s%ss将这个些代码保存成一个utf-8文本,运行,你认为会输出什么呢?大家第一感觉肯定输出的肯定是:uu54c8u54c8ss:哈哈但是实际上输出是:uu935du581du6431ss:鍝堝搱为什么会这样,这时候,就是编码声明在作怪了,在运行ss=u哈哈的时候,整个过程可以分为以下几步:1)获取哈哈的编码:由文件编码格式确定,为xe5x93x88xe5x93x88(哈哈的utf-8编码形式)2)转成 unicode编码的时候,在这个转换的过程中,对于xe5x93x88xe5x93x88的解码,不是用utf-8解码,而是用声明编码处指定的编码GBK,将xe5x93x88xe5x93x88按GBK解码,得到就是鍝堝搱,这三个字的unicode编码就是uu935du581du6431,至止可以解释为什么printrepr(ss)输出的是uu935du581du6431 了。好了,这里有点绕,我们来分析下一个示例:#-*-coding:utf-8-*-ss=u哈哈printrepr(ss)printss:%s%ss将这个示例这次保存成GBK编码形式,运行结果,竟然是:UnicodeDecodeError:utf8codeccantdecodebyte0xb9inposition0:unexpectedcodebyte这里为什么会有utf8解码错误呢?想想上个示例也明白了,转换
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大豆品牌连锁餐厅创新创业项目商业计划书
- 智能按摩床个性化定制创新创业项目商业计划书
- 广告精准投放服务创新创业项目商业计划书
- 智慧养老社区心理健康咨询热线创新创业项目商业计划书
- 智慧农业云服务系统创新创业项目商业计划书
- 2025江苏泰州市中西医结合医院招聘高层次卫生专业技术人才5人考前自测高频考点模拟试题及答案详解(夺冠系列)
- 应用者融资与孵化服务创新创业项目商业计划书
- 植物纤维创意产品设计工作室创新创业项目商业计划书
- 果蔬脆片生产线创新创业项目商业计划书
- 智慧农业物联网技术应用示范创新创业项目商业计划书
- 糖尿病患者健康教育讲座
- 青春期生理健康课
- 2025年铁路线路工高级技师练习题库(答案+解析)
- DB44T 2603-2025 预制菜术语及分类
- DB4201T 632-2021 岩溶地区勘察设计与施工技术规程
- 2025年高考真题-政治(湖南卷) 含答案
- 变电二次培训活动方案
- 学堂在线 管理沟通的艺术 期末考试答案
- 钢结构工程投标方案
- 护理十八项核心制度考试题及答案
- 7000字工商管理毕业论文范文:数字化转型研究
评论
0/150
提交评论