Linux操作系统下汉字编码的转换.doc_第1页
Linux操作系统下汉字编码的转换.doc_第2页
Linux操作系统下汉字编码的转换.doc_第3页
Linux操作系统下汉字编码的转换.doc_第4页
Linux操作系统下汉字编码的转换.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Linux操作系统下汉字编码的转换因为项目的需要linux下将GBK编码转换为utf8编码,google一下,网上的相关资源比较少,下面的操作经过本人的反复试验。本例子同样适用于其他的编码转换。有gbk到utf8的转换过程,需要经过unicode作为中间编码。因为Windows的转换相对简单,先讲一下windows下的转换过程,linux下的过程基本相同,函数使用上有差别。Windows下:1、在windows下可以使用函数MultiByteToWideChar先将多字节字符,转换为unicode。2、使用函数WideCharToMultiByte,将unicode再转换为utf8编码。google一下,网上例子很多。在这里贴了一个简单的源码,实现ansi到utf8编码的转换view plainchar *multichar_2_utf8(const char *m_string)int len=0;wchar_t *w_string;char *utf8_string;/计算由ansi转换为unicode后,unicode编码的长度len=MultiByteToWideChar(CP_ACP,0,(LPCTSTR)m_string, -1, NULL,0);/CP_ACP指示了转换为unicode编码的编码类型w_string=(wchar_t *)malloc(2*len+2);memset(w_string,0,2*len+2);/ansi到unicode转换MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)m_string,-1,w_string, len);/CP_ACP指示了转换为unicode编码的编码类型/计算unicode转换为utf8后,utf8编码的长度len = WideCharToMultiByte(CP_UTF8, 0, w_string, -1, NULL, 0, NULL, NULL);/CP_UTF8指示了unicode转换为的类型utf8_string=(char *)malloc(len+1);memset(utf8_string, 0, len + 1);/unicode到utf8转换WideCharToMultiByte (CP_UTF8, 0, w_string, -1, utf8_string, len, NULL,NULL);/CP_UTF8指示了unicode转换为的类型free(w_string);return utf8_string;Linux下:linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码类型。view plainandyandy-linux:$ locale -aCen_AGen_AU.utf8en_BW.utf8en_CA.utf8en_DK.utf8en_GB.utf8en_HK.utf8en_IE.utf8en_INen_NGen_NZ.utf8en_PH.utf8en_SG.utf8en_US.utf8en_ZA.utf8en_ZW.utf8POSIXzh_CN.gb18030zh_CN.gbkzh_CN.utf8zh_HK.utf8zh_SG.utf8zh_TW.utf8本例子中实现的是由zh_CN.gbk到zh_CN.utf8的转换流程:1、调用函数setlocale(LC_ALL,zh_CN.gbk),设置待转码的字符串类型为gbk类型。2、调用函数mbstowcs,实现 1 设置的编码到unicode编码的转换。3、调用函数setlocale(LC_ALL,zh_CN.utf8),设置转换后编码类型为utf8类型。4、调用函数wcstombs,实现unicode到 3 设置的编码类型的转换。下面是我写的源码view plain#include #include /* FUNCTION: gbk2utf8* DESCRIPTION: 实现由gbk编码到utf8编码的转换* Input: utfStr,转换后的字符串; srcStr,待转换的字符串; maxUtfStrlen, utfStr的最大长度* Output: utfStr* Returns: -1,fail;0,success* modification history* -* 2011-nov-25, lvhongya written* -*/int gbk2utf8(char *utfStr,const char *srcStr,int maxUtfStrlen)if(NULL=srcStr)printf(Bad Parametern);return -1;/首先先将gbk编码转换为unicode编码if(NULL=setlocale(LC_ALL,zh_CN.gbk)/设置转换为unicode前的码,当前为gbk编码printf(Bad Parametern);return -1;int unicodeLen=mbstowcs(NULL,srcStr,0);/计算转换后的长度if(unicodeLen=0)printf(Can not Transfer!n);return -1;wchar_t *unicodeStr=(wchar_t *)calloc(sizeof(wchar_t),unicodeLen+1);mbstowcs(unicodeStr,srcStr,strlen(srcStr);/将gbk转换为unicode/将unicode编码转换为utf8编码if(NULL=setlocale(LC_ALL,zh_CN.utf8)/设置unicode转换后的码,当前为utf8printf(Bad Parametern);return -1;int utfLen=wcstombs(NULL,unicodeStr,0);/计算转换后的长度if(utfLen=maxUtfStrlen)/判断空间是否足够printf(Dst Str memory not enoughn);return -1;wcstombs(utf

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论