Unicode编程.doc

上传人：a*** IP属地：河南上传时间：2020-01-20 格式：DOC 页数：11 大小：102.50KB 积分：16 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Unicode编程1.1 VC+下的Unicode编程ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节，因此，ASCII编码可以表示的最大字符数是255（00H-FFH）。其实，英文字符并没有那么多，一般只用前128个（00H-7FH，即0x0000 0000-0x0111 1111,最高位为0），其中包括了控制字符、数字、大小写字母和其它一些符号。而另128个字符（80H-FFH，即0x1000 0000-0x1111 1111，最高位为1）被称为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其它符号。中文编码规范“GB2312-80”，其实就是利用把一个中文字符用两个扩展ASCII字符来表示，以区分ASCII码部分。这个方法有问题，最大的问题就是中文的文字编码和扩展ASCII码有重叠。而很多软件利用扩展ASCII码的英文制表符来画表格，这样的软件用到中文系统中，这些表格就会被误认作中文字符，出现乱码。要真正解决这个问题，不能从扩展ASCII的角度入手，而必须有一个全新的编码系统，这个系统要可以为每一种文字的每个字符均分配一个单独的编码，Unicode为此诞生！Unicode也是一种字符编码方法，它占用两个字节（0000HFFFFH）,容纳65536个字符，这完全可以容纳全世界所有语言文字的编码。在Unicode里，所有的字符被一视同仁，汉字不再使用“两个扩展ASCII”，而是所有的文字都按一个字符来处理，它们都有一个唯一的Unicode码。使用Unicode编码可以使您的工程同时支持多种语言，使您的工程国际化。Windows NT是使用Unicode进行开发的，整个系统都是基于Unicode的。如果调用一个API函数并给它传递一个ANSI（ASCII字符集以及由此派生并兼容的字符集，如：GB2312，通常称为ANSI字符集）字符串，那么系统首先要将字符串转换成Unicode，然后将Unicode字符串传递给操作系统。进行这些字符串的转换需要占用系统的时间和内存。如果用Unicode来开发应用程序，就能够使您的应用程序更加有效地运行。下面例举几个字符的编码以简单演示ANSI和Unicode的区别：(注意：中文字符的编号有了变化)字符AN和ANSI码41H4eHcdbaHUnicode码0041H004eH548cH对宽字符的支持其实是ANSI C标准的一部分，用以支持多字节表示一个字符。宽字符和Unicode并不完全等同，Unicode只是宽字符的一种编码方式。(1) 宽字符的定义在ANSI中，一个字符（char）的长度为一个字节（Byte）。使用Unicode时，一个字符占据一个字（2 Bytes），C+在wchar.h头文件中定义了最基本的宽字符类型wchar_t：typedef unsigned short wchar_t; / 所谓的宽字符就是无符号短整数(2) 常量宽字符串对C+程序员而言，构造字符串常量是一项经常性的工作。那么，如何构造宽字符字符串常量呢？很简单，只要在字符串常量前加上一个大写的L就可以了，比如：wchar_t *str1 = L Hello;这个L非常重要，只有带上它，编译器才知道你要将字符串存成一个字符一个字(即一个字符两字节)。还要注意，在L和字符串之间不能有空格。(3) 宽字符串库函数为了操作宽字符串，C+专门定义了一套函数，比如求宽字符串长度的函数是：size_t _cdel wchlen(const wchar_t*);为什么要专门定义这些函数呢？最根本的原因是，ANSI下的字符串都是以来标识字符串尾的（Unicode字符串以“”结束），许多字符串函数的正确操作均是以此为基础进行。而我们知道，在宽字符的情况下，一个字符在内存中要占据一个字的空间(即一个字符两字节)，这就会使操作ANSI字符的字符串函数无法正确操作。以”Hello”字符串为例，在宽字符下，它的五个字符是：0x0048 0x0065 0x006c 0x006c 0x006f在内存中，实际的排列是：48 00 65 00 6c 00 6c 00 6f 00于是，ANSI字符串函数，如strlen，在碰到第一个48后的00时，就会认为字符串到尾了，用strlen对宽字符串求长度的结果就永远会是1！在许多多字节字符集中，0x00 到 0x7F 范围内的每个字符都与 ASCII 字符集中具有相同值的字符相同。(4) 用宏实现对ANSI和Unicode通用的编程可见，C+有一整套的数据类型和函数实现Unicode编程，也就是说，您完全可以使用C+实现Unicode编程。如果我们想要我们的程序有两个版本：ANSI版本和Unicode版本。当然，编写两套代码分别实现ANSI版本和Unicode版本完全是行得通的。但是，针对ANSI字符和Unicode字符维护两套代码是非常麻烦的事情。为了减轻编程的负担，C+定义了一系列的宏，帮助您实现对ANSI和Unicode的通用编程。C+宏实现ANSI和Unicode的通用编程的本质是根据”_UNICODE”（注意，有下划线）定义与否，这些宏展开为ANSI或Unicode字符（字符串）。#ifdef _UNICODEtypedef wchar_t TCHAR; / 定义了_UNICODE宏的情况下，TCHAR是两个字节的字符#define _T(x) L#x / #是ANSI C标准的预处理语法，它叫做“粘贴运算符”，即将前面的L与宏参数合在一起。#define _T(x) _T(x) / _T(x)一个下划线的变成_T(x)两个下划线的#else#define _T(x) x / 未定义_UNICODE宏的情况下，TCHAR是一个字节的字符typedef char TCHAR; / 非宽字符的字符串常量#endif*.几个预编译指令的用法# 字符串化运算符，其主要效果是把参数的名字转换为字符串。Example: / 1. *.h中定义#define STRINGLIZE(ivalue) #ivalue/ *.cpp中定义CString strTmp = STRINGLIZE(2);AfxMessageBox(strTmp);/ 结果是：弹出消息框中显示2，说明可以变成字符串/ 2.#define STRINGLIZE(ivalue) printf(#ivalue is: %d, ivalue)/ 使用STRINGLIZE(2);/ 结果是：2 is: 2，将ivalue的值与后面的字符串合并成一个字符串了/ 注：以下这情况使用时的结果会有不同int a = 2;STRINGLIZE(a);/ 1. 结果是：弹出消息框中显示a/ 2. 结果是：a is: 2注意：预处理的意思就是在编译运行前按字面处理，# 粘贴运算符，即它先进行宏替换，再进行连接。Example: #define MACR1 printf(MACR1 is invoked.)#define MACR2 printf(MACR2 is invoked.)#define MAKE_MACR(n) MACR # n/ 使用时MAKE_MACR(2); / -相当于调用了宏MACR2/ 结果是：MACR2 is invoked./ 2.#define STRINGLIZE(ivalue) TRACE(ivalue is: %d, ivalue#ivalue)STRINGLIZE(2);/ 2. 结果是：ivalue is: 22/ 3.int a = 2;STRINGLIZE(a);/ 3. 结果是：error C2065: aa : undeclared identifier# 字符化运算符Example: #define CHARIZEIT(x) #x/ 使用char c = CHARIZEIT(z);/ 结果是：c = z#include 包含一个源代码文件Example: #include /#include my.h/#include t.c#define 定义宏Example: #define MAX_NUM 10/#define max(x,y) (x) (y) ? (x) : (y);#define可以替代多行的代码，例如MFC中的宏定义:#define MACRO(arg1, arg2) do 语句; while(条件) 关键是要在每一个换行的时候加上一个。#undef 取消已定义的宏#if 如果给定条件为真，则编译下面代码#ifdef 如果宏已经定义，则编译下面代码#ifndef 如果宏没有定义，则编译下面代码#elif 如果前面的#if给定条件不为真，当前条件为真，则编译下面代码#endif 结束一个#if/#ifdef/#ifndef.#else条件编译块#error 停止编译并显示错误信息#line 指令可以改变编译器用来指出警告和错误信息的文件号和行号。#pragma 指令没有正式的定义。编译器可以自定义其用途。C+为字符串函数也定义了一系列宏，只例举几个常用的宏：宏未定义_UNICODE(ANSI字符)定义了_UNICODE(Unicode字符)_tcschrstrchrwcschr_tcscmpstrcmpwcscmp_tcslenstrlenwcslen四、使用Win32 API进行Unicode编程Win32 API中定义了一些自己的字符数据类型。这些数据类型的定义在winnt.h头文件中。例如：typedef char CHAR;typedef unsigned short WCHAR; / wc, 16-bit UNICODE charactertypedef CONST CHAR *LPCSTR, *PCSTR;Win32 API在winnt.h头文件中定义了一些实现字符和常量字符串的宏进行ANSI/Unicode通用编程。同样，只例举几个最常用的：#ifdef UNICODE / 注意此处没有没有下划线typedef WCHAR TCHAR, *PTCHAR;typedef LPWSTR LPTCH, PTCH;typedef LPWSTR PTSTR, LPTSTR;typedef LPCWSTR LPCTSTR;#define _TEXT(quote) L#quote / r_winnt#else / r_winnttypedef char TCHAR, *PTCHAR;typedef LPSTR LPTCH, PTCH;typedef LPSTR PTSTR, LPTSTR;typedef LPCSTR LPCTSTR;#define _TEXT(quote) quote / r_winnt#endif / r_winntAPI的字符串操作函数和C+的操作函数可以实现相同的功能，所以，如果需要的话，建议您尽可能使用C+的字符串函数，没必要去花太多精力再去学习API的这些东西。Win32 API实际上有两个版本。一个版本接受MBCS字符串，另一个接受Unicode字符串。例如：其实根本没有SetWindowText()这个API函数，相反，有SetWindowTextA()和SetWindowTextW()。后缀A表明这是MBCS函数，后缀W表示这是Unicode版本的函数。这些API函数的头文件在winuser.h中声明，下面例举winuser.h中的SetWindowText()函数的声明部分：#ifdef UNICODE#define SetWindowText SetWindowTextW#else#define SetWindowText SetWindowTextA#endif / !UNICODE细心的读者可能已经注意到了UNICODE和_UNICODE的区别，前者没有下划线，专门用于Windows头文件；后者有一个前缀下划线，专门用于C运行时头文件。换句话说，也就是在ANSI C+语言里面根据_UNICODE（有下划线）定义与否，各宏分别展开为Unicode或ANSI字符，在Windows里面根据UNICODE（无下划线）定义与否，各宏分别展开为Unicode或ANSI字符。实际使用中我们同时定义_UNICODE和UNICODE，以实现UNICODE版本编程。微软提供了一些ANSI和Unicode兼容的通用数据类型，我们最常用的数据类型有_T ，TCHAR，LPTSTR, LPCTSTR。LPCTSTR和const TCHAR*是完全等同的。其中L表示long指针，这是为了兼容Windows 3.1等16位操作系统遗留下来的，在Win32 中以及其它的32位操作系统中，long指针和near指针及far修饰符都是为了兼容的作用，没有实际意义。P（pointer）表示这是一个指针；C（const）表示是一个常量；T(_T宏)表示兼容ANSI和Unicode，STR（string）表示这个变量是一个字符串。综上可以看出，LPCTSTR表示一个指向常固定地址的可以根据一些宏定义改变语义的字符串。比如: TCHAR *szText = _T(Hello!);TCHAR szText = _T(I Love You);LPCTSTR lpszText = _T(大家好！);使用函数中的参数最好也要有变化，比如：MessageBox(_T(你好);其实，在这条语句中，即使您不加_T宏，MessageBox函数也会自动把“你好”字符串进行强制转换。还是推荐您使用_T宏，以表示您有Unicode编码意识。一些字符串操作函数需要获取字符串的字符数(sizeof(szBuffer)/sizeof(TCHAR)，而另一些函数可能需要获取字符串的字节数sizeof(szBuffer)。您应该注意该问题并仔细分析字符串操作函数，以确定能够得到正确的结果。1. ANSI操作函数: 以str开头，如strcpy()，strcat()，strlen()；2. Unicode操作函数: 以wcs开头，如wcscpy，wcscpy()，wcslen()；3. ANSI/Unicode操作函数: 以_tcs开头 _tcscpy(C运行期库)；4. ANSI/Unicode操作函数: 以lstr开头 lstrcpy(Windows函数)；考虑ANSI和Unicode的兼容，我们需要使用以_tcs开头或lstr开头的通用字符串操作函数。很多时候程序中既需要Unicode，又需要使用ASCII，这时需要用到操作系统的2个API：WideCharToMultiByte用来将Unicode字符串转化为MBCS的；MultiByteToWideChar用来将MBCS字符串转化为Unicode的；函数原型：/ 将宽字符转换成多个窄字符int WideCharToMultiByte(UINT CodePage, / code pageDWORD dwFlags, / performance and mapping flagsLPCWSTR lpWideCharStr, / wide-character stringint cchWideChar, / number of chars in stringLPSTR lpMultiByteStr, / buffer for new stringint cbMultiByte, / size of bufferLPCSTR lpDefaultChar, / default for unmappable charsLPBOOL lpUsedDefaultChar); / set when default char used/ 将多个窄字符转换成宽字符int MultiByteToWideChar(UINT CodePage, / code pageDWORD dwFlags, / character-type optionsLPCSTR lpMultiByteStr, / string to mapint cbMultiByte, / number of bytes in stringLPWSTR lpWideCharStr, / wide-character bufferint cchWideChar); / size of buffer这个是我们需要转化的MBCS字符串：char sText20 = 多字节字符串!OK!;而我们需要知道转化后的UNICODE字符串需要多少个数组空间？直接定义一个20 * 2UNICODE字符的数组，将会发现其中有浪费内存情况！我们只需要将MultiByteToWideChar()的第四个形参设为-1，即可返回所需的短字符数组空间的个数： DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);接下来，我们只需要分配响应的数组空间:wchar_t *pwText = NULL;pwText = new wchar_tdwNum;if (!pwText)delete pwText;再接着,我们就可以着手进行转换了。在这里以转换成ASCII码做为例子：MultiByteToWideChar(CP_ACP, / ANSI code page0, /sText, / MBCS字符串-1, / 返回UNICODE字符串包括的长度pwText, / UNICODE字符串数组dwNum); / UNICODE字符串数组元素个数最后,使用完毕当然要记得释放占用的内存：delete pwText;同理,宽字符转为多字节字符的代码如下：wchar_t wText20 = L宽字符转换实例!OK!;DWORD dwNum = WideCharToMultiByte(CP_OEMCP, / OEM code page0, /wText, / UNICODE字符串-1, / 返回MBCS字符串包括的长度NULL, /0, /NULL, /FALSE); /char *psText = NULL;psText = new chardwNum;if (!psText)delete psText;WideCharToMultiByte (CP_OEMCP, 0, wText, -1, psText, dwNum, NULL, FALSE);delete psText;最后给一个实例

人人文库> 全部分类> 专业文献 > IT计算机

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Unicode编程.doc

文档简介

温馨提示

最新文档

评论

Unicode编程.doc

文档简介

温馨提示

最新文档

评论

相关文档