字符集之间转换(UTF-8,UNICODE,Gb2312)

天云上人 · 发表于 2006-12-20 15:32:46

特搜集了UTF-8,UNICODE,Gb2312他们3个之间的相互转换.

UTF-8: 3字节一个字符
UNICODE: 2字节一个字符
GB2312: 1字节一个字符

例子：

“你”字的UTF-8编码: E4 BD A0　　　　　　　　11100100 10111101 10100000
“你”的Unicode编码: 4F 60　　　　　　　　　 01001111 01100000
按照UTF-8的编码规则，分解如下：xxxx0100 xx111101 xx100000
把除了x之外的数字拼接在一起，就变成“你”的Unicode编码了。
注意UTF-8的最前面３个1，表示整个UTF-8串是由３个字节构成的。
经过UTF-8编码之后，再也不会出现敏感字符了，因为最高位始终为1。

类定义

class CChineseCode+ v6 B; k' f9 N. @% o$ U( J2 `
{
; M5 e# s, D8 B! b, @
public:6 a- r# ] f+ d% @$ q. C
static void UTF_8ToUnicode(wchar_t* pOut,char *pText); // 把UTF-8转换成Unicode2 l4 V, n; z' G; T% ] m% S# Q
static void UnicodeToUTF_8(char* pOut,wchar_t* pText); //Unicode 转换成UTF-8
# }( x, C0 N& M. G
static void UnicodeToGB2312(char* pOut,wchar_t uData); // 把Unicode 转换成 GB2312
2 W5 j1 P2 e! F. }( |
static void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer);// GB2312 转换成　Unicode
8 Z' j, p2 Z+ o+ J$ n/ f0 p
static void GB2312ToUTF_8(string& pOut,char *pText, int pLen);//GB2312 转为 UTF-8$ R. J% }& u1 z
static void UTF_8ToGB2312(string &pOut, char *pText, int pLen);//UTF-8 转为 GB23121 b5 E0 R! I4 C
};

复制代码

类实现

void CChineseCode::UTF_8ToUnicode(wchar_t* pOut,char *pText)( E& e- U, l1 B& k" c' Y0 C6 t: W+ K
{& n5 [) u. e- v: ~$ r: b
char* uchar = (char *)pOut;
( v* r$ A, s# Q$ V4 x, B/ e
- {( n! _: ?5 ] L; z
uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);5 x& e# n" f; D% ?( F
uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);
$ D8 T/ [, w+ [& S( r
' g; g2 G+ n) v. }
return;
! }4 S: ~. H6 Y! }- A8 M# f
}8 A5 ~' B& M, }2 W/ X
3 { e: j# @5 p* m
void CChineseCode::UnicodeToUTF_8(char* pOut,wchar_t* pText)
: I* B1 G7 D0 Q0 F4 T! V3 ^
{
( p8 _; N$ P) q: ~& k
// 注意 WCHAR高低字的顺序,低字节在前，高字节在后
* g0 D0 W' n3 @' Y+ S
char* pchar = (char *)pText;" D. [' J( X& D) u
. z! j2 v! \+ l5 I
pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
0 V4 p9 n: H* \$ e% Z
pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[0] & 0xC0) >> 6);
. _9 a0 G: f' r% ^* n8 Z6 R
pOut[2] = (0x80 | (pchar[0] & 0x3F));) f( y/ @' Z) p, p: I0 K7 f9 `
3 k# k% }9 H7 n b i: g0 ^
return;
: L/ i# h8 R U( \
}# }0 f+ ] `+ j
* k- I, U4 |* U, Y, C
void CChineseCode::UnicodeToGB2312(char* pOut,wchar_t uData)/ z; u4 g5 d! K! K
{
. z5 b' L8 O8 q: c" U, d
WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(wchar_t),NULL,NULL);
$ W h0 W/ T9 P; y& Z( M c3 g
return;
; r0 R4 |0 f& n9 b3 f+ P2 P9 l
}
& j$ X) O. f& G
& i# Y" k- w: v" J6 x4 m; P
void CChineseCode::Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer)
. V0 r- k' u0 |
{$ `& T+ |- n- W ` J4 m0 {
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);# h9 E0 R, I8 f- W0 x
return ;
0 }. z# J9 B! k
}
7 P) V# u8 K* r" t- ]
2 q. t, e/ L5 z3 j4 \& f% I/ a' J
void CChineseCode::GB2312ToUTF_8(string& pOut,char *pText, int pLen), k* [. t8 n# d$ N
{0 i! x# [( T. J& W' L7 H# F
char buf[4];
* U. P3 R1 M J6 G* Y6 j
int nLength = pLen* 3;! B6 D C" }7 Q0 L! t1 H
char* rst = new char[nLength];
* |! j& \0 D- D9 ^' W, C
, Y+ E5 |6 ~ i! G
memset(buf,0,4);# n+ e/ V, t, v1 T, P0 I5 s. r% U
memset(rst,0,nLength);
( `& D( d( _' ` v6 E" D3 G
3 l* U# I* F+ \; Z! p
int i = 0;
. D/ O/ J, _3 {2 c" S9 [6 }( ?& h
int j = 0;
5 U3 e. k6 Z' M! \
while(i < pLen)" q6 p9 L# o5 N8 a
{
, `; m2 k/ K" l" T( p1 @
//如果是英文直接复制就可以
2 W3 C6 ~# a/ g2 ]' o" q$ \* A
if( *(pText + i) >= 0)
% U. I+ E* }7 F' {& T% ^# D
{/ G+ |+ Q( j9 T& r
rst[j++] = pText[i++];. g& D4 v+ l$ ?& m; W& \
}
6 E! U: s S p
else
5 B' i, v: L: K9 }! w1 p, o
{
4 e0 T8 C, N- i1 @- w
wchar_t pbuffer;
: G( E# W" C+ f! N/ H! }% |
Gb2312ToUnicode(&pbuffer,pText+i);; H9 g n1 g: g
" O2 e+ g; d# w: }2 F' \
UnicodeToUTF_8(buf,&pbuffer);
% O( f% w3 \& i& a
: x! U3 V, M, q# x
unsigned short int tmp = 0;
1 [: O. D* i: K8 e+ e
tmp = rst[j] = buf[0];
+ \5 Y9 y$ l! _' B% j, z" d
tmp = rst[j+1] = buf[1];
" x% O0 z7 T9 {/ a. c2 v" X$ S; e
tmp = rst[j+2] = buf[2]; + G) R+ o* S; ]6 r* O1 l3 T2 J
& {4 J6 l# X6 r: B: K
j += 3;! }4 c/ E! r( S7 N& K" l
i += 2;6 u! l7 }6 E% l' e. ?3 j6 ^( ?
}
: D* X [: F& A+ ?' w( n& X( c
}# u. W0 w! m3 O. J% W9 N
rst[j] = '\0';! V* Y- }5 w+ U9 i
3 n. |4 C* d& i# \' L9 b
//返回结果7 m$ V5 C( s9 e) {+ b j
pOut = rst;
% d: y2 X* Z; t+ P! i
delete []rst;
& P8 _7 X( a! ~: S6 @# c/ ^
& @5 E! Y* ?, g& c' F% E7 h
return;; a0 i3 H! Y3 l4 w5 \
}- K4 r: @0 o& R5 D2 {% B
$ A! g P$ E+ I0 K! D+ _! a$ o0 {
void CChineseCode::UTF_8ToGB2312(string &pOut, char *pText, int pLen)+ l4 R4 k) A2 e6 [) q$ M
{
" v3 K8 C( R2 t( B, _. `; L
char * newBuf = new char[pLen];( C, P3 N P8 e. ^
char Ctemp[4];9 F% a3 E5 K4 N# M$ c: b
memset(Ctemp,0,4);
+ g g3 V M+ J
1 {& @+ c p [
int i =0;$ t6 {6 X( F9 @ \- {: ]1 p9 b
int j = 0;
& B) e, X2 C( c+ U
, n5 P" R3 O9 y9 ?, D
while(i < pLen)
$ n3 j2 W C' A2 I, d
{9 X" b, }. P8 S3 a2 ]
if(pText[i] > 0)
{2 r5 I7 v% p! _, u2 M
newBuf[j++] = pText[i++];
0 A7 U$ U* A; i( V7 T
}! _& u' @4 A1 f% E' ^/ V3 B
else 9 b! a0 c8 T. [0 i$ n
{/ D- [/ K6 j1 k. ^2 X
WCHAR Wtemp;; b( @* Z% g; }- b- n2 w5 a
UTF_8ToUnicode(&Wtemp,pText + i);/ W5 {# K1 N) ^% r6 r& S2 R2 b
4 o' d1 O8 K; }$ q+ x' e. y( z
UnicodeToGB2312(Ctemp,Wtemp);& Y' K3 U8 i7 S. c
% O% @+ z, U. j
newBuf[j] = Ctemp[0];6 w X, c0 D3 O7 H9 L& W% h
newBuf[j + 1] = Ctemp[1];
- V7 ]/ }0 c7 D) j1 D
G7 g" L* E9 C2 l- X/ l9 I' a, m
i += 3; 6 g1 N) f7 m0 ]* w9 y& ?$ O3 w
j += 2;
3 Q% T5 w; _8 v- m+ @
}& s( c# o+ }0 O$ }& G
}
p: t: |: x) G8 Z
newBuf[j] = '\0';7 f# ~- B. i$ J( L
+ L- K/ o( h0 s9 ~6 P) P+ O5 K
pOut = newBuf;
0 l" L, G% L7 E( }' g0 L
delete []newBuf;
5 b6 n9 ~. ], N
7 T/ \ @( @) v X
return; ( E& o* B1 y9 _9 A2 D/ v6 p$ }
}

复制代码

		自动登录	找回密码
密码			注册

字符集之间转换(UTF-8,UNICODE,Gb2312)

浏览过的版块