字符集之间转换(UTF-8,UNICODE,Gb2312)

天云上人 · 发表于 2006-12-20 15:32:46

特搜集了UTF-8,UNICODE,Gb2312他们3个之间的相互转换.

UTF-8: 3字节一个字符
UNICODE: 2字节一个字符
GB2312: 1字节一个字符

例子：

“你”字的UTF-8编码: E4 BD A0　　　　　　　　11100100 10111101 10100000
“你”的Unicode编码: 4F 60　　　　　　　　　 01001111 01100000
按照UTF-8的编码规则，分解如下：xxxx0100 xx111101 xx100000
把除了x之外的数字拼接在一起，就变成“你”的Unicode编码了。
注意UTF-8的最前面３个1，表示整个UTF-8串是由３个字节构成的。
经过UTF-8编码之后，再也不会出现敏感字符了，因为最高位始终为1。

类定义

class CChineseCode
9 a, J6 x- h9 z; I" c+ ~
{
: v8 p, F1 r8 B& z, n, n
public:
/ d. Z8 s. w7 \ C" {, d, n3 w
static void UTF_8ToUnicode(wchar_t* pOut,char *pText); // 把UTF-8转换成Unicode
3 N) p1 j8 C7 U6 w7 n( y
static void UnicodeToUTF_8(char* pOut,wchar_t* pText); //Unicode 转换成UTF-8
0 A; |7 x: x U' }+ {5 _8 |
static void UnicodeToGB2312(char* pOut,wchar_t uData); // 把Unicode 转换成 GB2312 3 \* _ Q3 a, S' W$ j: W3 v
static void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer);// GB2312 转换成　Unicode
D, ^5 q7 V& `3 X; p& R/ S
static void GB2312ToUTF_8(string& pOut,char *pText, int pLen);//GB2312 转为 UTF-8. l9 L$ `* C5 _$ j! t& z
static void UTF_8ToGB2312(string &pOut, char *pText, int pLen);//UTF-8 转为 GB2312
( Z+ H) S: |: C+ H, d7 {6 n
};

复制代码

类实现

void CChineseCode::UTF_8ToUnicode(wchar_t* pOut,char *pText)
7 @& Y: m0 h" @6 U6 W
{) Z; d' q- T+ J0 X& }9 b; G5 B4 Y' h
char* uchar = (char *)pOut;
& ] w- L1 k+ z
! S- q* H4 N! B
uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);7 ?5 r* V" P! C+ X J8 E! v6 E
uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);* \$ R" q }6 h
% I2 P4 V1 @' r4 o+ _9 s
return;; z6 b3 {# j; X
}
8 {6 I5 \4 Y2 T! Y8 t7 t
0 l) V; {! S( q" |& y; x" G
void CChineseCode::UnicodeToUTF_8(char* pOut,wchar_t* pText)# Y6 A+ `! L2 c1 J
{# I2 f2 i, C' a) t% @: s, ?4 S$ \
// 注意 WCHAR高低字的顺序,低字节在前，高字节在后. w: p# e# x N
char* pchar = (char *)pText;
7 d( B3 E" z- R) k2 c, \' P8 d
2 F' J5 V1 L9 S- i: m
pOut[0] = (0xE0 | ((pchar[1] & 0xF0) >> 4));
! L; M( b9 J5 d6 p
pOut[1] = (0x80 | ((pchar[1] & 0x0F) << 2)) + ((pchar[0] & 0xC0) >> 6);( G/ q* A) h" e2 L. m
pOut[2] = (0x80 | (pchar[0] & 0x3F));7 s; t8 O" k& Y, f$ s r& I
1 H, @4 [8 E* Z
return;
9 c9 [# Z9 u; ?0 j" A/ D% C5 H C" e
}
3 X/ v% N& N6 M: K
& X* W9 A6 \) |1 i
void CChineseCode::UnicodeToGB2312(char* pOut,wchar_t uData)0 u" q+ l8 ]2 [* ]
{ j9 g9 } E6 r6 d' @$ @
WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(wchar_t),NULL,NULL);
a2 v$ z, v: A" _: M$ Z O1 i
return;) I3 X& N$ N/ M ?
} / ]. `$ Z7 [3 \2 K/ Y, `
- d1 J" g# b4 Q' X. ^( C
void CChineseCode::Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer)& a0 _5 s% H# ?* K
{/ b4 |* a! j! B1 n }
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
8 @! G9 t5 d E" g: a
return ;# j" G) G% ]5 r2 u; e
}. ^! ]( T) S8 G. [2 v7 e- x" P/ i( D' O
5 [- a0 F0 |, K7 N
void CChineseCode::GB2312ToUTF_8(string& pOut,char *pText, int pLen)
, x- ?! N4 X1 z# \5 _
{& ^- t# H, y4 e+ ^+ N& c" M5 `& ?
char buf[4]; v B4 g" ~) S0 K+ o, k
int nLength = pLen* 3;; r; t5 V5 W+ s. R
char* rst = new char[nLength];
* E9 _7 H# f" j! _0 V! N$ z
5 T8 _2 {6 ]9 x& t" u- W# I
memset(buf,0,4);' u; F' G( r5 w4 x9 t {; P8 K5 l
memset(rst,0,nLength);. L3 G5 G2 [: _) d
/ F7 S P% D8 c8 e
int i = 0;, A- P% Z& m, v8 ^+ m
int j = 0;
( J! ^* J% S% d' ]6 N7 z! s" {7 m
while(i < pLen)
1 y' r* ]) x* |; d1 |
{
, f' }, w @4 J/ v; A
//如果是英文直接复制就可以
' @6 w/ t/ ^! [# L
if( *(pText + i) >= 0)
# {3 o& z: v# j+ @0 P6 l! ]
{# u; o" p8 `. C; L4 L. m% q' V
rst[j++] = pText[i++];4 d0 Q$ | f7 I/ _
}7 L1 K. \+ b; h" ]. h
else2 M. n5 ^% p$ Z9 P
{
, H, Y1 u6 \5 B A& B2 ?
wchar_t pbuffer;8 Y) @2 V3 p$ F7 \: g6 H
Gb2312ToUnicode(&pbuffer,pText+i);) s+ m( j* v, j$ A7 ?- B
) \# f2 W6 X) M, C4 F4 p0 k' t- O
UnicodeToUTF_8(buf,&pbuffer);
% F/ K3 {, i( o" A% B
, ^2 |1 ^& h" m1 U* e7 |
unsigned short int tmp = 0;6 B/ B9 i3 J- u3 U
tmp = rst[j] = buf[0];
, U# g) B8 c( i" t, Q
tmp = rst[j+1] = buf[1];1 S$ y9 ~/ l$ E0 p' \
tmp = rst[j+2] = buf[2]; - V" a% N [; ]# `0 n% }7 g* W P
3 r3 w: V, K* z* r& s/ L
j += 3;
8 G; n" c; q! \5 k
i += 2;
* w& S" x) t# i$ ]0 L* S5 G* |
}
9 }5 N" @- m0 L. W1 y- X
}; B$ C I, Z) P5 A6 v* f' r
rst[j] = '\0';9 O+ K: A5 A. w( Y
0 o8 u- w# U; r
//返回结果
# g3 `& B: ^, k
pOut = rst;
, g1 p: h+ G" c2 |
delete []rst;
) B' d3 {$ {& F8 U+ X. w
$ }, f# X6 I3 j8 j- m
return;$ A3 t! v/ e/ z5 S# a2 h! m! Z
}( H" K M$ i) p% I; W/ e
) ]) Y- x) d0 @) i3 q
void CChineseCode::UTF_8ToGB2312(string &pOut, char *pText, int pLen)
- ~1 V) @. V9 E2 M. {, d
{
# v/ p4 c8 C2 [# b% Y! Y# Y/ P& @
char * newBuf = new char[pLen];, d) m! K; q+ e/ z9 g; w- ]
char Ctemp[4];$ e& l3 B9 O/ N. F* H
memset(Ctemp,0,4);
6 g: B' u4 ^% r4 l1 `; f
: z+ B4 \( H6 u3 a1 [
int i =0;
0 @% _' y: _5 r" j- |
int j = 0;4 [' l9 D4 @4 M. A% p$ D" t( V
3 r) }6 N( Q u
while(i < pLen) e0 |0 `# R/ G w4 J& v
{
1 V- I' Y; _5 C9 Y/ j& w
if(pText[i] > 0)5 z- a" p' i9 D) n* _
{4 g* T$ D. w. {' B& d
newBuf[j++] = pText[i++];
# y6 u8 s/ H; S8 F
}% M/ B e' g* I
else 6 S+ k8 N+ u5 I% e9 U' t
{
% Y' a* B+ `- U) U
WCHAR Wtemp;4 K) X' V& V% r: l
UTF_8ToUnicode(&Wtemp,pText + i);
4 x* g. m5 Q# V: G1 @: B6 [' t4 K
1 ?9 N% s# N3 Z1 S: ^# u6 v+ V) O( e
UnicodeToGB2312(Ctemp,Wtemp);% j* o& b" W* I1 E% C/ q
2 D/ d: |+ ^% W
newBuf[j] = Ctemp[0];
) ~( U+ \& ]' X, x' ~3 Q' z- t/ g
newBuf[j + 1] = Ctemp[1];# h- d! r3 ` M8 @1 d
8 ~ M4 g/ `: B' v; y
i += 3; 4 b1 l4 ?" l7 v) p* N. S
j += 2;
) ?3 P4 m! X5 R
}8 W7 c6 @: J6 @: u0 ]. u/ s% P
}! O3 ~: k5 j9 x- Q' c X/ Z
newBuf[j] = '\0';( T" H. _( a& F% d0 K% j
3 l& F3 l( A$ _ i' M& s8 w
pOut = newBuf;/ m) P/ b9 F4 e
delete []newBuf;
& B0 z+ ]9 R% j2 M n$ V: A: R
6 t& t% _* f/ b2 N6 i
return; & t X. T- C6 T& Y* d: U
}

复制代码

		自动登录	找回密码
密码			注册

字符集之间转换(UTF-8,UNICODE,Gb2312)

浏览过的版块