|
|
2002-12-05· ·丁有和··yesky
" V" F. _. ~: g! C9 `2 u0 G # X$ x# |/ M4 t+ r' w5 T
+ s4 I( ^- z( J
Visual C++.NET涉及到ATL/ATL Server、MFC和托管C++等多种编程方式,不仅功能强大而且应用广泛。在编程中,我们常常会遇到ANSI、Unicode以及BSTR不同编码类型的字符串转换操作。本文先介绍基本字符串类型,然后说明相关的类,如CComBSTR、_bstr_t、CStringT等,最后讨论它们的转换方法,其中还包括使用最新ATL7.0的转换类和宏,如CA2CT、CA2TEX等。
+ X& C, S$ R' r) r1 }5 V0 a- c2 y# l. A# O5 i% E8 \8 `
一、BSTR、LPSTR和LPWSTR
y; q$ B7 ?1 d; |$ N2 }" C3 [
( M8 y m! k3 r; j6 h" b( ]$ r 在Visual C++.NET的所有编程方式中,我们常常要用到这样的一些基本字符串类型,如BSTR、LPSTR和LPWSTR等。之所以出现类似上述的这些数据类型,是因为不同编程语言之间的数据交换以及对ANSI、Unicode和多字节字符集(MBCS)的支持。
- e0 _) h! f( `7 ]/ @0 ^2 o# G
那么什么是BSTR、LPSTR以及LPWSTR呢?* M1 X# p4 r- R/ f0 ]
# f3 Q# j3 S; q* ^* \
BSTR(Basic STRing,Basic字符串)是一个OLECHAR*类型的Unicode字符串。它被描述成一个与自动化相兼容的类型。由于操作系统提供相应的API函数(如SysAllocString)来管理它以及一些默认的调度代码,因此BSTR实际上就是一个COM字符串,但它却在自动化技术以外的多种场合下得到广泛使用。图1描述了BSTR的结构,其中DWORD值是字符串中实际所占用的字节数,且它的值是字符串中Unicode字符的两倍。
1 p+ O Q) R5 Y/ }* B4 o, h8 t% G5 y! z3 [
LPSTR和LPWSTR是Win32和VC++所使用的一种字符串数据类型。LPSTR被定义成是一个指向以NULL(‘\0’)结尾的8位ANSI字符数组指针,而LPWSTR是一个指向以NULL结尾的16位双字节字符数组指针。在VC++中,还有类似的字符串类型,如LPTSTR、LPCTSTR等,它们的含义如图2所示。1 H' ^3 g. J+ M. x
4 j$ ]. d4 i5 M: L$ K' w3 D 例如,LPCTSTR是指“long pointer to a constant generic string”,表示“一个指向一般字符串常量的长指针类型”,与C/C++的const char*相映射,而LPTSTR映射为 char*。
3 H+ e! w( R2 @* m) {; O7 ^4 X. A! {+ B: G- w
一般地,还有下列类型定义:8 @3 I9 x$ F" x- y$ m2 E! ^& Z5 L
! l( |% g, y& u2 M
#ifdef UNICODE
8 c8 V4 |; c6 e3 b% ]. i, t typedef LPWSTR LPTSTR;
8 Y& ^4 x( ]3 p, R7 `/ s typedef LPCWSTR LPCTSTR;
! r+ J6 t- E5 J$ ^7 o3 h#else p7 r5 y* f$ X, n4 e M* e
typedef LPSTR LPTSTR;
2 \ D t6 u5 {8 H. B typedef LPCSTR LPCTSTR;
: Z) h( n6 Q; T1 M$ q% b: c#endif
9 O3 i7 N1 Z U# X* s% s0 @: t
二、CString、CStringA 和 CStringW, G2 ?+ J. e, Q: ^
9 q" z% p, u+ n1 P
Visual C++.NET中将CStringT作为ATL和MFC的共享的“一般”字符串类,它有CString、CStringA和CStringW三种形式,分别操作不同字符类型的字符串。这些字符类型是TCHAR、char和wchar_t。TCHAR在Unicode平台中等同于WCHAR(16位Unicode字符),在ANSI中等价于char。wchar_t通常定义为unsigned short。由于CString在MFC应用程序中经常用到,这里不再重复。
9 O# K# j) b7 @# b- G
2 B# o, F- U5 [( L 三、VARIANT、COleVariant 和_variant_t# S& c7 l+ F# W6 B/ q
0 T6 \+ @0 B( j, Q: A1 r
在OLE、ActiveX和COM中,VARIANT数据类型提供了一种非常有效的机制,由于它既包含了数据本身,也包含了数据的类型,因而它可以实现各种不同的自动化数据的传输。下面让我们来看看OAIDL.H文件中VARIANT定义的一个简化版:
! ^/ A) a2 v% O0 d" p& K; T! \2 j( E+ ]4 Q2 }# S
struct tagVARIANT {
6 z2 [0 q A8 m& S# r% W VARTYPE vt;3 d' C3 ?: O# W
union {1 ^9 d- ~1 `6 d* @0 ]4 q! N( A
short iVal; // VT_I2.
1 B% P( ?: Q% r- C7 j long lVal; // VT_I4.
, H" {- U6 Z# B: d/ U e! T float fltVal; // VT_R4.2 S) y. ^. g6 G% C5 ]
double dblVal; // VT_R8.
6 l, E; g3 t. r& g DATE date; // VT_DATE.' @/ a9 A& V( l9 u+ m2 A! i
BSTR bstrVal; // VT_BSTR.
: [2 n) c3 l2 v& f8 H% X# k …
: w# r# C. Q" Y! V; N short * piVal; // VT_BYREF|VT_I2.1 W" _5 `2 v) p% {. @. t
long * plVal; // VT_BYREF|VT_I4.8 N& Z6 L9 b7 E2 [7 F7 O
float * pfltVal; // VT_BYREF|VT_R4.
6 ~# a& _+ q* B. o" A double * pdblVal; // VT_BYREF|VT_R8.4 L# O+ {4 ~3 F
DATE * pdate; // VT_BYREF|VT_DATE.
' A* C" \/ N. c8 l% w7 M- _1 E BSTR * pbstrVal; // VT_BYREF|VT_BSTR.
* r% W8 P% T. q, V( V1 a };5 T- n% x- h& B/ G1 e4 }! M
}; / Z8 ^- H. s8 f
- u( Y1 z8 D/ M 显然,VARIANT类型是一个C结构,它包含了一个类型成员vt、一些保留字节以及一个大的union类型。例如,如果vt为VT_I2,那么我们可以从iVal中读出VARIANT的值。同样,当给一个VARIANT变量赋值时,也要先指明其类型。例如:
) V5 D( O5 s. G$ H# R# E8 B7 w6 q; \
6 t# L' H. E9 G3 _& D6 U; Y% rVARIANT va;% H% I, L$ B! \, A. C5 s3 E' z* X
:: VariantInit(&va); // 初始化& s8 N, B/ u4 e" p* X
int a = 2002;
% D6 I8 _/ [( H2 d$ v! Lva.vt = VT_I4; // 指明long数据类型
/ ]) ^5 y. u2 U) L' c* y; fva.lVal = a; // 赋值
9 f# M, t4 y* Y/ g9 B+ O# Y3 N/ C/ y2 V, L: c" `& R* J
为了方便处理VARIANT类型的变量,Windows还提供了这样一些非常有用的函数:7 ?- X' e; N' _ _2 {7 j
& v! P3 N4 a4 g
VariantInit —— 将变量初始化为VT_EMPTY;' f( l, f, d: }2 g1 ^9 L
, c% y# X1 E. w. Z& R8 o
VariantClear —— 消除并初始化VARIANT;, x5 b; ?' J) z% f# D; G2 V
2 M/ c4 q% }8 r* `2 M8 }% Z5 X
VariantChangeType —— 改变VARIANT的类型;
3 M, N/ U7 D. m: A3 C
, @( @# P- T! K1 m VariantCopy —— 释放与目标VARIANT相连的内存并复制源VARIANT。
8 J3 b0 u( ^5 _0 e$ ~" Y2 N0 e! l# S' p9 N2 D
COleVariant类是对VARIANT结构的封装。它的构造函数具有极为强大大的功能,当对象构造时首先调用VariantInit进行初始化,然后根据参数中的标准类型调用相应的构造函数,并使用VariantCopy进行转换赋值操作,当VARIANT对象不在有效范围时,它的析构函数就会被自动调用,由于析构函数调用了VariantClear,因而相应的内存就会被自动清除。除此之外,COleVariant的赋值操作符在与VARIANT类型转换中为我们提供极大的方便。例如下面的代码:
/ Q) N, |$ q0 A& k! m5 V& ]
( n$ K% ]9 b8 `, SCOleVariant v1("This is a test"); // 直接构造! L& g7 D; U6 d/ x3 P8 t
COleVariant v2 = "This is a test";
. [6 a# ~- I8 e/ Q// 结果是VT_BSTR类型,值为"This is a test"
8 A- V. J/ i u U% n4 e) ?COleVariant v3((long)2002);
y9 w( J. H1 tCOleVariant v4 = (long)2002;# ^5 S8 y2 Y3 k2 i) b* ^( f
// 结果是VT_I4类型,值为2002
3 z' c0 E0 X$ p; _# |3 @% a
7 v- t$ I5 s, Y R/ z6 Y _variant_t是一个用于COM的VARIANT类,它的功能与COleVariant相似。不过在Visual C++.NET的MFC应用程序中使用时需要在代码文件前面添加下列两句:. Y, L. a9 g1 N( b7 p
3 C8 z3 N& N( z U: B #include "comutil.h"2 a' f4 f( l. w4 o: A" e
2 D% g; g6 C% D& g# U$ l
#pragma comment( lib, "comsupp.lib" )
$ ^# y0 ]' {: J
8 d" w% |! K. D 四、CComBSTR和_bstr_t& k9 E( L) [" ~, ` ~
: D M4 d1 E( W0 r% j CComBSTR是对BSTR数据类型封装的一个ATL类,它的操作比较方便。例如:
/ U4 W+ ?6 |- i) V2 S+ K+ D5 Z( U( n6 S$ s( i" e4 ~9 o4 M5 Q2 ?
CComBSTR bstr1;
; m* E1 k+ y+ ?- _% }8 Ybstr1 = "Bye"; // 直接赋值0 }4 L% _3 [0 D! v3 X
OLECHAR* str = OLESTR("ta ta"); // 长度为5的宽字符0 U9 a1 ]6 L% W0 B2 s/ ]
CComBSTR bstr2(wcslen(str)); // 定义长度为5
. L7 J2 B4 O% ]. ]* E+ Dwcscpy(bstr2.m_str, str); // 将宽字符串复制到BSTR中
' W4 {, {+ E! g! V+ _5 MCComBSTR bstr3(5, OLESTR("Hello World")); L, Z: f f8 K# Z+ C v
CComBSTR bstr4(5, "Hello World"); ! }7 C4 h6 E; @# q: r; ]
CComBSTR bstr5(OLESTR("Hey there")); 0 [; O+ K/ n! `( J& v) `
CComBSTR bstr6("Hey there");
$ L4 d0 J8 U* l+ x" _5 g. wCComBSTR bstr7(bstr6); 7 C: N% }+ o& c! `4 J
// 构造时复制,内容为"Hey there"
. B$ m0 t( F+ [
* j% ~0 K% ]# s/ H+ r' S, V# H _bstr_t是是C++对BSTR的封装,它的构造和析构函数分别调用SysAllocString和SysFreeString函数,其他操作是借用BSTR API函数。与_variant_t相似,使用时也要添加comutil.h和comsupp.lib。
7 l' a. U: m! P: Q3 Z9 l
9 e0 m! P/ s: r' n3 c 五、BSTR、char*和CString转换
3 Y* \. t/ V5 f1 {. ~* Z* L- N
0 ~ }* K' |+ \# z ~; Z+ K y3 C (1) char*转换成CString+ N6 h( @2 j; q* P' h' F* v
% W8 J1 N1 a( u7 L) W$ B
若将char*转换成CString,除了直接赋值外,还可使用CString::Format进行。例如:
$ V5 d) a, e4 `3 D$ {
& Y6 r) o. u3 x: p) Ychar chArray[] = "This is a test";% C* a# v& z4 l( m
char * p = "This is a test"; . H0 M! }; [ [9 Q
$ `* h% [* b( C4 c% F
或8 D2 ?7 n7 g1 B$ Z1 s. s+ i
1 x) t' |3 |/ s: f2 o+ a
LPSTR p = "This is a test";
' a- m! w) {! z- V$ M% x4 a7 H( ~; ~
" S* {1 E9 [8 ]1 Y2 T 或在已定义Unicode应的用程序中- C) y. u& l2 S- @
% j1 E% D# W Z i2 ZTCHAR * p = _T("This is a test");
# n2 n" F6 v, z' P1 v8 P& r8 Q7 ^* F/ f7 B
或# Z4 B# x5 s2 r' A& _8 q0 ], e
3 L/ D- C1 ]3 f- V9 ^- rLPTSTR p = _T("This is a test");
2 C( z! B/ h7 Y" _, GCString theString = chArray;
! ~) B2 ]7 b5 ]9 u8 StheString.Format(_T("%s"), chArray);
' \3 d& Y$ h# n! ?" T; ?theString = p; 7 o; B; F, j' l% k B" o
8 c, g( _* |/ H: \7 t3 h* c1 @ (2) CString转换成char*
K0 e/ u7 t: Q) L! o' T0 h$ g( C% u3 u
若将CString类转换成char*(LPSTR)类型,常常使用下列三种方法:
+ Z& p k7 N3 j* \3 a, i3 a+ v2 A
/ N1 P6 G/ h. e- c 方法一,使用强制转换。例如:0 [: p/ G! P" V% n- E, v
1 q! m( Y3 P; ]CString theString( "This is a test" );$ r8 f$ Z) q2 j1 K
LPTSTR lpsz =(LPTSTR)(LPCTSTR)theString;
" K* N% D5 L7 X7 I5 W' [/ \( K
方法二,使用strcpy。例如:
. ~ g4 T( \( ]: D* j1 G5 r
1 _( t; L4 p7 l' B/ ^1 ECString theString( "This is a test" );+ w7 _: F N7 ]8 J" K, `: ]
LPTSTR lpsz = new TCHAR[theString.GetLength()+1];
) ~, L3 A3 V" d# }' S_tcscpy(lpsz, theString); * m2 u' |* ], w8 h3 C
# ]7 Q: R7 i. n* n
需要说明的是,strcpy(或可移值Unicode/MBCS的_tcscpy)的第二个参数是 const wchar_t* (Unicode)或const char* (ANSI),系统编译器将会自动对其进行转换。1 \! ]$ f: t1 Y' w
- g, |, Z+ z0 h1 n$ e3 j n3 l 方法三,使用CString::GetBuffer。例如:
9 h5 ?2 v- u+ N1 I+ `4 L$ F- |/ v/ p$ U# s
CString s(_T("This is a test "));4 p# H5 m2 |* d0 Y# K: U
LPTSTR p = s.GetBuffer();/ w( P- r5 Q8 h$ w& N" Q U! {4 d
// 在这里添加使用p的代码( ^* e) R5 a& Z0 m8 d: P8 L4 p
if(p != NULL) *p = _T('\0');
- C* e) U: r4 ~/ `s.ReleaseBuffer();
+ l8 q$ h) t3 z8 i0 g! T7 V1 F// 使用完后及时释放,以便能使用其它的CString成员函数
- l& F! P+ X7 B! z% ?6 W# ~% u1 m. W" J8 x8 N
(3) BSTR转换成char*
6 }8 q( d& ]+ Y9 v( A6 X( @! D* t4 G. y" c& M) P% H
方法一,使用ConvertBSTRToString。例如:
$ P" G" L7 b( ]9 o' |/ [- V$ H
/ i8 I8 w8 J5 t5 w5 l$ k! d#include
: L3 U, ?) I7 o# s! o2 w1 ^; H#pragma comment(lib, "comsupp.lib")
' [( z% q3 V) T+ F7 I8 ~3 Y& Iint _tmain(int argc, _TCHAR* argv[]){
: S2 R! \7 S0 [5 T" f$ c u, ^BSTR bstrText = ::SysAllocString(L"Test");" h, W/ n" W$ L/ J Z
char* lpszText2 = _com_util::ConvertBSTRToString(bstrText);
" f0 g$ N/ b6 j* i% V0 U7 bSysFreeString(bstrText); // 用完释放
: C9 {0 H3 {1 T2 N0 {! ?- bdelete[] lpszText2;
9 E$ q; Q' e+ z* h# _return 0;/ g5 N7 d( \5 n) s, c9 R
} # P3 E+ S- \+ s. N
' m* B+ B% s' e3 v 方法二,使用_bstr_t的赋值运算符重载。例如:$ R5 {1 x2 Y0 Q; B q
1 Q# K9 }, p, c9 z, p_bstr_t b = bstrText;
" B) w9 i: |) L1 Rchar* lpszText2 = b;
7 }' R7 Y) W- x$ }6 w& M% m8 F& C( Y& r K5 c. m9 e( ^) v
(4) char*转换成BSTR
9 C0 [) B; p2 Z2 _; V1 M: L7 q5 q
6 y) Z- k7 F4 }9 s 方法一,使用SysAllocString等API函数。例如:) T+ z) M. D% \) E, f* u6 t( N
8 @! B5 P5 C- y
BSTR bstrText = ::SysAllocString(L"Test");9 x' g5 t( q1 y4 L6 b( U3 w8 Z4 f, } ]
BSTR bstrText = ::SysAllocStringLen(L"Test",4);
5 C5 ^" z$ S* d6 c- vBSTR bstrText = ::SysAllocStringByteLen("Test",4); $ f; x. g2 P* F3 G0 u1 W" X
' {" Q) p% y% c; @4 s! w7 o 方法二,使用COleVariant或_variant_t。例如:$ }5 L6 K7 k) i
; B& h e- W4 C, a( d5 u//COleVariant strVar("This is a test"); a" r+ d o9 ` x' b2 k% U
_variant_t strVar("This is a test");
. p t) P3 s& M* w& ~' u/ Y# m, HBSTR bstrText = strVar.bstrVal; + a5 M* l7 E0 @7 x
* M; b$ M, I2 H1 h* J: H; L8 Q1 L 方法三,使用_bstr_t,这是一种最简单的方法。例如:
9 z( [* E: |9 c" G' @
7 ?6 I# l# g, @9 aBSTR bstrText = _bstr_t("This is a test");
5 ~5 q. V: O( k: z6 ?7 |' O9 w# i+ Z: F* j8 l: C
方法四,使用CComBSTR。例如:$ S5 x0 J6 }8 }, y
9 J7 e [5 n: ^
BSTR bstrText = CComBSTR("This is a test");
% v8 P7 n! X q3 ^: G, ^% s$ P3 m1 v" X# [" O9 p8 G
或
( s% A9 j9 T0 Z" z1 h" Z& |. p* {* @5 q6 ?: ~
CComBSTR bstr("This is a test");& X# g2 r4 D4 M! G5 Q
BSTR bstrText = bstr.m_str;
B& f8 n! _- c2 n/ D- K2 Y+ s
, y& {! s* |2 N: m 方法五,使用ConvertStringToBSTR。例如:6 l8 y$ z) Q' R7 U3 J/ S3 O0 [) y
8 P0 a- m" D' F$ y% I, E5 b! ~
char* lpszText = "Test";
0 W4 |8 O# ~( `; u4 ]0 |BSTR bstrText = _com_util::ConvertStringToBSTR(lpszText); 9 N2 }$ n! e0 |
+ J3 a; z" w( y1 N
(5) CString转换成BSTR7 @* x0 V3 ]; l; X( w
1 E* u+ ^0 e `( s V 通常是通过使用CStringT::AllocSysString来实现。例如:
0 P) @) g5 D3 j5 n8 L v1 Y
+ T# O2 n2 n0 C7 g# g, p0 i LCString str("This is a test");
* L6 j0 B5 X1 Z) e( K, dBSTR bstrText = str.AllocSysString();
, m' y" {' A5 p ` y…
: l% b5 z! D+ _9 |( Q& u# FSysFreeString(bstrText); // 用完释放
( S) c" q" I& ]- O/ p, d' O1 Y8 ~, ^5 \' S9 D
(6) BSTR转换成CString
, V: [) P q7 s. {4 n5 J& \
, _2 j, o" |5 q 一般可按下列方法进行:
9 L0 o; |. i: {' r* C0 }, B) n0 c$ q* H9 l- [; B8 y
BSTR bstrText = ::SysAllocString(L"Test");3 H1 `2 c+ m O8 T
CStringA str;
& I) Y- r! e: Q# e7 Z0 _/ rstr.Empty();. W' V& _: ^+ I% k& g" K$ t
str = bstrText;
. ~' n. L: }& g5 _) Z6 D: Y+ G; x3 k; z7 o
或
) \& m1 F9 H; M E% f0 N, W( ?. E% c3 ?- O1 d" I7 [
CStringA str(bstrText);
* Z" U# I2 Z- E7 Q3 h7 i+ O
5 C8 a4 X. F2 _3 v$ l (7) ANSI、Unicode和宽字符之间的转换
& y$ }% x! I+ y/ m7 w9 i' c. E; e3 Z; M
方法一,使用MultiByteToWideChar将ANSI字符转换成Unicode字符,使用WideCharToMultiByte将Unicode字符转换成ANSI字符。
4 L5 ?, t, G8 B* M9 K
) @' Q$ t$ t" L2 Z# V; e2 g3 [ 方法二,使用“_T”将ANSI转换成“一般”类型字符串,使用“L”将ANSI转换成Unicode,而在托管C++环境中还可使用S将ANSI字符串转换成String*对象。例如:$ }8 u1 J* I5 b0 i( {7 j' ?
: B& t" ~8 Z* S
TCHAR tstr[] = _T("this is a test");5 L" l( _( } L+ i5 ^, b" H
wchar_t wszStr[] = L"This is a test";
9 e# ~+ H+ B) ~5 |8 s4 HString* str = S”This is a test”;
" Y5 @% B( S! u+ N& ], N; H' Q$ I) e: m, z( Q9 `+ O: u
方法三,使用ATL 7.0的转换宏和类。ATL7.0在原有3.0基础上完善和增加了许多字符串转换宏以及提供相应的类,它具有如图3所示的统一形式:
: U( \, e9 w: x1 U( X& H# @. `0 U( a/ A _
其中,第一个C表示“类”,以便于ATL 3.0宏相区别,第二个C表示常量,2表示“to”,EX表示要开辟一定大小的缓冲。SourceType和DestinationType可以是A、T、W和OLE,其含义分别是ANSI、Unicode、“一般”类型和OLE字符串。例如,CA2CT就是将ANSI转换成一般类型的字符串常量。下面是一些示例代码:4 i* h% `% N7 }3 {( f* S
7 n% e# q! h: g _ GLPTSTR tstr= CA2TEX<16>("this is a test");
0 r" J! [; T& M/ bLPCTSTR tcstr= CA2CT("this is a test");3 K9 Q; ^0 r" E% Z% I0 [+ O( B* U( f
wchar_t wszStr[] = L"This is a test";5 e' P0 h+ \) w& q+ q
char* chstr = CW2A(wszStr); " S1 u8 ]* U- c8 x
1 L: ~" z# m0 e
六、结语
* q" W# w0 E% W3 N5 U4 a) p! h9 G; C3 w3 T- l b
几乎所有的程序都要用到字符串,而Visual C++.NET由于功能强大、应用广泛,因而字符串之间的转换更为频繁。本文几乎涉及到目前的所有转换方法。当然对于.NET框架来说,还可使用Convert和Text类进行不同数据类型以及字符编码之间的相互转换。 |
|