c语言utf8字符串_C语言下实现对字符串进行utf-8格式的转换

㈠ c语言如何生成UTF-8编码格式的文件

下面的Unix下函数可以会帮到你

getenv（取得环境变量内容）
相关函数 putenv，setenv，unsetenv
表头文件 #include<stdlib.h>
定义函数 char * getenv(const char *name);
函数说明 getenv()用来取得参数name环境变量的内容。参数name为环境变量的名称，如果该变量存在则会返回指向该内容的指针。环境变量的格式为name＝value。
返回值执行成功则返回指向该内容的指针，找不到符合的环境变量名称则返回NULL。
范例 #include<stdlib.h>
mian()
{
char *p;
if((p = getenv(“USER”)))
printf(“USER=%s\n”,p);
}

执行 USER = root

putenv（改变或增加环境变量）
相关函数 getenv，setenv，unsetenv
表头文件 #include4<stdlib.h>
定义函数 int putenv(const char * string);
函数说明 putenv()用来改变或增加环境变量的内容。参数string的格式为name＝value，如果该环境变量原先存在，则变量内容会依参数string改变，否则此参数内容会成为新的环境变量。
返回值执行成功则返回0，有错误发生则返回-1。
错误代码 ENOMEM 内存不足，无法配置新的环境变量空间。
范例 #include<stdlib.h>
main()
{
char *p;
if((p = getenv(“USER”)))
printf(“USER =%s\n”,p);
putenv(“USER=test”);
printf(“USER+5s\n”,getenv(“USER”));
}

执行 USER=root
USER=root

setenv（改变或增加环境变量）
相关函数 getenv，putenv，unsetenv
表头文件 #include<stdlib.h>
定义函数 int setenv(const char *name,const char * value,int overwrite);
函数说明 setenv()用来改变或增加环境变量的内容。参数name为环境变量名称字符串。
参数 value则为变量内容，参数overwrite用来决定是否要改变已存在的环境变量。如果overwrite不为0，而该环境变量原已有内容，则原内容会被改为参数value所指的变量内容。如果overwrite为0，且该环境变量已有内容，则参数value会被忽略。
返回值执行成功则返回0，有错误发生时返回-1。
错误代码 ENOMEM 内存不足，无法配置新的环境变量空间
范例 #include<stdlib.h>
main()
{
char * p;
if((p=getenv(“USER”)))
printf(“USER =%s\n”,p);
setenv(“USER”,”test”,1);
printf(“USER=%s\n”,getenv(“USEr”));
unsetenv(“USER”);
printf(“USER=%s\n”,getenv(“USER”));
}

执行 USER = root
USER = test
USER = (null)

㈡ C语言下实现对字符串进行utf-8格式的转换

标准库里没有。但搜了一下网上应该找到不少，比如这个：

std::stringiso_8859_1_to_utf8(std::string&str)
{
stringstrOut;
for(std::string::iteratorit=str.begin();it!=str.end();++it)
{
uint8_tch=*it;
if(ch<0x80){
strOut.push_back(ch);
}
else{
strOut.push_back(0xc0|ch>>6);
strOut.push_back(0x80|(ch&0x3f));
}
}
returnstrOut;
}

http://stackoverflow.com/questions/4059775/convert-iso-8859-1-strings-to-utf-8-in-c-c

㈢ c语言怎么把UTF-8转换成Unicode

下面程序给出的是UTF-8转成Unicode（UCS-2）的函数：

#include <stdio.h>

#include <stdlib.h>

#include <memory.h>

#include <string.h>

int utf8_to_unicode(char* pInput, char** ppOutput)

{

int outputSize = 0; //记录转换后的Unicode字符串的字节数

*ppOutput = (char *)malloc(strlen(pInput) * 2); //为输出字符串分配足够大的内存空

memset(*ppOutput, 0, strlen(pInput) * 2);

char *tmp = *ppOutput; //临时变量，用于遍历输出字符串

while (*pInput)

{

if (*pInput > 0x00 && *pInput <= 0x7F) //处理单字节UTF8字符（英文字母、数字）

{

*tmp = *pInput;

tmp++;

*tmp = 0; //小端法表示，在高地址填补0

}

else if (((*pInput) & 0xE0) == 0xC0) //处理双字节UTF8字符

{

char high = *pInput;

pInput++;

char low = *pInput;

if ((low & 0xC0) != 0x80) //检查是否为合法的UTF8字符表示

{

return -1; //如果不是则报错

}

*tmp = (high << 6) + (low & 0x3F);

tmp++；

*tmp = (high >> 2) & 0x07;

}

else if (((*pInput) & 0xF0) == 0xE0)//处理三字节UTF8字符

{

char high = *pInput;

pInput++;

char middle = *pInput;

pInput++;

char low = *pInput;

if (((middle & 0xC0) != 0x80) || ((low & 0xC0) != 0x80))

{

return -1;

}

*tmp = (middle << 6) + (low & 0x7F);

tmp++;

*tmp = (high << 4) + ((middle >> 2) & 0x0F);

}

else //对于其他字节数的UTF8字符不进行处理

{

return -1;

}

pInput ++;

tmp ++;

outputSize += 2;

}

*tmp = 0;

tmp++;

*tmp = 0;

return outputSize;

}

(3)c语言utf8字符串扩展阅读

UTF-8：互联网的普及，强烈要求出现一种统一的编码方式。 UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32，不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则：

UTF-8的编码规则很简单，只有两条：

1、对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2、对于n字节的符号(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

㈣ C语言读取UTF-8文本

UTF-8是一种多字节编码字符集，Unicode字符，也可以是一个字节，符号：

1个字节：0XXXXXXX
2个字节：110XXXXX 10XXXXXX /> 3个字节： 1110XXXX 10XXXXXX 10XXXXXX
4个字节：11110xxx 10XXXXXX 10XXXXXX 10XXXXXX

本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是，每个字节的UTF-8字符串的值具有一定的范围，而不是所有的值？是有效的UTF-8字符，但在一般应用足够长的字符串判断的情况下，更准确，是实现比较简单。具体的字节范围，可以发现在这本书的“Unicode解释”6.4.3。
布尔IsUTF8（const void *的pbuffer的，长尺寸）
{
布尔IsUTF8 = TRUE;
unsigned char型*开始=（无符号字符*）pbuffer的/无符号的char *结束=（unsigned char型）pbuffer的+大小;
（起点和终点）
{
（*开始<0X80）/ /（10000000）：值小于0x80的ASCII的字符
{
开始+ +;
}
否则，如果（*启动<（0XC0））/ /（11000000）：值吗？ 0XC0之间的范围0x80无效的UTF-8字符
{
IsUTF8 = FALSE;
突破;
}
否则，如果（*开始（0XE0））/在2个字节的UTF-8字符/（11100000）：
{
（开始> =结束 - 1）
突破;
（（开始[1]（0XC0））= 80H时）
{
IsUTF8 = FALSE;
突破;
}
开始+ = 2;
}
否则，如果（*启动<（31:8））/ /（11110000）：结束的3个字节的UTF-8字符
{
（“开始”> = - 2）
突破;。 .. />（（开始[1]（为0xC0））= 0x80的| |（启动[2]（为0xC0））= 80H时）
{
IsUTF8 = FALSE;
休息
}
开始+ = 3;
}

{
IsUTF8 = FALSE;
突破;
}
}
回报IsUTF8;
}

UTF-UCS编码的16至16个单位。小于0x10000的UCS码，UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。然而，实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案，UTF-16已被用于实际的传输，所以我们要考虑的字节顺序。

㈤弱弱的问一句，C语言能不能实现字符串的编码格式转换 GB2312toUTF-8

其实 linux 和 windows 的系统函数都是C函数，并且提供了GB2312toUTF-8的函数，所以C语言是可以实现转码的。以下是windows的例子：int num = ::MultiByteToWideChar(CP_ACP, 0, "你好", -1, NULL, 0);wchar_t* m_arrayShort = new wchar_t[num];::MultiByteToWideChar(CP_ACP, 0, "你好", -1, m_arrayShort, num); int len = ::WideCharToMultiByte (CP_UTF8, 0, (LPCWSTR)m_arrayShort, num, 0, 0, NULL, NULL);char *tmpPT = new char[len+1];::WideCharToMultiByte(CP_UTF8, 0, (LPCWSTR)m_arrayShort, num, tmpPT, len, NULL, NULL);tmpPT[len] = 0;

㈥ c/c++如何直接定义utf8类型的字符串

文件格式是utf8，字符编码自然是utf8。不需要直接定义。也不应该直接定义。
标准库没有UTF8的类。也没有三方库提供这个无聊的东西。字符集转换GNU有icov库。

㈦如何在c语言中操作UTF-8字符

那你就去了解一下 UTF-8 的编码规则啊,
简单来说读取某个字节, 判断它是多字节的还是单字节的,甚至是多字节的非首字节...
如果怕是一些标点符号，再把这些标点符号的判断值加进去。

㈧如何使用C语言将汉字转换成UTF8编码，如将“你好”转成：%E4%BD%A0%E5%A5%

char a[]="北京" 这时系统在串的后面加'/0' 每个汉字2字节所以2*2+1=5

㈨怎么把C语言平台设置为utf-8教程

为fopen指定一个编码，然后写入wchar_t字符串，最终写入的文件就是UTF-8编码。

c语言utf8字符串

与c语言utf8字符串相关的内容