utf8和unicode编码究竟是什么关系？有何区别?

发布时间：2006-12-27　作者：　来源：转载

标签：雪佛兰通用奢华劳斯莱斯旗舰版 64位收藏夹解调器

UTF8==UnicodeTransformationFormat--8bit是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。UTF8流的转换程序：Input:unsignedintegerc-thecodepointofthecharactertobeencoded（输入一个unicode值）Output:byteb1,b2,b3,b4-theencodedsequenceofb

UTF8==UnicodeTransformationFormat--8bit
是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。

UTF8流的转换程序：
Input:unsignedintegerc-thecodepointofthecharactertobeencoded（输入一个unicode值）
Output:byteb1,b2,b3,b4-theencodedsequenceofbytes(输出四个BYTE值）
Algorithm（算法）:
if(c<0x80)
b1=c>>0&0x7F|0x00
b2=null
b3=null
b4=null
elseif(c<0x0800)
b1=c>>6&0x1F|0xC0
b2=c>>0&0x3F|0x80
b3=null
b4=null
elseif(c<0x010000)
b1=c>>12&0x0F|0xE0
b2=c>>6&0x3F|0x80
b3=c>>0&0x3F|0x80
b4=null
elseif(c<0x110000)
b1=c>>18&0x07|0xF0
b2=c>>12&0x3F|0x80
b3=c>>6&0x3F|0x80
b4=c>>0&0x3F|0x80
endif
=====================
unicode是一种编码表格，例如，给一个汉字规定一个代码。类似GB2312-1980,GB18030等，只不过字集不同。
=====================
一个unicode码可能转成长度为一个BYTE,或两个，三个，四个BYTE的UTF8码，取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送，比送unicode两个BYTEs快。
UTF8是为传送unicode而想出来的“再编码”方法罢了。
UTF8转unicode用我上面给的程序反算即可。

UTF8是现有ASCII系统转向Unicode系统的一个过渡解决方案。UTF8是保证ASCII兼容性，再向大字符集方向扩展。这是Unicode推荐的方案。但是因为解决问题的角度不同，对现有的中文系统不是好的解决方案。一下连接提供了详细的UTF8编码的初步知识http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102参考资料：http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102

什么是Unicode。Unicode的基本目标是统一所有的编码，即它包含所有的字符集。这样只要一个系统支持Unicode，那么，就能处理这些字符集。一般Unicode有两个字节。现在的windows操作系统都是支持Unicode的。

什么是UTF8呢？UTF8是一种Unicode编码，即它的编码的字符集和Unicode是一致的。但编码的方式不一样。对于英文字符来讲，UTF8的编码和一般的一样，用到一个字节。但对于中文来讲，那么要用三个字节表示（记忆中是三个）。

UTF8和Unicode的缺点是在处理查找、搜索等问题时，好像算法上比较复杂，效率不高（记忆中）。

上一篇：有关表格边框的css语法整理(1)

下一篇：iframe 背景透明实现方法

广告商业广告，理性选择

网站首页

网络编程

数据库

操作系统

平面设计

网站运营

网络安全

电脑相关

手机学院

utf8和unicode编码究竟是什么关系？有何区别?

相关推荐

文章分类

热门关键词

热门文章

最新更新