你的问题应该是。
GB2312,GBK,GB18030字符表的内码,与unicode的内码转化问题。
UTF是unicode是内码的存储实现方式,他们之间的转换,存在一个转化的算法。
GB2312,GBK,GB18030的内码与unicode的转换不存在一个这样的算法,只能逐个对照字符表。
近期看的资料,资料太多,来源记不清楚了。
GB2312,GBK,的汉字和全角符号都是用两个自己字节的编码来存储的。也叫双字节编码方案。
GB18030是多字节字符集,它的字符可以用一个、两个或四个字节表示。
UTF-8,汉字可以两个字节,三个字节,四个字节,的编码来存储。
参考资料
GB18030编码研究以及GBK、GB18030与Unicode的映射
工作原理是根据编码表进行对应字符的转换。