标签:编码 java String 为例 utf8 解码 gbk test
在正常javaweb开发中经常会发现字符转换的需求,会存在中文字符转换乱码的现象,如何解决以及其转换原理我至今懵懵懂懂,于是专门写了个测试代码进行尝试,总算理清了编码,先上结论,总结如下:
utf8中存放有各种语言编码,当前主流开发中会使用utf8进行编码解码,该方式不会产生乱码,产生乱码有以下几种情况
1、gbk(中文)、iso-8859-1(无中文)等其他方式进行编码,则只能用其对应方式进行解码,否则为乱码
2、使用utf8进行编码用其他方式解码则会导致乱码,需进行一次转换
3、使用无对应字符(中文)的字符集(iso-8859-1)编码会导致乱码,且无法还原解码
以下是针对以上情况的代码测试
1.如何编码就如何解码
/**
* 测试编码转换 中文 => utf-8 编码 - 解码
*/
@Test
public void test0() {
String test = "测试";
System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]
System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), StandardCharsets.UTF_8));//测试
}
/**
* 测试编码转换 中文 => gbk 编码 - 解码
*/
@Test
public void test1() throws UnsupportedEncodingException {
String test = "测试";
System.out.println(Arrays.toString(test.getBytes("gbk")));//[-78, -30, -54, -44]
System.out.println(new String(test.getBytes("gbk"), "GBK"));//测试
}
- utf8编码 - 错误形式解码
/**
* 测试编码转换 中文 => utf-8 编码- gbk解码
*/
@Test
public void test2() throws UnsupportedEncodingException {
String test = "测试";
System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]
System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), "gbk"));//娴嬭瘯
}
正确做法,按错误的解码形式(gbk)作为中转,将其按错误形式(gbk)重新还原编码(utf8-encode),再使用utf8进行一次正确解码(utf8-decode)即可得到原来的字符
/**
* 测试编码转换 中文 => utf-8 编码 - gbk 解码 ===> gbk 编码 - utf-8解码
* "测试" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (gbk-decode)娴嬭瘯
* "娴嬭瘯" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (utf8-decode)"测试"
*/
@Test
public void test3() throws UnsupportedEncodingException {
String test = "测试";
String test_gbk_utf8 = new String(test.getBytes(StandardCharsets.UTF_8), "gbk");
System.out.println(test_gbk_utf8);//娴嬭瘯
String test_utf8_gbk = new String(test_gbk_utf8.getBytes("gbk"), StandardCharsets.UTF_8);
System.out.println(test_utf8_gbk);//测试
}
3.无对应字符编码
@Test
public void test4() throws UnsupportedEncodingException {
String test = "测试";
System.out.println(Arrays.toString(test.getBytes(StandardCharsets.ISO_8859_1)));//[63, 63]
System.out.println(new String(test.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.ISO_8859_1));//??
}
该情况下即使使用原先的编码方式进行解码也无法还原字符了,属于不可逆的状态
标签:编码,java,String,为例,utf8,解码,gbk,test 来源: https://blog.csdn.net/qq_26095375/article/details/120884098
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。