内容为个人学习心得,不能对准确性做过多保证,错误之处还望指点。
有时候我们会遇到一些\u开头的字符串,例如
\u4f60\u597d
,我们知道这些是Unicode码,一段\uxxxx字符串对应了一个
UTF-8
)下,单字符的存储长度为1-4字节(可变),这种设计的由来和优点就不多讲了,这里主要说说看到的u编码串和二进制的换算方式。
在UTF-8编码格式的java代码下,对“
测试
”两个字打印其字节和字符结果如下:
System.out.println(Charset.defaultCharset());
String s = "测试";
System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));
byte[] bs = s.getBytes();
System.out.println(Arrays.toString(bs));
/*Result:
UTF-8
6d4b 8bd5
[-26, -75, -117, -24, -81, -107] */
观察结果可知,“
测试
”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格式,即得到“
测试
”两字的二进制存储内容,为:
11100110 10110101 10001011 11101000 10101111 10010101
而通过char.ToHexString得到的
6d4b 8bd5
是这两个字的Unicode编码
这两者是怎么关联上的呢?
通过UTF-8的百科页面有如下介绍: