首页>软件开发>java语言>java编码相关

回复

« 返回列表

灯火互联

管理员

管理员

注册日期2011-07-27
发帖数41778
QQ
火币41290枚
粉丝1086
关注100

加关注写私信打招呼

阅读：3006回复：0

java编码相关

楼主^#

更多发布于：2012-09-08 09:35

[] 1


	写在前面：　　1：“字节”是byte，“位”是bit ；　　2： 1 byte = 8 bit ；　　char 在java中是2个字节。java采用unicode，2个字节（16位）来表示一个字符。　　ANSI码（American National Standards Institute），中文：美国国家标准学会的标准码。不同的国家和地区制定了不同的标准，由此产生了GB2312, BIG5, JIS 等各自的编码标准。这些使用2 个字节来代表一个字符的各种汉字延伸编码方式，称为ANSI 编码。在简体中文系统下，ANSI 编码代表GB2312 编码，在日文操作系统下，ANSI 编码代表JIS 编码。不同ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段ANSI 编码的文本中。当然对于ANSI编码而言，0x00~0x7F之间的字符，依旧是1个字节代表1个字符。这一点是ASNI编码与Unicode编码之间最大也最明显的区别。比如“A君是第131号”，在ANSI编码中，占用12个字节，而在Unicode(UTF-16)编码中，占用16个字节。因为A和1、3、1这4个字符，在ANSI编码中只各占1个字节，而在Unicode(UTF-16)编码中，是需要各占2个字节的。　　char x = '我'; 　　String str = "我"; 　　byte[] bytes = str.getBytes(); //我想不明白，为什么这里要占用3个byte呢? 3个byte一共是3*8=24位；　　那么char x 怎么又放得下？因为char是16位的啊？？　　原因：　　byte[] bytes = str.getBytes();之后是3个字节，这里和前面的概念不一样。　　java是用unicode来表示字符，"我"这个中文字符的unicode就是2个字节。String.getBytes(encoding)方法是获取指定编码的byte数组表示，通常gbk/gb2312是2个字节，utf-8是3个字节。如果不指定encoding则取系统默认的encoding。由于JDK是国际版的，在编译的时候，如果我们没有用-encoding参数指定我们的java源程序的编码格式，则javac.exe首先获得我们操作系统默认采用的编码格式，也即在编译java程序时，若我们不指定源程序文件的编码格式，JDK首先获得操作系统的file.encoding参数(它保存的就是操作系统默认的编码格式，如WIN2k，它的值为GBK)，然后JDK就把我们的java源程序从file.encoding编码格式转化为java内部默认的UNICODE格式放入内存中。然后，javac把转换后的unicode格式的文件进行编译成.class类文件，此时.class文件是UNICODE编码的，它暂放在内存中，紧接着，JDK将此以UNICODE编码的编译后的class文件保存到我们的操作系统中形成我们见到的.class文件。对我们来说，我们最终获得的.class文件是内容以UNICODE编码格式保存的类文件，它内部包含我们源程序中的中文字符串，只不过此时它己经由file.encoding格式转化为UNICODE格式了。当我们不加设置就编译时，相当于使用了参数：javac -encoding gbk XX.java，当然就会出现不兼容的情况。

喜欢0 评分0

淘宝天猫隐藏优惠券地址

回复

发帖回复

« 返回列表

您需要登录后才可以回帖，登录或者注册