 |
| 这是我们公司总结的一些关于中文乱码问题的一些解决方案和经验和大家分享! |
|
owen1944 原创 更新:2003-07-28 22:04:00 版本: 1.0
|
|
1.字节和unicode java内核是unicode的,就连class文件也是,但是很多媒体,包括文件/流的保存方式是使用字节流的。因此java要对这些字节流经行转化。char是unicode的,而byte是字节。java中byte/char互转的函数在sun.io的包中间有。其中ByteToCharConverter类是中调度,可以用来告诉你,你用的convertor。其中两个很常用的静态函数是 public static ByteToCharConverter getDefault(); public static ByteToCharConverter getConverter(String encoding); 如果你不指定converter,则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用8859_1。 byte ――〉char: "你"的gb码是:0xc4e3 ,unicode是0x4f60 String encoding = "gb2312"; byte b[] = {(byte)'\u00c4',(byte)'\u00e3'}; ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding); char c[] = converter.convertAll(b); for (int i = 0; i < c.length; i++) { System.out.println(Integer.toHexString(c[i])); } 结果是什么?0x4f60 如果encoding ="8859_1",结果又是什么?0x00c4,0x00e3 如果代码改为 byte b[] = {(byte)'\u00c4',(byte)'\u00e3'}; ByteToCharConverter converter = ByteToCharConverter. getDefault(); char c[] = converter.convertAll(b); for (int i = 0; i < c.length; i++) { System.out.println(Integer.toHexString(c[i])); } 结果将又是什么?根据平台的编码而定。
char ――〉byte: String encoding = "gb2312"; char c[] = {'\u4f60'}; CharToByteConverter converter = CharToByteConverter.getConverter(encoding); byte b[] = converter.convertAll(c); for (int i = 0; i < b.length; i++) { System.out.println(Integer.toHexString(b[i])); } 结果是什么?0x00c4,0x00e3 如果encoding ="8859_1",结果又是什么?0x3f 如果代码改为 String encoding = "gb2312"; char c[] = {'\u4f60'}; CharToByteConverter converter = CharToByteConverter.getDefault(); byte b[] = converter.convertAll(c); for (int i = 0; i < b.length; i++) { System.out.println(Integer.toHexString(b[i])); } 结果将又是什么?根据平台的编码而定。 很多中文问题就是从这两个最简单的类派生出来的。而却有很多类不直接支持把encoding输入,这给我们带来诸多不便。很多程序难得用encoding了,直接用default的encoding,这就给我们移植带来了很多困难。
2.utf-8 utf-8是和unicode一一对应的,其实现很简单 7位的unicode: 0 _ _ _ _ _ _ _ 11位的unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _ 16位的unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 21位的unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 大多数情况是只使用到16位以下的unicode: "你"的gb码是:0xc4e3 ,unicode是0x4f60 0xc4e3的二进制: 1100 ,0100 ,1110 ,0011 由于只有两位我们按照两位的编码来排,但是我们发现这行不通,因为第7位不是0因此,返回"?" 0x4f60的二进制: 0100 ,1111 ,0110 ,0000 我们用utf-8补齐,变成: 1110 ,0100 ,1011 ,1101 ,1010 ,0000 e4--bd-- a0 于是返回:0xe4,0xbd,0xa0。
3.string和byte[] string其实核心是char[],然而要把byte转化成string,必须经过编码。string.length()其实就是char数组的长度,如果使用不同的编码,很可能会错分,造成散字和乱码。 例如: String encoding = “”; byte [] b={(byte)'\u00c4',(byte)'\u00e3'}; String str=new String(b,encoding); 如果encoding=8859_1,会有两个字,但是encoding=gb2312只有一个字这个问题在处理分页是经常发生 。
4.Reader,Writer / InputStream,OutputStream Reader和Writer核心是char,InputStream和OutputStream核心是byte。但是Reader和Writer的主要目的是要把char读/写InputStream/OutputStream。 例如: 文件test.txt只有一个"你"字,0xc4,0xe3 String encoding = "gb2312"; InputStreamReader reader = new InputStreamReader(new FileInputStream( "text.txt"), encoding); char c[] = new char[10]; int length = reader.read(c); for (int i = 0; i < length; i++) { System.out.println(c[i]); } 结果是什么?你 如果encoding ="8859_1",结果是什么???两个字符,表示不认识。 反过来的例子自己做。
5.我们要对java的编译器有所了解: javac ?encoding 我们常常没有用到encoding这个参数。其实encoding这个参数对于跨平台的操作是很重要的。如果没有指定encoding,则按照系统的默认encoding,gb平台上是gb2312,英文平台上是iso8859_1。 java的编译器实际上是调用sun.tools.javac.main的类,对文件进行编译,这个类有compile函数中间有一个encoding的变量,-encoding的参数其实直接传给encoding变量。编译器就是根据这个变量来读取java文件的,然后把用utf-8形式编译成class文件。 例子代码: String str = "你"; FileWriter writer = new FileWriter("text.txt"); write.write(str); writer.close();
如果用gb2312编译,你会找到e4 bd a0的字段 ; 如果用8859_1编译, 00c4 00e3的二进制: 0000,0000 ,1100,0100 ,0000,0000 ,1110,0011 因为每个字符都大于7位,因此用11位编码: 1100,0001,1000,0100,1100,0011,1010,0011 c1-- 84-- c3-- a3 你会找到c1 84 c3 a3 。
但是我们往往忽略掉这个参数,因此这样往往会有跨平台的问题: 样例代码在中文平台上编译,生成zhclass 样例代码在英文平台上编译,输出enclass (1). zhclass在中文平台上执行ok,但是在英文平台上不行 (2). enclass在英文平台上执行ok,但是在中文平台上不行 原因: (1). 在中文平台上编译后,其实str在运行态的char[]是0x4f60, 在中文平台上运行,filewriter的缺省编码是gb2312,因此 chartobyteconverter会自动用调用gb2312的converter,把str转化成byte输入到fileoutputstream中,于是0xc4,0xe3放进了文件。 但是如果是在英文平台下,chartobyteconverter的缺省值是8859_1, filewriter会自动调用8859_1去转化str,但是他无法解释,因此他会输出"?" (2). 在英文平台上编译后,其实str在运行态的char[]是0x00c4 0x00e3, 在中文平台上运行,中文无法识别,因此会出现??; 在英文平台上,0x00c4-->0xc4,0x00e3->0xe3,因此0xc4,0xe3被放进了文件。
6. 其它原因:<%@ page contentType="text/html; charset=GBK" %> 设置浏览器的显示编码,如果response的数据是utf8编码,显示将是乱码,但是乱码和上述原因还不一样。
7. 发生编码的地方: 从数据库到java程序 byte――〉char 从java程序到数据库 char――〉byte 从文件到java程序 byte――〉char 从java程序到文件 char――〉byte 从java程序到页面显示 char――〉byte 从页面form提交数据到java程序byte――〉char 从流到java程序byte――〉char 从java程序到流char――〉byte
谢志钢的解决方法: 我是使用配置过滤器的方法解决中文乱码的:
<web-app> <filter> <filter-name>RequestFilter</filter-name> <filter-class>net.golden.uirs.util.RequestFilter</filter-class> <init-param> <param-name>charset</param-name> <param-value>gb2312</param-value> </init-param> </filter> <filter-mapping> <filter-name>RequestFilter</filter-name> <url-pattern>*.jsp</url-pattern> </filter-mapping> </web-app>
public void doFilter(ServletRequest req, ServletResponse res, FilterChain fChain) throws IOException, ServletException { HttpServletRequest request = (HttpServletRequest) req; HttpServletResponse response = (HttpServletResponse) res; HttpSession session = request.getSession(); String userId = (String) session.getAttribute("userid"); req.setCharacterEncoding(this.filterConfig.getInitParameter("charset")); // 设置字符集? 实际上是设置了byte ――〉char的encoding try { if (userId == null || userId.equals("")) { if (!request.getRequestURL().toString().matches( ".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) { session.invalidate(); response.sendRedirect(request.getContextPath() + "/uirs/logon/logon.jsp"); } } else { // 看看是否具有信息上报系统的权限 if (!net.golden.uirs.util.UirsChecker.check(userId, "信息上报系统", net.golden.uirs.util.UirsChecker.ACTION_DO)) { if (!request.getRequestURL().toString().matches( ".*/uirs/logon/logon(Controller){0,1}\\x2Ejsp$")) { response.sendRedirect(request.getContextPath() + "/uirs/logon/logonController.jsp"); } } } } catch (Exception ex) { response.sendRedirect(request.getContextPath() + "/uirs/logon/logon.jsp"); } fChain.doFilter(req, res); }
|
|
|
评论人:liankun
|
发表时间: Wed Jul 30 17:23:06 CST 2003
|
不错。 收藏。
|
|
|
评论人:chinasteven
|
发表时间: Wed Jul 30 20:00:12 CST 2003
|
|
请问在操作数据库存储过程时如何传递中文安符???
|
|
|
评论人:wthuahua
|
发表时间: Wed Jul 30 23:05:00 CST 2003
|
完全经典,备份它! 数据库储存好象不会遇到中文上的问题吧.
|
|
|
评论人:owen1944
|
发表时间: Fri Aug 01 12:16:24 CST 2003
|
|
应该与数据库本身的编码有关吧!
|
|
|
评论人:zqgao
|
发表时间: Wed Aug 13 12:01:10 CST 2003
|
我有个问题请指教: 从画面form传过来的数据,把它转化成gb2312的字符串,作为更新条件, 却发现更新不成功,不知道是不是也和编码有关
|
|
|
评论人:owen1944
|
发表时间: Sat Aug 16 22:08:28 CST 2003
|
是页面的form提交么?是什么应用服务器? 一般页面之间的数据传递都是以ISO-8859编码的,不知道你在接受时处理的代码是怎么样的 ,我可以建议你在接受页的一开始写request.setCharacterEncoding("GB2312")(如果你是TOMCAT,weblogic);如果是WEBSPHERE它自动会转码。或者用TOMCAT自己带的filter。
|
|
|
评论人:lsk1357
|
发表时间: Sat May 08 15:02:00 CST 2004
|
|
很好》谢谢
|
|
|
评论人:jerry_chin
|
发表时间: Tue Aug 17 15:44:26 CST 2004
|
5555555555555555555 再看我就会完全依赖这个网站了
|
|
|
评论人:zhushizu
|
发表时间: Sat Sep 04 21:49:36 CST 2004
|
nice!!
think you !
|
|
|
评论人:vssivl
|
发表时间: Thu Sep 16 15:32:46 CST 2004
|
|
请教:用POI把数据写入Excel表,用HSSFHeader时无法显示中文
|
|
|
评论人:emate
|
发表时间: Fri Sep 17 09:54:34 CST 2004
|
|
为什么不用 GBK ? gb2312字符集太小了啊
|
|
|
评论人:vssivl
|
发表时间: Fri Sep 17 18:57:48 CST 2004
|
好像不用设字符集。其他单元格设一句 cell.setEncoding( HSSFCell.ENCODING_UTF_16 ); 就可以了,但是HSSFHeader没有这个函数。 今天又试了一下,从gbk到Unicode没有问题,但好像必须再编码成utf 在Excel中才能正常显示,想不明白了。
|
|
|
评论人:tomuno
|
发表时间: Wed Dec 15 09:32:48 CST 2004
|
|
notice
|
|
|
评论人:chonglei
|
发表时间: Wed Jan 05 13:38:01 CST 2005
|
先说一句,好好好!!
|
|
|
评论人:bailangyl
|
发表时间: Mon Jan 24 11:15:02 CST 2005
|
|
可以说是经典中的经典。
|
|
|
评论人:siton
|
发表时间: Thu Feb 03 14:27:40 CST 2005
|
very good ,it's benefit to me ![[good]](/faces/76.gif) ![[good]](/faces/76.gif) ![[:)]](/faces/2.gif)
|
|
|
评论人:goodluck
|
发表时间: Thu Mar 17 15:24:19 CST 2005
|
好东东,收藏![[cop]](/faces/78.gif) ![[cop]](/faces/78.gif) ![[V]](/faces/79.gif)
|
|
|
评论人:daocaorenwwt
|
发表时间: Wed Mar 23 11:31:43 CST 2005
|
|
确实不错,值得收藏
|
|
|
评论人:linhuang
|
发表时间: Mon Jan 30 19:02:09 CST 2006
|
|
谢谢我真的有帮助到
|
|
|
评论人:ninjar
|
发表时间: Mon May 08 18:43:46 CST 2006
|
|
SO GOOD 比较全面
|
|
|
评论人:lai_gb
|
发表时间: Tue Aug 08 18:57:55 CST 2006
|
|
收藏了,谢谢!!
|
|
|
评论人:skylitest
|
发表时间: Fri Sep 15 15:22:37 CST 2006
|
|
路过.拿些分.
|
|
|
评论人:kingarden
|
发表时间: Tue Oct 03 11:19:05 CST 2006
|
|
多谢LZ共享经验,辛苦!
|
|
|
评论人:yongbing
|
发表时间: Thu Nov 30 13:11:14 CST 2006
|
好文章啊, 乱码让人很头痛。![[good]](/faces/76.gif) ![[good]](/faces/76.gif)
|
|
|
评论人:steventan
|
发表时间: Fri Dec 01 14:34:19 CST 2006
|
|
very good!
|
|
|
评论人:yanglenovo
|
发表时间: Sun Jun 03 10:09:55 CST 2007
|
it is good
|
|
|
评论人:heromanji
|
发表时间: Tue Jun 19 01:01:56 CST 2007
|
真是好,感谢无私贡献!
|
|
|
评论人:sakuyasky
|
发表时间: Tue Aug 21 16:06:53 CST 2007
|
|
严重支持
|
|
|
评论人:itshu
|
发表时间: Tue Oct 02 16:49:26 CST 2007
|
不错不错
|
|
|
评论人:reenshann
|
发表时间: Tue Mar 18 21:01:35 CST 2008
|
|
很好,收藏了
|
|
|
评论人:Sunnyleung
|
发表时间: Mon Apr 07 23:08:03 CST 2008
|
|
Go past. Thanks for your experience.
|
|
|
评论人:laonongfu
|
发表时间: Mon Apr 14 21:20:31 CST 2008
|
![[:s]](/faces/21.gif)
|
|
|
评论人:bluemaple_00
|
发表时间: Tue May 13 10:03:21 CST 2008
|
![[good]](/faces/76.gif) 收藏了~~~~~
|
|
|
评论人:y296
|
发表时间: Sat Jun 28 11:42:23 CST 2008
|
|
收藏
|
|
|
评论人:myloverpj
|
发表时间: Mon Jul 14 21:30:32 CST 2008
|
哈哈谢谢啦哦!我还是个菜鸟呢!
|
|
|
|
|
 |