最近朋友在导入数据数据的时候出现了很多的方块,显然这是一个编码错误的问题。
这让我想起目前国内网站的一些情况,国内山寨网挺多,基本上站还都是使用GB2312作为默认编码,GB2312,看名字就很有中国特色,不过,像这种基础设置,还是不要做山寨版的好。全球是一家–地球村!当前UTF-8很好很强大。
UTF-8现在是主流的宽字符集的解决方案,不仅是网站,现在很多源码,文本,xml等都使用UTF-8作为默认编码。
在使用 UTF-8 时需要注意的是 BOM : Byte Order Mark
UTF-8 BOM又叫UTF-8 签名,其实UTF-8 的BOM对UFT-8没有作用,是为了支援UTF-16,UTF-32才加上的BOM,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器 识别,但是BOM虽然在编辑器中不显示,但是会产生输出,就像多了一个空行
我们在编辑UTF-8文件时,需要用用现代的,高效的编辑器来coding,如VIM, Notepad++等。至于Windows自带的notepad 当便签还行,干活就免了吧。
另外在网页的meta信息中也要制定UTF-8作为编码。
BTW:有些黄色网站的编码都用UTF-8了,不过他的meta却写着GB2312,防BOT or GFW