MySQL服务器可以支持多种字符集,在同一台服务器,同一个数据库,甚至同一个表的不同字段都可以指定使用不同的字符集,相比Oracle等其他数据库管理系统,在同一个数据库只能使用相同的字符集,MySQL明显存在更大的灵活性。
字符集概述
字符集是一套符号和编码的规则,不论是在oracle数据库还是在mysql数据库,都存在字符集的选择问题,而且如果在数据库创建阶段没有正确选择字符集,那么可能在后期需要更换字符集,而字符集的更换是代价比较高的操作,也存在一定的风险,所以,我们推荐在应用开始阶段,就按照需求正确的选择合适的字符集,避免后期不必要的调整。
•字符(Character)是指人类语言中最小的表义符号。例如’A'、’B'等;
•给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(Encoding)。例如,我们给字符’A'赋予数值0,给字符’B'赋予数值1,则0就是字符’A'的编码;
•给定一系列字符并赋予对应的编码后,所有这些字符和编码对组成的集合就是字符集(CharacterSet)。例如,给定字符列表为{’A',’B'}时,{’A'=>0,‘B’=>1}就是一个字符集;
•字符序(Collation)是指在同一字符集内字符之间的比较规则;
•确定字符序后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系;
•每个字符序唯一对应一种字符集,但一个字符集可以对应多种字符序,其中有一个是默认字符序(DefaultCollation);
•MySQL中的字符序名称遵从命名惯例:以字符序对应的字符集名称开头;以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如:在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;
Mysql支持的字符集简介
mysql服务器可以支持多种字符集(可以用showcharacterset命令查看所有mysql支持的字符集),在同一台服务器、同一个数据库、甚至同一个表的不同字段都可以指定使用不同的字符集,相比oracle等其他数据库管理系统,在同一个数据库只能使用相同的字符集,mysql明显存在更大的灵活性。
mysql的字符集包括字符集(CHARACTER)和校对规则(COLLATION)两个概念。字符集是用来定义mysql存储字符串的方式,校对规则则是定义了比较字符串的方式。字符集和校对规则是一对多的关系,MySQL支持30多种字符集的70多种校对规则。
每个字符集至少对应一个校对规则。可以用SHOWCOLLATIONLIKE'utf8%';命令查看相关字符集的校对规则。
Unicode简述
Unicode是一种编码规范。我们在这里简述一下Unicode编码产生的历史。
先从ASCII码说起,ASCII码也是一种编码规范,只不过ASCII码只能最多表示256个字符,是针对英文产生的,而面对中文、阿拉伯文之类的复杂文字,256个字符显然是不够用的。于是各个国家或组织都相继制定了符合自己语言文字的标准,比如gb2312、big5等等。但是这种各自制定自己的标准的做法显然是有很多弊端的,于是Unicode编码规范应运而生。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"UniversalMultiple-OctetCodedCharacterSet",简称为UCS。UCS可以看作是"UnicodeCharacterSet"的缩写。
Unicode有两套标准UCS-2和UCS-4,前者用2个字节表示一个字符,后者用4个字节表示一个字符。以目前常用的UCS-2为例,它可以表示的字符数为2^16=65535,基本上可以容纳所有的欧美字符和绝大多数亚洲字符。
怎样选择合适的字符集
我们建议在能够完全满足应用的前提下,尽量使用小的字符集。因为更小的字符集意味着能够节省空间、减少网络传输字节数,同时由于存储空间的较小间接的提高了系统的性能。
有很多字符集可以保存汉字,比如utf8、gb2312、gbk、latin1等等,但是常用的是gb2312和gbk。因为gb2312字库比gbk字库小,有些偏僻字(例如:洺)不能保存,因此在选择字符集的时候一定要权衡这些偏僻字在应用出现的几率以及造成的影响,不能做出肯定答复的话最好选用gbk。
Mysql字符集的设置
mysql的字符集和校对规则有4个级别的默认设置:服务器级、数据库级、表级和字段级。分别在不同的地方设置,作用也不相同。
服务器字符集和校对,在mysql服务启动的时候确定。可以在my.cnf中设置:
[mysqld]
default-character-set=utf8
或者在启动选项中指定:
mysqld--default-character-set=utf8
或者在编译的时候指定:
./configure--with-charset=utf8
如果没有特别的指定服务器字符集,默认使用latin1作为服务器字符集。上面三种设置的方式都只指定了字符集,没有指定校对规则,这样是使用该字符集默认的校对规则,如果要使用该字符集的非默认校对规则,则需要在指定字符集的同时指定校对规则。
可以用showvariableslike'character_set_server';命令查询当前服务器的字符集和校对规则。
MySQL中的字符集转换过程
1.MySQLServer收到请求时将请求数据从character_set_client转换为character_set_connection;
2.进行内部操作前将请求数据从character_set_connection转换为内部操作字符集,其确定方法如下:
-使用每个数据字段的CHARACTERSET设定值;
-若上述值不存在,则使用对应数据表的DEFAULTCHARACTERSET设定值(MySQL扩展,非SQL标准);
-若上述值不存在,则使用对应数据库的DEFAULTCHARACTERSET设定值;
-若上述值不存在,则使用character_set_server设定值。
3.将操作结果从内部操作字符集转换为character_set_results。
使用MySQL字符集时的建议
•建立数据库/表和进行数据库操作时尽量显式指出使用的字符集,而不是依赖于MySQL的默认设置,否则MySQL升级时可能带来很大困扰;
•数据库和连接字符集都使用latin1时,虽然大部分情况下都可以解决乱码问题,但缺点是无法以字符为单位来进行SQL操作,一般情况下将数据库和连接字符集都置为utf8是较好的选择;
•使用mysqlCAPI(mysql提供C语言操作的API)时,初始化数据库句柄后马上用mysql_options设定MYSQL_SET_CHARSET_NAME属性为utf8,这样就不用显式地用SETNAMES语句指定连接字符集,且用mysql_ping重连断开的长连接时也会把连接字符集重置为utf8;
•对于mysqlPHPAPI,一般页面级的php程序总运行时间较短,在连接到数据库以后显式用SETNAMES语句设置一次连接字符集即可;但当使用长连接时,请注意保持连接通畅并在断开重连后用SETNAMES语句显式重置连接字符集。
其他注意事项
•my.cnf中的default_character_set设置只影响mysql命令连接服务器时的连接字符集,不会对使用libmysqlclient库的应用程序产生任何作用!
•对字段进行的SQL函数操作通常都是以内部操作字符集进行的,不受连接字符集设置的影响。
•SQL语句中的裸字符串会受到连接字符集或introducer设置的影响,对于比较之类的操作可能产生完全不同的结果,需要小心!
小编结语:
根据上面的分析和建议,我们解决我们遇到问题应该使用什么方法大家心里应该比较清楚了。对,就是在创建database的时候指定字符集,不要去通过修改默认配置来达到目的,当然你也可以采用指定表的字符集的形式,但很容易出现遗漏,特别是在很多人都参与设计的时候,更容易纰漏。
¥798.00
¥199.00
¥48.00¥180.00
¥48.00¥180.00
¥29.90
¥199.00