第01期：MySQL 数据类型的艺术

专栏序

对于关系型数据库来说，表的设计 以及 SQL 的写法 尤为重要，占据性能的 90% 都不为过，所以这次专门针对这两大类知识领域，为您抽丝剥茧详细分析。

本专栏语言通俗易懂，选取大量示例为您详细说明个中奥妙~

面向的对象：

MySQL DBA
MySQL 开发者
想从其他数据库转到 MySQL 的同学

第 01 期：MySQL 数据类型的艺术

那今天的开篇即为 MySQL 的数据类型，在这里主要包含了两部分：

MySQL 字段类型的选择，字段类型定义的合适与否直接影响到磁盘空间的占用以及 MySQL 性能极致的发挥。

MySQL 数据类型在存储程序中的应用，如存储函数，存储过程，触发器等。

MySQL 数据类型介绍

MySQL 数据类型细分下来，大概有以下几类：

数值，典型代表为 tinyint,int,bigint
浮点/定点，典型代表为 float,double,decimal 以及相关的同义词
字符串，典型代表为 char,varchar
时间日期，典型代表为 date,datetime,time,timestamp
二进制，典型代表为 binary,varbinary
位类型
枚举类型
集合类型

以下内容，我们在另一篇文章介绍

大对象，比如 text,blob
json 文档类型

一、数值类型（不是数据类型，别看错了）

如果用来存放整数，根据范围的不同，选择不同的类型。

以上是几个整数选型的例子。整数的应用范围最广泛，可以用来存储数字，也可以用来存储时间戳，还可以用来存储其他类型转换为数字后的编码，如 IPv4 等。

示例 1

用 int32 来存放 IPv4 地址，比单纯用字符串节省空间。表 x1，字段 ipaddr，利用函数 inet_aton，检索的话用函数 inet_ntoa。

mysql-(ytt/3305)->create table x1( ipaddr int unsigned);
Query OK, 0 rows affected (0.04 sec)

mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.171'));
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.172'));
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.173'));
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.174'));
Query OK, 1 row affected (0.01 sec)

更改表结构，加一个虚拟列来转换字段 ipaddr。

mysql-(ytt/3305)->alter table x1 add column \
   ->ipaddr_real varchar(20) generated always as (inet_ntoa(ipaddr)) virtual;
Query OK, 0 rows affected (0.02 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql-(ytt/3305)->select * from x1;
+------------+---------------+
| ipaddr     | ipaddr_real   |
+------------+---------------+
| 3232236203 | 192.168.2.171 |
| 3232236204 | 192.168.2.172 |
| 3232236205 | 192.168.2.173 |
| 3232236206 | 192.168.2.174 |
+------------+---------------+
4 rows in set (0.00 sec)

示例 2

简单的对比占用磁盘空间大小，我定义了三张表 t1,t2,t3。字段分别为 tinyint,int32,int64。每张表数据相同，记录数为 2000W 行。

mysql-(ytt/3305)->CALL `get_schema_records`();
+------------+------------+------------+
| t1 records | t2 records | t3 records |
+------------+------------+------------+
|   20000000 |   20000000 |   20000000 |
+------------+------------+------------+
1 row in set (1.89 sec)

Query OK, 0 rows affected (1.89 sec)

查看磁盘空间占用，t3 占用最大，t1 占用最小。所以说如果整数存储范围有固定上限，并且未来也没有必要扩容的话，建议选择最小的类型，当然了对其他类型也适用。

root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl
总用量 3.0G
3541825 861M -rw-r----- 1 mysql mysql 860M 12月 10 11:36 t1.ibd
3541820 989M -rw-r----- 1 mysql mysql 988M 12月 10 11:38 t2.ibd
3541823 1.2G -rw-r----- 1 mysql mysql 1.2G 12月 10 11:39 t3.ibd

二、浮点数 / 定点数

先说 浮点数，float 和 double 都代表浮点数，区别简单记就是 float 默认占 4 Byte。

float(p) 中的 p 代表整数位最小精度。如果 p > 24 则直接转换为 double，占 8 Byte。p 最大值为 53，但最大值存在计算不精确的问题。

再说 定点数，包括 decimal 以及同义词 numeric，定点数的整数位和小数位分别存储，有效精度最大不能超过 65。

所以区别于 float 的在于精确存储，必须需要精确存储或者精确计算的最好定义为 decimal 即可。

示例 3

创建一张表 y1，分别给字段 f1,f2,f3 不同的类型。

mysql-(ytt/3305)->create table y1(f1 float,f2 double,f3 decimal(10,2));
Query OK, 0 rows affected (0.03 sec)

插入一些数值。

mysql-(ytt/3305)->insert into y1 values (10.2,10.2,10.2);
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into y1 values (100.12,100.12,100.12);
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into y1 values (1001.12,1001.12,1001.12);
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into y1 values (12001.12,12001.12,12001.12);
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into y1 values (12001222.12,12001222.12,12001222.12);
Query OK, 1 row affected (0.00 sec)

检索记录数，发现 f1 里面存放的记录数已经不准确了。

mysql-(ytt/3305)->select * from y1;
+---------+----------+----------+
| f1      | f2       | f3       |
+---------+----------+----------+
|    10.2 |     10.2 |    10.20 |
|  100.12 |   100.12 |   100.12 |
| 1001.12 |  1001.12 |  1001.12 |
| 12001.1 | 12001.12 | 12001.12 |
+---------+----------+----------+
4 rows in set (0.00 sec)

那把 f3 的精度改大点，看看 double 的存储。

mysql-(ytt/3305)->alter table y1 modify f3 decimal(50,10);
Query OK, 5 rows affected (0.06 sec)
Records: 5  Duplicates: 0  Warnings: 0

插入一条更大的记录。

mysql-(ytt/3305)->insert into y1 values (123456789010.1234567,123456789010.1234567,123456789010.1234567);
Query OK, 1 row affected (0.01 sec)

检索发现只有 f3 的值是精确的。

mysql-(ytt/3305)->select * from y1;
+--------------+--------------------+-------------------------+
| f1           | f2                 | f3                      |
+--------------+--------------------+-------------------------+
|         10.2 |               10.2 |           10.2000000000 |
|       100.12 |             100.12 |          100.1200000000 |
|      1001.12 |            1001.12 |         1001.1200000000 |
|      12001.1 |           12001.12 |        12001.1200000000 |
|     12001200 |        12001222.12 |     12001222.1200000000 |
| 123457000000 | 123456789010.12346 | 123456789010.1234567000 |
+--------------+--------------------+-------------------------+
6 rows in set (0.00 sec)

三、字符类型

字符类型和整形一样，用途也很广。用来存储字符、字符串、MySQL 所有未知的类型。可以简单说是万能类型！

char(10) 代表最大支持 10 个字符存储，varchar(10) 虽然和 char(10) 可存储的字符数一样多，不同的是 varchar 类型存储的是实际大小，char 存储的理论固定大小。具体的字节数和字符集相关。

示例 4

例如下面表 t4 ，两个字段 c1,c2，分别为 char 和 varchar。

mysql-(ytt/3305)->create table t4 (c1 char(20),c2 varchar(20));
Query OK, 0 rows affected (0.02 sec)

插入一条记录。

mysql-(ytt/3305)->set @a = "我是傻傻的小月亮！！！！";
Query OK, 0 rows affected (0.00 sec)

mysql-(ytt/3305)->insert into t4 values (@a,@a);
Query OK, 1 row affected (0.00 sec)

mysql-(ytt/3305)->select * from t4;
+--------------------------------------+--------------------------------------+
| c1                                   | c2                                   |
+--------------------------------------+--------------------------------------+
| 我是傻傻的小月亮！！！！| 我是傻傻的小月亮！！！！|
+--------------------------------------+--------------------------------------+
1 row in set (0.00 sec)

分别拿出来两个字段的值，发现 c1 比 c2 多了很多内容，包括字符个数，字节数。

mysql-(ytt/3305)->SELECT 'c1' AS 'column list',
   -> char_length(c1) '  as characters',
   -> length(c1) ' as bytes'
   -> FROM t4
   -> UNION all
   -> SELECT 'c2',
   -> char_length(c2) as ' characters',
   -> length(c2) as ' bytes'
   -> FROM t4;
+-------------+---------------+----------+
| column list | as characters | as bytes |
+-------------+---------------+----------+
| c1          |            20 |       44 |
| c2          |            12 |       36 |
+-------------+---------------+----------+
2 rows in set, 4 warnings (0.00 sec)

所以在 char 和 varchar 选型上，要注意看是否合适的取值范围。比如固定长度的值，肯定要选择 char；不确定的值，则选择 varchar。

四、日期类型

日期类型包含了 date,time,datetime,timestamp，以及 year。year 占 1 Byte，date 占 3 Byte。　

time,timestamp,datetime 在不包含小数位时分别占用 3 Byte,4 Byte,8 Byte；小数位部分另外计算磁盘占用，见下面表格。

注意：

timestamp 代表的时间戳是一个 int32 存储的整数，取值范围为 ‘1970-01-01 00:00:01.000000’ 到 ‘2038-01-19 03:14:07.999999’；

datetime 取值范围为 ‘1000-01-01 00:00:00.000000’ 到 ‘9999-12-31 23:59:59.999999’。

综上所述，日期这块类型的选择遵循以下原则：

1. 如果时间有可能超过时间戳范围，优先选择 datetime。

2. 如果需要单独获取年份值，比如按照年来分区，按照年来检索等，最好在表中添加一个 year 类型来参与。

3. 如果需要单独获取日期或者时间，最好是单独存放，而不是简单的用 datetime 或者 timestamp。后面检索时，再加函数过滤，以免后期增加 SQL 编写带来额外消耗。

4. 如果有保存毫秒类似的需求，最好是用时间类型自己的特性，不要直接用字符类型来代替。MySQL 内部的类型转换对资源额外的消耗也是需要考虑的。

示例 5

建立表 t5，对这些可能需要的字段全部分离开，这样以后写 SQL 语句的时候就很容易了。

mysql-(ytt/3305)->create table t5 (c1 date,c2 datetime(3),c3 timestamp(3),c4 time(3),c5 year);
Query OK, 0 rows affected (1.01 sec)

mysql-(ytt/3305)->set @a='2018-03-25 12:22:33.342';
Query OK, 0 rows affected (0.00 sec)

mysql-(ytt/3305)->insert into t5 values (date(@a), @a,@a,time(@a),year(@a));
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->select * from t5;
+------------+-------------------------+-------------------------+--------------+------+
| c1         | c2                      | c3                      | c4           | c5   |
+------------+-------------------------+-------------------------+--------------+------+
| 2018-03-25 | 2018-03-25 12:22:33.342 | 2018-03-25 12:22:33.342 | 12:22:33.342 | 2018 |
+------------+-------------------------+-------------------------+--------------+------+

当然了，这种情形占用额外的磁盘空间。如果想在易用性与空间占用量大这两点来折中，可以用 MySQL 的虚拟列来实时计算。比如假设 c5 字段不存在，想要得到 c5 的结果。

mysql-(ytt/3305)->alter table t5 drop c5, add c5 year generated always as (year(c1)) virtual;
Query OK, 1 row affected (2.46 sec)
Records: 1  Duplicates: 0  Warnings: 0

五、二进制类型

binary 和 varbinary 对应了 char 和 varchar 的二进制存储，相关的特性都一样。不同的有以下几点：

binary(10)/varbinary(10) 代表的不是字符个数，而是字节数。
行结束符不一样。char 的行结束符是 \0，binary 的行结束符是 0x00。
由于是二进制存储，所以字符编码以及排序规则这类就直接无效了。

示例 6

来看这个 binary 存取的简单示例，还是之前的变量 @a。

切记！这里要提前计算好 @a 占用的字节数，以防存储溢出。

mysql-(ytt/3305)->set @a = "我是傻傻的小月亮!!!!";
Query OK, 0 rows affected (0.00 sec)

mysql-(ytt/3305)->create table t6 (c1 binary(28),c2 varbinary(28));
Query OK, 0 rows affected (0.03 sec)

mysql-(ytt/3305)->insert into t6 values (@a,@a);
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->select * from t6;
+------------------------------+------------------------------+
| c1                           | c2                           |
+------------------------------+------------------------------+
| 我是傻傻的小月亮!!!!         | 我是傻傻的小月亮!!!!         |
+------------------------------+------------------------------+
1 row in set (0.00 sec)

六、位类型

bit 为 MySQL 里存储比特位的类型，最大支持 64 比特位，直接以二进制方式存储，一般用来存储状态类的信息。比如，性别，真假等。具有以下特性：

1. 对于 bit(8) 如果单纯存放 1 位，左边以 0 填充 00000001。

2. 查询时可以直接十进制来过滤数据。

3. 如果此字段加上索引，MySQL 不会自己做类型转换，只能用二进制来过滤。

示例 7

创建表 c1, 字段性别定义一个比特位。

mysql-(ytt/3305)->create table c1(gender bit(1));
Query OK, 0 rows affected (0.02 sec)

插入两条记录

mysql-(ytt/3305)->insert into c1 values (b'0');
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into c1 values (b'1');
Query OK, 1 row affected (0.00 sec)

检索数据，直接以十进制方式显示。

mysql-(ytt/3305)->select gender+0 'f1'  from c1;
+------+
| f1   |
+------+
|    0 |
|    1 |
+------+
2 rows in set (0.01 sec)

也可以用类型显示转换。

mysql-(ytt/3305)->select cast(gender as unsigned)  'f1' from c1;
+------+
| f1   |
+------+
|    0 |
|    1 |
+------+
2 rows in set (0.00 sec)

过滤数据也一样，二进制或者直接十进制都行。

mysql-(ytt/3305)->select conv(gender,16,10) as gender \
   -> from c1 where gender = b'1'; 
+--------+
| gender |
+--------+
| 1      |
+--------+
1 row in set (0.00 sec)
    
mysql-(ytt/3305)->select conv(gender,16,10) as gender \
    -> from c1 where gender = '1';
+--------+
| gender |
+--------+
| 1      |
+--------+
1 row in set (0.00 sec)

其实这样的场景，也可以定义为 char(0)，这也是类似于 bit 非常优化的一种用法。

mysql-(ytt/3305)->create table c2(gender char(0));
Query OK, 0 rows affected (0.03 sec)

那现在我给表 c1 简单的造点测试数据。

mysql-(ytt/3305)->select count(*) from c1;
+----------+
| count(*) |
+----------+
| 33554432 |
+----------+
1 row in set (1.37 sec)

把 c1 的数据全部插入 c2。

mysql-(ytt/3305)->insert into c2 select if(gender = 0,'',null) from c1;
Query OK, 33554432 rows affected (2 min 18.80 sec)
Records: 33554432  Duplicates: 0  Warnings: 0

两张表的磁盘占用差不多。

root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl
总用量 1.9G
4085684 933M -rw-r----- 1 mysql mysql 932M 12月 11 10:16 c1.ibd
4082686 917M -rw-r----- 1 mysql mysql 916M 12月 11 10:22 c2.ibd

检索方式稍微有些不同，不过效率也差不多。所以说，字符类型不愧为万能类型。

mysql-(ytt/3305)->select count(*) from c1 where gender = 0;
+----------+
| count(*) |
+----------+
| 16772213 |
+----------+
1 row in set (12.03 sec)

mysql-(ytt/3305)->select count(*) from c2 where gender = '';
+----------+
| count(*) |
+----------+
| 16772213 |
+----------+
1 row in set (12.53 sec)

七、枚举类型

枚举类型，也即 enum。适合提前规划好了所有已经知道的值，且未来最好不要加新值的情形。枚举类型有以下特性：

1. 最大占用 2 Byte。

2. 最大支持 65535 个不同元素。

3. MySQL 后台存储以下标的方式，也就是 tinyint 或者 smallint 的方式，下标从 1 开始。

4. 排序时按照下标排序，而不是按照里面元素的数据类型。所以这点要格外注意。

示例 8

创建表 t7。

mysql-(ytt/3305)->create table t7(c1 enum('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));
Query OK, 0 rows affected (0.03 sec)

用下标插入数据。

mysql-(ytt/3305)->insert into t7 values (1);
Query OK, 1 row affected (0.40 sec)

mysql-(ytt/3305)->insert into t7 values (2);
Query OK, 1 row affected (0.00 sec)

用真实元素插入数据。

mysql-(ytt/3305)->insert into t7 values ('postgresql');
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into t7 values ('dble');
Query OK, 1 row affected (0.01 sec)

mysql-(ytt/3305)->insert into t7 values ('sql server');

查询结果出来，发现是按照之前定义的元素排序，也就是下标排序。

mysql-(ytt/3305)->select * from t7 order by c1;
+------------+
| c1         |
+------------+
| mysql      |
| oracle     |
| dble       |
| postgresql |
| sql server |
+------------+
5 rows in set (0.00 sec)

八、集合类型

集合类型 SET 和枚举类似，也是得提前知道有多少个元素。SET 有以下特点：

1. 最大占用 8 Byte，int64。

2. 内部以二进制位的方式存储，对应的下标如果以十进制来看，就分别为 1,2,4,8，…，pow(2,63)。

3. 最大支持 64 个不同的元素，重复元素的插入，取出来直接去重。

4. 元素之间可以组合插入，比如下标为 1 和 2 的可以一起插入，直接插入 3 即可。

示例 9

定义表 c7 字段 c1 为 set 类型，包含了 8 个值，也就是下表最大为 pow(2,7)。

mysql-(ytt/3305)->create table c7(c1 set('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));
Query OK, 0 rows affected (0.02 sec)

插入 1 到 128 的所有组合。

mysql-(ytt/3305)->INSERT INTO c7
WITH RECURSIVE ytt_number (cnt) AS (
        SELECT 1 AS cnt
        UNION ALL
        SELECT cnt + 1
        FROM ytt_number
        WHERE cnt < pow(2, 7)
    )
SELECT *
FROM ytt_number;
Query OK, 128 rows affected (0.01 sec)
Records: 128  Duplicates: 0  Warnings: 0

查询的时候也是直接用下标或者元素来查。

mysql-(ytt/3305)->select * from c7 where c1 = 1;
+-------+
| c1    |
+-------+
| mysql |
+-------+
1 row in set (0.00 sec)

mysql-(ytt/3305)->select * from c7 where c1 = 'mysql';
+-------+
| c1    |
+-------+
| mysql |
+-------+
1 row in set (0.00 sec)

九、数据类型在存储函数中的用法

函数里除了显式声明的变量外，默认 session 变量的数据类型很弱，随着给定值的不同随意转换。

示例 10

定义一个函数，返回两个给定参数的乘积。定义里有两个变量，一个是 v_tmp 显式定义为 int64，另外一个 @vresult 随着给定值的类型随意变换类型。

DELIMITER $$
CREATE DEFINER=`ytt`@`127.0.0.1` FUNCTION `ytt_sample_data_type`(`f1` INT, `f2` INT) RETURNS varchar(100) CHARSET latin1
   NO SQL
begin
declare v_tmp bigint default 0;
set v_tmp = f1 * f2;
set @v_result = concat('The result is: ''',v_tmp,'''.');
return @v_result;
end$$
DELIMITER ;

简单调用下。

mysql-(ytt/3305)->select ytt_sample_data_type(1111,222) 'result';
+--------------------------+
| result                   |
+--------------------------+
| The result is: '246642'. |
+--------------------------+
1 row in set (0.00 sec)

总结

本篇把 MySQL 基本的数据类型做了简单的介绍，并且用了一些容易理解的示例来梳理这些类型。我们在实际场景中，建议选择适合最合适的类型，不建议所有数据类型简单的最大化原则。比如能用 varchar(100)，不用 varchar(1000)。

关于 MySQL 的技术内容，你们还有什么想知道的吗？赶紧留言告诉小编吧！

第01期：MySQL 数据类型的艺术

于4月 1, 20204月 1, 2020由杨涛涛发布

MySQL 调优

第47期：EXPLAIN TYPE 列的 JOIN 常见场景详解（上）

MySQL 调优

第46期：EXPLAIN：解说一条简单 SQL 语句的执行计划

MySQL 调优

第45期：一条 SQL 语句优化的基本思路

第01期：MySQL 数据类型的艺术

于4月 1, 20204月 1, 2020由杨涛涛发布

相关文章

MySQL 调优

第47期：EXPLAIN TYPE 列的 JOIN 常见场景详解（上）

MySQL 调优

第46期：EXPLAIN：解说一条简单 SQL 语句的执行计划

MySQL 调优

第45期：一条 SQL 语句优化的基本思路