专栏序

对于关系型数据库来说,表的设计 以及 SQL 的写法 尤为重要,占据性能的 90% 都不为过,所以这次专门针对这两大类知识领域,为您抽丝剥茧详细分析。

本专栏语言通俗易懂,选取大量示例为您详细说明个中奥妙~

面向的对象:

  • MySQL DBA

  • MySQL 开发者

  • 想从其他数据库转到 MySQL 的同学

第 01 期:MySQL 数据类型的艺术

那今天的开篇即为 MySQL 的数据类型,在这里主要包含了两部分:
MySQL 字段类型的选择,字段类型定义的合适与否直接影响到磁盘空间的占用以及 MySQL 性能极致的发挥。
MySQL 数据类型在存储程序中的应用,如存储函数,存储过程,触发器等。 

MySQL 数据类型介绍

MySQL 数据类型细分下来,大概有以下几类:
  • 数值,典型代表为 tinyint,int,bigint
  • 浮点/定点,典型代表为 float,double,decimal 以及相关的同义词
  • 字符串,典型代表为 char,varchar
  • 时间日期,典型代表为 date,datetime,time,timestamp
  • 二进制,典型代表为 binary,varbinary
  • 位类型
  • 枚举类型
  • 集合类型

以下内容,我们在另一篇文章介绍

  • 大对象,比如 text,blob
  • json 文档类型

一、数值类型(不是数据类型,别看错了)

如果用来存放整数,根据范围的不同,选择不同的类型。

以上是几个整数选型的例子。整数的应用范围最广泛,可以用来存储数字,也可以用来存储时间戳,还可以用来存储其他类型转换为数字后的编码,如 IPv4 等。

示例 1
用 int32 来存放 IPv4 地址,比单纯用字符串节省空间。表 x1,字段 ipaddr,利用函数 inet_aton,检索的话用函数 inet_ntoa。
  1. mysql-(ytt/3305)->create table x1( ipaddr int unsigned);

  2. Query OK, 0 rows affected (0.04 sec)


  3. mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.171'));

  4. Query OK, 1 row affected (0.01 sec)


  5. mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.172'));

  6. Query OK, 1 row affected (0.01 sec)


  7. mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.173'));

  8. Query OK, 1 row affected (0.01 sec)


  9. mysql-(ytt/3305)->insert into x1 values (inet_aton('192.168.2.174'));

  10. Query OK, 1 row affected (0.01 sec)

更改表结构,加一个虚拟列来转换字段 ipaddr。
  1. mysql-(ytt/3305)->alter table x1 add column \

  2. ->ipaddr_real varchar(20) generated always as (inet_ntoa(ipaddr)) virtual;

  3. Query OK, 0 rows affected (0.02 sec)

  4. Records: 0 Duplicates: 0 Warnings: 0


  5. mysql-(ytt/3305)->select * from x1;

  6. +------------+---------------+

  7. | ipaddr | ipaddr_real |

  8. +------------+---------------+

  9. | 3232236203 | 192.168.2.171 |

  10. | 3232236204 | 192.168.2.172 |

  11. | 3232236205 | 192.168.2.173 |

  12. | 3232236206 | 192.168.2.174 |

  13. +------------+---------------+

  14. 4 rows in set (0.00 sec)

示例 2

简单的对比占用磁盘空间大小,我定义了三张表 t1,t2,t3。字段分别为 tinyint,int32,int64。每张表数据相同,记录数为 2000W 行。

  1. mysql-(ytt/3305)->CALL `get_schema_records`();

  2. +------------+------------+------------+

  3. | t1 records | t2 records | t3 records |

  4. +------------+------------+------------+

  5. | 20000000 | 20000000 | 20000000 |

  6. +------------+------------+------------+

  7. 1 row in set (1.89 sec)


  8. Query OK, 0 rows affected (1.89 sec)

查看磁盘空间占用,t3 占用最大,t1 占用最小。所以说如果整数存储范围有固定上限,并且未来也没有必要扩容的话,建议选择最小的类型,当然了对其他类型也适用。
  1. root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl

  2. 总用量 3.0G

  3. 3541825 861M -rw-r----- 1 mysql mysql 860M 12月 10 11:36 t1.ibd

  4. 3541820 989M -rw-r----- 1 mysql mysql 988M 12月 10 11:38 t2.ibd

  5. 3541823 1.2G -rw-r----- 1 mysql mysql 1.2G 12月 10 11:39 t3.ibd

二、浮点数 / 定点数

先说 浮点数,float 和 double 都代表浮点数,区别简单记就是 float 默认占 4 Byte。
float(p) 中的 p 代表整数位最小精度。如果 p > 24 则直接转换为 double,占 8 Byte。p 最大值为 53,但最大值存在计算不精确的问题。
再说 定点数,包括 decimal 以及同义词 numeric,定点数的整数位和小数位分别存储,有效精度最大不能超过 65。
所以区别于 float 的在于精确存储,必须需要精确存储或者精确计算的最好定义为 decimal 即可。
示例 3
创建一张表 y1,分别给字段 f1,f2,f3 不同的类型。
  1. mysql-(ytt/3305)->create table y1(f1 float,f2 double,f3 decimal(10,2));

  2. Query OK, 0 rows affected (0.03 sec)

插入一些数值。
  1. mysql-(ytt/3305)->insert into y1 values (10.2,10.2,10.2);

  2. Query OK, 1 row affected (0.01 sec)


  3. mysql-(ytt/3305)->insert into y1 values (100.12,100.12,100.12);

  4. Query OK, 1 row affected (0.01 sec)


  5. mysql-(ytt/3305)->insert into y1 values (1001.12,1001.12,1001.12);

  6. Query OK, 1 row affected (0.01 sec)


  7. mysql-(ytt/3305)->insert into y1 values (12001.12,12001.12,12001.12);

  8. Query OK, 1 row affected (0.01 sec)


  9. mysql-(ytt/3305)->insert into y1 values (12001222.12,12001222.12,12001222.12);

  10. Query OK, 1 row affected (0.00 sec)

检索记录数,发现 f1 里面存放的记录数已经不准确了。
  1. mysql-(ytt/3305)->select * from y1;

  2. +---------+----------+----------+

  3. | f1 | f2 | f3 |

  4. +---------+----------+----------+

  5. | 10.2 | 10.2 | 10.20 |

  6. | 100.12 | 100.12 | 100.12 |

  7. | 1001.12 | 1001.12 | 1001.12 |

  8. | 12001.1 | 12001.12 | 12001.12 |

  9. +---------+----------+----------+

  10. 4 rows in set (0.00 sec)

那把 f3 的精度改大点,看看 double 的存储。
  1. mysql-(ytt/3305)->alter table y1 modify f3 decimal(50,10);

  2. Query OK, 5 rows affected (0.06 sec)

  3. Records: 5 Duplicates: 0 Warnings: 0

插入一条更大的记录。
  1. mysql-(ytt/3305)->insert into y1 values (123456789010.1234567,123456789010.1234567,123456789010.1234567);

  2. Query OK, 1 row affected (0.01 sec)

检索发现只有 f3 的值是精确的。
  1. mysql-(ytt/3305)->select * from y1;

  2. +--------------+--------------------+-------------------------+

  3. | f1 | f2 | f3 |

  4. +--------------+--------------------+-------------------------+

  5. | 10.2 | 10.2 | 10.2000000000 |

  6. | 100.12 | 100.12 | 100.1200000000 |

  7. | 1001.12 | 1001.12 | 1001.1200000000 |

  8. | 12001.1 | 12001.12 | 12001.1200000000 |

  9. | 12001200 | 12001222.12 | 12001222.1200000000 |

  10. | 123457000000 | 123456789010.12346 | 123456789010.1234567000 |

  11. +--------------+--------------------+-------------------------+

  12. 6 rows in set (0.00 sec)

三、字符类型

字符类型和整形一样,用途也很广。用来存储字符、字符串、MySQL 所有未知的类型。可以简单说是万能类型!

char(10) 代表最大支持 10 个字符存储,varchar(10) 虽然和 char(10) 可存储的字符数一样多,不同的是 varchar 类型存储的是实际大小,char 存储的理论固定大小。具体的字节数和字符集相关。

示例 4
例如下面表 t4 ,两个字段 c1,c2,分别为 char 和 varchar。
  1. mysql-(ytt/3305)->create table t4 (c1 char(20),c2 varchar(20));

  2. Query OK, 0 rows affected (0.02 sec)

插入一条记录。
  1. mysql-(ytt/3305)->set @a = "我是傻傻的小月亮!!!!";

  2. Query OK, 0 rows affected (0.00 sec)


  3. mysql-(ytt/3305)->insert into t4 values (@a,@a);

  4. Query OK, 1 row affected (0.00 sec)


  5. mysql-(ytt/3305)->select * from t4;

  6. +--------------------------------------+--------------------------------------+

  7. | c1 | c2 |

  8. +--------------------------------------+--------------------------------------+

  9. | 我是傻傻的小月亮!!!!| 我是傻傻的小月亮!!!!|

  10. +--------------------------------------+--------------------------------------+

  11. 1 row in set (0.00 sec)

分别拿出来两个字段的值,发现 c1 比 c2 多了很多内容,包括字符个数,字节数。
  1. mysql-(ytt/3305)->SELECT 'c1' AS 'column list',

  2. -> char_length(c1) ' as characters',

  3. -> length(c1) ' as bytes'

  4. -> FROM t4

  5. -> UNION all

  6. -> SELECT 'c2',

  7. -> char_length(c2) as ' characters',

  8. -> length(c2) as ' bytes'

  9. -> FROM t4;

  10. +-------------+---------------+----------+

  11. | column list | as characters | as bytes |

  12. +-------------+---------------+----------+

  13. | c1 | 20 | 44 |

  14. | c2 | 12 | 36 |

  15. +-------------+---------------+----------+

  16. 2 rows in set, 4 warnings (0.00 sec)

所以在 char 和 varchar 选型上,要注意看是否合适的取值范围。比如固定长度的值,肯定要选择 char;不确定的值,则选择 varchar。

四、日期类型

日期类型包含了 date,time,datetime,timestamp,以及 year。year 占 1 Byte,date 占 3 Byte。 
 time,timestamp,datetime 在不包含小数位时分别占用 3 Byte,4 Byte,8 Byte;小数位部分另外计算磁盘占用,见下面表格。
注意:
timestamp 代表的时间戳是一个 int32 存储的整数,取值范围为 ‘1970-01-01 00:00:01.000000’ 到 ‘2038-01-19 03:14:07.999999’;
datetime 取值范围为 ‘1000-01-01 00:00:00.000000’ 到 ‘9999-12-31 23:59:59.999999’。 

综上所述,日期这块类型的选择遵循以下原则:

1. 如果时间有可能超过时间戳范围,优先选择 datetime。
2. 如果需要单独获取年份值,比如按照年来分区,按照年来检索等,最好在表中添加一个 year 类型来参与。
3. 如果需要单独获取日期或者时间,最好是单独存放,而不是简单的用 datetime 或者 timestamp。后面检索时,再加函数过滤,以免后期增加 SQL 编写带来额外消耗。

4. 如果有保存毫秒类似的需求,最好是用时间类型自己的特性,不要直接用字符类型来代替。MySQL 内部的类型转换对资源额外的消耗也是需要考虑的。

示例 5

建立表 t5,对这些可能需要的字段全部分离开,这样以后写 SQL 语句的时候就很容易了。
  1. mysql-(ytt/3305)->create table t5 (c1 date,c2 datetime(3),c3 timestamp(3),c4 time(3),c5 year);

  2. Query OK, 0 rows affected (1.01 sec)


  3. mysql-(ytt/3305)->set @a='2018-03-25 12:22:33.342';

  4. Query OK, 0 rows affected (0.00 sec)


  5. mysql-(ytt/3305)->insert into t5 values (date(@a), @a,@a,time(@a),year(@a));

  6. Query OK, 1 row affected (0.01 sec)


  7. mysql-(ytt/3305)->select * from t5;

  8. +------------+-------------------------+-------------------------+--------------+------+

  9. | c1 | c2 | c3 | c4 | c5 |

  10. +------------+-------------------------+-------------------------+--------------+------+

  11. | 2018-03-25 | 2018-03-25 12:22:33.342 | 2018-03-25 12:22:33.342 | 12:22:33.342 | 2018 |

  12. +------------+-------------------------+-------------------------+--------------+------+

当然了,这种情形占用额外的磁盘空间。如果想在易用性与空间占用量大这两点来折中,可以用 MySQL 的虚拟列来实时计算。比如假设 c5 字段不存在,想要得到 c5 的结果。
  1. mysql-(ytt/3305)->alter table t5 drop c5, add c5 year generated always as (year(c1)) virtual;

  2. Query OK, 1 row affected (2.46 sec)

  3. Records: 1 Duplicates: 0 Warnings: 0

五、二进制类型

binary 和 varbinary 对应了 char 和 varchar 的二进制存储,相关的特性都一样。不同的有以下几点:

  • binary(10)/varbinary(10) 代表的不是字符个数,而是字节数。

  • 行结束符不一样。char 的行结束符是 \0,binary 的行结束符是 0x00。

  • 由于是二进制存储,所以字符编码以及排序规则这类就直接无效了。

示例 6

来看这个 binary 存取的简单示例,还是之前的变量 @a。

切记!这里要提前计算好 @a 占用的字节数,以防存储溢出。

  1. mysql-(ytt/3305)->set @a = "我是傻傻的小月亮!!!!";

  2. Query OK, 0 rows affected (0.00 sec)


  3. mysql-(ytt/3305)->create table t6 (c1 binary(28),c2 varbinary(28));

  4. Query OK, 0 rows affected (0.03 sec)


  5. mysql-(ytt/3305)->insert into t6 values (@a,@a);

  6. Query OK, 1 row affected (0.01 sec)


  7. mysql-(ytt/3305)->select * from t6;

  8. +------------------------------+------------------------------+

  9. | c1 | c2 |

  10. +------------------------------+------------------------------+

  11. | 我是傻傻的小月亮!!!! | 我是傻傻的小月亮!!!! |

  12. +------------------------------+------------------------------+

  13. 1 row in set (0.00 sec)

六、位类型

bit 为 MySQL 里存储比特位的类型,最大支持 64 比特位, 直接以二进制方式存储,一般用来存储状态类的信息。比如,性别,真假等。具有以下特性:

1. 对于 bit(8) 如果单纯存放 1 位,左边以 0 填充 00000001。
2. 查询时可以直接十进制来过滤数据。
3. 如果此字段加上索引,MySQL 不会自己做类型转换,只能用二进制来过滤。

示例 7

创建表 c1, 字段性别定义一个比特位。
  1. mysql-(ytt/3305)->create table c1(gender bit(1));

  2. Query OK, 0 rows affected (0.02 sec)

插入两条记录
  1. mysql-(ytt/3305)->insert into c1 values (b'0');

  2. Query OK, 1 row affected (0.01 sec)


  3. mysql-(ytt/3305)->insert into c1 values (b'1');

  4. Query OK, 1 row affected (0.00 sec)

检索数据,直接以十进制方式显示。
  1. mysql-(ytt/3305)->select gender+0 'f1' from c1;

  2. +------+

  3. | f1 |

  4. +------+

  5. | 0 |

  6. | 1 |

  7. +------+

  8. 2 rows in set (0.01 sec)

也可以用类型显示转换。

  1. mysql-(ytt/3305)->select cast(gender as unsigned) 'f1' from c1;

  2. +------+

  3. | f1 |

  4. +------+

  5. | 0 |

  6. | 1 |

  7. +------+

  8. 2 rows in set (0.00 sec)

过滤数据也一样,二进制或者直接十进制都行。
  1. mysql-(ytt/3305)->select conv(gender,16,10) as gender \

  2.    -> from c1 where gender = b'1'; 

  3. +--------+

  4. | gender |

  5. +--------+

  6. | 1      |

  7. +--------+

  8. 1 row in set (0.00 sec)

  9.     

  10. mysql-(ytt/3305)->select conv(gender,16,10) as gender \

  11.     -> from c1 where gender = '1';

  12. +--------+

  13. | gender |

  14. +--------+

  15. | 1      |

  16. +--------+

  17. 1 row in set (0.00 sec)

其实这样的场景,也可以定义为 char(0),这也是类似于 bit 非常优化的一种用法。

  1. mysql-(ytt/3305)->create table c2(gender char(0));

  2. Query OK, 0 rows affected (0.03 sec)

那现在我给表 c1 简单的造点测试数据。

  1. mysql-(ytt/3305)->select count(*) from c1;

  2. +----------+

  3. | count(*) |

  4. +----------+

  5. | 33554432 |

  6. +----------+

  7. 1 row in set (1.37 sec)

把 c1 的数据全部插入 c2。

  1. mysql-(ytt/3305)->insert into c2 select if(gender = 0,'',null) from c1;

  2. Query OK, 33554432 rows affected (2 min 18.80 sec)

  3. Records: 33554432 Duplicates: 0 Warnings: 0

两张表的磁盘占用差不多。
  1. root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl

  2. 总用量 1.9G

  3. 4085684 933M -rw-r----- 1 mysql mysql 932M 12月 11 10:16 c1.ibd

  4. 4082686 917M -rw-r----- 1 mysql mysql 916M 12月 11 10:22 c2.ibd

检索方式稍微有些不同,不过效率也差不多。所以说,字符类型不愧为万能类型。
  1. mysql-(ytt/3305)->select count(*) from c1 where gender = 0;

  2. +----------+

  3. | count(*) |

  4. +----------+

  5. | 16772213 |

  6. +----------+

  7. 1 row in set (12.03 sec)


  8. mysql-(ytt/3305)->select count(*) from c2 where gender = '';

  9. +----------+

  10. | count(*) |

  11. +----------+

  12. | 16772213 |

  13. +----------+

  14. 1 row in set (12.53 sec)

七、枚举类型

枚举类型,也即 enum。适合提前规划好了所有已经知道的值,且未来最好不要加新值的情形。枚举类型有以下特性:

1. 最大占用 2 Byte。
2. 最大支持 65535 个不同元素。
3. MySQL 后台存储以下标的方式,也就是 tinyint 或者 smallint 的方式,下标从 1 开始。
4. 排序时按照下标排序,而不是按照里面元素的数据类型。所以这点要格外注意。

示例 8

创建表 t7。
  1. mysql-(ytt/3305)->create table t7(c1 enum('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));

  2. Query OK, 0 rows affected (0.03 sec)

用下标插入数据。
  1. mysql-(ytt/3305)->insert into t7 values (1);

  2. Query OK, 1 row affected (0.40 sec)


  3. mysql-(ytt/3305)->insert into t7 values (2);

  4. Query OK, 1 row affected (0.00 sec)

用真实元素插入数据。
  1. mysql-(ytt/3305)->insert into t7 values ('postgresql');

  2. Query OK, 1 row affected (0.01 sec)


  3. mysql-(ytt/3305)->insert into t7 values ('dble');

  4. Query OK, 1 row affected (0.01 sec)


  5. mysql-(ytt/3305)->insert into t7 values ('sql server');

查询结果出来,发现是按照之前定义的元素排序,也就是下标排序。

  1. mysql-(ytt/3305)->select * from t7 order by c1;

  2. +------------+

  3. | c1 |

  4. +------------+

  5. | mysql |

  6. | oracle |

  7. | dble |

  8. | postgresql |

  9. | sql server |

  10. +------------+

  11. 5 rows in set (0.00 sec)

八、集合类型

集合类型 SET 和枚举类似,也是得提前知道有多少个元素。SET 有以下特点:

1. 最大占用 8 Byte,int64。
2. 内部以二进制位的方式存储,对应的下标如果以十进制来看,就分别为 1,2,4,8,…,pow(2,63)。
3. 最大支持 64 个不同的元素,重复元素的插入,取出来直接去重。
4. 元素之间可以组合插入,比如下标为 1 和 2 的可以一起插入,直接插入 3 即可。

示例 9

定义表 c7 字段 c1 为 set 类型,包含了 8 个值,也就是下表最大为 pow(2,7)。

  1. mysql-(ytt/3305)->create table c7(c1 set('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));

  2. Query OK, 0 rows affected (0.02 sec)

插入 1 到 128 的所有组合。

  1. mysql-(ytt/3305)->INSERT INTO c7

  2. WITH RECURSIVE ytt_number (cnt) AS (

  3. SELECT 1 AS cnt

  4. UNION ALL

  5. SELECT cnt + 1

  6. FROM ytt_number

  7. WHERE cnt < pow(2, 7)

  8. )

  9. SELECT *

  10. FROM ytt_number;

  11. Query OK, 128 rows affected (0.01 sec)

  12. Records: 128 Duplicates: 0 Warnings: 0

查询的时候也是直接用下标或者元素来查。

  1. mysql-(ytt/3305)->select * from c7 where c1 = 1;

  2. +-------+

  3. | c1 |

  4. +-------+

  5. | mysql |

  6. +-------+

  7. 1 row in set (0.00 sec)


  8. mysql-(ytt/3305)->select * from c7 where c1 = 'mysql';

  9. +-------+

  10. | c1 |

  11. +-------+

  12. | mysql |

  13. +-------+

  14. 1 row in set (0.00 sec)

九、数据类型在存储函数中的用法

函数里除了显式声明的变量外,默认 session 变量的数据类型很弱,随着给定值的不同随意转换。

示例 10

定义一个函数,返回两个给定参数的乘积。定义里有两个变量,一个是 v_tmp 显式定义为 int64,另外一个 @vresult 随着给定值的类型随意变换类型。

  1. DELIMITER $$

  2. CREATE DEFINER=`ytt`@`127.0.0.1` FUNCTION `ytt_sample_data_type`(`f1` INT, `f2` INT) RETURNS varchar(100) CHARSET latin1

  3. NO SQL

  4. begin

  5. declare v_tmp bigint default 0;

  6. set v_tmp = f1 * f2;

  7. set @v_result = concat('The result is: ''',v_tmp,'''.');

  8. return @v_result;

  9. end$$

  10. DELIMITER ;

简单调用下。

  1. mysql-(ytt/3305)->select ytt_sample_data_type(1111,222) 'result';

  2. +--------------------------+

  3. | result |

  4. +--------------------------+

  5. | The result is: '246642'. |

  6. +--------------------------+

  7. 1 row in set (0.00 sec)

总结

本篇把 MySQL 基本的数据类型做了简单的介绍,并且用了一些容易理解的示例来梳理这些类型。我们在实际场景中,建议选择适合最合适的类型,不建议所有数据类型简单的最大化原则。比如能用 varchar(100),不用 varchar(1000)。

关于 MySQL 的技术内容,你们还有什么想知道的吗?赶紧留言告诉小编吧!

分类: MySQL 调优