collation(照合順序)衝突の問題 - HHeLiBeXの日記正道編

MySQLで、以下のようなエラーに悩まされたことはないだろうか。

ERROR 1267 (HY000): Illegal mix of collations (sjis_japanese_ci,IMPLICIT) and (cp932_japanese_ci,IMPLICIT) for operation 'UNION'
ERROR 1267 (HY000): Illegal mix of collations (sjis_japanese_ci,IMPLICIT) and (cp932_japanese_ci,IMPLICIT) for operation '='

ちなみにこれは、以下のようなSQL文を順に実行したときに発生する。

CREATE TABLE t1(
      id VARCHAR(8) NOT NULL
    , name VARCHAR(8) NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=sjis;

CREATE TABLE t2(
      id VARCHAR(8) NOT NULL
    , name VARCHAR(8) NOT NULL
) ENGINE=InnoDB DEFAULT CHARSET=cp932;

SELECT id, name FROM t1
UNION ALL
SELECT id, name FROM t2;

SELECT t1.id, t1.name, t2.id, t2.name
FROM t1, t2
WHERE t1.id = t2.id;

2つのテーブルの文字エンコーディング設定が異なるため、それぞれに含まれるカラムのCollation(照合順序)も異なってくる。異なるCollation間では、UNIONや比較ができない。そのため上記のようなエラーになる。
(まぁ、そもそもこんな壊れたテーブル設計なんてぶち壊してしまえという話だが、自分の一存ではぶち壊せないので(謎))

ところで、Collationが違うと常にだめなのか、ということについて疑問に思ったので、検証してみた。
まず、以下のようなカオスなテーブルを作成する。

CREATE TABLE hoge(
      id int NOT NULL DEFAULT 1
    , s11 VARCHAR(8) CHARACTER SET sjis                        NOT NULL DEFAULT 'hello'
    , s12 VARCHAR(8) CHARACTER SET sjis    collate sjis_bin    NOT NULL DEFAULT 'hello'
    , s21 VARCHAR(8) CHARACTER SET ujis                        NOT NULL DEFAULT 'hello'
    , s22 VARCHAR(8) CHARACTER SET ujis    collate ujis_bin    NOT NULL DEFAULT 'hello'
    , s31 VARCHAR(8) CHARACTER SET cp932                       NOT NULL DEFAULT 'hello'
    , s32 VARCHAR(8) CHARACTER SET cp932   collate cp932_bin   NOT NULL DEFAULT 'hello'
    , s41 VARCHAR(8) CHARACTER SET eucjpms                     NOT NULL DEFAULT 'hello'
    , s42 VARCHAR(8) CHARACTER SET eucjpms collate eucjpms_bin NOT NULL DEFAULT 'hello'
    , s51 VARCHAR(8) CHARACTER SET utf8                        NOT NULL DEFAULT 'hello'
    , s52 VARCHAR(8) CHARACTER SET utf8    collate utf8_bin    NOT NULL DEFAULT 'hello'
    , s61 VARCHAR(8) CHARACTER SET utf8mb4                     NOT NULL DEFAULT 'hello'
    , s62 VARCHAR(8) CHARACTER SET utf8mb4 collate utf8mb4_bin NOT NULL DEFAULT 'hello'
    , s71 VARCHAR(8) CHARACTER SET latin1                      NOT NULL DEFAULT 'hello'
    , s72 VARCHAR(8) CHARACTER SET latin1  collate latin1_bin  NOT NULL DEFAULT 'hello'
    , s81 VARCHAR(8) CHARACTER SET ascii                       NOT NULL DEFAULT 'hello'
    , s82 VARCHAR(8) CHARACTER SET ascii   collate ascii_bin   NOT NULL DEFAULT 'hello'
);
INSERT INTO hoge(id) VALUES(1234);

まぁ、実際にこんなテーブルがあったら、まずぶち壊すところから始めるところだが、今回は実験用ということで。
で、このテーブルに対して、以下のようなクエリを全組み合わせについて発行する。

SELECT h1.id FROM hoge h1, hoge h2 WHERE h1.s11 = h2.s12 ;
SELECT h1.id FROM hoge h1, hoge h2 WHERE h1.s11 = h2.s21 ;
SELECT h1.id FROM hoge h1, hoge h2 WHERE h1.s11 = h2.s22 ;
  :

すると、結果は次のようになる。

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(1) sjis

(2) sjis(b)

(3) ujis

(4) ujis(b)

(5) cp932

(6) cp932(b)

(7) eucjpms

(8) eucjpms(b)

(9) utf8

(10) utf8(b)

(11) utf8mb4

(12) utf8mb4(b)

(13) latin1

(14) latin1(b)

(15) ascii

(16) ascii(b)

後ろに「(b)」がついているのはバイナリ(_bin)、ついていないのは何ていったらいいんだ(_japanese_ci)。
こうしてみると、utf8、utf8mb4、asciiは(調べた範囲内での)どの組み合わせでも比較などが問題なくできることが分かる。