添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
某些优化适用于使用 IN (or =ANY ) 运算符测试子查询结果的比较。本节讨论这些优化,特别是关于 NULL 值所带来的挑战。讨论的最后一部分建议您如何帮助优化器。 考虑以下子查询比较:

outer_expr IN (SELECT inner_expr FROM ... WHERE subquery_where)

MySQL “ 从外到内 ” 评估查询。 也就是说,它首先获取外部表达式的值 outer_expr ,然后运行子查询并捕获它生成的行。 一个非常有用的优化是 通知 子查询唯一感兴趣的行是内部表达式 inner_expr 等于的行 outer_expr 。这是通过将适当的相等性下推到子查询的 WHERE 子句中以使其更具限制性来完成的。转换后的比较如下所示:

EXISTS (SELECT 1 FROM ... WHERE subquery_where AND outer_expr=inner_expr)

转换后,MySQL 可以使用下推相等性来限制它必须检查以评估子查询的行数。 更一般地说,将 N N -value 行的子查询进行比较会受到相同的转换。如果 oe_i and ie_i 表示相应的外部和内部表达式值,则此子查询比较:

(oe_1, ..., oe_N) IN
  (SELECT ie_1, ..., ie_N FROM ... WHERE subquery_where)

EXISTS (SELECT 1 FROM ... WHERE subquery_where
                          AND oe_1 = ie_1
                          AND ...
                          AND oe_N = ie_N)

为简单起见,以下讨论假定一对外部和内部表达式值。

如果以下任一条件为真,则刚才描述 的 下推 ”策略会起作用:

outer_expr 并且 inner_expr 不能 NULL 。 您不需要区 NULL 分子 FALSE 查询结果。如果子查询是子句中 OR or AND 表达式 的一部分 WHERE ,MySQL 假定您不关心。优化器注意到 不需要区分子查询结果的另一个实例是这个构造 NULL FALSE

... WHERE outer_expr IN (subquery)

在这种情况下,该 WHERE 子句拒绝返回 ( subquery ) NULL FALSE

假设 outer_expr 已知那是一个非 NULL 值,但子查询不会生成满足 outer_expr = 的行 inner_expr 。然后 outer_expr IN (SELECT ...) 评估如下: NULL ,如果 SELECT 产生任何行,其中 inner_expr FALSE ,如果 SELECT 只产生非 NULL 值或什么都不产生 在这种情况下,查找行的方法 不再有效。有必要寻找这样的行,但如果没有找到,还要寻找行 where 。粗略地说,子查询可以转换成这样: outer_expr = inner_expr inner_expr NULL

EXISTS (SELECT 1 FROM ... WHERE subquery_where AND
        (outer_expr=inner_expr OR inner_expr IS NULL))

需要评估额外 IS NULL 条件是 MySQL 具有 ref_or_null 访问方法的原因:

mysql> EXPLAIN
       SELECT outer_expr IN (SELECT t2.maybe_null_key
                             FROM t2, t3 WHERE ...)
       FROM t1;
*************************** 1. row ***************************
           id: 1
  select_type: PRIMARY
        table: t1
*************************** 2. row ***************************
           id: 2
  select_type: DEPENDENT SUBQUERY
        table: t2
         type: ref_or_null
possible_keys: maybe_null_key
          key: maybe_null_key
      key_len: 5
          ref: func
         rows: 2
        Extra: Using where; Using index
...

unique_subquery 和 子查询特定 的 index_subquery 访问方法也有 NULL 变体。 附加 OR ... IS NULL 条件使查询执行稍微复杂一些(并且子查询中的一些优化变得不适用),但通常这是可以容忍的。

outer_expr 可 情况更糟的时候 NULL 。根据 NULL 作为 未知值 的 SQL 解释,应该评估为: NULL IN (SELECT inner_expr NULL ,如果 SELECT 产生任何行 FALSE ,如果不 SELECT 产生任何行 为了进行正确的评估,有必要能够检查 是否 SELECT 产生了任何行,因此 不能下推到子查询中。这是一个问题,因为许多现实世界的子查询变得非常慢,除非可以降低相等性。 outer_expr = inner_expr

本质上,必须有不同的方法来执行子查询,具体取决于 的值 outer_expr

outer_expr 优化器选择 SQL 合规性而不是速度,因此它考虑 了以下可能性 NULL : 如果 outer_expr NULL ,要评估以下表达式,有必要执行 SELECT 以确定它是否产生任何行:

NULL IN (SELECT inner_expr FROM ... WHERE subquery_where)

SELECT 这里执行原件,没有任何前面提到的那种下推式等式。 另一方面,当 outer_expr 不是 时 NULL ,此比较绝对必要:

outer_expr IN (SELECT inner_expr FROM ... WHERE subquery_where)

转换为使用下推条件的表达式:

EXISTS (SELECT 1 FROM ... WHERE subquery_where AND outer_expr=inner_expr)

如果没有这种转换,子查询就会很慢。 为了解决是否将条件下推到子查询中的困境,条件被包装在 触发器 函数中。因此,以下形式的表达式:

outer_expr IN (SELECT inner_expr FROM ... WHERE subquery_where)

被转换成:

EXISTS (SELECT 1 FROM ... WHERE subquery_where
                          AND trigcond(outer_expr=inner_expr))

更一般地,如果子查询比较基于几对外部和内部表达式,则转换采用以下比较:

(oe_1, ..., oe_N) IN (SELECT ie_1, ..., ie_N FROM ... WHERE subquery_where)

并将其转换为以下表达式:

EXISTS (SELECT 1 FROM ... WHERE subquery_where
                          AND trigcond(oe_1=ie_1)
                          AND ...
                          AND trigcond(oe_N=ie_N)
          都是一个特殊函数,计算结果如下:
trigcond(X)

链接的”外部表达式 oe_i不是 TRUE链接 外部表达式oe_itrigcond()函数中的等式不是查询优化器的一流谓词。大多数优化无法处理可能在查询执行时打开和关闭的谓词,因此它们假定 any 是未知函数并忽略它。这些优化可以使用触发的等式: trigcond(X)

引用优化: 可用于构造 trigcond(X=Y [OR Y IS NULL])refeq_refref_or_null

  • 基于索引查找的子查询执行引擎: 可用于构造 trigcond(X=Y)unique_subqueryindex_subquery

  • 表条件生成器:如果子查询是多个表的join,则尽快检查触发条件。 当优化器使用触发条件创建某种基于索引查找的访问时(对于前面列表的前两项),它必须有一个回退策略来应对条件关闭的情况。这种回退策略总是相同的:进行全表扫描。在 EXPLAIN输出中,回退显示Full scan on NULL keyExtra列中:

    mysql> EXPLAIN SELECT t1.col1,
           t1.col1 IN (SELECT t2.key1 FROM t2 WHERE t2.col2=t1.col2) FROM t1\G
    *************************** 1. row ***************************
               id: 1
      select_type: PRIMARY
            table: t1
    *************************** 2. row ***************************
               id: 2
      select_type: DEPENDENT SUBQUERY
            table: t2
             type: index_subquery
    possible_keys: key1
              key: key1
          key_len: 5
              ref: func
             rows: 2
            Extra: Using where; Full scan on NULL key

    如果你运行EXPLAIN后跟 SHOW WARNINGS,你可以看到触发条件:

    *************************** 1. row ***************************
      Level: Note
       Code: 1003
    Message: select `test`.`t1`.`col1` AS `col1`,
             <in_optimizer>(`test`.`t1`.`col1`,
             <exists>(<index_lookup>(<cache>(`test`.`t1`.`col1`) in t2
             on key1 checking NULL
             where (`test`.`t2`.`col2` = `test`.`t1`.`col2`) having
             trigcond(<is_not_null_test>(`test`.`t2`.`key1`))))) AS
             `t1.col1 IN (select t2.key1 from t2 where t2.col2=t1.col2)`
             from `test`.`t1`

    触发条件的使用对性能有一些影响。表达式现在NULL IN (SELECT ...) 可能会导致全表扫描(这很慢),而以前不会。这是为正确结果付出的代价(触发条件策略的目标是提高合规性,而不是速度)。 对于多表子查询, 的执行NULL IN (SELECT ...)速度特别慢,因为连接优化器不会针对外部表达式为 的情况进行优化NULL。它假设NULL左侧的子查询评估非常罕见,即使有统计数据表明情况并非如此。另一方面,如果外部表达式可能是 NULL但实际上从未是,则没有性能损失。 为了帮助查询优化器更好地执行您的查询,请使用以下建议:

    • NOT NULL像真的 一样声明一个列。通过简化列的条件测试,这也有助于优化器的其他方面。 如果您不需要区NULL分子 FALSE查询结果,则可以轻松避免缓慢的执行路径。替换如下所示的比较:

      outer_expr [NOT] IN (SELECT inner_expr FROM ...)

      用这个表达式:

      (outer_expr IS NOT NULL) AND (outer_expr [NOT] IN (SELECT inner_expr FROM ...))

      ThenNULL IN (SELECT ...)永远不会被评估,因为 AND一旦表达式结果明确,MySQL 就会停止评估部分。 另一种可能的重写:

      [NOT] EXISTS (SELECT inner_expr FROM ...
              WHERE inner_expr=outer_expr)
    系统变量的 subquery_materialization_cost_based 标志optimizer_switch 可以控制子查询物化和子查询转换之间的 IN选择EXISTS。请参阅 第 8.9.2 节,“可切换优化”
  •