聚合函数 - 云原生大数据计算服务 MaxCompute

聚合（Aggregate）函数的输入与输出是多对一的关系，即将多条输入记录聚合成一条输出值，可以与MaxCompute SQL中的 group by 语句配合使用。本文为您提供MaxCompute SQL支持的聚合函数的命令格式、参数说明及示例，指导您使用聚合函数完成开发。

MaxCompute SQL支持的聚合函数如下。

函数	功能
ANY_VALUE	在指定范围内任选一个值返回。
APPROX_DISTINCT	返回输入的非重复值的近似数目。
ARG_MAX	返回指定列的最大值对应行的列值。
ARG_MIN	返回指定列的最小值对应行的列值。
AVG	计算平均值。
BITWISE_AND_AGG	计算输入Value的bit AND聚合值。
BITWISE_OR_AGG	计算输入Value的bit OR聚合值。
COLLECT_LIST	将指定的列聚合为一个数组。
COLLECT_SET	将指定的列聚合为一个无重复元素的数组。
COUNT	计算记录数。
COUNT_IF	计算指定表达式为True的记录数。
HISTOGRAM	构造输入Map的Key值出现次数的Map。
MAP_AGG	构造两个输入字段的Map。
MAP_UNION	对输入Map进行Union操作来构造输出Map。
MAP_UNION_SUM	对输入Map进行Union操作并对相同Key的Value求和来构造输出Map。
MAX	计算最大值。
MAX_BY	返回指定列的最大值对应行的列值。
MEDIAN	计算中位数。
MIN	计算最小值。
MIN_BY	返回指定列的最小值对应行的列值。
MULTIMAP_AGG	构造两个输入字段的Map，第一个字段作为Map的Key，第二个字段构造数组作为Map的Value。
NUMERIC_HISTOGRAM	统计指定列的近似直方图。
PERCENTILE_APPROX	计算近似百分位数，适用于大数据量。
STDDEV	计算总体标准差。
STDDEV_SAMP	计算样本标准差。
SUM	计算汇总值。
WM_CONCAT	用指定的分隔符连接字符串。

注意事项

升级到MaxCompute 2.0后，产品扩展了部分函数。如果您用到的函数涉及新数据类型（TINYINT、SMALLINT、INT、FLOAT、VARCHAR、TIMESTAMP或BINARY），在使用扩展函数时，需要执行如下语句开启新数据类型开关：

Session级别：如果使用新数据类型，您需要在SQL语句前加上语句 set odps.sql.type.system.odps2=true; ，并与SQL语句一起提交执行。
Project级别：Project Owner可根据需要对Project进行设置，等待10~15分钟后才会生效。命令如下。
```
setproject odps.sql.type.system.odps2=true;
```
对 setproject 的详细说明请参见项目空间操作。关于开启Project级别数据类型的注意事项，请参见数据类型版本说明。
单个Worker里的元素数量不能超过两百万。

在同一条SQL语句中同时使用多个聚合函数时，如果项目资源不足，会出现内存溢出问题，请您根据实际业务情况优化SQL或购买计算资源。

聚合函数语法

聚合函数的语法声明如下。

<aggregate_name>(<expression>[,...]) [within group (order by <col1>[,<col2>…])] [filter (where <where_condition>)]

<aggregate_name>(<expression>[,...]) ：内建聚合函数或用户自定义聚合函数 UDAF ，具体格式以实际聚合函数语法为准。

within group (order by <col1>[,<col2>…]) ：当聚合函数中携带该表达式时，默认会对 <col1>[,<col2>…] 的输入数据进行升序排列。如果需要降序排列，表达式为 within group (order by <col1>[,<col2>…] [desc]) 。

在使用该表达式时，您需要注意：

仅支持 WM_CONCAT 、 COLLECT_LIST 、 COLLECT_SET 及UDAF使用该表达式。
一个SELECT语句中如果多个聚合函数携带 within group (order by <col1>[,<col2>…]) 表达式时， order by <col1>[,<col2>…] 必须相同。
如果聚合函数的参数中携带了DISTINCT关键字， order by <col1>[,<col2>…] 中必须包含DISTINCT的列。

命令示例如下：

--示例一，对输入数据升序排列后输出。
select 
  wm_concat(',', y) within group (order by y)
from values('k', 1),('k', 3),('k', 2) as t(x, y)
group by x;
--返回结果如下。
+------------+------------+
| x          | _c1        |
+------------+------------+
| k          | 1,2,3      |
+------------+------------+
--示例二，对输入数据降序排列后输出。
select 
  wm_concat(',', y) within group (order by y desc)
from values('k', 1),('k', 3),('k', 2) as t(x, y)
group by x;
--返回结果如下。
+------------+------------+
| x          | _c1        |
+------------+------------+
| k          | 3,2,1      |
+------------+------------+
--示例三
select id,
wm_concat(distinct ',', name) within group (order by name desc)
from values('k', '1'),('k', '3'),('k', '2') as t(id, name)
group by id;
--返回结果如下。
+------------+------------+
| id         | _c1        |
+------------+------------+
| k          | 3,2,1      |
+------------+------------+

[filter (where <where_condition>)] ：当聚合函数中携带该表达式时，聚合函数只会处理满足 <where_condition> 的数据。更多 <where_condition> 信息，请参见 WHERE子句（where_condition）。

在使用该表达式时，您需要注意：

仅支持内建聚合函数使用该表达式，不支持UDAF使用该表达式。
count(*) 不支持 [filter (where <where_condition>)] 表达式。如果您需要对 count(*) 添加过滤条件，可以使用 COUNT_IF 。
COUNT_IF 也不支持 [filter (where <where_condition>)] 表达式。

命令示例如下：

--示例一，过滤并聚合数据。
select
  sum(x),
  sum(x) filter (where y > 1),
  sum(x) filter (where y > 2)
  from values(null, 1),(1, 2),(2, 3),(3, null) as t(x, y);
--返回结果如下。
+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 6          | 3          | 2          |
+------------+------------+------------+
--示例二，使用多个聚合函数过滤并聚合数据。
select
  count_if(x > 2),
  sum(x) filter (where y > 1),
  sum(x) filter (where y > 2)
  from values(null, 1),(1, 2),(2, 3),(3, null) as t(x, y);
--返回结果如下。
+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 1          | 3          | 2          |
+------------+------------+------------+

示例数据

为便于理解各函数的使用方法，本文为您提供源数据，基于源数据提供函数相关示例。创建表emp，并添加数据，命令示例如下：

create table if not exists emp
   (empno bigint,
    ename string,
    job string,
    mgr bigint,
    hiredate datetime,
    sal bigint,
    comm bigint,
    deptno bigint);
tunnel upload emp.txt emp;

emp.txt中的数据如下：

7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,,20
7499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,30
7521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,30
7566,JONES,MANAGER,7839,1981-04-02 00:00:00,2975,,20
7654,MARTIN,SALESMAN,7698,1981-09-28 00:00:00,1250,1400,30
7698,BLAKE,MANAGER,7839,1981-05-01 00:00:00,2850,,30
7782,CLARK,MANAGER,7839,1981-06-09 00:00:00,2450,,10
7788,SCOTT,ANALYST,7566,1987-04-19 00:00:00,3000,,20
7839,KING,PRESIDENT,,1981-11-17 00:00:00,5000,,10
7844,TURNER,SALESMAN,7698,1981-09-08 00:00:00,1500,0,30
7876,ADAMS,CLERK,7788,1987-05-23 00:00:00,1100,,20
7900,JAMES,CLERK,7698,1981-12-03 00:00:00,950,,30
7902,FORD,ANALYST,7566,1981-12-03 00:00:00,3000,,20
7934,MILLER,CLERK,7782,1982-01-23 00:00:00,1300,,10
7948,JACCKA,CLERK,7782,1981-04-12 00:00:00,5000,,10
7956,WELAN,CLERK,7649,1982-07-20 00:00:00,2450,,10
7956,TEBAGE,CLERK,7748,1982-12-30 00:00:00,1300,,10

过滤条件表达式

使用限制。
- 仅MaxCompute内置的聚合函数支持添加过滤条件表达式，自定义聚合函数UDAF暂不支持。
- count(*) 不能与过滤条件表达式同时使用，请使用 COUNT_IF 函数。

命令格式。

<aggregate_name>(<expression>[,...]) [filter (where <where_condition>)]

命令说明。

聚合函数都可以增加过滤条件表达式。如果指定了过滤条件，则只有满足过滤条件的行数据才会传给对应的聚合函数进行处理。
参数说明。
- aggregate_name ：必填。聚合函数名称，请根据实际需求选择下方的聚合函数。
- expression ：必填。聚合函数的参数。请根据各个聚合函数的参数说明填写。
- where_condition ：可选。过滤条件。更多过滤条件信息，请参见 WHERE子句（where_condition）。
返回值说明。

请参见各个聚合函数的返回值说明。

使用示例。

select sum(sal) filter (where deptno=10), sum(sal) filter (where deptno=20), sum(sal) filter (where deptno=30) from emp;

返回结果如下：

+------------+------------+------------+
| _c0        | _c1        | _c2        |
+------------+------------+------------+
| 17500      | 10875      | 9400       |
+------------+------------+------------+

ANY_VALUE

命令格式。
```
any_value(<colname>)
```
命令说明。

在指定范围内任选一个值返回。此函数为MaxCompute 2.0扩展函数。
参数说明。

colname ：必填。可以为任意类型。
返回值说明。

返回值类型同 colname 对应值类型。 colname 值为NULL时，该行不参与计算。

示例。

示例1：在所有职工中任选一名。命令示例如下：

select any_value(ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并在各组中任选一名。命令示例如下：

select deptno, any_value(ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | CLARK      |
| 20         | SMITH      |
| 30         | ALLEN      |
+------------+------------+

APPROX_DISTINCT

命令格式。
```
approx_distinct(<colname>)
```
命令说明。

计算指定列的非重复值的近似数目。此函数为MaxCompute 2.0扩展函数。
参数说明。

colname ：必填。需要统计去重的列。
返回值说明。

返回BIGINT类型。此函数会产生5%的标准误差。 colname 值为NULL时，该行不参与计算。

示例。

示例1：统计薪资（sal）列非重复值的近似数目。命令示例如下：

select approx_distinct(sal) from emp;

返回结果如下：

+-------------------+
| numdistinctvalues |
+-------------------+
| 12                |
+-------------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，统计薪资（sal）列非重复值的近似数目。命令示例如下：

select deptno, approx_distinct(sal) from emp group by deptno;

返回结果如下：

+------------+-------------------+
| deptno     | numdistinctvalues |
+------------+-------------------+
| 10         | 3                 |
| 20         | 4                 |
| 30         | 5                 |
+------------+-------------------+

ARG_MAX

命令格式。

arg_max(<valueToMaximize>, <valueToReturn>)

命令说明。

返回 valueToMaximize 最大值对应行的 valueToReturn 。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMaximize ：必填。可以为任意类型。
- valueToReturn ：必填。可以为任意类型。
返回值说明。

返回值类型和 valueToReturn 类型相同，如果存在多行最大值时，随机返回最大值中的一行对应的值。 valueToMaximize 值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最高的员工姓名。命令示例如下：

select arg_max(sal, ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| KING       |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最高职工姓名。命令示例如下：

select deptno, arg_max(sal, ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | KING       |
| 20         | SCOTT      |
| 30         | BLAKE      |
+------------+------------+

ARG_MIN

命令格式。

arg_min(<valueToMinimize>, <valueToReturn>)

命令说明。

返回 valueToMinimize 最小值对应行的 valueToReturn 。此函数为MaxCompute 2.0扩展函数。
参数说明。
- valueToMinimize ：必填。可以为任意类型。
- valueToReturn ：必填。可以为任意类型。
返回值说明。

返回值类型和 valueToReturn 类型相同，如果存在多行最小值时，随机返回最小值其中的一行对应的值。 valueToMinimize 值为NULL时，该行不参与计算。

示例。

示例1：返回薪资最低的员工姓名。命令示例如下：

select arg_min(sal, ename) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并返回各组中薪资最低职工姓名。命令示例如下：

select deptno, arg_min(sal, ename) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | MILLER     |
| 20         | SMITH      |
| 30         | JAMES      |
+------------+------------+

AVG

命令格式。
```
DECIMAL｜DOUBLE  avg(<colname>)
```
命令说明。

计算平均值。
参数说明。

colname ：必填。列值支持所有数据类型，可以转换为DOUBLE类型后参与运算。

返回值说明。

如果 colname 值为NULL时，该行不参与计算。其他类型返回规则如下：

输入类型	返回类型
TINYINT	DOUBLE
SMALLINT	DOUBLE
INT	DOUBLE
BIGINT	DOUBLE
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL

示例。

示例1：计算所有职工的平均薪资（sal）。命令示例如下：

select avg(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 2222.0588235294117 |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，计算各部门员工的平均薪资（sal）。命令示例如下：

select deptno, avg(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2916.6666666666665 |
| 20         | 2175.0     |
| 30         | 1566.6666666666667 |
+------------+------------+

BITWISE_AND_AGG

函数声明。
```
bigint bitwise_and_agg(bigint value)
```
命令说明。

对于输入的value，按照bit AND操作计算聚合值。
参数说明。

value ：必填。BIGINT类型的值，NULL值不参与计算。
返回值说明。

返回BIGINT类型。

示例。

select id, bitwise_and_agg(v) from
    values (1L, 2L), (1L, 1L), (2L, null), (1L, null) t(id, v) group by id;

返回结果如下。

+------------+------------+
| id         | _c1        |
+------------+------------+
| 1          | 0          |
| 2          | NULL       |
+------------+------------+

BITWISE_OR_AGG

函数声明。
```
bigint bitwise_or_agg(bigint value)
```
命令说明。

对于输入的value，按照bit OR操作计算聚合值。
参数说明。

value ：必填。BIGINT类型的值，NULL值不参与计算。
返回值说明。

返回BIGINT类型。

示例。

select id, bitwise_or_agg(v) from
    values (1L, 2L), (1L, 1L), (2L, null), (1L, null) t(id, v) group by id;

返回结果如下。

+------------+------------+
| id         | _c1        |
+------------+------------+
| 1          | 3          |
| 2          | NULL       |
+------------+------------+

COLLECT_LIST

命令格式。
```
array collect_list(<colname>)
```
命令说明。

将 colname 指定的列值聚合为一个数组。此函数为MaxCompute 2.0扩展函数。
参数说明。

colname ：必填。表的列名称，可为任意类型。
返回值说明。

返回ARRAY类型。 colname 值为NULL时，该行不参与计算。

示例。

示例1：将所有职工薪资（sal）聚合为一个数组。命令示例如下：

select collect_list(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| [800,1600,1250,2975,1250,2850,2450,3000,5000,1500,1100,950,3000,1300,5000,2450,1300] |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）聚合为一个数组。命令示例如下：

select deptno, collect_list(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [2450,5000,1300,5000,2450,1300] |
| 20         | [800,2975,3000,1100,3000] |
| 30         | [1600,1250,1250,2850,1500,950] |
+------------+------------+

示例3：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）去重后聚合为一个数组。命令示例如下：

select deptno, collect_list(distinct sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300,2450,5000] |
| 20         | [800,1100,2975,3000] |
| 30         | [950,1250,1500,1600,2850] |
+------------+------------+

COLLECT_SET

命令格式。
```
array collect_set(<colname>)
```
命令说明。

将 colname 指定的列值聚合为一个无重复元素的数组。此函数为MaxCompute 2.0扩展函数。
参数说明。

colname ：必填。表的列名称，可以为任意类型。
返回值说明。

返回ARRAY类型。 colname 值为NULL时，该行不参与计算。

示例。

示例1：将所有职工薪资（sal）聚合为一个无重复值的数组。命令示例如下：

select collect_set(sal) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| [800,950,1100,1250,1300,1500,1600,2450,2850,2975,3000,5000] |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，并将同组的职工薪资（sal）聚合为一个无重复值的数组。命令示例如下：

select deptno, collect_set(sal) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300,2450,5000] |
| 20         | [800,1100,2975,3000] |
| 30         | [950,1250,1500,1600,2850] |
+------------+------------+

COUNT

命令格式。
```
bigint count([distinct|all] <colname>)
```
命令说明。

计算记录数。
参数说明。
- distinct|all ：可选。表示在计数时是否去除重复记录，默认为 all ，即计算全部记录。如果指定 distinct ，则只计算唯一值数量。
- colname ：必填。列值可以为任意类型。 colname 可以为 * ，即 count(*) ，返回所有行数。
返回值说明。

返回BIGINT类型。 colname 值为NULL时，该行不参与计算。

示例。

示例1：计算所有部门的总职工人数。命令示例如下：

select count(*) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 17         |
+------------+

示例2：与 group by 配合使用，对所有职工按照部门（deptno）进行分组，计算各部门（deptno）的职工人数。命令示例如下：

select deptno, count(*) from emp group by deptno;

返回结果如下：

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 6          |
| 20         | 5          |
| 30         | 6          |
+------------+------------+

示例3：通过 distinct 去重，计算部门数量。命令示例如下：

select count(distinct deptno) from emp;

返回结果如下：

+------------+
| _c0        |
+------------+
| 3          |
+------------+

COUNT_IF

命令格式。
```
bigint count_if(boolean <expr>)
```
命令说明。

计算 expr 值为True的记录数。
参数说明。

expr ：必填。BOOLEAN类型表达式。
返回值说明。

返回BIGINT类型。 expr 值为False或 expr 中指定的列的值为NULL时，该行不参与计算。

示例。

select count_if(sal > 1000), count_if(sal <=1000) from emp;

返回结果如下：

+------------+------------+
| _c0        | _c1        |
+------------+------------+
| 15         | 2          |
+------------+------------+

HISTOGRAM

函数声明。
```
map<K, bigint> histogram(K input);
```
命令说明。

返回一个Map，Map的Key是输入input值，Map的Value是input值出现的次数。NULL值将被忽略。
参数说明。

input ：输入字段，将作为Map的Key。
返回值说明。

返回构造的Map，描述每个input值出现的次数。

示例。

select histogram(a) from values
    ('hi'), (null), ('apple'), ('pie'), ('apple') t(a);

返回结果如下。

+----------------------------+
| _c0                        |
+----------------------------+
| {"pie":1,"hi":1,"apple":2} |
+----------------------------+

MAP_AGG

函数声明。
```
map<K, V> map_agg(K a, V b);
```
命令说明。

使用输入的两个字段分别作为Key和Value来构造Map，以第一个字段作为Map的Key，以第二个字段作为Map的Value。如果key为NULL，则被忽略。如果Key的取值有重复，则会随机只保留其中的一个。
参数说明。
- a ：输入字段，将作为Map的Key。
- b ：输入字段，将作为Map的value。
返回值说明。

返回构造的Map。

示例。

select map_agg(a, b) from
        values (1L, 'apple'), (2L, 'hi'), (null, 'good'), (1L, 'pie') t(a, b);

返回结果如下。

+------------------------+
| _c0                    |
+------------------------+
| {"2":"hi","1":"apple"} |
+------------------------+

MAP_UNION

函数声明。
```
map<K, V> map_union(map<K, V> input);
```
命令说明。

对输入Map进行Union操作构造输出Map，如果某一个Key在多个输入Map中都存在，则会随机只保留其中的一个。
参数说明。

input ：输入Map。
返回值说明。

返回构造的Map。

示例。

select map_union(a) from values
    (map(1L, 'hi', 2L, 'apple', 3L, 'pie')), (map(1L, 'good', 4L, 'this')), (null) t(a);

返回结果如下。

+-----------------------------------------------+
| _c0                                           |
+-----------------------------------------------+
| {"4":"this","1":"good","2":"apple","3":"pie"} |
+-----------------------------------------------+

MAP_UNION_SUM

函数声明。

map<K, V> map_union_sum(map<K, V> input);

命令说明。

对输入Map进行Union并对同一个Key的Value进行求和操作构造输出Map，如果某一个Key对应的Value为NULL，则将其转换为0。

select map_union_sum(a) from values
    (map('hi', 2L, 'apple', 3L, 'pie', 1L)), (map('apple', null, 'hi', 4L)), (null) t(a);

+----------------------------+
| _c0                        |
+----------------------------+
| {"apple":3,"hi":6,"pie":1} |
+----------------------------+

```
max(<colname>)
```

select max(sal) from emp;

+------------+
| _c0        |
+------------+
| 5000       |
+------------+

select deptno, max(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 5000       |
| 20         | 3000       |
| 30         | 2850       |
+------------+------------+

max_by(<valueToReturn>,<valueToMaximize>)

select max_by(ename,sal) from emp;

+------------+
| _c0        |
+------------+
| KING       |
+------------+

select deptno, max_by(ename,sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | KING       |
| 20         | SCOTT      |
| 30         | BLAKE      |
+------------+------------+

double median(double <colname>)
decimal median(decimal <colname>)

输入类型	返回类型
TINYINT	DOUBLE
SMALLINT	DOUBLE
INT	DOUBLE
BIGINT	DOUBLE
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL

select median(sal) from emp;

+------------+
| _c0        |
+------------+
| 1600.0     |
+------------+

select deptno, median(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 2450.0     |
| 20         | 2975.0     |
| 30         | 1375.0     |
+------------+------------+

```
min(<colname>)
```

select min(sal) from emp;

+------------+
| _c0        |
+------------+
| 800        |
+------------+

select deptno, min(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300       |
| 20         | 800        |
| 30         | 950        |
+------------+------------+

min_by(<valueToReturn>,<valueToMinimize>)

 select min_by(ename,sal) from emp;

+------------+
| _c0        |
+------------+
| SMITH      |
+------------+

select deptno, min_by(ename,sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | MILLER     |
| 20         | SMITH      |
| 30         | JAMES      |
+------------+------------+

map<K, array<V>> multimap_agg(K a, V b);

select multimap_agg(a, b) from
        values (1L, 'apple'), (2L, 'hi'), (null, 'good'), (1L, 'pie') t(a, b);

+----------------------------------+
| _c0                              |
+----------------------------------+
| {"2":["hi"],"1":["apple","pie"]} |
+----------------------------------+

map<double key, double value> numeric_histogram(bigint <buckets>,
                                                double <colname>
                                                [, double <weight>])

select numeric_histogram(5, sal) from emp;

+------------+
| _c0        |
+------------+
| {"1328.5714285714287":7.0,"2450.0":2.0,"5000.0":2.0,"875.0":2.0,"2956.25":4.0} |
+------------+

select numeric_histogram(5, sal, deptno) from emp;

+------------+
| _c0        |
+------------+
| {"2944.4444444444443":90.0,"2450.0":20.0,"5000.0":20.0,"890.0":50.0,"1350.0":160.0} |
+------------+

double percentile_approx (double <colname>[, double <weight>], <p> [, <B>]))
--以数组形式返回多个百分位近似计算结果。
array<double> percentile_approx (double <colname>
                                 [, double <weight>],
                                 array(<p1> [, <p2>...])
                                 [, <B>])

select percentile_approx(sal, 0.3) from emp;

+------------+
| _c0        |
+------------+
| 1252.5     |
+------------+

select deptno, percentile_approx(sal, 0.3) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300.0     |
| 20         | 950.0      |
| 30         | 1070.0     |
+------------+------------+

set odps.sql.type.system.odps2=true;
select deptno, percentile_approx(sal, array(0.3, 0.5, 0.8), 1000) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300.0,1875.0,3470.000000000001] |
| 20         | [950.0,2037.5,2987.5] |
| 30         | [1070.0,1250.0,1580.0] |
+------------+------------+

select deptno, percentile_approx(sal, deptno, array(0.3, 0.5, 0.8), 1000)
  from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | [1300.0,1875.0,3470.0] |
| 20         | [950.0,2037.5,2987.5] |
| 30         | [1070.0,1250.0,1580.0] |
+------------+------------+

double stddev(double <colname>)
decimal stddev(decimal <colname>)

输入类型	返回类型
TINYINT	DOUBLE
SMALLINT	DOUBLE
INT	DOUBLE
BIGINT	DOUBLE
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL

select stddev(sal) from emp;

+------------+
| _c0        |
+------------+
| 1262.7549932628976 |
+------------+

select deptno, stddev(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1546.1421524412158 |
| 20         | 1004.7387720198718 |
| 30         | 610.1001739241043 |
+------------+------------+

double stddev_samp(double <colname>)
decimal stddev_samp(decimal <colname>)

输入类型	返回类型
TINYINT	DOUBLE
SMALLINT	DOUBLE
INT	DOUBLE
BIGINT	DOUBLE
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL

select stddev_samp(sal) from emp;

+------------+
| _c0        |
+------------+
| 1301.6180541247609 |
+------------+

select deptno, stddev_samp(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1693.7138680032901 |
| 20         | 1123.3320969330487 |
| 30         | 668.3312551921141 |
+------------+------------+

DECIMAL｜DOUBLE｜BIGINT  sum(<colname>)

输入类型	返回类型
TINYINT	BIGINT
SMALLINT	BIGINT
INT	BIGINT
BIGINT	BIGINT
FLOAT	DOUBLE
DOUBLE	DOUBLE
DECIMAL	DECIMAL

select sum(sal) from emp;

+------------+
| _c0        |
+------------+
| 37775      |
+------------+

select deptno, sum(sal) from emp group by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 17500      |
| 20         | 10875      |
| 30         | 9400       |
+------------+------------+

string wm_concat(string <separator>, string <colname>)

select wm_concat(',', ename) from emp;

+------------+
| _c0        |
+------------+
| SMITH,ALLEN,WARD,JONES,MARTIN,BLAKE,CLARK,SCOTT,KING,TURNER,ADAMS,JAMES,FORD,MILLER,JACCKA,WELAN,TEBAGE |
+------------+

select deptno, wm_concat(',', ename) from emp group by deptno order by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | CLARK,KING,MILLER,JACCKA,WELAN,TEBAGE |
| 20         | SMITH,JONES,SCOTT,ADAMS,FORD |
| 30         | ALLEN,WARD,MARTIN,BLAKE,TURNER,JAMES |
+------------+------------+

select deptno, wm_concat(distinct ',', sal) from emp group by deptno order by deptno;

+------------+------------+
| deptno     | _c1        |
+------------+------------+
| 10         | 1300,2450,5000 |
| 20         | 1100,2975,3000,800 |
| 30         | 1250,1500,1600,2850,950 |
+------------+------------+

select deptno, wm_concat(',',sal) within group(order by sal) from emp group by deptno order by deptno;

+------------+------------+
|deptno|_c1|
+------------+------------+
|10|1300,1300,2450,2450,5000,5000|
|20|800,1100,2975,3000,3000|
|30|950,1250,1250,1500,1600,2850|
+------------+------------+

注意事项

聚合函数语法

示例数据

过滤条件表达式

ANY_VALUE

APPROX_DISTINCT

ARG_MAX

ARG_MIN

AVG

BITWISE_AND_AGG

BITWISE_OR_AGG

COLLECT_LIST

COLLECT_SET

COUNT

COUNT_IF

HISTOGRAM

MAP_AGG

MAP_UNION

MAP_UNION_SUM

MAX

MAX_BY

MEDIAN

MIN

MIN_BY

MULTIMAP_AGG

NUMERIC_HISTOGRAM

PERCENTILE_APPROX

STDDEV

STDDEV_SAMP

SUM

WM_CONCAT