页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

概述

聚合可根据用户的需求对数据进行各种聚合运算,包括分组、求均值、最大值、最小值、求和、统计、去重统计。用户可以根据不同数据类型使用不同的聚合函数以及生成的新特征名称。聚合可根据用户的需求对数据进行各种聚合运算,包括分组、求均值、最大值、最小值、求和、统计、去重统计等等。用户可以根据不同数据类型使用不同的聚合函数以及生成的新特征名称。

 

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录

输入/输出

输入

一个输入端口,用于接收数据集。

输出

一个输出端口,用于输出聚合的结果。

参数设置

设置合并列的参数:设置聚合的参数:

设置说明如下:Image Removed

参数
类别
说明
聚合配置

选择字段

 

 结果列名(可选) 
 操作(可选)

数值类型:

  • Group:
  • Count:
  • DistinctCount:
  • Collect_list:

字符类型:

 

示例

1、对鸢尾花的种类进行分组,求出了每类花花瓣的长度的平均值。

Image Removed

2、

选择添加聚合的字段。

结果列名输出结果列的列名。
操作

字符类型字段:

    • Group:根据一个或多个列对结果集进行分组。
    • Count:对包含非空值的列进行计数。
    • DistinctCount:对列中的非重复值数目进行计数。
    • Collect_list:将指定列转为一个数组返回。

数值类型字段:

    • Group:根据一个或多个列对结果集进行分组。
    • Count:对包含非空值的列进行计数。
    • DistinctCount:对列中的非重复值数目进行计数。
    • Min:返回指定列的最小值。
    • Max:返回指定列的最大值。
    • Avg:返回指定列的平均值。
    • Sum:对某个列中的所有数值求和。

示例

1、原先示例数据源输出结果有6列,对其进行聚合,选择字段“Species”,输入结果列名“鸢尾花种类”,选择操作“Group”;选择字段“Sepal_Length”,输入结果列名“均值”,选择操作“Avg”。

Image Added

2、输出结果有两列,一列对Species分组,另一列求出Sepal_Length的平均值。