概述

派生列节点是用于在数据集中生成可行的新特征字段。它可对现有数据的某个特征操作,允许用户自定义生成特征名称,并将生成的新特征字段添加到原数据集中。

输入/输出

输入

一个输入端口,用于接收数据集。

输出

一个输出端口,用于输出派生列的结果。

参数设置

设置派生列的参数:

设置说明如下:

参数
说明
添加表达式
  1. 添加/编辑表达式:选择对应的函数和字段,拖入添加/编辑表达式区。
  2. 新增表达式:输入派生列名,单击 增加 按钮添加表达式到列表。
  3. 保存表达式:点击 确定 按钮进行保存。
修改已定义的派生列列名

在列表区选择表达式,单击 修改 按钮后,修改列名再单击 增加 按钮。

目前派生列支持的函数有:

函数名称
函数及示例
说明
累积sum(<column>) over(partition by <columns> order by <columns>)对数字型字段进行累计计算。
  • Sum():用于设置求和计算字段;
  • Partition by():用于设置分组的字段;
  • Order by():用于设置排序的字段;
字符拼接 (拼接符)concat_ws("sep",str1,str2,...,strN)通过sep连接符将字符串拼接。
  • sep由用户自定义。
  • str:表示连接的字符。
字符拼接concat(str1, str2, ..., strN)不需要连接符,直接将字符串连接。
  • str:表示连接的字符。
字符截取substring(<column>, pos[, len])从字段中截取指定位置的len个字符。
  • <column>:表示截取的字段;
  • pos:表示从第几个位置开始截取,设置为正整数;
  • len:表示一共取多少个字符,设置为正整数;
小数点保留format_number(<column>, num)保留浮点型字段小数点位数。
  • <column>:表示设置小数点位数的字段;
  • num:表示小数点后保留的位数,设置为0和正整数;
内容提取(年)year(<column>)截取时间字段中的年信息。
  • <column>:表示截取的字段;
内容提取(月)month(<column>)截取时间字段中的月信息。
  • <column>:表示截取的字段;
内容提取(日)day(<column>)截取时间字段中的日信息。
  • <column>:表示截取的字段;
内容提取(时)hour(<column>)截取时间字段中的时信息。
  • <column>:表示截取的字段;
内容提取(分)minute(<column>)
  • 截取时间字段中的分信息。
    <column>:表示截取的字段;
内容提取(秒)minute(<column>)
  • 截取时间字段中的秒信息。
<column>:表示截取的字段;
向上取整ceiling(<column>)
  • 获取大于或等于取整字段的最小整数。
    <column>:表示取整的字段。
向下取整floor(<column>)
  • 获取小于或等于取整字段的最大整数。
    <column>:表示取整的字段。
四舍五入round(<column>)
  • 获取四舍五入后的整数。
    <column>:表示四舍五入的字段。

示例

1、原先文本数据源有1000条数据,想要获取Date字段中关于年份的信息,选择派生列节点,表达式为“year(Date)”。

2、输出结果如图: