计算每对选中字段的相关系数,即对两变量之间的相关性进行度量。如进行数据挖掘建模之前,可以通过计算字段之间的相关系数来探索字段之间的相关关系。使用此节点计算相关系数之后, 可以配合使用相关性过滤节点按照设定条件过滤掉一部分字段。
根据字段的字段类型使用不同的相关性度量方法:
数值型 <-> 数值型: Pearson相关系数。在计算相关系数时,只考虑两列都不缺失的记录,忽略任一字段中有缺失值的记录。 例如,计算三个字段A、B和C之间的相关系数,其中一条记录在A字段缺失,在B和C列都有值,则在计算A与B以及A与C的相关系数时将忽略这一记录,但计算B与C的相关系数时仍包含这一记录。
5.1. Pearson相关系数的取值在-1(完全负相关)到1(完全正相关)之间。0表示两字段没有线性相关关系(但可能有其他方式的相关,如曲线相关关系)。 名义型 <-> 名义型: Cramer's V相关系数。V相关系数是由Cramer提出的一种度量两名义字段相关性的指标,它的计算以交叉表卡方检验的卡方值为基础, 其取值范围在0(两字段相互独立)到1(两字段完全相关)之间。名义字段的缺失值被当作一个独立的名义值进行处理。 如果两字段中一个字段的名义值数超过了对话框中指定的数目(默认为50),将无法计算二者的相关系数。
对于其他类型的字段对,无法计算相关系数,在输出表中用缺失值表示,在视图中显示为叉号。
对话框选项
字段选择
包含
选择参与相关分析的字段。
强制包含
选中此项,即使输入表发生变化,也强制使用现有的字段列表进行分析。新增字段会自动添加到排除列表中。
选择
在排除列表或者包含列表中选中一个字段,用相应的按钮将字段添加到包含列表或者移除到排除列表。
搜索
使用字段名搜索框可以模糊查询到包含列表或者排除列表中相应的字段。重复点击搜索按钮可以选中与搜索文本匹配的下一字段。 勾选"选中所有搜索到的结果" 可以同时选中所有匹配列。
排除
输入表中不参与相关分析的字段列表。
强制排除
选中此项,即使输入表发生变化,也强制使用现有的排除列表。新增字段会自动添加到包含列表中。
最大名义数
指定名义字段的名义值数目的上限,如果某名义字段的名义值数超过了对话框中指定的数目(默认为50),计算过程中将忽略此字段。
端口
输入端口
0 |
输入表。 |
输出端口
0 |
相关系数矩阵。 |
1 |
包含相关分析结果的模型。相关性过滤节点可以从此端口直接读取相关信息。 |
视图
相关矩阵
视图中热图展示了字段两两之间的相关强度。热图颜色根据相关系数大小从深红(强负相关),白色(不相关)到深蓝(强正相关)渐变。 在视图菜单下勾选掉热图,界面会切换到相关系数矩阵,如果两字段的相关系数不可得,相应的单元格就是缺失值(在热图中显示为叉号)。