使用分类预测模型(逻辑回归、决策树、神经网络等)对数据进行预测之后,我们需要知道,这个模型到底预测对了多少,预测错了多少。 这时就可以使用分类评估节点对模型的预测效果进行评估。该节点可以输出混淆矩阵结果和丰富的评估指标。执行此节点需要在对话框中分别选入真实值字段和预测值字段。 混淆矩阵以交叉表的形式展示了目标字段各个类别预测正确与否的记录数。所有的评估指标都可以在混淆矩阵的基础上计算得出。以一个二分类目标字段为例 (多分类问题可以转化为多个二分类问题,如药物Y/非药物Y),所有的实例,即记录可以分为正例(Positive)和负例(Negative),我们可以得到如下评估指标: TP:True Positives,表示正确预测到的正例的数量。 FP:False Positives,表示把负例预测成正例的数量。 TN:True Negatives,表示正确预测到的负例的数量。 FN:False Negatives,表示把正例预测成负例的数量。 召回率:Recall,表示正例的覆盖率,等于正确预测到的正例数/实际的正例总数。 命中率:Precision,表示正例的命中率,等于正确预测到的正例数/预测的正例总数。 覆盖率:Sensitivity,也表示正例的覆盖率,等于正确预测到的正例数/实际的正例总数。 负例的覆盖率:Specifity,等于正确预测到的负例数/实际的负例总数。 F-值:为命中率(Precision)和召回率(Recall)的调和平均值,等于命中率 召回率 *2/(命中率 召回率)。 准确率:等于正确预测到的正反例数/总数。 Cohen's kappa系数:诊断两个字段的一致性,其值越大一致性越好,等于(Pa-Pe)/(1-Pe),其中Pa=准确率,Pe=(TP+FP)/N(TP+FN)/N(FN+TN)/N*(FP+TN)/N。
对话框选项
原始值
选择代表真实值的字段。
预测值
选择代表预测值的字段。
排序方式
选择输出结果中类别按照出现的顺序还是按照字母进行排序。
倒序排列
按照类别的倒序进行排列。
端口
输入端口
0 |
至少包含两个比较字段的表。 |
输出端口
0 |
输出混淆矩阵。 |
1 |
包含准确率等评估指标的输出表。 |
视图
混淆矩阵
通过表格视图显示混淆矩阵。它可以通过突出矩阵的元素来突显相关行。因此,它可以用来识别错误的预测结果。