页面树结构
转至元数据结尾
转至元数据起始

接下来便是尝试建模,看看建模效果。

图3:预建模
首先,从数据准备>列菜单下选择类型转换节点。由于性别、血压、胆固醇三个字段实际存储类型该是字符型,但这里是整型,因此为了便于以下分析,使用类型转换节点将它们的类型从整型转化为字符型。配置如下:

其次,使用类型节点指定目标变量的角色,将药物的角色设为目标。

再次,从数据准备的行菜单中选择分区节点。使用分区节点可以将数据集分成测试集和训练集,训练集用于训练模型,测试集用于测试模型。配置如下:

注意,如果选中使用随机种子( ),则每次运行分区结果将会是一样的,否则每次运行的结果将会不同,进而建模的结果也会不同。通常是选择选中该项,使得训练集和测试集都固定。另外,此处还有个很重要的用途,不选中 ,多次运行可以测试数据分布规律和模型稳定性。
还有一点要注意,这里分区即把数据集随机分成两份,通常训练集要比测试集大,通常分为5:5,6:4,7:3,8:2,9:1。数据集越小,训练集应该分的更多,原因是要保证模型的稳定性,参与训练的数据要足够多。实际中,各种比例都会尝试,目的有二:一是选择最佳的比例,二是测试模型的稳定性。
然后,选择分类预测节点,因为目标变量(药物)为分类型。此处我们重点学习决策树算法,所以就先选择决策树算法节点。节点连接如上图3所示,在决策树(训练)节点配置中选择目标变量药物。其中,决策树(训练)节点连接分区节点。决策树训练节点可以采用默认配置,无需修改配置,如下:

最后,使用分类评估节点评估模型的准确性。配置如下图所示:

评估结果:

表3:模型评估1
从表3中可以看出,模型测试准确度为80%,误判20%。预建模的目的是为了从整体判断现有变量与目标变量的相关性,以便可以根据经验预估最终的效果和可操作性。
接下来如何优化模型呢?通常来说有三种办法:第一,增加新数据,以便引入更多重要的影响因素;第二,尝试其他模型,以便找到更适合的模型;第三,优化输入,即基于已有数据派生更多重要的变量,或者过滤不重要的变量。这三者中,第一种最难以实现,一般企业的数据是有限的,企业内部可用数据及外部可用网络数据,在项目需求调研阶段就应该明确,而企业外部行业数据难以获取。第二种最容易尝试,所有可用模型可以快速尝试一遍,这个是每个项目中都必做的,但却不是最重要的方法。而第三种方法才是项目中最可行,也是最重要的办法。
如何优化输入?这是第三种方法的实现目标。而优化输入最重要的环节就是数据探索。

  • 无标签