查看源

该节点包含可以进行分类预测的决策树算法。目标字段必须是名义型字段。输入字段可以是名义型的，也可以是数值型的。数值型字段通常进行二元分割，根据确定的分割点将数据分成两个分区。名义型字段可以是二元分割也可以是多元分割，甚至是每一个名义值为一个分割点。该模型该提供了两个计算分割质量的算法，另外，还有减少树大小和提升预测精度的后修剪算法，该算法是基于最小描述长度原则。这个算法可以基于多处理器或者开启多个线程进行并行执行，这样可以提高性能。
对话框选项
质量度量
选择用于分裂计算就算的质量度量方法。可用的方法有"基尼系数"和"增益比率"。
修剪方法
对树进行修剪，可以减少树的大小和过拟合问题，进而得到一个更有普遍适用性的树和好的预测质量（如果要进行预测，需要使用决策树（预测）节点）。可用的方法有"最小描述长度"（MDL）修剪法和不修剪两种。
减少错误修剪
如果选中此项，将会按照以下简单的修剪方法进行修剪：从树叶开始,每个节点被替换为最受欢迎的类，但是需要保证预测精度不会因此而减少。该方法的优点是简单和高效。
分支最小记录数
此项用于指定每个节点的最小记录数。如果记录数小于或等于该值，则树不再进一步生长。这相当于预修剪。
视图突显记录数
选择视图中树保存的记录数。这些记录会被突显。
平均分割点
如果选中此项（默认），数值型字段将会依据其平均值来确定分割值。如果不选中，则以较小分区的最大值作为分割值。
线程数
该节点可以基于多处理器开启多个线程进行并行执行，这样可以提高性能。设置的默认值等于可以使用的处理器或者核数。如果设置为1，该算法将循序执行。
跳过域外的名义型字段
如果选中此项，不包含域值信息的名义型字段将会跳过。通常是针对有太多不同取值的名义型字段。
二叉分割
如果选中此项，名义型字段会被分割成二元型。名义型的属性值被分成两个子集，成为两个子节点。二元分割的计算会更有难度，但是产生的决策树的精度也往往更高。如果不选中此项，每个名义值都会成为一个子节点。
最大名义数
二叉分割子集的计算很困难。寻找n个属性值的最优子集需要执行2^n次计算。当名义值很多的时候这样执行的成本很大。因此最大名义数是为所有可能子集的计算而定义。如果超过这个阀值，首先计算第二个分区最好的名义值,然后计算第二个最佳值,等等,直到不再有改善。
过滤子节点中无效的属性值
对名义值的二元分割可能导致对已被父节点过滤掉的属性值的测试。这是因为训练算法是使用表中值域内的信息进行分割子集而不是使用树中包含的数据。选中该项会对树进行后处理操作，并过滤掉无效的检查值。
无正确子节点策略
如果计算到一个属性值未知的节点，以下有两个策略可以使用: 返回空:以缺失值作为预测值 返回上一级: 返回上一个节点的大多数类。
缺失值策略
如果数据中有缺失值，可以选择一个处理缺失值的策略: 上一预测值:使用上一个知道的值 默认子节点: 使用默认的子节点,继续遍历它的路径无:使用无正确子节点策略。
端口
输入端口

0	用于建立决策树模型的训练数据。该数据至少包括一个分类型字段。

输出端口

0	生成的决策树模型。模型可以用于对目标值未知的数据进行分类预测。要实现这一点，需要和决策树（预测）节点联合使用。

视图
决策树视图
可视化决策树训练模型。这个树可以通过加减号展开或者收缩。
决策树视图(简单)
可视化决策树训练模型。这个树可以通过加减号展开或者收缩。括号中显示分割标准。这显示的是分割父节点的字段名，数值型字段显示数值，名义型字段显示名义集合。单引号的内容表示这个节点中最多的取值。圆括号中的值（x/y）表示的是该节点中最多取值的数量（x）和该节点中总记录数（y）。边界为黑色且带有部分黄色的杯状图表示该节点包含的记录数在其父节点总记录数中的占比。带颜色的饼图表示该节点包含的记录数占输入表总记录数的比重。注意: 颜色不一定反映类属性。如果想要颜色分布和目标变量的属性值结合到一起，可以使用颜色管理器定义目标字段各个属性值的颜色。