箱线图可以直观地展现5个统计量:最小值、下四分位数、中位数、上四分位数和最大值。这些参数都比较稳定,不易受到极端值的影响。
数值型变量的箱线图创建方法: 矩形盒子两端边的位置分别是下四分位数(Q1)和上四分位数(Q3)。盒子内部中位数位置的线段为中位线。Q1和Q3之间的距离称为四分位差(IQR)。 矩形盒子的上下两端向外各有一条须似的延长线段(虚线)直到不是异常值的最小值和最大值。这两条延长线不会超过1.5*IQR。 如果有数据点超过了Q1 - (1.5 * IQR)或者Q3 + (1.5 * IQR),这些数据点将被视为异常值分别画在延长线段之外。 异常值可以划分为温和的异常值和极端的异常值。温和的异常值是指处在Q1 - (1.5 * IQR)和Q1 - (3 * IQR)之间或者 Q3 + (1.5 * IQR)和Q3 + (3 * IQR)之间的数据点。换句话说,温和的异常值就是1.5倍四分位差和3倍四分位差之间的数据点。 极端的异常值是指处于Q1 - (3 * IQR)或者Q3 + (3 * IQR)之外的数据点。因此,矩形盒子长度(四分位差)的三倍就标志着温和的和极端的异常值的边界。 温和的异常值用圆点表示,极端的异常值用十字形表示。为了方便确认,可以选择和突出显示异常值。这也可以快速了解数据集的极端情况。
如果展示的可用空间太小,所有的标签(最小值,Q1,中位数,Q3,最大值)将不显示,缺失信息作为提示信息显示。
突出显示:
异常值点可以通过用鼠标在点上拖动一个方框或直接点击的方式选中。按住Ctrl键可以进行多重选择。选中的点可以通过点击右键菜单或菜单栏中的突出显示菜单进行突出显示。 注意:如果一条记录在几列同时含有异常值,所有那条记录的异常值将被同时选中和突出显示,因为选择和突出显示都是基于数据点(记录)执行的!
提示信息
在盒子的边界上移动鼠标可以看到展示参数的精确值,在异常值数据点上移动鼠标可以看到点的值和行ID。
属性:
默认设置:
鼠标模式:"选择"可以选择数据点,"放大"可以放大显示。在放大显示模式下,还可以使用"移动"浏览放大页面。
"适合屏幕" 在整个可用空间上展示。
"背景颜色" 选择背景颜色。
列选择: 选择要展示的列。
外观: 选择"标准化",则所有列用统一度量的高度展示。否则,用各自的度量方式展示。
端口
输入端口
0 |
需要展示的数据 |
输出端口
0 |
含有统计量的数据表,每列分别为:最小值,最小值(非异常值),Q1,中位数,Q3,最大值(非异常值)和最大值。 |
视图
箱线图
展现数据分布的箱线图。