页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。
评论: 从版本7恢复

背景描述及需求

目录

自2010年开始,中国的二手车市场开始步入了快速发展阶段,并开始成为汽车市场重要的组成部分,二手车市场已经具备了实现跨越式发展的基本条件,为符合国际通行的运营模式的应用打下了坚实的市场基础。面对市场上激烈的二手车价格竞争,为了针对二手车高效的销售,对此根据二手车历史数据进行分析价格的涨幅情况。

本次对二手车历史销售数据进行合理的价格预测,本次数据挖掘数据建模目标如下:

1.借助二手车历史销售数据分析对价格的影响的相关因素;

2.建立模型预测二手车销售价格,掌握二手车价格的情况;

3.针对二手车价格预测情况做好活动方便合理销售。

Image Removed

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录

Image Added

1)获取数据,数据来源于赛题二手车交易价格预测;

2)对获取的数据进行基本的处理操作,相关性分析输入特征; 

3)根据统计特征数据建立二手车交易价格预测模型;

4)对模型结果进行评估。

实施过程

本案例共收集到1万条二手车历史数据,字段详细说明如下:本案例共收集到15万条二手车历史数据,字段详细说明如下:

字段名称

类型

字段说明

SaleID

整型

交易ID,唯一编码

name

整型

汽车交易名称,已脱敏

regDate

整型

汽车注册日期,例如20160101,2016年01月01日

model

浮点型

车型编码,已脱敏

brand

整型

汽车品牌,已脱敏

bodyType

浮点型

车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7

fuelType

浮点型

燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6

gearbox

浮点型

变速箱:手动:0,自动:1

power

整型

发动机功率:范围 [ 0, 600 ]

kilometer

整型

汽车已行驶公里,单位万km

notRepairedDamage

字符串

汽车有尚未修复的损坏:是:0,否:1

regionCode

整型

地区编码,已脱敏

seller

整型

销售方:个体:0,非个体:1

offerType

整型

报价类型:提供:0,请求:1

creatDate

整型

汽车上线时间,即开始售卖时间

price

整型

二手车交易价格(预测目标)

v系列特征

整型

匿名特征,包含v0-14在内15个匿名特征

数据接入

在实验中添加 数据源 节点,将二手车交易价格数据读取进来,部分数据如图所示: 节点,将二手车交易价格数据读取进来,部分数据如图所示:

Image RemovedImage Added

数据探索

本案例的探索分析是对数据进行缺失值分析与数据分布分析,分析出数据的缺失和分布情况。通过 聚合 节点查看原表数据中notRepairedDamage字段类型有三种。需要将“ 节点查看原表数据中notRepairedDamage字段类型有三种。需要将“-”的数据设置为空值。

Image RemovedImage Added

通过 全表统计 节点统计所有特征,查看各指标的分布情况,发现部分数据含有缺失情况,如图: 节点统计所有特征,查看各指标的分布情况,发现部分数据含有缺失情况,如图:

Image RemovedImage Added

数据预处理

我们通过 派生列 节点对notRepairedDamage字段中“ 节点对notRepairedDamage字段中“-”值转换为空值处理,如图:

Image RemovedImage Added

根据全表统计查看缺失数据分布情况,对正态分布数据使用平均值填补,右偏分布的数据使用中位数填充处理。整个的数据预处理流程图如图:

Image RemovedImage Added

相关性分析

通过 相关性分析 节点,相关性分析部分结果如图: 节点,相关性分析部分结果如图:

Image RemovedImage Added

我们 特征选择 相关性系数较高的特征输入模型,特征选择如图: 相关性系数较高的特征输入模型,特征选择如图:

Image RemovedImage Added

建立模型

本案例采用 梯度提升回归树 算法对模型进行训练,使用 算法对模型进行训练,使用 拆分 节点按照7 节点按照7:3的比例将数据集拆分为训练集和测试集。整体的流程图如图所示:

Image RemovedImage Added

算法参数配置如图:Image Removed

Image Added

模型训练后预测的结果如图:

Image RemovedImage Added

模型评估

接入 评估 节点对模型进行评估,评估结果如图所示(R2大概为0 节点对模型进行评估,评估结果如图所示(R2大概为0.85):94):

Image RemovedImage Added

业务分析

我们通过 GBDT特征选择 节点输出重要性较高的10个特征,结果如图: 节点输出重要性较高的10个特征,结果如图:

Image RemovedImage Added

分析发现v_0、v3、v_12、v_3等几个特征是影响二手车交易价格的因素。12、regDate等几个特征是影响二手车交易价格的因素。

总结

本案例结合二手车交易价格预测案例,重点介绍了梯度提升回归树预测分析在实际案例中的应用。本案例借助二手车交易历史记录建立模型预测二手车交易未来价格,二手车价格市场;针对影响二手车交易价格因素,可以做好相关的优惠活动。