Grabit: gradient tree-boosted tobit models for default prediction

4 minute read

Grabit: gradient tree-boosted tobit models for default prediction

主题

建立新的二元分类模型 Grabit,该模型是通过将梯度树提升应用于 Tobit 模型而获得的

Grabit 算法在 python 包 KTBoost 中实现,该包可从 pypi 存储库中公开获得。

与线性 Logit 和 Tobit 模型相比,Grabit 模型可以学习非线性、不连续性和复杂的相互作用。由于 Grabit 模型使用树作为基础学习器,因此它对预测变量中的异常值具有稳健性,并且对预测变量的单调变换具有尺度不变性。这意味着不需要对预测变量进行转换,这在实践中是一个重要的优势,并且预测性能不会受到多重共线性问题的影响。

数据

对瑞士中小企业 (SME) 贷款的违约预测。数据由瑞士初创公司 Advanon 提供,该公司运营一个平台,中小企业可以在该平台上通过对发票进行预融资来获得短期贷款。此应用程序的目标是预测当SME请求新贷款时是否会偿还贷款。

对于每笔贷款,大约有 50 个不同的预测变量。这些协变量包括根据资产负债表和损益表计算的财务比率、中小企业特征(例如反映中小企业在平台上的还款历史或公司年龄的变量)、贷款特征(例如贷款金额或到期时间)、评级来自社交媒体平台的中小企业、来自多家外部评级机构的数据以及有关在线用户行为的数据,例如登录和点击数据。我们使用对数转换来转换高度偏斜的变量,例如贷款金额或多个资产负债表摘要。

分析方法

boosting 是一种集成学习方式。不同于随机森林的无顺序的 bagging ,这里是有顺序的 boosting ,通过后一个弱分类器对前一个分类器结果进行校正。

希望结果可解释,采用了变量重要性度量和部分依赖图(可视化主效应和二阶相互作用)

模型

以 Tobit 模型的负对数似然为损失函数,通过二阶泰勒近似,

结论

Grabit 模型是一种灵活的非线性删失回归模型,可应用于各种建模任务。特别是,这包括在存在类不平衡但与分类机制相关的辅助数据可用的情况下的二元分类。我们在模拟研究和我们的默认预测应用程序中表明,Grabit 模型可以显着提高预测准确性,特别是对于小样本量。如果决策函数足够复杂,包含非线性、相互作用或大量预测变量,Grabit 模型还可以为中等或大型数据集提供更高的预测准确性。