表 成本矩阵显示了欺诈检测模型获得的不同分类结 该数据集包含欧洲信 果所分配的成本。正确分类的合法交易不产生任何成本。预测为合法的欺诈交易将产生欺诈成本。预测为欺诈的交易将产生管理成本。
基于该成本矩阵,该模型的总成本为:
最后,将模型的成本与欺诈量进行比较。成本降低表示 该数据集包含欧洲信 与不使用任何模型的情况相比,分类模型带来了多少成本:
工作流程
在此示例中,我们使用“信用卡欺 目标电话号码或电话营销数据 从 Varo数据 诈检测 ” 数据集 由 Worldline 和机器学习组 布鲁塞尔自由大学 (ULB) 的大数据挖掘和欺诈检测研究。 有者在 2013 年 9 月两天内进行的 284,807 笔交易。该数据集非常不平衡:0.172%(492 笔交易)是欺诈交易,其余交易正常。有关交易的其他信息已转换为主成分。
图 1 中的工作流程显示了读取数据、将数 什么是后台支持以及它对您的业务意味着什么 据划分为训练和测试集、重新采样数据、训练分类模型、预测和校正类别概率以及评估成本降低的总体过程。我们选择 SMOTE 作为重采样技术,选择逻辑回归作为分类模型。我们估计管理成本为 5 欧元。
该工作流针对同一数据提供了三种
1. 使用不平衡数据训练并应用模型
2. 在平衡数据上训练模型,并将模 澳大利亚电话号码 型应用于不平衡数据,而无需校正预测的类别概率