在平衡数据上训练模型,并将模型应用于预测的类别概率已被校正的不平衡数据
图 比较使用不平衡数据训练和应用分 该工作流程可在中心 类模型的三种方 该工作流程可在中 法的工作流程。首先,对不平衡数据进行模型训练。其次,使用 SMOTE 对训练集进行重新采样,使其平衡。第三,使用 SMOTE 对训练集进行重新采样,并根据数据的先验类分布校正预测的类概率。
估算不进行重采样的情况下场景 1 的成本
逻辑回归模型提供以下结果
表 2:在非平衡数据上训练的欺诈检测模型获 手机号码数据 得的混淆矩阵、类别统计数据和估计成本降低。使用“评估分类模型的成本”部分中的公式来评估成本降低。
此场景中的设置提供了 F 度量和 Cohen 的 kappa 统计量的良 虚拟助手的类型:什么是技术 VA? 好值,但假阴性率相对较高(40.82%)。这意味着超过 40% 的欺诈交易未被模型检测到 — 增加了欺诈数量,因此增加了模型的成本。与不使用任何模型相比,该模型的成本降低了 42%。
估算重采样场景 的成本
在平衡训练集(使用 SMOTE 过采样)上训练的 模 澳大利亚电话号码 型应 逻辑回归模型产生以下结果:
表 使用过采样、平衡数据训练的欺诈检测模型获得的混淆矩阵、类别统计数据和估计成本。使用“评估分类模型的成本”部分中的公式来评估成本。