作者:蔡逸
你的模型效果好不好?如何才能更好?
刷单识别效果如何?有多少漏杀?有多少误杀?
随着机器学习中大量学习模型的引入和扩展,致使我们刷单识别效果日渐精准,由原来IP、设备等硬性规则的判断标准,逐渐延伸到通过海量数据分析和机器学习来精准识别用户异常行为的算法判断;
大多电商公司都会引入人工核查订单的方式来辅助判断模型效果,但随着“精刷”“粉丝代刷”等隐蔽作弊行为的日益增多,人工在校验订单时也难免举棋不定,无法判断是否为刷单;
也许你会将黑白名单、客诉反馈订单来作为判断模型效果的重要信息,但你是否想过黑名单大多为“过黑用户”,其作弊手法过于粗暴,无法完全代表电商平台的刷单特征;
最可悲的是,模型判定的置信度为多少时,你将其判定为刷单最合适?95%?80%?or 75%?
于是.......你有点崩溃.....
我们最关心的结果是正确预测的概率和误判率,常见的指标有:
(1)True Positive Rate,简称为TPR,真正率,计算公式为TPR=TP/(TP+FN)——所有真实的“1”中,有多少被模型成功选出,即所有的刷单中,我们的策略能抓到多少;
(2)False Positive Rate,简称为FPR,假正率,计算公式为FPR=FP/(FP+TN)——所有真实的“0”中,有多少被模型误判为1了,即所有的非刷单中,我们的策略误抓了多少;
(3)Precision=TP/(TP+FP),或2TP/((TP+FN)+(TP+FP)),称为“精确率”。
2. 黑白样本选取
有了真正率和假正率作为衡量标准之后,最重要的问题就是黑白样本的选取了,但是我怎么知道这家电商公司里哪些订单是作弊订单,哪些订单是非作弊订单呢?
蓝色线即为ROC曲线
纵坐标为敏感度(即真正率):就是把实际为真值的判断为真值的概率;
横坐标为误判率(即假正率):就是把实际为假值的判断为真值的概率,其值等于1-特异度;
特异度:就是把实际为假值的判断为假值的概率。
曲线下方的面积AUC(Area under the curve):包括面积值、显著性分析和置信区间可以反映预测的效果。
预测效果的判定常以AUC值来判定
ROC曲线评价:ROC曲线下的面积值在1.0和0.5之间。在AUC>0.5的情况下, AUC越接近于1,说明诊断效果越好。AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有 一定准确性,AUC在0.9以上时有较高准确性。AUC=0.5时,说明诊断方法完全不起作用, 无诊断价值。AUC<0.5不符合真实情况,在实际中极少出现。
在选取最佳置信度时我们要参考下图:
按约登指数确定最佳临界点,约登指数=(灵敏度+特异度)-1,约登指数越大,则模型效果越好,通常,我们也会利用K-S值来判断模型效果,KS=max(TPR-FPR)时,模型效果最佳,从以上数据可以看出,当置信度为0.835时,模型效果最好。
注:转载需经过本人同意