分类模型的评估方法-F分数(F-Score)

1. TP、TN、FP、FN解释说明

  • 行表示预测的label值,列表示真实label值
  • TP:True Positive, 被判定为正样本,事实上也是正样本。
  • FP:False Positive,被判定为正样本,但事实上是负样本。
  • TN:True Negative, 被判定为负样本,事实上也是负样本。
  • FN:False Negative,被判定为负样本,但事实上是正样本。

“狼来了”的故事模型

langlaile

2. precision 和 recall 的计算

  • Accuracy:表示预测结果的精确度,预测正确的样本数除以总样本数。
  • precision: 准确率,又称为查准率,表示预测结果中,预测为正样本的样本中,正确预测为正样本的概率;
  • recall: 召回率,又称为查全率,表示在原始样本的正样本中,最后被正确预测为正样本的概率;

计算公式如下图:

3. 精确率和召回率:一场拔河比赛,鱼与熊掌的关系

要全面评估模型的有效性,必须同时检查精确率和召回率。遗憾的是,精确率和召回率往往是此消彼长的情况。也就是说,提高精确率通常会降低召回率值,

在多分类中,最后经过一个softmax层,输出值是预测结果的概率,把模型预测为某个对象的概率从高到低排序,并且和真实标签对应。

这时我们会设置某个阈值,大于这个阈值的分为正样本,反之为负样本。随着选取的阈值不同,得到的指标是不一样的。这时我们可以画P-R曲线。

4. P-R曲线、平均精度(Average-Precision,AP)

P-R曲线:选取不同阈值时对应的精度和召回画出来

P-R图直观地显示出学习器在样本总体上的查全率、查准率.总体趋势,精度越高,召回越低,进行比较

  • 若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,如图中学习器A的性能优于学习器C;
  • 如果两个学习器的P-R曲线发生了交叉,如图中的A与B,则难以一般性地断言两者孰优孰劣? 只能在具体的查准率或查全率条件下进行比较.

然而, 在很多情形下,人们往往仍希望把学习器A与B比出个高低.这时一个比较合理的判据是比较P-R曲线下面积的大小, 它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例但这个值不太容易估算,因此,人们设计了一些综合考虑查准率、查全率的性能度量

“平衡点”(Break Event Point,简称BEP )就是这样一个度量,它是“查准率=查全率”时的取值, 如图中学习器C的BEP 是0.64, 而基于BEP的比较,可认为学习器A 优于B.

但BEP 还是过于简化了些,更常用的是Fl 度量

5. 分类模型的评估方法-F分数(F-Score)

精确率(Precision)和召回率(Recall)评估指标,理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。

所以在实际中常常需要根据具体情况做出取舍,例如一般的搜索情况,在保证召回率的条件下,尽量提升精确率。而像癌症检测、地震检测、金融欺诈等,则在保证精确率的条件下,尽量提升召回率。

引出了一个新的指标F-score,综合考虑Precision和Recall的调和值

SCORE

  • β=1时,称为 F1-score或者 F1-Measure,这时,精确率和召回率都很重要,权重相同。
  • 当有些情况下,我们认为精确率更重要些,那就调整β的值小于1,
  • 如果我们认为召回率更重要些,那就调整β的值大于1。

F1指标(F1-score):F1-score表示的是precision和recall的调和平均评估指标。

举个例子:癌症检查数据样本有10000个,其中10个数据祥本是有癌症,其它是无癌症。假设分类模型在无癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。

那么:

Accuracy = (9+9980) /10000=99.89% 
Precision=9/19+10)= 47.36% 
F1-score=2×(47.36% × 90%)/(1×47.36%+90%)=62.07% 
F2-score=5× (47.36% × 90%)/(4×47.36%+90%)=76. 27%

分类模型的评估方法-F分数(F-Score) - CSDN博客


技术交流学习,请加QQ微信:631531977
目录