⚙️模型评价指标

评价指标是用于评估和比较模型性能的关键工具。该评价指标是根据模型对验证集的预测以及验证集的真实标签的差异计算出来。

一.分类

Log Loss

该指标也称为对数损失逻辑损失(Logarithmic Loss),是评估分类模型性能的一个重要指标,特别是在二元分类和多类别分类任务中,它衡量的是模型预测概率的准确性。

Log Loss=1Ni=1N[yilog(pi)+(1yi)log(1pi)]\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(p_i) + (1 - y_i) \log(1 - p_i)]
  • NN:样本数量。

  • yiy_i:样本ii的实际标签。

  • pip_i:样本ii被预测为类别1的概率。

  • loglog:自然对数。

Accuracy

该指标称为准确率,它衡量的是模型预测正确的样本数占总样本数的比例。

Accuracy=TP+TNTP+TN+FP+FNAccuracy=\frac{TP+TN}{TP+TN+FP+FN}
  • TPTP(True Positives):真正例的数量,即模型正确预测为正类的样本数。

  • TNTN(True Negatives):真负例的数量,即模型正确预测为负类的样本数。

  • FPFP(False Positives):假正例的数量,即模型错误地将负类预测为正类的样本数。

  • FNFN(False Negatives):假负例的数量,即模型错误地将正类预测为负类的样本数。

Precision

该指标称为精确率,它衡量的是在所有被模型预测为正类的样本中,实际为正类的样本所占的比例。

简单来说,它回答了这个问题:“在所有被预测为正的样本中,有多少是正确的?”。

Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}
  • TPTP(True Positives):真正例的数量,即模型正确预测为正类的样本数。

  • FPFP(False Positives):假正例的数量,即模型错误地将负类预测为正类的样本数。

Recall

该指标称为召回率,它衡量的是在所有实际为正类的样本中,被模型正确预测为正类的样本所占的比例。

简单来说,它回答了这个问题:“在所有真正的正样本中,有多少被模型正确地识别出来了?”

Recall=TPTP+FNRecall=\frac{TP}{TP+FN}
  • TPTP(True Positives):真正例的数量,即模型正确预测为正类的样本数。

  • FNFN(False Negatives):假负例的数量,即模型错误地将正类预测为负类的样本数。

F1 Score

该指标为精确率(Precision)和召回率(Recall)的调和平均数,因此同时考虑了模型预测的精确性和完整性。

f1=2TP2TP+FP+FNf_1=\frac{2TP}{2TP+FP+FN}
  • TPTP(True Positives):真正例的数量,即模型正确预测为正类的样本数。

  • FPFP(False Positives):假正例的数量,即模型错误地将负类预测为正类的样本数。

  • FNFN(False Negatives):假负例的数量,即模型错误地将正类预测为负类的样本数。

AUC-ROC

ROC代表接收者操作特征(Receiver Operating Characteristic),而AUC代表曲线下面积(Area Under the Curve)。

这个指标衡量模型区分类别(通常为“正类”和“负类”)的能力。

(1)计算TPR和FPR:通过改变分类阈值,计算在每个阈值下的真阳性率(TPR)和假阳性率(FPR)。

  • 横轴:假阳性率(False Positive Rate, FPR):FPR=FPFP+TNFPR = \frac{FP}{FP + TN}

  • 纵轴:真阳性率(True Positive Rate, TPR):TPR=TPTP+FNTPR = \frac{TP}{TP + FN}

  • 通过改变分类阈值来计算不同的TPR和FPR,绘制成曲线。

(2)绘制ROC曲线:以FPR为横轴,TPR为纵轴。

(3)计算AUC:计算ROC曲线下的面积。这通常通过数值方法(如梯形规则)实现。

二.回归

R-square

该指标称为决定系数,是回归任务中常用的评价指标之一。它衡量的是模型预测值的变异性与实际值(目标变量)的变异性之间的比例。

R2=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2=1-\frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
  • nn:样本数量。

  • yiy_i:实际值。

  • y^i\hat{y}_i:预测值。

  • yˉ\bar{y}:实际值的平均值。

MSE

该指标称为均方误差(Mean Squared Error),是回归任务中常用的评价指标之一。它衡量的是模型预测值与实际值之间差异的平均大小。

MSE通过计算预测值与实际值之差的平方的平均值来实现这一点。这个指标对异常值(即那些偏离实际值很远的预测值)非常敏感,因为差异的平方会放大这些值的影响。

MSE=1ni=1n(yiy^i)2MSE=\frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2
  • nn:样本数量。

  • yiy_i:实际值。

  • y^i\hat{y}_i:预测值。

RMSE

该指标称为均方根误差(Root Mean Square Error),是回归任务中常用的评价指标之一。

RMSE 测量的是模型预测值与实际观测值之间差异的标准偏差。它是均方误差(Mean Square Error, MSE)的平方根,用于衡量预测误差的大小。

RMSE=1ni=1n(yiy^i)2RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
  • nn:样本数量。

  • yiy_i:实际值。

  • y^i\hat{y}_i:预测值。

MAE

该指标称为平均绝对误差(Mean Absolute Error),是回归任务中常用的评价指标之一。

它测量的是模型预测值与实际观测值之间差异的平均绝对值。MAE 提供了一个直观的误差度量,表示预测值与实际值之间的平均绝对偏差。

MAE=1ni=1nyiy^iMAE=\frac{1}{n}\sum_{i=1}^{n} |y_i - \hat{y}_i|
  • nn:样本数量。

  • yiy_i:实际值。

  • y^i\hat{y}_i:预测值。

最后更新于

这有帮助吗?