【scikit-learn基础】--『回归模型评估』之损失分析

时间：2023-12-05

导读：分类模型评估中，通过各类损失（loss）函数的分析，可以衡量模型预测结果与真实值之间的差异。.不同的损失函数可用于不同类型的分类问题，以便更好地评估模型的性能。.本篇将介绍分类模型评估中常用的几种损失计算方法。.1. 汉明损失.Hamming loss（汉明损失）是一种衡量分

分类模型 评估中，通过各类损失（loss）函数的分析，可以衡量模型预测结果与真实值之间的差异。
不同的损失函数可用于不同类型的分类问题，以便更好地评估模型的性能。

本篇将介绍分类模型评估中常用的几种损失计算方法。

1. 汉明损失

Hamming loss（汉明损失 ）是一种衡量分类模型预测错误率的指标。
它直接衡量了模型预测错误的样本比例，因此更直观地反映出模型的预测精度，
而且，它对不平衡数据比较敏感，也适用于多分类的问题，不仅限于二分类问题。

1.1. 计算公式

\(L(y, \hat{y}) = \frac{1}{n * m} \sum{i=0}^{n-1} \sum{j=0}^{m - 1} 1(\hat{y}{i,j} \not= y{i,j})\)
其中，\(n\)是样本数量，\(m\)是标签数量，\(y{i,j}\)是样本\(i\)的第\(j\)个标签的真实值，\(\hat{y}{i,j}\)是对应的预测值，
\(1(x)\) 是指示函数。

1.2. 使用示例

from sklearn.metrics import hamming_loss
import numpy as np

n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)

s = hamming_loss(y_true, y_pred)
print("hamming loss：{}".format(s))

# 运行结果
hamming loss：0.8

2. 铰链损失

Hinge loss（铰链损失 ）常用于“最大间隔”分类，其最著名的应用是作为支持向量机（SVM）的目标函数。
Hinge loss主要用于二分类问题，并且通常与特定的算法（如SVM）结合使用。

2.1. 计算公式

\(L(y, w) = \frac{1}{n} \sum_{i=0}^{n-1} \max\left\{1 - w_i y_i, 0\right\}\)
其中，\(n\)是样本数量，\(y_i\)是真实值， \(w_i\)是相应的预测决策（由 decision_function 方法输出）。

2.2. 使用示例

from sklearn.metrics import hinge_loss
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
import numpy as np

n = 100
X = np.random.randint(0, 2, size=(n, 1))
y = np.random.randint(0, 2, n)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

reg = LinearSVC(dual="auto")
reg.fit(X_train, y_train)

y_pred_decision = reg.decision_function(X_test)

s = hinge_loss(y_test, y_pred_decision)
print("hinge loss：{}".format(s))

# 运行结果
hinge loss：1.0136184446302712

上面的示例中，首先构建一个支持向量机的训练模型和随机的样本数据。
最后在测试集上计算hinge loss。

3. 对数损失

对数损失 （log loss）通过考虑模型预测的概率与实际标签的对数误差 来评估模型的性能。
它特别关注模型对于每个样本的预测概率的准确性，对于错误的分类，Log loss会给予较大的惩罚。

对数损失 的值越小，表示模型的预测概率越接近实际标签，模型的性能越好。

3.1. 计算公式

\(LL = - \frac{1}{N} \sum{i=0}^{N-1} \sum{k=0}^{K-1} y{i,k} \log p{i,k}\)
其中，\(N\)是样本数量，\(K\)是分类标签的数量，
\(y{i,k}\)是第\(i\)个样本在标签\(k\)上的真实值，\(p{i,k}\)是对应的概率估计。

3.2. 使用示例

from sklearn.metrics import log_loss
import numpy as np

n = 100
k = 10
y_true = np.random.randint(0, k, n)
y_prob = np.random.rand(n, k)

# 这一步转换后，
# y_prob 每一行的和都为1
for i in range(len(y_prob)):
    y_prob[i, :] = y_prob[i, :] / np.sum(y_prob[i, :])


s = log_loss(y_true, y_prob)
print("log loss：{}".format(s))

# 运行结果
log loss：2.6982702715125466

上面的示例中，\(n\)是样本数量，\(k\)是标签数量。

4. 零一损失

零一损失 （zero-one loss）非常直观，直接对应着分类判断错误的个数，能很清晰地反映出模型预测错误的比例。
它计算简单，易于理解和实现，对于二分类问题特别直观，但是对于非凸性质不太适用。

4.1. 计算公式

\(L(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} 1(\hat{y}_i \not= y_i)\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值，
\(1(x)\) 是指示函数。

4.2. 使用示例

from sklearn.metrics import zero_one_loss
import numpy as np

n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)

s1 = zero_one_loss(y_true, y_pred)
s2 = zero_one_loss(y_true, y_pred, normalize=False)
print("zero-one loss比率：{}\nzero-one loss数量：{}".format(s1, s2))

# 运行结果
zero-one loss比率：0.89
zero-one loss数量：89

5. Brier 分数损失

Brier 分数损失 （Brier score loss）关注模型预测的概率与实际结果之间的差异。
与只关注预测类别的其他指标不同，它衡量了预测概率的可靠性；
与一些仅适用于二分类问题的评估指标相比，Brier score loss可以应用于多类别分类问题。

它的数值越小，表示模型的概率预测越准确，具有很好的解释性。

5.1. 计算公式

\(BS = \frac{1}{n} \sum_{i=0}^{n - 1}(y_i - p_i)^2\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(p_i\)是预测概率估计的均方误差。

5.2. 使用示例

from sklearn.metrics import brier_score_loss
import numpy as np

n = 100
y_true = np.random.randint(0, 2, n)
y_prob = np.random.rand(n)

s = brier_score_loss(y_true, y_prob)
print("brier score loss：{}".format(s))

# 运行结果
brier score loss：0.3141953858083935

示例中计算损失用的模拟数据中，y_true表示真实值，y_prob表示预测概率的均方误差。

6. 总结

本篇归纳总结了分类模型 中关于损失函数 的一些使用方式：

汉明损失，Hamming loss
铰链损失，Hinge loss
对数损失，log loss
零一损失，zero one loss
Brier 分数损失，Brier score loss

上一篇：程序员不撰写代码注释和文档的十大

下一篇：Bi-VAEGAN：对TF-VA

阅读

内容

《领域驱动设计》：从领域视角深入
2023-12-04

一、前言 “.DDD设计的目标是关注领域模型而并非技术来创建更好的软件，假设开发人员构建了一个SQL，并将它传递给基础设
JVM调优篇：探索Java性能优
2023-12-04

JVM内存模型.首先面试官会询问你在进行JVM调优之前，是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM
游戏中模型动画的几种实现方式
2023-12-02

游戏内动画的实现方式一般有这几种：.骨骼动画.顶点动画.材质动画.CPU蒙皮动画.骨骼动画.骨骼动画是一种基于骨骼系统的
智能车载设备
2023-10-02

智能车载设备.我们的智能车载设备是一款结合了最新科技和创新设计的汽车配件，旨在提升驾驶体验、提高安全性和为用户带来智能化
智能医疗设备
2023-10-02

智能医疗设备产品介绍.智能医疗设备是一款集成了先进技术的高科技产品，旨在提高医疗保健的效率和质量。该设备主要应用于医院、
互联网金融服务平台
2023-10-01

互联网金融服务平台.产品功能.个人理财：用户可以通过平台进行投资理财，选择适合自己的理财产品，实现资金增值。.贷款服务：
电子元件电感
2023-10-02

电子元件电感.产品功能.电感是一种重要的电子元件，用于储存和释放电能，调节电路中的电流和电压。它在电子设备和通讯设备中起
智能智能家居设备
2023-10-05

智能家居设备介绍.产品概述.我们当前运营的产品是智能家居设备，它是一款智能化的家居控制系*，旨在为用户提供更便捷、舒适的
智能可穿戴设备
2023-10-03

产品功能介绍.我们的智能可穿戴设备是一款集健康监测、运动追踪、通讯互动等多种功能于一体的产品。它采用先进的传感技术，可实
智能手机
2023-10-01

产品功能介绍：智能手机.智能手机是一款集通讯、娱乐、办公等功能于一体的移动智能设备。首先，智能手机具有强大的通讯功能，支
智能智能物流设备
2023-10-04

智能物流设备.1. 产品描述.智能物流设备是一款基于物联网技术的智能设备，主要用于运输、储存和**物流货物。其核心功能是
智能智能娱乐设备
2023-10-04

产品功能介绍.1. 智能娱乐设备.我们的智能娱乐设备是一款结合了智能技术和娱乐功能的产品。它拥有丰富的娱乐资源，包括音乐
智能电视
2023-10-01

产品功能介绍.智能电视是一款结合了传统电视和智能硬件的产品。它内置了智能操作系*，能够连接互联网并运行各种应用程序。智能