【scikit-learn基础】--『回归模型评估』之误差分析

时间：2023-12-03

导读：模型评估在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。.在这个数据充斥的时代，没有评估的模型就如同盲人摸象，可能带来误导和误判。.模型评估不仅是一种方法，更是一种保障，确保我们在数据海洋中航行时，能够依赖准确的模型，做出明智的决策。.本篇主要

模型评估 在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。

在这个数据充斥的时代，没有评估的模型就如同盲人摸象，可能带来误导和误判。
模型评估 不仅是一种方法，更是一种保障，确保我们在数据海洋中航行时，能够依赖准确的模型，做出明智的决策。

本篇主要介绍模型评估 时，如何利用scikit-learn帮助我们快速进行各种误差的分析。

1. 平均绝对误差

平均绝对误差 （Mean Absolute Error，简称MAE），它用于度量预测值与真实值之间的平均误差大小 。
它能直观地反映出预测的准确性，MAE越小，说明模型的预测能力越好。

1.1. 计算公式

平均绝对误差 的计算公式如下：
\(\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \left| y_i - \hat{y}_i \right|.\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import mean_absolute_error
import numpy as np

# 随机生成100个sample
n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

mean_absolute_error(y_true, y_pred)

mean_absolute_error就是scikit-learn中用来计算MAE的函数。

2. 均方误差

均方误差 （Mean Squared Error，简称MSE），它用于衡量模型的预测值与实际观测值之间的差异。
MSE越小，表示模型的预测值与实际观测值之间的差异较小，即模型具有较高的预测精度。

2.1. 计算公式

\(\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i - \hat{y}_i)^2.\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。

2.2. 使用示例

from sklearn.metrics import mean_squared_error
import numpy as np

n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

mean_squared_error(y_true, y_pred)

mean_squared_error就是scikit-learn中用来计算MSE的函数。

3. 均方对数误差

均方对数误差 （Mean Squared Log Error，简称MSLE），与均方误差 （MSE）相比，MSLE在计算误差时先对预测值和真实值取对数。
通过对数转换，MSLE能够减小较大值和较小值之间的差异，使得误差度量更为稳定。
MSLE的值越小，表示预测结果与真实值的差异越小，即模型的拟合程度越好。

3.1. 计算公式

\(\text{MSLE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (\log_e (1 + y_i) - \log_e (1 + \hat{y}_i) )^2.\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。

3.2. 使用示例

from sklearn.metrics import mean_squared_log_error
import numpy as np

n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

mean_squared_log_error(y_true, y_pred)

mean_squared_log_error就是scikit-learn中用来计算MSLE的函数。

4. 平均绝对百分比误差

平均绝对百分比误差 （Mean Absolute Percentage Error，简称MAPE），平均绝对误差 （MAE）相比，MAPE将误差转化为百分比形式，这使得它在不同尺度的数据上具有更好的可比性。
MAPE越小，表示模型的预测结果与实际结果的差异较小，即模型的预测准确性较高。

4.1. 计算公式

\(\text{MAPE}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} \frac{{}\left| y_i - \hat{y}_i \right|}{\max(\epsilon, \left| y_i \right|)}\)
其中，\(n\)是样本数量，\(y_i\)是真实值，\(\hat{y_i}\)是预测值。
\(\epsilon\)是一个任意小但严格为正的数，以避免在\(y_i\)为零时出现未定义的结果。

4.2. 使用示例

from sklearn.metrics import mean_absolute_percentage_error
import numpy as np

n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

mean_absolute_percentage_error(y_true, y_pred)

mean_absolute_percentage_error就是scikit-learn中用来计算MAPE的函数。

5. 绝对误差中值

绝对误差中值 （Median Absolute Error，简称MedAE），它用于衡量预测模型对于数据集的精度。
与平均误差 相比，中值对异常值更为稳健，对于数据集中的异常值和离群点，绝对误差中值 具有较强的抗性。
MedAE越小的模型，通常意味着它在大多数数据点上的预测更为准确。

5.1. 计算公式

\(\text{MedAE}(y, \hat{y}) = \text{median}(\mid y_1 - \hat{y}_1 \mid, \ldots, \mid y_n - \hat{y}_n \mid).\)
其中，\(y_i\)是真实值，\(\hat{y_i}\)是预测值，\(median\)表示取中位数。

5.2. 使用示例

from sklearn.metrics import median_absolute_error
import numpy as np

n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

median_absolute_error(y_true, y_pred)

median_absolute_error就是scikit-learn中用来计算MedAE的函数。

6. 最大误差

最大误差 （Max Error），它用于衡量模型预测值与真实值之间的最大差异，揭示模型在最坏情况下的表现。
如果模型在大多数情况下的预测误差都很小，但最大误差 很大，那么这可能意味着模型对于某些特定情况的处理不够好，需要进一步优化。

6.1. 计算公式

\(\text{Max Error}(y, \hat{y}) = \max(| y_i - \hat{y}_i |)\)
其中，\(y_i\)是真实值，\(\hat{y_i}\)是预测值，\(max\)表示取最大值。

6.2. 使用示例

from sklearn.metrics import max_error
import numpy as np

n = 100
y_true = np.random.randint(1, 100, n)
y_pred = np.random.randint(1, 100, n)

max_error(y_true, y_pred)

max_error就是scikit-learn中用来计算Max Error的函数。

7. 总结

本篇主要介绍了6种常用的误差分析函数，包括：

平均绝对误差
均方误差
均方对数误差
平均绝对百分比误差
绝对误差中值
最大误差

误差的计算方式其实也不算不复杂，不过，掌握scikit-learn中封装好的各种误差计算函数，
还是可以帮助我们在评估回归模型时节约不少时间。

上一篇：Python绘图：箱线图的理解与

下一篇：质量保障体系建设演进案例

阅读

内容

Unity 中的存档系统（本地存
2023-12-09

思想.在游戏过程中，玩家的背包、登录、人物系统都与数据息息相关，无论是一开始就设定好的默认数据，还是可以动态存取的数据，
Mybatis的工作原理
2023-12-05

mybatis的工作原理.mybatis基本工作原理.封装sql ->调用JDBC操作数据库 -> 返回数据封装.JDB
《领域驱动设计》：从领域视角深入
2023-12-04

一、前言 “.DDD设计的目标是关注领域模型而并非技术来创建更好的软件，假设开发人员构建了一个SQL，并将它传递给基础设
JVM调优篇：探索Java性能优
2023-12-04

JVM内存模型.首先面试官会询问你在进行JVM调优之前，是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM
数据分析师如何用SQL解决业务问
2023-12-03

本文来自问答。.提问：数据分析人员需要掌握sql到什么程度？.请问做一名数据分析人员，在sql方面需要掌握到什么程度呢？
缓存面试解析：穿透、击穿、雪崩，
2023-12-03

为什么使用缓存.在程序内部使用缓存，比如使用map等数据结构作为内部缓存，可以快速获取对象。通过将经常使用的数据存储在缓
游戏中模型动画的几种实现方式
2023-12-02

游戏内动画的实现方式一般有这几种：.骨骼动画.顶点动画.材质动画.CPU蒙皮动画.骨骼动画.骨骼动画是一种基于骨骼系统的
Unity学习笔记--数据持久化
2023-12-02

JSON相关.json是国际通用语言，可以跨平台（游戏，软件，网页，不同OS）使用，.json语法较为简单，使用更广泛。
智能车载设备
2023-10-02

智能车载设备.我们的智能车载设备是一款结合了最新科技和创新设计的汽车配件，旨在提升驾驶体验、提高安全性和为用户带来智能化
智能医疗设备
2023-10-02

智能医疗设备产品介绍.智能医疗设备是一款集成了先进技术的高科技产品，旨在提高医疗保健的效率和质量。该设备主要应用于医院、
互联网金融服务平台
2023-10-01

互联网金融服务平台.产品功能.个人理财：用户可以通过平台进行投资理财，选择适合自己的理财产品，实现资金增值。.贷款服务：
电子元件电感
2023-10-02

电子元件电感.产品功能.电感是一种重要的电子元件，用于储存和释放电能，调节电路中的电流和电压。它在电子设备和通讯设备中起
智能智能家居设备
2023-10-05

智能家居设备介绍.产品概述.我们当前运营的产品是智能家居设备，它是一款智能化的家居控制系*，旨在为用户提供更便捷、舒适的
智能可穿戴设备
2023-10-03

产品功能介绍.我们的智能可穿戴设备是一款集健康监测、运动追踪、通讯互动等多种功能于一体的产品。它采用先进的传感技术，可实
智能手机
2023-10-01

产品功能介绍：智能手机.智能手机是一款集通讯、娱乐、办公等功能于一体的移动智能设备。首先，智能手机具有强大的通讯功能，支
智能智能物流设备
2023-10-04

智能物流设备.1. 产品描述.智能物流设备是一款基于物联网技术的智能设备，主要用于运输、储存和**物流货物。其核心功能是
智能智能娱乐设备
2023-10-04

产品功能介绍.1. 智能娱乐设备.我们的智能娱乐设备是一款结合了智能技术和娱乐功能的产品。它拥有丰富的娱乐资源，包括音乐
智能电视
2023-10-01

产品功能介绍.智能电视是一款结合了传统电视和智能硬件的产品。它内置了智能操作系*，能够连接互联网并运行各种应用程序。智能