当前位置: 首页 >  技术分享 >  【scikit-learn基础】--『回归模型评估』之偏差分析

【scikit-learn基础】--『回归模型评估』之偏差分析

导读:模型评估 在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。.本篇主要介绍模型评估 时,如何利用scikit-learn帮助我们快速进行各种偏差 的分析。.1. **R² ** 分数.R² 分数 (也叫决定系数 ),用于衡量模型预测的拟合优度,它表示

模型评估 在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

本篇主要介绍模型评估 时,如何利用scikit-learn帮助我们快速进行各种偏差 的分析。

1. **R² ** 分数

R² 分数 (也叫决定系数 ),用于衡量模型预测的拟合优度,它表示模型中因变量 的变异中,可由自变量 解释的部分所占的比例。
值** 接近1的话,表示模型能够很好地解释因变量的变异,接近0** 的话,则表示模型解释能力较差。

需要注意的是,虽然R² 分数 是一个很有用的指标,但它也有一些局限性。
例如,当模型中自变量数量增加时,R² 分数 可能会增加,即使这些自变量对因变量没有真正的解释力。
因此,在使用R² 分数 评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}i)^2}{\sum{i=1}^{n} (yi - \bar{y})^2}\) 且 \(\bar{y} = \frac{1}{n} \sum{i=1}^{n} y_i\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

1.2. 使用示例

from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果: 0.4

y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果: 0.8

r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。

2. 解释方差分数

解释方差分数Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
解释方差分数 比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。

需要注意的是,解释方差分数 仅关注模型对方差的解释程度,并不直接反映预测的准确度。

2.1. 计算公式

\(explained\{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中,\(y\)是真实值,\(\hat{y}\)是预测值。
\(Var\)表示计算方差,比如:\(Var{\{y\}} = \frac{1}{n} \sum
{i=1}^{n} (y_i - \bar{y})^2\)

2.2. 使用示例

from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果: 0.45

y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果: 0.85

explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差 是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。

Tweedie 偏差 根据Tweedie分布 的定义而来,参数不同,表示不同的分布。
Tweedie 偏差 较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。

需要注意的是,在使用 Tweedie 偏差 时,需要确保所选的 Tweedie 分布 适合数据的特性,否则可能会导致不准确的评估结果。

3.1. 计算公式

\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}- \frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

上面的公式中,\(p=0\)时,Tweedie 偏差 相当于均方误差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

当 \(p=1\)时,Tweedie 偏差 相当于平均泊松偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

当 \(p=2\)时,Tweedie 偏差 相当于平均Gamma偏差
\(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

3.2. 使用示例

from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)
# 运行结果: 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果: 10000.0

mean_tweedie_deviance([1], [2], power=1)
# 运行结果: 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果: 61.370563888010906

mean_tweedie_deviance([1], [2], power=2)
# 运行结果: 0.3862943611198908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果: 0.3862943611198908

power参数不同,同样是预测值和实际值差两倍 的情况下,不同分布,Tweedie 偏差 的结果差别很大。

4. 总结

总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。

内容
  • 《领域驱动设计》:从领域视角深入仓储(Repository)的设计和实现
    《领域驱动设计》:从领域视角深入
    2023-12-04
    一、前言 “.DDD设计的目标是关注领域模型而并非技术来创建更好的软件,假设开发人员构建了一个SQL,并将它传递给基础设
  • JVM调优篇:探索Java性能优化的必备种子面试题
    JVM调优篇:探索Java性能优
    2023-12-04
    JVM内存模型.首先面试官会询问你在进行JVM调优之前,是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM
  • 游戏中模型动画的几种实现方式
    游戏中模型动画的几种实现方式
    2023-12-02
    游戏内动画的实现方式一般有这几种:.骨骼动画.顶点动画.材质动画.CPU蒙皮动画.骨骼动画.骨骼动画是一种基于骨骼系统的
  • 高温高压电子元件生产
    高温高压电子元件生产
    2023-10-02
    高温高压电子元件生产.随着科技的不断发展,高温高压电子元件在现代电子设备中扮演着*益重要的角色。在工业、航空航天、汽车等
  • ***集群架构规划与设计
    ***集群架构规划与设计
    2023-10-02
    ***集群架构规划与设计.概述.随着互联网和大数据技术的快速发展,企业对***的性能和稳定性要求越来越高。为了满足这些需
  • 电子元件**链**解决方案
    电子元件**链**解决方案
    2023-10-02
    电子元件**链**解决方案.在当今全球化的市场中,**链**是企业成功的关键因素之一。特别是在电子元件行业,**链**尤
  • 环保型电子元件生产
    环保型电子元件生产
    2023-10-02
    环保型电子元件生产.随着人们对环保的重视,环保型电子元件生产成为了当前电子行业的热门话题之一。在过去,电子元件的生产往往
  • 电子元件可靠性分析与优化
    电子元件可靠性分析与优化
    2023-10-02
    电子元件可靠性分析与优化.引言.电子元件是现代电子设备的基本构成部分,其可*性直接影响着设备的性能和使用寿命。因此,对电
  • 个性化推荐引擎技术
    个性化推荐引擎技术
    2023-10-02
    个性化推荐引擎技术.个性化推荐引擎技术是一种利用用户行为数据,通过算法和模型实现个性化推荐的技术。随着互联网的发展,信息
  • 数据安全加密软件
    数据安全加密软件
    2023-10-02
    数据安全加密软件.随着互联网的发展和普及,数据安全已经成为了人们关注的热点问题。在这个大数据时代,各种个人和机构的数据都
  • ***迁移与升级解决方案
    ***迁移与升级解决方案
    2023-10-02
    ***迁移与升级解决方案.随着业务的不断扩大和发展,很多企业逐渐意识到原有的***已经不能满足日益增长的需求,因此需要进
  • 云存储解决方案
    云存储解决方案
    2023-10-02
    云存储解决方案.随着互联网技术的不断发展,越来越多的企业开始意识到数据存储和管理的重要性。传统的本地存储方式已经不能满足
  • 定制化电子元件解决方案
    定制化电子元件解决方案
    2023-10-02
    定制化电子元件解决方案.在现代科技发展迅速的时代,电子元件的需求日益增加,同时对于定制化的需求也在不断提升。定制化电子元