О разнице между процентом объяснённой дисперсии и коэффициентом детерминации

Регрессионные модели можно оценивать по различным метрикам и эта небольшая заметка посвящена тому, чем отличаются R^2 и процент объяснённой дисперсии.

Для одной и той же модели эти метрики показывают разные результаты, хотя по идее они обе как-то связаны с дисперсией.

На эту тему есть очень хорошая статья, которая объясняет, что R^2 может быть даже отрицательным. При этом, обе функции доступны, например в sklearn как sklearn.metrics.explained_variance_score и sklearn.metrics.r2_score.

Ещё больше ясности вносит Википедия, которая объясняет, что процент объяснённой дисперсии

считается как отношение объяснённой суммы квадратов

к общей сумме квадратов:

При этом тот самый R^2 считается вот так:

где

и представляет собой классический квадрат невязки.

Таким образом, для некоторых регрессионных моделей эти метрики оказываются очень близкими и схожими, в то время как для других, с большими невязками, они будут отличаться.