О разнице между процентом объяснённой дисперсии и коэффициентом детерминации

Регрессионные модели можно оценивать по различным метрикам и эта небольшая заметка посвящена тому, чем отличаются R^2 и процент объяснённой дисперсии.

Для одной и той же модели эти метрики показывают разные результаты, хотя по идее они обе как-то связаны с дисперсией.

На эту тему есть очень хорошая статья, которая объясняет, что R^2 может быть даже отрицательным.  При этом, обе функции доступны, например в sklearn как sklearn.metrics.explained_variance_score и sklearn.metrics.r2_score. 

Ещё больше ясности вносит Википедия, которая объясняет, что процент объяснённой дисперсии

Объяснённая дисперсия

считается как отношение объяснённой суммы квадратов

Сумма квадратов репрессии

к общей сумме квадратов:

Общая сумма квадратов

 

При этом тот самый R^2 считается вот так:

Р квадрат  ,

где

Сумма квадратов невесток

и представляет собой классический квадрат невязки.

Таким образом, для некоторых регрессионных моделей эти метрики оказываются очень близкими и схожими, в то время как для других, с большими невязками, они будут отличаться.

 

Kirill