Регрессионные модели можно оценивать по различным метрикам и эта небольшая заметка посвящена тому, чем отличаются R^2 и процент объяснённой дисперсии.
Для одной и той же модели эти метрики показывают разные результаты, хотя по идее они обе как-то связаны с дисперсией.
На эту тему есть очень хорошая статья, которая объясняет, что R^2 может быть даже отрицательным. При этом, обе функции доступны, например в sklearn как sklearn.metrics.explained_variance_score и sklearn.metrics.r2_score.
Ещё больше ясности вносит Википедия, которая объясняет, что процент объяснённой дисперсии
считается как отношение объяснённой суммы квадратов
к общей сумме квадратов:
При этом тот самый R^2 считается вот так:
где
и представляет собой классический квадрат невязки.
Таким образом, для некоторых регрессионных моделей эти метрики оказываются очень близкими и схожими, в то время как для других, с большими невязками, они будут отличаться.
Share the post "О разнице между процентом объяснённой дисперсии и коэффициентом детерминации"