Fração de variância inexplicada

Em estatística, a fração de variância inexplicada (FVI) no contexto de uma tarefa de regressão é a fração de variância do regressando (variável dependente) Y que não pode ser explicada, ou seja, que não é corretamente predita, pelas variáveis explicativas X.

Definição formal

Suponha que nos seja dada uma função de regressão f {\displaystyle f} rendendo para cada y i {\displaystyle y_{i}} uma estimativa y ^ i = f ( x i ) {\displaystyle {\widehat {y}}_{i}=f(x_{i})} onde x i {\displaystyle x_{i}} é o vetor das i-ésimas observações sobre todas as variáveis ​​explicativas.[1]:181 Definimos a fração de variância inexplicada (FVI) como:

FVI = VAR err VAR tot = SS err / N SS tot / N = SS err SS tot ( = 1 SS reg SS tot ,  somente verdadeiro em alguns casos, como regressão linear ) = 1 R 2 {\displaystyle {\begin{aligned}{\text{FVI}}&={{\text{VAR}}_{\text{err}} \over {\text{VAR}}_{\text{tot}}}={{\text{SS}}_{\text{err}}/N \over {\text{SS}}_{\text{tot}}/N}={{\text{SS}}_{\text{err}} \over {\text{SS}}_{\text{tot}}}\left(=1-{{\text{SS}}_{\text{reg}} \over {\text{SS}}_{\text{tot}}},{\text{ somente verdadeiro em alguns casos, como regressão linear}}\right)\\[6pt]&=1-R^{2}\end{aligned}}}

onde R2 é o coeficiente de determinação e VARerr e VARtot são a variância dos resíduos e a variância amostral da variável dependente. SSerr (a soma dos erros quadráticos das previsões, equivalentemente a soma residual dos quadrados), SStot (a soma total dos quadrados), e SSreg (a soma dos quadrados da regressão, equivalentemente a soma explicada dos quadrados) são dados por

SS err = i = 1 N ( y i y ^ i ) 2 SS tot = i = 1 N ( y i y ¯ ) 2 SS reg = i = 1 N ( y ^ i y ¯ ) 2  e y ¯ = 1 N i = 1 N y i . {\displaystyle {\begin{aligned}{\text{SS}}_{\text{err}}&=\sum _{i=1}^{N}\;(y_{i}-{\widehat {y}}_{i})^{2}\\{\text{SS}}_{\text{tot}}&=\sum _{i=1}^{N}\;(y_{i}-{\bar {y}})^{2}\\{\text{SS}}_{\text{reg}}&=\sum _{i=1}^{N}\;({\widehat {y}}_{i}-{\bar {y}})^{2}{\text{ e}}\\{\bar {y}}&={\frac {1}{N}}\sum _{i=1}^{N}\;y_{i}.\end{aligned}}}

Alternativamente, a fração de variância inexplicada pode ser definida da seguinte forma:

FVI = MSE ( f ) var [ Y ] {\displaystyle {\text{FVI}}={\frac {\operatorname {MSE} (f)}{\operatorname {var} [Y]}}}

onde M S E ( f ) {\displaystyle MSE(f)} é o erro quadrático médio da função de regressão f {\displaystyle f} .

Explicação

É útil considerar a segunda definição para entender FVI. Ao tentar prever Y, a função de regressão mais ingênua que podemos pensar é a função constante que prevê a média de Y, ou seja, f ( x i ) = y ¯ {\displaystyle f(x_{i})={\bar {y}}} . Segue-se que o MSE desta função é igual à variância de Y; ou seja, SSerr = SStot, e SSreg = 0. Nesse caso, nenhuma variação em Y pode ser contabilizada e a FVI tem então seu valor máximo de 1.

Mais geralmente, o FVI será 1 se as variáveis ​​explicativas X não nos dizem nada sobre Y no sentido de que os valores previstos de Y não variam com Y. Mas à medida que a previsão melhora e o MSE pode ser reduzido, o FVI diminui. No caso de previsão perfeita onde y ^ i = y i {\displaystyle {\hat {y}}_{i}=y_{i}} para todo i, o MSE é 0, SSerr = 0, SSreg = SStot, e o FVI é 0.

Referências

  1. Achen, C. H. (1990). «'What Does "Explained Variance" Explain?: Reply». Political Analysis. 2 (1): 173–184. doi:10.1093/pan/2.1.173 
  • Portal da matemática