Fração de variância inexplicada : Definição formal, Explicação, Referências Wikipédia, a enciclopédia livre

Fração de variância inexplicada

Em estatística, a fração de variância inexplicada (FVI) no contexto de uma tarefa de regressão é a fração de variância do regressando (variável dependente) Y que não pode ser explicada, ou seja, que não é corretamente predita, pelas variáveis explicativas X.

Definição formal

Suponha que nos seja dada uma função de regressão $f$ rendendo para cada $y_{i}$ uma estimativa ${\widehat {y}}_{i}=f(x_{i})$ onde $x_{i}$ é o vetor das i-ésimas observações sobre todas as variáveis explicativas.^[1]^:181 Definimos a fração de variância inexplicada (FVI) como:

{\begin{aligned}{\text{FVI}}&={{\text{VAR}}_{\text{err}} \over {\text{VAR}}_{\text{tot}}}={{\text{SS}}_{\text{err}}/N \over {\text{SS}}_{\text{tot}}/N}={{\text{SS}}_{\text{err}} \over {\text{SS}}_{\text{tot}}}\left(=1-{{\text{SS}}_{\text{reg}} \over {\text{SS}}_{\text{tot}}},{\text{ somente verdadeiro em alguns casos, como regressão linear}}\right)\\[6pt]&=1-R^{2}\end{aligned}}

onde R² é o coeficiente de determinação e VAR_err e VAR_tot são a variância dos resíduos e a variância amostral da variável dependente. SS_err (a soma dos erros quadráticos das previsões, equivalentemente a soma residual dos quadrados), SS_tot (a soma total dos quadrados), e SS_reg (a soma dos quadrados da regressão, equivalentemente a soma explicada dos quadrados) são dados por

{\begin{aligned}{\text{SS}}_{\text{err}}&=\sum _{i=1}^{N}\;(y_{i}-{\widehat {y}}_{i})^{2}\\{\text{SS}}_{\text{tot}}&=\sum _{i=1}^{N}\;(y_{i}-{\bar {y}})^{2}\\{\text{SS}}_{\text{reg}}&=\sum _{i=1}^{N}\;({\widehat {y}}_{i}-{\bar {y}})^{2}{\text{ e}}\\{\bar {y}}&={\frac {1}{N}}\sum _{i=1}^{N}\;y_{i}.\end{aligned}}

Alternativamente, a fração de variância inexplicada pode ser definida da seguinte forma:

{\text{FVI}}={\frac {\operatorname {MSE} (f)}{\operatorname {var} [Y]}}

onde $MSE(f)$ é o erro quadrático médio da função de regressão $f$ .

Explicação

É útil considerar a segunda definição para entender FVI. Ao tentar prever Y, a função de regressão mais ingênua que podemos pensar é a função constante que prevê a média de Y, ou seja, $f(x_{i})={\bar {y}}$ . Segue-se que o MSE desta função é igual à variância de Y; ou seja, SS_err = SS_tot, e SS_reg = 0. Nesse caso, nenhuma variação em Y pode ser contabilizada e a FVI tem então seu valor máximo de 1.

Mais geralmente, o FVI será 1 se as variáveis explicativas X não nos dizem nada sobre Y no sentido de que os valores previstos de Y não variam com Y. Mas à medida que a previsão melhora e o MSE pode ser reduzido, o FVI diminui. No caso de previsão perfeita onde ${\hat {y}}_{i}=y_{i}$ para todo i, o MSE é 0, SS_err = 0, SS_reg = SS_tot, e o FVI é 0.