Rapport de corrélation

On se situe dans le cadre de l'analyse de données dans lesquelles un ensemble d'individus est décrit par plusieurs variables. Le rapport de corrélation est un indicateur statistique qui mesure l’intensité de la liaison entre une variable quantitative et une variable qualitative.

Définition

Prenons l’exemple d’une variable quantitative y {\displaystyle y} (la taille en cm) et d’une variable qualitative x {\displaystyle x} (le genre : femme/homme) dont on dispose pour un ensemble d'individus. Intuitivement, on dira que ces deux variables sont liées si :

  1. en moyenne, femmes et hommes ont des tailles différentes ;
  2. à genre fixé, les individus sont homogènes (les femmes auraient alors toutes à peu près la même taille ainsi que, de leur côté, les hommes).

Le cadre conceptuel pour formaliser cette intuition est l’équation de l’analyse de variance à un facteur. Cette équation décompose la variabilité totale (celle de tous les individus) en une variabilité inter-classes (écart entre la moyenne des femmes et la moyenne des hommes) et une variabilité intra-classe (variabilité au sein des femmes d’une part et au sein des hommes d’autre part)[1]. Soit :

Variabilité totale = variabilité inter-classes + variabilité intra-classe

Formellement, on utilise classiquement les notations suivantes.

La variable x {\displaystyle x} possède J {\displaystyle J} modalités (= classes) notées j {\displaystyle j} (dans l’exemple J = 2 {\displaystyle J=2} )

y i j {\displaystyle y_{ij}}  : taille du i e {\displaystyle i^{e}} individu de la classe j {\displaystyle j} .

y ¯ . j {\displaystyle {\overline {y}}_{.j}}  : taille moyenne des individus de la classe j {\displaystyle j} .

y ¯ {\displaystyle {\overline {y}}}  : taille moyenne de tous les individus.

J j {\displaystyle J_{j}}  : l'ensemble des individus appartenant à la classe j {\displaystyle j} .

La variabilité est mesurée par la somme des carrés des écarts (SCE). Soit:

  • pour l’ensemble des individus : S C E t o t a l e = j i J j ( y i j y ¯ ) 2 {\displaystyle SCE_{totale}=\sum _{j}\sum _{i\in J_{j}}(y_{ij}-{\bar {y}})^{2}}  ;
  • pour la variabilité intra-classe : S C E i n t r a = j i J j ( y i j y ¯ . j ) 2 {\displaystyle SCE_{intra}=\sum _{j}\sum _{i\in J_{j}}(y_{ij}-{\overline {y}}_{.j})^{2}}  ;
  • pour la variabilité inter-classes : S C E i n t e r = j i J j ( y ¯ . j y ¯ ) 2 {\displaystyle SCE_{inter}=\sum _{j}\sum _{i\in J_{j}}({\overline {y}}_{.j}-{\overline {y}})^{2}} .

L’équation d’analyse de variance à un facteur s’écrit :


  
    
      
        S
        C
        
          E
          
            t
            o
            t
            a
            l
            e
          
        
        =
        S
        C
        
          E
          
            i
            n
            t
            e
            r
          
        
        +
        S
        C
        
          E
          
            i
            n
            t
            r
            a
          
        
      
    
    {\displaystyle SCE_{totale}=SCE_{inter}+SCE_{intra}}
  
 

Le carré du rapport de corrélation, noté η 2 {\displaystyle \eta ^{2}} , est défini par : η 2 ( y , x ) = S C E i n t e r S C E t o t a l e {\displaystyle \eta ^{2}(y,x)={\frac {SCE_{inter}}{SCE_{totale}}}}

C'est le pourcentage de variabilité (de la variable y {\displaystyle y} ) dû aux différences entre classes (de la variable x {\displaystyle x} )[2]. Cet indicateur varie entre 0 (les classes ont exactement la même moyenne : les variables ne sont pas liées) et 1 (les individus d'une même classe ont exactement la même valeur : les variables sont parfaitement liées puisque lorsque l'on connaît l'une on connaît l'autre).

Vocabulaire : rapport ou carré du rapport?

Les deux formulations sont utilisées. La formulation « carré du rapport » semble un peu plus utilisée. Elle est en phase avec la notation η 2 {\displaystyle \eta ^{2}} et permet de considérer le rapport lui-même (cf. interprétation géométrique plus loin). C'est celle que l'on préférera.

Exemple numérique

On a mesuré la taille de quatre animaux en notant leur sexe (mâle/femelle).

Sexe Taille
1 mâle 1
2 mâle 3
3 femelle 6
4 femelle 8

La décomposition de la S C E t o t a l e {\displaystyle SCE_{totale}} est : S C E t o t a l e = S C E i n t e r + S C E i n t r a {\displaystyle SCE_{totale}=SCE_{inter}+SCE_{intra}}

Soit, numériquement : 29 = 25 + 4 {\displaystyle 29=25+4}

D'où η 2 = 25 29 = 0.8621 {\displaystyle \eta ^{2}={\frac {25}{29}}=0.8621}

La différence entre mâles et femelles rend compte de 86,24 % de la variabilité totale. De fait, pour cette espèce, les femelles sont plus grandes que les mâles.

Interprétation géométrique

Interprétation géométrique du rapport de correlation

Soit I {\displaystyle I} le nombre total des individus et R I {\displaystyle \mathbb {R} ^{I}} l’espace des fonctions sur I {\displaystyle I} (une fonction sur I {\displaystyle I} affecte une valeur numérique à chaque individu ; c’est donc un vecteur à I {\displaystyle I} composantes ; cet espace est communément appelé « espace des variables » en Analyse en composantes principales -ACP)[3]. On considère ci-après les variables centrées. Dans R I {\displaystyle \mathbb {R} ^{I}} , une variable quantitative (centrée ou non) est représentée par un vecteur (ce qui est classique en ACP). Dans R I {\displaystyle \mathbb {R} ^{I}} , une variable qualitative est représenté par un sous-espace, celui des fonctions constantes sur les classes de la variable x {\displaystyle x} . Ce sous-espace, noté E x {\displaystyle E_{x}} , possède J 1 {\displaystyle J-1} dimensions lorsque l’on se limite aux fonctions centrées ( J {\displaystyle J} dimensions sinon). On montre que le rapport de corrélation est égal au cosinus de l’angle θ {\displaystyle \theta } entre Y {\displaystyle Y} et la projection de Y {\displaystyle Y} sur E x {\displaystyle E_{x}} notée P E x ( Y ) {\displaystyle P_{E_{x}}(Y)} .

Notes

  1. Dagnélie 1998, p. 219 et suiv.
  2. Pagès 2010, p. 66.
  3. Introduction à cet espace dans Pagès 2010, p. 235

Bibliographie

  • Pierre Dagnélie, Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions, Bruxelles, De Boeck, 2011, 3e éd. (1re éd. 1998), 736 p. (ISBN 978-2-8041-6336-5)
  • Jérôme Pagès, Statistique générale pour utilisateurs. Méthodologie, Rennes, Presses Universitaires de Rennes, 2010, 2e éd. (1re éd. 2005), 272 p. (ISBN 978-2-7535-1215-3)
  • icône décorative Portail des probabilités et de la statistique