Exemple du test du c 2 (Khi2 ou Chi2) :

Ce test permet de mesurer l’indépendance de deux caractères différents et dont l’observation est synthétisée sous la forme d’un tableau de contingence. Prenons l’exemple suivant où les objets observés ont une forme (rond, carré et pointu) et une couleur (noir et blanc) :

Tableau des données observées (sous Excel*)

Ce tableau est constitué de trois lignes (3 valeurs pour la forme) et deux colonnes (deux valeurs pour la couleur) dans lesquelles sont réparties les 100 observations. Par exemple, il y a 12 objets carrés et noirs parmi les 100 observations.

A partir de ces données issues de l’observation on construit un autre tableau de contingence où seront calculées les valeurs dites théoriques ou attendues sous l’hypothèse d’indépendance des deux caractères (ici couleur et forme).

Tableau des données attendues

Pour calculer les valeurs théoriques ou attendues (par exemple 21,2 dans la cellule B9) on procède de la façon suivante. La valeur attendue pour les objets ronds et blancs si l’on pose l’hypothèse d’indépendance entre la forme et la couleur est donnée par la formule suivante :

= total en ligne (40) * total en colonne (53) / nombre d’observations

 

Dans le langage d’Excel* on écrit dans la cellule B9 la formule suivante : =D2*B5/D5

Pour éviter d’avoir à réécrire cette formule dans chacune des 6 cellules de B9 à C11 il faut remplacer la formule précédente par : =$D2*B$5/$D$5 (Les $ indiquent à Excel que la lettre de la colonne ou le chiffre de la ligne ne doit pas être modifié lors des opérations de copier / coller) et copier et recoller sur l’ensemble des 6 cellules.

Attention : les effectifs attendus (les valeurs du tableau des données attendues) doivent être supérieurs à 5. Dans le cas contraire, il faut regrouper certaines lignes ou colonnes pour atteindre un effectif attendu (théorique) égal ou supérieur à 5. Si cela s'avère impossible, vous ne pourrez pas utiliser le test du Chi2.

On peut alors faire le calcul du Chi2 :

Calcul des valeurs du Chi2

 

Dans la 1ère case (Probabilité du Chi2, en ligne 15 et colonne 4 : D15) on applique la fonction " =TEST.KHIDEUX ".

Le test Chi2 calcule d'abord une valeur appelée Chi2 en additionnant les différences entre les valeurs réelles et les valeurs attendues. La formule qui donne cette valeur est :

où Aij = est l’effectif réel de la i-ème ligne et la j-ème colonne, ici les valeurs de B2 à C4.

Eij = est l’effectif théorique dans la i-ème ligne et la j-ème colonne, ici les valeurs calculées B9 à C11.

Le test du Chi2, retourne la probabilité d’observer cette différence sous l’hypothèse de départ, c’est à dire l’hypothèse que les lignes et les colonnes sont indépendantes (ici il n’y a pas de relation entre la forme et la couleur).

Pour effectuer ce calcul, la fonction " =TEST.KHIDEUX " utilise implicitement une valeur appelée degré de liberté ou ddl, qui s’obtient en multipliant le nombre de lignes du tableau moins un par le nombre de colonnes moins un ; soit ddl = (l - 1)(c - 1).

Dans notre exemple ce nombre est de ddl =(3-1)*(2-1)=2.

 

 

Dans la deuxième case (valeur du Chi2, en ligne 16 et colonne 4 : D16), on applique la fonction " =KHI2.INVERSE " pour obtenir le résultat intermédiaire, l’écart entre les valeurs attendues et les valeurs observées. Dans notre exemple cet écart est de 22,54.
Dans la troisième case (valeur du Chi2 5%, en ligne 17 et colonne 4 : D17), nous calculons l’écart maximum que nous pouvons observer sous l’hypothèse d’indépendance avec une probabilité de 0,05 (soit 5%).

Avec ces chiffres il est simple de conclure :

Première méthode pour conclure :

La probabilité d’observer un tel écart entre les données observées (premier tableau) et les données attendues (deuxième tableau) sous l’hypothèse d’indépendance entre les lignes et les colonnes est dans notre exemple de : 0,000013 soit treize pour un million. En général nous définissons un risque (risque de première espèce) comme le risque d’erreur en affirmant que l’hypothèse posée est fausse alors qu’elle est vraie. Sauf si nous avons une raison de choisir un risque particulier, nous poserons ce risque à 0,05. Cela veut dire que toutes les probabilités inférieures à 0,05 sont considérées comme la preuve de l’inexactitude de l’hypothèse de départ. Nous rejetons l’hypothèse de départ (ici d’indépendance) et nous acceptons l’hypothèse contraire (ici de dépendance) au risque de 5% de se tromper.

Deuxième méthode pour conclure :

La différence observée entre les deux tableaux donne une valeur du Chi2 de 22,54. Or au risque de 5% (0,05) la valeur maximale que peut prendre le Chi2 est de 5,99. Comme 22,54 est supérieur à 5,99 nous pouvons conclure que nous rejetons l’hypothèse de départ (ici d’indépendance) et nous acceptons l’hypothèse contraire (ici de dépendance) au risque de 5% de se tromper.

 

Autre exemple :

Répartition de 200 naissances. Les deux caractères observés sont le sexe et le poids à la naissance.

Tableau des valeurs observées

Nous avons 95 filles et 105 garçons dans l’échantillon. 46 ont un poids inférieur à 3 kg à la naissance, 154 ont 3 kg ou plus.

 

Tableau des valeurs attendues sous l’hypothèse d’indépendance

 

Calcul des valeurs du Chi2

Conduite du Test :

 

 

On pose l’hypothèse d’indépendance, c’est à dire qu’il n’y a pas de différence entre les filles et les garçons pour le poids à la naissance.
On définit le risque, ici 5%

 

On vérifie les conditions d'application du test

 
La probabilité calculée par le test du Chi2 est de 16,26% (donc > 5%) on peut donc conclure au non-rejet de l’hypothèse d’indépendance. Nos données ne nous permettent pas de contredire cette hypothèse, nous devons donc au risque de 5% la considérer comme vraie. Nous allons affirmer au risque de 5% que le poids à la naissance ne dépend pas du sexe de l’enfant.

 

Avec d’autres valeurs :

Supposons que nous ayons d’autres valeurs pour les observations. Celles-ci sont représentées dans le tableau ci-dessous.

 

Dans le premier encadré du Chi2 nous avons calculé la valeur du Chi2 sous l’hypothèse d’indépendance avec un risque de 5%. Nous pouvons conclure au rejet de l’hypothèse d’indépendance, la probabilité de 4,1 % est inférieure à 5% et le seuil, au risque de 5%, est de 3,84 avec une valeur du Chi2 supérieure de 4,18. Nous pouvons alors conclure qu’au risque de 5% le poids est différent à la naissance entre les filles et les garçons.

Attention : Nous n’avons pas fait de test pour dire si les garçons sont plus gros ou plus petits que les filles.

On s’aperçoit que le seuil et la probabilité sont proches des valeurs critiques. En effet, si l’on choisit 1% comme risque d’erreur, la conclusion devient alors opposée. Au risque de 1%, la valeur de la probabilité est de 4,1% soit supérieure, et le seiul est de 6,63 soit une valeur supérieure à 4,18. On ne peut plus rejeter l’hypothèse d’indépendance au risque de 1%. Nous pouvons alors conclure qu’au risque de 1% nous n’avons pas observé de différence du poids à la naissance entre les garçons et les filles.

Remarque : il est normal que le seuil augmente quand le risque diminue. En effet, si nous diminuons le risque d’affirmer à partir d’un exemple (échantillon) que l’hypothèse de départ est fausse alors que dans la réalité elle est vraie, nous sommes obligés d’accepter des valeurs plus élevées pour le Chi2.

 

* le logiciel Excel est une marque déposée de Microsoft