Discussion:Test du χ²

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Cet article est indexé par les projets Probabilités et statistiques et Mathématiques.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Test du χ²** »
Avancement	Importance	pour le projet
B	Maximum		Probabilités et statistiques (discussion • critères • liste • stats • hist. • comité • stats vues)
B	Élevée		Mathématiques (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article ne comporte pas de liste de tâches suggérées. Vous pouvez saisir une liste de tâches à accomplir (par exemple sous forme d'une liste à puces), puis sauvegarder. Vous pouvez aussi consulter la page d'aide.

Notes diverses d'un lecteur de passage[modifier le code]

Ne serait-il pas bon de rappeler que le chi carré se définit comme la somme de variables normales réduites élevées chacune au carré ? Et donc pour appliquer cette distribution, on doit formuler le problème sous cette forme. D'où les sommes avec des carrés qui apparaissent dans les différents usages décrits. Ceci pour se rappeler aussi que hors de la distribution normale, point de salut : soit on a un grand nombre d'échantillons, soit on se situe dans la courbe de Gauss pour d'autres raisons liées au contexte du problème. --Shuffbel (d) 25 mars 2012 à 22:01 (CEST)[répondre]

Il s'agit plutôt de ne pas infirmer une loi que de la valider, car un échantillon peut correspondre à plusieurs lois différentes : il passe une infinité de courbes par un nombre fini de points.

Le fait que la somme quadratique des écarts suive une loi de khi-2 ne suppose t il pas que les écarts suivent une loi normale ?

Pour la "certitude à 95%", le mot "certitude" est entre guillemets. La définition précise pourrait être : si l'hypothèse est fausse, la probabilité d'avoir eu cet échantillon aurait été a priori de 5%.

Bonjour, Je me pose la question suivante : Avec 3 degrés de liberté, si on se donne un risque de se tromper égal à 5 %, la valeur critique trouvée dans les tables est 7,81 (c'est en tout cas ce que donne la mienne $\neq 7,18$ ). Cependant si l'on est moins exigeant, par exemple si on admet un risque de se tromper de 10 %, la valeur critique diminue : 0,58. Pouvez-vous m'expliquer ce mystère ? Bien cordialement. — Le message qui précède, non signé, a été déposé par Champaigne (discuter), le 27 octobre 2009 à 18:15 UTC

Tu as dû confondre le fractile à 0,9 (10% d'erreur) et celui à 0,1 (90% d'erreur !). Toutes les tables de χ² donnent, pour un risque à 10%, une p-valeur à 6,251, ce qui est un tantinet plus cohérent.

N'oublie pas de signer la prochaine fois !

Kelam (me parler) 28 octobre 2009 à 11:01 (CET)[répondre]

Suppression passage hors sujet[modifier le code]

J'ai supprimé le passage suivant qui est inédit et surtout hors sujet.

Les phénomènes quantifiables au sein d'une population sont soumis à des fluctuations statistiques. Considérons par exemple le taux de chômage dans un état donné, ou bien le taux de croissance. 

D'une année sur l'autre, des variations dans ces taux sont systématiquement enregistrées (baisse ou hausse) pour autant elles ne signifient pas en elle-même, contrairement à une croyance trop répandue, que la variable considérée (taux de croissance ou de chômage) a bel et bien changé (rigoureusement qu'elle a changé de loi, c’est-à-dire que des procédés mis en place sont venus influencer sa distribution). Lorsque l'on considère une variable, il faut distinguer l'impact causal de la fluctuation statistique aléatoire. Ainsi, une baisse du taux de chômage de 2% d'une année à l'autre peut très bien n'être imputable qu'au caractère aléatoire de la variable « taux de chômage » et ne rien signifier sur le plan causal. Cette baisse ne signifie pas d'elle-même que des mesures efficaces ont influencé la loi de distribution du chômage. Seuls les tests statistiques sont connus actuellement pour faire foi et déterminer (à un seuil donné) si cette variation est le fruit du hasard ou non. À cet égard les tests du χ² sont exceptionnellement utiles.

--PAC2 (d) 22 février 2012 à 16:18 (CET)[répondre]

L'exemple semble mal choisi[modifier le code]

Bonjour,

Il me semble que même si on dit que l'exemple est fictif et ne représente aucune réalité, il faudrait quand même choisir un exemple moins soumis à polémique comme le choix du lapin pour les carottes ou les choux par exemple.

Cordialement, --128.79.172.170 (d) 1 novembre 2012 à 10:42 (CET)Mehdi[répondre]

de Anonyme: Ou bien un exemple réel mais qui serait décalé dans le temps : par exemple le même exemple de salaire homme/femme réels mais sur des données de 1950 en France , on verrait que le X2 qui serait significatif mais le sujet ne serait pas polémique car ces valeurs réelles ne sont pas controversées.

De Ninjasam32: Sauf erreur de ma part l'exemple parait également mal choisit pour des raisons mathématiques. En effet le résultat du test est "la distribution des salaires est différentes entre les hommes et les femmes" mais il ne se positionne pas sur le fait que les hommes gagnent plus que les femmes. Si on inverse les colonnes les statistiques seront les mêmes et on pourrait les arranger pour qu'en moyenne, les hommes et les femmes gagnent a peu près la même chose.

Par rapport à l'hypothèse que l'on cherche à rejeté, il serait plus adapté d'utiliser un autre test utilisant la nature ordonnée voire quantitative des variables de classes. Par exemple le test de Mann-Whitney donne une p-value de 0,123 au lieu de 0,489 pour le test du khi-2. On serait donc beaucoup plus proche de rejeter l'hypothèse d'égalité des distributions même si en effet cela ne suffit pas à prouver la significativité dans les deux cas.

A défaut de changer l'exemple, au moins changer le paragraphe "on remarque que les femmes sont plus nombreuses dans les classes à bas salaires et moins nombreuses dans celles à haut salaire que les hommes. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ?" Le test du khi2 supprime la notion de bas salaire et de haut salaire.

Il vaudrait mieux donner un exemple concret et réel. Theon (discuter) 2 septembre 2013 à 18:13 (CEST)[répondre]

Faute d'avoir trouver des références réelles sur les salaires hommes-femmes, j'ai simplement modifié l'exemple en attribuant des termes neutres aux variables. Theon (discuter) 9 septembre 2013 à 10:35 (CEST)[répondre]

Contraintes d'application[modifier le code]

Peut-être serait-il bon de spécifier les contraintes d'application du test, notamment en terme d'effectifs dans le tableau de contingence (de mémoire, il me semble que ces effectifs ne doivent pas être inférieurs à 5, mais je n'en suis pas certain). --88.182.157.246 (d) 5 décembre 2012 à 14:25 (CET)pcoquill[répondre]

Oui, il y a une règle pratique (sans fondement théorique) qui stipule qu'il doit y avoir au moins 5 observations par case du tableau de contingence. Si vous trouvez une référence précise, n'hésitez pas à l'ajouter vous même. Je pense que ça peut être précisé en note de bas de page. --PAC2 (d) 5 décembre 2012 à 19:06 (CET)[répondre]

Clarification du paragraphe "choix des classes" svp[modifier le code]

Je ne comprends pas la phrase "On peut utiliser le critère de Yates pour déterminer ce nombre C ." dans le contexte de ce paragraphe. En quoi est-ce lié à la "règle" des 80% > 5 ?

Merci ! Goulu (d) 11 janvier 2013 à 10:49 (CET)[répondre]

Effectivement, on ne voit pas bien le rapport. J'ai donc supprimé la phrase. Quelqu'un peut la remettre à condition d'apporter les explications demandées. Theon (discuter) 2 septembre 2013 à 18:12 (CEST)[répondre]

Commentaires d'un lecteur de passage[modifier le code]

Est-ce volontaire que la partie sur le test d'homogénéité soit une sous-partie de la partie sur le test d'adéquation ?
Je lis ceci dans la partie sur le test d'indépendance : "Le calcul du χ² des données s'effectue en remplaçant le terme relatif à chaque cellule par la quantité ${\frac {(O-E)^{2}}{E}}\,$ indiquée pour le test d'homogénéité". Ceci oblige le lecteur qui n'est intéressé que par le test d'indépendance à lire la partie sur le test d'homogénéité. Ne pourrait-on pas rendre indépendantes ces deux parties ?
Dans certains ouvrages $O_{i+}$ est noté $O_{i\cdot }$ . Ne faudrait-il pas préférer cette dernière notation ?
Ne faudrait-il pas placer l'exemple de la partie sur le test d'indépendance après l'exposé de sa formule ?

Merci pour vos commentaires. L'article est effectivement très imparfait. N'hésitez pas à l'améliorer en vous appuyant sur des sources précises.

Tout à fait d'accord pour rendre indépendante les différentes parties.
Les questions de notations sont toujours complexes et il est difficile de trouver une notation qui fasse l'unanimité

--PAC2 (d) 6 mars 2013 à 23:24 (CET)[répondre]

Loi uniforme[modifier le code]

Un lien erroné est donc préférable à un lien ambigu. --Jct (d) 21 mai 2013 à 08:31 (CEST)[répondre]

Cette particularisation brutale ne va pas dans le sens du bandeau qui indique qu'une réorganisation et une clarification du contenu sont nécessaires. --Jct (d) 21 mai 2013 à 08:44 (CEST)[répondre]