Discussion:Statistique descriptive

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Transfert[modifier le code]

Dans le cadre du nettoyage de l'article statistiques, la partie concernant les statistiques descriptives a été déplacée ici. Il y a sans doute aussi une mise en forme à faire sur cette partie transférée. HB 6 juillet 2006 à 08:41 (CEST)[répondre]

(Hpa, le 9 décembre 2006 à 16:54 (CET))[répondre]
La réorganisation de cet article, ainsi que la mise au point des autres articles sur la Statistique, repose sur l'emploi d'un vocabulaire précis et respecté par tous les intervenants.
  • On ne peut pas écrire sans se justifier, "les statistiques descriptives" sans préciser ce que l'on entend par ce pluriel, surtout dans l'article "statistique descriptive" au singulier.
  • Ailleurs on lit que la statistique descriptive s'applique à des "phénomènes". Le terme me semble trop vague. Il faut obligatoirement parler de population, et renvoyer à cet articles.

réorganisation[modifier le code]

Je suis en train de répertorier dans la section 'voir aussi' les articles qui se positionnent naturellement sous les stats des. Je vais essayer de donner un peu de cohérence à tout cela.Lehalle(discussion) 5 novembre 2006 à 15:36 (CET)[répondre]

Le but de ma réorganisation est de l'axer sur l'idée de description d'une distribution connue via un échantillon, ce qui devrait permettre d'aborder et d'expliquer clairement et simplement à peu près tous les points. Lehalle(discussion) 5 novembre 2006 à 15:44 (CET)[répondre]

Moyennes[modifier le code]

J'ai pour l'instant enlevé cette énumération:

  • La moyenne géométrique est utilisée dans l'étude des rapports, par exemple en matière économique dans la définition de certains nombres-indices. Il s'agit en effet de paramètres de position destinés à mesurer les variations relatives d'un ensemble de variables de même nature ou soumises à des influences communes (indice de prix ou de production). La formule pour la calculer est la suivante :
  • La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés.
  • La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses :

de la section moyenne. Je ne pense que cela complique les choses, sachant en plus qu'il y a une catégorie! pour le moyenne: catégorie:moyenne. Lehalle(discussion) 5 novembre 2006 à 15:42 (CET)[répondre]

Généralités[modifier le code]

J'ai aussi retiré la section généralie (cf plus bas). En effet, elle est trop ou pas assez détaillée (cf mes remarques au cours du texte):

Dans un certain sens, nous utilisons des données concernant les éléments d’un ensemble pour décrire l’ensemble. Les techniques sont ordinairement classifiées de la façon suivante :

  1. la description graphique dans laquelle nous utilisons des graphiques pour représenter des données.
  2. la description tabulaire dans laquelle nous utilisons des tableaux pour analyser les données.
  3. la description paramétrique dans laquelle nous estimons les valeurs de certains paramètres que nous supposons compléter la description de l’ensemble des données.
l'idée d'une différence entre une description tabulaire et paramétrique est trompeuse: les valeurs qui sont dans les cases d'un tableau sont des paramètres (des moyennes, écart types, quantiles, etc).
il va y avoir une description plus complète des méthodes graphiques dans Visualisation des données.

En général, les données statistiques peuvent être décrites comme une liste d’objets ou d' individus avec des critères associés à chacun d’entre eux. Bien que la plupart des études utilisent beaucoup de types de données ou caractères pour chaque individu, nous nous limiterons à un seul caractère pour chaque individu, dans cette introduction simple.

c'est trop vague, essayons de faire mieux autour du concept d' observations synchrones.

Nous avons deux objectifs pour notre analyse statistique :

  1. nous voulons choisir une statistique qui montre comment différents individus semblent similaires. Le moyen d’atteindre cet objectif s’appelle la mesure de la tendance centrale.
  2. nous voulons choisir une autre statistique qui montre comment les individus diffèrent. Ce genre de statistique est souvent appelée une mesure de variabilité statistique.
je pense que ce snt là des moyens et pas le but (qui reste de décrire). Il faut nénamoins repreendre cela dans l'article.

Lorsque nous devons étudier une quantité comme la longueur, le poids ou l’âge, nous commençons souvent par le calcul de la moyenne arithmétique, de la médiane, ou du mode.

ces éléments méthodologiques n'ont pas forcément leur place dans un chapô

Les mesures les plus souvent effectuées de variabilité pour les données quantitatives sont la variance; sa racine carrée, la déviation standard ou écart type; l’étendue; l’écart interquartile; et la déviation absolue.

A côté des réductions statistiques de valeur centrale et de valeur de dispersion, on peut construire des descriptions un peu plus détaillées à partir de la fonction de distribution cumulative. Si on découpe la population en classes d'effectif constant on obtient des quantiles qui généralisent la notion de médiane, en classes de largeur constante on obtient un histogramme.

Question diverses[modifier le code]

Education[modifier le code]

demain j'ai un interro en math sur les statistiques et je comprend squ ela moitié comment dois je faire pour étudier et pour ainsi comprendre??

d'abord en signant ta remarque pour qu'on puisse te répondre, puis en suivant le cours: cela évite toujours de s'y prendre au dernier moment.Lehalle(discussion) 5 novembre 2006 à 15:38 (CET)[répondre]

Histogrammes[modifier le code]

  • source pour un historique: [1]
  • code R pour la fabrication de mon histogramme:
d<-c(1,1,0,0,0,1,0,1,1,1,0,0,1,0,1,0,1,1,1,1,0,0,1)
hist(d,main="Densité empirique",freq=FALSE,breaks=c(-.5,.5,1.5),xlab="Echecs/Succes",ylab="Densité",col="grey")
  • pour l'histogramme simple
d<-rnorm(300)
brk<-c(min(d),qnorm(seq(0.15,.85,by=.15)),max(d))
y<-hist(d,main="Densité empirique",freq=FALSE,ylab="Densité",xlab="V",col="grey",breaks=brk)
z<-c(y$density[1],cumsum(y$density*diff(y$breaks)))
plot(sort(d),seq(1/length(d),1,by=1/length(d)),"l",xlab="valeur",ylab="F*(v)",main="Fonction de répartition")
lines(y$breaks,z,col="red")

Dépendances[modifier le code]

Code R:

d<-c(rnorm(100,1)*.3-1,rnorm(50,1)*.4,rnorm(100,1)*.6+1)
v<-c(rep(1,times=100),rep(2,times=50),rep(3,times=100))
idx<-sample(1:250)
v<-v[idx]
d<-d[idx]
plot(d,main="Whole distribution V1")
plot(v,main="Whole distribution V2")
boxplot(d~v)

Statistique descriptive/Statistique mathématique[modifier le code]

Ayant répondu à l'invitation de commenter le Portail:Probabilités et Statistiques et n'ayant su faire comprendre mon point de vue, je retente ma chance ici... au risque de lasser. Il me paraît essentiel de distinguer ce que j'appelle, dans un langage apparemment périmé mais qui me paraît bien commode, la statistique descriptive et la statistique mathématique. La première traite, de manière finalement arbitraire, un ensemble de données (une population finie) en utilisant les seules règles de l'algèbre. La seconde considère, de manière rigoureuse, cet ensemble comme plus ou moins représentatif d'une population infinie à laquelle on peut attacher une loi de probabilité et on va jusqu'à mesurer cette représentativité. Il me semble que, sans cette distinction posée a priori au niveau du portail (en choisissant si on y tient un jargon plus moderne), on aboutira nécessairement à des confusions dans le genre de celles que l'on trouve dans cet article. Quelle personne cherchant à s'informer sur wikipedia peut comprendre la différence entre variance (notion de statistique descriptive) et estimation sans biais de la variance (notion de statistique mathématique), ce problème étant obscurci par l'utilisation du même mot pour désigner deux notions de nature très différente ? Je m'aperçois que, pour aggraver mon cas, ce qui précède contredit une phrase du chapitre réorganisation ci-dessus – par ailleurs tout à fait raisonnable –, sur l'idée de description d'une distribution connue via un échantillon. Comme dit ci-dessus, je crois que l'emploi des notions d'échantillon et de distribution est inutile et même dangereux en statistique descriptive.Jct 21 novembre 2006 à 10:39 (CET)[répondre]

Je partage ton avis : la statistique descriptive décrit la portion de population étudiée. La statistique inférentielle déduit de cette étude les caractéristique de la population dont on a pris un échantillon. Les deux notions sont tellement imbriquées qu'il est parfois difficile de les dissocier. Je pense, comme toi, qu'il est nécessaire de faire la distinction tout en insistant sur le fait que le statisticien ne s'arrête quasiment jamais à la statistique descriptive mais cherche par un raisonnement inductif, faisant appel aux probabilités, en tenter une généralisation. HB 21 novembre 2006 à 15:39 (CET)[répondre]
Si je comprends bien, tu admets l'essentiel de mon point de vue : sur le fond, le portail et les articles devraient distinguer clairement les deux notions, ce qui est possible si on en pose le principe a priori. Ceci dit, il me semble qu'il suffit de lire les journaux, sans parler des rapports officiels ou d'entreprises, pour constater que, mis à part des domaines assez techniques, les statisticiens utilisent beaucoup plus la statistique descriptive que la statistique mathématique. La statistique est fréquemment utilisée par des gens qui n'ont pas entendu parler d'estimation sans biais et d'intervalles de confiance. Si cette dernière notion était couramment associée aux statistiques, les journalistes ne pourraient disserter sans fin sur le point gagné par Mme X par rapport à M. Y dans un sondage préélectoral. Ce serait, selon moi, un progrès de la démocratie mais ce n'est actuellement pas le cas. Jct 22 novembre 2006 à 11:58 (CET)[répondre]
Je suis 1.000 fois d'accord moi aussi sur le fait qu'il est important de distinguer les deux domaines. Néanmoins j'ai pris mon parti d'y aller progressivement (il faut voir l'état initial de wikipedia sur les stats et les probas), en ajustant au fur et à mesure ce que je peux. Mille fois bravo aussi pour ta contribution aux stats maths, tout cela est en évolution dans la bonne direction. En ce qui concerne ta présentation des intervalles de confiance, je ne suis cependant pas en accord complet: en ce qui me concerne le résultat asymptotique provient des stats maths, mais est utilisé en stat descriptive. Il me semble que c'est légèrement différent de ton point de vue (pour toi, cela reste des stats maths même appliqué à des données réelles). Cela me surprend que tu dise que la variance est une notion de stat descriptive, il suffit d'ouvrir le Borovkov (mathematical statistics) pour y trouver des résultats sur la variance. Quoi qu'il en soit je pense que nos deux points de vues peuvent se cotoyer sans difficulté sur wikipédia. En ce qui me concerne je vais essayer d'adopter des explications qui te choqueront moins. Nous pouvons tout de même entammer une querelle d'experts sur cette page de discussion à ce sujet, afin de clarifier nos points de vue ;{)} - Lehalle(discussion) 4 décembre 2006 à 17:34 (CET)[répondre]
Désolé de pinailler indéfiniment mais le pinalleur qui s'est trouvé pris à son propre jeu se doit de préciser sa pensée exprimée de manière ambiguë. En statistique descriptive, on peut définir un paramètre de dispersion par la variance en n et l'écart-type correspondant, notion arbitraire dans ce cadre, qui ne présente aucun avantage objectif par rapport à l'écart moyen, l'écart médian, voire le range. Je regrettais donc la perplexité possible du lecteur face à l'estimation en (n-1) de la variance de la statistique mathématique (généralement appliquée à des données réelles), c'est-à-dire à la fois plus abstraite et indiscutable. Je dois aussi m'excuser pour, suivant sans réfléchir ton invitation, avoir voulu donner de bons (?) conseils sans mettre la main à la pâte. Bon courage face à ce chaos. Jct 5 décembre 2006 à 09:47 (CET)[répondre]

Utilisation des stat descriptives[modifier le code]

Cet article ne montre que les utilisations scientifiques (avec des exemples de physiques), mais il faut aussi développer son utilisation par les sciences humaines (histoire, géographies, sociologie...). --—Jérémy76 [Discutez] 14 octobre 2010 à 17:55 (CEST)[répondre]

Description exhaustive[modifier le code]

Bonjour, j'ai viré cette section qui est écrite dans un style non neutre et qui n'apporte rien à l'article. Il est en plus assez trompeur, puisqu'on a aussi l'article Statistique exhaustive. La section venait de ce diff. Nochnix (d) 5 mars 2012 à 06:55 (CET)[répondre]