Discussion:Loi de Zipf

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Cet article est indexé par les projets Langues, Mathématiques et Probabilités et statistiques.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Loi de Zipf** »
Avancement	Importance
Bon début	Faible	Langues (discussion • critères • liste • stats • hist. • comité • stats vues)
		Mathématiques (discussion • critères • liste • stats • hist. • comité • stats vues)
		Probabilités et statistiques (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article ne comporte pas de liste de tâches suggérées. Vous pouvez saisir une liste de tâches à accomplir (par exemple sous forme d'une liste à puces), puis sauvegarder. Vous pouvez aussi consulter la page d'aide.

Figure[modifier le code]

La figure incluse est provisoire et sera remplacée par une autre, mieux présentée et dont le nom utilisera les conventions appropriées. François-Dominique 5 sep 2004 à 07:23 (CEST)

Suppression section "Point très important"[modifier le code]

par FvdP (d) 1 oct 2004 à 19:42 (CEST)

Elle contenait ceci:

Remarquons que la loi de Zipf (comme celle de Mandelbrot), classe un ensemble en ordre décroissant pour établir ensuite la prédiction que ses éléments ordonnés vont répondre à une loi de décroissance. Une telle prédiction est difficilement falsifiable au sens de Karl Popper ! La quantité d' information ajoutée apportée par un tri est d'ordre N log₂ N. Il convient de vérifier, dans les exemples comprenant un nombre faible de mots, que l'information « apportée » par la loi ne provienne pas tout simplement du tri effectué par l'expérimentateur, ce qui donnerait à celle-ci, dans ce cas précis une valeur explicative nulle, voire négative.

Qui me paraît faux à plus d'un titre: 1) la loi de Zipf étudie un ensemble en ordre décroissant, certes, pour établir que ses éléments ordonnés suivent une loi de décroissance, certes; mais elle postule une loi de décroissance particulière que tout ensemble en ordre décroissant ne satisfait pas.

Exact. Pour te convaincre, je suppose que je peux tirer au hasard quelques échantillons selon une distribution uniforme, puis les classer et te montrer qu'après classement ces tirages sont mieux justifiés par une loi de Zipf que par une loi uniforme. Cela te ferait-il réviser ta position ? 195.132.59.18 1 oct 2004 à 22:02 (CEST)

L'argument Poppérien est donc totalement infondé.

Dès lors qu'on s'est arrangé pour qu'une distribution soit décroissante (en la classant), elle a peu de chance d'être davantage conforme à une loi uniforme qu'à un certain nombre de lois décroissantes, ne crois-tu pas ? Or le problème est qu'ici nous savons pourtant que la la loi de probabilité de départ était uniforme. Ainsi donc, on n'a pas pu réfuter (sauf à tenir compte de l'information ajoutée artificiellement par le classement) une hypothèse zipfienne qui était bien fausse. D'accord ? 195.132.59.18 1 oct 2004 à 22:09 (CEST)

2) mon petit doigt me dit que le tri n'ajoute aucune information, il en retire... (puisqu'il diminue le nombre de listes possibles; puisqu'il peut donner le même résultat partant de listes différentes)

3) "valeur explicative négative" est rigolo. Si ça a un sens, ça en a un pour les mensonges, pas pour les vérités, même inutiles...

FvdP (d) 1 oct 2004 à 19:42 (CEST)

Mais voyons, FvdP, l'ensemble non trié ne contient davantage d'informations que si tu fais usage de la succession de ces informations. Trier un ensemble consiste bel et bien à lui retirer de l'entropie, n'importe quel bouquin d'information ou de thermodynamique peut le confirmer. Et retirer de l'entropie, eh bien il se trouve que c'est bien lui ajouter de l'information.

Entropie: en théorie de l'information de Kolmogoroff, en tout cas, c'est l'inverse... plus c'est aléatoire (entropique) plus il y a de l'information. Je ne vois pas pourquoi ce serait différent avec Shannon (vu les similarités entre les 2 théories). Je peux me tromper mais... FvdP (d)

"l'ensemble non trié ne contient davantage d'informations que si tu fais usage de la succession de ces informations": mais en aucun cas l'ensemble non trié ne contient moins d'informations, nous sommes donc d'accord ? FvdP (d)

Si tu tires des nombles aléatoires uniformes dans un intervalle et que tu les tries, nul doute que leur répartition va bien confirmer une loi décroissante. Or cette loi possède moins d'entropie que la loi uniforme (elle est plus prévenue, si tu préfères); donc la différence a forcément été ajoutée quelque part. Source (en ce qui me concerne) : Rational descriptions, decisions and designs de Myron Tribus, 1974. J'admets qu'on puisse à la limite détailler comme je viens de le faire. Cela ne m'était pas apparu indispensable, mais je veux bien m'y mettre. 195.132.59.18 1 oct 2004 à 19:57 (CEST)

"nul doute que leur répartition va bien confirmer une loi décroissante": je n'ai pas dit le contraire. Tu n'as pas répondu à mon contre-argument sur Popper, cela veut-il dire que je t'ai convaincu ? FvdP (d) 1 oct 2004 à 20:08 (CEST)

Exemple de difficulté de réfuter de la loi de Zipf dans certains cas où ce n'est pourtant pas la bonne[modifier le code]

Voici, pour faire dans l'urgence, trois tirages aléatoires uniformes non trafiqués de 100 nombres entre 1 et 10. On compte le nombre d'occurrences de chacun et on classe ce qui a été obtenu.

Maintenant, on peut se demander si ils vont pouvoir être considérés comme respectant la loi de Zipf ou non. Si c'est le cas, c'est bien fâcheux, car chaque nombre avait exactement la même probabilité de sortir.

Je doute que nous puissions utiliser un Chi2 compte-tenu de faible nombre de tirages :oD, ça fait un moment que je n'ai plus touché aux statistiques classiques. Si c'est le cas, je serai heureux d'en connaître le verdict. Dans le cas contraire, je peux faire un psi-test dès que j'aurai un moment...

Je peux aussi faire effectuer 100 tirages par la machine, le problème restera le même : tant qu'on ne déduit pas de la valeur explicative de la loi de Zipf le travail informationnel que nous y avons introduit en triant les informations, elle sera identifiée à tort comme la bonne répartition, avec un pouvoir explicatif en apparence bien plus fort que la véritable loi de tirage, qui est la loi uniforme. Ca ne fait jamais que 30 ans tout rond que je travaille avec ces trucs, même si c'est épisodiquement, je pense tout de même connaître un peu la question ;o) François-Dominique 1 oct 2004 à 23:22 (CEST)

30 ans ? Peut-être, n'empêche que l'argument Poppérien est invalide... Car il y a une différence entre "difficile à réfuter dans un cas particulier" et "toujours impossible à réfuter".

Mais il n'est possible d'appliquer la loi de Zipf qu'à un cas particulier ! Car si tu l'appliques à un autre texte, tu calsses bien des mots, mais ce ne seront pas les mêmes mots. François-Dominique 1 oct 2004 à 23:58 (CEST)

Et 100 c'est peut-être effectivement trop peu pour tirer des conclusions significatives. (La bible contient à peu près 1 000 000 mots.)

Les méthodes bayésiennes ont précisément été développées pour tous les cas où l'on possédait trop peu de données pour utiliser les méthodes statistiques classiques. Voir Inférence bayésienne.

Et tu serais plus convaincant si tu poussais l'analyse jusqu'au bout, çad jusqu'à afficher en même temps la courbe obtenue par un tirage uniforme (de plus de 100) (après triage et blablabla), et celle prédite par la loi de Zipf.

Je ne demande pas mieux, mais il se trouve que je ne suis pas à plein temps sur la Wikipédia et qu'à mon âge il commence à devenir difficile de faire plus de quatre choses à la fois.

Moi non plus, je n'ai pas envie de passer ma vie ici... J'y passe trop de temps déjà à mon goût ;-) FvdP (d)

Je parie qu'alors, le tirage uniforme produirait une courbe assez régulière nettement distincte de la courbe de la loi de Zipf. Ce qui serait un bon argument en faveur de la non-validité de la loi de Zipf pour les tirages uniformes. Et donc, de la réfutabilité de cette loi de Zipf dans certains cas. Et donc, de la non-validité de ta conclusion selon laquelle la loi de Zipf serait irréfutable-au-sens-de-Popper (et donc non scientifique). Peut-être qu'elle l'est dans le cas de tirages très limités comme celui uniforme de 100. Ca ne veut pas dire qu'elle l'est en général.

Ce serait tout de même gentil de nous expliquer ce qu'est le cas général pour une loi de Zipf, qui s'exerce à chaque fois sur un corpus différent et avec des mots différents à des places différentes. C'est exactement comme si tu disais que "le fait de la non-validité d'un horoscope pour certains cas particuliers ne prouve pas que les horoscopes sont invalides en général". Moi, je veux bien, mais ça me paraît pour le moins suspect.

Ce cas général serait ceci: "Observation de Zipf: quand on trace [telle courbe] en partant de la répartition des mots d'un texte en langue humaine, on obtient qqch de proche de [la courbe de Zipf]". Note: il s'agit d'une observation (empirique), pas d'une "loi" au sens prescriptif/normatif du terme (voir aussi plus bas.)

L'exemple des horoscopes est mal choisi en ce qu'il ne représente pas ce que je veux dire. Mon but principal dans cette discussion est de montrer que la loi(=observation) de Zipf est falsifiable au sens de Popper (çàd le contraire de ce que dit ton texte que j'ai enlevé de l'article). En termes d'horoscopes: les horoscopes sont falsifiables. Précisément, le fait qu'un horoscope particulier soir invalide prouve que les horoscopes sont falsifiables. De même, si en tirant 10000 nombres de façon uniformes on obtient qqch qui ne satisfait manifestement pas la loi de Zipf, on aura prouvé que la loi de Zipf est falsifiable. CQFD. (Bon ça n'est pas rigoureux, comme en sciences expérimentales on ne peut pas espérer être rigoureux.)

Un texte donné suit "à peu près" une loi de Zipf. Si je prends un mot sur deux dans un texte, cette moitié suit également "à peu près" une loi de Zipf. Et si je prends les verbes du texte, ils suivent encore "à peuprès" une loi de Zipf. De même que, quand je prends quelques nombres aléatoires, ils suivent toujours "à peu près" une loi de Zipf.

Là, je m'insurge. Non ! Non ! Non ! Oui pour les 2 premiers "à peu près". Non pour le 3e. Tire 10000 mots de façon uniforme au hasard et tu verras probablement clairement qu'il ne satisfont pas la loi de Zipf.

Plus j'ai de nombre, plus grande est la valeur explicative de la loi de Zipf ? Certes. Mais plus j'ai de nombres et plus j'ai aussi ajouté d'ordre en les triant. Si j'ajoute de l'ordre, je retrouve davantage d'ordre après qu'avant. Rien de plus logique.

Mais la loi de Zipf ne dit pas simplement qu'il y a plus d'ordre. Elle dit que l'ordre qu'on rencontre dans un texte a (approximativement) des propriétés particulières, qu'on ne retrouve pas dans toutes les listes de nombres aléatoires triés.

Je ne dis pas que la loi de Zipf ne s'applique jamais; la loi de Mandelbrot n'est pas empirique, elle est démontrée, et la loi de Zipf n'en est qu'un cas particulier. J'attire juste l'attention - et c'est, je le maintiens, très imporftant, que c'est une grave erreur que de croire pouvoir l'appliquer à tort et à travers.

Je ne prétends appliquer la loi de Zipf nulle part!!!!! La loi de Zipf pour moi est une observation: on observe approximativement certaines propriétés particulières dans certains cas (textes). Cette observation est intéressante car elle n'est pas triviale (elle est fausse dans la plupart des cas de listes aléatoires).

Et, d'une certaine façon la loi de Zipf n'explique rien (de même que la loi de Kepler sur le mouvement elliptique des planètes n'explique rien). Par contre, elle peut aider à comprendre la répartition des mots dans un texte et mener à des découvertes intéressantes. (Dans le cas des planètes, le fait que les lois de Kepler se déduisent des lois de Newton sont un argument très fort en faveur des lois de Newton. Pas 100% décisif, mais très fort.)

En quoi veux-tu "appliquer" / crains-tu que quelqu'un applique la loi de Zipf ? FvdP (d) 2 oct 2004 à 00:22 (CEST)

La loi de Zipf a été utilisée dans beaucoup de modèles de performances concernant les recherches sur des bases de données de textes. Elle l'a été dans certain cas avec les précautions appropriées, et dans d'autres non. On pourrait en dire autant d'ailleurs de la loi normale ou même de l'usage de moyennes dans certains cas (que j'ai rencontrés) où un stagiaire, faute de pouvoir calculer commodément l'estimation du carré de X, prenait froidement l'estimation de X et l'élevait au carré.

François-Dominique 1 oct 2004 à 23:58 (CEST)

Bon je pourrais aussi "pousser jusqu'au bout" et produire ce graphique moi-même. Je n'ai pas trop le temps pour ça. Mais, mon bon sens mathématique me dit qu'il est impossible que toute distribution produise (après triage et blablabla) la loi de Zipf. Que ce soit la distribution uniforme ou une autre, une distribution va produire autre chose que la loi de Zipf, qui sera donc bien réfutable.

(Un graphique c'est pas hyper-rigoureux, mais un chi-test sur un cas particulier non plus finalement - rien ne vaut une bonne preuve mathématique, probablement pas si difficile à faire, qu'une distribution uniforme ne vérifie pas la loi de Zipf.)

FvdP (d) 1 oct 2004 à 23:43 (CEST)

Bon, ben trop tard. Pendant que tu écrivais que tu n'avais pas le temps de le faire, je l'ai fait (merci, APL!). Qu'en penses tu ? Quant à démontrer mathématiquement que quelque chose suit une loi de Zipf, la question reste controversée, justement parce que les données sont triées en cours de route, ce qui fout le bordel et ne permet pas d'utiliser un modèle de probabilités bien propre. N'oublie pas de surcroit que la fréquence observée n'est pas proportionnelle à la probabilité d'observation, et que ça peut permuter deux éléments d'un tri ou même la moitié d'entre eux. Je ne connais personne qui y ait réussi. Si tu y arrives, tu fais la une dans les revues professionnelles genre IEEE transactions, ça ne fait pas un pli. François-Dominique 2 oct 2004 à 00:03 (CEST)

Pourtant, d'après toi et d'après l'article, Mandelbrot aurait démontré que la "loi de Mandelbrot" est toujours vérifiée ?

Toujours vérifiée dans un cas précis qui est celui de l'émission de mots dans un langage naturel par un locuteur humain, et sous les deux hypothèses faites par Mandelbrot concernant le coût de stockage des mots et celui de leur utilisation (qui ne relevaient pas de mesures physiologiques, mais tout simplement de la théorie de l'information). Or j'ai vu la loi de Zipf invoquée pour expliquer la distribution de populations des villes d'un pays sans la moindre précaution ni la moindre justification de l'usage d'un tel modèle. Je ne dis pas que par quelque raison qui nous échapperait elle ne serait pas valide, je dis simplement qu'on a tout à fait tort de la considérer comme acquise ou allant de soi dans un cas pareil !

Adapter cette démonstration, pour montrer que la loi de Zipf n'est pas vérifiée dans certains cas, pourrait être raisonnablement faisable. Quoique, effectivement, peut-être plus difficile que ce que j'ai optimistement pensé...

Bon, maintenant j'ai relu l'article, et il semble dire que la loi de Zipf n'est pas vérifiée si précisément que çà dans les textes en langue humaine. Ce qui rend toute cette discussion un peu caduque... FvdP (d) 2 oct 2004 à 00:37 (CEST)

Ce n'est pas grave. "Il est parfois bon d'envoyer quelque part une mine, car la mine produit toujours un peu de lumière", disait je ne sais plus qui dans je ne sais plus lequel des bouquins que j'ai lus cette semaine :oD François-Dominique 2 oct 2004 à 02:03 (CEST)

Ta nouvelle section "Une loi à utiliser avec prudence" me convient effectivement bcp mieux que la version précédente.

Mais donc, si je te suis bien, Mandelbrot n'a prouvé sa loi que sous des conditions particulières "idéales", qui ne s'appliquent pas nécessairement tout-à-fait aux langages réels ?

FvdP (d) 2 oct 2004 à 02:24 (CEST)

Oui, c'est un peu cela. Disons que Zipf a découvert pour les mots une peu un équivalent de la loi de Mariotte en physique (c'est à dire empirique, ne collant pas parfaitement aux faits, mais rendant déjà bien service) , que Mandelbrot a donné l'équivalent d'une loi plus rigoureuse comme celle qui tenait compte par un correctif du volume des molécules de gaz - la comparaison n'est pas gratuite, tu pourras observer que le type de correction est exactement le même ! - et que la réalité a sa propre complexité qui vole un peu au-dessus de ce que nous pouvons en modéliser avec nos moyens actuels. De plus il y a un bruitage intrinsèque : devons-nous considérer deux acceptions distinctes d'un mot comme deux mots différents ? comment distinguer dans les formes fléchies un participe passé d'un adjectif qui lui est synonymes ? Quid des locutions comportant plusieurs mots. Les labs comme celui où je travaillais étaient équipés de filtres dits de désambigüation - barbarisme, je suppose - qui multipliaient par 200 ou 300 les temps de traitement pour gagner quelques % de pouvoir explicatif (à des fins de text mining) mais le rapport cout/qualité montait vraiment très vite. Ce qui m'inquiète le plus, c'est que Mandelbrot lui-même se soit par la suite complètement désintéressé de sa loi, alors qu'apparemment tant de travail restait à faire - ne serait-ce que la fameuse estimation de paramètres à partir des données sur lesquelles personne ne semble d'accord :o( François-Dominique 2 oct 2004 à 06:00 (CEST)

Vulgarisation?[modifier le code]

Bonjour, Je n'ai pas pour habitude d'intervenir sur Wikipédia, mais je souhaitais demander aux contributeurs de cette page s'ils ne pensent pas qu'un petit passage de "vulgarisation" ne serait pas à propos sur ce sujet. En effet, par vulgarisation, j'entends une explication un peu plus abordable par des non-mathématiciens de la loi de Zipf, avec des exemples d'applications concrètes. Je ne suis pas sûre de moi, mais il me semble que c'est sur cette théorie, ou peut-être une de celles qui en découlent, que sont basés les systèmes de compression de fichiers, d'où leur nom, zip, qui évidemment est en lien avec Zipf. Est-ce que je me trompe?

Si oui, vous pouvez ignorer mon message. Sinon, il serait peut-être utile de l'expliquer, de façon claire, et encore une fois abordable, pour que les usagers de Wikipédia qui ne sont pas spécialistes comprennent l'importance de cette loi. Qu'en pensez-vous? --Magzounette (discuter) 11 juin 2014 à 09:03 (CEST)[répondre]

Pas sûr qu'il existe un lien entre ZIP et Zipf (je verrais plutôt un lien avec la fermeture éclair (?)). Pour ce qui est de la compression, cela se passe du côté de Codage de Huffman et LZ77 (ce qui est amusant, c'est que le 'Z' vient de Jacob Ziv). Cela dit, il est aussi question de fréquences de suites de bits... En fait l'idée n'était pas neuve, Samuel Morse avait déjà utilisé des codes courts pour les lettres les plus fréquentes en 1832 (Code Morse). -- Xofc ^{[me contacter]} 11 juin 2014 à 09:46 (CEST)[répondre]

Magzounette (d · c · b) Merci pour ton retour très constructif. Je vais voir ce qu'on peut faire dès que j'ai un peu de temps devant moi. --PAC2 (discuter) 12 juin 2014 à 00:55 (CEST)[répondre]

Liens externes modifiés[modifier le code]

Bonjour aux contributeurs,

Je viens de modifier 1 lien(s) externe(s) sur Loi de Zipf. Prenez le temps de vérifier ma modification. Si vous avez des questions, ou que vous voulez que le bot ignore le lien ou la page complète, lisez cette FaQ pour de plus amples informations. J'ai fait les changements suivants :

L'archive https://web.archive.org/web/20110605032328/http://www.numdam.org/numdam-bin/fitem?id=msh_1973__44__41_0 a été ajoutée à http://www.numdam.org/numdam-bin/fitem?id=msh_1973__44__41_0

SVP, lisez la FaQ pour connaître les erreurs corrigées par le bot.

Cordialement.—InternetArchiveBot (Rapportez une erreur) 26 mars 2018 à 08:00 (CEST)[répondre]