Discussion utilisateur:Jean-Luc W/CompteVisites

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.

Modèle de détermination du nombre d'articles satisfaisants[modifier le code]

Une approche quantitative intéresse plusieurs contributeurs, comme Alter005, Benjamin Pineau, Aliesin, Ambigraphe, Serein ou Apollon.

Une telle approche permet de répondre à plusieurs questions. Que faire pour améliorer certains articles ? Où se dirige WP ? etc... A ces différentes questions, se greffent des approches différentes. Aliesin propose une modélisation qui ressemble un peu au modèle logistique, Benjamin remarque que le terrain n'est pas vierge et que des études existent sur la question. Serein pose des questions plus qualitatives, Apollon privilégie une analyse sur les contributeurs et est suivi en cela par Ambigraphe.

De nombreuses pistes différentes sont suggérées pour répondre à la question d'une évaluation pertinente d'un article et à son évolution au court du temps. L'objectif de cette page est le rassemblement des différentes idées pour tenter d'aller un peu plus loin.

Aliesin considère un modèle subissant essentiellement deux lois. Un première explicite le nombre d'articles devenant satisfaisant par mois, il est supposé posséder une dérivée constante, l'accroissement est un paramètre fixé initialement à 40 par mois. La deuxième loi décrit l'érosion des articles, elle est régit par une loi géométrique, de nature différente de l'accroissement. Une telle loi ressemble à celle décrivant l'espérance de vie d'une particule. Le deuxième paramètre est la probabilité de dégradation sur un mois d'un article satisfaisant, fixé à 1/180. Aliesin fait alors, à mon avis une petite erreur de logique. Son modèle signifie qu'en 10 ans un article à une chance sur 2 d'être dégradé et en 15 ans une chance sur 2,7.

Il calcule alors l'asymptote et en déduis une stabilisation aux alentours de 7.000 articles.

Critiques du modèle[modifier le code]

  • Qu'est ce qu'un article satisfaisant ? Selon les interrogations du lecteur, l'article est susceptible d'être considéré comme satisfaisant par un visiteur et non satisfaisant par un autre.
  • Comment mesurer l'érosion ? De manière plus générale, comment étalonner le modèle ?
  • WP apparaît comme hétérogène, le secteur mathématique suit des lois qui lui sont probablement propres. N'en est-il pas de même avec des articles généralistes comme Paris, Tolérance, Culture, les articles économiques ou encore ceux sur les jeux vidéo ?
  • Le modèle fait apparaître des constantes de temps supérieures à 10 ans. Est-il raisonnable de projeter une loi sur une période aussi longue ?
  • La conception d'article satisfaisant semble faire implicitement référence au mode de production d'articles labélisés (« L'idée centrale est qu'un article devient satisfaisant du jour au lendemain sous l'impulsion d'un wikipédien »). Si la masse de travail sur l'ensemble des articles ne cesse de s'accumuler, le travail moyen à fournir pour promouvoir un article de son état « normal » à celui de « satisfaisant » devrait aller décroissant avec le temps. Je pense à la Wikipédia en langue anglaise, qui contient déjà énormément d'article très développés mais non labelisés.
  • La notion d'article satisfaisant est bien entendu toute relative, et elle-même varie avec le temps (ne serait-ce qu'à considérer l'évolution des critères et votes AdQ). Plus les attentes s'intensifieront, plus les exigences seront rigoureuses. Ça explique peut-être la faible croissance du nombre d'articles labélisés (et donc l'idée d'un taux constant de 40 articles / mois dans le modèle).

Benjamin Pineau[modifier le code]

Nous ne sommes pas les premiers à s'interroger sur cette question. Google a développé des outils comme Google Trends ou Google Rank. De plus, des analyses sur cette questions, comme le projet Autograph ou encore Wikipedia in academic studies sont disponibles. Pourquoi ne pas utiliser les outils et analyses existantes ?

Au lieu de prendre comme premier objet d'analyse l'article, il est possible de choisir pour pierre angulaire du modèle la contribution. La logique repose ici encore sur deux paramètres clé. Le premier indique le travail nécessaire pour le maintien de l'encyclopédie, le deuxième la force contributrice de la communauté. La force contributrice soustraite au travail d'entretien correspond à l'amélioration.

Ce modèle suppose que les contributeurs réalisent toujours en priorité l'entretien. Le modèle est ensuite affiné pour tenir compte d'un monde où l'entretien n'est pas nécessairement la priorité. Il suppose alors le calcul de trois paramètres de calage.

Critiques du modèle[modifier le code]

  • Les critiques de l'approche d'Aliesin s'appliquent aussi à un modèle par contribution.
  • Il est possible sans ajouter une complexité ingérable pour WP d'affiner les lois décrivant la contribution. On peut par exemple utiliser le modèle suivant.

Jean-Luc W[modifier le code]

Si la question posée comporte trop de difficulté, alors autant restreindre dans un premier temps nos prétentions. Le premier objectif devient la détermination d'une mesure pas trop stupide de la satisfaction des visiteurs. Cette mesure devrait posséder les qualités suivantes : être quantitative pour alimenter un modèle, relativement simple à mesurer pour permettre une étude statistique et prédictive. Dans un premier temps, le taux de satisfaction est une mesure statique, à une date donnée.

Ensuite, certaines lois d'évolution doivent être modélisées. Ces lois sont encore quantitatives et dépendent de critères mesurables. Le modèle est appliqué sur la période de temps février 2008 à septembre 2008 et permet d'évaluer la pertinence du modèle. Si ces prédictions s'avèrent exactes, il peut être considérer comme explicatif.

Le modèle est limité dans un premier à une petite portion de WP où le comportement est supposé relativement homogène. Son objectif est de mieux comprendre l'évolution de WP sur une période courte et détermine les types de contribution les plus utiles.

Les balbutiements du modèle se trouvent sur la page Fréquentation et mathématiques.

Critiques du modèle[modifier le code]

  • Il correspond encore essentiellement à un vœu pieux. La mesure de satisfaction proposée manque encore de pertinence. Les lois d'évolution restent un mystère.
  • Il est beaucoup plus modeste que les approches génériques précédentes. Il ne couvre ni l'intégralité de WP ni de longues périodes de temps.
  • Il demande beaucoup de travail. Valider une loi d'évolution suppose un traitement statistique lourd.
  • Il se fonde essentiellement sur les stat WP alors que d'autres sources d'information sont disponibles.

Suggestions[modifier le code]

Des approches différentes sont proposées. Elles ont toutes des forces et des faiblesses. Des contributeurs d'horizon différents peuvent apporter des idées variées, des modélisateurs comme Ambigraphe ou moi-même peuvent construire des modèles simulant des idées qualitatives. Ensemble, l'exercice devient plus amusant.

Jean-Luc W[modifier le code]

Pour tester l'approche par les contributions. J'aurai besoin de contributeurs m'indiquant là où ils ont contribué, l'objectif qu'ils avaient avec ce type de contributions et quels articles ils connaissent ayant l'objectif atteint et ceux ne l'ayant pas.

Le plus sympathique à mon gout sont des petits groupes d'articles sur des sujets très connexes avec des articles possédant le plus proposé, ne le possédant pas et si possible des articles qui passent d'un état à un autre dans une période allant de février 2008 à décembre 2008 (les articles qui vont évoluer sont très intéressant).

En résumé, j'ai besoin d'une idée qualitative d'amélioration d'articles, et un lot d'articles ayant l'idée un autre ne l'ayant pas et si possible certains passant d'un état à un autre. Ensuite, les modélisateurs feront joujou. Jean-Luc W (d) 11 septembre 2008 à 10:23 (CEST)[répondre]

Fabienkhan[modifier le code]

Je ne sais pas si ça pourra aider à vos réflexions, mais j'étais en train de lire ça quand j'ai repensé à vos échanges. فاب - so‘hbət - 11 septembre 2008 à 12:38 (CEST) (recopié par jl)[répondre]

Bonjour, Oui cet exemple de Wikipedia studies est très intéressant.
  • D'abord, parce qu'il suggère l'existence d'une abondante production d'analyses et de travaux dans le monde entier (cf. la bibliographie comprenant 12 articles traitant explicitement de WP). Les travaux que tente de collectiviser Jena-Luc sont donc loins d'être isolés.
  • aussi parce qu'il montre bien que dans les dix pays étudiés, la production est très concentrée dans ue faible partie des users. Il s'agit d'un montant bien supérieur à celui des contributeurs > 100 edits que l'on trouve dans les stats. Le problème est de passer du GINI aux % cumulés d'auteurs concernés. Voilà une autre direction de recherche plus concrète donc.
  • enfin parce qu'il montre qu'il y a une foule d'indicateurs de la qualité de la production de WP. Par exemple, "We also find previous research works, for example [14], [15], [16] and [17], analysing the quality of contents in Wikipedia’s articles. Wilkinson et al. further characterize in [18] the collaborative creation of contents undertaken by the Wikipedia community of users. In addition to that, [19], [20], [21] and [22] present methodologies and tools to analyse Wikipedia’s content semantics"
    "the authors analyze the quality of contributions using the percentage of aggregated contents that remain in later revisions of a certain article, much in the same way as the Aaron Swartz study cited above."
    "two main groups of contributors are responsible for most of the high quality contributions. On one side, what they identify as high quality contents come from zealots, registered users with a high interest in obtaining reputation, and with a high level of participation. On the other side, we have the good Samaritans, anonymous users sporadically contributing to the Wikipedia. The authors show that there is a strong correlation between the quality of contributed contents and the level of contributions made by individual authors. Regarding zealots, the greater the number of contributions per user is, the better the quality of the content is. If we turn to good Samaritans, high quality contributions come from users with fewer contributions, and that quality decreases as the number of contributions per user raises."
Voir spécialement 14] B. Stvilia, M. Twidale, L. Gasser, and L. Smith, “Information quality discussions in wikipedia,” UIUCLIS, Technical Report ISRN 2005/2+CSCW, 2005. [Online]. Available: http://mailer.fsu.edu/˜ bstvilia/papers/qualWiki.pdf
[15] ——, “Information quality in a community-based encyclopedia,” in Knowledge Management: Nurturing Culture, Innovation, and Technology - Proceedings of the 2005 International Conference on Knowledge Management, S. Hawamdeh, Ed., Charlotte, NC: World Scientific Publishing Company, 2005, pp. 101–113.
[16] B. Stvilia, M. Twidale, L. Smith, and L. Gasser, “Assessing information quality of a community-based encyclopedia,” in Proceedings of the International Conference on Information Quality - ICIQ 2005, Cambridge, MA, USA, 2005, pp. 442–454.
Ce n'est qu'un début, évidemment. Mais voilà de quoi satisfaire nos appétits de modélisateurs. - Alter005 [ --> discuter] 13 septembre 2008 à 17:41 (CEST)[répondre]