Lien mort

Un article de Wikipédia, l'encyclopédie libre.
Erreur HTTP 404 sur le site de la Maison-Blanche en 2009.

Un lien mort, lien brisé, lien cassé ou lien rompu est un lien hypertexte qui redirige vers un site web ou une page web n'existant plus. À l'échelle du Web, le phénomène correspond au pourrissement des liens, connu en anglais sous le nom de link rot.

Causes[modifier | modifier le code]

Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable. D'autres codes de retour sont possibles aussi, la page peut avoir été déplacée ou renommée sur le serveur, ou le serveur lui-même avoir été déplacé ou renommé[1].

Les autres raisons qui font qu'un lien est cassé incluent :

  • La restructuration d'un site internet qui entraîne un changement d'URL (par exemple domain.net/pine_tree peut devenir domain.net/tree/pine).
  • La relocalisation d'un contenu autrefois gratuit derrière un paywall.
  • Un changement dans l'architecture du serveur qui engendre un code tel que PHP ne fonctionne pas.
  • Le changement du design de contenus dynamiques d'une page, comme les résultats de recherche.
  • La présence dans le lien URL d'une information spécifique à un utilisateur (comme le nom de connexion).
  • Un blocage intentionnel via des filtres de contenus ou des pare-feux.
  • La suppression des gTLD (generic top-level domain, ou domaine générique de premier niveau en français)[2].

Prévalence[modifier | modifier le code]

Plusieurs études ont examiné la prévalence de liens rompus sur le Web, parmi la littérature académique et les bibliothèques numériques[3],[4]. En 2003, l'expérience faite par Fetterly et al.[5] découvrit que chaque semaine environ un lien sur 200 cessait d'être valide. Nelson et Allen (2002)[6] examinèrent le pourrissement des liens dans les bibliothèques numériques et trouvèrent que 3 % d'objets ne furent plus accessibles après une année.

En 2004, une autre étude a montré que les sous-ensembles de liens internet (qui cible des types de fichiers spécifiques ou qui sont hébergés par des institutions académiques) pourrait avoir des vies effectives radicalement différentes[7]. Les URL de publications paraissent avoir une longévité plus longue sur Internet que les autres URL. Une étude de 2015 menée par Weblock a analysé plus de 180 000 liens de ressources dans le corpus de trois principaux éditeurs en libre accès, et a conclu a une durée de vie moyenne de 14 ans, confirmant une étude de 2005 qui concluait que la moitié des URL trouvées dans les articles du Magazine D-Lib étaient encore actives 10 ans après leur publication[8],[9]. D'autres études ont trouvé un taux de liens pourris plus élevé dans la littérature académique, mais montrent une espérance de vie d'au moins quatre ans[10],[11] Une étude de la BMC Bioinformatics a analysé près de 15 000 liens dans les résumés de citations indexées de Thomson Reuteur Web of Science, et a conclu que la durée de vie médiane d'une page internet était de 9,3 années, et que seulement 62% des pages étaient archivées[12].

Une étude menée en 2016-2017 sur les liens Yahoo! Directory (l'annuaire de Yahoo! qui a arrêté d'être mis à jour en 2014, après 21 ans de développement), a conclu que la durée de vie effective des liens était de deux ans[13].

Prévention et détection[modifier | modifier le code]

Les stratégies pour prévenir des liens pourris peuvent se concentrer sur où situer le contenu afin que la probabilité qu'il y demeure est la plus élevée, ainsi qu'utiliser des liens d'autorité qui ont moins de probabilité d'être cassé, ou encore réparer les liens dont la cible a été supprimée ou relogée.

La création d'URLs qui ne changeront pas avec le temps est la méthode fondamentale afin de se prévenir de liens pourris. Tim Berners-Lee et d'autres pionniers d'Internet sont les champions de la planification préventive[14].

Les stratégies relatives à l'autorité des liens incluent :

  • Faire des liens vers des sources primaires plutôt que secondaires, et prioriser les sites stables.
  • Eviter les liens qui pointent vers des ressources sur les pages personnelles des chercheurs[9].
  • Utiliser des URL propres, sinon avoir recours à des URL normalisées ou des URL canoniques[15].
  • Avoir recours à des liens permanents (permalink) et identificateurs persistants du type ARK, DOI, les références Handle System, et les PURL.
  • Eviter les liens vers les documents autres que des pages web[15].
  • Eviter les liens profonds.
  • Faire des liens vers des sites Internet d'archives[16] comme Internet Archives, WebCite, Archive.is, Perma.cc, ou Amber[17],[18],[19],[20],[21].

Les stratégies relevant de la protection de liens existants incluent :

  • L'usage de mécanisme de liaison du type HTTP 301, pour renvoyer les navigateurs et les crawlers vers le contenu déplacé.
  • L'usage de systèmes de management de contenu qui peuvent automatiquement mettre à jour les liens lorsque le contenu du même site est déplacé, ou automatiquement remplacer les liens vers une URL canonique.
  • Intégrer des ressources de recherche dans les pages HTTP 404[22].

La détection de liens cassés peut être faite manuellement ou automatiquement. Les méthodes automatiques incluent des plug-ins pour systèmes de management, ainsi que des vérificateurs autonomes de liens cassés, tel que Xenu's Link Sleuth. La vérification automatique peut ne pas détecter des liens qui renvoie vers du 404, ou des liens qui retourne une réponse 202 OK mais pointent vers du contenu qui a changé[23].

Références[modifier | modifier le code]

  1. (en) P. Habibzadeh, « Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals », Applied Clinical Informatics, vol. 4, no 4,‎ (DOI 10.4338/aci-2013-07-ra-0055, lire en ligne, consulté le )
  2. « The death of a TLD » [archive du ], sur blog.benjojo.co.uk (consulté le )
  3. P. Habibzadeh, « Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals », Applied Clinical Informatics, vol. 4, no 4,‎ , p. 455–464 (PMID 24454575, PMCID 3885908, DOI 10.4338/aci-2013-07-ra-0055)
  4. « Hiberlink » [archive du ], Hiberlink.org (consulté le )
  5. (en) Dennis Fetterly, Mark Manasse, Marc Najork et Janet Wiener, « A large-scale study of the evolution of web pages », WWW '03 Proceedings of the 12th international conference on World Wide Web,‎ , p. 669-678 (ISBN 1-58113-680-3, DOI 10.1145/775152.775246, lire en ligne)
  6. (en) Michael L. Nelson et B. Danette Allen, « Object Persistence and Availability in Digital Libraries », D-Lib Magazine, vol. 8, no 1,‎ (DOI 10.1045/january2002-nelson)
  7. Wallace Koehler, « A longitudinal study of web pages continued: a consideration of document persistence », Information Research, vol. 9, no 2,‎ (lire en ligne [archive du ], consulté le )
  8. « All-Time Weblock Report » [archive du ], (consulté le )
  9. a et b Frank McCown, Sheffan Chan, Michael L. Nelson et Johan Bollen « The Availability and Persistence of Web References in D-Lib Magazine » () (lire en ligne, consulté le ) [archive du ]
    « (ibid.) », dans Proceedings of the 5th International Web Archiving Workshop and Digital Preservation (IWAW'05)
  10. Diomidis Spinellis, « The Decay and Failures of Web References », Communications of the ACM, vol. 46, no 1,‎ , p. 71–77 (DOI 10.1145/602421.602422, CiteSeerx 10.1.1.12.9599, lire en ligne)
  11. Steve Lawrence, David M. Pennock, Gary William Flake, Robert Krovetz, Frans M. Coetzee, Eric Glover, Finn Arup Nielsen, Andries Kruger et C. Lee Giles, « Persistence of Web References in Scientific Research », Computer, vol. 34, no 2,‎ , p. 26–31 (DOI 10.1109/2.901164, CiteSeerx 10.1.1.97.9695)
  12. Jason Hennessey et Steven Xijin Ge, « A Cross Disciplinary Study of Link Decay and the Effectiveness of Mitigation Techniques », BMC Bioinformatics, vol. 14,‎ , S5 (PMID 24266891, PMCID 3851533, DOI 10.1186/1471-2105-14-S14-S5)
  13. Hans van der Graaf, « The half-life of a link is two year » [archive du ], sur ZOMDir's blog (consulté le )
  14. Tim Berners-Lee, « Cool URIs Don't Change » [archive du ], (consulté le )
  15. a et b Leighton Walter Kille, « The Growing Problem of Internet "Link Rot" and Best Practices for Media and Online Publishers » [archive du ], Journalist's Resource, Harvard Kennedy School, (consulté le )
  16. Les systèmes de conservation peuvent rencontrer des interruptions de leur service, rendant donc les URL temporairement indisponibles.
  17. Parham Habibzadeh, « Are current archiving systems reliable enough? », International Urogynecology Journal, vol. 26, no 10,‎ , p. 1553 (ISSN 0937-3462, PMID 26224384, DOI 10.1007/s00192-015-2805-7)
  18. « Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine » [archive du ], (consulté le )
  19. Gunther Eysenbach et Mathieu Trudel, « Going, going, still there: Using the WebCite service to permanently archive cited web pages », Journal of Medical Internet Research, vol. 7, no 5,‎ , e60 (PMID 16403724, PMCID 1550686, DOI 10.2196/jmir.7.5.e60)
  20. Jonathan Zittrain, Kendra Albert et Lawrence Lessig, « Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations », Legal Information Management, vol. 14, no 2,‎ , p. 88–99 (DOI 10.1017/S1472669614000255, lire en ligne)
  21. « Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center » [archive du ], sur cyber.law.harvard.edu (consulté le )
  22. John Mueller, « FYI on Google Toolbar's Latest Features » [archive du ], Google Webmaster Central Blog, (consulté le )
  23. Ziv Bar-Yossef, Andrei Z. Broder, Ravi Kumar et Andrew Tomkins « Sic transit gloria telae: towards an understanding of the Web's decay » () (DOI 10.1145/988672.988716, CiteSeerx 10.1.1.1.9406)
    « (ibid.) », dans Proceedings of the 13th international conference on World Wide Web – WWW '04 (ISBN 978-1581138443), p. 328–337

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :

Articles connexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

  • (en) John Markwell et David W. Brooks, « Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks », Journal of Science Education and Technology, vol. 11, no 2,‎ , p. 105-108 (DOI 10.1023/A:1014627511641)
  • (en) Daniel Gomes et Mário J. Silva « Modelling Information Persistence on the Web » () (lire en ligne)
    ICWE'06
  • (en) Robert P. Dellavalle, Eric J. Hester, Lauren F. Heilig, Amanda L. Drake, Jeff W. Kuntzman, Marla Graber et Lisa M. Schilling, « Going, Going, Gone: Lost Internet References », Science, vol. 302,‎ , p. 787–788 (PMID 14593153, DOI 10.1126/science.1088234, lire en ligne)
  • (en) Wallace Koehler, « An Analysis of Web Page and Web Site Constancy and Permanence », Journal of the American Society for Information Science, vol. 50, no 2,‎ , p. 162–180 (DOI 10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B)
  • (en) Carmine Sellitto, « The impact of impermanent Web-located citations: A study of 123 scholarly conference publications », Journal of the American Society for Information Science and Technology, vol. 56, no 7,‎ , p. 695–703 (DOI 10.1002/asi.20159, lire en ligne)