Aller au contenu

Utilisateur:JudyManuzzi/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

Édition numérique : introduction au texte numérique[modifier | modifier le code]

Introduction[modifier | modifier le code]

Marin Dacos, ingénieur de recherche CNRS, est architecte des systèmes d'information. Avec une formation d'historien, il est ce qu'on appelle un « ornithorynque » (terme créé par Pierre Mounier pour désigner les « humanités numériques », car il a une position à cheval entre deux disciplines : les sciences humaines et le numérique.

Il a fondé et il dirige le Centre pour l'Édition Électronique Ouverte (CLEO) depuis 1999, centre pour lequel il a développé quatre plateformes :

Revues.org : une plateforme qui compte 439 revues en ligne.

Openedition Books : une plateforme qui regroupe 3300 livres en Sciences Humaines et Sociales.

Hypotheses : on y trouve environ 1600 blogs (appelés des « carnets de recherche »).

Calenda : un calendrier pour les événements scientifiques (organisations de colloques, séminaires, etc).

Le texte numérique est différent du livre numérique (on ne fait pas du tout le même type d'objets en papier et en numérique). Par ailleurs, il est important de ne pas s'enfermer dans la notion de « livre électronique » qui est seulement l'un des débouchés possibles de l'édition numérique.


On trouve différentes formes de texte numérique :

  • des revues scientifiques
  • la presse en ligne (qui représente une grande partie de l'édition numérique)
  • les e-books (que l'on trouve sur Ibooks, la Fnac, Amazon, Google Play, etc) ou les livres numérisés (sur Google Books)
  • des blogs
  • wikipédia.

Les 7 caractéristiques du texte numérique[modifier | modifier le code]

1.Il est quasiment immatériel : Le texte numérique est immatériel dans le sens ou le poids, au sens physique du terme, ne change pas. Cependant, l'édition numérique a une empreinte écologique énorme. En effet, il y a toujours besoin d'un support et la tuyauterie souterraine qui relie l'ordinateur au texte numérique est énorme. Par ailleurs, les Data Center (centre de données) sont de gros consommateurs d'énergie : ces grands bâtiments dans lesquels sont entreposés des dizaines de milliers de serveurs web travaillent à répondre à des requêtes d'utilisateurs ou d'ordinateurs et consomment beaucoup d'énergie. Les systèmes de refroidissement sont aussi très coûteux.


Enfin, l'environnement de moins en moins « bidouillables », c'est à dire que l'utilisateur lambda a de moins en moins de contrôle sur la machine (seul les concessionnaires habilités peuvent travailler sur l'électronique des machines, avec pièces propriétaires ou pièces soudées, etc). De moins en moins de gens peuvent donc l'utiliser dans toutes ses dimensions et la contrôler.


2.En tant que quasiment immatériel, il est reproductible quasiment sans coût spécifique.

En théorie en effet, le texte numérique peut s'envoyer facilement, se stocker et se transmettre sans que la personne qui l'envoie le perde pour autant. Il est donc reproductible. En revanche, un e-mail stocké a un coût écologique : en effet, plus on stock, plus les machines doivent être puissantes et représentent un coût. Ce coût numérique fait émerger une sorte de concentration sur des plateformes. Par exemple, le site OpenEdition reçoit 64 millions de visites par an, il est nécessaire d'avoir plusieurs machines sinon le service trop lent, les machines répondent difficilement aux requêtes et avoir plusieurs machines est très coûteux. Comme nous l'avons vu précédemment, l'utilisation de plusieurs machines amène à consommer énormément d'énergie.


3.Le texte numérique circule avec un très grande fluidité : tout simplement, il est très facile d'envoyer un livre électronique.


4.Il peut se doter de couches successives mais ce n'est pas toujours visible. Au dessus du texte, il y a les métadonnées (les données sur les données) qui sont le titre, l'auteur, la collection, etc. En dessous du texte, on trouve des annotations individuelles (surlignage comme sur PDF Reader, commentaires publics), un système d'attribution de notes (Amazon, Babelio, Goodreads), de nouvelles plateformes de recommandation sur lesquelles l'information est crowdsourcée.

Or nous sommes dans un univers totalement éclaté : en général, les différents sites ne communiquent pas et ne connaissent pas les notes des autres. Les silos de données ne communiquent pas entre eux.

5.Le texte numérique est hypertextuel : il est liable. C'est une caractéristique relativement nouvelle, conceptualisée dans les années 50 et mise en œuvre par Tim Berners Lee, l'inventeur du web.


6.Il est indexable : le moteur de recherche va pouvoir trouver une occurrence interne au texte. Le robots.txt est très important : c'est un fichier à la racine d'un site qui permet de dire ce que le navigateur a le droit d'indexer ou pas pour que cela puisse être consultable. Par exemple : Le Monde permet à Google d'indexer les images du site, qu'on peut donc retrouver sur Google Image.


7.Enfin, le texte numérique a fait émerger un nouveau modèle économique auquel appartient l'édition électronique : nous sommes entré dans un monde très différent du monde analogique, physique. Le livre analogique, papier est un bien rival, il ne peut pas se démultiplier (si je le donne, je le perds). Il y a là une contradiction : historiquement, le livre (élément rival) propage de la connaissance alors que celle-ci a toujours été non rivale. Donc les biens rivaux constituent une économie de la rareté. Les lecteurs sont en concurrence les uns avec les autres pour trouver un livre. Avec le numérique, on inverse l'équation, on est dans une économie de l'attention, où il y a des milliards de pages sur le web et il y a beaucoup de documents qui cherchent l'attention de potentiels lecteurs : ce qui devient rare ce n'est pas le contenu mais l'attention de lecteur, d'autant plus rare que le lecteur est tout le temps sollicité de toutes parts.

C'est donc quelque chose de non rival dans un support rival qui a construit toute son économie autour de l'objet-livre. Le livre électronique est donc non rival, et toute l'architecture de l'économie du livre se dérobe puisqu'il n'y a plus de véritable raison de construire un modèle économique basé sur les mêmes principes : on recréé alors de la rareté et de la rivalité avec le système de DRM (Digital Rights Management ou – MTP mesure technique de protection, en français).

Les DRM font en sorte que le livre ne soit plus lisible, il faut un intermédiaire qui vérifie si on a les droits et qui donne ou pas accès au contenu : pour que ce verrou ne puisse pas être contourné il faut chiffrer le contenu du livre (cryptage) et il faut un logiciel pour déverrouiller le livre. Avec ce système, il semblerait que la relation de confiance avec l'éditeur soit mise à mal car quand le lecteur achète le livre, il est avant toute chose soupçonné de vouloir le pirater et l'éditeur dépense donc beaucoup d'argent pour rendre le livre illisible. Par ailleurs, la création des DRM concentre le pouvoir sur quelques créateurs.

Le contrôle des contenus[modifier | modifier le code]

Les spécialistes du texte numérique ont cherché des solutions pour mieux contrôler la consultation et l'utilisation des contenus à la fois des livres mais aussi de la presse en ligne et de toutes les autres formes de texte numérique.

  • Le water marking : le livre numérique est légèrement modifié au moment où il est récupéré. Sur la page de garde on trouve ainsi le nom de la personne qui l'a acheté et la date ce qui rend le lecteur responsable de sa diffusion. C'est une mesure de dissuasion.
  • Le système « putaclic » : Une méthode qui consiste à attirer ou intriguer le lecteur sur la base de la lecture rapide d'un titre accrocheur (qui la plupart du temps ne correspond pas au contenu de l'article), le but étant de générer le plus de trafic possible sur le site. Par ailleurs la publicité est omniprésente.
  • Le modèle « médiapart » : il faut également repenser le modèle économique de la presse qui était basé historiquement sur la vente papier, la publicité et les petites annonces. Aujourd'hui sur internet, il y a une profusion de contenus qui cherchent à attirer l'attention du lectorat et qui sont sollicités par d'autres sites de presse. Plus il y a de pub, plus il y a de revenus. Médiapart au contraire défend un modèle d'abonnement payant qui est censé garantir la liberté des journalistes ainsi qu'un contenu de qualité. La publicité est quasiment inexistante. Les sites de presse peuvent aussi mettre en place une sorte de péage avec des abonnés. Si les articles d'un site sont en concurrence avec d'autres articles sur un même sujet, le lecteur va aller chercher l'article sur la presse sans péage. Il n'y a donc pas de garantie qu'on augmente le lectorat payant. Pour contourner ce problème, Médiapart propose des enquêtes inédites payantes qui se démarquent des autres, le site ne se met pas en concurrence avec les autres médiums de presse.
  • Le moving wall : La presse française a aussi émis des solutions intermédiaires incompréhensibles pour les lecteurs (ouverture des articles de façon arbitraire), dans les revues scientifiques. Ainsi est apparue la notion de barrière mobile (moving wall) : si y a un moving wall de deux ans, seuls les abonnés y ont accès pendant deux ans, par la suite, ça s'ouvre pour tout le monde.
  • Le Freemium (solution utilisée par OpenEdition ou le NYTimes) apparu en 2011 aux USA. Le Freemium est la contraction de « free » et « premium », ce sont les utilisateurs premium qui payent pour des extensions de site et qui permettent de garder de bons services gratuits. Plus il y a d'utilisateurs gratuits, plus il y a des chances d'en convertir certains au paiement (5 à 8 %). Le NYTimes est en compétition avec The Guardian et le Washigton Post par exemple : tout est ouvert, ils bénéficient donc d'un maximum de visibilité et donc de publicité. Le NYTimes pose un cookie et si dans le mois, l'utilisateur a lu plus de dix articles, c'est que le lecteur est fidèle au journal et donc le NYTimes ne donnera plus accès aux autres articles avant la fin du mois ou bien le lecteur s'abonne. Ce système maintien un lien de qualité avec l'utilisateur.

Histoire de l'édition électronique[modifier | modifier le code]

L'histoire de l'édition numérique est constituée de trois grandes étapes qui se sont ajoutées les unes aux autres, la nouvelle n'a pas rendu la précédente obsolète, elles se complètent. Ça ressemble à l'histoire des médias, un média ne remplace par l'autre, ils cohabitent.

Partie I : édition et numérisation[modifier | modifier le code]

La première étape dans cette forme d'édition est la numérisation en mode image (comme le fait Gallica) : L'information n'est pas facilement manipulable, on peut changer le contraste ou les couleurs mais il est impossible de faire du copier/coller ou le passer dans un autre environnement (sur un téléphone par exemple).

C'est la Reconnaissance Optique de Caractère (OCR) qui permet de faire un traitement automatique sur les pixels pour les transformer en lettres. On peut d'ailleurs considérer que l'OCR relève de la fouille de données.

La numérisation a commencé en 1949 : un prêtre, Roberto Busa, a voulu numériser les œuvres de St Thomas d'Aquin et il l'a fait grâce à l'Index Thomisticus : il ne s'agissait pas de reproduire exactement l’œuvre mais de pouvoir faire des recherches sur cette œuvre : il s'agit d'un index et pas d'une numérisation page à page.

La numérisation au sens plus traditionnel du terme apparaît en 1971 : Michael Hart a créé le projet Gutenberg à l'université d'Illinois. Il avait accès à un ordinateur qui coûtait très cher, et il en avait un usage limité dans son centre de recherche. Selon lui, la grande valeur d'un ordinateur était sa capacité de stockage et donc la mise à disposition de ce qui était dans le bibliothèques. Il a ainsi commencé à numériser la Déclaration d'Indépendance des États-Unis à la main (donc en fait, il l'a recopiée) : à l'époque il n'y avait que les caractères majuscules disponibles. Ce projet s'est développé et il existe d'ailleurs toujours. Les bénévoles de ce projet ont numérisé environ 50 000 œuvres depuis. C'est aujourd'hui une bibliothèque de versions électroniques libres de livres.

En 1993, le projet ABU – bibliothèque universelle voit le jour : Ce projet est terminé mais le site ainsi que les ouvrages numérisés sont toujours disponibles. En plus d'un certain nombre d’œuvre numérisées, il y a quelques œuvres recopiées à la main.

La même année apparaît « Les classiques des sciences sociales » : un projet canadien regroupant plus de 6 000 œuvres originales en accès libre pour des ouvrages de sciences sociales. Ce site fonctionne aussi sous la forme du bénévolat.

Le plus récent et le plus important est Wikisource qui apparaît en 2003 (le nom vient du fait que dans Wikipedia, on dit qu'il faut toujours sourcer nos informations) qui est en fait un projet émergeant de Wikipédia. Il regroupe environ 200 000 ouvrages.

En 2004, Google lance Google Print qui est devenu Google Books. Le site est en partenariat avec les bibliothèques. Néanmoins, Google a du faire face à de nombreux procès avec auteurs et éditeurs auxquels il n'a pas demandé l'avis préalable pour mettre à disposition les œuvres numérisées, il y a eu des accords avec compensations, etc...

→ Notion de « Opt in » / « Opt out » : L'Opt in est un mécanisme dans lequel j'intègre à mon projet les gens qui ont donné leur accord explicite (la base du droit patrimonial). L'Opt out autorise les auteurs à dire qu'ils ne veulent pas être dans la base de donnée : les ayants-droits peuvent sortir du systèmes mais par défaut, si rien n'est fait, ils sont dedans. En réalité, ce mécanisme est illégal alors les sites ont développé des semblants de concession → Le droit patrimonial nous protège mais il y a quelques exceptions dont le droit de courte citation : on peut exploiter un extrait de petite taille de l’œuvre pourtant protégée. Ce sont les tribunaux qui décident de ce qui est court, en proportion de la taille du texte d'origine. Ce mécanisme est volontairement imprécis pour qu'on puisse s'adapter à la diversité des citations. Ainsi, Google Books numérise tout le livre mais n'affiche que le passage que nous avons cherché sur internet, ce qui rentre dans le principe de courte citation.

Le projet RELIRE à voulu faire pareil en France  : c'est un projet de numérisation porté par le SNE, qui s'appuie sur le problème des œuvres indisponibles (suffisamment anciennes pour qu'elles ne soient plus exploitées (mise au pillon ou autre) mais toujours pas tombées dans le domaine public). En principe, ils n'ont pas le choix, il doivent demander à l'ayant-droit, et le coût de transaction est énorme. Ils ont donc voulu mettre un système d'Opt out : avec l'argent de l'État on numérise dans le fond de la BnF des livres inexploités aujourd'hui mais probablement toujours sous droits. On publie la liste des ouvrages numérisés et on rend ça public : on dit aux auteurs qu'ils ont six mois pour s'opposer à la numérisation de l’œuvre. Le problème c'est qu'en fait ils ne préviennent pas les auteurs de la numérisation de leurs œuvre. Certains ont donc porté plainte (notamment Claude Ponti) et ont gagné.

La notion de coût de transaction est différente du coup d'acquisition : il faut entrer en contact avec l'auteur, lui écrire, rédiger le contrat, en discuter, il y a de nombreux allers-retours jusqu'à l'accord de cession de droit. Parfois c'est très simple par mail mais ce simple processus est appelé coût de transaction. Il ne se mesure pas seulement en chiffres mais aussi en temps (que l'on converti in fine en argent).

Tous ces projets sont gratuits puisque les textes sont tombés dans le domaine public (ils se sont « élevés » dans le domaine public), en dehors de l'Opt Out. Les droits patrimoniaux sont abolis et tout le monde peut se saisir de l’œuvre sans autorisation.

Le droit d'auteur français :

Le droit d'auteur est constitué du droit moral (paternité de l’œuvre : incessible et éternelle) et du droit patrimonial (droit d'exploitation de l’œuvre, payante ou gratuite : cessible et domaine public dès 70 ans après la mort de l'auteur tout en respectant le droit moral).

Dès qu'une œuvre est créé, elle est protégée par le droit d'auteur même si personne n'est au courant de son existence (ce qui est différent du brevet qui protège le projet une fois déclaré seulement). En revanche, la copie de quelque chose n'est pas couverte par le droit d'auteur car l’œuvre n'a rien « d'original ».

Partie II : l'édition nativement numérique[modifier | modifier le code]

La 2e phase dans l'édition numérique est la phase dite nativement numérique : qui ne vient pas du papier mais qui est née dans l'univers numérique. Cette phase a commencé dans les années 70 mais a pris son essor avec les logiciels de PAO il y a une petite trentaine d'années. On parle alors de l'édition nativement numérique en ligne ou qui alimente l'édition papier (les maisons d'édition ont fait du numérique dès la fin des années 70).

L'édition nativement numérique a donc commencé avec la PAO (90's) et s'est poursuivie avec l'apparition des CMS (Content Managing Systems).

Les CMS sont des logiciels de gestion de contenu, qui sont le moteur des sites web (Wordpress par exemple ou encore Mediawiki), qui permettent donc de publier du contenu sur internet. Ils ont de nombreux avantages et fonctionnalités :

→ Les CMS offrent une chaîne de publication qui permet de mettre en ligne des contenus, chaîne de publication qui respecte ce qu'on appelle le workflow (circuit de traitement de l'information).

→ C'est un outil qui permet le plus possible de séparer la forme du contenu.

→ Permet également de structurer l'information (métadonnées et contenus).

→ Ils gèrent aussi une interaction avec le lecteur (il peut ajouter des commentaires, voter, etc).

→ Ils permettent de hiérarchiser les utilisateurs et leurs rôles qui fait qu'on entre dans le système avec un droit particulier ou pas. En général le niveau le plus basic est « personne identifiée » et l'internaute qui n'est pas identifié et qui n'a que le droit de lire. Il y a aussi les administrateurs, etc.

Il existe 2 particularités plus rares : certains CMS permettent à plusieurs individus de travailler en même temps sur le même document. Certains CMS gèrent aussi plusieurs version d'un même document (il va numéroter chaque version ce qui permet de revenir sur différente versions du document).

Les grands principes des CMS :

1.On a une séparation de la forme (layout) et du fond (content)

Le CMS stocke les deux informations séparées et les fusionne pour donner un mélange de la forme et du fond. D'ailleurs, les métiers liés à la forme et au fonds sont différents : c'est l'intégrateur web qui s'occupe de la maquette web. Il produit du code, construit le squelette de l'apparence du site (le graphiste l'imagine et l'intégrateur le traduit en code). Le contenu est pris en charge par quelqu'un d'autre.

La forme peut bouger : souvent les métadonnées ne sont pas rendues publiques et pourtant elles sont très importantes pour les différentes visualisations possibles d'un document. L'internaute voit la version HTML, le générateur de PDF du contenu du site, PDF qui n'a pas du tout la même apparence. Le CSS dédié à l'impression n'a pas du tout la même apparence non plus. Enfin, le CSS sans habillage du tout destiné aux handicapés. Les CMS s'adressent aussi à des machines et vont donc produire des versions qui s'adressent à elles (exemple de LODEL (équivalent wordpress) qui produit des fichiers dédiés à des robots qui ont pour objectifs de moissonner des contenus).

→ Open Edition utilise un protocole de moissonnage (la langue qui permet que le moteur de recherche et le serveur se comprennent) appellé OAI-PMH (open access initiative – protocol for metadata harvesting). Lodel est compatible à l'OAI-PMH, on peut interroger un site qui utilise LODEL via ce protocole.

→ Le dublin core est un format de métadonnées qui permet de décrire les articles, avec tout un tas de métadonnées données aux moteurs de recherche.

→ D'autres protocoles existent pour que les machines puissent communiquer : le protocole BookServer (= OPDS - Open Publication Distribution System) qui a été construit pour permettre de distribuer des catalogues de livres. Il existe de très nombreux protocoles mais petits à petits on essaye de créer des formats uniques, comme le W3C (créé par Tim Berners Lee), qui regroupent des professionnels autour d'une table pour créer de nouveaux formats uniques.

CONCLUSION : un CMS produit un site web et plein d'autres variantes de la forme pour les internautes et les machines. On échange le contenu sans considération de la forme. Les intégrateurs web et les utilisateurs accèdent chacun à leur façon au site pour produire soit la forme soit le contenu. Le tout est disponible d'une certaine façon pour l'internaute et aussi pour les moteurs de recherches, les RSS, etc (les machines).

Pour agir sur la forme, on utilise les CSS (personnalisation graphique) :

Les CSS : Cascading Style Sheet (cascades de fichiers de styles). Quand je suis sur une page HTML j'ai une apparence conduite par le HTML (gras, italique, les niveaux de titres, etc) et le CSS (les éléments d'apparence les plus sophistiqués, la plupart des effets d'apparence d'ailleurs). Le CSS est un habillage de la forme HTML. Aucun élément du contenu ou de la page HTML ne change, mais seulement les couleurs, les positionnements des éléments, leur taille, etc...

EXEMPLE : Le CSSZenGarden : les gens qui ont créé ce site l'ont fait pour démontrer la puissance de personnalisation offerte par le CSS. Avec un même texte, on peut avoir des apparences complètement différentes selon le talent de chaque personne.

2.La notion de Worflow gérée par le CMS

Définition du workflow : circuit de traitement de l'information. Un Worklow est une succession d'états, équivalents aux étapes d'un processus. On passe d'un état à un autre par des transitions. La réalisation des transitions est soumise à des conditions (par exemple les droits utilisateurs), et peut déclencher des tâches et des opérations automatisées. On peut donc considérer un workflow comme la modélisation informatique d'un processus.

EXEMPLE : Open Journal System : CMS de workflow éditorial.

→ "Open Journal Systems" est un système de publication électronique qui reproduit le circuit suivi par une maison d'édition pour réaliser un journal, de la soumission d'un article à la publication dans une revue électronique. Après inscription des auteurs, un article est soumis en indiquant des métadonnées. L'éditeur, alerté de la soumission de l'article, accepte ou rejette la soumission. Si acceptation, il choisit des relecteurs qui vont évaluer le document et demander ou non des corrections aux auteurs (plusieurs cycles de corrections possibles). Une fois le contenu de l'article accepté, l'éditeur passe l'article dans la phase finale de l'édition : relecture, mise en page et parution en ligne.

Dans l'édition nativement numérique il y a aussi les SSP (single source publishing), des processus qui permettent d'avoir un seul fichier sur lequel on va travailler pour produire plein de sorties différentes (déjà un peu le cas avec le CMS). Il s'agit d'un format pivot : édition avec une seule source. L'éditeur doit faire une édition papier mais aussi des variantes papier (digest, texte court), des catalogues, de la communication. Mais il a aussi besoin de interopérabilité pour le référencement et les formats numériques (ONIX, WEB, ePub, PDF...). On réutilise les fichiers à plein de fins différentes → Le SSP veut résoudre ce problème en produisant une seule source qui englobe tout ça.

Le système d'information d'OpenEdition

A l'intérieur du modèle SSP (une source pour plusieurs utilisations), il y a le système d'information : un système qui regroupe l'ensemble des informations dont une organisation dispose.

→ On peut partir de l'expérience utilisateur au bout de la chaîne (les interfaces de consultation publiques et professionnelles), c'est à dire le produit fini : il y a des interfaces publiques web qui sont les portes d'entrée que le lecteur a sur le site (Ppen Books, Hypotheses, Calenda, Revues.org). Il y a aussi le générateur de PDF et ePub qui fait partie de l'expérience utilisateur (payants sur OpenEdition).

→ Ces produits finis sont gérés par des interfaces d'édition et d'ajouts de contenus non publics : dont les quatres modules d'édition privée de OpenEdition (Books, Hypotheses, Calenda, Revues.org). Ces 4 interfaces remplissent le système central qui est l'application partagée : l'information des 3000 bases présentes dans ces 4 interfaces sont écrasées dans une seule base de données, CORE, dans un but d'optimisation. Donc les modifications qui se font sur hypothèses, doivent pouvoir se faire sur CORE (information redondante) pour mettre à jour le moteur de recherche pour l'internaute et donc sur l'interface d'édition. Le tout doit se faire en même temps.

Il y a aussi les sorties TEI pour d'autres usages et partenaires. OpenEdition produit de l'OPDS, de l'OAI PMH, des fichiers ONIX... en plus d'autres services de résolution de noms (retrouver la notice d'un livre grâce à son ISBN), d'alertes, etc... On retrouve également les interfaces de vente aux bibliothèques et aux librairies (les données commerciales sont aussi stockées dans CORE).

La difficulté du système d'information est qu'on peut sous-estimer l'impact d'une modification à un endroit et des conséquences partout ailleurs : par exemple lorsqu'on veut modifier quelque chose sur l'interface de consultation hypothèses alors que l'information se trouve sur l'interface d'édition.

L'édition mobile fait aussi partie de l'édition nativement numérique. L'édition numérique peut être un débouché du SSP (un document provenant d'une source unique), d'un CMS (du style wordpress), mais bien souvent, c'est produit à la main (et enregistrer sous le format ePub). Créer un livre-application aussi c'est de l'édition mobile.

Le format PDF ≠ Le format ePub

Le PDF est très inadapté au format mobile. L'ePub est un format ouvert (toute sa documentation est disponible), proche du web (une sorte de site web zippé qu'on aurait rendu téléchargeable) mais aussi détachable (pour être téléchargé et enregistré sur le disque dur). L'ePub est aussi recomposable, il est donc l'antithèse du PDF : si on rétrécit l'écran, on est pas obligé de zoomer et de déplacer le curseur, le texte s'adapte, il est multisupport.

Les éditeurs étaient un peu contre ce format au départ car qui dit recomposable dit sans réelle mise en page et sans composition puisqu'on laisse au terminal le soin de recomposer les pages (Responsive design), comme pour les sites web. Cependant, l'optimisation de l'ePub (faire des petites nuances), est une mauvaise idée. Les formats et les logiciels différents sur les tablettes. Si on optimise le rendu sur un terminal, il ne le sera pas sur le reste des supports mais surtout il ne sera pas valable dans le futur.

C'est l'organisme de l'IDPF qui produit les formats ePub 2 et ePub 3 (il vient de rejoindre le W3C): il y a par ailleurs assez peu de concurrence sur ce type de produit. L'essentiel de l'industrie tourne en ePub2 mais le ePub3 est connu depuis plusieurs années (polices embarquées, métadonnées multilingues, écriture verticale, feuillage inversé pour l'arabe par exemple, etc).

Partie III : L'édition nativement en ligne[modifier | modifier le code]

Cours du 23 janvier 2017.

Définitions[modifier | modifier le code]

Crowdfunding : il s'agit de l'idée de faire appel à un certain nombre d'utilisateur pour financer un projet.

Crowdsourcing : Alimentation en données par la foule, on donne des données à chaque chose que l'on fait sur internet sur le même principe que le crowdfunding.

Spamdexing : truquer les résultats des moteurs de recherche.

L'adresse IP et les cookies : dans un lieu, plusieurs personnes peuvent potentiellement avoir la même IP. Les IP sont délivrées par les fournisseurs d'accès internet mais bien souvent ils font passer la connexion via un proxy (le proxy AMU pour nous par exemple) ce qui permet de ne pas demander la page plusieurs fois si plusieurs personnes se connectent en même temps. C'est donc l'IP du proxy qui est visible. Une IP est donc rarement nominative.

Amazon peut avoir envie d'en savoir plus sur un utilisateur : il créé donc un fichier qui s'appelle cookie, stocké sur le disque dur, qui permet d'apprendre des choses sur l'utilisateur en créant son propre identifiant, et pourra donc vérifier que c'est toujours la même personne même sous différentes IP.

Lightbeam : module d’extension firefox pour la gestion des cookies.

Internet et le web : faire la différence Le web est un petit bout d'internet. Dans les année 70, les chercheurs avaient besoin d'échanger des données entre eux. Ils ont voulu interconnecter leurs ordinateurs et ont inventé l'ARPANET et d'autres gens ont inventé d'autres réseaux du même genre. Par la suite, dans les années 80, il ont voulu relier tous ces réseaux et ont donc créé INTERNET. On utilisait au départ une technologie appelée TCP/IP : une transmission d'un paquet de données. Les fichiers sont découpés en paquets donc au lieu d'envoyer un fichier entier, on envoie des petits paquets, qui vont se balader sur le réseau pour arriver enfin au destinataire à travers des routeurs. Le mail arrive quand tous les petits paquets sont arrivés et remis en ordre. Si un point du réseau lâche, les paquets passent par d'autres routeurs, ce qui rend la destruction du réseau très compliquée. Ensuite on a créé le DNS (Domain Name System) qui gère la conversion entre les noms de domaines (les adresses) et les IP. Il y a une latence DNS de 24 à 48h. Il faut absolument des serveurs DNS de proximité, il y en a 12 dits « matrices » et il y a des milliers qui copient ce qu'il y a dans les matrices, les informations qui circulent entre les serveurs DNS peuvent mettre un certain temps jusqu'à se copier sur tous les serveurs. La dernière couche, c'est le WEB (triptyque protocole http/navigateur/html). C'est donc une toute petite partie de l'usage internet, qui est la navigation sur les sites. Par exemple Outlook n'est pas un navigateur web. Dans les pays où internet peut être coupé, les serveurs DNS sont coupés (pas les TCP/IP), ou bien les sites sont redirigés par le site du ministère ou du gouvernement. En théorie, 10% du web change ou disparaît chaque mois.

Les URLs : Les URL se lisent de droite à gauche, puis de gauche à droite : www.marsactu.fr/gaudin.html La mention « .fr » prouve que le site est validé par l'État français, donc à gauche de .fr c'est l'État français qui reconnaît Marsactu (Marsactu a donc demandé à l'État l'autorisation de s’appeler comme ça) et ce dernier a acheté un « domaine » ou plutôt loué le domaine (si il oublie de renouveler, il perd le domaine et quelqu'un d'autre peut l'acheter). Le domaine devient la marque visible du site. Marsactu a le droit de nommer tout ce qui est à sa gauche, « blog » est un sous-domaine. Donc tout ce qui est avant est autorisé par le site lui-même et pas par l'État ! Attention donc. Exemple : blog.marsactu.fr/gaudin...

E-book : fichier e-pub (plus robustes que les livres-applications, adaptable, différentiation entre contenu et forme) ou livre-applications (sont faits pour les tablettes et téléphones, il dépend d'un univers particulier, il faut une version pour Android et une pour Iphone par exemple, et le livre application ne va pas être indexable et le logiciel ne tiendra pas sur les ordinateurs futurs). On ne peut pas faire de la fouille de texte.


La fouille de texte : parcourir et indexé des contenus et fournir de nouveaux services. Créer des liens vers des références externes : exemple de « OpenEdition Lab » où on a développé un robot qui va essayer de retrouver la structure d'une référence bibliographique (auteur, date, etc) et va demander à CrossRef si ils n'ont pas une référence électronique de l'article en question. Ainsi l'article sera directement accessible par un lien cliquable (pas l'adresse URL qui peut éventuellement changer mais un lien DOI (Digital Object Identifier) envoyé par CrossRef qui lui ne change pas).

Log : journal historique, fichier qui stock toutes les interactions entre le serveur et le reste du monde.