Utilisateur:PManon/Brouillon

Cette page est un brouillon appartenant à PManon

Conseils de rédaction

→ N'hésitez pas à publier sur le brouillon un texte inachevé et à le modifier autant que vous le souhaitez.
→ Pour enregistrer vos modifications au brouillon, il est nécessaire de cliquer sur le bouton bleu : « Publier les modifications ». Il n'y a pas d'enregistrement automatique.

Si votre but est de publier un nouvel article, votre brouillon doit respecter les points suivants :

Respectez le droit d'auteur en créant un texte spécialement pour Wikipédia en français (pas de copier-coller venu d'ailleurs).
Indiquez les éléments démontrant la notoriété du sujet (aide).
Liez chaque fait présenté à une source de qualité (quelles sources – comment les insérer).
Utilisez un ton neutre, qui ne soit ni orienté ni publicitaire (aide).
Veillez également à structurer votre article, de manière à ce qu'il soit conforme aux autres pages de l'encyclopédie (structurer – mettre en page).

→ Si ces points sont respectés, pour transformer votre brouillon en article, utilisez le bouton « publier le brouillon » en haut à droite. Votre brouillon sera alors transféré dans l'espace encyclopédique.

INTRODUCTION

MARIN DACOS : architecte des services d'information. Ornythorinque (appelation donnée par Pierre MOUNIER) travail dans les humanités numériques : à cheval entre sciences humaines et numériques. Directeur du centre pour l'édition électronique ouverte (CLEO). Projet crée en 1999. Centre qui développe quatre grandes plateformes : revue.org (revues en ligne) ; OpenEdition Books ; Hypotheses (plateforme de blogs) ; Calenda (publie événements, appels à contribution...). Equipe de 50 personnes avec une douzaine de métiers différents.

DESCRIPTION ET HISTOIRE DE L'EDTION ELECTRONIQUE

Terme de livre électronique peu propice car présupposé que le livre papier et livre numérique sont la même chose : enferme la pensée, réducteur.

Texte numérique : Types d'objets : presse en ligne, ebooks (livres numériques et livres numérisés), wikipedia, blogs, revues scientifiques. Le texte numérique a plusieurs caractéristiques :

Le texte numérique est quasiment immatériel.

Quasiment car l'empreinte écologique est énorme. Il demande un support donc le matériel est nécessaire. Notion du Data center (grands bâtiments dans lesquels sont entreposés des milliers de serveurs) : très couteux et consomme énormément. Environnements sont de moins en moins bidouillables (produits qu'on peut difficilement modifier nous-mêmes).

Il circule avec une très grande fluidité.

Le coût du texte numérique.

En tant que quasiment immatériel, il est reproductible quasiment sans coût spécifique. Quasiment car coût de la possession numérique et donc de la reproduction. Serveur doit pouvoir répondre à la demande ce qui a un coût. Avec l'édition numérique se crée un système de plateforme : dès que la fréquentation augmente, besoin de se concentrer.

Texte numérique peut se doter de couches successives

Les métadonnées (données sur les données : titres, auteur, ISBN... voire couverture, table des matières...) ; annotations individuelles (comme le surlignage : surcouche que l'on ajoute sur le fichier mais aussi comme des commentaires sur blogs etc, qu'ils soient publics ou semi-publics, comme une notation plus ou moins sophistiquée que ce soit sur Amazon ou sur des plateformes comme Babelio ou Library thing : *crowdsourcing = alimentation en données par la foule* donc serveurs récupèrent des informations crowdsourcées qui augmentent leur propriété).

Texte hyper textuel.

Capacité mise en oeuvre par Tim Berners-Lee (=inventeur du web).

Dans les années 1970, les physiciens avaient besoin d'échanger le courrier entre eux : ont inventé Arpanet (entre autres), qui était un réseau reliant des ordinateurs. Puis on a crée Internet, le réseau de tous les réseaux qui les relie tous.

1ere couche : TCP/IP : transmission de paquets de données : un seul fichier c'est laborieux à envoyer donc il faut découper le fichier en petits paquets qui se baladent sur le réseau. Routeurs amènent les données vers différents points. Donc paquets utilisent plusieurs routes.

2e couche : DNS : gère la conversation entre des noms de domaines et des IP (serveur transmet l'adresse IP à la machine grâce au nom qu'on lui donne). Il faut des serveurs DNS de proximité (il y a douze serveurs DNS racine sur la planète et des milliers qui copient).

URL : se lit de droite à gauche puis de gauche à droite. TLD (top level domaine) = .Fr ou .IS...

ex : https://blog.marsactu.fr/gaudin.html

Marsactu a demandé au TLD .fr un nom de domaine qui est marsactu. Blog est un sous-domaine. Donc de droite à gauche : la france a autorisé marsactu à avoir un domaine qui controle son sous-domaine qui est le blog. Puis on lit de gauche à droite une adresse plus fine : gaudin.html.

3e couche : WEB qui s'appuie sur le protocole http, sur le navigateur web (comme firefox) et le format html. Web c'est la navigation sur les sites avec http, c'est une toute petite partie d'internet. Web est structurellement instable. Toile bouge sans cesse.

Le texte numérique est indexable.

Robots.txt = fichier à la racine du site qui dit au moteur de recherche ce qu'il a le droit ou non d'indexer. Il existe des algorithme utilisés par les moteurs de recherches : algorithmes de google par exemple qui banissent le farms de liens ( vente de liens en gros pour que les sites aient des meilleurs PageRank ) ou les copies de contenus. (algorithme comme panda).

Livre application n'est pas indexable, c'est un logiciel. Ce n'est pas perenne, il a une espérance de vie technique de un ou deux ans. Technologie est toujours localisée à un environnement. Rend le livre application problématique.

Fouille de texte = parcourir et indexer des contenus et produire des nouveaux services ou connaissances grâce à ça. OpenEdtion Lab : service de fouille de texte.

Développement d'un algorithme ou un robot qui fait le travail. Le programme (Bilbo) lit la référence bibliographique et demande à Cross ref l'existence électronique d'une référence, qui renvoie ou non le DOI (digital object identifier) qui sont ajoutés par Bilbo. Volonté de lier les comptes-rendus de livres et les livres. Sur hypotheses (donc sur les blogs), il faut déterminer quels textes sont des comptes rendus. Travail : démonstration que la signature lexicale des comptes rendus est particulière. L'algorithme comme Review of books. A chaque fois, des algorithmes travaillent sur des contenus et tentent d'étoffer le contenu. Outils = TDM sont de plus en plus utilisés.

Un modèle économique de l'attention

Le numérique est très différent du monde analogique. Le fichier numérique ne se perd pas en se donnant (économie de biens non-rivaux). Le livre papier est un support rival qui transporte de la connaissance qui est non-rivale, ce qui a fonctionné. Avec le numérique il n'y a plus de raisons de construire un modèle économique similaire. Il faut recréer de la rivalité.

Projet DRM (digital rigths management) (en fr. MTP : mesures techniques de protection) : plusieurs mesures comme notamment limites dans le temps (livre consultable pendant une semaine). Il faut donc un verrou : le livre est crypté et il faut un logiciel qui gère les DRM qui va déverouiller le livre quand on a le droit (logiciels comme Ibooks ou Adobe Digital Edition). Beaucoup d'argent dépensé pour casser la lisibilité du livre. Enferme le lecteur (certains prérequis pour lire le fichier).

Autre solution que le DRM : watermarking = le nom de l'acheteur est signifié sur le livre, ce qui engage l'acheteur si le livre se répand.

Numérique : économie de l'attention où il y a des centaines de milliards de pages sur le web, et donc beaucoup de doc cherchent l'attention de 6 milliard de personnes : c'est le lecteur qui devient rare et non plus le bien (alors que livre papier = bien rival donc rare).

Il faut donc tout repenser, notamment le modèle économique de la presse. Sur le net : profusion de contenus qui cherchent à attirer l'attention du lectorat et qui sont en compétition les uns avec les autres. Si un journal en ligne fait payer pour l'acces aux articles, perte du lecteur car trop de concurrence, et donc perte de la pub. Plusieurs solutions : Les "putes à click" style topito etc attirent le lecteur et donc la pub et donc créent un équilibre. Sinon, modèle de Médiapart : mise sur l'abonnement et l'originalité de ses articles (=faire payer de la qualité). Solutions intermédiaires : la presse française avait essayé une solution complexe, modèle alétoire où tel article est gratuit, tel autre non ; dans les revues scientifiques solution du moving wall (mur qui dure pendant un certains temps où il y a primeur aux abonnés, au bout de ce temps acces à tout le monde). Autre solution : le Freemium. Idée date de 2011. Service gratuit, et proposition d'un super service complet payant (système des premium qui paient). Mais la condition est que la version gratuite doit être satisfaisante. New York Times a proposé une solution freemium pour la presse : tous les contenus en acces ouverts avec pub, pour les premium c'est plus de dix articles par mois (hypothèse : si vous lisez plus de dix articles dans le mois, c'est que vous pensez que ce journal apporte une valeur ajoutée). Se fie aux cookies donc c'est un mur très soft qui maintient ainsi une relation de confiance avec les lecteurs. Reconstruit un modèle économique basé sur la fidélité du lectorat.

LA NUMERISATION

Les trois étapes de numérisation

La numérisation se décompose en trois grandes étapes qui cohabitent aujourd'hui, chaque étape n'a pas été rendue obsolète par la suivante (comme pour les médias : un média ne remplace pas l'autre : presse cohabite avec la radio qui cohabite avec la télé, etc.). Quelques exemple d'éditions électroniques : Googlebooks, revues scientifiques, presse en ligne, e-book, blogs, wikipedia, gallica.

Gallica et google books relèvent de la numérisation. La numérisation c'est le passage d'un support analogique à un support numérique (généralement grâce à un scanner). Il y a plusieurs types de numérisation :

Numérisation en mode image. A la fin, on est en présence d'une image qui est un fac similé. Problème : le document ne pourra pas beaucoup être manipulé. Difficile de changer la taille et donc de le changer d'environnement.

ROC (Reconnaissance optique de caractères) : interprétation et conversion des images (des pixels) en texte ou en information (voire en image s'il s'agit de photo à l'intérieur d'un texte). Maintenant utilisé par tous (gallica, google books, persee...). On peut rapprocher l'OCR et la fouille de données (TDM).

CAPTCHA. Lors d'une demande d'identification en tant qu'humain, il ya souvent une demande de deux mots, l'un des deux mots est connu du système, l'autre vient enrichir sa base d'informations. Mecanical turk est une fonctionnalité proposée par Amazon. Amazon propose à des entreprises des bases de données (qui sont fournies par des gens payés par Amazon 0.001 centime l'information). C'est un système de sous-traitance de taches basiques. Des algorithmes peuvent de plus en plus remplacer les humains pour obtenir des informations.

Les différents projets de numérisation

La numérisation trouve ses origines en 1949. En 1949, un prêtre, Roberto Busa, a voulu numériser les oeuvres de Saint Thomas d'Aquin avec IBM. A travaillé avec l'index Thomisticus. C'était une numérisation très basique, il ne s'agissait pas de reproduire exactement l'oeuvre mais de pouvoir faire des recherches sur cette oeuvre ; il s'agit d'un index et pas d'une numérisation page à page.

La première numérisation complète date de 1971. Michael Hart crée le Projet Gutenberg à l'université d'Illinois. Il avait accès à un ordinateur quelques heures par semaines et a voulu en faire un bien d'interêt collectif. A commencé à numériser la déclaration d'indépendance des Etats Unis à la main : il l'a recopié, lettre par lettre. Plusieurs milliers d'oeuvres ont été numérisées petit à petit par les volontaires du projet Gutenberg (50 000 oeuvres).

L'ABU est un projet de bibliothèque universelle et a fonctionné de 1993 à 2002. Un certain nombre d'oeuvres ont été numérisés ou saisis à la main.

Le projet des Classiques des sciences sociales est un projet canadien. Toujours sous la forme du bénévolat, des milliers de textes ont été reproduits. Ce projet a démarré en 2000.

Toutes les oeuvres numérisées dans ces projets sont des oeuvres qui se sont élevées dans le domaine public. L'utilisation du terme "élever" est pertinente car ces oeuvres ont gagné quelque chose en intégrant le domaine public.

Le droit d'auteur

On distingue en droit le droit moral et le droit patrimonial. Quand une oeuvre est créee, même si personne n'est au courant, cette oeuvre est protégée par le droit d'auteur. Ce n'est pas comme le brevet où l'invention est protégée du moment où elle est déclarée. Le droit moral est éternel et ne peut pas être cédé. C'est la paternité de l'oeuvre.

Le droit patrimonial est le droit d'exploitation de l'oeuvre : diffusion, commercialisation, exposition ou autres. Ce droit peut être cédé (à un éditeur par exemple). Peut être cédé sous certaines conditions (sur une certaine durée de temps, dans une certaine langue...). Supports doivent être mentionnées quand dans un contrat le droit patrimonial est cédé. Si un nouveau support apparait, contrat doit être réécrit et resigné. L'exclusivité est également une notion très importante.

70 ans après la mort de l'auteur, les droits patrimoniaux sont dans le domaine public. Toute personne peut exploiter l'oeuvre tout en respectant le droit moral. Par exemple, Mein Kampf est entré dans le domaine public en 2015. Le droit patrimonial avait été préempté par l'Etat de Bavière qui interdisait l'exploitation de l'oeuvre ; ce n'est plus le cas maintenant. Autre exemple : le journal d'Anne Frank n'est pas entré dans le domaine public 70 ans après la mort d'Anne Frank (toujours en 2015) car l'oeuvre avait été édité 20 ans après la mort d'Anne Frank et arrangée par son père. Cette légitimité peut être discutée. C'est donc extremement difficile de savoir quand une oeuvre entre dans le domaine public.

Le coût de transaction, c'est le processus de prise de contact avec l'ayant droit, qui peut être très compliqué. Ne se mesure pas seulement en chiffres mais aussi en temps. Si quelqu'un veut exploiter une oeuvre, ce coût peut représenter le temps de contact avec l'ayant droit, le temps de réponse, le temps d'établir le contrat, etc.

Cette durée n'est pas la même au Canada qu'en France (à 5 ans près). Les Classiques en sciences sociales ont donc eu des procès car ils se basaient sur leur propre système de droit pour éditer des oeuvres françaises.

Wikisource

Le dernier projet, le plus récent et le plus important, est wikisource. C'est un projet développé par wikipedia. Toujours le même principe : transformer des oeuvres papiers en oeuvres numériques et les rendre accessibles à tous, gratuitement.

Wikisource s'appelle ainsi car Wikipedia considère qu'on doit toujours sourcer ses informations. Il ne faut pas confondre ce projet avec wikibooks (qui sont des manuels écrits par les wikipediens). Wikisource est né en 2003.

Google Books

En 2004, Google lance Google Print. L'idée était d'avoir une très grande base de connaissances. Google s'est allié avec les bibliothèques pour obtenir les livres et les a numérisé. Il y a eu beaucoup de procès avec des auteurs et des éditeurs dont il n'avait pas eu l'accord.

Opt in : mécanisme dans lequel tous les gens qui ont explicitement donné leur accord sont intégrés dans le projet. Par exemple, dans google books, ce serait de numériser uniquement les livres dont j'ai eu la cession du droit correspondant, ce qui devrait être la base de la numérisation. Mais Google n'a pas adopté l'Opt in. Il a fait le travail de numérisation et a mis en place un système d'opt out. L'opt out signifie que les ayants droits doivent demander à sortir du système.

L'opt out n'est pas légal. Il s'appuie sur un droit qui est le droit de courcitation. Le droit de courcitation donne le droit d'exploiter patrimonialement un extrait de petite taille (sert aux journalistes pour citer des oeuvres). On considère en général que la courcitation doit être en proportion du texte d'origine, car la longueur n'est pas précisée dans la loi. Google books va donc n'afficher qu'un extrait alors qu'il a numérisé tout le livre. Cependant, l'extrait affiché est l'extrait recherché.

Un projet similaire existe en France : Relire. C'est un projet de numérisation porté par le SNE. Le problème de ce projet ce sont les oeuvres indisponibles.

Les oeuvres indisponibles sont des oeuvres suffisament anciennes pour avoir été mises au pilon, pour être épuisées, etc, mais qui ne sont pas encore dans le domaine public. Ces oeuvres sont donc inexploitées, mais sont protégées par le droit d'auteur. Pour les exploiter, il faut demander un coût de transaction très élevé à l'ayant droit. Parfois, savoir qui est l'ayant droit est très compliqué, encore plus si l'auteur est mort.

L'idée de Relire était d'imiter Google et son système d'Opt out. Beaucoup d'oeuvres inexploitées mais indisponibles ont été numérisées, avec l'argent public. La liste de ces oeuvres a été publiée, avec la condition que l'auteur devait se manifester dans les six mois pour s'opposer à la numérisation de son ouvrage. Beaucoup d'auteurs ont porté plainte contre Relire et ont gagné. La CJUE a condamné la France la semaine dernière.

L'EDITION NATIVEMENT NUMERIQUE

On peut considérer que l'édition numérique date d'une petite trentaine d'années. Il y a plusieurs phases dans l'édition numérique : la PAO (Publication assistée par ordinateur), les CMS.

Les CMS (Système de gestion de contenu)

Ce sont des logiciels de gestion de contenu (logiciels qui permettent d'alimenter des sites web). Wordpress est le CMS le plus utilisé au monde. Un autre CMS est Médiawiki.

Avantages des CMS

Ils permettent une chaine de publication (qui permet donc de publier) qui respecte un workflow. Un workflow est un circuit de circulation d'informations. Par exemple dans Workpress, c'est le fait de faire un brouillon et de le publier, ce qui est un workflow assez simple.

Ils permettent de séparer la forme du contenu. Deux informations sont séparées, la base de donnée (le texte au kilomètre), et la maquette. Le CMS stoque les deux séparément, et les fusionne à l'attention de l'internaute. Le métier qui s'occupe de la maquette dans le web est l'intégrateur web (il produit du code).

Ils permettent de structurer l'information. Il y a une structuration de métadonnées, et aussi de contenus.

Ils gèrent aussi le plus souvent une interaction avec le lecteur (pas toujours). Les commentaires peuvent être validé à postériori (laisse le commentaire arriver et est contrôlé après) ou à priori (le commentaire doit être validé pour apparaitre).

Il permettent de hiérarchiser les utilisateurs et de leur attribuer des rôles. Donne des droits particuliers à chaque utilisateur du CMS. Il y a par exemple une différence entre une personne identifiée (qui a un droit de consultation de document privés ou brouillons, de modification voire de suppression de documents) et une personne qui ne l'est pas (n'a qu'un droit passif de lecture, peut parfois suggérer un commentaire ou l'ajouter). Cette différence est basique, mais il existe des niveaux plus sophistiqués.

Les CMS peuvent avoir d'autres fonctionnalités, plus rares. Ils peuvent permettre l'édition collaborative d'un document. Un même document peut être édité en même temps par plusieurs personnes. Certains logiciels peuvent aussi gérer la gestion de versions : ils numérotent chaque modification, qui permet de revenir en arrière sur les précédentes versions. Certains peuvent même permettre l'existence de fork (document en deux versions), ce qui est très rare.

La séparation de contenu et de forme

Les métadonnées ne sont souvent pas entièrement rendues publiques. En vertu de la séparation de la forme et du fond, plusieurs formes vont être concues pour le même fond. Par exemple, à partir d'un texte sur un site, on peut générer un PDF, qui n'aura pas la même apparence. De la même façon, on peut générer un CSS (Feuilles de style en cascade) pour l'impression ou un CSS adapté à une personne handicapé. Ces différentes versions sont générées par le CMS. Les données peuvent donc ne pas apparaitre sur une version mais apparaitre sur une autre si on n'y fait pas attention. Il faut donc avoir des données cachées.

L'exemple du CMS Lodel

Le moissonage a pour vocation de récuperer les données. On a besoin d'une interopérabilité, qui est l'idée que deux machines puissent opérer entre elles (communiquer entre elles). Le serveur (donc le CMS), donne la liste d'informations au moteur de recherche. Le moteur moissone les données structurées dont il a besoin.

Lodel utilise le protocole de moissonage OAI-PMH (open archives initiative - protocol for metadata harvesting). Cela permet de collecter au minimum le titre et l'auteur. C'est ce protocole qui permet que le serveur et le moteur de recherche se comprennent. OAI-PMH offre trois formats XML, dont le Dublin Core (qui offre 15 balises). Le protocole est la façon dont les machines échangent, le Dublin Core est le contenu des échanges.

Le CMS produit donc plusieurs variantes pour les lecteurs, et plusieurs variantes pour les machines.

BookServer est un autre protocole, dont le nom technique est OPDS (open publication duplication system). OPDS a été construit pour permettre de distribuer des catalogues de livres. Plusieurs formats sont produits pour s'adapter aux différents logiciels. Le CMS génére un fichier qui respecte un format, puis les transmet grâce au protocole.

Exemple : Aldiko (moteur de recherche) a besoin de données propres à une plateforme. Il connait le protocole OPDS et ses règles, va donc attaquer le serveur et lui poser des questions grâce au protocole OPDS. Le serveur va lui répondre dans un format particulier (qui est Dublin Core par exemple). Le protocole sert à poser des questions et le format sert à échanger des fichiers.

Lodel prévoit des conteneurs sophistiqués, et divers contenus (une collection par exemple contient des numéros qui contiennent des sous parties qui contiennent des articles).

Principe dans Lodel qu'il y a un document source ; Lodel est donc capable de convertir un document source en base de données. On part d'un fichier PAO qui provient d'Indesign généralement, qui est exporté. Mais l'information qui arrive n'est pas explicite pour l'ordinateur en ce qui concerne la forme. Il faut donc ajouter des informations : les styles qui servent à structurer les informations. Fichier importé dans Lodel.

Les CSS

L'apparence d'un fichier est donné par l'HTML (qui gère quelques éléments, comme les niveaux de titres) et la CSS (feuille de style). La CSS gère tous les éléments d'apparence les plus sophistiqués qui soient.

CSSZenGarden démontre la puissance de personnalisation offerte par la CSS. Règle les positionnements, les couleurs... Tout. Cela va au bout de la séparation entre la forme et le fond.

Le workflow

Tous les CMS ont un workflow, certains plus sophistiqués que d'autres.

OJS a un workflow très sophistiqué. Il y a plusieurs étapes : soumission des articles, évaluation des articles, édition des articles, programation de la publication, table des matières. Chaque étape peut être très longue et opérer plusieurs aller-retours. Les soumissions sont entièrement gérées dans l'interface. Il y a beaucoup de soumissions, ce qui ne pourrait pas être géré hors interface. Il existe différents rôles, que le logiciel différencie et attribue.

Le SSP (single source publishing)

C'est l'idée selon laquelle on ne va plus avoir qu'un seul fichier sur lequel on va travailler pour produire plusieurs sortie différentes. Dans les CMS, il n'y a aucun retour vers le support analogique. Hors l'édition n'a a pas abandonné le papier, il doit donc se préoccuper de plusieurs formes.

Besoin de plusieurs choses : l'interopérabilité avec le référencement (métadonnées), l'interopérabilité full text (l'échange du texte), les formats dédiés, l'archivage à long terme. Le SSP essaie de résoudre ces différentes finalités, avec une seule source. Il y a peu d'organisations éditoriales qui sont capables de ça, mais beaucoup ont tendance à aller dans cette direction.

Dominique Roux (presses universitaires de Caen) a mis en place une chaîne (chaîne METOPES) : A partir d'un fichier XML TEI pour la recherche, ou d'un texte auteur, on produit un fichier XML TEI pour l'édition, qui sera le fichier source. Ce fichier source va produire divers formats (web, epub, openedition, onix...) et un format PAO qui va produire du Pdf ou du papier.

XML est une famille de format, et TEI (Text Encoding Initiative) est le format en lui-même. Un système d'informations regroupe l'ensemble des informations dont une organisation dispose.

Système d'informations d'OpenEdition Books :

En bout de schéma, on a des interfaces web que le lecteur a en face de lui (calenda, hypothèses, openEdition books...) : c'est la partie émergée de l'isberg. On a aussi le générateur de PDF ou ePub que l'utilisateur peut télécharger.

Production de services transversaux pour des utilisateurs avancés ou non comme les protocoles OPDS, OAI-PMH, avec différents formats, comme un moteur de recherce, des alertes...

Si l'on prend le schéma par l'autre bout : certains éditeurs ont appris le XML et alimentent openEdition ou autres avec le XML ; le reste alimentent l'interface par Opentext. Interfaces alimentées aussi directement sur l'interface, ce qui n'est possible qu'avec des données faiblement structurées.

Il y a une centralisation de l'information entre l'interface d'édition et l'interface d'utilisation dans une base de données.

L'édition mobile

L'édition mobile peut être un débouché du SSP, peut être un débouché du CMS, peut être fait à la main.

L'epub

L'Epub est un format. Le pdf était très inadapté aux besoins mobiles, notamment car c'est un format complexe. Le pdf est destiné à l'impression. Pour l'édition, ce n'était pas l'idéal. L'epub est un format ouvert, toute la documentation à son propos est disponible. Ce serait comme un site web zippé et téléchargeable. L'epub est un format détachable.

L'epub est un format recomposable. Contrairement au pdf qui est complètement inadapté à l'expérience d'utilisateur : il ne s'adapte pas au changement de support... L'epub a été conçu pour s'adapter. Mais du coup, pas de composition de base, selon les écrans et la disposition, l'epub se réadapte et donc la composition change.

C'est la même chose que le concept responsive design. Le design des sites web s'adapte à l'écran et à la résolution.

C'est l'IDPF qui fait le format epub (et qui vient de rejoindre le W3C).

Il ne faut pas ajouter de fioritures qui ne vont marcher que dans un conteste. Il y a une grande diversité des terminaux de lecture.

Quelques précisions

Différence entre ojs et lodel :

OJS gère très bien le workflow, ce que lodel ne fait pas. Dans lodel, si l'on veut avoir le workflow, soit on installe un ojs, soit un s'inscrit sur un des centaines de sites qui proposent ça. OJS ne traite pas un fichier word pour le convertir en xtml. Il est plus fait pour la publication de pdf. La particularité de lodel est sa gestion du xtml de façon native.

Différence entre CMS et SSP :

Le CMS est une famille de logiciels alors que le SSP est un principe de fonctionnement technique : ce n'est pas le même registre. Dans la pratique, quasiment aucun CMS n'est conforme au SSP. Le CMS est centré sur la version finale dédiée au web, alors que le SSP est centré sur le multisupport.

Isidore :

Moteur de recherche spécialisé en sciences humaines et sociales. Moissone en OAI PMH : ceux comptabiles (comme openédition) avec OAI fournissent leurs données, et sont recensées dans Isidore.

OPDS :

Les gens d'Amazon et Apple n'y sont pas favorables. Si un standard est mis en place, la concurrence est beaucoup plus facile. Le protocole ouvert va à l'encontre d'un monopole. Certains promeuvent ça, comme Feedbooks, ou Internet Archive. Internet Archive garde des traces historiques du web.

Différence entre XML et HTML :

XML est une grande famille de format et HTML en est une subdivision.

L'édition nativement en réseau

L'édition nativement en réseau est une édition qui nait sur le web, et pas sur l'ordinateur, contrairement à l'édition nativement numérique.

LE TEXTE ÉLECTRONIQUE IDÉAL

Il existe trois grandes familles de qualités nécessaires pour un texte électronique idéal.

Le texte doit être lisible

L'histoire de l'édition électronique est jalonnée d'incidents industriels rendant l'ensemble des textes illisibles.

Pour qu'il soit lisible, il faut que le document soit décrit dans un format ouvert, c'est à dire un format dont la documentation est publique. L'e-pub par exemple est un format ouvert. L'Xml est un format ouvert idéal, très sémantisé (c'est-à-dire beaucoup d'information de fond et peu de forme).

Il faut également qu'il soit recomposable.

Il faut aussi qu'il soit conservable. Le premier obstacle à la conservation est le DRM. La capacité de décrypter est confiée à des tiers, ce qui implique que ce tiers doit continuer d'exister pour que l'accès au fichier demeure, ce qui est improbable. Le deuxième obstacle est le support physique, qui n'a pas une durée de vie très longue.

En informatique, il existait le code ASCII. Il y a un octet, qui contient 8 bits (qui peuvent être un 1 ou un 0), ce qui donne la possibilité d'avoir 255 variations. Il existe donc 255 caractères. Puis ont été crées des plages variables dans les 255 variations, selon les pays et les langues, ce qui a marché jusqu'au moment où il y a eu le besoin d'utiliser plusieurs langues dans un même document. Un système plus puissant a donc été inventé : l'unicode. Des dizaines de millions de caractères différents ont été prévus. (Un consortium se réunit régulièrement pour rajouter des caractères). Un code unique décrit un caractère unique. C'est une norme qui permet de lire un fichier en tout temps.

Le texte doit être manipulable

Il faut tout d'abord qu'il soit indexable et cherchable. Les livres avec DRM ne sont pas indexables et cherchables, ainsi que les livres application.

Il faut également qu'il soit copiable et collable. Il existe encore des sites web où le clic droit est désactivé.

Il faut aussi qu'il soit annotable et inscriptible, ce qui pour l'instant n'est pas atteint. Le problème est de savoir où est stoquée l'information et sous quel format. Si le fichier e-pub passe de iBooks à Calibre par exemple, les annotations vont disparaitre, ce qui implique que les annotations restent dans l'univers d'Apple et n'appartiennent plus à leur auteur. Technologie des rétroliens : commentaire distant qui cite l'article et qui donc crée un lien entre les deux.

Le texte doit être citable

Un texte identifiable

Le DOI est une des solutions élaborées pour identifier un texte. Il y a aussi des solutions intermédiaires (plus anciennes ou moins sophistiquées). ISBN (identification d'une édition d'un livre) et ISSN (pour publications en série), sont des normes obsolètes. Elles ont été conçues pour le papier et ne fonctionnent pas pour le numérique. L'ISBN décrit le document mais n'y amène pas, n'y donne pas accès. L'URL va vers le document en finesse (il y aura par exemple une URL par chapitre). L'URL est capable de décrire plus de documents que des livres ou périodiques. Plusieurs critères existent pour voir si le système d'identification est idéal :

un identifiant désigne une seule source documentaire.
tous les types de ressources documentaires sont identifiables.
accès rapide à la ressource documentaire.
identification pérenne.
une ressource documentaire a un seul identifiant.

Le DOI (digital object identifier) permet de décrire un document unique de façon non ambiguë. Il décrit toutes sortes de ressources. Il permet un accès rapide au document. Son identification est pérenne car il y a une régulation.

Un texte correctement décrit

Un document sans métadonnées ne peut être correctement trouvé. Il doit être correctement décrit selon plusieurs normes. La norme Dublin core. C'est le format de description de métadonnées le plus rudimentaire et donc le plus utilisé. Avec quinze informations, l'ensemble des ressources documentaires du monde peuvent être décrites. Si l'on veut rentrer dans des finesses, il faut passer en Dublin core qualifié (qui ajoute des propriétés de second niveau aux quinze propriétés principales).

Title : c'est le titre du document.
Creator : nom de la personne, de l'organisation ou du service à l'origine de la rédaction du document.
Subject : sujets et mots-clefs. Soit ce sont des éléments d'ordre libre mais qui posent des problèmes car ces métadonnées n'obéissent à aucune norme. Il faut donc obéir à un vocabulaire contrôlé (par exemple dans le domaine médical, il y a un vocabulaire contrôlé qui s'appelle le MESH).

Le vocabulaire contrôlé permet relier les documents entre eux (commun à un domaine ou une profession par exemple, MESH pour la médecine). Étiquettes qui permettent de faire des statistiques etc. Le but est l’interopérabilité, même au niveau international. Il existe d’autres exemples de vocabulaire contrôlé comme le Dewey, pour la classification des livres. Le DCMI s’occupe des périodes temporelles (contrairement au Dewey, on a des superpositions, il peut y avoir plusieurs choses en même temps), et ça peut être un jour comme des siècles. Avec internet, on retrouve la problématique de la tour de Babel, on cherche à mettre au point des systèmes qui se parlent entre eux, et à tout normaliser. Il n’y avait pas d’organe de régulation. Il y a donc des personnes, des professionnels, qui regroupent toutes les normes produites et les commentent et créent une norme unique pour internet : ce sont les RFC (Request For Comments), par exemple la RFC 4646 qui est une norme de descriptions des langues. Les RFC sont des vocabulaires contrôlés, créées par un consensus à la différence des normes iso qui sont produites par autorité. Il vaut mieux créer une norme la plus fine possible (même si c’est plus long et complexe) parce que c’est plus simple de la réduire ensuite selon les besoins. Deux machines, pour communiquer, ont besoin de protocoles (OAI-PMH, HTTP, HTTPS). Elles veulent échanger des contenus, des fichiers qui obéissent à un format (HTML, Dublin Core), mais pour que le document soit intelligible, notamment dans ses métadonnées, il faut utiliser un vocabulaire contrôlé, le fichier va aussi obéir à un encodage (unicode par exemple) pour pouvoir lire les caractères.

Description : résumé, table des matières ou texte libre. Ne pas hésiter à multiplier cet item pour bien séparer par exemple résumé en français et en anglais, pour bien les dissocier tout en utilisant la même balise mais à deux reprises. Idem pour le subject : on fera autant d’entrées subjects que nécessaire.
Publisher : éditeur (société ou personne à l’origine de la publication du document. Il existe un vocabulaire contrôlé pour les noms : l’ISNI, on différencie les homonymes avec un identifiant ISNI, qui est un vocabulaire contrôlé.
Contributor : contributeur au document. On a intérêt de mettre notre nom puis notre nom sous la forme de l’identifiant ISNI.
Date : date d’un évènement dans le cycle de vie du document (date de création, date de mise à disposition…). Il est recommandé d’utiliser le format W3CDTF (AAAA-MM-JJ).
Type : type de documents (grande catégorie du document).
Identifier : identifiant non ambiguë. Utiliser donc un des systèmes d’identifiants uniques comme les URLs, le DOI (encore mieux), ISBN ou ISSN…
Source : ressource dont dérive le document. Idéal : pointer vers un identifiant unique décrivant la source.
Language : la langue, il est recommandé d’utiliser la description selon la norme RFC4646.
Relation : lien vers une ressourcée liée, en utilisant un identifiant, par exemple une URL. Typiquement dans un livre, si on parle d’un chapitre, on fait un lien par exemple vers le chapitre suivant ou le chapitre précédent.
Coverage : portée du document (domaine géographique, ou laps de temps, ou juridiction). Utiliser la norme, le vocabulaire contrôlé approprié (TGN pour la géo, W3CTDF ou DCMI pour le temps…) ou ne pas utiliser une norme.
Rights : droits relatifs à la ressources, creative commons ou copyrights, liens vers le détenteur des droits…

Exemple de notice en Dublin Core :
<meta name="DC.title" lang="fr" content="Un document en HTML" />
<meta name="DC.date" scheme="DCTERMS.W3CDTF" content="2003-04-03" />
<meta name="DC.subject" lang="fr" content="HTML" />
<meta name="DC.subject" lang="fr" content="document" />
<meta name="DC.subject" lang="en" content="Dublin Core" />
<meta name="DC.language" scheme="DCTERMS.RFC4646" content="fr-FR" />
<meta name="DC.description" lang="fr" content="Mon premier document HTML avec métadonnées" />
<meta name="DC.description" lang="en" content="My first document" />
<meta name="DC.creator" scheme="DCTERMS.ISNI" content="0000-555-2222" />
<meta name="DC.creator" scheme="DCTERMS.ORCID" content="0000-52222-993666" />
<meta name="DC.creator" content="Blaise Dupont" />
<meta name="DC.Identifier" scheme="ISBN" content="urn:ISBN:978-1-2345-6789-X">)

Le texte doit être interopérable

Un dernier critère pour le texte électronique idéal est l’interopérabilité. Respecter les normes, les langages, les vocabulaires contrôlés, les protocoles pour que le texte soit interopérable.

Point sur le creative commons

Dans le registre du droit d’auteur ou copyright, le creative commons permet la réutilisation sans contrat. Si je possède le droit d’auteur d’une oeuvre, si quelqu'un veut réutiliser ma création, cela doit se faire sous contrat signé par les deux parties (et même si on cède les droits gratuitement, il y a le coût de transaction). Mais l’auteur de la création peut appliquer une licence selon laquelle il donne a priori le droit d’utiliser son oeuvre sans contrat ni autorisation particulière. C’est une licence « à la carte » on choisit ce qu’on autorise ou pas, on a quatre ou cinq droits qu’on peut accorder ou refuser. La licence va prendre toujours trois formes : une forme visible pour l’être humain, une forme juridique (défendable devant les tribunaux) et une forme informatique (transmissible à un ordi par interopérabilité), qui disent la même chose mais pas dans la même langue. Du coup sur Google je cherche une image, on peut mettre dans les outils une spécifié des droits d’usage (utilisation et motif autorisée par exemple) et grâce à la forme informatique de la licence, Google peut me sortir les images qui ont ces droits en particulier qui lui sont associés. Ça ne fait pas disparaître le droit d’auteur : la paternité de l’oeuvre ne s’efface pas. Donc je choisis ma licence : autoriser le partage des adaptations ou non, les utilisations commerciales ou non, etc. La licence CC0 implique de mettre dans le domaine public. La licence CC-BY équivaut à un creative commons avec reconnaissance de la paternité. Le carnet monde du livre est en CC-BY (avec droit de modification et droit de commercialisation). creativecommons.org nous donne aussi le code HTML pour afficher le logo de la licence sur notre site.

La question des bonnes pratiques du WEB

Ça pourrait être un dixième critère pour le texte électronique idéal. Les bonnes pratiques sont toujours très simples et ont toujours une intention. Des critères ont été mis en place par opquast. Il y a 226 critères web, 26 critères web mobile, 80 critères de SEO (Search Engine Optimisation = optimisation du référencement) et 41 critères de performance et maintenant il y a même 115 bonnes pratiques pour consommer moins.

Chacune des bonnes pratiques rentre généralement dans une question de bon sens.

Pour le web, il y a des rubriques de bonnes pratiques, par exemple rubrique « alternatives » dont la première est : prévoir à chaque image une alternative textuelle (ce critère est ici pour l’accessibilité, mais il est aussi dans les critères pour la SEO car il est utilisé par les moteurs de recherche). Sur le site, on a une fiche sur chaque critère où il est décrit, expliqué et on décrit comment l’appliquer par exemple.

Exemples : Rubrique « code » où un des critères est par exemple d’utiliser comme code UTF-8 (= unicode). 
Rubrique « contact » : le site propose au moins un moyen de contact. 
Rubrique « contenus » : les contenus publicitaires sont identifiés comme tels. 
Rubrique « E-commerce » : on peut faire un achat sans créer de compte. 
Rubrique « fichiers et multimédias » : les animations et clignotements peuvent être mis en pause. 
Rubrique « hyperliens » : le soulignement est réservé aux hyperliens.

Il faut connaître et appliquer ces bonnes pratiques pour faire de l’édition électronique correcte. C’est un référentiel commun, qui est mis à jour régulièrement (on en est à la version 3 en ce moment), et affiné. Il faut donc s’en informer régulièrement.

Dans les bonnes pratiques pour les mobiles, on a des choses spécifiques, par exemple, chaque zone d’interaction tactile est de taille suffisante (rubrique « interactions »), ou « multimédia » : « les contenus ne sont téléchargés qu’à la demande explicite de l’utilisateur ».