Aller au contenu

Utilisateur:LolitaLaure/Brouillon

Une page de Wikipédia, l'encyclopédie libre.

L'édition électronique[modifier | modifier le code]

Le texte numérique[modifier | modifier le code]

Il y a sept points fondamentaux qui définissent un texte numérique :

  1. Il est quasiment immatériel. Ce texte numérique (qui n'est tout de même pas totalement immatériel puisqu'il nécessite toujours un support et une connexion par câbles entre notre ordinateur et les libraires) a une empreinte écologique conséquente. Ce texte est également de moins en moins bidouillable : afin de changer un composant de l’ordinateur, on doit l’ouvrir, voire le casser. On s’émancipe néanmoins du poids du bois et du papier : le texte numérique est moins lourd, moins encombrant, permet des copies ou des sauvegardes. Il faut noter que grâce au Data Center, la consommation mondiale de l’électricité évolue.
  2. Il circule avec une très grande fluidité. On peut envoyer et recevoir facilement un livre électronique.
  3. Il est facilement reproductible sans coûts spécifiques. Suite à des études sur l’impact écologique du texte électronique, on s'est aperçu qu’on ne stockait pas forcément un texte électronique ou une donnée sur son ordinateur mais sur une plateforme ou messagerie capable de stockage (Gmail, par exemple) dont l'accessibilité génère de l’électricité. Les lignes stockées (messages donnés sur un serveur) sont des fichiers de LOGS qui traitent toutes les informations (accès, date, IP, nom du navigateur...) entre le serveur et le reste du monde. Dans la même millième de seconde, plusieurs « messages » (au sens de ligne) sont traités par le serveur. Plus la machine est fréquentée, plus elle doit être importante pour avoir la capacité de répondre et donc coûte tout de même quelque chose. Nous sommes entrés dans l’âge des plateformes.
  4. Le texte numérique se dote de couches successives. En prenant le texte lui-même (appelé TXT), on s’aperçoit qu’il a plusieurs « couches » (ou informations) le constituant comme par exemple : - L'identification unique (de l’ordre des métadonnées, à savoir une donnée sur une donnée). - Les annotations individuelles sont également une forme de surcouches (le surlignagne et les commentaires dans le PDF, ce qui reste d’ordre « privé »). - Les annotations publiques (les commentaires partagés sur Amazon ou Youtube, que l’on peut commenter en globalité ou à un endroit précis du texte). - La note (forme d’annotation individuelle publique, comme on peut trouver sur Babelio ou Liberything de façon plus ou moins sophistiquée. Ces plateformes ajoutent des recommandations en fonction de notre action, ce qui rajoute des couches supplémentaires au livre). - Le cookie (donnée liée à l'ordinateur qui reste selon les différentes connexions et liée aux sites visités).
  5. Le texte numérique est très textuel. Il peut faire des liens et être interactif. En 1950, Tim Berness Lee invente le Web. En 1970, les informaticiens ayant besoin d’échanger des informations entre eux inventent le réseau Arpanet pour connecter leurs ordinateurs. Pour les mettre en commun, un nouveau réseau est crée : Internet. Le TCP/IP (ou propagation des paquets) est la première couche de transmission de paquet de données (qu'on coupe en petits paquets pour faciliter la transition). Les routeurs servent à faire transiter les données d’un point vers l’autre. Un email ne peut être considéré comme reçu qu’une fois tous les paquets reçus et assemblés en un fichier final. On a ensuite en deuxième couche le DNS (domain name system) avec une latence de 24 à 48 heures. Si on veut aller d’un point à l’autre, il faut 12 serveurs DNS matrices. En revanche, si on se connecte à deux serveurs, ceux-ci ont accès au précédent pendant 24 heures. Si néanmoins il y a un souci et que les DNS d’un état sont coupés, on peut utiliser d’autres serveurs DNS et en déclarer un autre que celui qu'on avait. Il suffit de falsifier le nom des serveurs nationaux pour contourner cette censure. « .fr » est un TLD (top level domain), ce qui informe que l’État français a reconnu à Marsactu le droit de s’appeler ainsi. Il a loué pour un an à un prix variable ce que l’on appelle un domaine (la marque visible du site). Si on change pour www.blog.marsactu.fr, on est dans un sous-domaine, contrôlé par le domaine Marsactu. Si l’on a maintenant https://www.blog.marsactu.fr c’est là que l’on lit de gauche à droite, puisqu'on affine la précision de sa position dans le blog marsactu. Si on a en revanche un « .TU » au lieu de « .fr », on se place dans un autre endroit géographique. La troisième couche est le Web, qui englobe le protocole http, le format HTML, ou le navigateur Firefox. Le web est une petite partie des usages d'Internet concernant la navigation. On a par exemple le Bittorent qui permet la transmission d’un gros fichier sans consommer de bande passante. La particularité d’avoir ce genre de lien URL est qu'on se retrouve non pas avec un site mais avec toute une toile de site liés par des identifications communes. Néanmoins, 10% des sites changent d’adresse, ce qui renouvelle constamment la toile. S’il y a 1000 sites qui pointent vers le site de la BNF, on peut mesurer sa notoriété par rapport à celle d’un autre site qui n’en a que 500 pointant. Cela permet à Google de classer les sites de 0 à 10 via le PageRank (qui classe les résultats de Google pour permettre de placer les sites sur la page de recherche dans les premiers ou derniers résultats).
  6. Le texte numérique est indexable la plupart du temps. L’indexabilité, c'est Google qui classe, mais ça peut être autre chose également. Si l’on a un fichier au format EPUB dans notre disque dur, le moteur de recherche interne doit normalement retrouver une occurrence à l’intérieur du document, ce qui donne la capacité d’indexer. Il y a une première fonction qui permet de dire au moteur de recherche ce qu’il peut indexer ou pas, que l’on met à la racine de notre site : c’est le XROBOTS.TXT. Le moteur de recherche peut le consulter. Il suffit de rajouter à un URL : /robots.txt et l’on sait ce que l’on peut conserver ou non, faire ou non des composants du site dans notre moteur de recherche. Pendant un certain temps, des gens ont truqué des PageRank et les ont revendu sur des fermes de liens. Cela donne une mauvaise note sur le site, attribué par Google, et une moins bonne visibilité. Panda peut également repérer le spamdexing, qui est celui qui duplique le contenu d’un site sur un autre (un duplicate contents). Dans cette optique, le livre application, qui est un logiciel, est à adapter à chaque système (Android et autres) et à renouveler à chaque évolution, contrairement à l’EPUB qui est pérenne puisque applicable et lisible par ces supports. Pour un éditeur, il est plus efficace d’utiliser l’EPUB puisque le livre application est lié à un environnement et un seul et l’on ne peut donc faire de travail d’indexation. La fouille d’information est le fait de parcourir des informations et de développer de nouvelles connaissances grâce à ça. Si l’on recherche toutes les références bibliographiques de Pierre Bourdieu, par exemple, ainsi que leurs liens URL, il est efficace de créer un algorithme grâce à un robot (le robot d’annotation des références bibliograhiques d’OpenEdition est BILBO) qui va répertorier les informations par niveau (auteur, titre, abréviation, pagination, nom revue) suite à un exemple donné manuellement par un humain, qu’il doit reproduire par la suite. BILBO va demander à Crossred (agence spécialisée dans le monde de la recherche) s’il a une information bibliographique et un URL vers la version électronique, et Crossred répond en renvoyant un lien vers une nouvelle référence (c’est le DOI ou digital object identifiar + son URL mis à jour par l’éditeur) pour compléter notre article. Tout cela est financé par Google Grants. L’idée est alors de relier toutes les références bibliographiques. Autre projet de fouille de textes : relier les comptes rendus de livre grâce aux livres eux-mêmes : concrètement, de relier OpenEditions Books à Revues.org et Hypotheses. Néanmoins, si l’on sait que Revues.org fournit forcément des comptes-rendus, Hypotheses ne produit pas que cela. Pour faire le tri, on a établie des recherches démontrant que la signature lexicale n’est pas la même pour un compte rendu que pour un billet classique. Le décile (10 %) démontre au fur et à mesure des articles et comptes-rendus selon différents critères (utilisation des noms de personnes, puis des dates, puis des locations la variation du début à la fin de ces utilisations), pour établir une sorte de modèle prototype, pour prédire de façon statistique, la nature d’un article ou d’un compte rendu. Il est fiable à 92%. C’est le concept de Review of books de chercher des contenus et d’ajouter des liens pour réunir un livre et ses comptes rendus. La fouille de données procède au même système mais dans les chiffres : Spotify détermine à quelle famille de données on appartient pour proposer des recommandations personnalisées. Ce sont les technologies TDM (text data mining).
  7. Le texte numérique soulève de nouveaux modèles économiques. Avec le numérique, on est entré dans un monde moins analogique (IRL ou AFK). Beaucoup de choses changent, et si l’on a noté le caractère immatériel du texte numérique, le livre physique a des caractéristiques précises. C’est un bien rival (on le donne, on ne l’a plus) contrairement au texte numérique qui est un bien non-rival puisque l’on peut l’envoyer et toujours l’avoir. La connaissance a toujours été un bien non rival, par exemple. Le bien rival (livre papier) peut ainsi transporter un bien non rival (la connaissance) et s’est débrouillé pour construire toute son économie autour de l’objet-livre, et est au centre de l’échange marchant entre le producteur/éditeur et le lecteur. Néanmoins, ces deux éléments ont les mêmes propriétés, même si cela entraîne un écroulement des bases et du modèle économique actuel du à la modification : il faut recréer de la rivalité. C’est le DRM (digital rights managment ou mesure technique de protection MTP). Une des modalités des DRM est de dire que l’on va vendre le texte numérique mais qu’il ne sera consultable que pendant un temps déterminé. Pour faire en sorte qu’il ne soit plus lisible au bout d’un certain temps, il faut qu’un intermédiaire (verrou) vérifie que l’on a les droits, il faut chiffrer le contenu (les lettres sont scriptées, remplacées par des chiffres, et uniquement déverrouiller par le logiciel de DRM une fois qu’il considère qu’on a les droits. Ibooks et Adobe Digital par exemple sont des DRM. Le problème est que jusqu’ici, l’éditeur construisait une relation de fidélité et de confiance avec l’utilisateur basé sur la qualité du texte numérique. Dans ce cas, l’éditeur dépense de l’argent à casser la visibilité de son produit par méfiance et vérification de piratage ou non. Il y a des solutions alternatives au DRM, plus soft : le watermarking. Quand on achète un livre, il sera légèrement modifié au moment de le récupérer : sur la page de garde, on trouvera écrit "livre acheté par X et lu le X", de sorte que si le livre entièrement lisible se propage sur le web, le nom et la responsabilité du lecteur seront traçables. Tout ceci se justifie par les biens rivaux, et que ceux-ci font partie de l’économie de la rareté (que l’on ne réutilise pas à l’infini), et les lecteurs sont en concurrence pour trouver l’exemplaire d’un livre. Avec le livre numérique, on est dans une économie de l’attention, il y a beaucoup de documents et qui cherchent l’attention de beaucoup d’utilisateurs fixes. Ce qui devient rare, c’est l’attention du lecteur à cause de l’hypersolicitation d’autres distractions (réseaux sociaux, sports, etc…). Il faut ainsi repenser les modèles économiques de la presse, qui s’appuyaient sur la vente papier et la publicité. Avec internet, on a une profusion de textes, sollicités par beaucoup de lecteurs et beaucoup de sites de presse. Si 10 articles sont publiés sur un même sujet, on se rabat en priorité sur les sites qui n’ont pas de péage financier. Ce n’est pas la garantie d’augmenter un lectorat payant mais de perdre des lectorats non payant, faisant ainsi baisser la publicité et la visibilité. Deux solutions pour cela : des putes à clic (style Topito) qui concentre l’information en un site, et deuxième, la solution de Médiapart qui ne prend pas parti de faire comme les autres sites de presse et font des enquêtes exclusives. En moins racoleur, on a une solution appelée le Freemium adoptée par le New-York Times. Le Freemium du NYT date de 2011 en se posant la question de l’errosion progressive du papier, sans augmenter la publicité ou le texte numérique. Il a prit des solutions intermédiaires. La presse française a adopté un système particulier : la barrière mobile (moving wall) : certains articles sont payants, d’autres pas. Cela peut se faire sur un labs de temps, à savoir pendant 24 ou 48 heures et donner la primauté aux abonnés. Une meilleure solution a été adoptée : comme Dropbox, le freemium a pour but d’avoir le maximum d’utilisateurs gratuits et d’en convertir 5 à 8% en premium qui eux, payeront pour tous. On y a droit pendant 15 jours avant de ne devoir payer, avec une limite de 200 giga, ce qui est une limite pour l’édition. On pourrait faire une partie de l’article en freemium et l’autre en premium (comme Livres Hebdo) et le NYT a décidé de tout laisser en contenu ouvert pour avoir le maximum de publicité, et mettre la limite a plus de 10 articles par mois (on retrouve le cookie mis sur le disque dur, donnant un identifiant et qui compte le nombre de visite).On maintient un lien de qualité avec l’utilisateur, tout en optant pour un aspect financier. Depuis cette rentrée, 5 ans plus tard, Libération est passé en Freemium. Cela implique les revues scientifiques, presse en ligne, ebooks (dont ceux Ibooks, FNAC, Amazon, Apple, Google Books, Gallica Persée), blogs, Wikipédia…

L'histoire de l'édition numérique[modifier | modifier le code]

Aujourd'hui, trois étapes d'évolution cohabitent. Une étape ne remplace pas l'autre.

Exemples d'initiatives d'édition électronique : Google books / Revues scientifiques / La presse en ligne / E-books / Blogs / Wikipedia / Presse en ligne / Gallica...

1) La numérisation (Gallica, Google Books)[modifier | modifier le code]

Le passage d'un support analogique vers un support numérique. (Scanner et convertir).

  • En mode image : pixels alignés pour former une image, tel un fac-similé de l'édition originale (Gallica). Peu de manipulation de l'image, on peut changer le contraste et les couleurs mais la recherche ou le copié-collé sont plus délicats. Limité.
  • OCR (optical character recognition) ou Reconnaissance optique de caractère : conversion des d'images en texte, en informations ou en images (Google Books, Gallica, Persée).
  • Captcha : traduction d'un texte (pour différencier l'humain du robot). Digital Labor (deux questions posées). Les êtres humains alimentent donc sa base de donnée. Numérisation à notre insu.

Mechanical Turk, option proposée par Amazon : système de sous-traitance à des êtres humains de tâches basiques. Ex : indiquer toutes les photos où quelqu'un sourit. De plus en plus, les algorithmes peuvent remplacer les êtres humains. Création de base de connaissance. La numérisation commence en 1949 : le prêtre Roberto BUSA veut numériser les œuvres de St-Thomas d'Aquin avec l'aide d'IBM (machines à écrire) et travailler à l'Index Thomesticus dans le but de pouvoir faire des recherches sur cette œuvre. Pas une édition page à page. Le premier qui permet d'accéder au texte intégral date de 1971 par Michael HART avec le projet Gutenberg à l'université d'Illinois. Il numérise la déclaration d'Indépendance des USA à la main sur un ordinateur (très précieux) en caractère majuscules. Projet qui s'est développé et qui existe toujours avec 53 000 œuvres, survivant à beaucoup d'évolutions technologiques. L'ABU (la bibliothèque universelle) est un projet similaire, arrêté aujourd'hui mais ayant fonctionné de 1993 à 2002. On trouve également le projet classique des sciences sociales (Canada) avec 6000 œuvres originales, établi par des bénévoles depuis 2000. Finalement, Wikisource est un projet de Wikipédia née en 2003 (au départ nommée Sourceberg) et le plus important. Ils sont tous gratuits, l'accès aux œuvres ne coûtent rien puisqu'elles se sont élevées dans le domaine public. Les droits patrimoniaux abolis, tout le monde peut se servir de l'oeuvre sans autorisation. Grande entreprise avec une multitude de textes, sous différents formats (HTLM, Epub…). Il faut toujours sourcer ses informations. Différent de Wikibooks qui sont les manuels écrits par les Wikipédiens. 200 000 ouvrages libres et gratuits. En 2004, Google lance GooglePrint, devenu aujourd'hui GoogleBooks, dans le but d'avoir la plus grande base de connaissance.

DROIT D'AUTEUR FRANCAIS :

→ droit moral (paternité : éternel et inssécible)

→ droit patrimonial (exploitation, payante ou gratuite) qu'on peut céder dans certaines conditions à l'éditeur. Cession exclusive ou non exclusive. 70 ans après la mort du propriétaire, ces droits deviennent obsolètes et toute personne est en droit d'exploiter l'oeuvre. Ex : Mein Kampf est entré dans le domaine public en 2015 mais à contrario Le Journal d'Anne Franck, morte en 1945 mais dont le texte fut modifié par son père plusieurs années après, n'est pas encore entré dans le domaine public. L'entrée dans le domaine public reste très compliqué et personnel. Au Canada, la durée est différente (50 ans). Dans l'édition numérique, l'entré dans le domaine public dépend du serveur usité.

Différent du brevet (qui doit être déclaré, décrit et totalement nouveau). L'oeuvre est elle distinguée par son originalité.

Opt in : mécanisme qui intègre les gens qui ont donné leur accord explicite

Opt out : mécanisme qui permet aux ayant-droits de déclarer vouloir sortir du système. C'est un système illégal qui s'appuie sur le droit de courte citation : n'importe qui a le droit d'exploiter un extrait de petite taille d'une œuvre, pourtant protégée (taille arbitrée par les tribunaux, souvent considérée en fonction de la taille de l'oeuvre d'origine). Googlebooks l'a utilisé. RELIRE a fait la même chose, comme projet de numérisation porté par le SNE, la BNF et le CNL sur les œuvres indisponibles avec l'argent de l’État, le PIA. Les auteurs doivent aller voir d'eux-même et vérifier si leur texte est exploité. Ils ont alors 6 mois pour s'opposer à cette exploitation. Certains procès sont nés de ce système, condamnant les sites l'usuitant à un non-respect du droit d'auteur.

La Zone Grise couvre des milliers d'œuvres inexploitées (indisponibles, au pilon…) mais toujours protégées par le droit d'auteur. Le coût de transaction (chiffre et temps) est le dialogue épistolaire jusqu'à la signature de cession de droit. Plus ou moins coûteux selon le nombre d'ouvrages à éditer.

2) L'édition nativement numérique[modifier | modifier le code]

Cette édition est née dans l'univers numérique, datant de la PAO des années 80.

-> PAO

-> CMS (Content Managing System) logiciels de gestion de contenu, moteurs de site web comme WordPress (CMS le plus utilisé au monde) ou encore MediaWiki. Ils offrent une chaîne de publication qui débouche sur la possibilité de mettre en ligne des contenus en respectant un workflow véhiculant l'information. Ils séparent la forme du contenu le plus possible. Ils permettent également de structurer l'information (les métadonnées et les contenus). Donner des mots clés, qualifier la langue, créer une table des matières, des intertitres… Ils gèrent souvent une interaction avec le lecteur, capable d'ajouter des commentaires, voter, mettre des étoiles… Un wordflow ouvert acceptera les commentaires a posteriori contrairement au workflow fermé qui devra valider les commentaires a priori. Ils permettent finalement de hierarchiser les utilisateurs et de leur affilier des rôles (par identification : degré zéro de distinction dans l'utilisation du CMS). Modelisation des différents droits. Certains CMS permettent à plusieurs individus de travailler en même temps sur un même document, édition collaborative. Certains autres gèrent la gestion de version, en numérotant chaque modification et créant des FORK (variantes du même document).

Les grandes principes des CMS :

  • Séparation de la forme/du fond et de la maquette, Separation of content and layout (égal à un compositeur sur édition papier ou intégrateur web dans l'édition numérique qui s'occupe de la maquette web, produisant du code, squelettes ou templates : œil, créativité et capacité de créer du code). L'internaute, lui, verra toujours la même page.
  • Les métadonnées ne sont généralement pas rendues publiques. Un seul document et plusieurs visualisations possibles (XHTML, PDF, CSS pour impression, CSS sans habillage destiné aux déficients visuels et aux machines de système de synthèse).
  • Les CMS peuvent aussi s'adresser à des machines et créent donc des visualisations pour elles. LODEL produit des fichiers supplémentaires avec pour objectif de moissonnner des contenus. Cet Harvesting rapatrie les pages web par une interopérabilité avec l'idée que deux machines puissent opérer entre elles. Le DC -Dublin Core- donne des métadonnées au moteur de recherche (format de metadonnées). Le OAI PMH (Open access initiative-protocole for metadate harvesting) est un standard qui connecte la liste des titres des artistes avec leur œuvres, c'est un protocole de communication qui permet aux machines de se comprendre. Ce sont toutes des règles de conversation entre deux machines. Le BookServer (ou OPDS : Open publication distribution system) est un autre protocole (description de la façon dont on va parler) construit pour distribuer des catalogues de livres. Ecosystème avec des catalogues de librairies, d'éditeurs récupérables par des acteurs les affichant dans des terminaux. Les CMS produisent un site web et plusieurs variantes à destination des internautes ou des logiciels. De nouveaux protocoles et formats sont développés tous les jours. Le W3C est un organe qui normalise les formats du web (harmonisation et coordination). Pour entrer en contact avec un serveur, ALDIKO (producteur de service) a besoin de l'URL du CMS pour attaquer le service et de connaître le fonctionnement du protocole.

LODEL connaît des notions éditoriales plus avancées que WordPress. Conteneurs sophistiquées, des collections, des médiathèques, des sous-parties (conteneurs) et articles, chroniques, notes de lecture, billets (contenu). Degré de finesse éditoriale. Aborescence thématique. Il y a ici un document source (fichiers déjà édités, venant de la PAO ou de Word) qui convertit en base de données.

-> Le CMS est un logiciel, le serveur est Apache.

Le stylage

  • Fichier PAO (INDESIGN) : exportation et Orphan Notes
  • Fichier bureautique (Word) : nettoyage et structuration

-> CSS (Cascading Style Sheet)

Une page HTML est conduite par le HTML et par le CSS (éléments d'apparence les plus sophistiqués). Le CSS est un habillage de la forme HTML, c'est une feuille de style qui règle les couleurs, la forme, la police de caractère des éléments…

CSSZenGarden est une version plus avancée de la feuille de style. La CSS peut ajouter des images mais le fichier HTML(niveaux de titres, cellules...) reste le même. Elle permet aussi de gérer des éléments interactifs (images animées).

OJS (Open Journal System) est un CMS centré sur le worklow (circuit de traitement de l'information) scientifique. Modelisation du processus éditorial et décomposition en différentes étapes (soumission, évaluation, édition, programmation de la publication, construction de la table des matières). L'auteur peut déposer directement une proposition d'article, le secrétaire de rédaction en reçoit une notification, il consulte un expert pour demander son accord et verse son évaluation en posant des questions à l'auteur qui propose un nouvelle version… Circuit complexe terminé par l'acceptation de l'article préparé, ensuite mis en page et programmé pour publication. Adapté à des revues avec des centaines de soumissions par an.

Il faut choisir le bon CSS, correspondant aux demandes, aux moyens de l'activité entreprise. Le web est produit à 99 % par des CMS.

SSP (Single Source Publishing) : idée selon laquelle on ne va plus avoir qu'un seul fichier sur lequel travailler pour produire de multiples sorties. Format pivot comme matrice de toutes les sorties du contenu traité. Une seule source pour gérer toutes ces finalités. Les organisation éditoriales vont dans cette direction.

TEI (text encoding initiative)

METOPES (chaîne créée par Dominique Roux, PU de Caen) : production depuis le fichier source XML TEI) du format PAO par des traitements, ainsi que tous les formats numériques (Web, Notices Onix, PDF, Papier, ePub, Marc, HTML…).

Le fichier central gère les balises, fait pour être lu pour une machine et qui va engendrer les différentes versions.

-> Les systèmes d'information (avec le CMS à l'intérieur)

Ils regroupent l'ensemble des informations (données ou métadonnées) dont un système dispose. Ex : système de la SCNF est très complexe. L'utilisateur agit sur ce système d'information (UX : expérience utilisateur). Bilbo ajoute une surcouche d'informations sur des informations déjà bien établies pour finaliser les interfaces Web finales. Aujourd'hui, on constaste une complexification des systèmes.

Freemium d'Open Edition : HTML est en open-access mais le PDF et l'ePub sont payants.

Ces systèmes se déploient ainsi :

  • Interfaces de consultation publiques et professionnelles : produits finis destinés aux partenaires et usagers (au lecteur lamba, la librairie ou la bibliothèque). Ils sont tous produits par les systèmes d'informations.
  • Interfaces d'édition et d'ajout de contenus : Certains éditeurs utilisent le TEI et XML (renoncement à Word et à la PAO) : 10% des producteurs de contenu. Les 90% restant utilisent OpenText (stylage dans word puis alimentation de l'interface). Certains autres utilisent des formulaires (CNS, interface classique, assez facile à utiliser pour des données faiblement structurées). 3500 bases de données stockées.
  • Applications partagées : centralisation de l'information : le core, c'est une base de donnée toutefois optimisée pour faire de la recherche. Ecrasement de l'information des 3500 bases dans une seule.

-> L'édition mobile

L'édition mobile peut être un débouché du CMS, du SSP mais c'est souvent produit à la main (enregistrer sous...). L'Epub est un format et non un protocole. L'Epub a été crée pour son format ouvert (toute sa documentation est disponible) et historiquement proche du Web (non destiné à l'impression), zippé et téléchargeable avec un format détachable. Il enferme le livre dans une coquille autosuffisante (ZIP). Il est également recomposable (comme l'antithèse du PDF, très difficile d'usage pour l'utilisateur, inadapté à la vision multisupport). Il faut toujours se placer en utilisation d'utilisateur diverse. L'utilisateur peut recomposer lui-même les pages grâce à un système qui connait les paragraphes, la séparation des mots...

Le responsive design (reflowable) adapte le contenu au contenant (changement de taille, déplacement des icones...). Le designer s'adapte alors à la diversité des écrans, à une dizaine de résolutions différentes. Beaucoup de contraintes graphiques en découlent.

IDPF (International Digital Publishing Forum) produit les Epub, regroupant les éditeurs et les technologiciens. En ce moment, ils travaillent sur l'Epub 3 (intégrant la vidéo, l'écriture verticale, les métadonnées multilingues, consultation feuilletage inversée avec les mangas ou l'arabe, les polices embarquées : polices de caractère originales...). L'organisme vient de rejoindre le W3C.

Pour ne pas perdre ses informations, il faut toujours vérifier d'où elles proviennent.

3) L'édition nativement en réseau[modifier | modifier le code]

Elle est relativement faible en quantité : édition qui n'est pas née sur l'ordinateur mais sur le web (forums).

Les statistiques[modifier | modifier le code]

AWSTATS : Statistiques de valeur (visiteurs différents, visites, pages...) et rétrospective de l'année (historique mensuel), jour après jour, par pays, par durée, par pages les plus lues... Possibilité d'exporter des tableaux chiffrés. Les affluents (sites qui apportent de la fréquentation, referer) permettent de voir quel site mène au blog (Google, Facebook, Twitter...).

Le texte électronique idéal[modifier | modifier le code]

Il y a neuf points fondamentaux qui définissent le texte électronique idéal :

  • Le document doit être lisible :

1) Il doit être décrit comme un format ouvert : format dont la documentation est publique (ex: XML sémantisé, ePub).

2) Il faut qu'il soit recomposable.

3) Il faut qu'il soit consultable (DRM + supports + codage)

Le Code ASCII (années 70-80) permettait de décrire tous les fichiers, quelque soit leur format. Aujourd'hui, UNICODE l'a remplacé en unifiant les codes de caractères qui existent sur la planète (dizaine de millions de caractères différents).Ce projet permet d'être compris partout et à tout moment. En ce moment, sont ajoutées les langues disparues, les langues de fictions, les émoticônes...

  • Le document doit être manipulable :

4) Il doit être indexable et cherchabale (contrairement aux livres applications).

5) Il doit être copiable et collable.

6) Il doit être annotable et inscriptible. Où est stockée l'annotation et selon quel format ?

Le rétrolien : technologie d'annotation satisfaisante (mais pas encore optimale).

  • Le document doit être citable :

7) Il doit être identifiable. Le DOI (digital object identifier, permet de décrire un document unique, seulement pour les ressources électroniques) est une solution élaborée pour corriger ce problème. A ce sujet, lire Jean-Luc Archambaud.

8) Il doit être correctement décrit.

Dublin Core : description possible avec 15 propriétés de l'ensemble des informations du monde. Les 15 propriétés sont le titre, le créateur du document, le sujet et mots clés, la description, l'éditeur, le contributeur, la date,) Pour entrer dans des finesses, on peut avoir accès au Dublin Core qualifié.

9) il doit être inter-opérable : il faut un protocole, un format, un vocabulaire contrôlé…

Le vocabulaire contrôlé ou schème[modifier | modifier le code]

Il permet de décrire dans tous les formats comme Dublin Core, Dewey ou Mesh mais pas seulement. Dans un système d'interopérabilité, les systèmes doivent pouvoir se parler entre eux (problématique de la tour de Babel). Le vocabulaire contrôlé est un référentiel, comme un dictionnaire.

Exemple : RFC (request for comments) 46 46 est une norme datant de 2006 pour définir les langues, c'est un vocabulaire contrôlé (qui existe à l'intérieur de formats comme Dublin Core ou autres). Beaucoup proposent des commentaires par rapport aux normes déjà existantes, les publient en fichier TXT, très lisible et très conservable car très basique, dans des listes de discussion, les soumettent aux autres professionnels et s'ils sont d'accord, tout le monde suit cette norme à partir de là.

Il est rendu public. C'est un système horizontal, n'importe quel professionnel peut intervenir et faire le choix d'inventer une nouvelle norme, une nouvelle langue, c'est une norme par CONSENSUS. Contrairement à la norme ISO, qui a été faite sur un mode vertical, les règles ont été créées par des instances, organisme centralisé, plus autoritaire, qui vient d'en haut et auquel les professionnels n'ont pas pu participé.

Il y a des centaines de vocabulaires contrôlés.

Les trois couches (par coeur)[modifier | modifier le code]

Ce sont des protocoles qui permettent de faire communiquer des machines entre elles (comme oai pmh ou http, https, le navigateur communique avec le site web).

Elles échangent des fichiers qui obéissent à des formats (html pour le protocole http, Dublin Core pr oai pmh par exemple) et à des systèmes d'encodage de caractères normés (unicode, ascii, koi8U).

Pour que le document soit intelligible dans sa zone de métadonnées, on doit aussi obéir à des vocabulaires contrôlés (rameau en bibliothèque, rfc 4646 pour les langues, dewey...). Ils sont indépendants du format.

Le vocabulaire contrôlé est propice à être utilisé dans le troisième item du Duclin Core SUBJECT.

Les 15 propriétés/items du Dublin Core[modifier | modifier le code]

On peut répéter tous les items un nombre infini de fois, ou on peut aussi en sauter certains, c'est très libre.

  • 4) Description : résumé, table des matières, texte libre (beaucoup de descriptions possibles)
  • 5) Publicateur du document : nom d'une personnage, d'une organisation, d'un service à l'élaboration du document (là aussi, on peut utiliser des vocabulaires contrôlés : l'ISNI, code international défini par la norme ISO, utilisé notamment par Persée)
  • 6) Contributeur : nom d'une personne qui a contribué (traducteur…). Il y a ORCID, où ce sont les auteurs eux-même qui donnent leurs données. Les experts peuvent directement contribuer à la source. Il s'agit de l'opposé des bibliothèques qui veulent tout faire par elles-même.
  • 7) Date : de publication, de réédition… Assez imprécis, pas directif sans véritables contraintes.
  • 8) Type de document : on nous recommande d'utiliser le vocabulaire contrôlé DCMI TYPES.
  • 9) Format : physique ou électronique, type de média ou dimensions (taille, durée…), matériel et logociel pour accéder au document, on nous recommande d'utiliser les types MIME.
  • 10) Identificateur non ambigu : on nous recommande d'utiliser un système de référencement précis, URI par exemple. C'est un identifiant unique pour chaque document, non ambigu, ISSN pour revues, l'ISBN pour un livre, pour un film Internet movie data baseDOI pour un document numérique (qui pointe vers une URL, l'URL pouvant changer mais pas le DOI, plus stable. Et le DOI fait des résolutions de noms, convertit les noms en URL), URL pr les pages web… Dans OpenÉdition, il n'y pas d'identifiant unique pour les auteurs mais il y a en revanche des documents. Dans Persée, on trouve les deux. Il y a des identifiants uniques partout dans le SI de OpenÉdition, à toutes les étapes, dans les 3 zones.
  • 11) Source
  • 12) Langue : on doit utiliser le vocabulaire contrôlé RFC 4646
  • 13) Ressource liée : il faut utiliser une recommandation formelle des ressources, par exemple leur URI. On peut pointer vers la fiche du livre global…
  • 14) Coverage : portée du document. On a un grand nombre de vocabulaire contrôlé qu'on peut utiliser : TGN, ISO3166, POINT ou BOX pour la porté spatiale, PERIOD pour la portée temporelle, portée juridique… (une période étudiée dans un livre, la fréquence hertzienne des sons si on enregistre des sons, Afrique si c'est un livre qui parle de l'Afrique…)
  • 15) Droits liés à la ressource : un copyright, un lien vers le détenteur des droits…
Creative Commons[modifier | modifier le code]
On est du côté détenteur de droits. Il peut s'employer à l'intérieur du droit d'auteur ou du copyright. Le principe est de permettre d'utiliser une oeuvre sans contrat. Car si on veut contrat, il y a des coûts de transaction lourds. L'auteur peut décider de donner plus de droits à l'utilisateur que le simple droit d'auteur, pour cela il déclare une licence sur son oeuvre.[modifier | modifier le code]

Une licence n'est pas un contrat :

  • 1) on choisit dans une liste les droits qu'on accorde ou refuse, à la carte.
  • 2) la licence prend 3 formes : une lisible pour l'humain, une autre dédiée aux tribunaux, une troisième dédiée aux ordinateurs.

C'est ainsi que Google peut trier entre les images réutilisables ou non, mais dont on doit bien spécifier la paternité.

La licence est une métadonnée juridique insérée dans la description, par exemple dans Dublin Core ("rights", le 15e item).

Les bonnes pratiques du web[modifier | modifier le code]

Elles sont à respecter pour tout ce que l'on crée. OPQUAST donne les bonnes pratiques du Web : un site web et un livre, des formations, des certifications…

APPRENDRE DES EXEMPLES (AU MOINS DIX) PR LEXAM (voir sur le site opquast)

  • On trouve des critères généraux :

- Chaque image décorative doit par exemple être dotée d'une alternative textuelle appropriée, description, etc.

- Les applications sons et animations doivent pouvoir être mis en pause

Mais également des

  • critères pour les mobiles
  • critères relatifs aux SEO
  • critères liés aux performances
  • critères liés à l'écologie

ATTENTION le cms est un logiciel, le serveur c'est Apache