Utilisateur:Vassilissalissa/Brouillon

Cours n°1 : L'Édition électronique

Les humanités numériques :

domaine de recherche entre les sciences humaines et sociales et le numérique. Les chercheurs en humanités numériques, comme Marin Dacos, sont appelés, selon l'expression de Pierre Mounier, des 'ornithorynques', individus possédant des connaissances hybrides qui représentent une plus-value unique.

Le CLEO

Marin Dacos est le fondateur et le directeur du CLEO, centre pour l'édition électronique ouverte. Comprend plusieurs plateformes : OpenEdition Books avec des livres numériques, Revues.org avec des revues scientifiques, Hypotheses avec des blogs, Calenda.

Le texte numérique : Il y a un changement de nature essentiel entre le format papier et le format numérique. On parlera plus de texte et d'édition numérique que de livre numérique pour ne pas réduire le champ de recherche car le texte numérique peut prendre plusieurs formes : Les revues scientifiques, la presse en ligne, les ebooks (Ibooks, Fnac, Amazon/ Gallica, Persée, Google books pour les numérisation de livres), et enfin Wikipédia.

Les 7 caractéristiques du texte numérique

Le texte numérique possède 7 caractéristiques :

1) Le texte numérique est quasiment immatériel :

Immatériel au sens où le poids physique n'entre plus en jeu, et il n'y a plus besoin de bois car plus besoin de papier. Néanmoins, nécessité de fibre optique par exemple, d'un support (ordinateur, tablette...). Nécessité également d'un 'Data Center', ou centre de données. Même si c'est presque immatériel, c'est cependant assez coûteux. De plus les environnements techniques sont de moins en moins "bidouillables". La "bidouillabilité" est un terme et concept scientifique qui désigne la capacité et la possibilité de manipuler et de remplacer soi-même les pièces d'une machine électronique. Or aujourd'hui, la manipulation d'environnements techniques nécessite l'intervention de spécialistes : les Mac récents sont entièrement soudés, la batterie ne peut pas être changée, etc. L'utilisateur est en fait devenu un "loueur". Il ne possède plus ce qu'il achète, mais est condamné à une utilisation de ses machines sur durée déterminée.

2) Le texte numérique circule avec une grande fluidité.

3) En tant que quasiment immatériel, le texte numérique est reproductible quasiment sans coût :

Cependant il y a toujours un coût électrique, de consommation d'énergie (par exemple pour les mails, il est important de supprimer ses mails dans un but écologique car même les mails stockés non ouverts depuis longtemps, au fond de notre boîte mail, consomment de l'énergie). Un simple "clic" peut polluer. Le coût vient aussi de l'utilisation des logs (vient du mot journal). Un log est une sorte de journal de bord qui enregistre et stocke toutes les interactions entre internautes et serveur (les visites, les pages consultées, les images sur lesquelles on clique...). Le log identifie aussi chaque visiteur, son adresse IP, sa localisation physique, les URL consultées... Si un site est important, il doit y avoir plusieurs machines disponibles pour que ces logs existent et fonctionnent (donc coût matériel) pour pouvoir répondre à la demande et que le serveur ne soit pas trop lent. Les plateformes permettent aux petits éditeurs de se regrouper s'ils n'ont pas la capacité d'accueillir un flux important de visites, et donc un nombre important de machines pour les logs. Mais cette pratique accroît le phénomène de concentration sur les plateformes, évidemment détenues par les puissants Facebook, Google..., soit une concentration du savoir et du pouvoir.

4) Le texte numérique peut se doter de couches extérieures successives :

- Les métadonnées : ce sont des données sur les données (titre, auteur, ISBN...) Elles sont très faciles à mettre en place pour le texte numérique, contrairement à ce qui se passe dans le monde des bibliothèques, avec leur multitude de formats (Marc...) et qui n'a pas changé depuis les années 70.

- Annotations individuelles : surlignages électroniques, commentaires... Il peut y avoir aussi des annotations en ligne partagées et visibles par tous. Des annotations privées ou publiques. Il est également possible pour les lecteurs de faire des commentaires (au niveau du volume global du document ou au niveau du paragraphe, du mot = "annotations fines"...). On peut également attribuer des notes à des ouvrages (sur les sites commerciaux tel Amazon, Fnac, ou sur les réseaux sociaux du livre tels Babelio, Librarything...). Ces sites proposent des classements avec des étoiles, des résumés d'ouvrages. Ce sont des nouvelles plateformes de recommandations. Le problème est qu'il n'y a pas d'intéropérabilité : chaque site est indépendant et ne partage pas ses données. C'est un système de silos indépendants les uns des autres, et comme l'information est crowdsourcée, cad qu'elle provient du nombre de visites sur le site (plus le site est visité et que les internautes participent aux commentaires et à la vie du site, plus le site possède d'informations sur les livres et textes en question, qu'il ne partage pas avec les autres sites, gros et puissants comme lui, ou petit comme le site d'un éditeur), un phénomène de concentration de l'information et du savoir, mais aussi du pouvoir, se met là aussi en place, ce qui est dangereux. Un petit éditeur, pour savoir ce qui est dit sur ses livres par exemple, doit se rendre à chaque fois sur le site du puissant Amazon ou Fnac, puisque rien n'est redirigé vers son petit site à lui, alors qu'il est pourtant l'un des premiers concerné. La circulation d'autres informations existe, notamment concernant la publicité par exemple, beaucoup de sites sont liés entre eux pour cela, mais pas pour les informations utiles comme l'on vient de voir ! (Le Crowdsourcing : est l'alimentation en données, les informations données par la foule quand elle se rend sur des sites (sur facebook, sur amazon...))

Les Cookies

Les adresses IP sont données par les FAI (fournisseurs d'accès à Internet). Soit les ordinateurs ont chacun leur adresse IP, soit le fournisseur d'accès à internet utilise des Proxy (qui permettent de donner la même adresse IP à un groupe de personnes pour ne pas avoir à utiliser beaucoup de bande passante à condition que les mêmes utilisateurs aillent consulter les mêmes sites). Cependant les sites veulent en savoir plus sur leurs utilisateurs que leur adresse IP (qui peut cacher plusieurs personnes. Ils veulent savoir précisément si un utilisateur s'est déjà connecté). Pour cela, les sites créent des cookies. Chaque site, s'il le souhaite peut découvrir si des utilisateurs reviennent. Les cookies sont stockés sur le disque dur de chaque ordinateur. Les cookies sont liés à l'ordinateur, la tablette de chaque utilisateur internaute. On peut supprimer les cookies mais si on se crée un compte (Amazon, etc.), les sites feront le lien entre le compte et les cookies antérieurs. Facebook n'a pas besoin de cookies ou quasiment pas car on est toujours connecté. Cela permet de vendre de la publicité ciblée, de cerner nos goûts et nos envies d'achats pour nous faire consommer davantage.

Voir Lightbeam : une extension libre pour Firefox qui permet de visualiser les traces qu'on laisse sur internet sans le savoir, par le biais des connections et des interactivités entre les sites (pas visibles pour un simple internaute qui ne croit avoir affaire qu'à un seul site), quelles données sont envoyées, entre quels sites... Des mégarégies publicitaires contrôlent ces échanges d'informations sur les internautes entre les sites. Beaucoup de sites sont interconnectés, ils ont la même régie publicitaire, et donc échangent des informations (pour des raisons économiques ou par intérêt), sans qu'on le sache. Pour ce genre d'infos, les sites sont connectés entre eux, mais par pour les données concernant les livres et textes numériques (silos) !

5) Le texte numérique est hypertextuel :

C'est une capacité très importante et nouvelle. Elle a été conceptualisée dans les années 1970 par Tim Berners Lee, l'inventeur du Web. Il y a une différence entre Internet et le Web. En 1970 les chercheurs et scientifiques avaient besoin d'échanger des données entre eux. C'est le tout début de la naissance des ordinateurs. Ces chercheurs ont d'abord interconnecté leurs ordinateurs et créé le réseau Arpanet. D'autres réseaux ont été créés. Puis dans les années 1980, ont pensé à relier tous ces réseaux déjà existants : c'est Internet.

--> COUCHE 1 : La technologie utilisée est le TCP/IP

Le principe est une transmission de paquets de données. Si on envoie un fichier txt d'une machine vers l'autre, c'est difficile car s'il y a une coupure sur la ligne, il faut renvoyer le fichier. C'est pour cela qu'on a décidé de découper les fichiers en paquets. Au lieu d'envoyer un gros fichier, on envoie plusieurs petits paquets, jusqu'à ce qu'ils arrivent. Les paquets sont envoyés à des routeurs, et quand tous les paquets sont arrivés, le fichier final est prêt. Les paquets peuvent être envoyés sur différentes routes, sur différents routeurs. Il est donc très difficile de détruire un réseau car il y a plusieurs accès à chaque fois. C'est à la base une stratégie militaire. Cette sous-couche du réseau est active tout le temps.

--> COUCHE 2 : Les DNS : Domain Name System

C'est la 2ème couche, couche de plus, qui gère la conversion entre des noms de domaines et des IP. On peut voir cela sous la forme d'un tableau avec comme entrées les domaines et en face leur adresse IP. Par exemple "yahoo.fr" correspond à l'adresse IP "77.238.24..." : il est plus facile pour les internautes de se souvenir du nom de domaine que des l'adresse IP composée de chiffres. De plus, si l'adresse IP change, le nom de domaine reste le même, donc pas handicapant pour les internautes. Il peut y avoir une latence DNS de 24 à 48h, car il y a 12 serveurs DNS racines sur la planète et des milliers de copies, donc il faut un peu de temps. Le temps de modifier un serveur, les serveurs de proximité seront opérationnels dès le début, mais il faut jusqu'à 48h pour que tous les serveurs dans le monde soient à jour. Pendant la manipulation, un Chinois et un Marseillais pourront accéder à un site, mais le Chinois ne verra pas la même configuration que le Marseillais. Quand des régimes en guerre ou dictatoriaux veulent couper des réseaux sociaux, ils coupent les serveurs DNS locaux. Pour contrer cela, il faut se connecter à des serveurs extérieurs.

--> COUCHE 3 : Les URL : C'est une sous-couche à l'intérieur des DNS, qui se lit de droite à gauche puis de gauche à droite.

Exemple : Http://blog.marsactu.fr/gaudin.html

".fr" est un TLD (top level domaine). Chaque TLD est géré par une instance. Ici c'est l'État français qui accorde à Marsactu le droit de se nommer ainsi (mais il peut y avoir .org, .amu...). "Marsactu" est le nom de domaine loué au TLD. Le nom de domaine est la marque visible par l'internaute.

"blog." : Marsactu a l'autorité de tout ce qui est à sa gauche. C'est le sous-domaine.

"Http" : protocole. https: si sécurisé. Règle pour échanger les données.

Puis de gauche à droite : "gaudin" : ici c'est de la classification plus fine dans le site. Attention aux arnaques ! "caisse-epargne.mabanque.TU", c'est du fishing. "mabanque" a demandé l'autorisation de se nommer ainsi (de porter ce nom de domaine) à "TU", qui sont les îles Tuvalu...

--> Puis, la dernière couche, le WEB : le web se compose d'un 'triptyque avec http, Firefox, Html'

Le Web ne résume pas tout, il s'agit seulement de la navigation sur les sites. Par exemple, les "bittorent" pour télécharger entre particuliers (peer to peer), ne font pas partie du Web. Il y a environ 10 % des sites qui changent d'adresses tous les mois, ce qui signifie que le Web est structurellement instable. De plus toutes les pages web sont notées avec le PageRank (c'est un système de Larry Page, l'un des fondateurs de Google). C'est un indicateur de popularité, notoriété, de chaque page web de chaque site. Cela va permettre à Google de classer les sites de 0 à 10. Plus la note est haute et plus la visibilité du site en question est importante. Cela est calculé par rapport au nombre de liens qui pointent vers les sites. On considère que s'il y a 1000 sites qui pointent vers un site extérieur, ce sont 1000 points vers ce site, et donc autant de points de popularité.

6) Le texte numérique est indexable, le plus souvent :

--> Robots.TXT :

Fonction d'indiquer au moteur de recherche (google par exemple) ce qu'il a le droit d'indexer ou pas d'un certain site, cad ce qu'il peut afficher comme contenus dans ses pages et ce qu'il doit faire disparaître de la visibilité des internautes. Pour consulter cela : adresse du sit en question + Robots.TXT . Ex : www.lemonde.fr/robots.txt Ainsi les sites communiquent avec les moteurs de recherche et leur indiquent qu'ils peuvent indexer ou non des images, du texte, des petites annonces etc. (leur contenu).

-Panda :

Algorithme qui détecte et pourchasse les firmes de liens (qui truquent les résultats de Pagerank en vendant des liens massifs sur beaucoup de sites pour pouvoir améliorer leur note de popularité sur Pagerank). Panda permet de repérer cela, et les sites qui utilisent ces pratiques auront de mauvaises notes, seront sanctionnnés. Panda pourchasse aussi les contenus dupliqués, que l'on retrouve à deux endroits différents sur le web (le spamdexing) : ainsi certains sites ne vont pas indexer certains contenus pour éviter d'avoir une mauvaise note. Par exemple, le Monde interdit l'indexation des petites annonces sur son site car il est probable que ce soit un autre site qui lui vende ces annonces et qui lui interdit donc de les indexer.

--> Attention, les fichiers EPub sont très différents des livres-applications, ou e-book : le livre application est un logiciel (mélange de forme et de contenu au même endroit) avec une durée de vie réduite. Il est lisible sur tablette, Iphone, mais au bout de qqles temps, on ne pourra plus le lire, car l'environnement numérique aura changé, celui qu'on utilisait deviendra obsolète (comme les tout premiers livres-appli sur CD-Rom !). On est dépendant du système et le livre-application doit s'adapter à tout changement. Son espèrance de vie technique est de 6 mois ou 1 an, alors que l'EPub est bien robuste. De plus, le livre-appli n'est pas indexable, car il est à l'image d'une boîte noire, clos sur lui-même. Donc ni pérenne ni universel.

--> La fouille de texte ( TDM, text and data mining) : indexer des contenus et créer des contenus grâce à cela.

Ex : sur OpenEdition Lab, l'algorithme BILBO

Des milliers de références bibliographiques au bas des articles qui ne sont pas cliquables, pas hypertextualisées, pas exploitées par l'ordinateur, pas informatiquement liées. Soit c'est un travail manuel mais c'est chronophage. Soit on crée un algorithme, BILBO. Il détecte les références (on lui a appris à détecter et reconnaître ces dernières par leurs formes), les annote, les structure en XML. Bilbo demande à Cross Ref (agence spécialisée dans la recherche) si la référence bibliogr existe électroniquement. Si oui, Cross Ref donne un lien hypertexte, le DOI, qui sera inséré dans le texte et mènera vers un autre site de recherche scientifique (et ps vers ggogle books par exemple car ce dernier n'achète pas de DOI à Cross Ref). Le DOI (digital object identifier) est rattaché à une URL. Le DOI est le plus important car l'URL peut changer. Le DOI est affiché en fin de référence sous la forme d'un lien cliquable.

Autre fouille de texte : "Review of books"

Le but est de relier les compte-rendus de revues.org et d'hypotheses.org avec les livres en ligne. Il faut d'abord qu'un robot identifie les textes qui sont des comptes-rendus et écartent ceux qui n'en sont pas. Pour identifier des compte-rendus : la signature lexicale des compte-rendus est différente de celle des articles. On peut le faire informatiquement en comparant des articles et des compte-rendus sur des points tels que les personnes citées, les date, les lieux cités... On étudie la répartition des entités "personnes", "lieux", "dates" dans chacun des textes. Des courbes se dessinent et donnent la tendance générale (Ex : Plus de personnes citées à la fin d'un compte-rendu). Ainsi, informatiquement, on pourra savoir (à 8% près), si, même avant de le lire, il s'agit d'un article ou d'un compte rendu. C'est donc de la fouille de texte industrielle, des algorithmes travaillent sur le contenu. Ils ont pour mission de donner du sens et de créer des liens. OpenEdition Review of Books permet par exemple de lier des comptes-rendus à leur livre. C'est de la TDM : text and data Mining, par exemple sur Deezer c'est "vous pourriez écouter cela...". Ce sont des technologies de plus en plus utilisées dans les domaines du texte électronique, mais demande beaucoup de moyens financiers en recherche de développement, donc pousse à la concentration.

7) L'économie de la rareté est remplacée par l'économie de l'attention :

On fait maintenant la différence entre analogique et numérique. L'analogique est ce qui est physique, de l'AFK (away from keyboard). Un bien physique analogique est rival : si on le donne on le perd, contrairement à un fichier, un texte numérique qui peut être démultiplié. Mais la connaissance est non rivale : on la transmet mais on ne la perd pas, telle la flamme d'une bougie. Le livre papier, analogique, transporte de la connaissance, non rivale, dans un contenant rival, et toute son économie est basée sur cela. Le texte numérique et la connaissance ont donc les mêmes propriétés, ils sont tout deux non rivaux. Mais cela est trop complexe à appréhender, et casse le modèle économique auquel l'humain est habitué, donc on est obligé de recréer de la rivalité.

Pour recréer de la rivalité dans la création des livres électroniques : mise en place de la technologie DRM (digital rights management) ou MTP (mesure technique de protection), un système de gestion des droits. Un pdf ou e-pub est en clair au départ (on l'ouvre, on le lit). Cependant pour le protéger, pour le rendre rival, il est rendu illisible au bout d'un certain temps, quand l'accès n'est pas autorisé, il est verrouillé. Il faudra un logiciel de DRM qui le déverrouillera une fois qu'il considérera qu'on a les droits. Le DRM crée de l'illisibilité. Il pourra par exemple rendre accessible le fichier pendant une certaine période de temps, l'heure de la première lecture est donc très importante. Exemple de 'logiciels qui gèrent des DRM : Ibooks ou encore Adobe Digital Editions'. Cela rassure l'éditeur sur le fait que son livre ne sera pas copié et ne se répandra pas, c'est un outil de contrôle. Cependant jusqu'à présent, les éditeurs créaient une relation de confiance entre eux et les lecteurs. Ici le lecteur est d'emblée soupçonné de piratage, comme lorsque sur les livres à une époque était inscrite la mention "le photocopillage tue le livre", interdisant au lecteur de photocopier le livre, mais en introduisant la notion de pillage, comme si le lecteur était considéré comme un malfaiteur alors qu'il est d'abord un acheteur, un client. L'éditeur, en choisissant de mettre des DRM, contribue beaucoup à casser la visibilité du livre. Cela est agressif, radical, on ne peut même pas copier coller. De plus cela accroît la concentration du pouvoir sur très peu de logiciels de DRM, donc mauvaise solution.

Des solutions alternatives aux DRM existent : le WaterMarking. On achète un livre qui va être modifié lors de l'achat, automatiquement personnalisé avec le nom de l'acheteur. Cela trace ce dernier et décourage le piratage, mais laisse le livre entièrement lisible. On peut le lire sur d'autres logiciels si on veut.

Les bien rivaux développent la concurrence entre les utilisateurs, donc constituent une économie de la rareté. Au contraire avec le numérique l'équation est renversée, c'est une économie de l'attention. Beaucoup de documents qui cherchent l'attention des lecteurs potentiels, la production augmentant énormément. Aujourd'hui, ce qui est rare n'est pas les contenus, mais les lecteurs. Il faut repenser les modèles économiques, comme celui de la 'presse'. Il reposait historiquement sur les petites annonces, la publicité, mais érosion des ventes papier et pas beaucoup de revenus numériques. Il y a une profusion de contenus concernant la presse sur le Web, presse gratuite en ligne avec système de publicité pour financer. Si on met en place un barrage avec un système d'abonnement comme péage, le lectorat gratuit va diminuer, donc les revenus publicitaires, qui fonctionnent à l'afflux de visites, va diminuer, car le lectorat ira chercher son infos ailleurs sans souci.

Deux solutions existent :

-les "pièges à clic" : pages de pub racoleuses pour pouvoir attirer l'attention et inciter à cliquer, comme sur Topito. Gratuit et rapporte bien en termes de publicité, mais très désagréable pour les utilisateurs et discréditant pour les sites sérieux.

-Ou par exemple Mediapart : pas de publicité, mais des enquêtes qui font du bruit et qui interéssent les gens, consultables sur abonnement payant. Faire payer de la qualité et de l'inédit.

-Une solution intermédiaire : Le Freemium, contraction de Free et de Premium. Plus il y a d'utilisateurs gratuits et plus il y a de chances pour que des utilisateurs soient intéréssés par une version premium, s'ils ont besoin de plus. La version gratuite doit être satisfaisante en tant que telle (ex : dropbox, skype) Ex : le NY Times. Tous les contenus sont en libre accès pour permettre d'avoir le plus de visibilité possible, et donc le plus de revenus publicitaires. Cependant si dans le mois on lit plus de 10 articles, le 11ème est bloqué (grâce aux cookies qu'envoient le site) sauf si on s'abonne. Cette technique marche très bien, ce n'est pas violent pour les lecteurs, c'est une sorte de faux DRM. Ainsi 8 % des clients sont abonnés et financent l'usage des non abonnés, sans le savoir, mais ils ont des avantages. Cela reconstruit un modèle économique basé sur la fidélité du lectorat. Libération s'y est mis cette année. La presse française avait essayé l'ouverture de certains articles, sans raisons, modèle illisible, avec une barrière mobile. C'est le Moving Wall : rendre accessible des publications à partir d'un certain temps pour le grand public, en exclusivité pour les abonnés.

Dans ce cours, on va apprendre deux langages : Le langage WIKI (wikipédia) et HTML

Language WIKI : Il y a le code et son interprétation. Par exemple : ==Premier essai== --> Titre de premier niveau. Premier essai --> Texte en italique

Dans word il n'est pas nécessaire de coder pour ce genre de choses, c'est le système WYSIWIG (what you see it's what you get), mais on ne contrôle pas, on est dépendant. En codant, on a une plus grande liberté.

Cours n° 2 : Histoire de l'édition électronique

Se décompose en trois étapes, qui ne se remplacent pas l'une l'autre mais s'ajoutent l'une à l'autre, elles cohabitent today. Correspond à ce qu'on dit de l'histoire des médias. Un média nouveau ne remplace pas un ancien : télé ne remplace pas radio, internet ne remplace pas télé...

Liste d'exemples d'éd électro :

revues scientifiques
presse en ligne
Ebooks
blogs
wikipédia
Google books

Dans cette liste :

1) Numérisation : Google books, Gallica, Persée.fr

Passage support analogique à support numérique, en scannant et convertissant le support. Plusieurs types de numérisation : en mode image, comme Gallica, on a le mm objet à peu près, une image, un fac similé de l'éd originale. Mais limites : l'info qu'on a étant imagée, on ne peut pas bcp la manipuler, pas la copier-coller, ni la changer de taille. Deuxième étape : reconnaissance optique de caractère, OCR, interprète les pixels pour reconnaître les formes des lettres, convertit les images en texte. Gallica le fait et Google books aussi. On utilise l'OCR de plus en plus. Pr les revues de sciences hu et soc, on a Persee.fr, installé à Lyon.

L'OCR appartient au genre de traitement comme la fouille de texte, traitement automatique pr produire des infos structurées (TDM Text and data mining).

Le Captcha : on nous demande de faire une reconnaissance optique de caractère, une fouille de texte, avec nos propres yeux, pr savoir si on n'est pas des robots, souvent 2 mots car on est entré dans le "digital labor". Le site nous fait travailler gratuitement pr lui en enrichissant sa base de données (l'ordi ne connaît qu'un mot sur deux, le mot inconnu qu'on lui écrit, il l'enregistre ds sa base de données et s'en ressert après).

Le Mechanical Turk : par Amazon. Des infos sont demandées à des êtres humains, à la place de robots, système de sous-traitance de taches basiques, qui sont ensuite enregistrées par Amazon. Ne lui revient pas cher et crée sa base de connaissance. D'autres utilisent plutôt des algorithmes, qui remplacent les humains.

Quand a commencé la numérisation ?

1949 : Un prêtre, Roberto Busa, veut numériser des oeuvres de St Thomas d'Aquin, avec l'aide d'IBM. Ils ont travaillé sur l'Index Thomisticus. Origine historique de la numé. C'est un index et pas une édition page à page.

1971 : La première numérisation au sens traditionnel du terme avec but patrimonial qui permet d'accéder au texte intégral : Michael Hart, avec le Projet Gutenberg, Université d'Illinois. Il n'avait accès qu'à un seul ordi, quelques heures, car très cher, mais veut en faire partager l'humanité. Il numérise la Déclaration d'indépendance des Etats-Unis, tt en majuscules, sans accents. Ca a continué, grâce aux bénévoles de ce projet, avec 50 000 ouvrages numérisés. Existe toujours et continue à se développer. A survécu à ttes les avancées technologiques.

1993 à 2002 : Projet ABU, la Bibliothèque Universelle, qui s'est arrêté mais dont le contenu est tjrs accessible. Recopiés à la main ou numérisés.

2000 : Le projet Les classiques des sciences sociales est canadien. Par des bénévoles, qui ont reproduit des textes et les ont corrigé, today dispo sur leur site.

2003 : Le plus gros des projets de numérisation est Wikisource, créé par Wikipédia. L'accès aux oeuvres est gratuit, comme pour ts les autres projets. Cela est possible car les oeuvres se sont ÉLEVÉES dans le domaine public. Les droits patrimoniaux sont abolis, tt le monde pt se servir de l'oeuvre sans autorisation, ou des oeuvres pr lesquelles ils obtiennent l'autorisation écrite. Exports de plusieurs formats, surtout HTML, PDF ou Epub. S'appelle Wikisource, car ds Wikipédia, on considère qu'il faut toujours mettre la source de ses infos (d'où le logo iceberg). (à ne pas confondre avec WikiBooks ! qui sont des manuels écrits par les wikipédiens). 200 000 ouvrages libres et gratuits.

2004 : Google prints, qui devient Google Books, créé par Google. Il avait intérêt et besoin d'une big base de connaissances, s'est allié avec les grandes bib américaines et fr, a numérisé, a fait OCR. Bcp de procès avec éd et auteurs

Opt in VS Opt out :

mécanisme ds lequel on intègre ds le projet les gens qui ont explicitement affirmé leur accord (base du droit d'auteur) VS on intègre tout le monde au système, ceux qui ne le veulent pas doivent se manifester après coup.

Google a choisi l'Opt Out. Pas légal. Des concessions, comme les "courtes citations", seul droit qui n'est pas protégé par les droits d'auteur. Droit d'utiliser un extrait de l'oeuvre, mais on peut discuter de ce que veut dire "courtes" citations... En proportion de la taille d'origine. Google affiche toujours l'extrait qu'on est en train de chercher...

Un projet français veut faire pareil, projet RELIRE. Numérisation portée par le Syndicat national de l'Ed, SNE, qui s'appuie sur pb des oeuvres indisponibles. Oeuvres suffisamment anciennes pr avoir été mises au pilon ou plus exploitées, mais pas assez vieilles pour être ds domaine public. Zone grise très grande, qui pose pb. Si on veut exploiter cette oeuvre à nouveau, il faut demander à l'ayant-droit. Mais coût de transaction très élevé.

COÛT DE TRANSACTION

Décrit non pas le coût d'acquisition, d'achat, mais le coût de correspondance. On écrit un courrier à l'adresse de l'auteur, qui nous répond qd il peut, il faut que ce soit la bonne adresse, compliqué. Parfois simple, on envoie juste un email et l'auteur nous renvoie le dossier signé par la poste, mais si on veut numériser un million d'oeuvres, ça va être élevé comme coût de transaction possiblement. Le temps est converti en argent. C'est pr ça que Google a opté pour l'Opt out. Car en outre il est hard de savoir qui possède le droit d'auteur, surtt qd l'auteur est mort.

RELIRE est porté par le SNE, la BnF et le CNL. Ils ont aussi opté pour l'Opt out. Avec l'argent de l'Etat, numérise ds le fonds de la BnF des livres sous droits mais non exploités. Les auteurs auront 6 mois pr s'opposer à l'exploitation de leurs oeuvres. Une liste est publiée, mais les auteurs ne sont pas prévenus, c'est à eux à aller voir le site Web. Claude Ponti s'est beaucoup énervé sur ce projet, il s'y est opposé mais on lui a demandé de prouver qu'il était l'auteur de ses livres, plein de procédures. Un procès, les auteurs ont gagné fin novembre 2016. La Cour de justice européenne a condamné RELIRE en disant qu'ils n'étaient pas respectueux du droit d'auteur. Pour l'instant, c'est en discussion, on ne sait pas si ça va être maintenu, mais sûrement que oui. C'est surtout les éditeurs qui s'en mettent plein les poches, car ils sont derrière ce projet et reçoivent de l'argent à chaque fois qu'un ouvrage de leur maison d'éd est numérisé. Marin Dacos y est opposé car ce projet profite surtout aux éditeurs en dépit du respect des droits d'auteur.

DROITS D AUTEUR FRANCAIS

Droit moral : incessible et éternel

Droit patrimonial : droit d'exploiter l'oeuvre, de manière payante ou non (commerce ou expo...), on peut céder ce droit, pour qqles années, sur support papier ou électronique, ou que en français ou en plusieurs langues (droits de traduction)... Par petits bouts ou intégralement. On doit mentionner les supports. On peut faire une cession exclusive ou non exclusive (Gallimard par ex peut faire une impression de mon oeuvre, mais je conserve le droit de faire imprimer mon oeuvre par qqlun d'autre). Important ds le monde du livre.

Quand je crée une oeuvre, mm tt seul ds une grotte, cette oeuvre est protégée par le droit d'auteur (moral et patrimonial), mm si personne ne le sait. Sauf si cette oeuvre n'est pas originale (si on recopie le botin par exemple). On fait la distinction avec le brevet. Le brevet on doit le déclarer en décrivant son invention, qui doit être totalement nouvelle, gardée secrète jusque là, pas rendue publique. L'office des brevets doit le reconnaître. Le brevet n'existe que si on fait une déclaration.

70 ans après la mort, les droits patrimoniaux ne nous appartiennent plus, l'oeuvre s'ELEVE dans le domaine public. En 2015, Mein Kampf est entré dans le domaine public. L'Etat de Bavière ne peut plus interdire sa réimpression. Le journal d'Anne Frank n'est pas entré ds domaine public car c'est le père d'Anne qui a recomposé le journal, et son père étant mort 40 ans plus tard qu'Anne, morte en 45, l'oeuvre est encore sous droit patrimonial. Très complexe, car par ex, législations différentes selon les pays : Canada 50 ans, France 70 ans...

2) L'édition nativement numérique

Qui ne vient pas du papier, date de la PAO, prod assistée par ordinateur, mais on la retrouve un peu avant, date d'une trentaine d'années. Ce qui est imp cest le circuit qui mène du numérique à l'édition en ligne (tout ce qu'on ne voit pas en tant qu'internaute, avec notre simple "expérience utilisateur").

Phase 1 : la PAO

Phase 2 : Content Managing System, CMS

Logiciels ou serveurs qui permettent d'alimenter les sites Web. Par exemple WordPress (ac lequel on fait le blog du master), le plus utilisé au monde, MédiaWiki, ac lequel on code sur Wiki.

1) Ils offrent une chaîne de publication qui débouche sur possibilité de mettre en ligne des contenus, les délivrent en temps réel à la personne qui les consulte. Cette chaîne respecte un circuit de traitement de l'info : un WORKFLOW. Dans WordPress c'est facile, circuit "brouillon" puis "publier".

2) Le CMS est aussi un outil qui sépare la forme du contenu.

3) Le CMS structure l'information, les métadonnées (titre, auteur...) d'une part et les contenus (intertitres, illus, table des matières...) d'autre part (deux couches distinctes).

4) Permet une interaction avec utilisateurs, qui pourront mettre commentaires, étoiles... Peut marcher a priori (on valide les commentaires avant qu'ils soient publiés) ou a posteriori (on détruit les coms que une fois qu'ils sont publiés), choix de politique éditoriale.

5) Hiérarchise les utilisateurs et leur donne un rôle, les identifie. Degré 0 de structuration des rôles des utilisateurs du CMS, personne identifiée (lecture, commentaires...) et personne non identifiée (lecture seule). Mais en général les CMS gèrent des niveaux bcp plus compliqués : le concepteur du logiciel crée les hiérarchies. Plus rarement, les CMS permettent à plusieurs individus de travailler en mm temps, d'éditer en mm temps le mm doc, édition collaborative. (on ne le peut pas sur WordPress par exemple). GoogleDoc n'est pas un CMS, mais ça y ressemble, gère la collaboration.

Certains CMS gèrent la notion de versions différentes du mm document. Numérote chaque modif, on peut revenir en arrière. Certains créent des FORK, gestionnaires de versions.

Les grands principes des CMS :

Séparation forme et fond. Base de données (contenu) d'une part, maquette de l'autre part, qui gère apparence de ce contenu. Le CMS stocke séparément mais les présente mélangés pour l'internaute, qui voit une page web comme addition de ces deux éléments, page web XHTML. Deux métiers différents pour base de données et pour maquette. Celui qui s'occupe de la maquette est intégrateur Web, il produit du code, conçoit des "templates", très recherché today.

Les données cachées, métadonnées, ne sont pas toujours rendues publiques, mais on doit y faire attention. Plusieurs formes conçues par les CMS avec le mm fond. Un seul docu, plusieurs visualisations possibles : XHTML, PDF, CSS (feuille de style sobre pr impression), CSS sans habillage (utilisé par handicapés qui peuvent voyager sur la page plus aisément car configuration basique). S'adresse aux humains.

Mais certaines versions sont créées par CMS pr s'adresser aux machines. Le CMS LODEL par ex, produit des fichiers supplémentaires pour faire du moissonnage (harvesting), contrairement à Google qui n'en fait pas. On a besoin d'une interopérabilité, idée que deux machines puissent opérer, communiquer entre elles. En faisant du moissonnage, on va pouvoir avoir une communication entre un serveur et un moteur de recherche, qui a besoin d'infos structurées de la part d'un site web. Le serveur, donc le CMS, donne une liste avec ttes les données structurées au moteur de recherche, qui décrit, donne les métadonnées.

Plusieurs protocoles existent (langue qui va permettre que deux machines se comprennent, fixe les règles de conversation) : OAI-PMH Open access initiative-Protocole for metadata haversting, collecte liste d'articles avec métadonnées, par exemple, description de la façon dont on va parler. (a été construit pr les revues scientifiques, chercheurs).

Le Dublin Core est un standard de description des métadonnées, un format, comme Marc, Unimarc (mais bcp plus simple que Marc et plus moderne). Il y a seulement 15 balises, le contenu, conversation.

Un autre protocole : Open publication distribution system OPDS (Bookserver), construit pr permettre de distribuer des catalogues de livres, qui vont pouvoir être affichés dans différents terminaux (mobiles, ordis...), fait par des gens de la chaîne du livre. Le fomart standard de description des métadonnées est Atom.

Les CMS, qui sont des serveurs, produisent sites web et d'autres variantes pour les humains (le cms WordPress ou MédiaWiki) ou pour les machines (le cms Lodel). Génèrent des fichiers qui respectent un format (dublin core ou atom) et transmettent ces fichiers grâce aux protocoles (opds, oai-pmh). Le format et le protocole étant respectés, une intéropérabilité entre le CMS serveur et le moteur de recherche est possible (cad que le moteur de recherche interroge le serveur dans un format et selon un protocole), ce qui rend le processus de moissonnage possible.

Format W3C, format Epub...

Les CMS Lodel ou WordPress sont des serveurs.

Les moteurs de recherche, comme Aldiko, ont besoin de l'URL pour "attaquer" le serveur et posent des questions selon le protocole OPDS, grâce au format ATOM.

Le moteur de recherche Base interroge le serveur (= le CMS) en format Dublin Core selon le protocole OAI-PMH.

Autre format d'interopérabilité : RSS

Exemple : Lodel, un CMS (donc un serveur), qui a des conteneurs, et des contenus. On a un document source (qu'on n'a pas dans WordPress ou MediaWiki). On peut importer un fichier bureautique structuré dans la "base de données", qui va conserver le fond de ce fichier, qui est notre document source (important car conservation de l'information sémantique en plus de l'info stylistique).

Le stylage : exportation du fichier PAO (créé sur in design...), on passe dans un fichier bureautique de type Word (nettoyage, structuration). Le stylage permet de donner des infos sémantiques au texte qui n'avait qu'une info stylistique. Différence entre fichier non stylé et fichier stylé. Ainsi le fichier est interopérable.

Comment personnaliser ? Le CMS du point de vue de la forme :

Les CSS : Cascades de fichiers de style. Dans le fichier final, on a un fichier HTML (contenu, les niveaux de titres...) et un CSS (forme). Le CSS gère les éléments d'apparence les plus sophistiqués, soit l'habillage, le style. (On est toujours dans les grds principes des CMS. Comment on personnalise.) Le CSS peut être puissant, comme CSSZenGarden, puissance de personnalisation grande, va au bout de la séparation forme et fond. Sur ce site, plusieurs CSS de la mm page HTML sont proposés, mais tellement différents qu'on a l'impression d'avoir affaire à des fichiers HTML différents.

La notion de WORKFLOW gérée par les CMS : circuit de traitement de l'info. Celui de OGS est très sophistiqué. L'auteur pt déposer directement sur le site un article, le secrétaire de rédac est informé, un expert consulte l'article, pose questions à l'auteur, l'auteur modifie son article, puis édition ac correc de copie, programmation publication (plusieurs étapes et interactions entre gens avec dizaine de rôles...) plus sophistiqué que LODEL (qui convertit un fichier Word en HTML). Le workflow en amont correspond à des métiers, des activités (comme ce qu'on fait pr le blog du master). En aval, on a le fichier Web vu par l'internaute.

Phase 3 : SSP, Single Source Publishing

Idée selon laquelle on ne va plus avoir qu'un seul fichier sur lequel on travaille pour avoir plein de sorties différentes, format pivot, matrice de tous les fichiers qui vont sortir, une édition avec une seule source. Le CMS est centré sur le Web, aucun retour vers le papier et l'analogique. Ici, avec les SSP, c'est différent. Permet à l'éditeur de faire de l'éd papier, des variantes papiers avec des digests, des textes courts, des catalogues, des communications... mais aussi tout le côté électronique, avec interopérabilité et référencement, interopérabilité et Full text, les formats dédiés, l'archivage à long terme. Le SSP produit une seule source pr gérer ttes ces différentes modalités. Les structures éditoriales ont tendance à aller ds cette direction.

Exemple : METOPES, créé par Dominique Roux, PU de Caen. A partir du texte de l'auteur, création d'un fichier central XML TEI pour l'édition qui gère les balises. Ce format pivot crée des versions différentes Epub, Web, papier... (de l'auteur au lecteur)

Autre notion à l'intérieur du système SSP : Système d'information SI

Regroupe l'ensemble des infos (métadonnées ou données) dont une organisation dispose. En bib, éd et lib, il y a des systèmes d'infos dans lesquels on puise et on écrit.

Par ex, système d'infos d'Open Edition : on part de l'expérience utilisateur. Derrière on a un gros circuit, qu'on doit rendre en apparence simple. L'utilisateur voit un site Web, des interfaces publiques Web (calenda, hypothèses, revues.org, openéditions books), et d'autres formats de publications (revues books) avec PDF, ePub et TEI (c'est l'offre Freemium de Openédition, un utilisateur Freemium aura accès à ces formats téléchargeables). Puis les interfaces de consultations publiques et professionnelles, cad les services publics transversaux de métadonnées : les protocoles OPDS (Bookserver), OAI-PMH, ONIX (un format de description de données), Marc, search.openedition.org pour le public... Tout cela ce sont des produits finis publics. Ils sont créés par des interfaces non publiques, privées. On passe dans une autre sphère : les interfaces d'édition, ajout des contenus. Des éditeurs ayant renoncé à la PAO (word...), environ 10%, qui alimentent l'interface direct en TEI, d'autres qui utilisent OpenText et Servoo, pour alimenter les quatre interfaces privées d'alimentation : openedition books, revues.org, calenda, hypothèses. Les trois premières fonctionnent avec le CMS LODEL, le dernier avec WORDPRESS. Pour chaque objet éditorial, un CMS. Donc si 400 revues ds revues.org, 400 CMS. C'est là qu'on fait les modif si on veut en faire, etc. Entre les interfaces privées et celles publiques, on a le CORE (le "coeur") : base de données qui fait le lien, des applications partagées. Il y a Bilbo, le logarithme, qui intervient en bout de chaîne, juste avant les interfaces de consultations publiques et pro.

Phase 4 : L'édition mobile

Peut se faire à la main, "enregistrer sous" dans inDesign, mais pas conseillé.

Les formats de type Epub ont été créés pour les terminaux mobiles. C'est un format, pas un protocole. Inventé car le format PDF n'était pas adapté, destiné à l'impression et non proche du Web. Le format Epub est ouvert (donc simple) et historiquement proche du Web, cad un site web zippé et téléchargeable, donc détachable. L'Epub enferme le livre dans une coquille qui est le fichier Zip, autodépendante. Il est aussi recomposable, contre-exemple du PDF. Cad qu'il est adapté à différents supports. L'expérience utilisateur d'un éditeur qui a un grand écran dans son bureau et croit que son fichier pdf peut être lu très bien est biaisée, il faut se placer du côté de différentes expériences utilisateurs. Avec l'Epub, quand on zoome sur le texte, il n'est pas coupé, on ne voit pas que le début de chaque ligne, mais le texte est bien recomposé en entier, on peut tout lire sans voyager ds la page. Grande lisibilité. Mais éditeurs pas contents car recomposable = sans composition, pas de tentative de mise en page possible. L'Epub privilégie la lisibilité et non l'esthétique. C'est la mm propriété que pour pr les sites Web, ce qu'on appelle le Responsive Design (reflowable). Le designer s'adapte à la résolution des écrans, on fait plusieurs versions pour différentes résolutions.

Le IDPF, organisme, produit les spécificités de langage du format Epub et vient de rejoindre le W3C. Today on utilise le format Epub 2, mais Epub 3 se met en place peu à peu.

Beaucoup d'éd disent qu'ils vont optimiser leur Epub, tester des graphismes ou des variations pr faire plus joli. Marin Dacos est contre. Il faut rester près de la norme, ne pas ajouter de fioritures.

Attention, si on prend des annotations sur un Epub d'Apple, sachant que cette couche extérieure formée par les annotations appartient à Apple, si on change ou si Apple disparaît un jour, on perd toutes nos annotations, puisqu'on ne les détient pas en vrai !

3) L'édition nativement en réseau

Wikipédia, le parangon de l'édition collaborative, les forums...

APRES-MIDI : SAVOIR SE SERVIR DE WORD PRESS POUR LE BLOG

Front End : ce que voit l'internaute

Back End : l'arrière boutique, espace d'administration

Les "billets" ou "articles" sont l'actu, les "pages" sont statiques, sur le menu en haut du site ("présentation", "crédits", "bonnes pratiques").

Qd on fait une modif, on peut prévisualiser ou mettre à jour, cad publier.

La page a des attributs :

On peut lui attribuer un "parent", cad que notre page est liée à une autre.

Onglet articles : "Modifications rapides" permet de changer quelques données, comme le nom de l'auteur. La documentaliste doit trier les brouillons anciens, lire les commentaires (dans les commentaires, ça peut être des rétroliens, qui mènent vers un site qui nous a cité, dans ce cas on peut valider ce com).

Onglet métadonnées : l'iconographe doit renseigner la légende, le texte alternatif (texte qui remplace l'image qd elle ne s'affiche pas, pr les aveugles par ex), description avec titre, la mention de la licence (avec le petit c de copyright), l'URL qui permet de retrouver l'image.

Un autre onglet permet de voir tous les liens vers les sites qui sont intéressants à visiter. La documentaliste doit vérifier qu'ils marchent encore. On peut en rajouter, les classer par catégories. (par ex la page du Monde des livres, et celle de l'organisme qui gère l'Epub).

On peut ajouter un PLUGIN dans les CMS. Ici c'est "cite settings" pour citer le billet, et "apparences" pour choisir un thème d'habillage.

Dans l'onglet Utilisateurs on pt voir tous les gens qui participent.

Il faut faire environ 10 minutes de veille par jour. Mettre des méthodes de veille structurées. Créer un compte Feedly et s'abonner à qqles flux RSS.

L'interprétation des statistiques :

Logiciel AW Stats, 5 mesures dont les deux dernières ne nous intéressent pas. Les trois premières correspondent aux visiteurs différents, nombre de visites par visiteurs et pages par visites. Ce qui est le plus intéressant c'est l'AFFLUENT (qui permet de savoir quels sont les sites qui nous apportent le plus de visiteurs sur notre blog) (= referer an anglais).

Différence entre une visite, un visiteur unique, et une page.

Cours n° 3

Questions

Différence entre les CMS OJS et LODEL ?

Open journal system : il y a un workflow, un circuit, que lodel ne gère pas. OJS est très en amont ds le processus éditorial. Les auteurs n'écrivent pas ds lodel. Si on vt mettre un workflow ds lodel, on achète un logiciel ou service payant en ligne spécialisés.

De plus, OJS ne traite pas un fichier word en vrac pr le mettre en web, ds OJS, bcp de revues en ligne en PDF, donc pas format idéal. Lodel gère nativement du XML, ce que en fait pas OJS.

Différence CMS et SSP ?

Content managing system, et single source publishing

Le cms est une très grde famille de logiciels, et le ssp est un principe de fonctionnement technique. Mais en théorie les cms pourraient adhérer au principe du ssp. Cependant today, presque aucun cms n'est prévu pr les ssp. Car le support phare du cms est le web, en ligne, alors que les ssp c'est plusieurs supports, on débouche entre autres sur du papier.

Le ssp est en amont, le cms est en aval, cest une des possibilités de publication.

Le SI Système d'information

Apprendre les trois zones du système d'info d'open édition pr l'exam !

Le CMS se trouve ds la zone 1 "interfaces d'édition, ajout de contenu, alimentation" mais aussi ds la zone d'exposition au public, zone 3. Il est au coeur du SI. Attzntion, le Core n'est pas un cms. Le SI est l'ensemble, le CMS est une partie du SI.

La chaîne METOPES dév par l'université de Caen est un dispositif logiciel SSP, alimente LODEL.

Attention, lodel s'adresse aussi aux humains, pas que aux machines ! sur open édition il permet calenda, hypothèses... et ça s'adresse aux humains aussi.

Le moissonnage :

sur google, il n'y a pas la notion d'auteur ! Sur le moteur de recherche scientifique BASE, on pt faire recherches avancées, il y a notion d'auteurs. Du xml est donné à une machine via le protocole OAI PMH pr décrire ttes les métadonnées. BASE est fournisseur de services, cest un moissonneur. Il a besoin des données pr produire ces services. Lodel est fournisseur de données, data provider.

Fournisseurs services moissonneurs : base, isidore (en sciences hu et soc)...

Aldiko (application iphone qui donne accès à un catalogue de libraire) utilise le protocole OPDS pr récup les catalogues des éditeurs, pr cela, il moissonne. Amazon est contre l'OPDS et la standardisation car il veu timposer son propre standard.

Tous les moteurs de recherche généralistes comme google ou bing ne moissonnent pas. Il font juste de la copie, ils ne sont pas conformes à un protocole quelconque. Le robot.txt guide cependant un peu le moteur de recherche.

Le SITEMAPS est un plan de site, une liste des pages d'un site. Cest le début d'un protocole.

Le CMS produit des pages web donc destinées à l'internaute, soit des flux xml pr des robots comme base, isidore pr qu'ils puissent les moissonner...

Le stylage

Pr LODEL, on doit fair eun stylage en amont ds word (titre 1, titre 2, titre 3...), lodel sera capable de l'interpreter.

Pr WORDPRESS, pas de stylage, il édite directement en HTML.

La 3eme étape est l'édition nativement en réseau : elle nait direct sur le web, pas sur notre ordinateur. Le parangon est wikipédia. Collaboratif. Les forums aussi.

Les cms peuvent produire de l'epub, mais cest une fonction périphérique. c'est produit par d'autres familles de logiciels. Mais les cms font des sites qui s'adaptent à tous les environnements mobiles (responsive design), donc ils font de l'éd nativement numérique ds ce sens-là.

Différence entre page, visiteur et visite sur un blog ?

une visite : qqlun vient voir le blog, cest une session

visiteur unique : si une seule personne vient deux fois ds la mm journée, il y a 2 visites mais 1 seul visiteur !

les pages : les visiteurs regardent au moins une page par visite, sinon plus.

Donc on a tjrs plus de visites et de pages que de visiteurs, on le voit dans le log (journal), les statistiques. cest mesuré comme on peut, car si on vient tous sur le mm proxy, l'ip est caché.

LE TEXTE ELECTRONIQUE IDEAL

9 points fondamentaux

- lisible : le format doit être ouvert, sa documentation doit être publique

l'epub est un format ouvert, le pdf aussi mais cest plus compliqué, l'idéal est un format XML sémantisé, XML TEI (text encoding initiative), utilisé par la chaîne METOPES. on sait où sont les citations, les tableaux, les notes...

Lisible veut dire aussi recomposable : là le pdf ne marche pas du tt, l'epub marche bien.

Veut dire aussi conservable : s'il y a des DRM cest risqué car on doit passer par des tiers pr rendre le texte lisible, par Adobe, et on ne sait pas si Adobe survivra et s'il faut des mots de passe cest compliqué. En criptant le fichier, le drm rend périssable. D'autres obstacles à la conservation : les supports physiques, les disques durs qui durent environ que 3 ans... le mieux est de faire des copies.

UNICODE unifie les jeux de codes de caractères, remplace ASCII, prévoit des dizaines de millions de carac différents, et en plus des carac sont ajoutés par un consortium sur la planète régulièrement.

- manipulable : indexable et cherchable

copiable et collable

annotable et inscriptible : où est stockée l'annotation et ds quel format : CALIBRE permet des annotations et les stocke ds format ouvert, mais si cest un long travail, enjeux de conservation de mon travail.

Le rétrolien, technologie d'annotation satisfaisante.

- citable : identifiable avec les DOI, digital object identifier.

il permet de décrire un doc unique de façon pas ambiguë, permet de décrire ts les types de ressources docu...

- correctement décrit

- intéropérable :

il faut un protocole, un format, un voc contrôlé...

Doit être correctement décrit avec les bonnes métadonnées aussi, avec la norme DUBLIN CORE. Avec 15 propriétés de premier niveau on décrit tout. C'est très basique mais cest une des qualités.

Cours n° 4

Vocabulaire contrôlé ou schème :

permet de décrire ds tous les formats comme dublin core mais pas seulement, comme dewey ou mesh aussi par exemple. Ds un système d'interopérabilité, les systèmes doivent pouvoir se parler entre eux = pbmatique de la tour de Babel. Le voc contrôlé est un référentiel, comme un dictionnaire.

EXEMPLE : RFC 46 46, c'est une norme datant de 2006 pr définir les langues, c'est un voc contrôlé (existe à l'intérieur de formats comme dublin core ou autre)

Les RFC = request for comments

proposer des commentaires par rapport à des normes déjà existantes, les publier en fichier TXT, très lisible et très conservable car très basique, ds des listes de discussion, les soumettre aux autres pro, et s'ils sont ok tout le monde suit cette norme à partir de là.

Rendu public. C'est un système horizontal, n'importe quel pro pt intervenir et faire le choix d'inventer une nouvelle norme, une nouvelle langue, c'est une norme par CONSENSUS. Contrairement à la norme ISO, qui a été faite sur un mode vertical, les règles ont été créées par des instances, organisme centralisé, plus autoritaire, vient d'en haut, les pro n'ont pas participé.

Il y a des centaines de voc contrôlés.

LES TROIS COUCHES

Des protocoles qui permettent de faire communiquer des machines entre elles (oai pmh ou http, https, le navigateur communique ac site web).

elles échangent des fichiers qui obéissent à des formats (html pr le protocole http, dublin core pr oai pmh par exemple) et à des systèmes d'encodages de caractère normés (unicode, ascii, koi8U).

pr que le doc soit intelligible ds sa zone de métadonnées on doit aussi obéir à des vocabulaires contrôlés (rameau en bibliothèque, rfc 4646 pr les langues, dewey...) Ils sont indépendants du format.

Le voc contrôlé est propice à être utilisé dans le troisième item du duclin core SUBJECT.

LES 15 PROPRIETES/ITEMS DUBLIN CORE :

On peut répéter tous les items un nombre infini de fois, ou on peut aussi en sauter certains, cest très libre :

1) le titre principal

le titre du docu et on passe dans le DUBLIN CORE QUALIFIé qui permet d'entrer ds des finesses pr entrer ds 15 autres propriétés de niveau 2.

2) créateur du docu

3) le sujet : à écrire selon des mots clefs choisis ds le cadre d'une pol de classement, cf codages de la bib du congrès (LCC), dewey...

4) description : résumé, table matières, texte libre

Bcp de descriptions possibles

5) publicateur du docu : nom d'une perso, d'une organisation, d'un service à l'élaboration du docu

Là aussi on pt utiliser des voc contrôlés : l'ISNI, code international défini par la norme ISO, Persée l'utilise.

6) contributeur : nom d'une personne qui a contribué (traducteur...) Il y a ORCID, où ce sont les auteurs eux-mm qui donnent leurs données. Les experts peuvent directement contribuer à la source. Opposé des bib qui veulent tt faire par elles-mm.

7) date : de publication, de rééd... Assez imprécis, pas directif, pas bcp de contraintes

8) Type de docu : on nous recommande d'utiliser le voc contrôlé DCMI TYPES.

9) Format : physique ou électronique, type de média ou dimensions (taille, durée...), matériel et logociel pr accéder au docu, on nous recommande d'utiliser les types MIME.

10) Identificateur non ambigu : on ns recommande d'utiliser un système de référencement précis, URI par exemple. C'est un identifiant unique pr chaque docu, non ambigu, ISSN pr revues, l'ISBN pr un livre, pr un film Internet movie data base... DOI pr un document numérique (qui pointe vers une URL, l'URL pt changer mais pas le DOI, plus stable. Et le DOI fait des résolutions de noms, convertit les noms en URL), URL pr les pages web...

Attention, ds openédition, pas d'identifiant unique pr les auteurs mais en revanche il y en a pr les documents. Ds Persée ils ont les deux.

Il y a des identifiants uniques partt dans le SI de openédition, à ttes les étapes, ds les 3 zones.

11) source :

12) langue : on doit utiliser le voc contrôlé RFC 4646

13) ressource liée : utiliser une recommandation formelle des ressources, par ex leur URI. On peut pointer vers la fiche du livre global...

14) coverage : portée du docu. On a un grd nombre de voc contrôlé qu'on pt utiliser, TGN, ISO3166, POINT ou BOX pr la porté spatiale, PERIOD pour la portée temporelle, portée juridique... (= une période étudiée ds un livre, la fréquence hertzienne des sons si on enregistre des sons, Afrique sis cest un livre qui parle de l'Afrique...)

15) Droits liés à la ressource : un copyright, un lien vers le détenteur des droits...

CREATIVE COMMONS :

On est du côté détenteur de droits. Pt s'employer à l'intérieur du droit d'auteur ou du copyright. Le principe est de permettre d'utiliser une oeuvre sans contrat. Car si on veut contrat, coût de transaction lourd. L'auteur pt décider de donner plus de droits à l'utilisateur que le simple droit d'auteur, pr cela il déclare une licence sur son oeuvre.

Une licence n'est pas un contrat :

1) on choisit ds une liste les droits qu'on accorde ou refuse, à la carte.

2) la licence prend 3 formes : une lisible pr l'humain, une autre dédiée aux tribunaux, une troisième dédiée aux ordis.

C'est ainsi que Google pt trier entre les images réutilisables ou non, mais dont on doit bien spécifier la paternité.

La licence est une métadonnée juridique insérée ds la description, par ex ds dublin core, dans "rights", le 15e item.

Les bonnes pratiques du Web avec OpQuast

à respecter pr tt ce que l'on crée

OPQUAST donne les bonnes pratiques du Web : un site web et un livre, des formations, des certifications...

APPRENDRE DES EXEMPLES (AU MOINS DIX) PR LEXAM (voir sur le site opquast)

critères généraux

-par ex, chaque image décorative doit être dotée d'une alternative textuelle appropriée, description, etc

-les applications sons et animations doivent pouvoir être mis en pause

-Chaque acronyme doit posséder sa signification

-Le site doit posséder au moins un moyen de contact

-La licence doit être visible sur toutes les pages

-la durée des contenus des fichiers audios sont indiqués

-les vidéos doivent être activées par le lecteur

-soulignement réservé aux hyperliens

critères pr les mobiles

-Chaque zone doit être de taille suffisante.

-Les contenus multimédias ne doivent être téléchargés qu'à la demande de l'utilisateur.

critères relatifs aux SEO (comment optimiser référencement des pages web sur le moteur de recherche : search engine optimization)

-Une image décrite (mais maximum de 80 caractères) va améliorer la visibilité du site web (car les images pourront être retrouvées)

-Les pages doivent avoir une structure claire

critères liés aux performances

critères liés à l'écologie

ATTENTION le cms est un logiciel, le serveur c'est Apache