Numérisation

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher

La numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter[1]. Les données numériques se définissent comme une suite de caractères et de nombres qui représentent des informations[2] . On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais).

Principe[modifier | modifier le code]

La numérisation construit une représentation discrète d'un objet, sous la forme d'une collection d'un nombre fini de signes pris dans un ensemble dénombrable de signes valides[3].

numérisation des textes  :

La numérisation d'un texte est sa transformation en une suite de caractères prises dans une liste de caractères existant dans la langue écrite, comme une dictée transforme les sons de la parole en une suite de mots existant dans le dictionnaire de la langue écrite.

numérisation des images  :

La numérisation d'une image la transforme en suite d'instructions permettant de la reconstituer. Ces instructions peuvent consister en un tableau des sensations visuelles pour chaque élément (pixels) ou avoir une organisation plus complexe (images comprimées, images vectorielles).

À moins que les données numériques ne soient produites directement par des humains (on parle alors de saisie de données), la numérisation comporte en général au moins trois phases :

  1. une phase d'échantillonnage où une des dimensions de l'objet (par exemple, le temps) est explorée à intervalles réguliers ;
  2. une phase de quantification, où la valeur du signal représentant l'objet aux instants déterminés est arrondie à une valeur prise dans un ensemble fini ;
  3. une phase d'encodage, qui fait correspondre à chacune de ces valeurs un code numérique (par exemple, binaire petit-boutien, code Gray, etc.).

À ces trois phases succèdent souvent des opérations plus complexes permettant un encodage plus efficace. C'est notamment le cas pour la numérisation des images dans les appareils photographiques numériques et pour la numérisation des textes (format Djvu, reconnaissance optique des caractères).

Le processus de numérisation peut quelquefois prendre d'autres formes.

numérisation de la température par un enregistreur de données (data logger)  :

La température varie lentement dans le temps. La numérisation crée un journal de son évolution :

  • projection de la température dans un espace discret : elle est arrondie à une valeur prise dans un ensemble fini (par exemple chaque dixième de degré Celsius de -20 à +50) ;
  • projection du temps dans un espace discret : il est arrondi à une unité (par exemple, la minute) pour produire une date et heure ;

Chaque fois que l'arrondi de la température change, on enregistre la nouvelle température et la date et heure.

L'enregistreur de données effectue automatiquement ces opérations en convertissant d'abord les deux dimensions, la température le temps, en signaux électriques. Il enregistre le résultat selon un code que d'autres dispositifs informatiques pourront exploiter.

Dans la plupart des cas, cependant, on utilise des échelons réguliers et on mesure une des grandeurs qui décrivent l'objet en incrémentant les autres. On obtient ainsi un nombre fini de données.

  • L'opération qui consiste à prélever une valeur pour chaque incrément d'une grandeur s'appelle l'échantillonnage :
    • dans l'échantillonnage spatial, on discrétise suivant une longueur, par exemple en prélevant une valeur de luminosité tous les dixièmes de millimètre, sur chaque axe spatial,
    • dans l'échantillonnage temporel, on va discrétiser le cours du temps, par exemple en prélevant une valeur à chaque microseconde ;
  • l'opération qui consiste à arrondir une valeur à une autre dans une liste finie s'appelle la quantification.

Le résultat de cette numérisation est une suite de valeurs représentant la grandeur mesurée suivant les axes choisis, dans un ordre conventionnel qui permet de reconstituer toutes les dimensions de chaque élément de l'objet.

Choix des paramètres[modifier | modifier le code]

Le choix judicieux de l'espace discret est crucial pour que les données numérisées représentent fidèlement les grandeurs initiales. En particulier, il faut :

  • un échantillonnage suffisamment fin pour suivre les évolutions de l'objet à numériser : le théorème de Shannon impose une résolution d'échantillonnage minimum ;
  • une quantification suffisamment précise pour ne pas dégrader la représentation ; le bruit de quantification doit rester négligeable devant le bruit avant numérisation. Il peut être rendu indépendant du signal par décorrélation (dithering).

Formats de données[modifier | modifier le code]

Le principe même de la numérisation implique que l'utilisateur (généralement, une machine) connaisse les conventions qui permettent de reconstituer l'objet représenté. On appelle ces conventions le format des données. La numérisation d'une information comprend de façon indissociable

  1. un format, qui est un algorithme permettant de reconstruire l'objet (par exemple, une image à l'écran), invariable pour toute une classe d'objets ;
  2. des données, qui représentent ce qui fait la particularité d'un objet.

L'objet ne peut être reconstitué qui si la machine informatique a en mémoire les deux composantes. Quand l'algorithme correspondant à un fichier ou à un flux de données manque à la machine, on ne peut utiliser les données, et on parle de problème de compatibilité.

Les formats peuvent être très simples, comme dans le cas d'un flux brut de numérisation d'un signal à une seule dimension, où les échantillons se suivent sans discontinuer, et où il suffit de connaître leur taille, leur encodage numérique et la cadence d'échantillonnage pour reconstituer le signal, ou plus complexes, comme dans le cas de formats de description vectorielle des documents.

Des techniques de compression de données permettent de réduire la taille des fichiers ou le débit des flux. Dans ce cas, la partie invariable de l'information (le format) grandit et devient plus complexe. Quand le document représenté par ces fichiers ou flux est destiné à être distribué, on recherche un format tel que le décodage, qui est effectué à chaque poste, soit moins complexe que l'encodage, qui n'est effectué qu'une fois.

Procédés de numérisation[modifier | modifier le code]

Les procédés de numérisation diffèrent selon la nature physique de l'information à numériser :

Pour numériser une grandeur qui varie dans le temps, comme un son :

  1. Un convertisseur analogique-numérique quantifie le signal à chaque impulsion d'horloge ;
  2. Un encodeur crée la liste de valeurs numériques qui représente le signal.

Pour numériser une image, on discrétise la hauteur et la largeur, et on convertit, pour chaque point, les niveaux de lumière, soit globalement, soit pour chaque couleur primaire. L'échantillonnage de l'espace s'effectue de trois manières différentes :

  • un appareil photographique numérique utilise un transducteur à transfert de charge en forme de matrice à deux dimensions, avec un capteur par pixel. Le système transfère successivement les charges de chaque ligne, créant un signal électrique corrélé aux impulsions de transfert, et l'on peut ainsi quantifier le signal pour chaque élément capteur.
  • un scanner utilise généralement un transducteur à transfert de charge linéaire, dont les capteurs sont espacés d'une distance correspondant à la résolution transversale maximale. Le système transfère les charges de la ligne comme dans le cas précédent, puis il actionne un moteur qui fait avancer la ligne de la distance correspondant à la résolution souhaitée.
  • un scanner rotatif utilise un seul transducteur, qui avance lentement au-dessus de l'image montée sur un cylindre tournant. Le capteur, parcourant ainsi toute l'image, produit un signal électrique qui peut être converti en données numériques à chaque impulsion d'un signal corrélé à la rotation du cylindre.

Ces procédés valent pour la reproduction en noir et blanc. Pour la reproduction en couleurs, il faut des valeurs pour chacune des trois couleurs primaires. Soit on divise le faisceau lumineux de l'image en trois parties correspondant aux trois couleurs primaires, soit on intercale des filtres devant chaque capteur en alternant les couleurs, et on procède par interpolation, après la conversion numérique, pour évaluer la couleur à chaque pixel. En général, d'autres processus compensent ensuite les insuffisances de l'image brute.

La numérisation d'une image qui varie dans le temps associe les deux familles de procédés. Pour numériser une image animée (vidéo), une caméra numérique, un caméscope numérique, une webcam, échantillonnent le temps et à numérisent une image à chaque fois (par exemple, avec une image toutes les 40 millisecondes). Le flux de données subit ensuite un processus de réduction de débit.

On peut aussi numériser un signal vidéo analogique, soit en produisant une conversion brute de ce signal électrique, soit en reconstituant tout ou partie de l'information de discrétisation du temps à partir des signaux de synchronisation verticale (trames) et de l'espace à partir des signaux de synchronisation horizontale (lignes).

Pour numériser un texte, soit un opérateur humain effectue la saisie du texte, soit on numérise le document comme une image en appliquant à ce premier ensemble de données un programme de reconnaissance optique de caractères éventuellement complété par des vérifications automatiques ou manuelles.

Objectifs de la numérisation[modifier | modifier le code]

  • Les systèmes informatiques permettent :
    • d'emmagasiner de grandes quantités d'information sur des volumes de faibles dimensions : mémoire flash, disque dur, support optique, etc.
    • de dupliquer exactement et facilement les informations numériques et cela pour un moindre coût ;
    • de distribuer largement les informations grâce aux réseaux informatiques et notamment grâce à Internet ;
    • de créer des informations de synthèse, telles que les statistiques et les index, qui impliquent une grande quantité de calculs auxquels on n'envisagerait pas d'employer des humains.
  • La transmission de données numériques traitées pour obtenir une occupation maximale du spectre disponibles nécessite sur les canaux de transmission une bande passante moindre que leur contrepartie analogique.

En contrepartie, les informations négligées ou perdues au moment de la numérisation où à l'occasion de calculs ou de recodage sont perdues pour les utilisateurs ultérieurs.

Numérisation d'un signal électrique[modifier | modifier le code]

Des composants spécialisés assurent la conversion dans un système numérique des données analogiques recueillies par divers capteurs (cellule photo-sensible, thermomètre…).

Convertisseur Analogique Numérique et Convertisseur Numérique Analogique

En électronique, une chaîne de conversion A/N (analogique vers numérique) contient les éléments suivants :

  • une ou plusieurs sources analogiques,
  • un filtre anticrènelage (anti-aliasing) par source,
  • un multiplexeur (MuX), qui pourra servir pour sélectionner une source parmi plusieurs (entrées multiples mais une seule sortie),
  • un générateur de signal d'horloge, qui effectue la discrétisation temporelle, de la stabilité de laquelle dépend la précision de la conversion,
  • un échantillonneur bloqueur (Sample and Hold ou S/H), qui garde la tension stable le temps du codage,
  • le convertisseur analogique-numérique proprement dit (Analog/Digital Converter ou ADC),
  • un codeur (ou modulateur).

La conversion suit donc le chemin suivant :

Source analogique → filtre anticrènelage → Mux → S/H → CAN → Codeur → Signal numérique (transmission ou traitement)

Numérisation et archivage[modifier | modifier le code]

Corolaires des nombreux chantiers de numérisation, l’archivage de contenus électroniques repose sur un ensemble d’actions, d’outils et de méthodes mis en œuvre pour réunir, identifier, sélectionner, classer et conserver des contenus électroniques, sur un support sécurisé, dans le but de les exploiter et de les rendre accessibles dans le temps. L’archivage est à distinguer du stockage et de la sauvegarde.

Objectifs[modifier | modifier le code]

Les objectifs des chantiers associant numérisation et archivage sont nombreux. Dans les domaines de la Gestion Électronique des Documents et des sciences de l'information et des bibliothèques, elle remplit plusieurs fonctions :

  • préserver et protéger des documents contre les risques d'altération (l’acidité par exemple)
  • archiver des documents originaux en vue d'un gain de place, et les dupliquer sans risque de dégradation pour les mettre à disposition du public
  • permettre au public de consulter et d'accéder à des documents anciens et/ou rares
  • aider et susciter la recherche, faciliter l'indexation de textes et de documents multimédias, valoriser un fonds documentaire
  • donner accès à la connaissance à distance dans une perspective de communication (bibliothèques électroniques en ligne, projet « Bibusages » sur Internet, etc.)

La numérisation est l'un des aspects de ce que l'on appelle quelquefois de façon impropre la dématérialisation. C'est indéniablement l'un des passages obligés de tout projet visant à optimiser la gestion des documents et courriers entrants, encore fortement reçus au format papier par les entreprises et les administrations[4].

Une intensification des besoins en archivage de contenus numériques[modifier | modifier le code]

L’explosion du volume de données électroniques a inévitablement poussé les organisations à prendre en compte le contenu électronique dans l’intégralité de son cycle de vie, jusqu’à son archivage, voire sa destruction.

Les entreprises et les administrations françaises doivent par ailleurs intégrer la notion de vocation probatoire à leurs projets d’archivage afin d’apporter la preuve de l’intégrité dans le temps de certains contenus électroniques et l’authenticité de leur origine (conformément aux exigences imposées par un cadre légal ou à des réglementations relatives à certains métiers ou secteurs d’activité, par exemple)[5]. Les documents électroniques concernés en priorité par l’archivage à vocation probatoire sont ainsi les factures, clients ou fournisseurs, les bulletins de paie ou les correspondances électroniques[6].

Numérisation et archivage du patrimoine culturel[modifier | modifier le code]

Des opérations de numérisation de différents éléments du patrimoine culturel ont été lancés en très grand nombre, à partir des années 2000, dans le monde entier. Parmi eux, plusieurs chantiers se distinguent par leur très grande ampleur.

« Open Content Alliance » (OCA)[modifier | modifier le code]

Le consortium OCA est une association américaine qui regroupe des entreprises privées telles Yahoo !, Adobe, HP, Internet Archive[7], des bibliothèques (BU Californie, BU Toronto), des centres d’archives et des éditeurs. Le 25 octobre 2005, Microsoft a rejoint ce groupe.

L'OCA a pour objectif de numériser et de mettre en ligne une banque de données accessible à tous, pérenne et multilingue (banque de données composée de documents multimédias). Cependant, elle prend uniquement en compte les fonds patrimoniaux libres de droits à la différence de Google Recherche de livres. Aucune numérisation ne sera faite sans la permission des ayants droit. Ces derniers peuvent contribuer au projet en définissant l’étendue de la diffusion avec d’éventuelles restrictions.

Google Recherche de livres[modifier | modifier le code]

Annoncé le par les cofondateurs de la société Google, le programme « Google Print » est chargé de numériser 15 millions d’ouvrages, ce qui représente 4,5 milliards de pages en 6 ans selon Jean-Noël Jeanneney, alors président de la Bibliothèque nationale de France. Cinq bibliothèques ont donné leur accord pour numériser leurs fonds : les bibliothèques de l'université Harvard, de l'université du Michigan et de l'université Stanford, la New York Public Library et la Bodleian Library de l'université d'Oxford. Google Print est officiellement lancé en novembre 2005 avec un ensemble de livres numérisés du domaine public et issus des partenaires du projet. Il est rebaptisé à la mi-novembre « Google Books Search » (« Google Recherche de livres » en français). De nouveaux accords ont été passés entre Google et d'autres universités pour enrichir cette bibliothèque numérique.

La Bibliothèque Numérique Européenne[modifier | modifier le code]

Le , le président de la Bibliothèque nationale de France, Jean-Noël Jeanneney, lance dans le quotidien Le Monde un appel pour réagir à l'initiative de Google. Fin avril 2005, les bibliothèques nationales de 19 pays puis six chefs d’État et de gouvernement européens appellent à une coopération européenne pour la création d’une bibliothèque numérique européenne (Europeana). Un an plus tard s'ouvre The European Library, le portail multilingue de la BNE. Outre les bibliothèques nationales des 25 pays concernés qui coopèrent au projet, quelques pays d’Amérique latine (Brésil, Chili, Pérou) sont intéressés par la Bibliothèque Numérique Européenne. Quelques bibliothèques au Canada et surtout à Québec, mais aussi à Alexandrie en Égypte participeront à la BNE.

L'objectif de ce projet est de :

  • numériser 2 millions de documenots (livres, films, photographies, manuscrits et autres œuvres culturelles) en 2008,
  • donner accès à 6 millions de documents en 2010, soit un peu plus d’un tiers du fonds numérique de Google Books Search.

Annexes[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Ouvrages généraux[modifier | modifier le code]

Rapports officiels[modifier | modifier le code]
  • Gaillard (Yann), La politique du livre face au défi du numérique, Commission des finances du Sénat,24

février 2010 (accessible à l’adresse : http://www.enssib.fr/bibliotheque-numerique/document-48202)

Littérature professionnelle[modifier | modifier le code]
Perspectives européennes[modifier | modifier le code]

La chaîne de numérisation[modifier | modifier le code]

Etudes concernant l’ensemble de la chaîne[modifier | modifier le code]
  • Le site de la BNF
  • Ministère de la Culture et de la Communication, Écrire un cahier des charges de numérisation et de conversion en mode texte de collections de presse, 2010, 28 p., annexes, 29 p. (en ligne)
  • Ministère de la Culture et de la Communication, Ecrire un cahier des charges de numérisation (documents reliés, manuscrits, plans, dessins, photographies, microformes), 2008, 62 p.
  • Le Borgne (Christelle), Réflexion sur la stratégie de constitution et diffusion d'un corpus d'enregistrement sonore extrait des archives de la BPI, Mémoire d’étude dans le cadre du diplôme de conservateur des bibliothèques, ENSSIB, janvier 2006 (lire en ligne)
La diffusion[modifier | modifier le code]
  • Balley (Noëlle), « Mise en ligne des fonds patrimoniaux », BBF, 2008, n° 3, p. 103.
  • Brisac (Anne-Laure), « Numérisation du patrimoine des bibliothèques et moteurs de recherche », BBF,

2010, n° 3, p. 78-79.

  • Gagnon (Jacinthe), La numérisation des bibliothèques et ses conséquences sur le droit d’auteur, Québec, école nationale d’administration publique, janvier 2010 (lire en ligne)
Numérisation et conservation[modifier | modifier le code]
  • Ministère de la Culture et de la communication, Conservation à long terme des documents numérisés, 2008, 18 p.
  • Banat-Berger (Françoise),  Duplouy (Laurent),  Huc (Claude), L'archivage numérique à long terme : les débuts de la maturité ? Paris, La Documentation française, 2009.

Articles connexes[modifier | modifier le code]

Sur les autres projets Wikimedia :

Liens externes[modifier | modifier le code]

Notes et références[modifier | modifier le code]

  1. une définition de la numérisation spécifique aux documents d'archive et de bibliothèque.
  2. Définition de « numérique » du Répertoire terminologique 2000 de la Commission générale de terminologie et de néologie ; gouvernement français : FranceTerme.
  3. Commission électrotechnique internationale : Electropedia 10-12-06.
  4. Dématérialisation - Des décideurs conscients de la déficience de leurs processus documentaires entrants, blog MARKESS International
  5. 289bis du code général des impôts et loi de simplification et de clarification du droit et d’allègement des procédures promulguée le 13 mai 2009
  6. Une intensification des besoins en archivage à valeur probatoire, blog MARKESS International
  7. Service qui assure l'archivage du Web depuis 1996.