Fichier informatique

Un fichier informatique est, au sens commun, une collection, un ensemble de données numériques réunies sous un même nom, enregistrées sur un support de stockage permanent, appelé mémoire de masse, tel qu'un disque dur, un cédérom, une mémoire flash ou une bande magnétique, une série de cartes perforées et manipulées comme une unité^[1]^,^[2].

Techniquement, un fichier est une information numérique constituée d'une séquence d'octets, c'est-à-dire d'une séquence de nombres, permettant des usages divers.

En vue de faciliter leur organisation, les fichiers sont disposés dans des systèmes de fichiers qui permettent de placer les fichiers dans des emplacements appelés répertoires ou dossiers, eux-mêmes organisés selon le même principe de manière à former une hiérarchie arborescente^[2].

Un fichier comporte un nom de fichier qui sert à désigner le contenu et à y accéder. Ce nom comporte souvent — notamment dans l'environnement Windows — un suffixe, l'extension, qui renseigne sur la nature des informations contenues dans le fichier et donc des logiciels utilisables pour le manipuler. Chaque fichier comporte un certain nombre de métadonnées — informations concernant les informations — telles que (suivant le système de fichier) la longueur du fichier, son auteur, les personnes autorisées à le manipuler, ou la date de la dernière modification^[2].

L'essence du fichier est les informations qu'il contient. Le format de fichier est la convention selon laquelle les informations ainsi que les métadonnées sont numérisées et séquencées dans le fichier. Le format du fichier est propriétaire lorsque la convention n'est connue que de son auteur et n'a jamais été publiée. Le format du fichier est ouvert lorsque la convention est rendue publique en vue de permettre l'interopérabilité des logiciels le manipulant. Selon la nature et le format du contenu, les fichiers peuvent être qualifiés d'exécutables, de compressés, de textes, de documents, d'images, d'audio ou de vidéos^[3].

Avant l'arrivée des ordinateurs, les fichiers étaient des piles de fiches réunies dans des classeurs. L'utilisation des ordinateurs et du stockage magnétique a facilité et accéléré la manipulation de grands fichiers tels que ceux utilisés dans le commerce et l'administration publique^[4]. La manipulation des fichiers est un des services classiques offerts par les systèmes d'exploitation^[5].

Contenu[modifier | modifier le code]

Histoire[modifier | modifier le code]

1950, un fichier de cartes perforées, ancêtre des fichiers informatiques.

Le fichage — la collecte de renseignements — est une pratique qui date de l'Antiquité. Les premières fiches au sens de supports d'informations étaient des plaquettes gravées par les Babyloniens en 400 av. J.-C.^[4]. À la fin du XIX^e siècle, le terme fiche est (entre autres) défini comme une « feuille de carton sur laquelle on écrit des titres d'ouvrages, que l'on classe alphabétiquement dans des boîtes, et auxquelles on recourt pour trouver le volume dans la bibliothèque. On s'en sert aussi pour préparer des tables de matières »^[9]. De là est plus tard dérivé le terme fichier, qui désigne un recueil de fiches et, par extension, le meuble destiné à les contenir^[10].

Au début du XX^e siècle, avant l'arrivée des ordinateurs, l'utilisation de fiches documentaires était courante dans de nombreux domaines. Les informations étaient consignées sur des feuilles de papier ou de carton, des documents, des formulaires, des dossiers, rangés dans les tiroirs d'une armoire. C'est en particulier dans l'administration publique, le commerce et l'industrie que se trouvaient les plus grands fichiers. L'enregistrement, puis la mise à jour de toutes les informations contenues sur les documents demandait un effort considérable et prenait beaucoup de temps. Elle a pu être simplifiée par l'utilisation de cartes perforées, dont la lecture pouvait être réalisée par des machines^[4]^,^[11].

En 1950, les fichiers informatiques se présentaient sous la forme d'une pile de cartes perforées, qu'un appareil lisait sans intervention humaine. Elles pouvaient ainsi être traitées 100 fois plus vite que si les informations avaient été introduites manuellement. De tels fichiers étaient cependant volumineux et ont rapidement été remplacés par des dispositifs de stockage magnétique, plus compacts et plus rapides : une bobine de bande magnétique peut contenir autant d'informations qu'une pile de cartes de 60 mètres de haut et le contenu de la bande magnétique peut être lu 100 fois plus vite que celui d'un fichier de cartes perforées^[4].

L'organisation des fichiers sur bande magnétique était analogue à celle des fichiers de cartes perforées : ils étaient composés d'enregistrements, chaque enregistrement correspondant à un ensemble d'informations sur un même sujet. Chaque enregistrement contenait un certain nombre de champs, dans lesquels on trouvait des renseignements en rapport avec le sujet. Dans le cas d'un fichier concernant un étudiant, par exemple, les différents champs pouvaient contenir le nom, le prénom, l'âge, les résultats scolaires, etc. Diverses informations sur un même sujet pouvaient être réparties entre différents fichiers^[12]. Les fiches enregistrées sur bande magnétique étaient lues une par une, dans l'ordre ou elles étaient enregistrées sur la bande; ce procédé appelé fichier séquentiel était utilisé pour le décompte des salaires, ainsi que des abonnements de téléphone et de gaz^[4].

Depuis 1980, les systèmes d'exploitation tel Unix offrent la possibilité de stocker de grandes quantités d'informations, de les rechercher et de les classer d'une manière analogue à un bloc-notes dans une hiérarchie où chaque répertoire peut contenir d'autres répertoires^[13]^,^[14].

Mise en œuvre[modifier | modifier le code]

Unix et les fichiers spéciaux[modifier | modifier le code]

Outre les fichiers et les répertoires, les systèmes d'exploitation Unix permettent d'enregistrer des liens et des fichiers spéciaux^[19].

Un lien permet de partager des fichiers entre plusieurs utilisateurs, il permet d'obtenir qu'un seul contenu soit disponible sous plusieurs noms différents situés dans des répertoires différents, sans avoir à effectuer des copies. Les changements effectués sur le contenu par un des utilisateurs sont immédiatement visibles par les autres. Il existe deux types de liens: le lien matériel (hard link) et le lien symbolique (symlink)^[19].

le lien matériel est une deuxième étiquette pour un contenu. L'étiquette comprend le nom, l'auteur, et la date de la dernière modification^[20].
le lien symbolique contient le nom du répertoire dans lequel se trouve le fichier en question et fonctionne de la même manière que les raccourcis des systèmes d'exploitation Windows^[19].

Les fichiers spéciaux sont une fonctionnalité propre aux systèmes d'exploitation Unix uniquement. Un fichier spécial représente une pièce de matériel tel qu'une imprimante ou un lecteur de cédérom, qu'il est alors possible de manipuler de la même manière qu'un fichier ordinaire : de lire et d'écrire sur le périphérique en utilisant les mêmes commandes que pour lire et écrire un fichier ordinaire^[19].

Fichiers et documents sur le Macintosh[modifier | modifier le code]

Le système d'exploitation du Macintosh utilisait un format de fichier évolué (supporté par HFS et HFS+) qui tend à disparaître à partir de la dixième version. Ce format, outre une certaine quantité de métadonnées, prévoit deux formes de données : la branche des données (data fork), correspondant au fichier de n'importe quel système d'exploitation, et la branche des ressources (resource fork), sorte de répertoire contenant des plus petites unités de données appelées ressources, classées par leur type. L'avantage par rapport au fichier monolithique ordinaire est double : premièrement, l'application peut utiliser une API du système (Boîte à outils Macintosh) pour gérer les données en mémoire ; deuxièmement, l'utilisateur voit un simple fichier qu'il nomme document alors qu'il contient des données hétérogènes, à la manière d'un répertoire. Le tout est évolutif puisqu'on peut toujours ajouter des nouveaux types de ressources sans modifier le format original du fichier. À partir de Mac OS X la notion de bundle (document qui est, en fait, un répertoire), reprend les avantages principaux de la branche des ressources. Un document n'est donc plus forcément un fichier.

Intégrité des fichiers[modifier | modifier le code]

Deux fichiers sont identiques s'ils ont la même taille et s'ils contiennent les mêmes informations dans le même ordre. Comparer tous les octets de deux fichiers potentiellement identiques est malheureusement une opération longue (proportionnelle à la taille du fichier). Elle n'est pas non plus toujours possible, comme dans le cas du transport d'un fichier d'un point à un autre que ce soit via un support physique ou par le réseau.

Différentes méthodes sont utilisées pour vérifier l'intégrité d'un fichier :

la comparaison des noms : utile uniquement pour le dédoublonnage et avec des risques d'erreur tant des faux positifs que des faux négatifs.
la comparaison des dates ou d'autres métadonnées associées au fichier : il existe un fort risque d'erreur, ces méta-données pouvant être modifiées indépendamment du contenu du fichier.
la comparaison de numéros informels de versions : la problématique est dans ce cas de repérer une version d'un fichier parmi plusieurs. Le système nécessite de la rigueur, l'utilisateur devant mettre à jour le numéro de version et ne protège en rien contre les modifications accidentelles, par exemple lors du transport.
le contrôle de la taille : deux tailles différentes garantissent que des fichiers diffèrent, mais cela ne permet pas de vérifier qu'ils sont identiques; il y a de plus des risques importants de faux positifs.
la somme de contrôle (checksum) : c'est une méthode simple pour s'assurer de l'intégrité d'un fichier après transport. La méthode n'offre cependant qu'une garantie limitée par le nombre de bits consacrés au checksum. Il existe aussi un risque de mauvaise foi, un fichier pouvant être facilement falsifié pour produire un checksum donné.
la signature ou empreinte : Il existe plusieurs types de signatures: certaines comme les signatures MD5 ou SHA-1 sont similaires à un checksum mais bien plus complexes à falsifier. On compare le résultat d'un calcul de signature réalisé sur le contenu du fichier avec une signature obtenue depuis un site de confiance. D'autres systèmes de signature basés sur un système de clefs publiques valident non seulement l'intégrité d'un fichier mais aussi l'identité de son expéditeur.

Article détaillé : Intégrité (cryptographie).

Par ailleurs, un fichier peut être chiffré ou compressé, ou les deux simultanément.

Accès par API[modifier | modifier le code]

Les systèmes d'exploitation permettent aux utilisateurs, ainsi qu'aux développeurs de logiciels, d'accéder à un fichier dans un système de fichiers grâce à une norme de nommage^{[réf. nécessaire]} et le manipuler conformément à une API.

L'API de base inaugurée par UNIX considère les fichiers comme plats, sans structure et ne gère pas le tamponnage niveau utilisateur. L'API de base ne permet guère plus que de définir une position courante, de lire ou écrire. On peut aussi tronquer ou étendre un fichier. À ce niveau un fichier n'est donc qu'une séquence d'octets.

Sous POSIX et Unix, les noms de fichiers sont considérés comme une séquence d'octet, alors que sous windows ils sont considérés comme de l'unicode. De ce fait, sous windows, les APIs d'accès aux fichiers sont doublées l'une permettant l'accès avec le nom unicode en UTF-16, l'autre permettant de nommer les fichiers à l'aide d'une chaîne d'octets à travers un mécanisme de locales.

Cela peut conduire à des incohérences ou des corruptions de noms de fichier d'une locale à l'autre.

C'est le rôle d'API de plus haut niveau que de se spécialiser pour différents types de fichiers. La simplification de l'API permet de considérer comme fichiers des entités qui n'appartiennent pas nécessairement à un système de fichiers (canaux d'entrées sortie, mémoire vive) et de manipuler ces entités de manière homogène.

Cela est à contraster avec des systèmes de générations précédentes avec des API spécialisées pour chaque composant physique ou imposant des structures aux fichiers sur disque (adressage séquentiel indexé par exemple).

Exemple :

sous Windows :
- C:\WINNT\system\sys.ini - désignation absolue du fichier sys.ini se trouvant dans le répertoire C:\WINNT\system\ ;
- sys.ini - désignation relative du fichier sys.ini, lorsque l'utilisateur se trouve dans le répertoire C:\WINNT\system\.
sous Unix :
- /var/spool/mail/r4f - désignation absolue du fichier r4f se trouvant dans le répertoire /var/spool/mail ;
- mail/r4f - désignation relative du fichier r4f se trouvant dans le sous-répertoire mail, lorsque l'utilisateur se trouve dans le répertoire /var/spool/.

Une fois le fichier désigné, on peut le soumettre à un logiciel, afin qu'il le manipule. Certains outils sont destinés à gérer l'emplacement des fichiers (déplacement, nommage, copie), d'autres gèrent le contenu des fichiers afin que l'utilisateur puisse les modifier ou simplement les consulter.

Notes et références[modifier | modifier le code]

↑ ^{a b et c} (en) EMC Education Services, Information Storage and Management: Storing, Managing, and Protecting Digital Information, John Wiley and Sons, 2010 (ISBN 9780470618332).
↑ ^{a b c d e et f} (en) June Jamrich Parsons et Dan Oja, Computer concepts Illustrated : Enhanced Introductory, Boston, Mass. London, Course Technology/Cengage Learning, 30 janvier 2009, 368 p. (ISBN 978-0-324-78892-1, lire en ligne).
↑ ^{a et b} Andreas Mauthe et Peter Thomas, Professional content management systems: handling digital media assets, Wiley, 2007 (ISBN 978-0-470-85542-3).
↑ ^{a b c d e et f} Murray Laver, An introduction to the uses of computers, Cambridge Univ. Pr, coll. « Cambridge computer science texts », 1982 (ISBN 978-0-521-29035-7).
↑ ^{a et b} (en) K. V. Shibu, Intro To Embedded Systems, Tata McGraw-Hill Education, 2009 (ISBN 9780070145894).
↑ ^{a et b} (en) John R. Levine, The Internet for dummies, Hoboken, NJ, Wiley & Sons, 2010 (ISBN 978-0-470-56095-2).
↑ (en) K. L. James, The Internet: A user's guide, PHI Learning Pvt. Ltd., 10 avril 2010 (ISBN 978-81-203-4029-9, lire en ligne).
↑ Quelques extensions courantes sur Internet.
↑ « DVLF », sur uchicago.edu (consulté le 2 mai 2023).
↑ « DVLF », sur uchicago.edu (consulté le 2 mai 2023).
↑ (en) Ilpo Laine - Olli Lehto - Tuomas Sorvali,Complex analysis, Joensuu 1978: proceedings of the Colloquium on Complex Analysis, Joensuu, Finland, August 24-27, 1978,Springer - 1979, (ISBN 9780387095530).
↑ (en) James Samuel Coleman - Nancy L. Karweit,Information systems and performance measures in schools,Educational Technology - 1972, (ISBN 9780877780380).
↑ (en)B. C. Wonsiewicz,Computer Automation of Materials Testing - STP 710, ASTM International - 1980, (ISBN 9780803102675).
↑ (en) Wai-Kai Chen,The electrical engineering handbook, Academic Press - 2005, (ISBN 9780121709600).
↑ (en) Kevin M. White,Mac OS X support essentials v10.6,Peachpit Press - 2009, (ISBN 9780321635341)
↑ ^{a et b} (en) Eoghan Casey,Handbook of Digital Forensics and Investigation,Academic Press - 2009, (ISBN 9780123742674)
↑ CIM_Datafile
↑ CIM_DataFile in OpenLMI
↑ ^{a b c et d} (en) Kenneth H. Rosen - Douglas A. Host - Rachel Klee,UNIX: the complete reference ,McGraw-Hill Professional - 2006, (ISBN 9780072263367)
↑ (en) Steve Moritsugu,Practical UNIX,Que Publishing - 2000, (ISBN 9780789722508)

Annexes[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Portail de l’informatique

[storage_mgt-1] {a b et c} (en) EMC Education Services, Information Storage and Management: Storing, Managing, and Protecting Digital Information, John Wiley and Sons, 2010 (ISBN 9780470618332).

[concepts-2] {a b c d e et f} (en) June Jamrich Parsons et Dan Oja, Computer concepts Illustrated : Enhanced Introductory, Boston, Mass. London, Course Technology/Cengage Learning, 30 janvier 2009, 368 p. (ISBN 978-0-324-78892-1, lire en ligne).

[digital_medias-3] {a et b} Andreas Mauthe et Peter Thomas, Professional content management systems: handling digital media assets, Wiley, 2007 (ISBN 978-0-470-85542-3).

[intro_1976-4] {a b c d e et f} Murray Laver, An introduction to the uses of computers, Cambridge Univ. Pr, coll. « Cambridge computer science texts », 1982 (ISBN 978-0-521-29035-7).

[embedded-5] {a et b} (en) K. V. Shibu, Intro To Embedded Systems, Tata McGraw-Hill Education, 2009 (ISBN 9780070145894).

[dummies-6] {a et b} (en) John R. Levine, The Internet for dummies, Hoboken, NJ, Wiley & Sons, 2010 (ISBN 978-0-470-56095-2).

[7] (en) K. L. James, The Internet: A user's guide, PHI Learning Pvt. Ltd., 10 avril 2010 (ISBN 978-81-203-4029-9, lire en ligne).

[note-8] Quelques extensions courantes sur Internet.

[9] « DVLF », sur uchicago.edu (consulté le 2 mai 2023).

[10] « DVLF », sur uchicago.edu (consulté le 2 mai 2023).

[11] (en) Ilpo Laine - Olli Lehto - Tuomas Sorvali,Complex analysis, Joensuu 1978: proceedings of the Colloquium on Complex Analysis, Joensuu, Finland, August 24-27, 1978,Springer - 1979, (ISBN 9780387095530).

[12] (en) James Samuel Coleman - Nancy L. Karweit,Information systems and performance measures in schools,Educational Technology - 1972, (ISBN 9780877780380).

[13] (en)B. C. Wonsiewicz,Computer Automation of Materials Testing - STP 710, ASTM International - 1980, (ISBN 9780803102675).

[14] (en) Wai-Kai Chen,The electrical engineering handbook, Academic Press - 2005, (ISBN 9780121709600).

[15] (en) Kevin M. White,Mac OS X support essentials v10.6,Peachpit Press - 2009, (ISBN 9780321635341)

[forensics-16] {a et b} (en) Eoghan Casey,Handbook of Digital Forensics and Investigation,Academic Press - 2009, (ISBN 9780123742674)

[17] CIM_Datafile

[18] CIM_DataFile in OpenLMI

[unix_ref-19] {a b c et d} (en) Kenneth H. Rosen - Douglas A. Host - Rachel Klee,UNIX: the complete reference ,McGraw-Hill Professional - 2006, (ISBN 9780072263367)

[20] (en) Steve Moritsugu,Practical UNIX,Que Publishing - 2000, (ISBN 9780789722508)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Nom	Nature du contenu	Extensions^[8]
Exécutables	Fichiers qui peuvent être exécutés par l'ordinateur — autrement dit, des programmes.	.exe, .com, .sh, .bat, etc.
Compressés	Fichiers codés selon un procédé qui les rend plus petits que les fichiers originaux non codés. Un programme décompresseur est nécessaire pour effectuer le codage inverse et retrouver ainsi le fichier original.	.arc, .zip, .rar, .z, .arj, .sit, .gz, .7z, etc.
Images	Fichiers qui contiennent des images et du son sous une forme exploitable par l'ordinateur. De tels fichiers peuvent contenir des photos, des pictogrammes, des graphiques, des chansons, de la musique, des émissions radio ou des films.	.gif, .jpg, .bmp, .png, .eps, .tif, etc.
Audio		.au, .wav, .mp3, oga, .ram, etc.
Vidéo		.avi, .mpg, .mov, ...
Documents	Documents écrits, destinés à être imprimés et lus. Le fichier contient le texte ainsi que les informations de typographie (polices de caractères, couleurs).	.docx, .odt, .html, .doc, etc.
Texte	Fichiers texte brut qui contiennent des textes écrits, sans indications de typographie. Il peut s'agir de textes destinés aux utilisateurs, tels que des modes d'emploi ou des brouillons ; ou alors de textes destinés à l'ordinateur tels que du code source ou bien des données pour un programme.	.txt, .html, .ini, .csv, .log, .conf, .c, etc.

v · m Communication inter-processus
Méthodes	Fichier Mmap Passage de messages File d'attente Tube Nommé Anonyme Substitution de processus Sémaphore Mémoire partagée Signaux Sockets INET UNIX
Protocoles	Apache Thrift Apple events COM+ CORBA D-Bus DCE ICE ONC RPC POSIX (différentes méthodes) Protocol Buffers SOAP REST TIPC XML-RPC