Théorie de l'information

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Page d'aide sur l'homonymie Pour l’article homonyme, voir La Théorie de l'information

La théorie de l'information, sans précision, est le nom usuel désignant la théorie de l'information de Shannon, qui est une théorie probabiliste permettant de quantifier le contenu moyen en information d'un ensemble de messages, dont le codage informatique satisfait une distribution statistique précise. Ce domaine trouve son origine scientifique avec Claude Shannon qui en est le père fondateur avec son article A Mathematical Theory of Communications publié en 1948.

Parmi les branches importantes de la théorie de l'information de Shannon, on peut citer :

Dans un sens plus général, une théorie de l'information est une théorie visant à quantifier et qualifier la notion de contenu en information présent dans un ensemble de données. À ce titre, il existe une autre théorie de l'information : la théorie algorithmique de l'information, créée par Kolmogorov, Solomonov et Chaitin au début des années 1960.

L'information selon Shannon, un concept de la physique mathématique[modifier | modifier le code]

L'information est un concept physique nouveau qui a surgi dans un champ technologique. Le concept théorique d'information a été introduit à partir de recherches théoriques sur les systèmes de télécommunication. L'origine de ces recherches remonte aux études entreprises dès la fin du XIXe siècle, en physique et en mathématique par Boltzmann et Markov sur la notion de probabilité d'un événement et les possibilités de mesure de cette probabilité. Plus récemment, avant la Seconde Guerre mondiale, les contributions les plus importantes sont dues à la collaboration des mathématiciens et des ingénieurs des télécommunications, qui ont été amenés à envisager les propriétés théoriques de tout système de signaux utilisé par les êtres, vivants ou techniques, à des fins de communication.

Modèle de la communication de Shannon et Weaver

À la suite des travaux de Hartley (1928), Shannon (1948) détermine l'information comme grandeur mesurable, sinon observable —car nul n'a jamais vu l'information— et celle-ci devient la poutre maîtresse de la théorie de la communication qu'il élabore avec Warren Weaver[1].

Cette théorie est née de préoccupations techniques pratiques. La société Bell cherche à transmettre les messages de la façon à la fois la plus économique et la plus fiable. Aussi le cadre originel de la théorie est celui d'un système de communications où un émetteur transmet un message à un récepteur à travers un canal matériel/énergétique donné. Émetteur et récepteur ont par hypothèse un répertoire commun, un code qui contient les catégories de signaux utilisables. Ainsi le message codé est transmis, de l'émetteur au récepteur à travers le canal, sous forme de signes ou signaux portés par de la matière/énergie.

Ainsi, le concept d'information a été l'objet d'une théorie que la postérité a choisi d'appeler "théorie de l'information" alors qu'il s'agissait, à proprement parler, d'une théorie mathématique de la communication de l'information ; or cette expression est exactement celle de Shannon et Weaver ! Cette source de confusion est régulièrement rappelée dans la littérature. On dit, en pareil cas, que l'expression abrégée a été retenue par l'usage ; l'emploi du sigle TMCI clarifierait pourtant bien la situation.

Cette théorie mathématique appliquée aux techniques de la télécommunication a été élaborée plus spécialement par Claude Shannon, ingénieur à la Compagnie des Téléphones Bell et reste jusqu'à nos jours la base du concept dit scientifique d'information. Cependant, cette théorie ne pourrait s'appuyer ni sur la forme matérielle/énergétique, ni sur le contenu cognitif des messages émis : leur contenu sémantique est laissé de côté, de même que leur contenant physique, pour ne s'intéresser qu'aux aspects mathématiques et communicationnels.

Dans sa conception originale, la théorie de l'information de Shannon s'est limitée à analyser les moyens à mettre en œuvre dans les techniques de télécommunication pour transmettre l'information le plus rapidement possible et avec le maximum de sécurité. Elle s'est donc efforcée de développer des méthodes susceptibles de minimiser la probabilité d'erreur dans la reconnaissance du message. Une notion fondamentale sera nécessaire pour développer ces méthodes : la mesure de l'information, au sens mathématique du terme.

Pour Shannon, l'information présente un caractère essentiellement aléatoire. Un événement aléatoire est par définition incertain. Cette incertitude est prise comme mesure de l'information. Une information sera donc uniquement définie par sa probabilité (I = - log p). Donc l'information est la mesure de l'incertitude calculée à partir de la probabilité de l'événement. Shannon a donc confondu la notion d'information et de mesure d'incertitude. Il faut remarquer que dans cette définition l'information est bien synonyme de mesure d'incertitude. Dans cet ordre d'idée, plus une information est incertaine, plus elle est intéressante, et un événement certain ne contient aucune information. En théorie de l'information de Shannon, il s'agit donc de raisonner en probabilité et non en logique pure.

L'information de Shannon se mesure en unités binaires dites bits. Le bit peut être défini comme un événement qui dénoue l'incertitude d'un récepteur placé devant une alternative dont les deux issues sont pour lui équiprobables. Plus les éventualités que peut envisager ce récepteur sont nombreuses, plus le message comporte d'événements informatifs, plus s'accroît la quantité de bits transmis. Il est clair que nul récepteur ne mesure en bits l'information obtenue dans un message. C'est seulement le constructeur d'un canal de télécommunication qui a besoin de la théorie, et mesure l'information en bits pour rendre la transmission de message la plus économique et la plus fiable.

La notion d'information d'après Shannon est nécessairement associée à la notion de « redondance » et à celle de « bruit ». Par exemple, en linguistique l'information n'est ni dans le mot, ni dans la syllabe, ni dans la lettre. Il y a des lettres voire des syllabes qui sont inutiles à la transmission de l'information que contient le mot : il y a dans une phrase, des mots inutiles à la transmission de l'information. La théorie de Shannon appelle redondance tout ce qui dans le message apparaît comme en surplus. Aussi est-il économique de ne pas transmettre la redondance.

L'information chemine à travers un canal matériel/énergétique : fil téléphonique, onde radio, etc. Or, dans son cheminement, l'information rencontre du bruit. Le bruit est constitué par les perturbations aléatoires de toutes sortes qui surgissent dans le canal de transmission et tendent à brouiller le message. Le problème de la dégradation de l'information par le bruit est donc un problème inhérent à sa communication. Ici, l'idée de redondance présente une face nouvelle ; alors qu'elle apparaît comme un surplus inutile sous l'angle économique, elle devient, sous l'angle de la fiabilité de la transmission un fortifiant contre le bruit, un préventif contre les risques d'ambiguïté et d'erreur à la réception.

Le statut physique de la théorie de l’information[modifier | modifier le code]

Très vite de multiples applications de la théorie de l'information de Shannon sont apparues dans le domaine des sciences humaines[2] : les modèles mathématiques élaborés ont permis de préciser certains concepts utilisés couramment dans les analyses linguistiques structurales, en même temps qu'ils faisaient apparaître les limites inhérentes à ce type d'analyse et provoquaient des recherches nouvelles (en traduction automatique et en psycho-linguistique). Tandis que se développait un champ scientifique nouveau : la cybernétique[3].

Cependant, une caractéristique majeure de la théorie shannonienne est de donner à la notion d'information (telle que définie par cette théorie) un statut physique à part entière. Effectivement, l'information acquiert les caractères fondamentaux de toute réalité physique organisée : abandonnée à elle-même, elle ne peut évoluer que dans le sens de sa désorganisation, c'est-à-dire l'accroissement d'entropie ; de fait, l'information subit, dans ses transformations (codage, transmission, décodage, etc..), l'effet irréversible et croissant de la dégradation. Par conséquent Shannon définit comme entropie d'information la mesure H ( H = - K log p). De façon étonnante, l'équation par laquelle Shannon définit l'entropie de l'information coïncide, mais de signe inverse, avec l'équation de Boltzmann-Gibbs définissant l'entropie S en thermodynamique (S = K log p). Cet épisode important a été abondamment commenté [4].

Certains, comme Couffignal[5], ont soutenu que la coïncidence est sans signification : l'application de la fonction de Shannon à la thermodynamique et à l'information serait un hasard de rencontre de l'application d'une même formule mathématique, sans plus. Certes, il peut y avoir rencontre de deux équations de probabilité provenant d'univers différents.

À l'inverse, Brillouin avait prétendu établir une relation logique entre le H de Shannon et le S de Boltzmann, ce que retiennent la plupart des chercheurs qui appliquent la théorie aux disicplines non mathématiques, la biologie en particulier. Selon ce point de vue, il est possible d'inscrire l'information shannonienne dans la physique. En effet, il existe une dualité dans le concept d'information reliant l'information à la matière/énergie véhiculant cette information. L'information shannonienne s'enracine ainsi dans la physique d'une part, dans les mathématiques d'autre part, mais sans qu'on puisse la réduire aux maîtres-concepts de la physique classique : masse et énergie. Comme le dit Wiener : « l'information n'est ni la masse, ni l'énergie, l'information est l'information », ce qui laisse la porte ouverte à des conceptions diverses, à commencer par celle d'un troisième constituant de l'univers[6], après la matière et l'énergie précisément !

Développement de la théorie mathématique de l'information[modifier | modifier le code]

La théorie mathématique de l'Information résulte initialement des travaux de Ronald Aylmer Fisher. Celui-ci, statisticien, définit formellement l'information comme égale à la valeur moyenne du carré de la dérivée du logarithme de la loi de probabilité étudiée.


\mathcal{I}(\theta)
=
\mathrm{E}
\left\{\left.
 \left[
  \frac{\partial}{\partial\theta} \ln f(X;\theta)
 \right]^2
\right|\theta\right\}

À partir de l'inégalité de Cramer, on déduit que la valeur d'une telle information est proportionnelle à la faible variabilité des conclusions résultantes. En termes simples, moins une observation est probable, plus son observation est porteuse d'information. Par exemple, lorsque le journaliste commence le journal télévisé par la phrase « Bonsoir », ce mot, qui présente une forte probabilité, n'apporte que peu d'information. En revanche, si la première phrase est, par exemple « La France a peur », sa faible probabilité fera que l'auditeur apprendra qu'il s'est passé quelque chose, et, partant, sera plus à l'écoute.

D'autres modèles mathématiques ont complété et étendu de façon formelle la définition de l'information.

Claude Shannon et Warren Weaver renforcent le paradigme. Ils sont ingénieurs en télécommunication et se préoccupent de mesurer l'information pour en déduire les fondamentaux de la Communication (et non une théorie de l'information). Dans Théorie Mathématique de la Communication en 1948, ils modélisent l'information pour étudier les lois correspondantes : bruit, entropie et chaos, par analogie générale aux lois d'énergétique et de thermodynamique. Leurs travaux complétant ceux d'Alan Turing, de Norbert Wiener et de John von Neumann (pour ne citer que les principaux) constituent le socle initial de la théorie du signal et des « Sciences de l'Information ».

Pour une source X comportant n symboles, un symbole i ayant une probabilité p_i d'apparaître, l'entropie H de la source X est définie comme :

 H(X)=-\sum_i^n p_i \log_2 (p_i)

C'est au départ le logarithme naturel qui est utilisé. On le remplacera pour commodité par le logarithme à base 2, correspondant à une information qui est le bit. Les considérations d'entropie maximale (MAXENT) permettront à l'inférence bayésienne de définir de façon rationnelle ses distributions a priori.

L'informatique constituera une déclinaison technique automatisant les traitements (dont la transmission et le transport) d'information. L'appellation « Technologies de l'Information et de la Communication » recouvre les différents aspects (systèmes de traitements, réseaux, etc.) de l'informatique au sens large.

Les sciences de l'information dégagent du sens depuis des données en s'appuyant sur des questions de corrélation, d'entropie et d'apprentissage (voir Data mining). Les technologies de l'information, quant à elles, s'occupent de la façon de concevoir, implémenter et déployer des solutions pour répondre à des besoins identifiés.

Adrian Mc Donough dans Information economics définit l'information comme la rencontre d'une donnée (data) et d'un problème. La connaissance (knowledge) est une information potentielle. Le rendement informationnel d'un système de traitement de l'information est le quotient entre le nombre de bits du réservoir de données et celui de l'information extraite. Les data sont le cost side du système, l'information, le value side. Il en résulte que lorsqu'un informaticien calcule la productivité de son système par le rapport entre la quantité de données produites et le coût financier, il commet une erreur, car les deux termes de l'équation négligent la quantité d'information réellement produite. Cette remarque prend tout son sens à la lumière du grand principe de Russel Ackoff qui postule qu'au-delà d'une certaine masse de données, la quantité d'information baisse et qu'à la limite elle devient nulle. Ceci correspond à l'adage « trop d'information détruit l'information ». Ce constat est aggravé lorsque le récepteur du système est un processeur humain, et pis encore, le conscient d'un agent humain. En effet, l'information est tributaire de la sélection opérée par l'attention, et par l'intervention de données affectives, émotionnelles, et structurelles absentes de l'ordinateur. L'information se transforme alors en sens, puis en motivation. Une information qui ne produit aucun sens est nulle et non avenue pour le récepteur humain, même si elle est acceptable pour un robot. Une information chargée de sens mais non irriguée par une énergie psychologique (drive, cathexis, libido, ep, etc.) est morte. On constate donc que dans la chaîne qui mène de la donnée à l'action (données → information → connaissance → sens → motivation), seules les deux premières transformations sont prises en compte par la théorie de l'information classique et par la sémiologie. Kevin Bronstein remarque que l'automate ne définit l'information que par deux valeurs : le nombre de bits, la structure et l'organisation des sèmes, alors que le psychisme fait intervenir des facteurs dynamiques tels que passion, motivation, désir, répulsion, etc. qui donnent vie à l'information psychologique.

Exemples d'information[modifier | modifier le code]

Une information désigne, parmi un ensemble d'événements, un ou plusieurs événements possibles.

En théorie, l'information diminue l'incertitude. En théorie de la décision, on considère même qu'il ne faut appeler « information » que ce qui est « susceptible d'avoir un effet sur nos décisions » (peu de choses dans un journal sont à ce compte des informations…)

En pratique, l'excès d'information, tel qu'il se présente dans les systèmes de messagerie électronique, peut aboutir à une saturation, et empêcher la prise de décision.

Premier exemple[modifier | modifier le code]

Soit une source pouvant produire des tensions entières de 1 à 10 volts et un récepteur qui va mesurer cette tension. Avant l'envoi du courant électrique par la source, le récepteur n'a aucune idée de la tension qui sera délivrée par la source. En revanche, une fois le courant émis et reçu, l'incertitude sur le courant émis diminue. La théorie de l'information considère que le récepteur possède une incertitude de 10 états.

Second exemple[modifier | modifier le code]

Une bibliothèque possède un grand nombre d'ouvrages, des revues, des livres et des dictionnaires. Nous cherchons un cours complet sur la théorie de l'information. Tout d'abord, il est logique que nous ne trouverons pas ce dossier dans des ouvrages d'arts ou de littérature ; nous venons donc d'obtenir une information qui diminuera notre temps de recherche. Nous avions précisé que nous voulions aussi un cours complet, nous ne le trouverons donc ni dans une revue, ni dans un dictionnaire. Nous avons obtenu une information supplémentaire (nous cherchons un livre), qui réduira encore le temps de notre recherche.

Information imparfaite[modifier | modifier le code]

Soit un réalisateur dont j'aime deux films sur trois. Un critique que je connais bien éreinte son dernier film et je sais que je partage en moyenne les analyses de ce critique quatre fois sur cinq. Cette critique me dissuadera-t-elle d'aller voir le film ? C'est là la question centrale de l'inférence bayésienne, qui se quantifie aussi en bits.

Contenu d'information et contexte[modifier | modifier le code]

Il faut moins de bits pour écrire « chien » que « mammifère ». Pourtant l'indication « Médor est un chien » contient bien plus d'information que l'indication « Médor est un mammifère » : le contenu d'information sémantique d'un message dépend du contexte. En fait, c'est le couple message + contexte qui constitue le véritable porteur d'information, et jamais le message seul (voir paradoxe du compresseur).

Mesure de la quantité d'information[modifier | modifier le code]

Quantité d'information : cas élémentaire[modifier | modifier le code]

Considérons N boîtes numérotées de 1 à N. Un individu A a caché au hasard un objet dans une de ces boîtes. Un individu B doit trouver le numéro de la boîte où est caché l'objet. Pour cela, il a le droit de poser des questions à l'individu A auxquelles celui-ci doit répondre sans mentir par OUI ou NON. Mais chaque question posée représente un coût à payer par l'individu B (par exemple un euro). Un individu C sait dans quelle boîte est caché l'objet. Il a la possibilité de vendre cette information à l'individu B. B n'acceptera ce marché que si le prix de C est inférieur ou égal au coût moyen que B devrait dépenser pour trouver la boîte en posant des questions à A. L'information détenue par C a donc un certain prix. Ce prix représente la quantité d'information représentée par la connaissance de la bonne boîte : c'est le nombre moyen de questions à poser pour identifier cette boîte. Nous la noterons I.

EXEMPLE :

Si N = 1, I = 0. Il n'y a qu'une seule boîte. Aucune question n'est nécessaire.

Si N = 2, I = 1. On demande si la bonne boîte est la boîte no 1. La réponse OUI ou NON détermine alors sans ambiguïté quelle est la boîte cherchée.

Si N = 4, I = 2. On demande si la boîte porte le no 1 ou 2. La réponse permet alors d'éliminer deux des boîtes et il suffit d'une dernière question pour trouver quelle est la bonne boîte parmi les deux restantes.

Si N=2^k, I = k. On écrit les numéros des boîtes en base 2. Les numéros ont au plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si la boîte cherchée possède le chiffre 0 ou le chiffre 1. En k questions, on a déterminé tous les chiffres binaires de la bonne boîte. Cela revient également à poser k questions, chaque question ayant pour but de diviser successivement le nombre de boîtes considérées par 2 (méthode de dichotomie).

On est donc amené à poser I = \log_2(N), mais cette configuration ne se produit que dans le cas de N événements équiprobables.

Quantité d'information relative à un évènement[modifier | modifier le code]

Supposons maintenant que les boîtes soient colorées, et qu'il y ait n boîtes rouges. Supposons également que C sache que la boîte où est caché l'objet est rouge. Quel est le prix de cette information ? Sans cette information, le prix à payer est \log_2(N). Muni de cette information, le prix à payer n'est plus que \log_2(n). Le prix de l'information « la boîte cherchée est rouge » est donc  \log_2(N) - \log_2(n)  = \log_2(N/n) .

On définit ainsi la quantité d'information comme une fonction croissante de \frac{N}{n} avec :

  • N le nombre d'évènements possibles
  • n le nombre d'éléments du sous-ensemble délimité par l'information

Afin de mesurer cette quantité d'information, on pose : I = \log_{2}  \left (\frac{N}{n} \right)

I est exprimé en bit (ou « logon », unité introduite par Shannon[citation nécessaire], de laquelle, dans les faits, bit est devenu un synonyme), ou bien en « nat » si on utilise le logarithme naturel à la place du logarithme de base 2.

Cette définition se justifie, car l'on veut les propriétés suivantes :

  1. l'information est comprise entre 0 et ∞ ;
  2. un évènement avec peu de probabilité représente beaucoup d'information (exemple : « Il neige en janvier » contient beaucoup moins d'information que « Il neige en août » pour peu que l'on soit dans l'hémisphère nord) ;
  3. l'information doit être additive.

Remarque : lorsqu'on dispose de plusieurs informations, la quantité d'information globale n'est pas la somme des quantités d'information. Ceci est dû à la présence du logarithme. Voir aussi : information mutuelle, information commune à deux messages, qui, dans l'idée, explique cette « sous-additivité » de l'information.

Entropie, formule de Shannon[modifier | modifier le code]

Article détaillé : entropie de Shannon.

Supposons maintenant que les boîtes soient de diverses couleurs : n1 boîtes de couleur C1, n2 boîtes de couleur C2…, nk boîtes de couleurs Ck, avec n1 + n2 + … + nk = N. La personne C sait de quelle couleur est la boîte recherchée. Quel est le prix de cette information ?

L'information « la boîte est de couleur C1 » vaut log N/n1, et cette éventualité a une probabilité n1/N. L'information « la boîte est de couleur C2 » vaut log N/n2, et cette éventualité a une probabilité n2/N…

Le prix moyen de l'information est donc n1/N log N/n1 + n2/N log N/n2 + … + nk/N log N/nk. Plus généralement, si on considère k évènements disjoints de probabilités respectives p1, p2…, pk avec p1 + p2 + … + pk = 1, alors la quantité d'information correspondant à cette distribution de probabilité est p1 log 1/p1 + … + pk log 1/pk. Cette quantité s'appelle entropie de la distribution de probabilité.

L'entropie permet donc de mesurer la quantité d'information moyenne d'un ensemble d'évènements (en particulier de messages) et de mesurer son incertitude. On la note H :

H \left (I \right) = - \sum_{i\in I} p_i \log_2\; p_i

avec p_i = \frac{n_i}{N} la probabilité associée à l'apparition de l'évènement i.

Codage de l'information[modifier | modifier le code]

On considère une suite de symboles. Chaque symbole peut prendre deux valeurs s1 et s2 avec des probabilités respectivement p1 = 0,8 et p2 = 0,2. La quantité d'information contenue dans un symbole est :
p_1 \times \log_2\frac{1}{p_1} + p_2 \times \log_2\frac{1}{p_2} \approx 0,7219
Si chaque symbole est indépendant du suivant, alors un message de N symboles contient en moyenne une quantité d'information égale à 0,72N. Si le symbole s1 est codé 0 et le symbole s2 est codé 1, alors le message a une longueur de N, ce qui est une perte par rapport à la quantité d'information qu'il porte. Les théorèmes de Shannon énoncent qu'il est impossible de trouver un code dont la longueur moyenne soit inférieure à 0,72N, mais qu'il est possible de coder le message de façon à ce que le message codé ait en moyenne une longueur aussi proche que l'on veut de 0,72N lorsque N augmente.

Par exemple, on regroupe les symboles trois par trois et on les code comme suit :

symboles à coder probabilité du triplet codage du triplet longueur du code
s1s1s1 0,8³ = 0,512 0 1
s1s1s2 0,8² × 0,2 = 0,128 100 3
s1s2s1 0,8² × 0,2 = 0,128 101 3
s2s1s1 0,8² × 0,2 = 0,128 110 3
s1s2s2 0,2² × 0,8 = 0,032 11100 5
s2s1s2 0,2² × 0,8 = 0,032 11101 5
s2s2s1 0,2² × 0,8 = 0,032 11110 5
s2s2s2 0,2³ = 0,008 11111 5

Le message s1s1s1s1s1s2s2s2s1 sera codé 010011110.

La longueur moyenne du code d'un message de N symboles est : {N \over 3}(0,512 + 3 \times 0,128 \times 3 + 3 \times 0,032 \times 5 + 0,008 \times 5) = 0,728N

Article détaillé : théorie des codes.

Limites de cette théorie[modifier | modifier le code]

L'une des caractéristiques fondamentales de cette théorie est l'exclusion de la sémantique. La théorie de l'information est indifférente à la signification des messages. Le sens d'un message peut pourtant être considéré comme essentiel dans la caractérisation de l'information. Mais le point de vue de la théorie de l'information se limite à celui d'un messager dont la fonction est de transférer un objet[7] .

La théorie de l'information de Shannon est toujours relative à un ensemble de données, une famille de chaînes de caractères, caractérisée par une loi de distribution bien précise. Elle donne donc un contenu en information en moyenne, ce qui en fait une théorie probabiliste, particulièrement bien adaptée au contexte de la transmission de donnée, et dans ce cadre cette théorie a produit des résultats importants. En revanche, elle n'est pas en mesure de quantifier le contenu en information d'une chaine prise isolément, un brin d'ADN par exemple, alors que la théorie algorithmique de l'information en est capable jusqu'à un certain point. Mais cette dernière théorie possède également ses propres limitations. C'est pourquoi il ne faut pas considérer que la notion d'information est entièrement cernée par la théorie de l'information de Shannon, ou la théorie algorithmique de l'information, mais que cette notion a besoin d'une variété de modélisations formelles pour s'exprimer[8].

L'information de Fisher semble ainsi parfois avantageusement remplacer l'information de Shannon dans la mesure où elle est une quantification locale et non globale de l'information contenue dans une distribution [9]. Cela dit, les deux notions sont liées[10] et peuvent dans diverses applications mener aux mêmes résultats.

Notes et références[modifier | modifier le code]

  1. C.E. Shannon et W. Weaver : The mathematical Theory of communication, University of Illinois, Urbana III, 1949.
  2. Voir par exemple, R. Escarpit : Théorie générale de l'information et de la communication, Hachette 1980.
  3. La cybernétique naquit en happant le concept scientifique d'information naissant pour l'intégrer dans la théorie des machines. La cybernétique est une discipline entamée par Norbert Wiener en 1948. Elle est définie comme étant l'étude de la théorie de la commande et de la communication tant dans la machine que dans les êtres vivants. En effet, dans la conception de Wiener, la cybernétique n'est pas seulement une science des machines mais s'intéresse à tout système, vivant ou non, capable d'auto-contrôle et de communication. Ainsi Wiener fonda la cybernétique en liant la commande à la communication de l'information.
  4. Jérôme Segal. Le zéro et le un. Histoire de la notion scientifique d'information au 20ème siècle. Éditions Syllepse, 2003, 890 p. ISBN 2 84797 046 0. James Gleick. The information. A history, a theory, a flood. Fourth Estate, 2011, 527 p. ISBN 978 0 00 722574 3.
  5. L. Couffignal : La cybernétique, PUF, Que sais-je ?, Paris 1968.
  6. Doyle, R. (Bob) et "The Information Philosopher" : www.informationphilosopher.com (I-Phi ou Pi). Stonier, T. Information and the internal structure of the universe. Springer Verlag, 1990. Beyond information. The natural history of intelligence. Springer Verlag, 1992.
  7. Université de Tours, vue d'ensemble de la théorie de l'information, page 5
  8. Jean-Paul Delahaye, Information, complexité et hasard, 1999, Hermes. Chapitre 1
  9. B.R.Frieden, Science from Fisher Information, 2004, Cambridge University Press
  10. C.R.Rao, Differential Metrics in Probability Spaces in Differential Geometry in Statistical Inference, Chapitre 5, Institute of Mathematical Statistics

Voir aussi[modifier | modifier le code]

Bibliographie[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Lien externe[modifier | modifier le code]