Langage de requête

Un article de Wikipédia, l'encyclopédie libre.

Un langage de requête, aussi connu comme langage de requête des données (en anglais : data query language ; DQL), est un langage informatique utilisé pour accéder aux données d'une base de données ou d'autres systèmes d'information. Il permet d'obtenir les données vérifiant certaines conditions (on parle de critères de sélection), comme toutes les personnes qui habitent une ville donnée. Les données peuvent être triées, elles peuvent également être regroupées suivant les valeurs d'une donnée particulière (par exemple on va regrouper toutes les personnes qui habitent la même rue).

La grammaire d'un langage de requête est adaptée à la structure des données interrogées. Le langage de requête le plus connu et le plus utilisé est SQL.

Historique[modifier | modifier le code]

En 1970, Edgar Frank Codd, chercheur en informatique au laboratoire d’IBM Research à San José, propose un nouveau modèle de données : le modèle relationnel[1]. Les modèles de données existants, le modèle hiérarchique et le modèle réseau, possèdent plusieurs problèmes, dont celui d’être conçu avec une vision de programmeur : les utiliser nécessitent d’avoir une connaissance de la façon dont les données sont stockées[2].

Dans son article A Relational Model of Data for Large Shared Data Banks, Edgar Frank Codd propose le modèle relationnel, qu’il décrit ainsi : « [le modèle relationnel] fournit un moyen de décrire les données avec leur structure naturelle seulement — c’est-à-dire, sans imposer aucune structure supplémentaire à des fins de représentation machine »[3]. En 1971, dans ses articles Relational Completeness of Data Base Sublanguages et A Data Base Sublanguage Founded on the Relational Calculus, Edgar Frank Codd introduit trois langages : l’algèbre relationnelle, le calcul relationnel (en) et le langage de requête Alpha (en)[4].

Vers 1973, indépendamment du langage Alpha, Don Chamberlin et Raymond F. Boyce (en) créent le langage SEQUEL, plus tard renommé SQL[5]. Le projet Ingres crée son propre langage, appelé QUEL, et inspiré par Alpha[5]. Toutefois, dans les années 1980, SQL est mis en avant par les entreprises vendant des bases de données, telles qu’IBM ou Oracle[5]. SQL devient le langage dominant sur le marché et QUEL est abandonné petit à petit[5]. À ce jour, SQL reste le langage de requête pour les bases relationnelles le plus utilisé[5].

SQL[modifier | modifier le code]

Une base de données peut être interrogée de manière formelle par le langage SQL ou par un langage algébrique. Le langage SQL (Structured Query Langage) est devenu un standard des bases de données relationnelles (en 1987, normalisation de ce langage par ANSI). SQL s'utilise sous deux formes, soit d'une manière interactive, soit à l'intérieur d'un langage hôte (C, Fortran, Cobol…). SQL ne comporte qu'une vingtaine d'instructions, il est dit procédural (l'accès aux données se fait par leur contenu et non par leur chemin). SQL est un langage de définition des données (LDD), de manipulation de données (LMD), de contrôle des données (LCD) et d'interrogation des données (LID). Malgré le succès du langage SQL qui a suivi, Edgar F. Codd dénoncera cet outil qu'il considère comme une interprétation incorrecte de ses théories.

Terminologie[modifier | modifier le code]

SQL permet la gestion et l'interrogation des bases de données. Une base de données peut être considérée comme une table à deux dimensions, dont les colonnes sont les champs et les lignes sont les tuples. Plusieurs tables peuvent contenir des colonnes de même noms, pour les différencier, il faudra préfixer les rubriques par le nom de la table.

Remarque : La base de données fournie en exemple est composée de 2 tables. La table Employe constituée d'un code employé, d'un nom, d'un prénom, d'une date de naissance, d'une adresse et d'un code emploi. La table Emploi constituée d'un code emploi (auquel fait référence la table EMPLOYE), d'un libellé d'emploi, de la ville concernée par cet emploi.

La projection[modifier | modifier le code]

La projection est une opération qui consiste à ne sélectionner que certaines données pour l'affichage. La syntaxe est la suivante :

 R1 ← PROJ(nomdelatable; liste des propriétés)
 SELECT liste des propriétés
 FROM nomdelatable ;

Exemples :

LA : PROJ(Employe; nom, prénom)

SQL : SELECT nom, prénom FROM Employe ;

Cette requête ne renvoie que les nom et prénom de la table Employe

LA : PROJ(Employe; *)

SQL : SELECT * FROM Employe ;

Cette requête renvoie toutes les rubriques de la table Employe grâce au caractère joker *.

Le tri[modifier | modifier le code]

Pour obtenir un affichage trié, il est nécessaire de le préciser. L'opérateur de tri est à utiliser en langage algébrique. La clause order by est à ajouter à la fin de la requête SQL, suivi du nom de la colonne qui doit être utilisé pour ce tri Le tri par défaut s'effectue par ordre croissant ; pour obtenir un tri par ordre décroissant, il faut rajouter le paramètre DESC.

 R2 ← TRI('''R1'''; attribut du tri croissant)
 SELECT Liste des propriétés
 FROM nomdelatable
 ORDER BY propriété ASC;

Ou :

 R2 ← TRI('''R1'''; attribut du tri décroissant)
 SELECT Liste des propriétés
 FROM nomdelatable
 ORDER BY propriété DESC;

Attention ! : le tri ne s'effectue qu'à l'affichage, en aucun cas la base de données n'est modifiée.

Exemple :

  • Sélection des employés (nom et prénom) triés par ordre alphabétique du nom et par date de naissance décroissante.
 R1 ← PROJ(Employe; nom, prenom, datenais)
 R2 ← TRI(R1; nom croissant, '''datenais décroissant''')
 SELECT nom, prenom, datenais
 FROM Employe
 ORDER BY nom ASC, datenais DESC ;

Attention ! : Pour un tri multi-critères, l'ordre de tri est celui de la rubrique d'avant.

  • À partir du tri ci-dessus, nous rajoutons un tri par prénom croissant
 R1 ← PROJ(Employe; nom, prenom, datenais)
 R2 ← TRI(R1; nom croissant, datenais décroissant, '''prenom croissant''')
 SELECT nom, prenom, datenais
 FROM Employe
 ORDER BY nom ASC, datenais DESC, prenom ASC ;

La sélection[modifier | modifier le code]

La sélection consiste à sélectionner des lignes répondant à certains critères. La syntaxe est la suivante :

 R1 ← SEL(R; propriété opérateur valeur ET propriété opérateur valeur)

Attention ! : Le langage algébrique s'écrit à l'envers du SQL.

 SELECT liste des propriétés
 FROM nomdelatable
 WHERE propriété op valeur
 AND propriété op valeur ;
  • Qu'est-ce qu'un critère de sélection (appelé aussi prédicat) ?

C'est le résultat de la comparaison de deux expressions au moyen d'un opérateur de comparaison.

  • Qu'est-ce qu'un opérateur ?

Un opérateur décrit une opération de comparaison.

Egal = différent != ou ⇔ suivant le SGBDR Supérieur > Supérieur ou égal >= Inférieur < Inférieur ou égal ⇐

Attention ! : Les minuscules sont différenciées des majuscules

La jointure[modifier | modifier le code]

C'est une opération permettant de ramener sur une même ligne des données venant de plusieurs tables. Une jointure s'effectue grâce à un produit cartésien de plusieurs tables (256 au maximum) et l'application de sélections.

 R3 = JOIN(R1, R2; R1.propriété opérateur R2.propriété)

Les sous-interrogations[modifier | modifier le code]

Une sous-interrogation est l'expression d'un prédicat à l'aide du résultat d'une sélection. Il peut y avoir jusqu’à 16 niveaux de sous-interrogations. Une erreur est générée si une sous-interrogation n'amène rien ou si elle ramène plus de valeurs que ne peut en accepter le champ.

Complétude des langages de requêtes[modifier | modifier le code]

C'est Codd le premier qui dans son article A relational model of data for large shared data banks définit la complétude d'un langage comme l'équivalence à l'algèbre relationnelle[réf. nécessaire].

Plus généralement, un langage de requête est complet s'il permet de poser toutes les questions possibles sur une base de données. Une définition "statique" a été introduite en parallèle par Bancilhon et Paredaens, qui énonce qu'un langage est complet s'il permet de produire toutes les relations invariantes par le groupe d'isomorphismes qui laissent les éléments du graphe invariants[Quoi ?]. Paredaens a démontré que l'algèbre relationnelle était complète et Bancilhon a démontré que le calcul relationnel était complet[réf. nécessaire].

Exemples[modifier | modifier le code]

Par ordre alphabétique :

Références [modifier | modifier le code]

  1. Batra 2018, p. 186.
  2. Batra 2018, p. 185.
  3. (en) Edgar Frank Codd, « A relational model of data for large shared data banks », Communications of the ACM, New York, ACM, vol. 13, no 6,‎ , p. 377-387 (ISSN 0001-0782 et 1557-7317, OCLC 1514517, PMID 9617087, DOI 10.1145/362384.362685, lire en ligne)Voir et modifier les données sur Wikidata
  4. Batra 2018, p. 186-187.
  5. a b c d et e Batra 2018, p. 187.

Bibliographie[modifier | modifier le code]

Document utilisé pour la rédaction de l’article : document utilisé comme source pour la rédaction de cet article.

  • (en) Rahul Batra, « A History of SQL and Relational Databases », dans SQL Primer: An Accelerated Introduction to SQL Basics, Apress, (ISBN 978-1-4842-3576-8, DOI 10.1007/978-1-4842-3576-8_19), p. 183–187. Ouvrage utilisé pour la rédaction de l'article
  • Relational completeness of database sublanguages E. F. Codd. IBM Research. Laboratory. San Jose, California. 1971
  • On the Completeness of Query Languages for Relational Data Bases. François Bancilhon, MFCS 1978: 112-123
  • On the Expressive Power of the Relational Algebra. Inf. Process. Jan Paredaens, Lett. 7(2): 107-111 (1978)

Voir aussi[modifier | modifier le code]

Sur les autres projets Wikimedia :

Liens externes[modifier | modifier le code]