Apache Impala

Informations
Développé par	Cloudera et Apache Software Foundation
Dernière version	4.4.0 (24 mai 2024)
Dépôt	github.com/apache/impala
État du projet	en développement
Écrit en	C++, Java et Python
Système d'exploitation	Multiplateforme
Environnement	Machine virtuelle Java
Licence	Licence Apache
Site web	impala.apache.org

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne s'appuie pas, ou pas assez, sur des sources secondaires ou tertiaires (janvier 2016).

Pour améliorer la vérifiabilité de l'article ainsi que son intérêt encyclopédique, il est nécessaire, quand des sources primaires sont citées, de les associer à des analyses faites par des sources secondaires.

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Apache Impala est un moteur de requêtes SQL open source de Cloudera (MPP) pour les données stockées dans des clusters d'ordinateurs exécutant Apache Hadoop^[2].

Description[modifier | modifier le code]

Cloudera Impala est un moteur de requête qui s'exécute sur Apache Hadoop.

Impala apporte la technologie évolutive et parallèle des bases de données Hadoop, permettant aux utilisateurs d'émettre des requêtes SQL faibles latences aux données stockées dans le HDFS et Apache HBase sans nécessiter le déplacement des données ou transformation. Impala est intégré avec Hadoop pour utiliser les mêmes fichiers et formats de données, ainsi que les frameworks de sécurité et management de ressource utilisés par MapReduce, Apache Hive, Apache Pig et autres logiciels Hadoop^[3].

Impala est favorisée par les analystes et les data scientists pour effectuer des analyses sur des données stockées dans Hadoop via des outils de SQL ou des outils d'informatique décisionnelle. Le résultat est un traitement massif sur les données et des requêtes interactives qui peuvent-être effectuées sur le même système en utilisant les mêmes données et méta-données – en évitant de migrer l'ensemble de données dans les systèmes spécialisés ou sur des formats propriétaires tout simplement pour effectuer des analyses.

Fonctionnalités :

Support HDFS et Apache HBase,
Lecture des formats Hadoop, y compris les formats texte, LZO, SequenceFile, Avro, RCFile, et Parquet,
Support Hadoop security (authentication Kerberos),
Autorisation fine basée sur les rôles avec Apache Sentry,
Utilisation des meta-datas, driver ODBC, et syntaxe SQL de Apache Hive.

Au début de 2013, un format de fichier en colonnes appelé Parquet a été annoncé pour les architectures y compris Impala. En décembre 2013, Amazon Web Services a annoncé un soutien pour Impala. Au début de 2014, MapR ajouté le support pour Impala. En 2015, un autre format appelé Kudu a été annoncé, que Cloudera a propose de donner à la Fondation Apache Software avec Impala. En octobre 2016, Impala devient un projet Apache Incubator.

Historique[modifier | modifier le code]

En novembre 2015, Cloudera annonce vouloir donner Impala à la Apache Software Foundation^[4].

Voir aussi[modifier | modifier le code]

Presto — Moteur de requêtes SQL open source créé par Facebook et soutenu par Teradata. Optimisé d'analyse interactive pour architecture temps réel distribuée
Dremel — est un outil similaire proposé par Google
Apache Drill — Projet open source similaire inspiré de Dremel
Cloudera — La distribution Hadoop initiatrice du projet Cloudera Impala
Hadoop
Presto
Catégorie:Écosystème Hadoop

Références[modifier | modifier le code]

↑ « Release 4.4.0 », 24 mai 2024 (consulté le 20 juin 2024)
↑ « Cloudera Impala » (consulté le 14 mars 2014)
↑ (en) Timothy Prickett Morgan, « Cloudera revs up Impala SQL for Hadoop », The Register, 30 avril 2013 (consulté le 26 janvier 2016)
↑ (en) Andrew Brust, « Impala, Kudu, and the Apache Incubator's four-month Big Data binge », ZDNet, 1^er décembre 2015 (consulté le 26 janvier 2016)

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cloudera Impala » (voir la liste des auteurs).

Liens externes[modifier | modifier le code]

Cloudera Impala site du projet
Impala GitHub code source du projet
Impala Project Page site web du projet

[wikidata-f6e5e2670007ab28a9ef1df9d07ec3260022e320-1] « Release 4.4.0 », 24 mai 2024 (consulté le 20 juin 2024)

[Cloudera_Impala-2] « Cloudera Impala » (consulté le 14 mars 2014)

[3] (en) Timothy Prickett Morgan, « Cloudera revs up Impala SQL for Hadoop », The Register, 30 avril 2013 (consulté le 26 janvier 2016)

[4] (en) Andrew Brust, « Impala, Kudu, and the Apache Incubator's four-month Big Data binge », ZDNet, 1^er décembre 2015 (consulté le 26 janvier 2016)

[1]

[2]

[3]

[4]

v · m Big data
Méthodes	Algorithme de fouille de flots de données Analyse des données Parallélisme
Services	Centre de données Cloud computing Opinion mining Opt in Opt out
Exploration de données	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Glossaire de l'exploration de données
Outils	Base de données relationnelle Hadoop Logiciels de fouille de données Robot d'indexation Système de gestion de base de données NoSQL NewSQL Technologies matérielles dédiées
Organismes	Union internationale des télécommunications
Histoire d'Internet Révolution numérique Science des données Données ouvertes

v · m Science des données
Concepts	MapReduce Apprentissage profond Extreme learning machine Apprentissage automatique Apprentissage supervisé Apprentissage non supervisé Réseau de neurones artificiels Représentation graphique de données Exploration de données Textemining Segmentation Intelligence artificielle Big data Data Lineage
Architecture	Hadoop Cloudera Hortonworks Apache Hive NoSQL NewSQL HBase Cassandra Apache Spark
Outils	Presto Apache Impala Pig Tableau Software Elasticsearch MongoDB Apache Mahout Scikit-learn TensorFlow Theano (logiciel) SPSS JMP Dataiku Apache MXNet ONNX Apache SINGA Keras
Programmation	R Ggplot2 SAS Python Julia SQL Scala
Statistique	ACP AFC ACM Méthode des moindres carrés Analyse des données Homoscédasticité Knn Cartes de Kohonen Statistique multivariée Théorème de Bayes Analyse de la variance Test du χ² Distance de Cook
Articles liés	Watson Teradata Glossaire de l'exploration de données Extract-transform-load Traitement analytique en ligne

v · m Écosystème Hadoop
Distributions Hadoop	Cloudera Hortonworks MapR
Base de données	HBase
Flux de données	Apache Sqoop Apache Flume Apache Kafka Apache Storm Apache Flink
Interrogation	Apache Hive Spark SQL Pig
Machine Learning	Apache Mahout Apache Spark ML
SQL	Presto Apache Hive Apache Impala Apache Drill
Gestionnaire de cluster	Hadoop YARN Apache Mesos Apache Spark
Format de fichier	RCFile Apache Avro Apache Parquet Apache ORC
Vrac	Presto Impala Kudu Pig Apache ZooKeeper