Apache Drill

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
image illustrant l’informatique
Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Apache Drill
Développeur Apache Software Foundation
Dernière version 1.4 (14 décembre 2015)
État du projet Développement
Licence Apache License 2.0.
Site web http://drill.apache.org/

Apache Drill est un framework logiciel open-source qui supporte les applications temps réel distribuées pour l'analyse interactive des jeux de données à grande échelle. Drill est la version open source du système Dremel de Google qui est disponible comme un service d'infrastructure appelé Google BigQuery. Un objectif de conception est explicitement indiqué que Drill est capable d'évoluer à 10.000 serveurs ou plus et d'être en mesure de traiter pétaoctets de données et des milliards d'enregistrements en quelques secondes. Drill est un projet de premier niveau pour Apache[1].

Drill supporte de nombreuses base NoSQL et système de fichiers comme HBase, MongoDB, MapR-DB, HDFS, MapR-FS, Amazon S3, Azure Blob Storage, Google Cloud Storage, Swift, NAS et fichiers local . Une seule requête peut joindre des données d'entrepôts de données différent. Par exemple, vous pouvez joindre le profil utilisateur présent dans une collection sur MongoDB avec les logs d'Hadoop.

Drill's datastore-aware optimizer restructure automatiquement un plan d'exécution de la requète pour tirer parti des capacités de traitement des entrepôts de données internes. En outre, Drill supporte la localité des données, donc c'est une bonne idée à co-implanter Drill et un datastore sur plusieurs nœud[2].

Fonctionnalités[modifier | modifier le code]

  •  Modèle de document JSON similaire à MongoDB et Elasticsearch
  • API standard de l'industrie : ANSI SQL, ODBC/JDBC, RESTful APIs
  • Extrêmement conviviale pour l'utilisateur et le développeur
  •   architecture connectable  enables connectivity to multiple datastores

Support[modifier | modifier le code]

Drill est principalement axé sur les datastore non relationnelles, comme Hadoop, NoSQL et le stockage en cloud. Les datastore suivants sont actuellement supportés:

  • Hadoop: toutes les distributions Hadoop (HDFS API 2.3+),  Apache Hadoop, MapR, CDH and Amazon EMR compris
  • NoSQL: MongoDB, HBase
  • Stockage Cloud: Amazon S3, Google Cloud Storage, Azure Blob Storage, Swift

De nouveaux datastore peuvent-être développés sous form de plugin. Drill utilise un seul modèle de donnée JSON  qui lui permet d'interroger des datastores non relationnels in-situ (Beaucoup de ces systèmes de stokage sont complexes ou sans schema)[3].

Voir aussi[modifier | modifier le code]

Références[modifier | modifier le code]

Publications[modifier | modifier le code]

Certaines publication ont influencé la naissance et de la conception. Voici une liste partielle:

Liens externes[modifier | modifier le code]