Liste des projets autour du big data

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

L'admissibilité de cette page est à vérifier (février 2024).

Motif : Liste insuffisamment bornée.

Vous êtes invité à compléter l'article pour expliciter son admissibilité, en y apportant des sources secondaires de qualité, ainsi qu'à discuter de son admissibilité. Si rien n'est fait, cet article sera proposé au débat d'admissibilité un an au plus tard après la mise en place de ce bandeau.

Trouver des sources sur « Liste des projets autour du big data » :

Conseils utiles à la personne qui appose le bandeau

1.	Préciser le motif de la pose du bandeau.	Précisez le motif de la pose du bandeau en utilisant la syntaxe suivante : `{{admissibilité à vérifier\|date=mai 2024\|motif=remplacez ce texte par le motif}}`
ou	Créer l'espace de discussion. (cette méthode est préférable)	Créez une section "Admissibilité" en page de discussion de l'article en y précisant le motif de la pose du bandeau. Dans ce cas, utilisez la syntaxe suivante : `{{admissibilité à vérifier\|date=mai 2024\|motif=pdd}}`
2.	Informer les utilisateurs concernés.	Pensez à avertir le créateur de l'article, par exemple, en insérant le code ci-dessous sur sa page de discussion : `{{subst:avertissement admissibilité à vérifier\|Liste des projets autour du big data}}`

Cette page regroupe les projets gravitant autour de l'univers big data et Hadoop.

Bases de Données[modifier | modifier le code]

Apache Hbase[modifier | modifier le code]

Article détaillé : HBase.

HBase est une base de données distribuée disposant d'un stockage structuré pour les grandes tables. Comme BigTable, HBase est une base de données orientée colonnes.

Site: http://hbase.apache.org/

Apache Cassandra[modifier | modifier le code]

Article détaillé : Cassandra (base de données).

Apache Cassandra est un système de gestion de base de données (SGBD) NoSQL. Le projet est Open source et porté par la Fondation Apache. Cassandra est conçue pour gérer des quantités massives de données réparties sur plusieurs serveurs (cluster), en assurant tout particulièrement une disponibilité maximale des données et en éliminant les points individuels de défaillance.

Site: http://cassandra.apache.org/

CouchDB[modifier | modifier le code]

Article détaillé : CouchDB.

Apache CouchDB est un système de gestion de base de données orienté documents, écrit en langage Erlang et distribué sous licence Apache. Conçu pour le Web, il fait partie de la mouvance NoSQL, et a été conçu pour pouvoir être réparti sur de multiples serveurs.

Site: http://couchdb.apache.org/

MongoDB[modifier | modifier le code]

Article détaillé : MongoDB.

MongoDB est un système de gestion de base de données orientée documents, répartissable sur un nombre quelconque d'ordinateurs et ne nécessitant pas de schéma prédéfini des données. Il est écrit en C++. Le serveur et les outils sont distribués sous licence AGPL, les pilotes sous licence Apache et la documentation sous licence Creative Commons2. Il fait partie de la mouvance NoSQL.

Site: https://www.mongodb.org/

Apache Accumulo[modifier | modifier le code]

Article détaillé : Accumulo.

Accumulo est un système de gestion de base de données créé par la NSA et légué à la fondation Apache en 2011. Le logiciel est écrit en Java et a été développé dès 2008. Il se classe dans la catégorie des bases de données NoSQL. Il est spécialisé dans la gestion de données de masse.

Site: https://accumulo.apache.org/

Accès aux données/ requetage[modifier | modifier le code]

Pig[modifier | modifier le code]

Article détaillé : Apache Pig.

Pig est un plateforme haut niveau pour la création de programme MapReduce utilisé avec Hadoop. Le langage de cette plateforme est appelé le Pig Latin4. Pig Latin s'abstrait du langage de programmation Java MapReduce et se place à un niveau d'abstraction supérieur, similaire à celle de SQL pour systèmes SGBDR.

Site: http://pig.apache.org/

Hive[modifier | modifier le code]

Article détaillé : Apache Hive.

Apache Hive est une infrastructure d’entrepôt de donnée infrastructure intégrée sur Hadoop permettant l'analyse, le requétage et synthèse de données.

Site: https://hive.apache.org/

Apache Livy[modifier | modifier le code]

Livy (d)

http://livy.io/

Data Intelligence[modifier | modifier le code]

Apache Drill[modifier | modifier le code]

Article détaillé : Apache Drill.

Apache Drill est un framework logiciel open-source qui supporte les applications temps réel distribués pour l'analyse interactive des jeux de données à grande échelle. Site: http://drill.apache.org/

Apache Mahout[modifier | modifier le code]

Article détaillé : Apache Mahout.

Apache Mahout est un projet de la fondation Apache visant à créer des implémentations d'algorithmes d'apprentissage automatique distribués. D'abord développé au-dessus de la plate-forme Hadoop1,2, Mahout a ensuite utilisé Apache Spark. Mahout est encore en cours de développement ;

Site: http://mahout.apache.org/

H2O[modifier | modifier le code]

Article détaillé : H2O (logiciel).

Site: http://www.h2o.ai/

Data Serialisation[modifier | modifier le code]

Apache Thrift[modifier | modifier le code]

Article détaillé : Apache Thrift.

Thrift est un langage de définition d'interface (IDL) conçu pour la création et la définition de services pour de nombreux langages. Il est utilisé en tant que framework RPC et a été développé par Facebook pour le « développement de services évolutifs multilangage ». Une pile logicielle est jointe à un moteur de génération de code, permettant la création de services fonctionnant plus ou moins efficacement et en continu entre C#, C++ (sur systèmes POSIX), Cappuccino, Cocoa, D, Erlang, Go, Haskell, Java, Node.js, OCaml, Perl, PHP, Python, Ruby, et Smalltalk. Bien que développé par Facebook, il est désormais un logiciel libre hébergé par la fondation Apache. L'implémentation a été décrite en avril 2007 dans un livre technique publié par Facebook, actuellement hébergé par Apache.

Site: https://thrift.apache.org

Apache Avro[modifier | modifier le code]

Article détaillé : Apache Avro.

Site: http://avro.apache.org/

Data integration[modifier | modifier le code]

Cette Section regroupe les outils permettant l'import et l'export de données

Apache Sqoop[modifier | modifier le code]

Article détaillé : Apache Sqoop.

Site: http://sqoop.apache.org/

Apache Flume[modifier | modifier le code]

Article détaillé : Apache Flume.

Apache Flume est un logiciel de la fondation Apache destiné à la collecte et à l'analyse de fichiers de log. L'outil est conçu pour fonctionner au sein d'une architecture informatique distribuée et ainsi supporter les pics de charge.

site: http://flume.apache.org/

Apache Chuckwa[modifier | modifier le code]

http://chukwa.apache.org/

Requetage[modifier | modifier le code]

Presto[modifier | modifier le code]

Article détaillé : Presto (moteur de réquete SQL).

Presto est un projet distribué sous licence Apache, il s'agit d'un moteur de requete SQL optimisé pour les interactions temps réel. Site: https://prestodb.io/

Impala[modifier | modifier le code]

Article détaillé : Impala (Cloudera).

Cloudera Impala est moteur de requête SQL open source de Cloudera (MPP) pour les données stockées dans des cluster d'ordinateurs exécutant Apache Hadoop http://impala.io/

Dremel[modifier | modifier le code]

Sécurité des données[modifier | modifier le code]

Apache Metron[modifier | modifier le code]

Article détaillé : Apache Metron.

Site: http://metron.apache.org/

Sqrrl[modifier | modifier le code]

Article détaillé : Sqrrl.

Site: https://sqrrl.com/

Calcul distribué[modifier | modifier le code]

Apache Tez[modifier | modifier le code]

Article détaillé : Apache Tez.

Site: http://tez.apache.org/

MapReduce[modifier | modifier le code]

Spark[modifier | modifier le code]

Article détaillé : Apache Spark.

Spark (ou Apache Spark) est un framework open source de calcul distribué, initialement développé à Berkeley par AMPLab et maintenant un projet de la fondation Apache. Contrairement a Hadoop qui utilise le patron d'architecture MapReduce sur des disques, Spark travaille en mémoire vive ce qui est potentiellement cent fois plus rapide.

Site: https://spark.apache.org/

Indexation de Documents[modifier | modifier le code]

Elasticsearch[modifier | modifier le code]

Article détaillé : Elasticsearch.

Elasticsearch est un moteur de recherche libre open source utilisant Lucene (un des projets de l'Apache Software Foundation).

Site: https://www.elastic.co/products/elasticsearch

Apache SolR[modifier | modifier le code]

Article détaillé : Apache Solr.

Solr est une plateforme logicielle de moteur de recherche s'appuyant sur la bibliothèque de recherche Lucene, créée par la Fondation Apache et distribuée et conçue sous licence libre.

Site: http://lucene.apache.org/solr/

Non Classé[modifier | modifier le code]

cascalog[modifier | modifier le code]

site:http://cascalog.org/

Cascading[modifier | modifier le code]

Site:http://www.cascading.org/

Apache Hadoop[modifier | modifier le code]

Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables (scalables), permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.

Site: http://hadoop.apache.org/

Tachyon[modifier | modifier le code]

Site: http://tachyon-project.org/faq/

Rhadoop[modifier | modifier le code]

Apache Mesos[modifier | modifier le code]

Article détaillé : Apache Mesos.

Alternative à Yarn

http://mesos.apache.org/

Apache Phoenix[modifier | modifier le code]

Article détaillé : Apache Phoenix.

permet de requêter sur HBase

Apache Drill[modifier | modifier le code]

Article détaillé : Apache Drill.

Site: http://drill.apache.org/

Apache Oozie[modifier | modifier le code]

Article détaillé : Apache Oozie.

Apache Oozie est un logiciel de la Fondation Apache servant à l'ordonnancement de flux dédié au logiciel Hadoop. Site: http://oozie.apache.org/

Apache Flink[modifier | modifier le code]

Article détaillé : Apache Flink.

Site: https://flink.apache.org/

Apache Hama[modifier | modifier le code]

https://hama.apache.org/

Apache Zookeeper[modifier | modifier le code]

Article détaillé : Apache ZooKeeper.

ZooKeeper est un logiciel de gestion de configuration pour systèmes distribués, basé sur le logiciel Chubby développé par Google. ZooKeeper est utilisé entre autres pour l'implémentation de HBase.

Site: https://zookeeper.apache.org/

Apache Ambari[modifier | modifier le code]

Le projet Apache Ambari vise à rendre la gestion de Hadoop plus simple en développant des logiciels pour le provisionnement, la gestion et la surveillance des clusters Apache Hadoop. Ambari fournit une interface utilisateur Web de gestion Hadoop, soutenue par ses API RESTful. Site: http://ambari.apache.org/

Hue(Cloudera)[modifier | modifier le code]

Article détaillé : Hue (Hadoop).

Hue est une interface web open-source sous licence Apache V2 prenant en charge Hadoop et son écosystème. Site: http://gethue.com/

Apache Storm[modifier | modifier le code]

Article détaillé : Apache Storm.

Site: http://storm.apache.org/

Ganglia[modifier | modifier le code]

Site:http://ganglia.sourceforge.net/

Apache Giraph[modifier | modifier le code]

Article détaillé : Giraph.

Giraph est un projet Apache destiné à réaliser du traitement de graphes sur des volumes importants de données. Giraph utilise l'implémentation de MapReduce réalisée par Apache Hadoop afin de traiter les graphes.

Site:http://giraph.apache.org/

Apache Samza[modifier | modifier le code]

Article détaillé : Apache Samza.

Apache Druid[modifier | modifier le code]

Article détaillé : Apache Druid.

HCatalog[modifier | modifier le code]

couche de gestion de métadonnées pour Hadoop

Apache Crunch[modifier | modifier le code]

http://crunch.apache.org/

Apache Kafka[modifier | modifier le code]

Article détaillé : Apache Kafka.

Apache Kafka est un projet open-source courtier de message développé par Apache Software Foundation écrit en Scala. Le projet vise à fournir un système unifié, temps réel à latence faible pour la manipulation de flux de données en temps réel. La conception est fortement influencée par transaction logs1.

Site: https://kafka.apache.org/

Kibana[modifier | modifier le code]

Article détaillé : Kibana.

Site: https://www.elastic.co/products/kibana

Apache Bigtop[modifier | modifier le code]

http://bigtop.apache.org

Apache Nutch[modifier | modifier le code]

Article détaillé : Nutch.

http://nutch.apache.org/

Apache Kudu[modifier | modifier le code]

Article détaillé : Apache Kudu.

Apache Kudu complète la couche de stockage d'Hadoop pour permettre de développer des applications analytiques en temps réel https://kudu.apache.org/

Apache Kylin[modifier | modifier le code]

Apache Kylin est un moteur distribué analytique Open source conçu pour fournir une interface SQL et l'analyse multidimensionnelle (OLAP) sur Hadoop supportant des ensembles de données extrêmement volumineux, ce projet est issue d'eBay Inc. http://kylin.apache.org/

Apache Airflow[modifier | modifier le code]

https://airflow.incubator.apache.org/

Apache Sentry[modifier | modifier le code]

https://sentry.apache.org/

Divers[modifier | modifier le code]

http://www.confluent.io/

v · m Big data
Méthodes	Algorithme de fouille de flots de données Analyse des données Parallélisme
Services	Centre de données Cloud computing Opinion mining Opt in Opt out
Exploration de données	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Glossaire de l'exploration de données
Outils	Base de données relationnelle Hadoop Logiciels de fouille de données Robot d'indexation Système de gestion de base de données NoSQL NewSQL Technologies matérielles dédiées
Organismes	Union internationale des télécommunications
Histoire d'Internet Révolution numérique Science des données Données ouvertes

v · m Science des données
Concepts	MapReduce Apprentissage profond Extreme learning machine Apprentissage automatique Apprentissage supervisé Apprentissage non supervisé Réseau de neurones artificiels Représentation graphique de données Exploration de données Textemining Segmentation Intelligence artificielle Big data Data Lineage
Architecture	Hadoop Cloudera Hortonworks Apache Hive NoSQL NewSQL HBase Cassandra Apache Spark
Outils	Presto Apache Impala Pig Tableau Software Elasticsearch MongoDB Apache Mahout Scikit-learn TensorFlow Theano (logiciel) SPSS JMP Dataiku Apache MXNet ONNX Apache SINGA Keras
Programmation	R Ggplot2 SAS Python Julia SQL Scala
Statistique	ACP AFC ACM Méthode des moindres carrés Analyse des données Homoscédasticité Knn Cartes de Kohonen Statistique multivariée Théorème de Bayes Analyse de la variance Test du χ² Distance de Cook
Articles liés	Watson Teradata Glossaire de l'exploration de données Extract-transform-load Traitement analytique en ligne

Bases de Données[modifier | modifier le code]

Apache Hbase[modifier | modifier le code]

Apache Cassandra[modifier | modifier le code]

CouchDB[modifier | modifier le code]

MongoDB[modifier | modifier le code]

Apache Accumulo[modifier | modifier le code]

Accès aux données/ requetage[modifier | modifier le code]

Pig[modifier | modifier le code]

Hive[modifier | modifier le code]

Apache Livy[modifier | modifier le code]

Data Intelligence[modifier | modifier le code]

Apache Drill[modifier | modifier le code]

Apache Mahout[modifier | modifier le code]

H2O[modifier | modifier le code]

Data Serialisation[modifier | modifier le code]

Apache Thrift[modifier | modifier le code]

Apache Avro[modifier | modifier le code]

Data integration[modifier | modifier le code]

Apache Sqoop[modifier | modifier le code]

Apache Flume[modifier | modifier le code]

Apache Chuckwa[modifier | modifier le code]

Requetage[modifier | modifier le code]

Presto[modifier | modifier le code]

Impala[modifier | modifier le code]

Dremel[modifier | modifier le code]

Sécurité des données[modifier | modifier le code]

Apache Metron[modifier | modifier le code]

Sqrrl[modifier | modifier le code]

Calcul distribué[modifier | modifier le code]

Apache Tez[modifier | modifier le code]

MapReduce[modifier | modifier le code]

Spark[modifier | modifier le code]

Indexation de Documents[modifier | modifier le code]

Elasticsearch[modifier | modifier le code]

Apache SolR[modifier | modifier le code]

Non Classé[modifier | modifier le code]

cascalog[modifier | modifier le code]

Cascading[modifier | modifier le code]

Apache Hadoop[modifier | modifier le code]

Tachyon[modifier | modifier le code]

Rhadoop[modifier | modifier le code]

Apache Mesos[modifier | modifier le code]

Apache Phoenix[modifier | modifier le code]

Apache Drill[modifier | modifier le code]

Apache Oozie[modifier | modifier le code]

Apache Flink[modifier | modifier le code]

Apache Hama[modifier | modifier le code]

Apache Zookeeper[modifier | modifier le code]

Apache Ambari[modifier | modifier le code]

Hue(Cloudera)[modifier | modifier le code]

Apache Storm[modifier | modifier le code]

Ganglia[modifier | modifier le code]

Apache Giraph[modifier | modifier le code]

Apache Samza[modifier | modifier le code]

Apache Druid[modifier | modifier le code]

HCatalog[modifier | modifier le code]

Apache Crunch[modifier | modifier le code]

Apache Kafka[modifier | modifier le code]

Kibana[modifier | modifier le code]

Apache Bigtop[modifier | modifier le code]

Apache Nutch[modifier | modifier le code]

Apache S4[modifier | modifier le code]

Apache Slider[modifier | modifier le code]

spark ml[modifier | modifier le code]

Apache Kudu[modifier | modifier le code]

Apache Kylin[modifier | modifier le code]

Apache Airflow[modifier | modifier le code]

Apache Sentry[modifier | modifier le code]

Divers[modifier | modifier le code]