Apache ORC

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Apache ORC

Informations
Développé par Apache Software FoundationVoir et modifier les données sur Wikidata
Dernière version 1.5.5 ()[1]Voir et modifier les données sur Wikidata
Type Format de fichier (en)
Format de sérialisation de données (d)
Apache Foundation Project (d)Voir et modifier les données sur Wikidata
Licence Licence Apache version 2.0Voir et modifier les données sur Wikidata
Site web orc.apache.orgVoir et modifier les données sur Wikidata

Apache ORC (Optimized Row Columnar) est un format de stockage de données orienté colonne libre et à code source ouvert de l'écosystème Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage en colonnes disponibles dans l'écosystème Hadoop, tels que RCFile et Parquet. Il est compatible avec la plupart des infrastructures de traitement de données de l'environnement Hadoop .

En février 2013, Hortonworks a annoncé le format de fichier Optimized Row Columnar (ORC) en collaboration avec Facebook. Un mois plus tard, le format Apache Parquet était annoncé, développé par Cloudera et Twitter[2].

Comparaison[modifier | modifier le code]

Apache ORC est comparable aux formats de fichier tels RCFile et Parquet - les trois font partie de la catégorie de stockage de données en colonnes dans l'écosystème Hadoop. Ils ont tous une meilleure compression et un meilleur encodage avec des performances de lecture améliorées au prix d'écritures plus lentes.

Voir également[modifier | modifier le code]

Références[modifier | modifier le code]