Apache Tika

Un article de Wikipédia, l'encyclopédie libre.
Sauter à la navigation Sauter à la recherche
Page d'aide sur l'homonymie Pour les articles homonymes, voir Tika.
Apache Tika
Description de l'image Apache Tika.png.

Informations
Développé par Apache Software FoundationVoir et modifier les données sur Wikidata
Dernière version 1.18 ()[1]Voir et modifier les données sur Wikidata
Dépôt git-wip-us.apache.org/repos/asf/tika.gitVoir et modifier les données sur Wikidata
Écrit en JavaVoir et modifier les données sur Wikidata
Environnement Machine virtuelle JavaVoir et modifier les données sur Wikidata
Formats lus Classes Java, Waveform Audio File Format, Au, Audio Interchange File Format, Standard MIDI File (d), Microsoft Compressed HTML, Directory Interchange Format (d), DWG, EPUB, Portable Executable, Executable and Linkable Format, XCOFF (en), Adobe Type 1 Printer Font Metrics (d), TrueType, Better Portable Graphics, Apple Icon Image, Portable Network Graphics, Wireless Application Protocol Bitmap Format, Windows bitmap, XCF, .psd, Tagged Image File Format, WebP sans pertes (d), JPEG File Interchange Format (d), Mbox, Office Open XML, TNEF, MPEG-1/2 Audio Layer 3, MPEG-4 Part 14, 3GPP file format (d), 3GPP2 file format (d), Fichier Quicktime (en), Advanced Video Coding (d), NetCDF, OpenDocument, Portable Document Format, Zlib, GZIP (d), bzip2 (d), bzip Archive (d), XZ, tar, JAR, ZIP, cpio, 7z, RAR, Rich Text Format, texte brut, Flash Video, Free Lossless Audio Codec (d), Kate (d), Ogg, Opus, Speex, Theora, Vorbis et AppleSingle (d)Voir et modifier les données sur Wikidata
Licence Apache-2.0Voir et modifier les données sur Wikidata
Site web tika.apache.orgVoir et modifier les données sur Wikidata

Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...)[2].

Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.

Usages notables[modifier | modifier le code]

Tika est utilisé par des institutions financières comme le Fair Isaac Corporation (FICO)[3], Goldman Sachs, [4] ainsi que des chercheurs académiques[5]. Il est présent dans des outils de gestion de contenu tels Drupal[6], et Alfresco[7] pour analyser d'importantes quantités de contenus et pour les rendre disponible dans des formats communs en utilisant des techniques d'extraction d'informations. Cet outil est également intégré dans EPADD, l'outil de préservation de courriers électroniques.

Le 4 avril 2016[8], Forbes a publié un article qui identifiait Tika comme l'une des technologies clé[9] utilisée par plus de 400 journalistes pour analyser le 11,5 millions de documents divulgués qui a révélé le scandale international sur les comptes offshore. Les documents divulgués et le projet d'analyse est connu sous la dénomination des Panama Papers.

Références[modifier | modifier le code]

  1. « https://dist.apache.org/repos/dist/release/tika/CHANGES-1.18.txt »
  2. http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
  3. (en) « FICO to Engage Kaggle's Community of 180,000 Data Scientists to Drive Innovation in the FICO Analytic Cloud | FICO® », sur FICO® | Decisions (consulté le 15 avril 2016)
  4. (en) « Goldman Sachs Puts Elasticsearch To Work - InformationWeek », InformationWeek,‎ (lire en ligne)
  5. (en) « Studying polar data with the help of Apache Tika », sur Opensource.com (consulté le 15 avril 2016)
  6. (en) « Text Extract for Drupal using Tika | Drupal.org », sur www.drupal.org (consulté le 15 avril 2016)
  7. (en) « Content Transformation and Metadata Extraction with Apache Tika - alfrescowiki », sur wiki.alfresco.com (consulté le 15 avril 2016)
  8. (en) Thomas Fox-Brewster, « From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers », sur Forbes (consulté le 15 avril 2016)
  9. « Linkurious, la start-up du Big Data qui surfe sur les Panama Papers », sur Silicon.fr (consulté le 19 décembre 2018)

Liens externes[modifier | modifier le code]