Aller au contenu

Apache Tika

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 28 mars 2021 à 01:03 et modifiée en dernier par HenriDavel (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.
Apache Tika
Description de l'image Apache Tika Logo.svg.

Informations
Développé par Jukka Zitting (d) et Tim Allison (d)Voir et modifier les données sur Wikidata
Première version [1]Voir et modifier les données sur Wikidata
Dernière version 2.9.1 ()Voir et modifier les données sur Wikidata
Dépôt gitbox.apache.org/repos/asf/tika.gitVoir et modifier les données sur Wikidata
Écrit en JavaVoir et modifier les données sur Wikidata
Environnement Machine virtuelle JavaVoir et modifier les données sur Wikidata
Formats lus Classes Java, Waveform Audio File Format, Au, Audio Interchange File Format, Standard MIDI File (d), Microsoft Compressed HTML, Directory Interchange Format (d), DWG, EPUB, Portable Executable, Executable and Linkable Format, XCOFF (en), Adobe Type 1 Font (en), TrueType, Better Portable Graphics, Apple Icon Image, Portable Network Graphics, Wireless Application Protocol Bitmap Format, Windows bitmap, XCF, PSD, TIFF, WebP sans pertes (d), JPEG File Interchange Format, Mbox, Office Open XML, TNEF, MPEG-1/2 Audio Layer 3, MPEG-4 Part 14, 3GPP (d), 3GPP2 (d), Format de fichier Quicktime (en), Advanced Video Coding (d), netCDF, OpenDocument, Portable Document Format, Zlib, GZIP (en), bzip2 (d), bzip Archive (d), XZ, tar, JAR, ZIP, cpio, 7z, RAR, Rich Text Format, texte brut, Flash Video, Free Lossless Audio Codec, Kate (d), Ogg, Opus, Speex, Theora, Vorbis et AppleSingle (d)Voir et modifier les données sur Wikidata
Type Algorithme de recherche
Identification du format de fichier (d)
Gestion de contenu (en)
Bibliothèque logicielleVoir et modifier les données sur Wikidata
Licence Licence Apache 2.0Voir et modifier les données sur Wikidata
Site web tika.apache.orgVoir et modifier les données sur Wikidata

Apache Tika est un toolkit développé par la fondation Apache qui permet de détecter, d'extraire des métadonnées, et de structurer le contenu textuel de nombreux types de documents (gzip, .mid, .pdf, tar, zip...)[2].

Ce projet dépendant de l'Apache Software Foundation, était auparavant un sous-projet de Apache Lucene.

Usages notables

Tika est utilisé combiné à Solr par environ 400 journalistes pour analyser les 11,5 millions de documents divulgués lors des Panama Papers[3],[4].

Références

  1. « https://projects.apache.org/json/projects/tika.json » (consulté le )
  2. http://www.ibm.com/developerworks/opensource/tutorials/os-apache-tika/index.html
  3. (en) Thomas Brewster, « From Encrypted Drives To Amazon's Cloud -- The Amazing Flight Of The Panama Papers », sur Forbes, (consulté le )
  4. Reynald Fléchaux, « Linkurious : la start-up du Big Data qui surfe sur les Panama Papers », sur Silicon.fr, 6 acril 2016 (consulté le )

Liens externes