PAGE (XML)
PAGE (Page Analysis and Ground truth Elements) est un standard XML pour l'encodage de documents numérisés[1]. Comparable au format ALTO, il permet de rendre compte de l'organisation et de la structure d'une page et de ses contenus.
PAGE XML peut être utilisé afin de décrire :
- le contenu des pages (régions, lignes de texte, mots, glyphes, ordre de lecture, contenu du texte, ...)
- l'évaluation de l'analyse de la mise en page (profils d'évaluation, résultats d'évaluation, ...)
- le découpage de l'image du document (grilles de découpage)
Le format est développé par le Pattern Recognition & Image Analysis Lab (PRIMA), au sein de l'Université de Salford à Manchester.
Ce schéma a été conçu pour être utilisé conjointement de techniques de segmentation et de transcription automatique (OCR et HTR) : en effet, PAGE vise à prendre en charge chacune des différentes étapes de la chaîne de traitement pour l'analyse de documents images (de l'amélioration de l'image à l'analyse de la mise en page en passant par l'OCR).
Le schéma PAGE XML est notamment utilisé comme format d'export et d'import par logiciels de transcription automatique tels qu'eScriptorium[2] et Transkribus[3]. C'est également un format d'export utilisé par Kraken, un système OCR clé en main optimisé pour les documents en caractères historiques et non-latins[4].
Structure globale[modifier | modifier le code]
Le format PAGE donne un cadre pour décrire les caractéristiques des images (bordures d'images, distorsions géométriques, corrections correspondantes, binarisation, etc.), ainsi que la mise en page et le contenu des pages[5] :
<?xml version="1.0" encoding="UTF-8"?>
<PcGts xmlns="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15
http://schema.primaresearch.org/PAGE/gts/pagecontent/2016-07-15/pagecontent.xsd">
<Metadata>…</Metadata>
<Page imageFilename="SimplePage.png" imageWidth="800" imageHeight="600">
<ReadingOrder>…</ReadingOrder>
<TextRegion>…</TextRegion>
…
</Page>
</PcGts>
Tous les formats sont définis par un schéma XML, hébergé officiellement sur primaresearch.org.
Liens externes[modifier | modifier le code]
- (en) Documentation sur la structure du fichier XML PAGE
- (en) Exemple d'encodage simple de page
- (en) Documentation of the PAGE XML Format for Page Content sur le OCR-D project, initiative pour le développement de la reconnaissance optique de caractères financée par la Fondation allemande pour la recherche (Deutsche Forschungsgemeinschaft)
- (en) Documentation "Page Content - Ground Truth and Storage"
- (en) Documentation "Evaluation - Metadata, Profile and Results"
- (en) Documentation "Dewarping - Ground Truth and Storage"
Notes et références[modifier | modifier le code]
- https://github.com/PRImA-Research-Lab/PAGE-XML Repository GitHub PAGE-XML
- https://ephenum.hypotheses.org/1412 eScriptorium : un outil pour la transcription automatique des documents
- https://transkribus.eu/wiki/images/b/bd/HowTo_Export_documents_from_Transkribus.pdf Documentation "How to export documents from Transkribus"
- (en) mittagessen, « Repository GitHub du projet Kraken », sur github.com (consulté le )
- S. Pletschacher, A. Antonacopoulos , "The PAGE (Page Analysis and Ground-Truth Elements) Format Framework", Proceedings of the 20th International Conference on Pattern Recognition (ICPR2010), Istanbul, Turkey, August 23-26, 2010, IEEE-CS Press, pp. 257-260