Beautiful Soup

Un article de Wikipédia, l'encyclopédie libre.
Aller à : navigation, rechercher
Beautiful Soup
Développeur Leonard Richardson
Dernière version 4.3.2 ()
Écrit en Python
Environnement Python
Type Bibliothèque de parsage
Licence Python Software Foundation License
Site web http://www.crummy.com/software/BeautifulSoup/

Beautiful Soup (littéralement « Belle Soupe ») est une bibliothèque de parsage pour le langage (X)HTML écrite en Python par Leonard Richardson.
Cette bibliothèque logicielle peut aussi être utilisée pour traiter du XML.

La bibliothèque Beautiful Soup permet de naviguer au sein de l'arbre créé par le parser, de chercher des éléments dans cet arbre ou les modifier.

Lorsque le document XML/HTML soumis est mal formé, Beautiful Soup propose une approche à base d'heuristiques afin de reconstituer automatiquement l'arbre sans générer d'erreur. Cette approche est aussi utilisée par les navigateurs web modernes.
Un document HTML mal formé se compose, par exemple, de balises non fermées.

Elle est disponible pour Python 2.6+ et Python 3.

Exemple d'utilisation[modifier | modifier le code]

# exemple de code permettant d'extraire les liens d'une page web
from bs4 import BeautifulSoup

soup = BeautifulSoup(open("./index.html"))

for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Liens externes[modifier | modifier le code]