Beautiful Soup — Wikipédia
Beautiful Soup
Beautiful Soup (littéralement « Belle Soupe ») est une bibliothèque Python d'analyse syntaxique de documents HTML et XML créée par Leonard Richardson.
Elle produit un arbre syntaxique qui peut être utilisé pour chercher des éléments ou les modifier. Lorsque le document HTML ou XML est mal formé (par exemple s'il manque des balises fermantes), Beautiful Soup propose une approche à base d'heuristiques afin de reconstituer l'arbre syntaxique sans générer d'erreurs. Cette approche est aussi utilisée par les navigateurs web modernes.
Elle est disponible pour Python 2.7 et Python 3.
Exemple d'utilisation
[modifier | modifier le code]# Python 2 # Extraction des liens d'une page web from bs4 import BeautifulSoup import urllib.request webpage = urllib.request.urlopen('http://fr.wikipedia.org/wiki/Main_Page') soup = BeautifulSoup(webpage, 'html.parser') for anchor in soup.find_all('a'): print(anchor.get('href', '/'))
# Python 3 # Extraction des liens d'une page web from bs4 import BeautifulSoup import requests requete = requests.get('https://fr.wikipedia.org/wiki/Main_Page') page = BeautifulSoup(requete.text, 'html.parser') for lien in page.find_all('a'): print(lien['href'])