Le Web est un réservoir d’information sans égal. Encore faut-il savoir en extraire la « substantifique moelle » pour opérer des statistiques, repérer des tendances... Cette discipline s’appelle le « Web scraping » ou extraction de données. Elle est relativement complexe mais peut être maîtrisée par un data scientist formé à un outil tel que Beautiful Soup sous Python. Un parcours du combattant ? Il reste que le jeu en vaut la chandelle…
Internet est une source d'information considérable. Une analyse pointue des données du Web est en mesure de faire apparaître énormément d'informations utiles : tendances, évolutions des goûts du public, prix moyen d'un produit donné...
Imaginons que vous souhaitiez récupérer des informations de prix et d'évaluation sur un énorme site marchand. Qu'allez-vous faire ? Vous pouvez, bien évidemment demander à un stagiaire de consulter les pages une par une et de recopier les informations dans un tableau Excel. Gageons qu'il y consacrera souvent ses quinze jours de stage. Si vous mettez à profit un outil de Web scraping telle que la bibliothèque Beautiful Soup sous PythonPython, cette tâche va pouvoir être automatisée et vous obtiendrez le résultat souhaité en quelques minutes !
Seulement voilà : les sites Web des grandes entreprises sont organisés de façon à favoriser une visite agréable de la part de l'internaute. Ils ne sont aucunement pensés dans une optique de faciliter l'analyse de leurs données par d'autres sociétés, habituellement concurrentes. Donc, autant le savoir, le Web scraping est une discipline complexe qui va impliquer une bonne dose de préparation avant l'usage effectif de Beautiful Soup...
Qu’est-ce que le Web scraping ?
Le Web scraping ou extraction de données du Web désigne les technologies qui aident :
- à extraire du contenu venant du Web de façon automatisée ;
- à assurer leur conversion dans des formats exploitables par des applicationsapplications d'analyse : Excel, GoogleGoogle Sheets, Open Office Calc...
Pour effectuer du Web scraping, il faut donc en premier lieu savoir quel type de données l'on recherche au juste. À partir de là, il faudra repérer un site dans lequel figure l'information en question. De fait, de nombreux sites fourmillent d'informations en tous genres, notamment les sites marchands : objets d'une certaine catégorie, prix, notes données par les acheteurs... Seulement voilà : telles quelles, ces données sont in...
[Courte citation de 8% de l'article original]