Guide du débutant de Semalt sur la mise au rebut de pages Web

Les données et informations sur le Web grandissent de jour en jour. De nos jours, la plupart des gens utilisent Google comme première source de connaissances, qu'ils recherchent des avis sur une entreprise ou tentent de comprendre un nouveau terme.

Avec la quantité de données disponibles sur le Web, cela ouvre de nombreuses opportunités aux scientifiques de données. Malheureusement, la plupart des données sur le Web ne sont pas facilement disponibles. Il est présenté dans un format non structuré appelé format HTML qui n'est pas téléchargeable. Ainsi, il nécessite les connaissances et l'expertise d'un data scientist pour pouvoir s'en servir.

Le scraping Web est le processus de conversion des données présentes au format HTML en un format structuré facilement accessible et utilisable. Presque tous les langages de programmation peuvent être utilisés pour une mise au rebut Web appropriée. Cependant, dans cet article, nous utiliserons le langage R.

Il existe plusieurs façons de supprimer les données du Web. Certains des plus populaires incluent:

1. Copier-coller humain

Il s'agit d'une technique lente mais très efficace pour extraire des données du Web. Dans cette technique, une personne analyse elle-même les données puis les copie dans le stockage local.

2. Correspondance des motifs de texte

Il s'agit d'une autre approche simple mais puissante pour extraire des informations d'un site Web. Cela nécessite l'utilisation des fonctionnalités de correspondance d'expressions régulières des langages de programmation.

3. Interface API

De nombreux sites Web tels que Twitter, Facebook, LinkedIn, etc. vous fournissent des API publiques ou privées qui peuvent être appelées à l'aide de codes standard pour récupérer des données dans un format prescrit.

4. Analyse DOM

Notez que certains programmes peuvent récupérer du contenu dynamique créé par les scripts côté client. Il est possible d'analyser des pages dans une arborescence DOM basée sur les programmes que vous pouvez utiliser pour récupérer certaines parties de ces pages.

Avant de vous lancer dans le scraping web dans R, vous devez avoir une connaissance de base de R. Si vous êtes débutant, il existe de nombreuses sources intéressantes qui peuvent vous aider. De plus, vous devez avoir des connaissances en HTML et CSS. Cependant, comme la plupart des spécialistes des données ne maîtrisent pas très bien les connaissances techniques de HTML et CSS, vous pouvez utiliser un logiciel ouvert tel que Selector Gadget.

Par exemple, si vous supprimez des données sur le site Web de l'IMDB pour les 100 films les plus populaires sortis au cours d'une période donnée, vous devez extraire les données suivantes d'un site: description, durée d'exécution, genre, classement, votes, revenu brut, réalisateur et jeter. Une fois les données supprimées, vous pouvez les analyser de différentes manières. Par exemple, vous pouvez créer un certain nombre de visualisations intéressantes. Maintenant, lorsque vous avez une idée générale de ce qu'est la mise au rebut des données, vous pouvez vous y retrouver!

mass gmail