Comment scrapper un site web pour créer un flux shopping

Comment scrapper un flux shopping pour l’injecter dans Google Merchant Center.
Image de MJ
MJ
flux shopping

Dans le cadre de la création d’une campagne Google Shopping,  il est nécessaire de créer un flux qui sera intégré dans Google Merchant.

Dans certains cas, il n’est pas possible d’accéder aux informations car :

  • il n’y a pas d’expert pour extraire les données de la base de données du client et la formater dans le bon format.
  • le client travaille sur une plateforme peu ouverte et qui n’a pas de plug-in pour en extraire les données.

Nous avons rencontré une de ces situations avec un de nos clients. Ce dernier avait accès au back-end de son site, mais aucun accès à la base de données, et pas de fonction d’export de données disponible. Afin de l’aider, nous avons créé un outil qui scrappe les données directement de son site (back-end) et qui construit à partir de ces infos un fichier compatible avec Google Merchant.

Recherche de la solution

Nous avons décidé de partir de l’interface du backend et non du site internet. Nous sous sommes arrêtés sur ce choix, car il est plus facile d’avoir le listing complet de la base de données. Nous aurions pu aussi travailler à partir du sitemap (à condition qu’il soit complet) et extraire les informations sur les pages produits.

Ensuite, nous avons passé en revu les différentes solutions de scrapping du marché. L’objectif n’était pas de ré-inventer la roue. Après quelques recherches, nous avons trouvé une solution de scrapping qui répondait à nos attentes : https://webscraper.io

Nous avons commencé par mapper notre scrapper afin de lui dire exactement comment se comporter et comment récupérer les informations sur le backend.

Nous avons ensuite créé des accès pour le scrapper pour qu’il puisse se connecter sur le backend et récupérer les informations.

Pour l’exécution, nous avons opté pour l’utilisation d’une solution de cloud computing afin de ne pas surcharger les capacités de nos machines. Il nous a fallu faire tourner le script pendant une vingtaine d’heures afin de récupérer toutes les informations nécessaires.

Résultat. Plus de 4000 fiches produits récupérées et surtout à jour.

Mission accomplie.

Si vous rencontrez ce type de besoins, n’hésitez pas à nous contacter pour vous aider à trouver une solution pertinente.

La newsletter et le podcast qui decrypte le marketing digital

Latest Articles