L’objectif de ce projet est de créer un tableau de bord permettant de visualiser les tendances de consommation des clients particuliers dans les centres commerciaux espagnols. Mon rôle dans le projet consiste à traiter les données, qui sont ensuite intégrées dans un tableau de bord développé sur mesure par une autre équipe.

Les données brutes comprennent des centaines de millions de transactions de clients individuels. Chaque transaction correspond à une opération sur un compte courant ou à un paiement par carte (les données des clients ayant été correctement anonymisées). Ces données brutes sont ensuite traitées à l’aide d’algorithmes PySpark dans Databricks (le traitement s’effectue dans le cloud pour garantir la sécurité des données), afin d’extraire des informations clés pour chaque transaction, telles que le commerce, le centre commercial et la ville où l’achat a eu lieu, ainsi que pour attribuer à chaque opération des catégories et sous-catégories prédéfinies.

Les algorithmes définis sont régulièrement partagés avec l’équipe d’ingénierie des données, qui les intègre dans le pipeline de traitement complet. Ce pipeline permet de générer les jeux de données qui seront ensuite utilisés dans les différents tableaux de bord.

Ces tableaux de bord sont ensuite utilisés par le client final (une entreprise de gestion de centres commerciaux) pour orienter sa prise de décisions commerciales.

Dates du projet : Juin 2024 – En cours

Outils utilisés :

  • PySpark on Databricks
  • Excel