Procesado de transacciones financieras para análisis de mercado de centros comerciales
El objetivo de este proyecto es generar un dashboard de visualización de tendencias de consumo de clientes particulares en centros comerciales españoles. Mi labor en el proyecto es el procesado de los datos, que otro equipo luego integra en un dashboard de desarrollo propio.
Los datos en bruto consisten en cientos de millones de transacciones de clientes individuales. Cada transacción es una operación de cuenta corriente o de tarjeta de dichos clientes (cuyos datos han sido convenientemente anonimizados). Esos datos en bruto luego se procesan, mediante algoritmos de Pyspark en Databricks (se trabaja en la nube por un asunto de control de la seguridad de los datos), para extraer información de cada transacción, como comercio, centro comercial, y ciudad donde se ha hecho la compra, además de asignar a cada una categorías y subcategorías predefinidas.
Los algoritmos definidos se comparten de manera regular con el equipo de data engineering, que los integran en el pipeline que realiza el procesado completo, y que genera los datasets que luego son utilizados por los diferentes dashboards.
Estos dashboards son luego utilizados por el cliente final (empresa de gestión de centros comerciales), para poder tomar decisiones de negocio.
Fechas del proyecto: Junio 2024 – Actualidad
Herramientas utilizadas:
- PySpark on Databricks
- Excel