Plataforma de datos en la nube

La situación

El cliente gestiona cerca de 1.500 jobs ETL. El objetivo no es eliminarlos, sino reemplazar una maraña de pipelines puntuales por una plataforma estructurada donde las nuevas fuentes de datos encajan sin necesidad de crear otro job.

El equipo del proyecto son ocho personas: gobernanza, gestión de proyecto, ingeniería, y arquitectura e infraestructura. En la parte de arquitectura somos dos; en la infraestructura propiamente dicha, trabajo solo. Avanzar también implica trabajar a través del equipo del cliente: pedir lo que necesito y asegurarme de que entienden por qué, ya que no tengo acceso directo a la mayor parte de lo que dependo.

Lo que estoy construyendo

La plataforma corre sobre OpenTofu y Terragrunt dentro del entorno AWS multi-cuenta del cliente: montado por AWS ProServe hace tres años, sin nuevos workloads desplegados desde entonces, y con el conocimiento institucional de cómo funciona situado en gran parte fuera del propio equipo del cliente.

Trabajar en este entorno implica acceso limitado (solo las cuentas del proyecto) y coordinar con ProServe cualquier cosa fuera de ese perímetro. Cada entorno que aprovisiono es consistente, auditable y desplegable desde una única fuente de verdad.

El stack:

Databricks: configurado como capa de procesamiento y transformación.
Snowflake: el almacén analítico, aprovisionamiento en curso.
Confluent Cloud (Kafka): streaming de eventos entre dominios, el siguiente paso.

Todo el tráfico en este entorno fluye a través de una cuenta de red centralizada con un firewall de inspección. He adoptado un enfoque de rutas mínimas: solo están abiertas las que la plataforma realmente necesita, usando VPC Endpoints de Databricks y Transit Gateway Attachments acotados a las cuentas del proyecto. Mantener el tráfico dentro del perímetro de seguridad existente y fuera de la red pública es tanto un requisito del cliente como la decisión correcta para un entorno que no controlo de extremo a extremo.

Lo que habilita

Cuando esté completa, la plataforma reemplaza los ~1.500 jobs dispersos por un conjunto reducido de pipelines bien estructurados. Los equipos son dueños de sus datos y sus pipelines. Las nuevas fuentes encajan sin que un equipo central se convierta en cuello de botella.

Llegar hasta aquí ha requerido tanta navegación organizativa como trabajo técnico: entender un entorno que el propio equipo del cliente no sabía describir del todo, coordinar el acceso a infraestructura a través de ProServe y avanzar de forma constante con el conjunto más reducido posible de permisos.