La pregunta más frecuente en DataPath es: '¿por dónde empiezo para ser data engineer?' La respuesta corta: hay un orden. No puedes saltar a Spark si no dominas Python. No puedes diseñar un pipeline de producción si no entiendes SQL. Y no puedes conseguir trabajo sin un proyecto real que mostrar. Este roadmap te da el orden correcto, los tiempos reales y las herramientas concretas para cada etapa.
Etapa 1: Python + SQL avanzado (semanas 1-6)
Python y SQL son los cimientos de todo. Sin ellos, nada más funciona. En Python enfócate en: manejo de archivos (CSV, JSON, Parquet), librerías de datos (pandas, polars), programación orientada a objetos básica y manejo de excepciones. En SQL: joins complejos, window functions, CTEs, optimización de queries e índices. Si ya sabes otro lenguaje de programación, esta etapa puede tomar 3-4 semanas. Si empiezas desde cero, date 6-8 semanas.
Etapa 2: Cloud con AWS o Azure (semanas 7-14)
El data engineering moderno vive en la nube. Aprende los servicios core de un proveedor (recomendamos AWS por tener más oferta laboral en LATAM): S3 para almacenamiento de objetos, IAM para permisos, Glue para catálogo de datos y ETL serverless, Redshift para data warehousing y Lambda para funciones event-driven. El objetivo de esta etapa no es certificarte todavía, sino entender la arquitectura y poder desplegar recursos desde código (Terraform o scripts). La certificación AWS DEA-C01 viene después.
Etapa 3: Orquestación con Airflow + dbt (semanas 15-20)
Apache Airflow es el orquestador de facto del mercado. Aprende a definir DAGs en Python, configurar dependencias entre tareas, manejar reintentos y alertas, y conectar con servicios externos (S3, bases de datos, APIs). dbt (data build tool) es el estándar para transformaciones dentro del warehouse: modelos SQL versionados, tests de calidad de datos y documentación automática. Juntos, Airflow y dbt cubren el 80% de lo que hace un data engineer en producción.
Etapa 4: Procesamiento distribuido con Apache Spark (semanas 21-28)
Spark entra cuando los datos no caben en una máquina. Aprende PySpark para leer y transformar datos distribuidos, el modelo de ejecución de Spark (DAG físico, lazy evaluation, shuffles), optimizaciones básicas (particionamiento, broadcast joins, caché) y la integración con Delta Lake para añadir transacciones ACID a tu data lake. No tienes que dominar Spark internamente — sí tienes que poder escribir jobs que no exploten en producción.
Etapa 5: Portfolio project y búsqueda de empleo (semanas 29-26)
Sin proyecto real, no hay entrevistas. El proyecto mínimo viable para postular a junior incluye: un pipeline end-to-end que ingeste datos de una fuente pública (API, web scraping o dataset público), los transforme con dbt y los almacene en un data warehouse en la nube, orquestado con Airflow y desplegado en AWS o Azure con código reusable. Sube el código a GitHub, despliega el pipeline en la nube (aunque sea en capa gratuita) y documenta la arquitectura con un diagrama. Ese proyecto es tu CV técnico real.
¿Cuánto tiempo toma en total?
Con dedicación de 10-15 horas semanales, el roadmap completo toma entre 6 y 8 meses. Si estudias a tiempo completo (40+ horas semanales), puedes comprimirlo a 3-4 meses. La variable más importante no es el tiempo total sino la consistencia: 2 horas diarias durante 6 meses baten a rachas intensas seguidas de semanas sin tocar el teclado.
El camino estructurado: Bootcamp Data Engineer
Seguir este roadmap por cuenta propia funciona si tienes la disciplina y el tiempo para investigar, filtrar recursos y mantenerte en el orden correcto. Si prefieres un camino guiado con mentoring, proyectos en equipo y preparación para certificaciones cloud, el Bootcamp Data Engineer de DataPath cubre exactamente este roadmap en 6-8 meses con instructores que trabajan en la industria y feedback en vivo sobre tu código y tus proyectos.
Y si después de dominar el stack de data engineering quieres escalar hacia la construcción de sistemas de IA, el paso natural es aprender a construir agentes de IA con LangGraph y arquitecturas RAG — la combinación más potente del mercado tech en 2026.


