Desarrollador Big Data

SOFTCONSULTING S.A.

Conocimientos:Lenguajes y frameworks:

PySpark: Dominio de las APIs de RDD, DataFrame y Spark SQL.
Hive: Conocimiento en creación de tablas, particionamiento, optimización de consultas (e.g., Tez, LLAP).
SQL avanzado: Manipulación de datos, subconsultas, joins complejos, funciones window, CTEs.
Python: Programación estructurada y orientada a objetos, manejo de librerías para ETL y análisis.
Linux/Bash: Navegación de archivos, scripting para automatización de tareas.

Big Data y Ecosistema Hadoop:

HDFS (Hadoop Distributed File System)
Hive Metastore
YARN
recursos de cluster
Hadoop MapReduce como base teórica de Spark Herramientas y entornos
CONTROL M: Orquestación de pipelines de datos.
Git: Versionado de código. Modelado de datos y optimización Manejo de esquemas particionados y bucketing en Hive.

Optimización de jobs:

Spark: particiones, broadcast joins, persistencia, caching. Diseño de pipelines escalables en entornos distribuidos.

Bases de datos y conectividad:

Conocimiento en formatos de almacenamiento:

Multitrabajos