Desarrollador Big Data
SOFTCONSULTING S.A.
- Quito, Pichincha
- Permanente
- Tiempo completo
- PySpark: Dominio de las APIs de RDD, DataFrame y Spark SQL.
- Hive: Conocimiento en creación de tablas, particionamiento, optimización de consultas (e.g., Tez, LLAP).
- SQL avanzado: Manipulación de datos, subconsultas, joins complejos, funciones window, CTEs.
- Python: Programación estructurada y orientada a objetos, manejo de librerías para ETL y análisis.
- Linux/Bash: Navegación de archivos, scripting para automatización de tareas.
- HDFS (Hadoop Distributed File System)
- Hive Metastore
- YARN
- recursos de cluster
- Hadoop MapReduce como base teórica de Spark Herramientas y entornos
- CONTROL M: Orquestación de pipelines de datos.
- Git: Versionado de código. Modelado de datos y optimización Manejo de esquemas particionados y bucketing en Hive.
- Spark: particiones, broadcast joins, persistencia, caching. Diseño de pipelines escalables en entornos distribuidos.
- Conexión entre Spark-Hive y bases de datos relacionales (MySQL, PostgreSQL).
- Parquet, ORC, Avro, JSON.
Multitrabajos