Foro Formación Hadoop
Pig & Hive - Complementarias?
Hola,
Estoy con el módulo 2 y estoy revisando los materiales de Pig y Hive/Impala. Veo que Pig tiene un lenguaje de scripting y Hive/Impala orientado a SQL. Veo que ambas herramientas hacen cosas muy similares (cargar tablas, lanzar consultas de aquella manera, etc.), aunque Pig es más limitado en ese sentido, por lo que yo entiendo.Hasta aquí todo bien.
Mi consulta es: para qué utilizamos Pig en general? Qué es lo que nos aporta Pig que no nos aporte Hive/Impala o los motores de procesamiento de datos MapReduce/Spark?
Muchas gracias
Hola Alexandre,
Pig y Hive son 2 herramientas que se utilizan para lo mismo. 2 intérpretes que convierten el lenguaje (Pig Latin o HiveQL) en un procesamiento con tareas MapReduce.
La elección de una u otra es cuestión de gustos.... todo lo que se puede realizar en una se puede realizar en la otra, y a nivel de rendimiento en principio son iguales.
Por mi experiencia profesional, PIG se suele utilizar más en procesos de ETL y Hive como respositorio final de las salidas para que el equipo de análisis de datos pueda realizar sus procesamientos a través de un lenguaje like SQL (HiveQL).
Un saludo,
Redes sociales