Foro Formación Hadoop

 
 
Imagen de Alexandre PM
Dudas sobre Hadoop & Ecosistema
de Alexandre PM - jueves, 4 de mayo de 2017, 22:33
 

Hola,

Mientras lidio con la parte hardware para poder ejecutar la MV Cloudera, me he visto el vídeo de la presentación "Hadoop, el motor de la evolución" (como vídeo introductorio me ha parecido muy bueno) y me surgen unas cuantas preguntas, que pongo a continuación.

 

1) Cuando hablamos de cluster, hablamos de una serie de nodos Hadoop (datanode y namenode). En una implementación de Hadoop, ¿cuál suele ser la relación entre node y máquina física? ¿Es 1:1? Lo comento porque (no sé si en la presentación o en otro material que no recuierdo), se habla de la MV Cloudera como un cluster, cuando es una única máquina física, de ahí la duda. Supongo que Hadoop permitirá tener varios nodos dentro de una máquina física, pero esto tiene ciertas consecuencias (i.e. si la máquina se viene abajo, adiós muy buenas). Vamos, que me interesa saber cuál es la relación que generalmente se implemnenta entre nodos y máquinas físicas, y si se pueden establecer más de un nodo (data/name) por máquina física.

 

2) En relación a la anterior: ¿cuántos nodos se suelen implementar? ¿Qué pasaría con la réplica de datos si nuestro cluster consta de dos nodos solamente? Por defecto, los bloques se replican 3 veces. ¿Se permite reducir este número?

 

3) La MV que nos bajamos de Cloudera tiene todo instalado. No me he parado mucho, pero diría que también uno se podría descargar los paquetes de instalación y realizar dicha instalación de forma manual. ¿Existe tal opción en la web de Cloudera? No lo he visto en las opciones de Download. ¿Disponéis de un manual de instalacion de Cloudera Hadoop a partir de los paquetes? Seguro que es algo compleja, pero es interesante desde un punto de vista de administrador de sistemas. 

 

4) Quizá no lo he entendido bien, pero no me quedan claras las diferencias principales entre los motores de procesamiento Spark y Hadoop MapReduce. Entiendo que Spark trabaja en memoria, y Hadoop MapReduce trabaja sobre disco?. ¿Es esta la diferencia principal? ¿Qué otras diferencias podemos destacar entre estos dos motores (desde un punto de vista de funcionamiento, dejemos aparte el rendimiento)?

 

5) ¿Se podría considerar YARN como un sistema operativo? Es el término más parecido que puedo asignarle (a partir de gestor de recursos). 

 

6) Por lo que he entendido, Hive se utiliza para consultas en batch. Entiendo que esto significa que Hive ha, de alguna manera, "compilar" la consulta (i.e. traducirla a código para ejecutar MapReduce). En cambio Impala se dice que admite consultas interactivas. ¿Qué diferencia existe entre estos dos componentes para que uno permia consulas interactivas y el otro no? ¿Qué es lo que permite que impala pueda hacer lo que Hive pero de forma más rápida y sin que necesitemos de procesamiento batch? ¿O es que simplemente son dos herramientas para dos cosas diferentes?

 

PIdo disculpas por la cantidad de preguntas. Estoy seguro de que muchas de estas preguntas se auto-contestarán una vez indague en los materiales, pero me han salido justo ahora!

Saludos

Alex

 
Imagen de Fernando Agudo
Re: Dudas sobre Hadoop & Ecosistema
de Fernando Agudo - viernes, 5 de mayo de 2017, 10:37
 

Hola Alexandre, 

A continuación te contesto sobre cada uno de los puntos que preguntas:

1). A la hora de realizar una instalación de un cluster Hadoop, lo "ideal" sería tener una relación de 1:1 en máquinas físicas. Si no fuera así, ya estaríamos hablando de virtualizar sistemas para poder poner varios nodos en una misma máquina física.

En un cluster vamos a tener nodos esclavos y nodos maestros. Los nodos maestros serán los que tengan mejor hardware ya que serán los nodos importantes que no podemos perder (por ejemplo el NameNode). Los esclavos (DataNode) tendrán un hardware más asequible. Todo esto está mejor explicado a lo largo del Máster Experto Big Data (según vayas viendo cada uno de los apartados y vídeos).

La VM de Cloudera es lo que se llama un entorno en pseudodistribuido, es decir, una máquina que tiene todos los servicios necesarios de un cluster Hadoop, realizando las labores tanto de maestro, esclavo y de máquina cliente (cosa que todo esto en un cluster "real" no debería ser así).

2). Una de las principales ventajas de esta tecnología es la escalabilidad, por lo que vas a poder empezar con un cluster "pequeño" e ir incrementando según tus necesidades. Lo idea sería empezar con un cluster de 5 máquinas. 1 Nodo maestro y 4 nodos esclavos. La replicación por defecto es 3, esto es configurable. Por ejemplo, en la VM de Cloudera la replicación es de 1, ya que no tendría sentido replicar la misma información varias veces en la misma máquina (DataNode).

3) No disponemos de un manual de instalación. Para esto si que impartimos cursos presenciales a medida enfocados a administradores de un cluster Hadoop.

Si que es posible realizar la instalación desde 0, en este enlace tienes la guía que aporta Cloudera:

http://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/CDH5-Installation-Guide.html

4). Si, la mayor diferencia sería que MapReduce trabaja sobre disco y Spark sobre memoria. Por otra parte Spark también nos dará algo más de versatilidad a la hora de implementar nuestros procesamientos. Igual, todo esto según vayas viendo los contenidos del máster te quedará mucho más claro.

5). No es un SO, más bien lo vería como un "programa" de utilidad que se encarga de gestionar las tareas-procesamientos de nuestro sistema, otorgando recursos a los clientes-programas que lo vayan solicitando.

6). Hive es un interprete que nos permite a través de "like SQL" ejecutar procesamiento en distribuido con MapReduce. Debido a esto, estaría más enfocado a batch por la latencia que tiene. Impala utilizará los mismos datos y estructuras definidas en Hive (like SQL), pero el motor de procesamiento no es MapReduce, ejecuta todo en memoria (sería algo más "parecido" a Spark) por lo que el resultado lo obtendremos mucho más rápido. 

 

Espero que la contestación te sirva de ayuda. Pero tal y como comentas, todo esto te irá quedando muchísimo más claro según avances en el máster.

Un saludo,

Imagen de Alexandre PM
Re: Dudas sobre Hadoop & Ecosistema
de Alexandre PM - viernes, 5 de mayo de 2017, 21:51
 

Hola Fernando,

Muchísimas gracias, me ha quedado todo muy claro. Como bien dices (y ya había comentado), se irán viendo estos detalles a medida que se avanza en el máster.

Muchas gracias de nuevo

Saludos

Alex