Foro Formación Hadoop

Apache Spark

 
Picture of MIGUEL OROPEZA
Apache Spark
by MIGUEL OROPEZA - Monday, 12 March 2018, 1:13 PM
 

Hola

En relación al capítulo 10 - Spark Streaming , tratan la información a través de DStream  o  Flume , cual de los dos métodos es el mas recomendable  y porque.?

Saludos

Picture of Admin Formación Hadoop
Re: Apache Spark
by Admin Formación Hadoop - Monday, 12 March 2018, 1:27 PM
 

Hola Miguel,

Flume y Spark (Streaming) son cosas diferentes.

Por un lado Flume es la herramienta que nos permite coger datos de cualquier dispositivo (en streaming) y dejarlo en un destino (HDFS, HBase, Spark Streaming...).  En el caso de Flume también tiene la parte de procesamiento (interceptores) pero al no ser una herramienta diseñada exclusivamente al fin del procesamiento, lo más conveniente sería utilizar Spark Streaming (DStream) para realizar la parte de procesamiento, ya que tendríamos mucha más potencia.

En cualquier arquitectura lo que se suele encontrar es Flume+Spark Streaming (DStream). De esta manera tienes un agente flume instalado en la máquina de origen, que recoge los datos y los "envía" a Spark Streaming para que este (con la potencia del cluster) realice el procesamiento.

Espero que con esto te quede un poco más claro. Puedes ver un ejemplo de esto en el siguiente video tutorial:

Un saludo,

 

Picture of MIGUEL OROPEZA
Re: Apache Spark
by MIGUEL OROPEZA - Monday, 12 March 2018, 2:55 PM
 

Hola

Muy bien  aclarada la duda, gracias.

 

Saludos