Aula Virtual Formación Hadoop: Apache Spark

Foro Formación Hadoop

Apache Spark

Hola

En relación al capítulo 10 - Spark Streaming , tratan la información a través de DStream o Flume , cual de los dos métodos es el mas recomendable y porque.?

Saludos

Permalink

Hola Miguel,

Flume y Spark (Streaming) son cosas diferentes.

Por un lado Flume es la herramienta que nos permite coger datos de cualquier dispositivo (en streaming) y dejarlo en un destino (HDFS, HBase, Spark Streaming...). En el caso de Flume también tiene la parte de procesamiento (interceptores) pero al no ser una herramienta diseñada exclusivamente al fin del procesamiento, lo más conveniente sería utilizar Spark Streaming (DStream) para realizar la parte de procesamiento, ya que tendríamos mucha más potencia.

En cualquier arquitectura lo que se suele encontrar es Flume+Spark Streaming (DStream). De esta manera tienes un agente flume instalado en la máquina de origen, que recoge los datos y los "envía" a Spark Streaming para que este (con la potencia del cluster) realice el procesamiento.

Espero que con esto te quede un poco más claro. Puedes ver un ejemplo de esto en el siguiente video tutorial:

Un saludo,

Permalink | Show parent

Hola

Muy bien aclarada la duda, gracias.

Saludos

Permalink | Show parent

Novedades del sitio ►