Aula Virtual Formación Hadoop: Ejercicio Explorando Spark streaming

Foro Formación Hadoop

Ejercicio Explorando Spark streaming

Revisando el ejercicio del modulo 3 (Master experto en big data) el Ejercicio: Explorando Spark Streaming veo que no viene la solución del mismo ni en escala ni en python llamado SparkStreamiing, seria bueno que lo resolvieran en video y actualizaran la información para tener la solución del ejercicio y asi tenerlo mas claro, gracias.

Permalink

Hola Wagner,

Tomamos nota y subiremos lo antes posible el código con las soluciones. De todas formas, a continuación le indicamos el código tanto en python como en scala del ejempolo del WordCount con Spark Streaming:

Python:

from pyspark.streaming import StreamingContext

ssc = StreamingContext(sc, 1)

lines = ssc.socketTextStream("localhost", 9999)

words = lines.flatMap(lambda line: line.split(" "))

pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)

wordCounts.pprint()

ssc.start()             
ssc.awaitTermination()

Permalink | Show parent

Scala:

import org.apache.spark.streaming._

val conf = new SparkConf()
val ssc = new StreamingContext(conf, Seconds(1))

val lines = ssc.socketTextStream("localhost", 9999)

val words = lines.flatMap(_.split(" "))

val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey(_ + _)

wordCounts.print()

ssc.start()             
ssc.awaitTermination()

Permalink | Show parent

Los códigos indicados tanto en python como en scala están preparados para ejecutarlos en la shell de Spark.

Para poder realizar la prueba de Spark Streaming se debe acceder a la shell de Spark de la siguiente manera:

Scala:

spark-shell --master local[2]

Python:

pyspark --master local[2]

Por otra parte habrá que abrir otra terminal e indicar el siguiente comando (tal y como se explica en los enunciados, indicando el puerto que se haya definido en el código de Spark.):

nc -lk 9999

Una vez iniciada la aplicación de Spark Streaming, iremos insertando en esta terminal palabras/líneas y estas líneas serán la entrada de nuestra aplicación de Spark Streaming (wordcount)

Permalink | Show parent

Novedades del sitio ►