Foro Formación Hadoop
Ejercicio Explorando Spark streaming
Revisando el ejercicio del modulo 3 (Master experto en big data) el Ejercicio: Explorando Spark Streaming veo que no viene la solución del mismo ni en escala ni en python llamado SparkStreamiing, seria bueno que lo resolvieran en video y actualizaran la información para tener la solución del ejercicio y asi tenerlo mas claro, gracias.
Hola Wagner,
Tomamos nota y subiremos lo antes posible el código con las soluciones. De todas formas, a continuación le indicamos el código tanto en python como en scala del ejempolo del WordCount con Spark Streaming:
Python:
from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 1)
lines = ssc.socketTextStream("localhost", 9999)
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)
wordCounts.pprint()
ssc.start()
ssc.awaitTermination()
Scala:
import org.apache.spark.streaming._
val conf = new SparkConf()
val ssc = new StreamingContext(conf, Seconds(1))
val lines = ssc.socketTextStream("localhost", 9999)
val words = lines.flatMap(_.split(" "))
val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
Los códigos indicados tanto en python como en scala están preparados para ejecutarlos en la shell de Spark.
Para poder realizar la prueba de Spark Streaming se debe acceder a la shell de Spark de la siguiente manera:
Scala:
spark-shell --master local[2]
Python:
pyspark --master local[2]
Por otra parte habrá que abrir otra terminal e indicar el siguiente comando (tal y como se explica en los enunciados, indicando el puerto que se haya definido en el código de Spark.):
nc -lk 9999
Una vez iniciada la aplicación de Spark Streaming, iremos insertando en esta terminal palabras/líneas y estas líneas serán la entrada de nuestra aplicación de Spark Streaming (wordcount)
Redes sociales