Spark
A continuación vamos a mostrar un ejemplo de cómo quedaría la configuración de una aplicación de Spark Streaming (Java) que lee los datos de un topic de Kafka securizado. Código Spark Streaming – Java En la parte del consumidor de Spark Streaming, lo que debemos indicar como configuración en la creación del DStream de Kafka, […]
Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]
Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]
Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]