spark

Jul

Desarrollando con Apache Spark – Eclipse

Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]

Posted in: Big Data, Spark,

Tags: big data, Eclipse, hadoop, RDD, spark,

May

Optimización Aplicaciones Kafka – Spark Streaming

Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]

Posted in: Big Data, Spark,

Tags: big data, hadoop, kafka, spark, spark streaming,

May

Lectura y escritura en Amazon S3 con Apache Spark

Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]

Posted in: Spark,

Tags: amazon, amazon s3, hadoop, hdfs, spark,