hadoop
Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]
Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]
En el siguiente bechmark hemos comprobado tanto la velocidad de procesamiento entre los formatos de ficheros Avro y Parquet así como el tamaño que ocupan cada uno de ellos después de convertirlos en sus correspondientes formatos. Información Bechmark: Estructura de las tablas: 18 columnas (17 tipo String y una de tipo Int) Sin particionado Sin compresión […]
Gestión de errores: – Sqoop: Sqoop Importación Completa: Para realizar la importación de una tabla a un directorio, por ejemplo en /tmp/orders/, cuando se inicia la importación Sqoop genera un directorio temporal con los resultados de las tareas map que van finalizando (/tmp/orders/_temporary/). Al finalizar la importación con éxito, Sqoop mueve los datos temporales al […]
Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]