hadoop

Jul

Desarrollando con Apache Spark – Eclipse

Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]

Posted in: Big Data, Spark,

Tags: big data, Eclipse, hadoop, RDD, spark,

May

Optimización Aplicaciones Kafka – Spark Streaming

Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]

Posted in: Big Data, Spark,

Tags: big data, hadoop, kafka, spark, spark streaming,

May

Benchmark Avro vs Parquet

En el siguiente bechmark hemos comprobado tanto la velocidad de procesamiento entre los formatos de ficheros Avro y Parquet así como el tamaño que ocupan cada uno de ellos después de convertirlos en sus correspondientes formatos. Información Bechmark: Estructura de las tablas: 18 columnas (17 tipo String y una de tipo Int) Sin particionado Sin compresión […]

Posted in: Big Data,

Tags: Avro, big data, hadoop, hive, Parquet,

May

Gestión de errores: Sqoop y Hive

Gestión de errores: – Sqoop: Sqoop Importación Completa: Para realizar la importación de una tabla a un directorio, por ejemplo en /tmp/orders/, cuando se inicia la importación Sqoop genera un directorio temporal con los resultados de las tareas map que van finalizando (/tmp/orders/_temporary/). Al finalizar la importación con éxito, Sqoop mueve los datos temporales al […]

Posted in: Big Data,

Tags: big data, hadoop, hdfs, hive, sqoop,

May

Lectura y escritura en Amazon S3 con Apache Spark

Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]

Posted in: Spark,

Tags: amazon, amazon s3, hadoop, hdfs, spark,