Blog
A continuación vamos a mostrar un ejemplo de cómo quedaría la configuración de una aplicación de Spark Streaming (Java) que lee los datos de un topic de Kafka securizado. Código Spark Streaming – Java En la parte del consumidor de Spark Streaming, lo que debemos indicar como configuración en la creación del DStream de Kafka, […]
Sqoop es una herramienta para transferir datos entre bases de datos relacionales y Hadoop (HDFS). La herramienta utiliza MapReduce para realizas dichas operaciones, por lo que consigue aprovechar el entorno distribuido de nuestro cluster Hadoop obteniendo un rendimiento óptimo. Puede ver la documentación en la web oficial de apache: Guía de usuario A continuación les indicamos un resumen […]
¿Qué es Python? En pocas palabras: Lenguaje de programación dinámico, interpretado y fácil de aprender Creado por Guido van Rossum en 1991 Ampliamente utilizado en ciencia e ingeniería Multitud de bibliotecas para realizar diferentes tareas. Python y los tipos de datos Antes de empezar con la sintáxis, un pequeño comentario sobre los tipos de datos […]
Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]
Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]
En el siguiente bechmark hemos comprobado tanto la velocidad de procesamiento entre los formatos de ficheros Avro y Parquet así como el tamaño que ocupan cada uno de ellos después de convertirlos en sus correspondientes formatos. Información Bechmark: Estructura de las tablas: 18 columnas (17 tipo String y una de tipo Int) Sin particionado Sin compresión […]
Gestión de errores: – Sqoop: Sqoop Importación Completa: Para realizar la importación de una tabla a un directorio, por ejemplo en /tmp/orders/, cuando se inicia la importación Sqoop genera un directorio temporal con los resultados de las tareas map que van finalizando (/tmp/orders/_temporary/). Al finalizar la importación con éxito, Sqoop mueve los datos temporales al […]
Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]