Blog

Artículos sobre tecnologías Big Data

Nov

A continuación vamos a mostrar un ejemplo de cómo quedaría la configuración de una aplicación de Spark Streaming (Java) que lee los datos de un topic de Kafka securizado. Código Spark Streaming – Java En la parte del consumidor de Spark Streaming, lo que debemos indicar como configuración en la creación del DStream de Kafka, […]

Posted in: Big Data, Kafka, Spark,

Mar

Importa y exporta datos con Sqoop

Sqoop es una herramienta para transferir datos entre bases de datos relacionales y Hadoop (HDFS). La herramienta utiliza MapReduce para realizas dichas operaciones, por lo que consigue aprovechar el entorno distribuido de nuestro cluster Hadoop obteniendo un rendimiento óptimo. Puede ver la documentación en la web oficial de apache: Guía de usuario A continuación les indicamos un resumen […]

Posted in: Big Data, Hadoop, Sqoop,

Nov

Introducción al lenguaje de programación Python

¿Qué es Python? En pocas palabras: Lenguaje de programación dinámico, interpretado y fácil de aprender Creado por Guido van Rossum en 1991 Ampliamente utilizado en ciencia e ingeniería Multitud de bibliotecas para realizar diferentes tareas. Python y los tipos de datos Antes de empezar con la sintáxis, un pequeño comentario sobre los tipos de datos […]

Posted in: Programación,

Tags: pyspark, python,

Jul

Desarrollando con Apache Spark – Eclipse

Lanzamiento de aplicaciones en un cluster de Eclipse Es habitual encontrarse con gente que a la hora de depurar errores en Apache Spark, pierden mucho tiempo intentando desplegar la aplicación en un cluster. En esta entrada os vamos a contar de forma rápida cómo no es necesario desplegar ese código cada vez que queramos probarlo […]

Posted in: Big Data, Spark,

Tags: big data, Eclipse, hadoop, RDD, spark,

May

Optimización Aplicaciones Kafka – Spark Streaming

Una vez tenemos diseñada/implementada nuestra aplicación de Kafka – Spark Streaming nos podemos encontrar con la problemática de que no funciona tal y como esperábamos. A continuación os indico una breve descripción de los pasos/recomendaciones principales a seguir para realizar/optimizar nuestra aplicación de Spark Streaming: Paso 1: Utilizar el API DirectStream Para conectar con […]

Posted in: Big Data, Spark,

Tags: big data, hadoop, kafka, spark, spark streaming,

May

Benchmark Avro vs Parquet

En el siguiente bechmark hemos comprobado tanto la velocidad de procesamiento entre los formatos de ficheros Avro y Parquet así como el tamaño que ocupan cada uno de ellos después de convertirlos en sus correspondientes formatos. Información Bechmark: Estructura de las tablas: 18 columnas (17 tipo String y una de tipo Int) Sin particionado Sin compresión […]

Posted in: Big Data,

Tags: Avro, big data, hadoop, hive, Parquet,

May

Gestión de errores: Sqoop y Hive

Gestión de errores: – Sqoop: Sqoop Importación Completa: Para realizar la importación de una tabla a un directorio, por ejemplo en /tmp/orders/, cuando se inicia la importación Sqoop genera un directorio temporal con los resultados de las tareas map que van finalizando (/tmp/orders/_temporary/). Al finalizar la importación con éxito, Sqoop mueve los datos temporales al […]

Posted in: Big Data,

Tags: big data, hadoop, hdfs, hive, sqoop,

May

Lectura y escritura en Amazon S3 con Apache Spark

Para poder acceder a los datos almacenados en Amazon S3 a través de Spark utilizaremos los métodos que nos proporciona su propia API de acceso a HDFS. Para indicar las credenciales de acceso a Amazon S3 (en caso de que las necesitemos) tenemos dos formas de realizarlo: Especificando las credenciales en un fichero de configuración (por […]

Posted in: Spark,

Tags: amazon, amazon s3, hadoop, hdfs, spark,