Aula Virtual Formación Hadoop: Ficheros de entrada

Foro Formación Hadoop

Ficheros de entrada

Regalo: ¡Pack Formación Hadoop!
¡Feliz Cumpleaños!

Hola Alfonso,

El problema es debido a que dentro del directorio de cervantes existen directorios. Cuando a una aplicación MapReduce le indicamos un directorio de entrada, automáticamente coge y procesa todos los ficheros que hay en ese directorio. El problema viene cuando se encuentra un directorio entre los ficheros (el programa da un error). Para poder procesar recursivamente todo los ficheros de los diferentes directorios habría que modificar el driver para que recorra los directorios e ir añadiendo cada uno de los ficheros.

Otra forma es dándole un patrón al directorio (tal y como has hecho con el *). Podríamos poner /input/*.txt para que únicamente cogiera los ficheros txt y no los directorios.

De paso puntualizar que los ficheros o directorios que comienzan por "." o "_" no son procesados por la aplicación MapReduce.

Un saludo,

Enlace permanente | Mostrar mensaje anterior

Regalo: ¡Pack Formación Hadoop!
¡Feliz Cumpleaños!

Novedades del sitio ►