Foro Formación Hadoop

 
 
Imagen de Fabiola Carrasco
Re: Ficheros de entrada
de Fabiola Carrasco - martes, 31 de enero de 2017, 08:58
 

Hola Alfonso,

El problema es debido a que dentro del directorio de cervantes existen directorios. Cuando a una aplicación MapReduce le indicamos un directorio de entrada, automáticamente coge y procesa todos los ficheros que hay en ese directorio. El problema viene cuando se encuentra un directorio entre los ficheros (el programa da un error). Para poder procesar recursivamente todo los ficheros de los diferentes directorios habría que modificar el driver para que recorra los directorios e ir añadiendo cada uno de los ficheros.

Otra forma es dándole un patrón al directorio (tal y como has hecho con el *). Podríamos poner /input/*.txt para que únicamente cogiera los ficheros txt y no los directorios.

De paso puntualizar que los ficheros o directorios que comienzan por "." o "_" no son procesados por la aplicación MapReduce.

Un saludo,