Foro Formación Hadoop

Carga y análisis de datos en HBase desde Hive e Impala

 
Imagen de Fernando Agudo
Carga y análisis de datos en HBase desde Hive e Impala
de Fernando Agudo - martes, 10 de mayo de 2016, 11:09
 

Video tutorial donde se muestra cómo acceder a una tabla de la base de datos NoSQL de HBase vía Apache Hive e Impala con HBaseStorageHandler.

Este es el código que hemos utilizado para crear la tabla en HBase y en Hive: Tabla HBase: create 'vuelos', { NAME => 'datos_aeropuerto', VERSIONS => 50 }, { NAME => 'datos_informativos', VERSIONS => 50 } Tabla en Hive: CREATE EXTERNAL TABLE hbase_vuelos( key int, ActualElapsedTime int, CRSElapsedTime int, AirTime int, ArrDelay int, DepDelay int, Origin string, Dest string, Distance float, Cancelled boolean, CancellationCode string ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ( "hbase.columns.mapping" = ":key, datos_aeropuerto:ActualElapsedTime, datos_aeropuerto:CRSElapsedTime, datos_aeropuerto:AirTime, datos_aeropuerto:ArrDelay, datos_aeropuerto:DepDelay, datos_informativos:Origin, datos_informativos:Dest, datos_informativos:Distance, datos_informativos:Cancelled, datos_informativos:CancellationCode" ) TBLPROPERTIES ("hbase.table.name"= "vuelos");

El dataset utilizado ha sido:

https://datahub.io/dataset/us-airline-on-time-performance/resource/37834910-8634-45a9-aed4-9d59dac7f1d6