Mostrando entradas con la etiqueta HDFS. Mostrar todas las entradas
Mostrando entradas con la etiqueta HDFS. Mostrar todas las entradas

miércoles, 13 de mayo de 2015

Actualizar los datos de una tabla en Hive con Sqoop

Una vez realizado el import de la tabla en HDFS y la posterior creación de la misma en Hive, podemos necesitar realizar una acualización de los datos que se han generado desde el momento de nuestra creación hasta ahora, para ello utilizaremos el comando (caso sqlserver):


sqoop import --connect "jdbc:sqlserver://:1433;database=;username=;password=" --table --hive-import --check-column --incremental append --last-value

Un dato interesante es que la importación de una tabla en una BD relacional con sqoop hacia un HDFS se traduce en que el fichero HDFS contiene los datos separados por comas, muy similar al formato de un CSV.

Si vemos que los datos se han actualizado en hive pero no en impala, refrescamos la tabla con la instrucción: REFRESH

jueves, 7 de mayo de 2015

Importar csv a Hive.

Vamos a seguir el proceso para importar un fichero csv a hive. Como requisito necesitaremos tener instalado Cloudera 5 (ver post anterior)