Utilitaire SqoopAuteur : Julien Gauchet le 30/11/2017 (1 revisions)

Sqoop permet le transfert des données entre un cluster Hadoop et des bases de données relationnelles. Cette page explique son fonctionnement

1. Présentation

Sqoop est un outil qui permet d'envoyer des données situées sur hdfs sous forme d'une table hive vers une base de donnée externe via un connecteur jdbc ou de recevoir des données en provenance d'une base de données sur hdfs.

Les données présentes sur hdfs ne sont a priori pas structurées. Il n'existe pas de clé primaire, ni de contraintes d'unicité. Il y a donc un risque de générer des erreurs lorsqu'on utlise sqoop.

2. Utiliser une base postGreSQL

sudo cp /mnt/Partage/postgresql-9.4-1200-jdbc41.jar /usr/lib/sqoop/lib/

3. Réaliser un export

Pour exporter les données, on utilise la commande ci-dessous

cnx=jdbc:postgresql://$serveur:$port/$nombase
u=username
p=password
d=org.postgresql.Driver
sqoop export --connect $cnx --username $u --password $p –driver $d --table tailles --export-dir /user/tables_hive/tailles --fields-terminated-by '\;' --batch