Description de la formation Big-Data

1. Objectifs

A l'issue de ce stage, les stagiaires seront en mesure de :

  • Installer une machine Cloudera quickstart
  • Configurer la machine cloudera quickstart (base de configuration)
  • Connaitre les principes de fonctionnement d'un cluster hadoop
  • Utiliser le langage Pig et définir des UDF
  • Utiliser le langage Hive et définir des UDF
  • Utiliser les principaux langages via java

2. Présentation

Le big data est considéré aujourd’hui comme l’un des grands défis de l’informatique. Il vise à répondre à la demande grandissante de gestion et d’analyse des vastes quantités d’informations générées par nos activités sur les réseaux. Que ce soit pour détecter et prévenir les épidémies, pour rendre les réseaux de distribution d’énergie plus intelligents ou faire du marketing ciblé et individualisé, par exemple, le big data est en voie de devenir incontournable.

3. Participants et prérequis

Cette formation s'adresse aux développeurs souhaitant utiliser les technologies big-data

Pour pouvoir suivre cette formation, les pré-requis suivants sont nécéssaires :

  • Bases de développement de script bash (savoir lancer des exécutables, et gérer les fichiers)
  • Bases de SQL
  • La connaissance du langage java est requise

4. Programme

Partie 1 : présentation des technologies big-data

  1. Fonctionnement d'un cluster hadoop
  2. Traitements map-reduce
  3. Les langages du big-data

Partie 2 : utilisation des commandes hadoop -fs

  1. Présentation de hdfs
  2. Dialogue avec hdfs (transferts de fichiers)
  3. Quelques commandes utiles
  4. Gestion de hdfs dans un programme java

Partie 3 : utilisation des commandes pig

  1. Intéret de pig pour charger les fichiers
  2. Quelques commandes permettant de réaliser des transformations
  3. Réalisation d'une UDF de chargement
  4. Utilisation de pig dans un programme java

Partie 4 : utilisation de hive

  1. Présentation de hive
  2. Création des objets hive (table, database)
  3. Interrogation des données
  4. Ecriture d'une UDF et d'une UDAF Hive
  5. Utilisation de hive dans un programme java via jdbc