> Formations > Technologies numériques > Intelligence Artificielle, Big Data > Big Data > Formation Hadoop Cloudera développeur, préparation à la certification (CCA175) > Formations > Technologies numériques > Formation Hadoop Cloudera développeur, préparation à la certification (CCA175)

Formation : Hadoop Cloudera développeur, préparation à la certification (CCA175)

Hadoop Cloudera développeur, préparation à la certification (CCA175)




Cette formation vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents. Elle prépare à la certification « CCA Spark and Hadoop developer ».


INTER
INTRA
SUR MESURE

Cours pratique en présentiel ou à distance
Disponible en anglais, à la demande

Réf. HDZ
  4j - 28h00
Prix : Nous contacter
Pauses-café et
déjeuners offerts




Cette formation vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents. Elle prépare à la certification « CCA Spark and Hadoop developer ».


Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
Découvrir l'écosystème Hadoop
Comprendre le système de fichiers distribué HDFS et maitriser le traitement MapReduce et l'écriture de code
Connaître les bonnes pratiques de développement et d'implémentation des algorithmes courants
Optimiser les configurations et améliorer les performances
Utiliser Hive, Pig, Flume, Mahout et Sqoop pour les projets de l'écosystème Hadoop
Préparer la certification Cloudera

Public concerné
Chefs de projets, développeurs, data scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.

Prérequis
Connaissances de base dans un langage de programmation objet.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Certification incluse
À la suite de la formation, il sera possible de passer l’examen « Cloudera Certified Associate Spark and Hadoop Developer (CCA175) ». Cet examen se déroule en dehors du temps de la formation. L'objectif est de devenir expert certifié Cloudera dans son entreprise. Inscriptions sur www.examslocal.com.

Méthodes et moyens pédagogiques
Méthodes pédagogiques
Cette formation big data comprend 50% de travaux pratiques sur les 4 jours de formation.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

Hadoop, HDFS et traitement distribué sur un cluster Hadoop

  • Introduction générale à Hadoop et à son écosystème.
  • Traitement de données.
  • HDFS : le système de fichiers Hadoop.
  • Les composants d’un cluster hadoop.
  • L’architecture d’HDFS. Utiliser HDFS.
  • L’architecture de YARN et travailler avec YARN.

Les bases de Spark

  • Introduction à Spark.
  • Démarrer et utiliser la console Spark.
  • Introduction aux Datasets et DataFrames Spark.
  • Les opérations sur les DataFrames.

Manipulation des dataframes, des schémas, analyse des données avec requête

  • Créer des DataFrames depuis diverses sources de données.
  • Sauvegarder des DataFrames. Les schémas des DataFrames.
  • Exécution gloutonne et paresseuse de Spark.
  • Requêter des DataFrames avec des expressions sur les colonnes nommées.
  • Les requêtes de groupement et d’agrégation.
  • Les jointures.

Les RDD et requêtage de tables et de vues avec Spark SQL

  • Structure fondamentale de Spark.
  • Transformer les données avec des RDD.
  • Agrégation des données avec les RDD de paires.
  • Requêter des tables en Spark en utilisant SQL.
  • Requêter des fichiers et des vues.
  • L’API catalogue de Spark.

Travailler avec Spark

  • Travailler avec les Datasets Spark en Scala. Les différences entre Datasets et DataFrames.
  • Créer, charger et sauvegarder des Datasets. Les opérations sur les Datasets.
  • Écrire, configurer et lancer des applications Spark.
  • Écrire une application Spark. Compiler et lancer une application. Le mode de déploiement d’une application.
  • L’interface utilisateur web des applications Spark. Configurer les propriétés d’une application.
  • Le traitement distribué avec Spark. Rappels sur les fonctionnements de Spark avec YARN.
  • Le partitionnement des données dans les RDD, dans les requêtes, jobs, étapes et tâches.

Persistance de la donnée distribuée

  • La persistance des DataFrames et des Datasets.
  • Les niveaux de persistances.
  • Les RDD persistés

Les algorithmes itératifs avec Spark et introduction à Spark streaming

  • D’autres cas d’usages courants de Spark.
  • Les algorithmes itératifs en Spark. Machine learning avec Spark.
  • Introduction à Spark streaming. Créer des streaming DataFrames.
  • Transformer des DataFrames. Exécuter des requêtes de streaming.

Structured streaming avec Kafka et opérations sur des streaming Dataframes

  • Introduction. Recevoir et envoyer des messages Kafka.
  • Agrégation et jointure sur des streaming DataFrames.
Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Horaires
les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.