Big Data Hadoop and Spark Developer - En Ligne
450,00 EUR
- 30 hours
Ce cours de certification Big Data Hadoop est conçu pour vous fournir une connaissance approfondie du cadre des grandes données en utilisant Hadoop et Spark. Dans ce cours pratique sur les grandes données, vous exécuterez des projets réels basés sur l'industrie en utilisant les laboratoires intégrés de Simplilearn. Prérequis : Il est recommandé que vous ayez des connaissances en : - Core - Java SQL
Calendrier du cours
Introduction aux Big Data et Hadoop
Leçon 01
- Introduction au Big Data et Hadoop
- Introduction au Big Data
- Analytique du Big Data
- Qu'est-ce que le Big Data ?
- Les quatre V du Big Data
- Étude de cas : Royal Bank of Scotland
- Défis des systèmes traditionnels
- Systèmes distribués
- Introduction à Hadoop
- Composants de l'écosystème Hadoop Partie Un
- Composants de l'écosystème Hadoop Partie Deux
- Composants de l'écosystème Hadoop Partie Trois
- Distributions commerciales de Hadoop
- Démonstration : Présentation de Simplilearn Cloudlab
- Points clés
- Vérification des connaissancesArchitecture Hadoop Stockage Distribué (HDFS) et YARN
Leçon 02
- Architecture Hadoop Stockage Distribué (HDFS) et YARN
- Qu'est-ce que HDFS
- La nécessité de HDFS
- Système de fichiers classique vs HDFS
- Caractéristiques de HDFS
- Architecture et composants de HDFS
- Mise en œuvre de clusters à haute disponibilité
- Composant HDFS Espace de noms du système de fichiers
- Fractionnement de blocs de données
- Topologie de réplication des données
- Ligne de commande HDFS
- Démonstration : Commandes HDFS courantes
- Projet pratique : Ligne de commande HDFS
- Introduction à Yarn
- Cas d'utilisation de Yarn
- Yarn et son architecture
- Gestionnaire de ressources
- Fonctionnement du gestionnaire de ressources
- Maître d'application
- Comment Yarn exécute une application
- Outils pour les développeurs Yarn
- Démonstration : Visite guidée de la première partie du cluster
- Démonstration : Visite guidée de la deuxième partie du cluster
- Points clés Vérification des connaissances
- Projet pratique : Architecture Hadoop, stockage distribué (HDFS) et YarnIntégration de données dans les systèmes de Big Data et ETL
Leçon 03
- Intégration de données dans les systèmes de Big Data et ETL
- Vue d'ensemble de l'intégration de données Partie Un
- Vue d'ensemble de l'intégration de données Partie Deux
- Apache Sqoop
- Sqoop et ses utilisations
- Traitement Sqoop
- Processus d'importation Sqoop
- Connecteurs Sqoop
- Démonstration : Importation et exportation de données de MySQL vers HDFS
- Projet pratique : Apache Sqoop
- Apache Flume
- Modèle Flume
- Scalabilité dans Flume
- Composants dans l'architecture de Flume
- Configuration des composants Flume
- Démonstration : Ingestion de données Twitter
- Apache Kafka Agrégation de l'activité utilisateur avec Kafka
- Modèle de données Kafka
- Partitions
- Architecture Apache Kafka
- Démonstration : Configuration d'un cluster Kafka
- Exemple d'API côté producteur
- API côté consommateur
- Exemple d'API côté consommateur
- Kafka Connect
- Démonstration : Création d'un exemple de pipeline de données Kafka en utilisant le producteur et le consommateur
- Points clés
- Vérification des connaissances
- Projet pratique : Intégration de données dans les systèmes de Big Data et ETLCadre de traitement distribué MapReduce et Pig
Leçon 04
- Traitement distribué Mapreduce Framework et Pig
- Traitement distribué dans Mapreduce
- Exemple de comptage de mots
- Phases d'exécution de la carte
- Exécution de la carte dans un environnement distribué à deux nœuds
- Jobs Mapreduce
- Interaction des tâches Mapreduce dans Hadoop
- Configuration de l'environnement pour le développement de Mapreduce
- Ensemble de classes
- Création d'un nouveau projet
- Mapreduce avancé
- Types de données dans Hadoop
- Formats de sortie dans Mapreduce
- Utilisation du cache distribué
- Joints dans MapReduce
- Jointure répliquée
- Introduction à Pig
- Composants de Pig
- Modèle de données Pig
- Modes interactifs de Pig
- Opérations Pig
- Diverses relations effectuées par les développeurs
- Démonstration : Analyse de données de logs Web avec Mapreduce
- Démo : Analyse de données de ventes et résolution de Kpis avec Pig Projet pratique : Apache Pig- Démonstration : Comptage de mots
- Principaux enseignements
- Vérification des connaissances
- Projet pratique : Traitement distribué - Mapreduce Framework et PigApache Hive
Leçon 05
- Apache Hive
- Hive SQL sur Hadoop MapReduce
- Architecture Hive
- Interfaces pour exécuter des requêtes Hive
- Exécution de Beeline à partir de la ligne de commande
- Métastore Hive
- DDL et DML Hive
- Création d'une nouvelle table
- Types de données Validation des données
- Types de formats de fichiers
- Sérialisation des données
- Table Hive et schéma Avro
- Optimisation de Hive Partitionnement Bucketing et Sampling
- Table non partitionnée
- Insertion de données
- Partitionnement dynamique dans Hive
- Le partitionnement
- Que font les buckets ?
- Hive Analytics UDF et UDAF
- Autres fonctions de Hive
- Démonstration : Analyse en temps réel et filtrage des données
- Démonstration : Problème réel
- Démonstration : Représentation et importation de données à l'aide de Hive
- Principaux enseignements
- Contrôle des connaissances
- Projet pratique : Apache HiveBases de données NoSQL HBase
Leçon 06
- Bases de données NoSQL HBase
- Introduction NoSQL
- Démonstration : Yarn Tuning
- Aperçu de Hbase
- Architecture de Hbase
- Modèle de données
- Se connecter à HBase
- Projet pratique : HBase Shell
- Principaux enseignements
- Vérification des connaissances
- Projet pratique : Bases de données NoSQL - HBaseNotions de base de la programmation fonctionnelle et de Scala
Leçon 07
- Les bases de la programmation fonctionnelle et Scala
- Introduction à Scala
- Démonstration : Installation de Scala
- Programmation fonctionnelle
- Programmer avec Scala
- Démonstration : Notions de base des littéraux et de la programmation arithmétique
- Démonstration : Opérateurs logiques
- Inférence de type, classes, objets et fonctions en Scala
- Démonstration : Inférence de type, fonctions anonymes et classe
- Collections
- Types de collections
- Démonstration : Cinq types de collections
- Démonstration : Opérations sur les listes Scala REPL
- Démonstration : Caractéristiques de Scala REPL
- Points clés
- Vérification des connaissances
- Projet pratique : Apache HiveApache Spark, le framework de traitement de données massives de nouvelle génération
Leçon 08
- Apache Spark - Cadre de travail de nouvelle génération pour les données massives (Big Data)
- Histoire de Spark
- Limites de Mapreduce dans Hadoop
- Introduction à Apache Spark
- Composants de Spark
- Application du traitement en mémoire
- Ecosystème Hadoop vs Spark
- Avantages de Spark
- Architecture de Spark
- Cluster Spark dans le monde réel
- Démonstration : Exécution d'un programme Scala dans Spark Shell
- Démo : Configurer l'environnement d'exécution dans l'IDE
- Démo : Spark Web UI
- Principaux enseignements
- Vérification des connaissances
- Projet pratique : Apache Spark Next-Generation Big Data Framework (en anglais)Traitement du noyau Spark RDD
Leçon 09
- Introduction à Spark RDD
- RDD dans Spark
- Créer un Spark RDD
- Pair RDD
- Opérations RDD
- Démonstration : Exploration détaillée de la transformation Spark à l'aide d'exemples en Scala
- Démo : Spark Action Exploration détaillée à l'aide de Scala
- Mise en cache et persistance
- Niveaux de stockage
- Lignage et DAG
- Nécessité d'un DAG
- Débogage dans Spark
- Le partitionnement dans Spark
- L'ordonnancement dans Spark
- Mélange des données dans Spark
- Sort Shuffle Agrégation de données avec des RDD appariés
- Démo : Application Spark avec données écrites dans HDFS et interface utilisateur Spark
- Démo : Modifier les paramètres de l'application Spark
- Démo : Gérer différents formats de fichiers
- Démo : Spark RDD avec une application réelle
- Démo : Optimiser les Jobs Spark
- Principaux enseignements
- Vérification des connaissances
- Projet pratique : Spark Core Traitement RDDTraitement des DataFrames avec Spark SQL
Leçon 10
- Spark SQL Traitement des DataFrames
- Introduction à Spark SQL
- Architecture Spark SQL
- Les cadres de données
- Démonstration : Manipuler différents formats de données
- Démonstration : Implémenter diverses opérations sur les dataframes
- Démonstration : UDF et UDAF
- Interopérer avec les RDD
- Démonstration : Traiter un cadre de données à l'aide d'une requête SQL
- RDD vs Dataframe vs Dataset
- Projet pratique : Traitement des images de données
- Principaux enseignements
- Vérification des connaissances
- Projet pratique : Spark SQL - Traitement des images de donnéesModélisation Spark MLib pour les grands volumes de données avec Spark
Leçon 11
- Spark Mlib Modélisation de Big Data avec Spark
- Rôle du Data Scientist et du Data Analyst dans le Big Data
- L'analyse avec Spark
- Apprentissage automatique
- Apprentissage supervisé
- Démonstration : Classification de SVM linéaires
- Démo : Régression linéaire avec des études de cas réels
- Apprentissage non supervisé
- Démonstration : Clustering non supervisé K-means
- Apprentissage par renforcement
- Apprentissage semi-supervisé
- Vue d'ensemble de la Mlib
- Pipelines Mlib
- Principaux enseignements
- Contrôle des connaissances
- Projet pratique : Spark Mlib - Modélisation de Big data avec SparkCadres de traitement de flux et Spark Streaming
Leçon 12
- Vue d'ensemble du streaming
- Traitement en temps réel des mégadonnées
- Architectures de traitement des données
- Démonstration : Traitement de données en temps réel avec Spark Streaming
- Démonstration : Écriture d'une application Spark Streaming
- Introduction aux DStreams
- Transformations sur les DStreams
- Modèles de conception pour l'utilisation de Foreachrdd
- Opérations d'état
- Opérations de fenêtrage
- Opérations de jointure Stream-dataset Join
- Démonstration : Fenêtrage du traitement de données en temps réel des sources de streaming
- Démonstration : Traitement des données de streaming Twitter
- Spark Streaming structuré
- Cas d'utilisation Transactions bancaires
- Modèle d'architecture de streaming structuré et ses composants
- Puits de sortie
- API de streaming structuré
- Construction de colonnes dans le streaming structuré
- Opérations fenêtrées sur le temps événementiel
- Cas d'usage
- Démonstration : Pipeline de streaming
- Projet pratique : Spark Streaming
- Points clés
- Vérification des connaissances
- Projet pratique : Cadres de traitement de flux et Spark StreamingSpark GraphX
Leçon 13
- Spark GraphX
- Introduction aux graphes
- GraphX dans Spark
- Opérateurs GraphX
- Opérateurs de jointure
- Système parallèle GraphX
- Algorithmes dans Spark
- API Pregel
- Cas d'utilisation de GraphX
- Démonstration : Prédicat de sommet GraphX
- Démonstration : Algorithme de PageRank
- Points clés
- Vérification des connaissances
- Projet pratique : Assistance pour le projet Spark GraphX
Résultats d'apprentissage
Dans ce cours de développeur Hadoop et Spark pour les grandes données, vous apprendrez à :
Écosystème Hadoop
Apprenez à naviguer dans l'écosystème Hadoop et à comprendre comment optimiser son utilisation
Ingérer des données
Importer des données en utilisant Sqoop, Flume et Kafka.
Ruche
Mettez en œuvre le partitionnement, le bucketing et l'indexation dans Hive
Apache Spark
Travaillez avec RDD dans Apache Spark
Flux de données
Traitez des données de streaming en temps réel et effectuez des opérations sur des DataFrames dans Spark en utilisant des requêtes SQL
Mise en œuvre
Implémenter des Fonctions Définies par l'Utilisateur (UDF) et des Fonctions d'Attributs Définies par l'Utilisateur (UDAF) dans Spark
Projets de fin de cours
Projet 1 : Analyse des demandes d'assurance historiques
Utilisez les fonctionnalités de Hadoop pour prédire les tendances et partager des informations exploitables pour une compagnie d'assurance automobile. Ce projet utilise les données de la Bourse de New York de 2010 à 2016, recueillies auprès de plus de 500 entreprises cotées. L'ensemble de données comprend les prix intrajournaliers et le volume échangé de chaque entreprise cotée. Les données sont utilisées dans des projets d'apprentissage automatique et d'analyse exploratoire dans le but d'automatiser le processus de trading et de prédire les gagnants ou perdants du prochain jour de trading. La portée de ce projet est limitée à l'analyse exploratoire des données.
Projet 2 : Analyse des commentaires de l'évaluation des employés
L'équipe des ressources humaines explore les réseaux sociaux pour recueillir les retours et les sentiments des employés actuels et anciens. Ces informations seront utilisées pour obtenir des perspectives exploitables et prendre des mesures correctives afin d'améliorer la relation employeur-employé. Les données sont extraites du web à partir de Glassdoor et contiennent des avis détaillés de 67 000 employés de Google, Amazon, Facebook, Apple, Microsoft et Netflix.
Projet 3 : Regroupement K-Means pour le domaine des télécommunications
LoudAcre Mobile est un fournisseur de services de téléphonie mobile qui a lancé une nouvelle campagne de réseau ouvert. Dans le cadre de cette campagne, l'entreprise a invité les utilisateurs à se plaindre des tours de réseau de téléphonie mobile dans leur région s'ils rencontrent des problèmes de connectivité avec leur réseau mobile actuel. LoudAcre a recueilli la base de données des utilisateurs qui se sont plaints.
Projet 4 : Analyse du marché dans le domaine bancaire
Notre client, une institution bancaire portugaise, a mené une campagne marketing pour convaincre les clients potentiels d'investir dans une promotion de dépôt à terme bancaire. Les argumentaires de vente de la campagne marketing ont été délivrés par des appels téléphoniques. Souvent, cependant, le même client a été contacté plus d'une fois. Vous devez effectuer l'analyse marketing des données générées par cette campagne, en tenant compte des appels redondants.
Développeur Big Hadoop et Spark - eLearning
Public cible et prérequis
Public cible
- Professionnels de l'analytique
- Cadres supérieurs en informatique
- Des professionnels des tests et des mainframes
- Professionnels de la gestion des données
- Professionnels de l'intelligence d'affaires
- Chefs de projet
- Diplômés cherchant à débuter une carrière dans l'analyse de grandes données
Prérequis :
Il est recommandé que vous ayez des connaissances en :
- Noyau
- Java SQL
Besoin d'une solution d'entreprise ou d'une intégration LMS ?
Vous n'avez pas trouvé le cours ou le programme adapté à votre entreprise ? Besoin d'une intégration LMS ? Écrivez-nous ! Nous réglerons tout !