Formation certifiée
Parcours Big Data & ETL
Non informaticiens : 6 mois (336h)
Informaticiens : 4 mois (224h)
Objectifs :
Les processus ETL : Gagner des compétences en Ingestion de données, nettoyage et transformation, et chargement vers des supports de stockage structurés ou non structurés.
Traitement et Stockage de données massives : Maîtriser Hadoop et Spark pour gérer et traiter de larges ensembles de données.
Analytiques de données et Génération de rapports : Utiliser des outils de BI et des techniques de Machine Learning (ML) techniques pour l’analyse et la visualisation de données.
Modules:
✅ ETL & Traitement de données (28h)/(42h)
- Introduction à la programmation Python
- Introduction aux bases de données relationnelles et NoSQL
- Introduction au processus ETL
- Fondamentaux ETL et entreposage de données
- Qualité de données et techniques de validation
- Traitement par lot comparé au mode par flux (Streaming)
- Chaînes de traitements ETL et chaînes de traitement de Données
- Les ETL basés SQL
- Traitement de données/ SGBD NoSQL (MongoDB, Cassandra)
- Project intégré en fonction du domaine métier (Finance, GeoLocation, Health, etc.) (28h)/(42h)
✅ Traitement & Stockage de données massives (28h)/(42h)
- L’écosystème Hadoop (HDFS, Hive, HBase)
- Apache Spark pour des données large échelle
- Project intégré en fonction du domaine métier (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)
✅ Traitement de flux de données temps-réel (28h)/(42h)
- Kafka pour l’ingestion de données
-
Streaming avec Spark pour l’analytique temps-réel
- Project intégré en fonction du domaine métier (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)
✅ Apprentissage automatique pour l’analytique de données (28h)/(42h)
- Introduction au ML en Analytique de données
- Apprentissage supervisé vs. Apprentissage non supervisé
- Modèles de Régression et de Classification
- Regroupement (Clustering)
- Evaluation de modèles & Métriques de Performance
- Project intégré en fonction du domaine métier (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)
NVIDIA Certifications
Traitement Big Data :
Enhancing Data Science Outcomes with Efficient Workflow
Data Parallelism: How to Train Deep Learning Models on Multiple GPUs
Model Parallelism: Building and Deploying Large Neural Networks
Fundamentals of Accelerated Data Science
Accelerated Data Engineering Pipelines
Protection et Securité Big Data :
Building AI-Based Cybersecurity Pipelines
Application of AI for Anomaly Detection
Application of AI for Predictive Maintenance
(+216) 98 106 016 -(+216) 98 270 400
training-center@horizon-tech.tn