Formation certifiée

 

Parcours Big Data & ETL


Durée de la formation :   

Non informaticiens : 6 mois (336h)

Informaticiens : 4 mois (224h)

Objectifs :

    Les processus ETL : Gagner des compétences en Ingestion de données, nettoyage et transformation, et chargement vers des supports de stockage structurés ou non structurés.

    Traitement et Stockage de données massives : Maîtriser Hadoop et Spark pour gérer et traiter de larges ensembles de données. 

   Analytiques de données et Génération de rapports : Utiliser des outils de BI et des techniques de Machine Learning (ML) techniques pour l’analyse et la visualisation de données. 


Modules:

ETL & Traitement de données (28h)/(42h)   

  • Introduction  à la programmation Python
  • Introduction aux bases de données relationnelles et NoSQL
  • Introduction au processus ETL
    • Fondamentaux ETL et entreposage de données
    • Qualité de données et techniques de validation
    • Traitement par lot comparé au mode par flux (Streaming)
  • Chaînes de traitements ETL et chaînes de traitement de Données
    • Les ETL basés SQL
    • Traitement de données/ SGBD NoSQL (MongoDB, Cassandra)
  • Project intégré en fonction du domaine métier (Finance, GeoLocation, Health, etc.) (28h)/(42h)

✅ Traitement & Stockage de données massives (28h)/(42h)

  • L’écosystème Hadoop (HDFS, Hive, HBase)
  • Apache Spark pour des données large échelle
  • Project intégré en fonction du domaine métier  (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)


 ✅  Traitement de flux de données temps-réel (28h)/(42h)

  •  Kafka pour l’ingestion de données
  •  Streaming avec Spark pour l’analytique temps-réel
  • Project intégré en fonction du domaine métier  (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)

Apprentissage automatique pour l’analytique de données  (28h)/(42h)  

  • Introduction au ML en Analytique de données
  • Apprentissage supervisé vs. Apprentissage non supervisé
  • Modèles de Régression et de Classification
  • Regroupement (Clustering)
  • Evaluation de modèles & Métriques de Performance
  • Project intégré en fonction du domaine métier (Finance, GéoLocalisation, Santé, etc) (28h)/(42h)

NVIDIA Certifications ​

Traitement Big Data :

  Enhancing Data Science Outcomes with Efficient Workflow

​ Data Parallelism: How to Train Deep Learning Models on Multiple GPUs

​ Model Parallelism: Building and Deploying Large Neural Networks

Fundamentals of Accelerated Data Science

Accelerated Data Engineering Pipelines ​ 

Protection et Securité Big Data : ​

   Building AI-Based Cybersecurity Pipelines

​  Application of AI for Anomaly Detection

​  Application of AI for Predictive Maintenance

 (+216) 98 106 016  -(+216) 98 270 400

   training-center@horizon-tech.tn