Parcours Big Data

Retour

Big Data

Parcours « Consultant Big Data »

  • 37 Jours 259 Heures
  • 7 h par jour
  • REF: METIER-BIGDATA
  • Partager :

Module COMPRENDRE LE ROLE DE CONSULTANT ESN  1 jour

  • Les principes de la relation client.
  • Le cadre de la relation contractuelle, ses atouts et ses limites.
  • Les rôles de consultant et de salarié.
  • Les qualités nécessaires au rôle de consultant.

 

Jeu de rôle:  Auto-évaluation sur la gestion de la relation client. Jeux de prise de conscience des principes de base de la communication. Jeux, entrainement filmés et débriefés. Jeux de rôles sur l'assise du charisme et de la légitimité d'une autorité non hiérarchique. Jeux de rôles filmés.

 

Module INTRODUCTION A LA GESTION D’UN PROJET INFORMATIQUE 2 jours

  • La gestion de projet informatique.
  • La planification et le suivi de projets informatiques.
  • Assurer la qualité des projets informatiques.
  • L'amélioration continue de la qualité.

 

Travaux pratiques: Découpage d’un projet par composant et définition du cycle de vie. Établir une planification et un diagramme de Gantt dans MS-Project. Créer, définir et affecter des ressources aux tâches dans MS-Project.

 

Module METHODE AGILES SCRUM 2 jours

AGILE SCRUM :

  • Développement logiciel agile
    • Les fondamentaux du développement logiciel agile 
    •  Les développements agiles et le manifeste agile
    • Approche d'équipe intégrée
    • Un feedback au plus tôt et fréquent
    • Aspects des approches agiles
    • Approches de développement agile
    • Pourquoi automatiser les tests sur mobiles ?
    • Création collaborative de user story
    • Rétrospective
    • Intégration continue
    • Planification des releases
  • Principe, pratiques et processus fondamental agile
    • Les différences des tests entre les approches classiques et agiles 
    • Activités des tests et développement 
    • Produits d'activité des projets
    • Niveau de test
    • Test et gestion de configuration
    • Option d’organisation avec des tests indépendants
    • Statuts de test dans les projets
    • Compétences
    • Gérer les risques de régression en faisant évoluer les cas de test manuels et automatisés
    • Rôles et compétence d’un testeur dans une équipe agile : Compétence d’un testeur agile
  • Méthodes agiles
    • Présentation des familles de conduite de projet
    • Méthodes prédictives
    • Méthodes adaptatives
  • La méthode SCRUM
    • Présentation de Scrum
      • Scrum comme conduite de l'équipe projet
      • Gestion de projet généraliste
      • Spécification dynamique
      • Adaptation aux projets logiciels
  •  Rôles dans un projet Scrum
    • Les acteurs intervenant dans et autour d'un projet SCRUM
    • Répartition des responsabilités
    • Client
    • Equipe
    • Scrum master
  • Itérations
    • Présentation des phases de SCRUM
    • Objectifs
    • Version
    • Sprint
    • Scrum
  • Suivi du projet SCRUM
    • Les objectifs fonctionnels dans SCRUM et le suivi des livrables
    • Backlog de produit
    • Backlog de sprint
  • SCRUM avec Sprint
    • Détail sur le cycle principal de SCRUM
    • But
    • Itérations de 4 semaines
    • Livraison

 

CYCLE EN V :

  • Cycle des projets
    • Présentation des fondamentaux de la conduite de projet
    • Expression des besoins
    • Analyse
    • Conception 
    • Réalisation
    • Vérification et validation
  •  Utilisation du cycle en V
    • Définition du cycle en V
      • Analyse des besoins
      • Spécifications
      • Conception architecturale
      • Conception détaillée
      • Réalisation
      • Tests unitaires
      • Tests d’intégration
      • Test de validation
      • Recette fonctionnelle
  • Avantages du cycle en V
  • Inconvénients du cycle en V
  • Alternatives au cycle en V

 

Module PYTHON 5 jours

Syntaxe du langage Python

  • Les Identifiants et les références.
  • Les Conventions de codage et les règles de nommage
  • Les blocs, les commentaires
  • Les types de données disponibles
  • Les variables, l'affichage formaté, la portée locale et globale
  • La manipulation des types numériques, la manipulation de chaînes de caractères
  • La manipulation des tableaux dynamiques (liste), des tableaux statiques (tuple) et des dictionnaires
  • L'utilisation des fichiers
  • La structure conditionnelle if / elif / else
  • Les opérateurs logiques et les opérateurs de comparaison
  • Les boucles d'itérations while et for. Interruption d'itérations break / continue
  • La fonction range
  • L'écriture et la documentation de fonctions
  • Les Lambda expression
  • Les générateurs
  • La structuration du code en modules
  • Les packages
  • Map, reduce et filter

 

Approche orientée objet

 

  • Les principes du paradigme Objet
  • La définition d'un objet (état, comportement, identité)
  • La notion de classe, d'attributs et de méthodes
  • L'encapsulation des données
  • La communication entre les objets
  • L'héritage, transmission des caractéristiques d'une classe
  • La notion de polymorphisme
  • Association entre classes
  • Les interfaces
  • Notion de modèle de conception (design pattern)

 

Utilisation StdLib

  • Les arguments passés sur la ligne de commande
  • L'utilisation du moteur d'expressions régulières Python avec le module "re", les caractères spéciaux, les cardinalités
  • La manipulation du système de fichiers
  • Présentation de quelques modules importants de la bibliothèque standard : module "sys", "os", "os.path
  • Empaquetage et installation d'une bibliothèque Python
  • Les accès aux bases de données relationnelles, le fonctionnement de la DB API
  • Utilisation de contenus XML

 

 

Module PYTHON SCIENTIFIQUE 4 jours

Présentation de l’écosystème « python scientifique »

  • Les outils scientifiques de calcul
  • Les librairies

– Numpy

– SciPy

– Matplotlib

– Pylab (les 3 précédentes en 1)

– Pandas

– Scikit-Learn …

 

Environnement de travail

 

  1. Les distributions Python (Enthought, Anaconda, WinPython, ...)
  1. Les IDE de développement (Spyder, Eclipse, PyCharm, ...)

 

Calcul numérique avec Python

Représentation des nombres avec Python

  • Les nombres avec Python
  • Les nombres avec NumPy
  • Les problèmes d'arrondi

 

NumPy - Le socle de calcul numérique

  • Les différents types de données avec Numpy
  • Opérations matricielles
  • Les fonctions incontournables
  • Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab

Panda

  • Séries et Matrices de données hétérogènes(DataFrame)
  • Entrées/Sorties
  • Sélection et indexation des données
  • Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
  • Concepts des tracés
  • Premiers graphiques : courbes, titres et légendes
  • Axes, échelles de représentations
  • Couleurs et styles

 

SciPy

 

  • L'interpolation de données météorologiques
  • Le traitement d'images

 

DATAVIZ

Quelques librairies : Seaborn, Altaïr

 

  • Visualisation de données cartographiques
  • Applications opensources pour la visualisation de larges jeux de données

 

Les essentiels de la programmation parallèle

 

  • La parallélisation

 

– Principes de base de la parallélisation

 

– Python et la parallélisation

 

  • Multi-threading

– Qu'est ce qu'un thread ?

– Accès concurrentiel aux données

– Les verrous

– Les sémaphores

– Deadlock

– File d'attente

– Limites du Multi-threading en Python

 

  • Multi-processing

 

– Qu'est ce qu'un process ?

– Mémoire partagée

– Verrous et sémaphores

– File d'attente

– Communication

– Barrière

– Pool

 

Module LES FONDAMENTAUX DU BIG DATA 2 jours

Introduction

 

  • Introduction au Big Data : de quoi s'agit-il ?
  • Exemples pratiques
  • Les technologies concernées
  • Les outils
  • Les langages :
  • Hortonworks
  • MapR
  • Cloudera
  • IBM Watson
  • Démystification du Big Data
  • Les acteurs principaux
  • Les différents métiers du Big Data

 

Enjeux et évolutions du Big Data

  • La qualité des données
  • Le traitement des données
  • La protection des données
  • L'image de la donnée
  • L'humanité des données

 

Enjeux stratégiques et organisationnels

  • Le challenge technique
  • Investissement dans la capacité de stockage
  • Investissement dans l'analyse
  • Le Web sémantique
  • Les nouvelles techniques de Data mining
  • L'enjeux économique
  • L'impact organisationnel
  • La conduite du changement
  • L'apparition de nouveaux métiers
  • Etude de cas

 

Les technologies utilisées dans des projets Big Data

  • Les outils de stockage
  • L'écosystème Hadoop (Apache, Hortonworks, Cloudera, MapR, IBM, Oracle)
  • Les solutions de visualisation (Microstrategy, Tableau, QlikView)

 

Sécurité, éthique et enjeux juridiques

  • Assurer la protection des données
  • L'anonymisation d'une donnée
  • Le contrôle d'intégrité
  • Le chiffrement d'une donnée
  • Qu'est-ce que la blockchain
  • Cas d'usage : Bitcoin

 

Module HADOOP 1 jour

Origine d’Hadoop

  • Qu'est-ce que le NoSQL ?
  • Définition du Big Data
  • Histoire d'Hadoop

Installation d'un environnement Hadoop de base

 

  • Écosystème complexe
  • Distributions Hadoop
  • Introduction à CDH : Cloudera Hadoop
  • Démarrage d'une QuickStart VM

Stockage de fichiers: HDFS

  • Présentation de l'HDFS
  • Manipulation de fichiers en ligne de commande

Paradigme MapReduce

  • Principe général
  • Fonction Map
  • Fonction Reduce

 

Développement d'un premier MapReduce

  • Mapper
  • Reducer
  • Lancement de votre premier MapReduce
  • Combineur

Ecosystème Hadoop

  • Hbase
  • Pig
  • Zookeeper
  • Sqoop
  • Oozie
  • Flume
  • Kafka
  • Spark

 

Module ENTREPOT DE DONNEES, ANALYSE ET REQUETAGE SUR HIVE 1 jour

Le data warehouse finalité et principes

  • Les enjeux stratégiques d'un SI décisionnel.
  • Les solutions apportées par l'architecture technique et fonctionnelle du Data Warehouse.
  • Caractéristiques des données du SI décisionnel.

 

Les principes de la modélisation Data Warehouse

  • Les modèles relationnels opérationnels et dénormalisés.
  • Les modèles hybrides.
  • Les modèles génériques.
  • Comprendre le modèle en étoile, sa finalité.
  • Comprendre les notions de faits et d'analyse. Les hiérarchies d'axe d'analyse.
  • Le modèle en flocon.
  • La problématique des dimensions à évolution.
  • Gestion des agrégats et de la stabilité du périmètre fonctionnel.
  • Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.

Introduction à HIVE

  • Qu’est-ce qu’Hive ?
  • Schema Hive et stockage de données,
  • Comparer Hive aux bases de données traditionnelles,
  • Hive vs. Pig,
  • Cas d’utilisation d’Hive
  • Interagir avec Hive.

 

Analyse de données et requêtage avec HIVE

  • Bases de données et tableaux Hive,
  • Syntaxe HiveQL basique,
  • Types de données,
  • Assembler des ensembles de données,
  • Fonctions communes de Built-in,
  • Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».

 

Module ORDONNANCEMENT ET TRAITEMENT BIG DATA AVEC OOZIE 1 jour

OOZIE

  • Les enjeux
  • Qu’est ce que l’ordonnancement ?
  • Les fonctions clés d’une solution d’ordonnancement

 

Travaux pratiques

  • L’orchestrateur Apache OOZIE
  • Les workflows OOZIE
  • Les coordinateurs OOZIE (Coordinators)
  • Limitations de OOZIE
  • Création et utilisation d’ un workflow OOZIE

 

Module LES BASES DE L’ADMINISTRATION D’UN CLUSTER CLOUDERA 3 jours

  • CLOUDERA ENTERPRISE DATA HUB
    • Cloudera Enterprise Data Hub
    • Introduction au CDH
    • Introduction à Cloudera Manager
    • Les responsabilités d’un administrateur Hadoop
  • INSTALLATION DE CLOUDERA MANAGER ET DU CDH
    • Introduction à l’installation du cluster
    • Installation de Cloudera Manager Installation
    • Installation du CDH
    • Les services du cluster CDH
  • CONFIGURER UN CLUSTER CLOUDERA
    • Introduction
    • Paramètres de configuration
    • Modifier la configuration des services
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter des nouveaux services
    • Ajouter et supprimer des hôtes
  • HADOOP DISTRIBUTED FILE SYSTEM
    • Introduction
    • Topologie et rôles HDFS
    • Modifier les logs et le checkpointing
    • La performance HDFS et la tolérance à la panne
    • Introduction à la sécurité de HDFS et de Hadoop
    • Interfaces utilisateurs web pour HDFS
    • Utiliser la ligne de commande HDFS
    • Autres outils de ligne de commande
  • INGESTION DE DONNÉES SUR HDFS
    • Introduction à l’ingestion de données
    • Formats de fichiers
    • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
    • Ingérer de la donnée d’une base de donnée relationnel avec Sqoop
    • Ingérer de la donnée d’une source externe avec Flume
    • Les bonnes pratiques d’ingestion de donnée
  • HIVE ET IMPALA
    • Apache Hive
    • Apache Impala
  • YARN ET MAPREDUCE
    • Introduction à YARN
    • Exécuter des applications sur YARN
    • Explorer les applications YARN
    • Les logs d’application YARN
    • Les applications Map Reduce
    • Réglage mémoire et CPU pour YARN
  • APACHE SPARK
    • Introduction à Spark
    • Les applications Spark
    • Comment les applications Spark s'exécutent sur YARN
    • Monitorer les applications Spark
  • DIMENSIONNEMENT DE VOTRE CLUSTER HADOOP
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Considérations sur le réseau
    • Options de virtualisation
    • Options de déploiement cloud
    • Configuration des noeuds
  • CONFIGURATION AVANCÉ DU CLUSTER
    • Configurer les ports de service
    • Paramétrer HDFS et MapReduce
    • Activer la Haute Disponibilité HDFS
  • GESTION DES RESSOURCES
    • Configuration de cgroups avec des centres de services statiques
    • Le Fair Scheduler
    • Configurer la gestion dynamique des ressources
    • Planification des requêtes Impala
  • MAINTENANCE DU CLUSTER
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster
  • MONITORING DU CLUSTER
    • Fonctionnalités de monitoring de Cloudera Manager
    • Tests de santé
    • Événements et alertes
    • Graphiques et rapports
    • Recommandation de monitoring
  • DIAGNOSTIC DU CLUSTER
    • Introduction
    • Outils de diagnostic
    • Exemples de mauvaises configurations
  • INSTALLER ET GÉRER HUE
    • Introduction
    • Gérer et configurer Hue
    • Authentification et autorisation Hue
  • SÉCURITÉ
    • Les concepts de sécurité sur Hadoop
    • Authentification sur Hadoop en utilisant Kerberos
    • Authorisation sur Hadoop
    • Chiffrement sur Hadoop
    • Sécuriser un cluster Hadoop

Module DATA PIPELINE AVEC KAFKA 2 jours

Présentation

  • Retour sur l’historique du projet
  • L’intérêt de Kafka dans le Big Data
  • L’architecture fonctionnelle de Kafka
  • Les composants du système : brokers, topics, conumer, producers
  • Principes de fonctionnement

 

  • Installer Kafka
  • Configurer les composants
  • Installer l’écosystème de développement de Kafka
  • Installer le matériel nécessaire
  • Effectuer des manipulations de base

Installation

  • Etudier la conception des APIs et leur implémentation
  • Comprendre les cas d’usages et les solutions
  • Gérer la couche réseau et le format des messages
  • Gérer, administrer et compacter les Logs
  • Gérer le schéma de distribution des données
  • Effectuer les actions de base sur les topics
  • Gérer les Datacenters
  • Monitorer le système et gérer les alertes
  • Mise en œuvre de Zookeeper

 

 

Configuration et utilisation des APIs

  • Comprendre les enjeux et les principes de sécurité d’un système

Kafka

  • Utiliser le protocole SSL/TLS pour le cryptage et l’authentification
  • Utiliser la couche SASL pour l’authentification
  • Utiliser des listes de contrôle ACL pour les autorisations
  • Authentifier avec Zookeeper

Mise en place de la sécurité du système

  • Data stream scalable avec Kafka Connect
  • Utiliser Kafka Connect pour l’intégration de données
  • Developper des connecteurs personnalisés

 

Module LA SUITE ELASTIC LOGSTASH KIBANA 3 jours

Présentation

  • Présentation et histoire d'Elasticsearch, logstash et Kibana.
  • Les prérequis d'installation. Installation type "as a Cloud".
  • La mise en œuvre d'Elasticsearch, logstash et Kibana.
  • La configuration d'Elasticsearch.
  • Les principes clés l'administration d'Elasticsearch.
  • Le développement d'applications en utilisant Elasticsearch.
  • L'impact d'Elasticsearch sur l'architecture et les applications existantes.
  • Rôles de Logstash et de Kibana.

 

Aller plus loin avec Kafka

  • Présentation d'Apache Lucene.
  • L'architecture et les concepts clés.
  • Le format d'échange JSON par Service Container.
  • L'API REST.
  • Le scoring et la pertinence de requêtes.
  • Le stockage de données et la recherche simple.

 

Possibilité offertes

  • L'indexation des documents et des données.
  • La recherche sur les documents et les données.

Caractéristiques noSQL

  • Le calcul des listes de réponses.
  • Le filtrage et le tri des résultats.
  • Les suggestions de requêtes.
  • Le surlignage des résultats.

 

Fonctionnement d'elasticsearch

  • Comment donner un sens aux données avec Elasticsearch et Kibana?
  • Démarche d'amélioration de l'indexation des données.
  • Démarche d'amélioration des requêtes de recherche.
  • La pertinence géographique des recherches.
  • La percolation.

 

Module NoSQL 1 jour

Présentation

  • Origine des bases de données, les notions de transaction, les SGBD, la standardisation SQL,
  • L'arrivée de nouveaux besoins : volumes importants liés aux technologies et aux nouveaux usages, traitements optimisés de flux de données au fil de l'eau
  • Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul
  • Définition ETL : Extract Transform Load

 

  • Structure de données proches des utilisateurs, développeurs : sérialisation, tables de hachage,

JSON

  • Priorité au traitement du côté client
  • Protocoles d'accès aux données, interfaces depuis les langages classiques
  • Données structurées et non structurées, documents, images
  • Stockage réparti : réplication, sharping, gossip protocl, hachage,...
  • Parallélisation des traitements : implémentation de MapReduce
  • Cohérence des données et gestion des accès concurrents :"eventual consistancy" et multi-version concurrency control

 

Possibilités offertes

  • Les solutions NoSQL et leurs choix techniques : CouchDB, MongoDB, Cassandra, HBase (Hadoop),
  • ElasticSearch, ...
  • Démonstrations avec Cassandra et couchDB
  • Critères de choix

Mise en oeuvre

  • Points à vérifier : méthode d'utilisation des données
  • Format de stockage JSON, XML,
  • Choix de la clé, notion de clé composite, ...
  • Aspects matériels, besoins en mémoire, disques, répartition, ...
  • Import des données : outils et méthodes selon les moteurs NoSQL

 

Module HBASE 1 jour

Architecture

  • HBase Master Node
  • Region Master
  • Liens avec les clients HBase
  • Rôle de ZooKeeper

 

  • Choix des packages
  • Installation et configuration dans le fichier conf/hbase-site.xml
  • Démarrage en mode Standalone start-hbase
  • Test de connexion avec HBase Shell
  • Installation en mode distribué
  • Interrogations depuis le serveur HTTP intégré

Installation

  • Présentation des différentes interfaces disponibles
  • Travaux pratiques avec HBase Shell
  • Commandes de base
  • Syntaxe
  • Variables
  • Manipulation des données : create, list, put, scan, get
  • Désactiver une table ou l'effacer

– Disable (enable)

– Drop...

  • Programmation de scripts
  • Gestion des tables : principe des filtres
  • Mise en oeuvre de filtres de recherche
  • Paramètres des tables
  • Présentation des espaces de nommage

 

Hbase Utilisation Shell

  • Fonctionnement en mode distribué
  • Fonctionnement indépendant des démons

– HMaster

– HRegionServer

– ZooKeeper

  • Mise en oeuvre avec HDFS dans un environnement distribué
  • Tables réparties : mise en oeuvre des splits

Programmation

  • Introduction
  • Les APIs

– REST

– Avro

– Thrift

– Java

– Ruby...

  • Utilisation d'un client Java
  • Gestion des tables
  • Lien avec MapReduce
  • Principes des accès JMX
  • Exemple d'un client JMX

 

Module CONCEPTS BI 1 jour

Introduction

  • Objectifs et définitions
  • Architecture générale
  • Architecture technique
  • Le stockage des données
  • La conception du Datawarehouse
  • L’analyse du besoin : Exercice
  • Les limites du SI opérationnel

 

La modélisation des données

  • La base de données
  • Optimisation du modèle
  • L’administration des données
  • Exercices

 

L'alimentation du Datawarehouse

  • Les ETL
  • Architecture de divers ETL
  • Présentation d’un ETL
  • Exercices

Les outils de restitution

  • Présentation de différents outils
  • Exercices
  • La gestion de projet
  • Le décisionnel et la législation
  • Les perspectives d’évolutions

 

Conclusion

  • Connaître les logiciels et outils du décisionnel
  • Avoir une vue d’ensemble de ces outils
  • Connaître leurs historiques et leurs places sur le marché du décisionnel

 

Module TALENT STUDIO 2 jours

Introduction

  • Problématique
  • EAI / ERP
  • Installation

 

Découverte de l'environnement

  • Premier pas avec TOS
  • Vue d'ensemble des composants

Les premiers flux

  • Le Business Model
  • Le job
  • Les bonnes pratiques
  • tRowGenerator
  • tFileInputExcel et tFileOutputExcel
  • tMsgBox
  • tSendMail
  • Type de liaisons entre composants
  • Exécuter un job

 

Traiter les données

  • tFilterRow
  • tUniqRow
  • tAgregateRow
  • tSortRow
  • tMap

Les métadonnées

  • Vue d'ensemble
  • Créer une métadonnée Excel
  • Utiliser une métadonnée Excel
  • Créer une métadonnée Access
  • Récupérer les tables d'une BDD

 

Travailler avec la base de données

  • AccessInput
  • tAccessOutput

 

Autres composants et fonctionnalités

  • Variables globales
  • tBuffer
  • tSystem
  • tServerAlive
  • tUnite
  • tReplicate

 

Les itérations

  • tFileList
  • tInfiniteLoop
  • tLoop
  • tPOP
  • tFlowToIterate

Gestion des log et des erreurs

  • tLogRow
  • tDie et tLogCatcher
  • tWarn
  • tStatCatcher
  • tFlowMeter et tFlowMeterCatcher

 

Fonctionnalités avancées

  • Variables de contexte
  • Créer une variable de contexte
  • Utiliser une variable de contexte
  • Modifier une variable de contexte
  • Cascade de jobs
  • Les routines

Automatisation et documentation

  • Documenter ses jobs
  • Générer des scripts

 

Module INGESTION DE DONNEES AVEC KAFKA et NiFi 2 jours

Rappel de Kafka

  • Kafka : une plateforme de données de flux
  • Aperçu de Kafka et de son efficacité
  • Producers, Brokers, Consumers

 

Présentation de NiFi

  • Différence entre données froides et données chaudes
  • Présentation des outils et technologies Big Data
  • Hadoop (HDFS et MapReduce) et Spark
  • Installation et configuration de NiFi
  • Vue d'ensemble de l'architecture NiFi
  • Approches de développement
  • Outils de développement d'applications et état d'esprit
  • Extraction, transformation et chargement (ETL) des outils et de la mentalité

 

Mise en oeuvre de NiFi

  • Considérations sur la conception
  • Composants, événements et modèles de processeur
  • La gestion des erreurs
  • Services de contrôleur
  • Tests et dépannage
  • Contribuer à Apache NiFi

 

Module CONCEPTS DATAVIZ ET POWER BI 2 jours

DATAVITZ

Découvrir les tendances actuelles de la visualisation de données

 

  • Comprendre la l'origine et la structure des données
  • Identifier les sources de données utiles (plateforme, OpenData)
  • Découvrir les principaux formats de fichiers et les manipuler
  • Eviter les pièges d'interprétation
  • Découvrir les outils sans code de visualisation
  • Choisir les formes graphiques et des couleurs pertinentes en fonction des données

POWER BI

Introduction à Power BI

  • Les versions : gratuite, payante, SaaS, Desktop
  • Comparaison avec les outils intégrés à Excel et cas d'utilisations.
  • Power BI Mobile
  • Power BI Designer

Installation de Power BI

  • Installation de PowerBI Designer
  • Désactiver temporairement PowerBI

 

Importer des données sur Power BI

  • Lier un tableau Excel
  • Importer un tableau Excel
  • Lier des fichiers textes
  • Lier des données d’autres sources

(Access, SQL, ODBC)

Créer une requête sur Power BI

  • Connecteurs proposés
  • Créer une requête (obtenir les données)
  • Former les données à son besoin
  • Agrégation de données
  • Champs calculés & Mesures
  • Colonne Pivot
  • Le langage DAX : première approche
  • Ateliers : création de requêtes ; agrégation de données ; création de champs calculés (personnalisés) et de mesures ; analyse croisées avec colonne pivot ; modification d'une requête en langage DAX.

 

Combiner les demandes des différentes sources sur Power BI

  • Détection automatique des relations
  • Création manuelle des relations

Ateliers : création de requêtes depuis différentes sources ; présentation de données géographiques

 Interface de Power BI

  • Les différences avec la fiche technique d’Excel
  • Les différents types de données
  • Ajouter, supprimer, cacher des champs ou des colonnes
  • Trier à travers l’interface PowerBi Designer
  • Filtrer à travers l’interface PowerBi Designer

Créer un rapport sous Power BI

  • Créer un rapport, en gérer les pages
  • Insertion de graphiques
  • Liaison de graphiques
  • Indicateurs Clés de Performance
  • Upload d'un rapport Designer dans un tableau de bord Power BI
  • Ateliers : création d'un rapport ; publication d'un rapport dans un Dashboard Power Bi.

 

Les fonctions DAX ( Data Analysis Expressions) sous Power BI

  • Différences avec les fonctions d’Excel
  • Différences entre une mesure et une colonne calculée
  • Vue d’ensemble des fonctions pratiques et importantes (Related, RelatedTable, Countrows, All, Calculate,
  • AllExcept, Filter, CalculateTable, Distinct, Earlier, SumX, CountX, CountAX, MinX, MaxX,
  • ClosingBalanceMonth,
  • OpeningBalanceMonth
  • ClosingBalanceQuarter,
  • OpeningBalanceQuater,
  • ClosingBalanceYear, OpeningBalanceYear,Edate…)

 

Module SPARK SCALA 2 jours

 

Introduction à Scala pour Apache Spark

  • Présentation de Scala
  • Scala dans les autres framework
  • Les opérations basiques sur Scala
  • Les types de variables dans Scala
  • Les structures de contrôles dans Scala
  • Les collections dans Scala

 

  • Introduction au Big Data et Apache Spark
  • Batch vs le temps réel dans le Big Data Analytics
  • Analyse en Batch Hadoop
  • Streaming Data Spark
  • In-memory Data Spark
  • Présentation de Spark
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Spark Standalone cluster

 

Les opérations communes sur Spark

  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation du l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le caching sur Spark
  • Persistance distribuée
  •  

Introduction aux RDD et DataFrame

  • Transformations dans le RDD
  • Chargement de données dans RDD
  • Enregistrement des données à travers RDD
  • Intégration HDFS avec Spark et Hadoop
  •  

Spark Streaming et MLlib

  • Architecture de Spark Streaming
  • Premier programme avec Spark Streaming
  • Les transformations dans Spark Streaming
  • Niveaux de parallélismes
  • Machine Learning avec Spark
  • Types de données
  • Algorithmes et statistiques

 

Module DEVELOPPEMENT PERSONNEL 3 jours

  1. Prise de parole en public
  • Construire un discours impactant
  • Capter l'attention et savoir transmettre vos idées
  • Gagner en confiance lors de vos interventions en public

 

  1. Affirmation de soi et gestion des conflits
  • Acquérir les notions et outils de base de la motivation et de l'affirmation de soi.
  • Analyser ses comportements, les attitudes inefficaces.
  • Repérer et gérer les situations professionnelles conflictuelles.
  • Gérer les conflits.
  • Décider d'une stratégie de progrès pour sa vie professionnelle.

 

  1. Technique de conduite de réunion de projet
  • Donner au meneur tous les outils de communication nécessaires à l'animation et à la maîtrise d'une réunion.

 

Module PROJET 3 jours

  • Mettre en application les acquis de la formation en complétant les mini projets réalisés dans tout le cursus

Ce parcours de formation permettra aux candidats d’apprendre les fondamentaux du métier de consultant BIG DATA.

Il permettra également de :

  • Maîtriser les fondamentaux du BIG DATA et de la BI
  • Connaitre la solution Hadoop et les technologies associées
  • Requêter, Analyser, Administrer, Optimiser les systèmes et clusters mis en place
  • Utiliser la suite ELK
  • Alimenter et restituer les données (Concepts BI)
  • Maîtriser l'écosystème Spark en utilisant Scala comme langage de programmation
  • Appliquer en mode projet
  • Consultants, Ingénieurs, Développeurs, Administrateurs…
  • BAC + 5 scientifique

  • Connaissances en informatique
  • Formateur/consultant ayant une expérience significative en entreprise sur le métier concerné et plus de 10 ans d’expérience
  • Support de cours remis à chaque participant, 1 stylo et un bloc-notes par stagiaire, 1 ordinateur à disposition
  • Vidéoprojecteur et tableau blanc et/ou paperboard
  • Feuille d’émargement à la demi-journée, questionnaire de satisfaction stagiaire, évaluations des acquis tout au long de la formation, attestation de stage
  • Attestation de formation

Modalités d'évaluation

 

En amont de la formation :

- Audit par téléphone par nos commerciaux et formateurs

- Tests d'auto-positionnement avant l'entrée en formation par le biais de questionnaire

 

Au cours de la formation :

Exercices pratiques et mises en situation professionnelle pour valider la compréhension de chaque notion abordée dans le programme de cours.

 

En fin de formation :

- Validation des acquis par le formateur ou via un questionnaire renseigné par les stagiaires

- Evaluation qualitative par les participants à l’issue de la formation via un questionnaire de satisfaction accessible en ligne.

Une attestation de fin de formation reprenant les objectifs de formation est également remise aux stagiaires puis signée par le formateur.

 

Modalités d’inscription :

Inscription possible jusqu’à la veille de la formation, sous réserve de places disponibles, en nous contactant au 01 56 59 33 00 ou par mail formation@sii.fr

 

Modalités particulières :

Nos formations sont accessibles aux personnes en situation de handicap. Renseignez-vous auprès de notre référente handicap au 01 56 59 33 00 ou par mail pedagogie@feeleurope.com

Prochaines sessions inter-entreprises en 2021:

  • Du 22 février au 14 avril 2021
  • Du 6 avril au 27 mai 2021
  • Du 5 juillet au 25 aout 2021
  • Du 4 octobre au 24 novembre 2021

Possibilité de faire du distanciel

 

Tarifs :

  • Sur demande

 

 

 

 

 

 

 

 

 

Dates

Formations associées

AGINIUS

153 avenue d'Italie

PARIS - Paris (75)

Prochaines formations
Toutes les dates de ce centre
Infos centre

Choisir SII Learning:

C’est choisir la force d’un réseau national avec une capacité d’intervention dans 100 villes et 50 centres en France.

C’est choisir la compétence avec plus de 600 formateurs experts dans leurs domaines et une offre de formation de plus de 600 programmes standards.

C’est choisir un réseau assurant une réelle capacité logistique avec plus de 200 salles équipées et une capacité d’accueil de 2000 stagiaires par jour.

C’est choisir une équipe dynamique, disponible et réactive, à l’écoute de vos besoins.

SII Learning : notre expertise au service de vos ambitions.