Accueil UnitésIngénierie de la fouille et de la visualisation de données massives
RCP216

U.E Ingénierie de la fouille et de la visualisation de données massives

nombre d’heures
51
Modalités 100% à distance
Crédits ects
6

Où se
former?

1 Centre d’enseignement en Nouvelle-Aquitaine

Quand se former ?

Rentrée
Permanente !
voir toutes les dates

Votre projet professionnel commence ici !

Formez-vous avec

Dites-nous tout sur votre projet !

Choisissez une session de formation

Centres de formation :
Modalités d’enseignement : 100% à distance Mixte : à distance + cours en salle Présentiel
Centres de formation Prochaines sessions Modalités Informations
Session 2021/2022
Centres de formation Prochaines sessions Modalités Informations
Nouvelle-Aquitaine Octobre 2021
Février 2022

1er semestre
RCP216-2021-1-FN-NA

Formation dispensée par un autre centre Cnam. Supports de cours et ressources pédagogiques en ligne, activités pédagogiques encadrées à distance, regroupements en visio conférence. Planning fourni par le centre Cnam dispensateur de l’enseignement.
Session 2022/2023
Centres de formation Prochaines sessions Modalités Informations
Nouvelle-Aquitaine Octobre 2022
Février 2023

1er semestre
RCP216-2022-1-FN-NA

Formation dispensée par un autre centre Cnam. Supports de cours et ressources pédagogiques en ligne, activités pédagogiques encadrées à distance, regroupements en visio conférence. Planning fourni par le centre Cnam dispensateur de l’enseignement.
Voir ma liste de formation
Prérequis :

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.

Objectifs :

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Compétences visées :

Capacité à mettre en oeuvre des techniques de fouille de données, de modélisation décisionnelle et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents rencontrés dans la fouille de données massives.

Nous contacter

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/

Modalités de validation :

Note finale = ((note de projet + note d'examen) / 2).

Nous contacter

Agenda

Choisissez une session de formation

Centres de formation
Modalités d’enseignement : 100% à distance Mixte : à distance + cours en salle Présentiel
  • Session 2020/2021

    Pas d'Unité d'Enseignement pour cette session

  • Session 2021/2022

  • Session 2022/2023

Présentation

Prérequis :

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.

Objectifs :

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Compétences visées :

Capacité à mettre en oeuvre des techniques de fouille de données, de modélisation décisionnelle et de visualisation sur des données massives. Maîtrise de techniques adaptées à quelques problèmes fréquents rencontrés dans la fouille de données massives.

Nous contacter

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Enjeux perceptifs de la visualisation d'information : couleurs, formes, immersion, lecture
6. Techniques de représentations : graphes, hiérarchies, lignes de temps
7. Techniques d'interaction : association focus/contexte, distorsion, filtrage
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet, l'auditeur devra installer le logiciel Spark (gratuit) sur un ordinateur personnel de capacité suffisante, suivant les instructions disponibles en ligne.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/

Modalités de validation :

Note finale = ((note de projet + note d'examen) / 2).

Nous contacter
Tarif indicatif
1 020

Mobilisez les financements auxquels vous avez droit !

Votre entreprise

finance

1 020

Vous payez

0

Pôle Emploi



finance

510

Vous payez

0

Votre CPF

Compte Personnel de Formation

finance

1 020

Vous payez

0

Le Conseil Régional

finance

Vous payez

156 (1)

AG2R (2)
La Mondiale

finance
700

/module (4 modules maximum/an)

Vous payez

0
(1) -20% pour les demandeurs d'emploi (2) Dispositif réservé aux adhérents demandeurs d'emploi

Besoin de plus d’information sur les dispositifs de financement ?

Demandez l’aide
d’un conseiller
Cnam Nouvelle-Aquitaine

Valorisez votre formation avec un diplôme !

CS5900A
Certificat de spécialisation Analyste de données massives
Appuyer sur Entrée pour chercher ou la touche ESC pour fermer
    top