Télécom ParisTech

Filière Sciences des données (SD)

La filière Sciences des Données couvre l'ensemble des domaines liés à l'exploitation, la gestion et l'analyse de grands volumes de données, structurées et non structurées. Des exemples de débouchés naturels sont les métiers de data scientist ou analyste des données, d'ingénieur statisticien, d'administrateur de bases de données, ou les domaines de recherche et R&D en apprentissage statistique, gestion de données, extraction de données, fouille de données, mathématiques de l'apprentissage.

La filière en 2e année est divisée en deux branches avec 6 unités d'enseignement communes, et 2 unités d'option. Les options sont Apprentissage Statistique (à l'intersection entre informatique et mathématiques) et Gestion de Données (informatique).

Zoom : cours de 2e année

SD programmation de 2e année
(192 h) 
1er semestre

2e semestre

Période 1 Période 2 Période 3 Période 4
Créneau C1 SD201 Exploration des grands volumes de données SD203 Développement Web SD210 Bases de l'apprentissage statistique (classification, prédiction) SD211 Optimisation pour l'apprentissage statistique
Créneau C2 SD204 Statistique : modèles linéaires SD202 Bases de données SD205 Statistique avancée : estimation non paramétrique et introduction à la théorie de l’apprentissage (Option Apprentissage statistique)
or
SD206 Logique et représentation des connaissances (Option Gestion de données)
SD207 Apprentissage statistique par la pratique (Option Apprentissage statistique)
or
SD208 Bases de données avancées (option Gestion de données)

Détails :

Premier semestre, période 1

  • SD 201 Exploration des grands volumes de données (24 heures)
    Le cours présentera des algorithmes pour l'analyse et l'exploration des données, en se focalisant sur les aspects pratiques et théoriques de l'exploration des grands volumes de données. Pendant le cours, les élèves se familiariseront avec les algorithmes les plus efficaces pour le partitionnement de données, ranking, règles d'association, systèmes de recommandation, ainsi que les algorithmes pour la détection des communautés et des événements intéressants dans les réseaux sociaux. Les élèves travailleront dans un projet où ils implémenteront certains algorithmes précédemment mentionnées dans un cluster Hadoop (l'un des systèmes les plus efficaces pour traiter des grands volumes de données), et analyseront des données du monde réel.
  • SD 204 Statistique : modèles linéaires (24 heures)
    Nous commencerons dans ce cours par traiter le modèle linéaire simple (des moindres carrés) avant de présenter le cadre général qui englobe entre autre la régression logistique. Par la suite, nous considérerons les problèmes d'estimation et de tests dans ces modèles. Enfin dans une dernière partie nous présenterons la problématique de la sélection de variables dans un tel contexte, en s'appuyant principalement sur la régularisation/pénalisation L1 (Lasso) et sur les méthodes de sélection gloutonnes (ou « greedy »).

Premier semestre, période 2

  • SD 202 Bases de données (24 heures)
    Les bases de données sont depuis plusieurs années le noyau central de tout système d'informations. Apparus dans les années 80, les systèmes relationnels n'ont pas cessé d'évoluer. L'objectif de ce cours est de faire comprendre le fondement des Bases de Données, leur conception et leur exploitation. Il est centré sur les systèmes relationnels qui représentent aujourd'hui la technologie la plus aboutie dans ce domaine. Les techniques qui sont présentées mettent en évidence des concepts importants, tels que : Les modèles de données L’algèbre relationnelle et le langage SQL La théorie de la normalisation et la structuration des données L'intégrité et la cohérence des données. etc.
  • SD 203 Développement Web (24 heures)
    L'objectif de cette unité d'enseignement est d'être capable de développer des sites Web dynamiques, modernes, robustes, sûrs. Les thèmes abordés sont: Internet et le Web, les langages de base du Web (HTML, CSS, JavaScript), les contenus dynamiques riches, la programmation côté serveur et les frameworks, les frameworks côté client et AJAX, le lien avec les bases de données (MySQL), la sécurité des sites Web et l’ergonomie du Web. Le cours sera évalué sur la base de travaux pratiques.

Deuxième semestre, période 3

  • SD 210 Bases de l'apprentissage statistique (classification, prédiction) (24 heures)
    L’apprentissage statistique s’intéresse à l’inférence de modèles pour la reconnaissance de formes, la prédiction et le diagnostic, dans un cadre probabiliste et statistique. Dans ce cours, l’étudiant apprendra d’abord à poser un problème d’apprentissage supervisé (classification et régression) en le formulant comme un problème d’optimisation de critères statistiques, à développer un algorithme d’apprentissage approprié et à évaluer la fonction de classification ou de régression ainsi construite. Les principaux modèles et algorithmes de l’apprentissage supervisé tels que le perceptron, SVM/SVR, arbre, méthodes d’ensemble) seront étudiés ainsi que quelques approches génératives. Une courte introduction à l’apprentissage non supervisé sera également proposée.

+ Au choix

  • SD 205 Statistique avancée : estimation non paramétrique et introduction à la théorie de l’apprentissage (24 heures) Option Apprentissage statistique
    Dans de nombreuses situations, les données dont disposent le statisticien présentent une complexité telle qu’elles échappent, au moins en première analyse, à toute modélisation paramétrique. Ce cours a pour objectif de présenter des techniques statistiques moins rigides ainsi que les questions théoriques inhérentes à leur mise en œuvre : la contrepartie de la flexibilité accrue des approches non-paramétriques résidant dans le risque de « sur-ajuster » le modèle aux données. À travers des exemples, on abordera le point de vue « minimax » pour l’estimation non-paramétrique, le compromis « biais/variance » en fonction de la « complexité » du modèle et on introduira le paradigme de l’apprentissage statistique, la « minimisation du risque empirique ».
  • SD 206 Logique et représentation des connaissances (24 heures) : Option Gestion de données
    Ce module introduit des concepts et des techniques qui sont à la base des systèmes intelligents et de la représentation des connaissances : langage Prolog, logique formelle (propositions et prédicats), complexité, apprentissage symbolique automatique, traitement du langage naturel, formalismes de représentation des connaissances.

Deuxième semestre, période 4

  • SD 211 Optimisation pour l'apprentissage statistique (24 heures)
    Un grand nombre de problèmes d'apprentissage statistique (calcul d'un estimateur, d'un classifieur, etc.) se ramène à la minimisation d'une fonctionnelle, typiquement un risque empirique. Les méthodes d'optimisation sont donc au centre du volet « pratique » de l'apprentissage statistique. Dans ce module, l'étudiant découvrira non seulement les fondements théoriques qui s'inscrivent dans le prolongement du cours d'optimisation suivi au P2, mais également différentes techniques permettant de traiter spécifiquement le cas des données massives.

+ Au choix

  • SD 207 Apprentissage statistique par la pratique (24 heures)
    L’objectif de cet enseignement est d’aborder différentes problématiques avancées de l’apprentissage statistique à travers la résolution pratique de problèmes cibles comme la classification multiclasses, la classification en présence de classes déséquilibrées, la détection d’anomalies, la modélisation de séquences et l’analyse en composantes indépendantes. L’étudiant apprendra à traiter en pratique un problème d’apprentissage, de la prise en main du jeu de données jusqu’à l’évaluation des résultats.
  • SD 208 Bases de données avancées : option Gestion de données (24 heures)
    Ce cours propose un enseignement approfondi des systèmes de gestion de bases de données, de leurs architectures, leur fonctionnement et leur évolution. Il présente les composantes essentielles des systèmes de gestion de bases de données (stockage, indexation, transactions, évaluation de requêtes, optimisation, répartition, etc.). Il présente également des technologies BD émergentes dans le domaine de la gestion de données hétérogènes, complexes ou semi-structurées (BD XML, XPath, XQuery).

UE du créneau partagé

  • MDI 210 Optimisation (24 heures) en P1 (obligatoire)
  • MDI 220 Statistiques (24 heures)  en P1 (obligatoire)
  • INF 224 Paradigmes de programmation (24 heures) (recommandé)

Options de 3e année

Choix entre les formations suivantes :

Option SD à Télécom ParisTech

120 heures de cours, 120 heures de Projet Innovation Master PRIM

Master 2 en partenariat

  • Option Apprentissage : s'inscrire dans un Master M2 de l'Université de Paris-Saclay

    • parcours AIC : Apprentissage , Information et Contenu  (mention Informatique)
    • parcours  Data Sciences (mention Mathématiques et applications)

  • Option Gestion de Données : s'inscrire dans un Master M2 de l'Université de Paris-Saclay

    • parcours DataScale :  Gestion de données dans un monde numérique (mention Informatique)
    • parcours D&K : Data & Knowledge -  Données et Connaissances  (mention Informatique)

Formation équivalente à l'étranger

Contacter le responsable mobilité internationale de la filière

Il est aussi possible de choisir un cursus transverse (option entrepreneuriat) ou un des cursus alternatifs.