Télécom ParisTech

Nancy Bertin lauréate du prix de thèse du club EEA, du GRETSI et du GdR ISIS

La thèse de Nancy Bertin a été primée dans le cadre du Prix de Thèse 2010 Signal-Image-Vision décerné par le Club EEA  (Club des Enseignants et chercheurs en Électronique, Électrotechnique et Automatique), le GRETSI  (Groupe de Recherche et d'Étude en Traitement du Signal et des Images) et le Groupe de Recherche ISIS  (Information, Signal, Images et ViSion).

Les directeurs de thèse de Nancy Bertin sont Roland Badeau et Gaël Richard, enseignants-chercheurs dans l'équipe AAO (Audio, Acoustique et Ondes) du département Traitement du Signal et des Images de Télécom ParisTech. Le prix a été remis le 23 juin 2010.

Club des 

Une thèse consacrée à la transcription de la musique polyphonique

Titre : « Les factorisations en matrices non-négatives. Approches contraintes et probabilistes, application à la transcription automatique de musique polyphonique ».

La transcription automatique de la musique est l'opération qui consiste, partant du seul contenu audio, à produire une représentation symbolique (par exemple un fichier MIDI) d'un morceau de musique. Si la transcription de musique monodique est aujourd'hui bien maîtrisée, le cas de la musique polyphonique est en revanche un problème largement ouvert.

Pour s'atteler à cette tâche, certaines approches sont basées sur des connaissances a priori tels que des modèles de signaux, ou des bases de données d'apprentissage. La contrepartie de ce type de méthodes est leur faible capacité d'adaptation à des signaux s'éloignant trop du modèle ou des données initiales. Pour s'affranchir de cette contrainte, une nouvelle famille d'approches consiste à introduire le moins d'a priori possible sur l'audio de départ, et à tenter de séparer les notes jouées "à l'aveugle".

Parmi celles-ci, les représentations parcimonieuses, les techniques de factorisation en matrices non-négatives ou de séparation de sources font des hypothèses faibles et réduites sur les signaux. Elles ont montré des résultats prometteurs en transcription de musique polyphonique. L'objectif de cette thèse est d'obtenir une représentation orientée-objet du signal, exhibant clairement les structures sémantiques qui le composent, et qui serait un intermédiaire entre le signal et une représentation plus haut niveau. Une telle représentation aura l'avantage de simplifier les tâches d'indexation et de transcription automatique de musique. Pour extraire ces structures du signal, l'approche que nous visons repose sur des techniques d'analyse matricielle.

Les décompositions de matrices en valeurs propres et en valeurs singulières sont des techniques d'algèbre linéaire utilisées dans un grand nombre d'applications de traitement du signal. Elles permettent de représenter efficacement les données observées en utilisant un nombre limité d'atomes élémentaires. Contrairement à des techniques plus classiques, ces atomes ne sont pas recherchés au sein d'un dictionnaire pré-défini, mais sont extraits des données elles-mêmes. La factorisation en matrices non-négatives (NMF) est une technique analogue d'algèbre linéaire, qui réduit le rang tout en fournissant des atomes à valeurs exclusivement positives, donc plus facilement interprétables, et sémantiquement plus pertinentes pour la représentation de données elles-mêmes à valeurs positives. Alors que d'autres travaux se concentrent soit sur la mise au point de dictionnaires, soit sur la décomposition de signaux sur ces dictionnaires, la NMF fournit conjointement un dictionnaire extrait des données et la décomposition de ces mêmes données dans ce dictionnaire.

Cette thèse est consacrée à l'étude théorique et expérimentale détaillée de ces méthodes. Elle poursuit plusieurs objectifs : l'amélioration des performances des systèmes de transcription qui les utilisent, de la pertinence sémantique des représentations mi-niveau produites, et du contrôle des propriétés théoriques et pratiques des algorithmes existants et originaux mis en œuvre au cours de la thèse.

Composition du jury

Rapporteurs

  • Frédéric Bimbot (Directeur de Recherche CNRS, INRIA-IRISA)
  • Laurent Daudet (Professeur, Université Denis Diderot - Paris 7)

Examinateurs

  • Bruno Torrésani (Professeur, Université Aix-Marseille)
  • Tuomas Virtanen (Senior Researcher, Tampere University of Technology)

Directeurs de thèse

  • Roland Badeau (Maître de Conférences, Télécom ParisTech)
  • Gaël Richard (Professeur, Télécom ParisTech)