Télécom ParisTech

Alzennyr Gomes lauréate du|Prix de thèse Simon Régnier

Alzennyr Gomes da Silva, actuellement post-doctorante au département informatique et Réseaux de Télécom ParisTech, sous la direction du Professeur Georges Hébrail, est lauréate du Prix de thèse Simon Régnier 2010 , dans le cadre des 17èmes rencontres de la SFC (Société Francophone de Classification)  qui ont eu lieu à Saint-Denis de la Réunion du 9 au 11 juin 2010. Ce prix est décerné à un jeune chercheur de moins de 35 ans ayant soutenu une thèse de doctorat dans le domaine de la classification. Alzennyr a soutenu sa thèse à l'INRIA le 24 septembre 2009, sous la direction de Yves Lechevallier (INRIA) et Edwin Diday (Université Paris IX Dauphine).

Analyse des données évolutives : application aux données d'usage du Web

Le nombre d’accès aux pages Web ne cesse de croître. Le Web est devenu l’une des plates-formes les plus répandues pour la diffusion et la recherche d’information. Par conséquent, beaucoup d’opérateurs de sites Web sont incités à analyser l’usage de leurs sites afin d’améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d’usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données.

C’est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d’acquisition des données réelles d’usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l’extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps.

Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d’usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l’évaluer l’efficacité de l’approche proposée.

Rencontres SFC 2010