Le cours s’articule autour de deux aspects du traitement de données :
1) Analyse exploratoire et visualisation
L’analyse exploratoire vise à décrire des ensembles de données afin d’améliorer leur compréhension et d’extraire de l’information. Le but de cette partie est de présenter les concepts et outils de l’analyse exploratoire (probabilités, statistiques, réduction de dimensions) et de la visualisation de données.
2) Apprentissage automatique
Cette partie s’intéresse à l’obtention d’un modèle d’un ensemble de données. Dans une première séquence, on s’intéresse aux méthodes d’apprentissage supervisé pour approfondir les notions vues dans l’enseignement de 4e année IR (complément sur les méthodes standards, méthodes d’ensemble, deep learning, biais et enjeux d’équité, explicabilité, vie privée, …).
Dans une seconde séquence, on s’intéresse à l’apprentissage non supervisé avec un focus sur les problèmes et méthodes de clustering (hiérarchique, k-moyenne, basé densité).
Le but de ces deux parties est également de connaître les principales bibliothèques existantes en Python (Scikit-learn) ou en R.