Veuillez noter que ces sujets sont négocatiables, selon les aspects qui vous intéressent le plus.

Présentation de la page

Cette page présente les sujets de POM que je (Rémy Cazabet) propose pour l'année 2022/2023. Pour contexte, je suis maître de conférences à Lyon 1, laboratoire LIRIS, dans l'équipe DM2L, Data Mining and Machine Learning

Détection de communautés dans les réseaux/graphes (machine learning/Data science)

La détection de communauté est un problème de machine learning non-supervisé dans les graphes. En quelques mots, l’objectif est de chercher à trouver des groupes denses, c’est à dire des groupes de nœuds fortement connectés et plus faiblement connecté au reste du réseau. Ce problème est très similaire à celui du clustering dans les données tabulaires.
Je propose 3 sujets possibles sur ce thème:
  • État de l’art des méthodes basées sur les réseaux de neurones. Récemment, de nouvelles méthodes ont été proposées, utilisant des réseaux de neurones profonds. Vous effectuerez un état de l’art sur cette question, ce qui consiste à chercher puis lire des articles scientifiques, en extraire les informations essentielles. Cela peut aller jusqu’à rassembler les codes existant et/ou à réimplémenter des méthodes, de manière à effectuer une évaluation quantitative de la qualité de ces méthodes. Comme point de départ, vous pourrez utiliser les articles de survey sur ce domaine, par exemple: https://arxiv.org/pdf/2005.08225.pdf
  • Contribution à une librairie de recherche en python. La bibliothèque CDlib (https://cdlib.readthedocs.io/en/latest/) est la librairie de référence en détection de communauté, et je suis l’un des co-développeurs. Il y a beaucoup de contributions possibles sur cette librairie, certains d’entre elles étant listé là par exemple: https://github.com/GiulioRossetti/cdlib/projects/2. Nous déciderons ensemble quelle contribution est la plus pertinente pour vous.
  • Proposition d’un algorithme de meta-learning pour la prédiction de liens. Le meta-learning (boosting, bagging, stacking) est une technique de machine learning consistant à combiner le résultat de plusieurs algorithmes pour en créer un nouveau, meilleur que chacun de ceux qui le compose. Nous voudrions appliquer cette méthode au problème de la prédiction de lien dans les graphes, en combinant les informations provenant de différents algorithmes de détection de communautés. Le travail consistera à s’approprier le sujet, proposer des méthodes, les implémenter et les tester.

Explication de modèles “boîtes noires” (machine learning\Explainable AI).

Les récents progrès dans le domaine de l’apprentissage supervisé ont mis en lumière la performance de méthodes complexes (réseau de neurones, boosting, etc). Les méthodes d’AI explicables permettent d’exposer les relations capturées par ces modèles dans une forme intelligible pour l'être humain. Cette étape est cruciale dans de nombreux domaines d’applications ou des problématiques de fiabilité, d’équité, ou de transparence se posent. Ci-dessous, nous proposons 2 sujets possibles dans ce domaine.
Extraction de facteurs de risques et productions d’explications contrefactuelles Une explication contrefactuelle donne le plus petit changement à appliquer sur une variable d'entrée d’un modèle de ML (entraîné) pour changer sa prédiction, passant par exemple de la prédiction d’une classe à une autre cf: https://christophm.github.io/interpretable-ml-book/counterfactual.html. Le travail consistera à s'approprier le sujet et, à partir d’un modèle pré-entraîné sur des données générées, à extraire un ensemble d’explications contrefactuelles pertinentes, prenant en compte le degré d’actionnabilité des variables d’entrées, la faisabilité de l’explication, etc.
Construction de profils de risques à partir d’explications locales (SHAP) SHAP (Shapley Additive Explanation) est une méthode très utilisée actuellement qui se sert des valeurs de Shapley pour extraire des explications locales de modèles black box. Ces valeurs donnent la contribution des variables d’entrée dans chacune des prédictions du modèle (pouvant être positives ou négatives). A partir de données médicales simulées, le sujet consistera à implémenter un modèle prédictif de risque (de développement d’une maladie chronique), utiliser SHAP pour en extraire des explications locales, et stratifier la population selon différents profils construits à partir de ces valeurs (clustering).