I'm proposing several topics for research internships. Feel free to contact me if one of them motivates you.

Master TIW & Bio-Info : Data Analysis - 2022/2023

Introduction
Ceci est la page du cours d'analyse de données (DAD), commun aux M2 TIW et Bio-Informatique, université Lyon 1. Le cours comprend 2 parties organisées séparément, l'une enseignée par Fabien De Marchi, et l'autre organisée par moi-même. Cette page regroupe les informations sur ma partie du cours, qui a lieu le Lundi Après-Midi.

Salles - Calendrier

Vous pouvez retrouver le détail des horaires et des salles là : https://adelb.univ-lyon1.fr/
Les cours avec moi ont lieu le Lundi après-midi, Généralement en salle Nautibus C4 ou C5 (?). Les cours avec Fabien De Marchi ont lieu le Mercredi après-midi.

Programme et contenus

Ci-dessous, une vue générale des cours du semestre. Il s'agit d'un programme provisoire qui sera amené à évoluer.
Les contenus seront mis à jour au fur et à mesure.

Topic Resources
(5 Sep.) Introduction, Data Description - Exercices - Slides - Notebook
(19 Sep.) Supervised Machine learning - Exercices - Slides - Notebook
(26 Sep.)Clustering Exercices - Slides - Notebook
(17 Oct.) TP-Project
(24 Oct.) Graphs Exercices - Slides
(14 Nov.) Recommendation Exercices - Slides - Notebook


Data

Je propose de travailler sur un jeu de données de film, disponible sur kaggle: https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset
Ce jeu de données est assez riche car il dispose à la fois de métadonnées décrivant les films (titre, durée, budget...), ainsi que d'informations de notes d'utilisateurs.
(lien de téléchargement direct alternatif - save 2022)
Le fichier décompressé fait environ 1Go (ce sont de vrai données !).
Si besoin, Le fichier des méta-données seules (34 Mo) peut être téléchargé directement ici
Quelques données de réseaux pour pratiquer avec Gephi.
Petit réseau Game Of Thrones(.graphml)
Aeroports avec pays et position(.graphml)

Le fichier simplifié des votes utilisateurs/films (36 Mo) peut être téléchargé ici directement ratings_clean_names.csv

Tools

Vous allez travailler majoritairement avec python.
Vous pouvez soit travailler avec google colab (vous pouvez utiliser google drive pour stocker des fichiers facilement accessible), soit bien sûr travailler en local sur votre machine. Dans ce cas, il vous faudra installer quelques packages particulièrement utile:

Python

  • notebook. Jupyter notebook
  • pandas. Pandas
  • scikit-learn. Machine learning/Data mining
  • seaborn. ploting library
  • networkx. Generic network analysis
  • cdlib. Community detection
Si vous n'êtes pas familiers avec pandas, je propose un tutoriel rapide ici
De même une introduction/rappel sur les structures de données en python (listes, dictionnaires, sets...)ici

Gephi

Gephi is a software for basic graph manipulation and visualization. Although you can't do much in term of graph analysis, it is really convenient to explore and visualize graphs of small to medium size ( < 1000 nodes).
It can be donwloaded there : Gephi.
Gephi requires Java, and suffer from a few bugs on windows (but there is no better alternative). Here are solutions to common problems:

Exams

  • Pour faire le projet, vous pouvez vous mettre par groupe de 2. Des groupes de 3 seront Exceptionnellement autorisés à condition que les 3 personnes indiquent clairement quelle partie du projet elles ont faite, et les notes seront individualisées.
  • L'objectif du projet est de prendre un jeu de données réel, et de l'analyser en utilisant les techniques et outils vus en cours. Je donne quelques conseils pour trouver un dataset.
  • Vous devez appliquer ce que nous avons vu en TP, mais vous devez aussi commenter le choix des méthodes, leurs performances, les transformations que vous faites sur les données, la confiance que vous avez dans les résultats obtenus, etc.
  • Le rendu est composé du code et du texte. Les deux peuvent être fourni sous la forme d'un seul notebook, avec des cellules de code et des cellules markdown (note: vous pouvez insérer des formules en utilisant la syntaxe latex). Si vous préférez, vous pouvez à la place, ou en plus, fournir des fichiers .py et un fichier PDF. Par exemple par souci de clarté, vous pouvez avoir un fichier .py contenant des fonctions complexes que vous importez dans votre notebook.
  • Le projet est à rendre pour le Dimanche 11 Décembre, 23:59, en le déposant dans Tomuss, sois sous la forme d'un fichier, sois sous la forme d'une URL vers un dépôt de type GitHub/GitLab.