Master TIW & Bio-Info : Data Analysis - 2024/2025

Introduction
Ceci est la page du cours d'analyse de données (DAD), commun aux M2 TIW et Bio-Informatique, université Lyon 1. Le cours comprend 2 parties organisées séparément, l'une enseignée par Fabien De Marchi, et l'autre organisée par moi-même. Cette page regroupe les informations sur ma partie du cours, qui a lieu le Lundi Après-Midi.

Salles - Calendrier

Vous pouvez retrouver le détail des horaires et des salles là : https://adelb.univ-lyon1.fr/
Les cours avec moi ont lieu le Lundi après-midi. Les cours avec Fabien De Marchi ont lieu le Mercredi après-midi. Les deux parties sont gérées indépendemment.

Programme et contenus

Ci-dessous, une vue générale des cours du semestre. Il s'agit d'un programme provisoire qui sera amené à évoluer.
Les contenus seront mis à jour au fur et à mesure.



Topic Resources
(2 Sep.) Introduction, Data Description Slides - TP
(23 Sep.) Clustering Beyond k-means Slides - TP
(30 Sept.)(21 Oct.) Networks Slides - TP1: Gephi - TP2: networkx
(28 Oct.) Other data types Slides - TP
(29 Oct.) Dash - TP-Projet Tutoriel DASH - DASH exemples - fichiers examples + slides
(18 Nov.) Project


Data

Clustering Networks Other data types Data transformation

Tools

Vous allez travailler majoritairement avec python.
Vous pouvez soit travailler avec google colab (vous pouvez utiliser google drive pour stocker des fichiers facilement accessible), soit bien sûr travailler en local sur votre machine. Dans ce cas, il vous faudra installer quelques packages particulièrement utile:

Python

  • notebook. Jupyter notebook
  • pandas. Pandas
  • scikit-learn. Machine learning/Data mining
  • seaborn. ploting library
  • networkx. Generic network analysis
  • cdlib. Community detection
Si vous n'êtes pas familiers avec pandas, je propose un tutoriel rapide ici
De même une introduction/rappel sur les structures de données en python (listes, dictionnaires, sets...)ici

Gephi

Gephi is a software for basic graph manipulation and visualization. Although you can't do much in term of graph analysis, it is really convenient to explore and visualize graphs of small to medium size ( < 1000 nodes).
It can be donwloaded there : Gephi.
Gephi requires Java, and suffer from a few bugs on windows (but there is no better alternative). Here are solutions to common problems:

Exams

La note de l'UE sera composée de deux parties: une note de projet(50%) et un examen final(50%). L'examen final comptera 50% des points sur ma partie (cours du Lundi).

Examen final

Vous pouvez consulter le sujet de l'examen (pour ma partie) 2022 et 2023. Le contenu était légèrement différent et l'examen pourra être différent également.

Projet

  • Pour faire le projet, vous pouvez vous mettre par groupe de 2 ou 3.
  • L'objectif du projet est de prendre un jeu de données réel, de l'analyser en utilisant les techniques et outils vus en cours, et le restituer sous la forme d'un dashboard fait avec dash. Vous pouvez utiliser des outils que nous n'avons pas vu en cours, mais une partie importante du projet doit concerner l'application du cours. Je donne quelques conseils pour trouver un dataset.
  • Il s'agit d'un "petit" projet: appliquer ce qui a été présenté en TP (au moins la moitié des TPs) sur un jeu de données original et restituer sous forme de dashboard est suffisant, je ne demande pas d'aller plus loin dans l'analyse.

  • La date de rendu est le 8 Décembre, 23:59.