LPDIST - 2023/2024 - Gephi et l'analyse en réseau

Introduction
Cette page concerne la licence professionnelle DIST (Données et Informations Scientifiques et Techniques.)
Plus particulièrement, elle sert de support à la partie dont je (Rémy Cazabet) suis responsable, portant sur l'analyse en réseau des données scientifiques, ainsi qu'à l'outil d'analyse de réseaux Gephi.

Objectifs
L'objectif de ce cours est d'acquérir les compétences suivantes:
  1. Savoir comment une base de données bibliographique en accès libre, telle HAL, peut être interrogée en utilisant un language de programmation
  2. Savoir passer de données brutes à des données modélisées sous la forme d'un graphe, et les bonnes questions à se poser
  3. Connaître les bases du domaine de la science des réseaux (Network Science), permettant de décrire et d'analyser des données représentées sous forme de graphes
  4. Savoir utiliser le logiciel libre Gephi pour 1)Calculer des indicateurs d'analyse de réseaux et 2)Produire des visualisations sous forme de réseaux de données de co-citations ou de collaborations.

Présentations Générale du cours
Le cours sera composé de 4 séances, soit 12h d'enseignement. La dernière séance sera dévolue au projet.
Le cours sera évalué par un projet à effectuer en groupe (voir section correspondante).

Programme

Ci-dessous le programme prévisionnel des cours

Créneau Sujet Ressources
Jeudi 12 Octobre Introduction, Description de réseaux, Gephi 1 PDF-Description-Centralités

Exercices Gephi: Introduction
Formulaire science des réseaux
Jeudi 9 Novembre Collection de données depuis HAL - debut projet Présentation de HAL
Débuter avec python
Requetes API HAL
Exemple pour démarrer
Pour aller plus loin:
Introduction à Pandas
Introduction aux structures de données python
Lundi 4 Décembre Réseaux: centralité, Communautés, Gephi 2 PDF centralités, communautés
TP: Figures Interactives en python
Vendredi 8 Décembre Travail sur le projet


Jeux de données de test


Quelques données de réseaux pour pratiquer avec Gephi.
Petit réseau Game Of Thrones(.graphml)
Aeroports avec pays et position(.graphml)

Outils

Pour ce cours, vous allez avoir besoin de deux choses: Le logiciel Gephi et un notebook pour coder en python (mais vous pouvez travailler en ligne sans rien instller, comme indiqué ci-dessous)

Gephi

Gephi est l'outil le plus pratique pour visualiser des réseaux, et faire des analyses simples sans programmation.
Il peut être téléchargé ici : Gephi.
La dernière version doit normalement s'installer sur tous les ordinateurs (mac, windows, linux) sans souci particulier.

Python

Pour la partie requête de bases de données bibliométriques, nous utiliserons python. Il est possible de travailler en ligne avec un outil tel que Google colab. Si vous n'aimez pas Google, vous pouvez bien sûr installer python sur votre machine de manière classique, je recommende dans ce cas d'utiliser la distribution appelée Anaconda, qui rend les choses plus simple. Vous pouvez aussi utiliser l'éditeur de code VScode.

Projet

L'évaluation de ma partie de l'UE sera faite sous la forme d'un rendu de projet.
Vous travaillerez par groupes de 2 à 3 étudiants.
L'objectif du projet est de faire votre propre analyse d'un réseau de données issues d'une base de données de citations telle que HAL.
Le projet sera à rendre sous la forme d'un court document PDF. Ce document devra contenir:
  • Les détails des requêtes que vous avez utilisé
  • Une interprétation de votre analyse (qu'est-ce que vous avez appris, quelles sont les limites de votre analyse, etc.)
  • Au moins une visualisation de qualité de votre réseau
Le document devra être court (4 pages maximum, hors visualisations). Un code python devra être fourni en annexe, mais ne sera pas évalué.
L'objectif est de faire un document de qualité professionnelle, qui pourrait être utilisé pour une présentation à un client, ou pour un article scientifique.
Il est tout à fait autorisé de réutiliser le code python fourni durant le cours, de copier-coller du code depuis internet, de demander de l'aide à chatGPT/copilot et de vous partager du code python. Vous ne serez pas évalué sur la qualité de votre code python.
Vous devez définir un sujet d'analyse unique à votre groupe: cela peut être limité à une zone géographique, un sujet thématique, une période donnée, etc. L'analyse de ces données, leur visualisation, et l'interpréation que vous en ferez sera unique à votre groupe.

Date de rendu: 22 Décembre, 23:59 - 25 Février, 23:59.

Exemples de l'année précédente (mais les consignes étaient différentes): Exemple 1 Exemple 2