IMST - EISO 2021/2022 - Gephi et l'analyse en réseau

Introduction
Cette page concerne l'UE 3 - Scientométrie, Bibliométrie : Mesures et représentations de la production scientifique du Master 2 IMST (Information et médiation scientifique et technique), parcours EISO (Epistémologie et Ingénierie de la Science Ouverte).
Plus particulièrement, elle sert de support à la partie dont je (Rémy Cazabet) suis responsable, portant sur l'analyse en réseau des données scientifiques, ainsi qu'à l'outil d'analyse de réseaux Gephi.

Objectifs
L'objectif de ce cours est d'acquérir les compétences suivantes:
  1. Savoir comment une base de données bibliographique en accès libre, telle HAL, peut être interrogée en utilisant un language de programmation
  2. Savoir passer de données brutes à des données modélisées sous la forme d'un graphe, et les bonnes questions à se poser
  3. Connaître les bases du domaine de la science des réseaux (Network Science), permettant de décrire et d'analyser des données représentées sous forme de graphes
  4. Savoir utiliser le logiciel libre Gephi pour 1)Calculer des indicateurs d'analyse de réseaux et 2)Produire des visualisations sous forme de réseaux de données de co-citations ou de collaborations.

Présentations Générale du cours
Le cours sera composé de 4 séances, soit 10h de cours. La dernière séance sera dévolue au projet.
Le cours sera évalué par un projet à effectuer en groupe (voir section correspondante).

Programme

Ci-dessous le programme prévisionnel des cours. Les cours auront lieu de 14h à 16h30 le Mercredi.
Ce programme est encore provisoire!.

Créneau Sujet Ressources
Mercredi 22/09 Introduction, Description de réseaux, Gephi 1 PDF-Réseaux-Descriptions
PDF-Gephi
Exercices Gephi: Introduction
Formulaire science des réseaux
Mercredi 6/10 Réseaux: centralité, Gephi 2 PDF-Réseaux-Centralités
Exercices Gephi: Centralité, Communautés
Exercices Gephi: Créer son propre réseau
Mercredi 20/10 Collection de données depuis HAL, Gephi 3 Présentation de HAL
Requetes API HAL
Exemple pour démarrer
Pour aller plus loin:
Introduction aux structures de données python
Introduction à Pandas
Mercredi 3/11 Travail sur le projet


Jeux de données de test


Outils

Pour ce cours, vous allez avoir besoin de deux choses: Le logiciel Gephi et une installation de Python avec quelques librairies installées (Mais pour python, en cas de problème, vous pourrez travailler sur un outil en ligne)

Gephi

Gephi est l'outil le plus pratique pour visualiser des réseaux, et faire des analyses simples sans programmation.
Il peut être téléchargé ici : Gephi.
Gephi requiert Java, et à quelques bugs sous Windows, en particulier lors de l'installation. Je vous recommande donc d'essayer de l'installer à l'avance. Vous pouvez trouver ici la solution à 2 problèmes qui arrivent parfois:

Python

Pour la partie requête de bases de données bibliométriques, nous utiliserons python. Il est possible de travailler en ligne avec un outil tel que Google colab, mais il est beaucoup plus pratique d'avoir votre propre installation. Le plus simple est d'utiliser la distribuiton Anaconda, qui viens déjà avec la plupart des librairies nécessaires installées. Les librairies que nous utiliserons sont:
  • networkx. Analyse de réseaux
  • notebook. Jupyter notebook
  • requests. Requetes sur des API
  • pandas. Manipulation de données
  • seaborn. création de graphiques

Projet

L'évaluation de ma partie de l'UE sera faite sous la forme d'un rendu de projet.
Il sera recommandé de vous mettre par groupes de 2 à 3 étudiants.
L'objectif du projet est de faire votre propre analyse d'un réseau de données issues d'une base de données de citations telle que HAL. Le projet sera à rendre sous la forme d'un notebook python + 1 fichier PDF contenant des visualisation de graphes.
Il est tout à fait autorisé de réutiliser le code python fourni durant le cours, de copier-coller du code depuis internet, et de vous partager du code python. Vous ne serez pas évalué sur la qualité de votre code python.
Vous devez définir un sujet d'analyse unique à votre groupe: cela peut être limité à une zone géographique, un sujet thématique, une période donnée, etc. L'analyse de ces données, leur visualisation, et l'interpréation que vous en ferez sera unique à votre groupe.