Titre: Analyse de l'activité et reconnaissance automatique des plateformes Exchange dans la crypto-monnaie Bitcoin.

Mots-Clef: Data Science, Machine Learning, Big Data, Crypto-monnaies Dans le cadre du projet de recherche BITUNAM, nous disposons de l’ensemble des données de transactions Bitcoin jusqu’en Janvier 2021. Grâce à un site tel que WalletExplorer (https://www.walletexplorer.com/), nous pouvons identifier plusieurs dizaines d’acteurs important de Bitcoin, en particulier les plateformes d’exchange. Cependant, la fiabilité de ces données est parfois remise en question: Pour certains exchanges, il semble que nous perdons leur trace au cours du temps. Certains acteurs qui ne sont pas identifiés par le site comme des exchanges mais comme des services (ou des acteurs “historiques”) sont en fait des exchanges. Enfin, certains exchanges majeurs sont manquants dans le système. L’objectif du projet sera double: 1) Dans un premier temps, vous ferez de l’analyse de données permettant de caractériser les plateformes d’exchange connues: évolution du nombre de transactions au cours du temps, patterns de comportement caractéristiques, analyse de l’activité quotidienne type, acquisition du fond de fonctionnement d’origine, etc. (Voir http://bitunam.sci-web.net pour quelques exemples d’analyse faites dans le cadre du projet) 2) A partir des éléments que vous avez identifié et de techniques de machine learning, vous proposerez une méthode dont l’objectif sera de détecter automatiquement, à partir de l’activité d’un acteur, avec quelle probabilité il s’agit d’un Exchange ou d’un autre type d’acteur. Vous utilisez des outils classiques de machine learning pour la classification (arbres de décision, XGboost, réseaux de neurones… selon pertinence) Verrous: le problème principal auquel il faudra faire attention pour ne pas être bloqué sera la taille des données. Dans leur format d’origine, ces données sont de taille très importante et nécessitent d’utiliser des outils spécifiques. La plupart des traitements pourrons se faire sur des sous-ensembles déjà pré-traités (e.g., données agrégées par mois, ou focus sur un mois de données). Cependant, une certaine appétence pour la manipulation de données de grande taille est préférable.