Ce dépôt contient tous les éléments associés à la formation et sera mis à jour au cours de celle-ci.
Cette formation propose une initiation à la programmation Python pour des doctorants•es en sciences humaines et sociales (SHS), pensée pour les usages en SHS.
Intervenants :
- Emilien Schultz, Médialab / SESSTIM (http://eschultz.fr), emilien.schultz at sciencespo.fr
- Mathieu Morey, Datactivist
Prérequis pour la première séance : installation du logiciel Anaconda qui installe les outils nécessaires (Python ainsi que les autres interfaces) : https://www.anaconda.com/products/individual
Cette séance sera l'occasion de faire un petit tour du langage Python et de l'univers qui l'entoure, pour identifier les principaux usages en SHS.
Langage Python – programmation scientifique – Notebook Jupyter - Exemples
Cette séance présentera les principaux ingrédients du langage Python, sa syntaxe et les blocs qui constituent un script : boucle, condition, ouverture d'un fichier, etc. La question des bonnes pratiques de programmation seront abordées.
Algorithme – Syntaxe - Fonctions – Bonnes pratiques
Python désigne à la fois le langage et les outils développés à partir de celui-ci. Les bibliothèques regroupent des outils déjà constitués pour réaliser des traitements plus avancés. Nous verrons comment se repérer dans l'univers de l'open source, identifier une bibliothèque, l'installer et l'utiliser pour collecter des données. Cela permettra de voir les bases du scrapping.
Bibliothèques – Scipy – Open source – Collecte de données
Une bibliothèque s'est imposée pour le traitement des données sous forme de tableaux : Pandas. Entre Excel et une base de données, elle permet d'automatiser de nombreux traitements. Cela nous amènera à charger des fichiers, à manipuler les colonnes en recodant certaines informations et à calculer des statistiques descriptives.
Pandas – tableaux – base de données – recodage
Cette séance présente les traitements statistiques possibles sur les données ainsi que les usages en termes de visualisation, de vues exploratoires des données à la production de graphiques finalisés pour la publication.
Visualisation – Statistiques – Matplotlib - Cartes
[Période pour avancer un projet personnel si souhaité]
Dans cette séance, nous aborderons à travers des exemples les usages plus avancés. Nous prendrons en particulier l'exemple des étapes nécessaires pour réaliser le traitement de données non structurées textuelles, allant des approches rapides à mettre en œuvre aux analyses plus spécifiques du langage mobilisant la bibliothèque de TAL SpaCy. Nous prendrons aussi un temps pour échanger sur les applications que vous auriez pu développer sur vos données.
Usages avancés – analyse textuelle – données non structurées