Initiation au langage Python
- L'environnement de développement Python/Anaconda.
- Les principaux types de données : chaînes, booléennes, nombres, listes, tuples et dictionnaires.
- Les structures de contrôles : les boucles for et while, le test if/elif/else.
- Les fonctions : création, passage de paramètres, valeurs par défaut, arguments variables.
- Créer et utiliser des librairies.
- Les principaux pièges de Python : types mutable et unmutable, affectation par référence/adresse.
Travaux pratiques
Manipulation de Python avec la distribution Anaconda, utilisation d’un IDE, petits exercices d’algorithmique pour prendre en main le langage. Manipulation de dates.
Compléments sur le langage
- Comprendre la syntaxe orientée objet.
- Savoir créer une classe : attributs de classe, d’instance, méthodes, fonctions spéciales.
- Lecture et écriture de fichiers au format texte.
- Utiliser les librairies standard : bases de données relationnelles et expressions régulières.
Travaux pratiques
Connexion à une base de données relationnelle et analyse de logs avec les expressions régulières, afin de créer un fichier CSV, pour son exploitation par les librairies scientifiques.
Présentation de l'écosystème Python scientifique
- Panorama de l’écosystème scientifique de Python : les librairies incontournables.
- Savoir où trouver de nouvelles librairies et juger de leur pérennité.
- Les principaux outils et logiciels open source pour la data science.
- Pourquoi utiliser une distribution scientifique comme Anaconda.
- Comprendre l’intérêt d’un environnement virtuel et savoir l’utiliser.
- L’interpréteur iPython et le serveur Jupyter.
- Les bonnes pratiques pour bien démarrer son projet de data science avec Python.
- Les formats de fichiers scientifiques et les librairies pour les manipuler.
Travaux pratiques
Mise en place de l’environnement de développement. Création d’un environnement virtuel, export et duplication d’un environnement, utiliser les notebooks Jupyter.
La SciPy Stack
- Pandas : l’analyse de données tabulaires (CSV, Excel...), statistiques, pivots, filtres, recherche…
- Matplotlib : la librairie de visualisation de données incontournable pour bien démarrer.
- Le socle de librairies scientifiques incontournables sur lequel sont basées toutes les autres : la SciPy Stack.
- Numpy : calcul numérique et algèbre linéaire (les vecteurs, matrices, images).
- Scipy, basée sur Numpy pour : les statistiques, les analyses fonctionnelles et géospatiales, le traitement du signal...
Travaux pratiques
Traitement d’images avec Numpy. Premiers tracés. Analyses statistiques de fichiers CSV. Premiers éléments de cartographie. Transformées de Fourier.