1
Rappels au langage R
- Les types de données dans R.
- Importation-exportation de données.
- Techniques pour tracer des courbes et des graphiques.
Mise en situation
Prise en main des scripts et Notebooks.
2
Analyse en composantes
- Analyse en Composantes Principales.
- Analyse Factorielle des Correspondances.
- Analyse des Correspondances Multiples.
- Analyse Factorielle pour Données Mixtes.
- Classification Hiérarchique sur Composantes Principales.
Travaux pratiques
Mise en œuvre de la diminution du nombre des variables et identification des facteurs sous-jacents des dimensions associées à une variabilité importante.
3
La modélisation
- Les étapes de construction d'un modèle.
- Les algorithmes supervisés et non supervisés.
- Le choix entre la régression et la classification.
Travaux pratiques
Mise en place d'échantillonnage de jeux de donnes. Effectuer des tests d'évaluations sur plusieurs modèles fournis.
4
Procédures d'évaluation de modèles
- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test.
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs.
- Matrice de confusion, de coût et la courbe ROC et AUC.
Travaux pratiques
Mise en place d'échantillonnage de jeux de donnes. Effectuer des tests d'évaluations sur plusieurs modèles fournis.
5
Les algorithmes non supervisés
- Le clustering hiérarchique.
- Le clustering non hiérarchique.
- Les approches mixtes.
Travaux pratiques
Traitements de clustering non supervisés sur plusieurs jeux de données.
6
Les algorithmes supervisés
- Le principe de régression linéaire univariée.
- La régression multivariée.
- La régression polynomiale.
- La régression régularisée.
- Le Naive Bayes.
- La régression logistique.
Travaux pratiques
Mise en œuvre des régressions et des classifications sur plusieurs types de données.
7
Analyse de données textuelles
- Collecte et prétraitement des données textuelles.
- Extraction d'entités primaires, d'entités nommées et résolution référentielle.
- Étiquetage grammatical, analyse syntaxique, analyse sémantique.
- Lemmatisation. Représentation vectorielle des textes. Pondération TF-IDF.