Tutoriels Tanagra pour le Data Mining, le Machine Learning et la Data Science: Mise à niveau SISE

Programme de mise à niveau - Master SISE

Le métier de Data Scientist devient de plus en plus tendance avec la vague des Big Data. A l’Université, je vois de plus en plus de personnes d’horizons divers se renseigner ou postuler pour le Master SISE dont j’ai la responsabilité. C’est très bien. J’ai toujours pensé qu’un bon statisticien (au sens large, j’y inclus le data mining et le machine learning) n’est opérationnel que s’il dispose de connaissances avancées en informatique, notamment en programmation et en manipulation (conception, exploitation) des bases et entrepôts de données. Aujourd’hui, il doit même aller au-delà avec une montée en compétence sur les technologies Big Data. Pour ma part, il n’y pas à tergiverser, elles prennent une place de plus en plus importante dans les enseignements de la formation.

Maintenant la vraie question est : que faire quand une personne qui n’a pas un cursus math-stat-info postule pour un master de data science ? On lui dit : « passez votre chemin mon brave, il fallait faire les bons choix à l’issue de votre bac » ? Non, bien sûr que non. En revanche, il est hors de question de s’engager auprès d’une personne sans maximiser les chances de succès. L’échec est toujours des deux côtés lorsqu’un étudiant n’arrive pas au bout de sa formation. C’est pour cette raison qu’à partir de cette année (2016), j’ai essayé de mettre au point un programme estival de remise à niveau pour les candidats aux profils atypiques qui intègrent le Master. Bien sûr, il est difficile de rattraper 4 années d’études en deux mois. Mais au moins, avec les bons repères, ils peuvent démarrer du bon pied à la rentrée d’octobre.

Le contenu et les données sont libres. Tout le monde peut s’en servir. En revanche, je suis désolé, je ne pourrais pas corriger vos travaux si d’aventure vous me les envoyez. J’ai déjà fort à faire avec mes cours, les étudiants de notre département, l’écriture des tutoriels et supports, le développement des logiciels libres. Je ne peux pas me lancer dans la formation en ligne. Ou alors je ne ferai plus que cela. L’idée peut être séduisante une fois que je serai à la retraite. Je saurais quoi faire de mes journées si j’ai peur de m’ennuyer. Mais il faudra attendre un peu du coup, la dead line semble s’éloigner à mesure que les années avancent.

Enfin, comme il est hors de question de faire acheter des livres – dont certains sont à des prix prohibitifs, sans parler des livres en anglais – aux étudiants, je fais exclusivement référence aux supports accessibles librement sur le web durant ce programme de remise à niveau, les miens mais aussi ceux d’autres collègues. Je tenais à les remercier chaleureusement de mettre ainsi à disposition de tous de la documentation et des données en ligne.

Thèmes

A chaque thème est associé une série de documents : un article principal qui recense les références théoriques et les exercices à faire ; des exercices énumérant les opérations à réaliser accompagnés des fichiers à traiter.

Excel - Traitement des listes
Manipulation des listes de données sous Excel. Les filtres automatiques et avancés (requêtage), les tableaux croisés dynamiques.

Statistique descriptive
Description des données, types de données. Caractérisation des distributions (statistique univariée). Liaison statistique (statistique bivariée). Représentation graphique des données statistique.

Introduction à R
Importation et manipulation des données. Vecteurs, data frame. Statistique descriptive et représentations graphiques. Corrélation et régression.

Python Statistique
Introduction à Python dans le cadre de la pratique statistique. Manipulation des données (pandas), graphiques (matplotlib), statistiques descriptives et analyse des données / clustering (classification ascendante hiérarchique) (scipy, numpy).

SQL (Structured Query Language)
Manipulation des bases de données relationnelles avec le langage SQL. Requêtes mono et multi-tables. Mise à jour et extraction d'informations. Utilisation du SGBD Access.

Analyses factorielles
ACP (analyse en composantes principales), ACM (analyse des correspondances multiples) et AFC (analyse factorielle des correspondances). Théorie et pratique. Exercices sous R et Python.

Data Mining 1 - Analyse prédictive
Introduction à l'apprentissage supervisé. Principes d'élaboration et d'évaluation des modèles. Matrice de confusion. Calcul des indicateurs de performances. Analyse discriminante linéaire, arbres de décision. Sélection de variables.

Data Mining 2 - Clustering (Classification automatique)
Introduction à la classification automatique (typologie, apprentissage non supervisé). Classification ascendante hiérarchique (CAH), méthode des centres mobiles (K-Means). Identification du nombre de classes. Caractérisation des classes à l'aide des variables actives et illustratives.

Inférence statistique
Lecture des tables statistiques. Estimation ponctuelle et par intervalle. Tests d'hypothèses, tests de conformité à un standard, tests de comparaisons de populations (moyennes, proportions, variances, tests paramétriques).

Pages

Mise à niveau SISE