Parallel Machine Learning avec scikit-learn and IPython

Type:
pyconfr
Audience level:
Experienced
Category:
présentation
Septembre 15th 5:30 après-midi – 6 après-midi

Description

Le but de cette présentation est de donner un aperçu d'une sélection de stratégies de calcul en parallèle (multi-core et cluster) appliquées à la résolution de problèmes de machine learning avec la bibliothèque scikit-learn et l'environnement de développement intéractif IPython.

Abstract

La présentation couvrira en particulier les points suivants:

  • Optimisation de l'utilisation de la mémoire (dataset partagé entre processus de la meme machine) avec le memory mapping de numpy.

  • Exemples d'algorithmes de machine learning qui se parallelisent trivialement ("embarrassingly parallel problems": pas de synchronisation entre les noeuds):

    • Recherche en grille de parametres optimaux

    • Apprentissage distribué de forets aléatoires

  • Exemple d'implémentation algorithmes de machine learning que se parallelisent bien avec une synchronisation de type AllReduce: Averaged Stochastic Gradient Descent sur des modèles linéaires et MiniBatchKMeans.