La présentation couvrira en particulier les points suivants:
Optimisation de l'utilisation de la mémoire (dataset partagé entre processus de la meme machine) avec le memory mapping de numpy.
Exemples d'algorithmes de machine learning qui se parallelisent trivialement ("embarrassingly parallel problems": pas de synchronisation entre les noeuds):
Recherche en grille de parametres optimaux
Apprentissage distribué de forets aléatoires
Exemple d'implémentation algorithmes de machine learning que se parallelisent bien avec une synchronisation de type AllReduce
: Averaged Stochastic Gradient Descent sur des modèles linéaires et MiniBatchKMeans.