« 215 milliards d'euros d'aliments sont gâchés tous les ans » : un GPU peut-il changer les choses ?
Rapids va permettre d'accélérer les calculs sur les bases de données, et ainsi d'obtenir plus rapidement des modèles prédictifs. De nombreux acteurs l'intégreront dès son lancement.
Nvidia a profité de la GTC Europe pour présenter Rapids, une plateforme d’accélération du traitement de données, en open source.
Le fantasme d'une niche
Sur scène, le CEO de Nvidia, Jensen Huang, s’amuse du manque de réaction du public de la GTC Europe: « Les data-scientists (experts en mégadonnées, ndlr) dans la salle doivent se dire : c’est génial !
L’entreprise américaine avance que l’entraînement d’algorithme soutenus par leurs GPU serait 50 fois plus rapide que les entraînements faits sans eux.
Dans son discours d'introduction à la GTC Europe, Jensen Huang, CEO de Nvidia, n'a pas hésité à avancer des chiffres : un calcul qui prendrait une heure avec un cluster de 100 CPU prendrait à peine quelques minutes avec une DGX2, le modèle GPU le plus puissant de Nvidia pour des opérations de ce type. La puissance permise par l'accumulation de CPU avait atteint ses limites, puisqu'une partie de leur énergie est utilisée pour communiquer entre eux au lieu de faire les calculs.
Calculer plus vite vers de meilleurs modèles prédictifs
Pour démontrer l’utilité de Rapids -- et plus largement celui du travail sur les données -- Jeff Tseng, chef produit de la branche IA du groupe, prend le cas de l’industrie alimentaire.
L'enjeu pour les data scientists est donc de trouver le stock optimal, sans manque ni surplus.
Dans son communiqué, le fabricant de processeurs graphiques liste longuement les messages de soutien des acteurs du secteur. D'abord, les grands groupes comme Hewlett Packard, IBM ou Oracle ont d'ores et déjà annoncé qu'ils intégreront Rapids à leurs systèmes d'analyses de données. Mais c'est également le cas pour la communauté open source. Pour augmenter son champ d'action, Nvidia collabore avec de nombreux acteurs du secteur : Databricks (éditeur de Spark), Scikit-learn ou encore avec Wes McKinney, le créateur d’Apache Arrow et de la bibliothèque Python pandas.
L'analyse de donnée et le machine learning étaient les deux plus grands segments du calcul de haut performance qui n'avaient pas encore reçu le coup d'accélérateur des GPU, c'est désormais chose faite.