Rapids va permettre d'accélérer les calculs sur les bases de données, et ainsi d'obtenir plus rapidement des modèles prédictifs. De nombreux acteurs l'intégreront dès son lancement.

Nvidia a profité de la GTC Europe pour présenter Rapids, une plateforme d’accélération du traitement de données, en open source. Annoncée ce 10 octobre, la plateforme est accueillie avec enthousiasme par les acteurs de l’écosystème de la data. Et pour cause, Rapids devrait permettre de réduire grandement les temps de calcul, et ainsi produire des modèles plus précis.

Le fantasme d’une niche

Sur scène, le CEO de Nvidia, Jensen Huang, s’amuse du manque de réaction du public de la GTC Europe : « Les data-scientists (experts en mégadonnées, ndlr) dans la salle doivent se dire : c’est génial ! Pour les autres c’est plutôt : et alors ?  » Il faut dire qu’il retrace depuis plus de dix minutes l’histoire des bibliothèques de données et de leur usage, pour en arriver à son innovation. L’entrée des processeurs graphiques Nvidia était attendue sur ce marché, puisqu’ils permettent d’augmenter la rapidité de certains calculs que les CPU peinent à effectuer. Les scientifiques pourront s’appuyer sur les GPU (Graphic Process Unit) du début à la fin de leur cycle de machine learning et accélérer considérablement leurs processus. De plus, Rapids dispose d’un panel de bibliothèques open source pour l’analyse de données, le machine learning, et bientôt la data-visualisation.

Le CEO de Nvidia pointe un graphique fait par un de ses data scientists, qui explique avec humour le nombre de temps de pause forcés par les temps de calcul.

L’entreprise américaine avance que l’entraînement d’algorithme soutenus par leurs GPU serait 50 fois plus rapide que les entraînements faits sans eux. Le gain de temps de travail serait conséquent pour les data scientists, aujourd’hui condamnés à attendre plusieurs heures que leurs calculs se terminent pour en lancer de nouveaux.

Dans son discours d’introduction à la GTC Europe, Jensen Huang, CEO de Nvidia, n’a pas hésité à avancer des chiffres : un calcul qui prendrait une heure avec un cluster de 100 CPU prendrait à peine quelques minutes avec une DGX2, le modèle GPU le plus puissant de Nvidia pour des opérations de ce type. La puissance permise par l’accumulation de CPU avait atteint ses limites, puisqu’une partie de leur énergie est utilisée pour communiquer entre eux au lieu de faire les calculs.

Calculer plus vite vers de meilleurs modèles prédictifs

Pour démontrer l’utilité de Rapids — et plus largement celui du travail sur les données — Jeff Tseng, chef produit de la branche IA du groupe, prend le cas de l’industrie alimentaire. Nvidia a travaillé notamment avec Wallmart, géant américain de la distribution, pendant les phases d’essais de son outil, et continuera à collaborer avec. « Chaque année, c’est plus de 250 milliards de dollars (215 milliards d’euros, ndlr) de nourriture qui sont gâchés. Si les stocks sont trop importants, l’entreprise perd de l’argent, s’ils sont trop faibles, elle perd des clients. », expose-t-il.

L’enjeu pour les data scientists est donc de trouver le stock optimal, sans manque ni surplus. Plusieurs données sont collectées pour optimiser ce stock (l’historique des ventes, la météo, la conjoncture…) : ces données sont nettoyées puis les chercheurs les combinent, pour sortir des modèles de prédiction. Parfois, ce calcul prend une journée. Rapids va accélérer ces opérations, ce qui permettra de sortir plus souvent des modèles de prédiction, qui devraient être eux-mêmes plus précis.

L’analyse de données, nouvelle conquête des GPU

Dans son communiqué, le fabricant de processeurs graphiques liste longuement les messages de soutien des acteurs du secteur. D’abord, les grands groupes comme Hewlett Packard, IBM ou Oracle ont d’ores et déjà annoncé qu’ils intégreront Rapids à leurs systèmes d’analyses de données. Mais c’est également le cas pour la communauté open source. Pour augmenter son champ d’action, Nvidia collabore avec de nombreux acteurs du secteur : Databricks (éditeur de Spark), Scikit-learn ou encore avec Wes McKinney, le créateur d’Apache Arrow et de la bibliothèque Python pandas.

L’analyse de donnée et le machine learning étaient les deux plus grands segments du calcul de haut performance qui n’avaient pas encore reçu le coup d’accélérateur des GPU, c’est désormais chose faite.

Partager sur les réseaux sociaux