Nvidia a conçu une technologie qui génère des images supplémentaires sur des vidéos filmées normalement. Le rendu est spectaculaire, et l’outil pourrait mettre les super-ralentis à la portée de tous.

Si vous fréquentez de temps en temps YouTube, vous connaissez peut-être la chaîne The Slow Mo Guys. Animée par deux Britanniques, elle se consacre à des vidéos qui sont enregistrées à très grande vitesse, avec énormément d’images par seconde. Ceci leur permet ensuite de proposer des ralentis extrêmes : on peut ainsi voir l’explosion d’un récipient en verre à… 343 000 images par seconde !

Évidemment, ce n’est pas avec du matériel grand public qu’il est possible d’atteindre un tel effet. À titre de comparaison, un iPhone propose du slow motion à 240 images par seconde et les derniers modèles de la gamme Xperia peuvent atteindre 960 images par seconde. Cela donne de quoi s’amuser, certes, mais reste encore éloigné de certains matériels professionnels qui vont encore plus loin.

l'iPhone X était un One More Thing // Source : Numerama

l'iPhone X était un One More Thing

Source : Numerama

Toutefois, il est aujourd’hui possible d’imaginer un futur relativement proche dans lequel la puissance de calcul de l’informatique à distance (cloud computing) et des algorithmes d’apprentissage automatique (machine learning) peuvent compenser artificiellement la capacité d’un smartphone ou d’une caméra vidéo, en générant des images intermédiaires pour donner l’illusion du ralenti.

C’est là que Nvidia entre en scène.

Ses ingénieurs ont en effet conçu un système basé sur l’apprentissage profond (deep learning) qui peut produire des vidéos au ralenti de haute qualité à partir d’une vidéo de 30 images par seconde (fps). Celle-ci peut être transformée de façon à ressembler à une vidéo enregistrée à 240 fps. Elle peut même atteindre 480 fps si la vidéo de départ a été tournée à 60 fps.

Un résultat fluide

En comparaison d’une vidéo filmée en 30 ou 60 fps, ensuite ralentie manuellement — ce qui donne un effet saccadé assez déplaisant –, le résultat proposé par Nvidia est d’une fluidité surprenante. Le mouvement est constant, ce qui donne une impression de séquence ralentie très réussie. Nvidia s’est même permis de reprendre des vidéos de The Slow Mo Guys pour les ralentir encore un peu plus.

Un papier de recherche, publié sur ArXiv, revient sur la méthode. On y apprend en particulier que Nvidia a entraîné un réseau de neurones à convolution avec 1 132 clips (le chiffre est toutefois très différent de celui communiqué par Nvidia, qui évoque un nombre d’environ 11 000 clips) vidéos filmées en 240 images par seconde, chacune contenant individuellement 300 000 images.

Nvidia Tesla v100

Un processeur graphique Nvidia Tesla V100.

Côté architecture, Nvidia explique avoir utilisé des processeurs graphiques Tesla V100, qui sont conçus spécifiquement pour accélérer le déroulement des opérations pour des tâches très complexes dans l’IA, le calcul haute performance ou bien le rendu graphique. Nvidia a aussi employé les bibliothèques cuDNN (CUDA Deep Neural Network) et PyTorch pour l’apprentissage automatique.

Prédire les images supplémentaires

« Une fois formé, le réseau neuronal convolutif a prédit les images supplémentaires » que les chercheurs estiment « cohérentes dans l’espace et dans le temps ». Nvidia ajoute que « le résultat peut rendre les vidéos tournées à un taux de rafraîchissement plus fluide et moins flou ». Selon le fabricant de cartes graphiques, des débouchés pour le grand public peuvent tout à fait être envisagés, via le cloud computing.

Il suffit en effet de déporter l’effort du calcul à distance, par exemple en envoyant sur les serveurs de Nvidia la vidéo à 30 ou 60 fps qui vient d’être tournée.

Des images « cohérentes dans l’espace et dans le temps »

Et celle-ci peut être de n’importe quelle durée ou presque : il suffit d’une bonne connexion 4G pour envoyer et récupérer la vidéo. « Bien qu’il soit possible de prendre des vidéos de 240 fps avec un portable, il n’est pas pratique d’enregistrer tout cela à des fréquences d’images élevées, car cela nécessite de grandes quantités de mémoire et de puissance pour les appareils mobiles », rappellent les scientifiques.

Évidemment, l’on s’avance beaucoup sur les intentions de Nvidia vis-à-vis d’une telle technologie. Mais celle-ci a largement les arguments pour séduire le grand public comme les professionnels, en tout cas ceux qui veulent produire des effets sans avoir besoin d’un matériel spécifique. On peut également penser à un système qui permet, par exemple, d’envoyer un lien YouTube sur l’hypothétique service Super SloMo de Nvidia.

Mais est-ce que le constructeur a envie de mobiliser sa puissance de calcul pour ce type de divertissement ? Rien n’est moins sûr : en revanche, il pourrait être bien la valoriser auprès de tiers, via des licences d’utilisation.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+

Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !