Nvidia a conçu une technologie qui génère des images supplémentaires sur des vidéos filmées normalement. Le rendu est spectaculaire, et l'outil pourrait mettre les super-ralentis à la portée de tous.

Si vous fréquentez de temps en temps YouTube, vous connaissez peut-être la chaîne The Slow Mo Guys. Animée par deux Britanniques, elle se consacre à des vidéos qui sont enregistrées à très grande vitesse, avec énormément d’images par seconde. Ceci leur permet ensuite de proposer des ralentis extrêmes : on peut ainsi voir l’explosion d’un récipient en verre à… 343 000 images par seconde !

Évidemment, ce n’est pas avec du matériel grand public qu’il est possible d’atteindre un tel effet. À titre de comparaison, un iPhone propose du slow motion à 240 images par seconde et les derniers modèles de la gamme Xperia peuvent atteindre 960 images par seconde. Cela donne de quoi s’amuser, certes, mais reste encore éloigné de certains matériels professionnels qui vont encore plus loin.

L’iPhone X permet de filmer jusqu’à 240 images par seconde.

Toutefois, il est aujourd’hui possible d’imaginer un futur relativement proche dans lequel la puissance de calcul de l’informatique à distance (cloud computing) et des algorithmes d’apprentissage automatique (machine learning) peuvent compenser artificiellement la capacité d’un smartphone ou d’une caméra vidéo, en générant des images intermédiaires pour donner l’illusion du ralenti.

C’est là que Nvidia entre en scène.

Ses ingénieurs ont en effet conçu un système basé sur l’apprentissage profond (deep learning) qui peut produire des vidéos au ralenti de haute qualité à partir d’une vidéo de 30 images par seconde (fps). Celle-ci peut être transformée de façon à ressembler à une vidéo enregistrée à 240 fps. Elle peut même atteindre 480 fps si la vidéo de départ a été tournée à 60 fps.

Un résultat fluide

En comparaison d’une vidéo filmée en 30 ou 60 fps, ensuite ralentie manuellement — ce qui donne un effet saccadé assez déplaisant –, le résultat proposé par Nvidia est d’une fluidité surprenante. Le mouvement est constant, ce qui donne une impression de séquence ralentie très réussie. Nvidia s’est même permis de reprendre des vidéos de The Slow Mo Guys pour les ralentir encore un peu plus.

Un papier de recherche, publié sur ArXiv, revient sur la méthode. On y apprend en particulier que Nvidia a entraîné un réseau de neurones à convolution avec 1 132 clips (le chiffre est toutefois très différent de celui communiqué par Nvidia, qui évoque un nombre d’environ 11 000 clips) vidéos filmées en 240 images par seconde, chacune contenant individuellement 300 000 images.

Un processeur graphique Nvidia Tesla V100.

Côté architecture, Nvidia explique avoir utilisé des processeurs graphiques Tesla V100, qui sont conçus spécifiquement pour accélérer le déroulement des opérations pour des tâches très complexes dans l’IA, le calcul haute performance ou bien le rendu graphique. Nvidia a aussi employé les bibliothèques cuDNN (CUDA Deep Neural Network) et PyTorch pour l’apprentissage automatique.

Prédire les images supplémentaires

« Une fois formé, le réseau neuronal convolutif a prédit les images supplémentaires » que les chercheurs estiment « cohérentes dans l’espace et dans le temps ». Nvidia ajoute que « le résultat peut rendre les vidéos tournées à un taux de rafraîchissement plus fluide et moins flou ». Selon le fabricant de cartes graphiques, des débouchés pour le grand public peuvent tout à fait être envisagés, via le cloud computing.

Il suffit en effet de déporter l’effort du calcul à distance, par exemple en envoyant sur les serveurs de Nvidia la vidéo à 30 ou 60 fps qui vient d’être tournée.

Des images « cohérentes dans l’espace et dans le temps »

Et celle-ci peut être de n’importe quelle durée ou presque : il suffit d’une bonne connexion 4G pour envoyer et récupérer la vidéo. « Bien qu’il soit possible de prendre des vidéos de 240 fps avec un portable, il n’est pas pratique d’enregistrer tout cela à des fréquences d’images élevées, car cela nécessite de grandes quantités de mémoire et de puissance pour les appareils mobiles », rappellent les scientifiques.

Évidemment, l’on s’avance beaucoup sur les intentions de Nvidia vis-à-vis d’une telle technologie. Mais celle-ci a largement les arguments pour séduire le grand public comme les professionnels, en tout cas ceux qui veulent produire des effets sans avoir besoin d’un matériel spécifique. On peut également penser à un système qui permet, par exemple, d’envoyer un lien YouTube sur l’hypothétique service Super SloMo de Nvidia.

Mais est-ce que le constructeur a envie de mobiliser sa puissance de calcul pour ce type de divertissement ? Rien n’est moins sûr : en revanche, il pourrait être bien la valoriser auprès de tiers, via des licences d’utilisation.

Partager sur les réseaux sociaux