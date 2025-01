Lecture Zen Résumer l'article

Avec son architecture Mixture-of-Experts, qui lui permet d’utiliser considérablement moins de puissance pour des résultats équivalents aux meilleurs modèles du marché, DeepSeek impressionne le monde de l’intelligence artificielle avec des modèles ultra-performants, mais très peu coûteux en ressources. Son approche est comparable à celle d’Apple qui, depuis le début, refuse de miser sur la puissance au profit de plusieurs modèles taillés pour des tâches précises.

Et si Apple avait eu raison avant les autres ? En réaction au modèle chinois DeepSeek-R1, présenté comme plus performant que ChatGPT-o1, mais qui coûte 27 fois moins, la valorisation des principales actions de l’intelligence artificielle s’est effondrée le 27 janvier 2025. Nvidia a perdu 16,86 % (et 600 milliards de dollars de valorisation), Google a chuté de 4,03 %, Microsoft, le principal soutien financier d’OpenAI, a enregistré une baisse de 2,14 % et ARM, qui développe l’architecture des puces, est tombé de 10,24 %. Le marché financier semble craindre que l’émergence de nouveaux modèles moins énergivores mette fin à la course à la puissance des grandes entreprises, et donc à la domination américaine sur l’IA.

Dans cette journée rouge pour l’industrie de la tech, une entreprise s’en est mieux sortie que les autres : Apple. Son action a progressé de 3,18 %, alors que l’entreprise est aussi concernée par l’intelligence artificielle générative avec sa suite Apple Intelligence. Une des raisons de cette résistance est que les travaux de DeepSeek valident plusieurs pistes choisies par l’inventeur de l’iPhone.

Des modèles spécialisés plutôt qu’un super modèle ultra-puissant : Apple avait-il tout prévu ?

Sur le réseau social X, et dans un contexte de journée noire pour la bourse américaine, la journaliste Joanna Stern du Wall Street Journal soulève ironiquement un point intéressant sur la situation : « Le bon côté des choses, c’est que DeepSeek fait passer l’approche d’Apple en matière d’intelligence artificielle pour un plan parfaitement calculé ».

Dans le papier publié par ses chercheurs, DeepSeek explique avoir trouvé un moyen de réduire drastiquement les coûts de l’intelligence artificielle grâce à l’architecture Mixture-of-Experts (MoE). Concrètement, cela lui permet de concevoir un modèle avec 671 milliards de paramètres, ce qui est énorme, mais avec seulement 37 milliards de paramètres « actifs ». DeepSeek entend par là qu’une question posée à son IA ne sollicite que 37 milliards de paramètres, qui sont présélectionnés automatiquement par son système. Autrement dit, DeepSeek-R1 fait cohabiter plein de micro-intelligences artificielles entraînées pour des tâches précises. Il a son expert du code, son expert des maths, son expert de l’histoire, etc. Cette ruse lui permet d’obtenir des résultats très complets, sans avoir besoin de beaucoup de ressources. L’IA ne sollicite jamais ses 671 milliards de paramètres d’un seul coup.

Avec DeepSeek-R1, les chercheurs chinois envoient un message fort aux États-Unis : il n’y a pas besoin d’avoir de superordinateurs à plusieurs centaines de millions de dollars pour faire tourner une intelligence artificielle. En outre, la taille d’un modèle n’est pas le plus important : ce qui compte est d’avoir un système capable de s’adapter à ce qu’il fait.

Les coûts d’utilisation de DeepSeek-R1 atomisent ceux d’OpenAI-o1. // Source : DeepSeek

C’est justement à ce niveau que la comparaison avec Apple prend du sens. Contrairement à OpenAI, Google ou xAI, l’entreprise de Tim Cook mise sur une approche beaucoup plus raisonnable en intelligence artificielle. Apple Intelligence repose sur deux volets :

Une exécution locale, avec un iPhone chargé de faire tourner lui-même des modèles (qui sont donc très restreints, puisque la puissance et la mémoire sont limitées).

Le Private Cloud Compute, une technologie inventée par Apple pour faire tourner des modèles sur des serveurs sécurisés, sans accès aux données de ses clients. Apple fait le choix d’utiliser ses propres puces Apple Silicon plutôt que des fermes de GPU Nvidia, comme le reste de l’industrie. Les analystes y ont longtemps vu un point faible, puisqu’Apple privilégie la vie privée à la puissance.

L’explosion médiatique de DeepSeek change la donne. L’entreprise chinoise envoie un message intéressant à l’industrie : le plus puissant ne gagne pas toujours. Apple, qui défend depuis juin 2024 l’idée selon laquelle son IA sera la meilleure puisqu’elle sera entraînée au cas par cas pour chaque utilisateur, semble désormais un peu moins en retard. Ses modèles sont probablement encore à la traine, mais son approche apparaît tout à fait cohérente. Les puces Apple Silicon, ainsi que le Private Cloud Compute, pourraient suffire à satisfaire les besoins des utilisateurs d’iPhone.

Avec Private Cloud Compute, Apple Intelligence se complique la vie par rapport aux approches traditionnelles. // Source : Apple

Autre similitude entre Apple et DeepSeek : l’usage de modèles perfectionnés pour des tâches précises.

Apple est encore loin dans la course aux LLM (les grands modèles de langage utilisés par ChatGPT ou Gemini), mais favorise une approche plus entraînée, avec des modèles spécialisés dans des tâches précises. Les Genmoji, les émojis générés par IA, disposent ainsi de leur propre modèle spécifiquement entraîné pour imiter le style des petits caractères. Le système de résumé des notifications repose aussi sur son propre petit modèle, exécuté localement, pour cet exercice spécifique. Apple a fait le choix de plusieurs petites solutions plutôt que d’un seul produit ultra-performant, mais gourmand en ressources, et sa stratégie pourrait être meilleure qu’annoncé. D’autres experts de l’IA misent depuis plusieurs mois sur l’arrivée de SLM (Small Language Model), amenés à faire mieux que les LLM (Large Language Model).

Les Genmoji à gauche, Image Playgrounds à droite. Apple utilise des modèles entrainés spécifiquement pour des exécutions locales. // Source : Captures Numerama

DeepSeek : un « avertissement pour les États-Unis »

S’il est peu probable que la chute des actions américaines continue à moyen terme (même DeepSeek aura besoin de puces pour monter en puissance), l’industrie de l’IA réagit peu à peu aux prouesses du groupe chinois. Sam Altman, le patron d’OpenAI, s’est par exemple exprimé en fin de journée le 27 janvier. S’il s’admet être « impressionné » par Deepseek-R1, il pronostique qu’il faudra malgré tout « plus de puissance pour réussir notre mission ». D’autres grands noms de la tech, comme Elon Musk, disent suspecter des mensonges de DeepSeek sur la puissance réellement utilisée, ce qui pourrait rapidement inverser la donne sur le marché.

Pour Donald Trump, la crise financière du 27 janvier est un « avertissement » pour les industries américaines, qui ne doivent pas s’endormir si elles souhaitent gagner. Qui aurait imaginé que DeepSeek aurait un tel impact ?

