Sur le site AI World Clocks, 9 horloges sont générées chaque minute. Elles sont chacune basées sur un modèle d’IA différent. Une façon ludique de répondre à une question essentielle : quelle IA est capable de nous donner l’heure efficacement à travers une horloge ?

Qui est le meilleur pour coder ? Le meilleur pour générer des images ? Le meilleur pour faire des recherches ? La course vers l’IA générative la plus efficace est une affaire technologique, mais aussi une affaire de gros sous, d’investisseurs et de surenchère de promesses sur les capacités réelles de chaque modèle.

À chaque mise à jour, les entreprises qui conçoivent ces modèles vantent les nouveautés de leurs produits, assurant qu’ils sont meilleurs que leurs prédécesseurs, et évidemment supérieurs à leurs concurrents. Le tout sur un rythme effréné, où la couronne de la meilleure IA pour tel ou tel usage ne reste parfois pas plus d’une semaine entre les mêmes mains.

Alors, comment se retrouver dans ce flot d’autopromotion ? Sur le net, de nombreux comparateurs fleurissent, avec plus ou moins d’exigence. Certains tendent à faire figure de référence, comme Humanity’s Last Exam, un benchmark d’IA multimodal (texte + images), dont le jeu de données public contient environ 2 500 à 3 000 questions et couvre plus d’une centaine de matières (maths, physique, médecine, humanités, ingénierie, etc.).

Plus précis, on vous l’accorde, mais sûrement moins ludique qu’AI World Clocks. Ce site compare chaque minute les capacités de neuf modèles différents à effectuer une requête que l’on pourrait résumer ainsi : génère une horloge fonctionnelle avec l’heure exacte.

Les modèles d'OpenAI passent un sale quart d'heure // Source : Capture d'écran AI World Clocks
Les modèles d’OpenAI passent un sale quart d’heure. // Source : Capture d’écran AI World Clocks

Un défi HTML/CSS pour les IA

Sur leur site, Brian Moore, le créateur du projet, et Matthew Rayfield, à l’origine de l’idée, ont mis en concurrence GPT-3.5, GPT-4o, GPT-5 (OpenAI), Haiku 3.5 (Anthropic), Gemini 2.5 (Google), DeepSeek V3.1 (DeepSeek), Grok 4 (xAI), Qwen 2.5 (Alibaba Cloud) et Kimi K2 (Moonshot AI).

Pour ce qui est du prompt exact, traduit en français, le voici : « Crée un code HTML/CSS pour une horloge analogique affichant l’heure ${time}. Inclue les chiffres (ou les nombres) si tu le souhaites, et ajoute une aiguille des secondes animée en CSS. L’horloge doit être responsive et utiliser un fond blanc. Retourne UNIQUEMENT le code HTML/CSS, sans mise en forme markdown. »

Chaque modèle dispose alors de 2 000 tokens pour relever le défi et, évidemment, ce qui attire l’attention, ce sont les immenses ratés générés à chaque minute.

Numerama a réalisé un petit benchmark non exhaustif de cette expérience. Sur 10 itérations, ce sont Haiku 3.5, DeepSeek V3.1 et Gemini 2.5 qui s’en sortent le mieux avec six succès cumulés. Nous avons estimé qu’un succès résidait dans la capacité du modèle à générer une horloge lisible avec l’heure correctement affichée.

ModèlesNombre de succès (sur 10 tentatives)
GPT-3.50
GPT-4o3
GPT-52
Haiku 3.55
Gemini 2.56
DeepSeek V3.16
Grok 43
Qwen 2.50
Kimi K20

Certains modèles brillent par leurs capacités de design mais pèchent par leur manque de précision. C’est notamment le cas de Kimi K2, qui réussit la prouesse de générer à chaque itération une horloge parfaitement calibrée, avec des chiffres très bien placés, sans jamais afficher l’heure correctement.

Autre fait assez amusant : sur les 10 générations que nous avons pu observer, GPT-5 s’en sort moins bien que son prédécesseur GPT-4o, tant sur l’exactitude que sur le design, proposant souvent des horloges complètement disproportionnées.

Une horloge qui reflète également les progrès du secteur

On a également voulu tester deux modèles parmi les plus récents, absents d’AI World Clocks : Gemini 3 Pro et Claude Opus 4.5, qui ont fait l’actualité fin novembre 2025, chacun étant présenté comme offrant des capacités encore jamais vues.

Les deux modèles sont parvenus à effectuer la tâche du premier coup, même si le modèle d’Anthropic a légèrement péché sur la disposition des chiffres sur l’horloge.

Évidemment, l’idée ici n’est pas d’établir un classement pour désigner une IA « meilleure » qu’une autre, mais de rappeler qu’un bon chatbot ne se juge pas uniquement dans son ensemble, mais plutôt à l’aune de l’usage que l’on souhaite en faire.

Et si vous nous demandez lequel est le plus fiable pour générer une horloge affichant l’heure exacte, on vous répondra probablement Gemini 3 Pro, DeepSeek V3.1 ou encore Claude Opus 4.5… du moins pour les semaines qui viennent.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !