La montée en puissance des grands modèles d’IA
Depuis 2010, la quantité de calcul mobilisée pour entraîner un grand modèle d’IA a été multipliée par dix milliards ; le passage symbolique du « PC portable » au « quartier entier de New York » illustre bien cette inflation, nourrie par un doublement de la puissance engagée tous les six mois, soit quatre fois le rythme de la loi de Moore. Cette accélération place la discipline dans ce que l’on peut appeler l’ère du scaling : plus on injecte de paramètres, de données et surtout de FLOPs, plus les performances grimpent de façon régulière.
Ce constat empirique s’appuie sur des courbes dites de lois de mise à l’échelle : lorsque l’on trace la perte moyenne d’un modèle en fonction du calcul total investi, les points s’alignent presque parfaitement sur une droite en log-log. Autrement dit, un accroissement continu des ressources garantit – sans retouche algorithmique majeure – un gain prédictible de compétence. Cette prévisibilité a convaincu les acteurs de financer des entraînements à neuf chiffres : après un pari de 4 millions de dollars pour GPT-3, on parle déjà de budgets de 100 millions aujourd’hui et de plusieurs milliards à l’horizon 2026 – 2027.
Mais l’entraînement n’est qu’une face de la médaille : depuis peu, le « scaling d’inférence » prend le relais. L’idée consiste à allonger le temps de réflexion d’un modèle – davantage de tokens générés, votes majoritaires entre multiples complétions, ou boucles de recherche internes – afin d’explorer plusieurs chaînes de raisonnement avant de répondre. Sur les tâches quantitatives ou logiques, quelques centaines de millisecondes de calcul supplémentaire libèrent déjà des capacités inédites ; à terme, on envisage des millions de tokens de délibération pour un seul problème.
Ce glissement vers le « temps de calcul à la demande » soulève la question de la soutenabilité économique : si le coût d’entraînement flambe, celui de l’inférence explose à son tour. Pourtant, les entreprises acceptent la facture, car chaque ordre de grandeur supplémentaire rapproche d’applications à forte valeur – et d’un retour sur investissement difficilement accessible avec la génération précédente.
Un autre verrou est la fiabilité. Les modèles progressent par « n nines » : 99 %, puis 99,9 %, etc. Tant qu’une tâche longue se décompose en dix sous-étapes chacune fiable à 90 %, la probabilité de réussite chute à 35 %; passer à 99,9 % sur chaque maillon fait remonter la chaîne globale au-delà de 90 %. Ces quelques décimales supplémentaires, obtenues grâce au scaling, transforment des chatbots versatiles en agents capables d’enchaîner des plans complexes.
Cette montée en puissance invite naturellement à comparer la machine au cerveau. Un grand modèle récent affiche environ un billion de paramètres ; le néocortex humain compte plutôt entre 30 et 300 billions de synapses. Le gap est donc d’un à deux ordres de grandeur – ce qui suggère une marge de manœuvre, d’autant que la machine consomme des milliers de fois plus de données pour atteindre des performances encore « sous-humaines » sur certains aspects. Paradoxalement, plus un réseau est grand, plus il devient économe en exemples ; on observe déjà une amélioration sensible de l’efficacité-échantillon quand on franchit de nouveaux paliers de taille.
Pour nourrir ce géant, la communauté mise de plus en plus sur des corpus synthétiques. Jeux auto-générés, dialogues entre IA, simulations riches : près de 20 % des données servant à certains modèles chinois récents proviennent déjà de telles méthodes. Bien calibrée, cette approche compense la raréfaction des textes qualitatifs disponibles sur le Web et ouvre la porte à des contenus mieux échelonnés en difficulté.
Au-delà du volume, la structure même des réseaux évolue. L’absence d’une mémoire épisodique rapide – équivalent de l’hippocampe – limite encore la continuité sur plusieurs jours. Les travaux actuels testent des modules externes, des caches vectoriels ou des bases de connaissances différentiables pour inscrire durablement une information sans figer les poids. De tels hybrides pourraient résoudre l’arbitrage entre plasticité et stabilité que le cerveau gère via des circuits distincts.
De surcroît, l’« overhang » de calcul en phase d’usage reste largement inexploité : laisser un modèle réfléchir dix-mille fois plus longtemps équivaut parfois à lui offrir trois ordres de grandeur de paramètres supplémentaires, sans ré-entraînement – à condition de lui apprendre à planifier, se relire, corriger ses erreurs et relancer des hypothèses. Quelques « tokens de planification » ou de « vérification » suffiraient théoriquement à déclencher ce saut qualitatif.
Pour les organisations, ces dynamiques redessinent la chaîne de valeur : conception, développement, service client, R&D – chaque domaine voit émerger des copilotes de plus en plus autonomes. La contrainte passe alors de « ce que l’IA peut faire » à « comment l’intégrer, la superviser et la gouverner ». Les exigences en énergie, en sécurité des modèles et en souveraineté des données montent d’un cran, tout comme la pression pour standardiser des indicateurs de robustesse et de responsabilité.
Enfin, la trajectoire projetée laisse entrevoir une nouvelle transition : si le simple scaling promet encore, d’ici 2028, un saut comparable à celui observé entre GPT-2 et GPT-4, l’ajout de méthodes dites d’« unhobbling » – recherche externe, raisonnement symbolique léger, outils spécialisés – pourrait transformer ces systèmes en véritables travailleurs numériques, capables de piloter des projets de bout en bout. La question n’est plus de savoir si l’intelligence artificielle atteindra le seuil humain, mais comment nos structures économiques, éducatives et réglementaires absorberont la cadence imposée par l’ère du scaling.
