Human versus AI – Episode 97 – test de la longueur du texte accepté par les LLM

On ne peut pas tout miser sur ChatGPT !

Alors, je vous propose un test pour comparer les différents modèles.

Mission : résumer l’executive order sur l’IA du président Biden (voir aussi l’épisode 95 : https://lnkd.in/eb64DQ2R) : https://lnkd.in/gNdAXFR2

Le texte fait près de 20 000 mots.
1️⃣ Claude réussit sans problème
2️⃣ ChatGPT4 ne parvient qu’à résumer les 15 000 premiers mots
3️⃣ ChatGPT3 arrive péniblement à résumer 4 000 mots

Bard est ridicule avec 1 500 mots. 😢

Et ne parlons même pas de Bing : 600 mots. 😱

Notes importantes :
► J’ai utilisé Claude-instant-100k grâce à Poe (https://poe.com/) car Claude n’est toujours pas officiellement disponible en France
► Certains LLM peuvent accéder à des textes longs via la recherche Web (comme Bard et Bing et aussi ChatGPT4) ou grâce aux fichiers joints (comme ChatGPT4). Ca marche, mais ça ne donne pas les mêmes résultats.
► L’image a été générée par ChatGPT4, mais il m’a fallu m’y reprendre à plusieurs fois, et encore, c’est loin d’être parfait

Et vous, quels sont vos LLM préférés ?

Leave a Reply