Habr AI→ original

Gemini 3.1 Pro a surpassé ChatGPT 5.4 et Claude Opus 4.6 dans un test de génération de texte

Gemini 3.1 Pro a remporté une comparaison de modèles de génération de texte face à ChatGPT 5.4 et Claude Opus 4.6. L’auteur a soumis les trois systèmes à…

Traité par IA depuis Habr AI ; édité par Hamidun News
Gemini 3.1 Pro a surpassé ChatGPT 5.4 et Claude Opus 4.6 dans un test de génération de texte
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Gemini 3.1 Pro est devenue la gagnante dans une comparaison de modèles de génération de texte réalisée par l'auteur, surpassant ChatGPT 5.4 et Claude Opus 4.6. L'écart était faible, mais l'auteur a appelé Gemini l'outil le plus équilibré pour les tâches littéraires et émotionnelles.

Comment Cela a Été Testé

La comparaison n'a pas été basée sur le code, la recherche ou les mathématiques, mais sur ce qui reste le principal cas d'usage de l'IA pour les utilisateurs ordinaires : écrire du texte. Pour cela, trois modèles ont reçu quatre tâches. Ils devaient créer de la science-fiction comique, de la fantaisie classique, de l'horreur psychologique et une brève histoire émotionnelle sur une personne perdue dans la forêt. La note maximale pour chaque tour était de trois points, et l'évaluation générale était basée sur la pertinence du genre, la lisibilité, l'à-propos des détails et l'impression générale du résultat.

L'approche s'est avérée subjective, mais c'est justement sa valeur. Ce type de test ne mesure pas l'intelligence abstraite, mais montre comment un modèle se comporte dans une véritable tâche éditoriale : maintient-il le ton, préserve-t-il la structure, évite-t-il la verbiage excessive et peut-il transmettre l'émotion sans explications inutiles ? L'auteur note séparément que certains modèles ont tendance à surcharger le texte, tandis que d'autres choisissent la concision. Pour générer des publications, des brouillons, des histoires et des scénarios, cela est souvent plus important que les benchmarks arides.

Résultats par Modèle

Gemini 3.1 Pro a affiché le meilleur résultat — 11,5 points sur 12 possibles. Elle a géré avec assurance la tâche comique et s'est mieux débrouillée que les autres dans l'histoire émotionnelle sur l'anxiété dans la forêt. Claude Opus 4.6 a terminé le test avec 11 points, et ChatGPT 5.4 avec 10. Aucun d'eux n'a échoué : les trois modèles ont tous démontré un haut niveau et ont différé davantage en style qu'en qualité.

  • Gemini 3.1 Pro — 11,5 points ; forte en pertinence du genre et livraison concise
  • Claude Opus 4.6 — 11 points ; construit bien l'atmosphère, mais parfois surcharge le texte
  • ChatGPT 5.4 — 10 points ; stable, mais fait occasionnellement des choix stylistiquement discutables
  • Dans la tâche d'horreur, les trois modèles ont reçu des points identiques de 2,5
  • L'auteur a appelé le modèle OpenAI le plus économique en prix

Pourquoi Gemini Est en Tête

La principale raison de la victoire de Gemini, selon l'auteur, est l'équilibre. Le modèle ne tente pas d'impressionner par la longueur de sa réponse, ne simplifie pas à outrance chaque scène et ne perd pas le cadre du genre. Dans l'histoire comique, cela s'est manifesté par un rythme plus vivant et un humour efficace, et dans le texte émotionnel — par une escalade claire du déni à la panique et au désespoir. Pour les tâches de contenu, cela est critique : si un modèle écrit plus court mais plus précisément, il est plus facile pour un éditeur de travailler avec le texte et de passer moins de temps à le polir.

Les concurrents avaient leurs points faibles. ChatGPT 5.4, selon l'observation de l'auteur, marque parfois la structure de l'histoire trop explicitement — par exemple, en mettant l'accent sur les points culminants des chapitres, ce qui fait que le texte perd sa qualité naturelle. Claude Opus 4.6, à l'inverse, construit bien l'atmosphère, en particulier dans les histoires d'isolement et de paranoïa, mais devient parfois trop élaboré et analytique. Cela ne brise pas complètement la qualité, mais réduit l'impact émotionnel, qui dans le texte littéraire doit fonctionner plus rapidement.

Le gagnant global a été Gemini 3.1 Pro, bien que les deux autres participants aient également montré de bons résultats.

L'auteur note séparément qu'il ne considère pas ce résultat comme un verdict universel du marché. Le choix du modèle dépend toujours du goût et de la tâche : pour certains, la clarté et la prévisibilité de ChatGPT importent davantage, pour d'autres l'atmosphère de Claude est plus proche. De plus, pour la génération basique de texte, selon son avis, les solutions gratuites comme DeepSeek peuvent être suffisantes. Mais si nous nous concentrons spécifiquement sur la combinaison de style, de concision et de précision du genre dans ce test, la direction de Gemini semble méritée.

Ce Que Cela Signifie

Pour les éditeurs, les auteurs et les équipes de contenu, la conclusion est plutôt pratique : vous devez trouver non pas le modèle « le plus intelligent » en général, mais celui qui gère mieux un format spécifique. Dans cette comparaison, Gemini 3.1 Pro s'est avérée être l'option la plus équilibrée pour les tâches de texte, mais la différence entre les participants est faible. Cela signifie que dans le travail réel, le gagnant doit être choisi non pas par un nom prestigieux, mais par le nombre de corrections qui doivent être apportées après le premier brouillon.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…