Précision de la traduction IA : Comment vérifier la qualité, et non faire confiance à un chiffre

Presque tous les fournisseurs de traduction affichent un titre : "98 % de précision", "qualité quasi-humaine", "le meilleur de sa catégorie". Aucune de ces phrases ne signifie quoi que ce soit en soi. La précision n'est pas un chiffre unique que vous pouvez imprimer sur une bannière — elle dépend de la paire de langues, du sujet, de la métrique utilisée pour la mesure et de la personne qui a effectué la mesure.

C'est la partie de l'industrie que nous pensons défectueuse. Chez Mind.com — l'entreprise derrière InterMIND — notre règle est vérifiable plutôt que de nous faire confiance : une qualité que vous pouvez vérifier par rapport à une norme publique, et non un chiffre que nous vous demandons de croire. Cet article est la version côté acheteur de ce principe : comment lire les affirmations de précision et comment les vérifier vous-même.

Pourquoi "X % de précision" ne vous dit presque rien

Lorsqu'un fournisseur annonce "94 % de précision", posez quatre questions avant que ce chiffre n'ait un sens :

Comment mesuré ? Les métriques automatiques comme BLEU, chrF et COMET évaluent la sortie machine par rapport aux traductions de référence — et elles sont constamment en désaccord les unes avec les autres. Un cadre d'évaluation humaine comme MQM (Multidimensional Quality Metrics) produit une image encore différente, car il compte les types d'erreurs, et non le chevauchement superficiel. Un pourcentage sans métrique associée est du marketing, pas une mesure.
Sur quelle paire de langues ? La qualité pour l'anglais↔espagnol n'est pas la qualité pour l'anglais↔japonais, et aucune ne prédit une paire à faibles ressources. Une moyenne sur les "langues majeures" masque exactement la paire qui vous intéresse.
Sur quel type de contenu ? Un modèle qui gère proprement la documentation technique peut échouer sur des textes marketing, juridiques ou des expressions idiomatiques. Le domaine de l'ensemble de test décide du score.
Contre quelle référence, sur quel ensemble de test ? Un chiffre que vous ne pouvez pas retracer jusqu'à un ensemble de test public et nommé est un chiffre que vous ne pouvez pas reproduire — et un résultat non reproductible n'est pas une preuve.

Si une affirmation survit à ces quatre questions, elle pourrait être utile. La plupart ne le font pas.

À quoi ressemble une mesure vérifiable

La bonne nouvelle : des normes publiques existent déjà pour cela. Vous n'avez pas à croire le fournisseur sur parole, et vous ne devriez pas.

Benchmarks publics. Les campagnes d'évaluation annuelles du WMT (Conference on Machine Translation) et les ensembles de tests ouverts tels que FLORES-200 permettent à quiconque de comparer des systèmes sur les mêmes données, à travers de nombreuses langues. Les résultats sont publiés et reproductibles.
Métrique nommée, déclarée conjointement. Une affirmation de qualité sérieuse nomme sa métrique et son ensemble de tests — par exemple "COMET sur FLORES-200, EN→DE" — afin qu'une tierce partie puisse la réexécuter. Une métrique isolée est facile à manipuler ; en rapporter plusieurs ensemble est plus difficile à simuler.
Évaluation humaine avec une grille. Pour tout ce qui a des enjeux élevés, les scores automatiques sont un filtre, pas un verdict. L'examen humain de type MQM, avec une taxonomie d'erreurs documentée, est ce qui vous dit si le résultat est utilisable, et pas seulement statistiquement proche.

Le changement ici est simple : cessez de demander "quelle est votre précision ?" et commencez à demander "par rapport à quelle norme publique, et puis-je la reproduire ?"

Où la traduction IA est forte — et où elle ne l'est pas

Vous n'avez pas besoin de pourcentages inventés pour affirmer ce qui est bien établi dans le domaine :

Points forts : paires de langues à ressources élevées, contenu technique et structuré, terminologie cohérente à grande échelle, et une rapidité que les flux de travail humains ne peuvent égaler.
Points faibles, et nécessitant toujours un humain : textes créatifs et marketing, humour et expressions idiomatiques, nuances culturellement chargées, et textes juridiques ou médicaux où une erreur entraîne une responsabilité.

Un positionnement honnête signifie dire les deux moitiés à voix haute. Un fournisseur qui ne vous dit que la moitié forte vous vend l'écart.

Ce que cela signifie pour les réunions en temps réel

La conversation multilingue en direct élève le niveau au-delà de la traduction de documents. Il n'y a pas de temps pour la post-édition, l'entrée est un langage parlé désordonné, et le coût d'un malentendu survient sur le moment — lors d'une négociation, d'un appel au support, d'une conversation clinique. Un chiffre de "précision moyenne" est un angle d'approche entièrement erroné ; ce qui compte, c'est de savoir si le ton, l'intention et votre terminologie spécifique survivent.

C'est pourquoi InterMIND est conçu de manière à ce que chaque participant parle sa propre langue et soit compris en temps réel, les éléments qui déterminent réellement la qualité étant vérifiables plutôt qu'affirmés :

Glossaires contrôlés par le client — vous décidez comment vos noms de produits, termes juridiques et vocabulaire de domaine sont rendus, au lieu d'espérer qu'un modèle général devine juste.
Un historique d'audit — ce qui a été dit et comment cela a été traduit est révisable après coup, de sorte que la qualité est quelque chose que vous pouvez inspecter, et non simplement faire confiance.
Infrastructure UE / neutre et déploiement sur site — l'endroit où les mots sont traités est votre décision, ce qui est aussi important que la traduction elle-même pour les travaux réglementés.

Une courte liste de contrôle pour évaluer tout fournisseur de traduction

Sur quelle métrique l'affirmation est-elle basée, et sur quel ensemble de test public ?
Le résultat peut-il être reproduit par une tierce partie ?
Comment se comporte-t-il sur vos paires de langues et votre contenu — et non sur les moyennes du fournisseur ?
Pouvez-vous contrôler la terminologie (glossaires), ou êtes-vous bloqué avec le paramètre par défaut ?
Existe-t-il un historique d'audit pour examiner la qualité après coup ?
Où vos données sont-elles traitées et stockées, et sont-elles utilisées pour entraîner des modèles ?

Si un fournisseur peut répondre à ces questions, la conversation est réelle. Si la seule réponse est un pourcentage sur une diapositive, vous avez aussi appris quelque chose.

Nous préférons vous montrer comment vérifier la qualité plutôt que de vous demander de faire confiance à un chiffre accrocheur. C'est la norme que nous nous imposons — découvrez comment cela fonctionne dans le produit sur intermind.com.