KI-Übersetzungsgenauigkeit: Qualität überprüfen, statt einer Zahl zu vertrauen

Fast jeder Übersetzungsanbieter wirbt mit Schlagzeilen wie: „98 % genau“, „nahezu menschliche Qualität“, „klassenbester“. Keine dieser Formulierungen hat für sich allein eine Bedeutung. Genauigkeit ist keine einzelne Zahl, die man auf ein Banner drucken kann – sie hängt vom Sprachenpaar, dem Thema, der verwendeten Metrik und dem Messenden ab.

Dies ist der Teil der Branche, den wir für fehlerhaft halten. Bei Mind.com – dem Unternehmen hinter InterMIND – lautet unsere Regel: Überprüfbar statt vertrauenswürdig: Qualität, die Sie anhand eines öffentlichen Standards überprüfen können, nicht eine Zahl, an die Sie glauben sollen. Dieser Artikel ist die Käuferseite dieses Prinzips: Wie man Genauigkeitsaussagen liest und wie man sie selbst überprüft.

Warum „X% genau“ Ihnen fast nichts sagt

Wenn ein Anbieter von „94 % Genauigkeit“ spricht, stellen Sie vier Fragen, bevor die Zahl etwas bedeutet:

Wie gemessen? Automatische Metriken wie BLEU, chrF und COMET bewerten die Maschinenausgabe im Vergleich zu Referenzübersetzungen – und sie widersprechen sich ständig. Ein menschliches Bewertungsrahmenwerk wie MQM (Multidimensional Quality Metrics) liefert wiederum ein anderes Bild, da es Arten von Fehlern zählt, nicht die Oberflächenüberschneidung. Ein Prozentsatz ohne zugehörige Metrik ist Marketing, keine Messung.
Für welches Sprachenpaar? Die Qualität für Englisch↔Spanisch ist nicht die Qualität für Englisch↔Japanisch, und keines von beiden sagt etwas über ein ressourcenarmes Paar aus. Ein Durchschnittswert über „große Sprachen“ hinweg verbirgt genau das Paar, das Ihnen wichtig ist.
Für welchen Inhalt? Ein Modell, das technische Dokumentation sauber verarbeitet, kann bei Marketingtexten, Rechtstexten oder Redewendungen versagen. Der Bereich des Testsatzes entscheidet über die Punktzahl.
Gegen welche Referenz, auf welchem Testsatz? Eine Zahl, die Sie nicht auf einen benannten, öffentlichen Testsatz zurückführen können, ist eine Zahl, die Sie nicht reproduzieren können – und ein nicht reproduzierbares Ergebnis ist kein Beweis.

Wenn eine Behauptung alle vier Fragen übersteht, könnte sie nützlich sein. Die meisten tun das nicht.

Wie eine überprüfbare Messung tatsächlich aussieht

Die gute Nachricht: Öffentliche Standards dafür existieren bereits. Sie müssen einem Anbieter nicht beim Wort nehmen, und Sie sollten es auch nicht.

Öffentliche Benchmarks. Die jährlichen Bewertungskampagnen der WMT (Conference on Machine Translation) und offene Testsätze wie FLORES-200 ermöglichen es jedem, Systeme anhand derselben Daten über viele Sprachen hinweg zu vergleichen. Die Ergebnisse sind veröffentlicht und reproduzierbar.
Benannte Metriken, gemeinsam angegeben. Eine ernsthafte Qualitätsaussage benennt ihre Metrik und ihren Testsatz – z.B. „COMET auf FLORES-200, EN→DE“ – damit ein Dritter sie erneut ausführen kann. Eine einzelne Metrik ist leicht zu manipulieren; mehrere zusammen zu berichten, ist schwieriger zu fälschen.
Menschliche Bewertung mit einem Regelwerk. Für alles, was viel auf dem Spiel steht, sind automatische Bewertungen ein Filter, kein Urteil. Eine menschliche Überprüfung im MQM-Stil, mit einer dokumentierten Fehlertaxonomie, sagt Ihnen, ob die Ausgabe brauchbar ist, nicht nur statistisch nah.

Die Umstellung ist hier einfach: Hören Sie auf zu fragen „wie genau sind Sie?“, und fangen Sie an zu fragen „anhand welchen öffentlichen Standards, und kann ich es reproduzieren?“

Wo KI-Übersetzung stark ist – und wo nicht

Sie brauchen keine erfundenen Prozentsätze, um zu verdeutlichen, was in diesem Bereich gut etabliert ist:

Stark: ressourcenreiche Sprachenpaare, technische und strukturierte Inhalte, konsistente Terminologie in großem Umfang und eine Geschwindigkeit, die menschliche Arbeitsabläufe nicht erreichen können.
Schwächer, und braucht immer noch einen Menschen: kreative und Marketingtexte, Humor und Redewendungen, kulturell aufgeladene Nuancen sowie juristische oder medizinische Texte, bei denen ein Fehler Haftung nach sich zieht.

Ehrliche Positionierung bedeutet, beide Hälften offen auszusprechen. Ein Anbieter, der Ihnen nur die starke Hälfte nennt, verkauft Ihnen die Lücke.

Was das für Echtzeit-Meetings bedeutet

Live-Gespräche in mehreren Sprachen legen die Messlatte höher als die Dokumentenübersetzung. Es gibt keine Zeit für die Nachbearbeitung, die Eingabe ist unsaubere gesprochene Sprache, und die Kosten eines Missverständnisses fallen im Moment an – in einer Verhandlung, einem Supportanruf, einem klinischen Gespräch. Eine „durchschnittliche Genauigkeit“ ist völlig die falsche Betrachtungsweise; entscheidend ist, ob Tonfall, Absicht und Ihre spezifische Terminologie erhalten bleiben.

Deshalb ist InterMIND so konzipiert, dass jeder Teilnehmer seine eigene Sprache spricht und in Echtzeit verstanden wird, wobei die Dinge, die die Qualität tatsächlich bestimmen, überprüfbar und nicht nur behauptet werden:

Kundenkontrollierte Glossare – Sie entscheiden, wie Ihre Produktnamen, juristischen Begriffe und Ihr Fachvokabular wiedergegeben werden, anstatt zu hoffen, dass ein allgemeines Modell richtig rät.
Ein Audit-Trail – was gesagt und wie es übersetzt wurde, ist nachträglich überprüfbar, sodass Qualität etwas ist, das Sie inspizieren können, nicht nur vertrauen müssen.
EU- / neutrale Infrastruktur und On-Premise-Bereitstellung – wo die Worte verarbeitet werden, ist Ihre Entscheidung, was für regulierte Arbeiten genauso wichtig ist wie die Übersetzung selbst.

Eine kurze Checkliste zur Bewertung jedes Übersetzungsanbieters

Auf welcher Metrik basiert die Behauptung und auf welchem öffentlichen Testsatz?
Kann das Ergebnis von einem Dritten reproduziert werden?
Wie schneidet es bei Ihren Sprachenpaaren und Ihren Inhalten ab – nicht bei den Durchschnittswerten des Anbieters?
Können Sie die Terminologie (Glossare) kontrollieren, oder sind Sie an die Standardeinstellung gebunden?
Gibt es einen Audit-Trail, um die Qualität nachträglich zu überprüfen?
Wo werden Ihre Daten verarbeitet und gespeichert, und werden sie zum Trainieren von Modellen verwendet?

Wenn ein Anbieter diese Fragen beantworten kann, ist das Gespräch echt. Wenn die einzige Antwort ein Prozentsatz auf einer Folie ist, haben Sie auch etwas gelernt.

Wir zeigen Ihnen lieber, wie Sie Qualität überprüfen können, anstatt Sie zu bitten, einer Überschriftenzahl zu vertrauen. Das ist der Standard, an den wir uns halten – sehen Sie, wie es im Produkt auf intermind.com funktioniert.