InterMINDs Ansatz für mehrsprachige Videoanrufe

Echtzeit-Videoanruf in mehreren Sprachen

Die meisten Übersetzungstools wurden für Texte entwickelt, bei denen man warten kann. Ein Dokument wird versandt, eine Übersetzung kommt zurück, jemand überprüft sie. Eine Live-Unterhaltung funktioniert nicht so. Niemand in einem Meeting wird innehalten, einen Satz zur Übersetzung schicken und darauf warten, dass er zurückkommt, bevor er antwortet. Die Übersetzung muss innerhalb des Gesprächs stattfinden, sonst ist sie überhaupt kein Teil des Gesprächs.

Diese Einschränkung verändert, was man entwickeln kann. Dieser Beitrag handelt davon, wie InterMIND über mehrsprachige Videoanrufe denkt und wie wir ehrlich damit umgehen, wo die Technologie noch jung ist.

Das Problem mit den üblichen Lösungen

Die gängigen Ansätze haben alle ihre Schwachstellen.

Untertitel über einem fremdsprachigen Anruf. Man hört immer noch, wie die andere Person eine Sprache spricht, die man nicht versteht, und man liest gleichzeitig ein laufendes Transkript darunter. Es funktioniert, aber es teilt die Aufmerksamkeit. Man beobachtet, wie Text scrollt, während man versucht, ein Gesicht zu lesen, und beides stimmt selten überein. Es ist eher wie ein untertitelter Film als ein Gespräch.

Wort-für-Wort-Übersetzung. Jede Phrase wörtlich zu übersetzen, ist die einfache Variante und diejenige, die am meisten verliert. Die Bedeutung in einem echten Gespräch liegt im Ton, in dem, was jemand mit einem Satz erreichen will, in den spezifischen Begriffen, die ein Fachgebiet verwendet. Eine wörtliche Wiedergabe der Worte kann technisch korrekt sein und dennoch den Kern der Aussage verfehlen, was in einer Verhandlung oder einer klinischen Diskussion genau der Teil ist, den man sich nicht leisten kann zu verlieren.

Plugins, die an eine bestehende Plattform angeflanscht werden. Das Hinzufügen einer Übersetzungsebene zu einem Anrufsystem, das für jeweils eine Sprache entwickelt wurde, bedeutet, mit den bereits getroffenen Entscheidungen dieses Systems bezüglich Audio, Timing und Routing zu leben. Man erhält, was die Schnittstellen zulassen.

Ein einsprachiges Erlebnis

Das Ziel, auf das wir hinarbeiten, ist einfach zu formulieren: Jeder spricht seine eigene Sprache und hört alle anderen in seiner, und es sollte sich wie ein Anruf anfühlen, bei dem alle zufällig eine gemeinsame Sprache sprechen.

Das ist anders als Untertitel. Untertitel lassen einen jederzeit wissen, dass eine Übersetzung stattfindet. Das Ziel hier ist das Gegenteil. Anstatt eine fremdsprachige Unterhaltung mit Text zu überlagern, versucht InterMIND, den gesamten Austausch in Ihrer Sprache wiederzugeben, sodass Ihre Aufmerksamkeit auf der Person und der Diskussion bleibt, anstatt auf der dazwischenliegenden Maschinerie.

Dies zu erreichen bedeutet, die Treue zur Absicht als wichtiger anzusehen als die Treue zu einzelnen Wörtern. Das System versucht, Tonfall, Absicht und Fachterminologie zu übertragen, nicht Wörter eins zu eins auszutauschen. Manchmal ist die genaueste Übersetzung eines Satzes nicht die wörtlichste, und in einem Live-Gespräch ist diese Unterscheidung am wichtigsten.

Warum eine eigenständige Plattform, und was es kostet

InterMIND ist ein eigenes Videosystem, kein Add-on für Teams oder Zoom. Das ist ein echter Kompromiss, und es lohnt sich, beide Seiten klar darzulegen.

Die Kosten sind die Integration. Wenn Ihre Organisation innerhalb eines bestehenden Besprechungstools arbeitet, ist eine separate Plattform ein separater Ort, und diese Reibung ist real. Wir werden nicht so tun, als wäre sie es nicht.

Der Grund, warum wir diese Kosten in Kauf nehmen, ist die Kontrolle über den gesamten Weg von der Sprache zum Ton. Wenn Sie Erfassung, Transkription, Übersetzung und Wiedergabe End-to-End besitzen, können Sie abstimmen, wie sie miteinander interagieren. Die Übersetzungsqualität in einem Live-Anruf hängt stark davon ab, wie diese Stufen zusammenpassen – wie Audio getimt wird, wie die Pipeline entscheidet, wann ein Gedanke vollständig genug ist, um übersetzt zu werden. Diesen Weg zu besitzen, ist das, was das einsprachige Erlebnis wie eine Einheit wirken lässt, anstatt wie mehrere zusammengeklebte Tools.

Wo die Technologie tatsächlich steht

InterMIND ist neu, und wir möchten das lieber so sagen, als es zu beschönigen.

Echtzeit-Sprachübersetzung ist wirklich schwierig, und die Qualität ist nicht einheitlich. Sie hängt vom Sprachpaar ab – einige sind weitaus besser ressourciert als andere – und vom Thema, da ein allgemeines Modell Small Talk zuverlässiger handhabt als dichte juristische oder medizinische Terminologie. Unabhängige Benchmarks für diese Art von Live-Übersetzung in mehreren Sprachen sind noch spärlich, sodass es noch keine große Menge externer Beweise gibt, auf die man sich berufen könnte.

Deshalb möchten wir Ihnen lieber eine Möglichkeit zum Überprüfen an die Hand geben als eine Zahl, der Sie vertrauen können. Wenn Sie ein Echtzeit-Übersetzungsprodukt, einschließlich unseres, bewerten möchten, ist der ehrlichste Weg, es in Ihren eigenen Gesprächen, in Ihren eigenen Sprachen und zu Ihren eigenen Bedingungen zu testen. Wir haben mehr darüber geschrieben, wie Übersetzungsgenauigkeit tatsächlich gemessen werden sollte – die Kurzversion ist, dass eine Überschriften-Genauigkeitszahl sehr wenig aussagt, bis Sie wissen, was und wie gemessen wurde.

Bringen Sie Ihre eigenen Sprachpaare und Ihr eigenes Thema mit. Eine Demo in einem einfachen Paar über allgemeinen Small Talk sagt Ihnen fast nichts darüber aus, wie ein Tool Ihre tatsächlichen Meetings handhabt. Testen Sie den Fall, der Ihnen wichtig ist.

Wo dies am wichtigsten ist

Echtzeit-Videoanrufe in mehreren Sprachen sind am wertvollsten, wo die Sprachbarriere am stärksten ins Gewicht fällt.

Internationale Verhandlungen, wo die Kosten der Fehlinterpretation von Absichten hoch sind und das Warten auf Dolmetscher alles verlangsamt.
Verteilte Teams, die täglich über Sprachgrenzen hinweg arbeiten und etwas verlieren, wenn sie standardmäßig eine gemeinsame Zweitsprache verwenden, die niemand muttersprachlich spricht.
Regulierte Bereiche – rechtlich, medizinisch, finanziell –, in denen die genaue Terminologie wichtig ist und in denen es Teil der Aufgabe ist, das Gesagte und dessen Wiedergabe überprüfen zu können.

Das sind die Umfelder, in denen sich ein einsprachiges Erlebnis bewährt und wo es darum geht, die Absicht richtig zu erfassen, nicht nur die Worte.

Unser Standpunkt

InterMIND setzt darauf, dass Live-Gespräche über Sprachgrenzen hinweg Besseres verdienen als Untertitel oder wörtlichen Worttausch, und dass der Weg dorthin darin besteht, den gesamten Prozess selbst zu kontrollieren, anstatt sich an ein fremdes System anzuhängen. Wir glauben, dass dies die richtige Wette ist. Wir halten es auch für ehrlich, bei einem jungen Produkt zu sagen, wo es stark ist, wo es noch nicht bewiesen ist und wie Sie es selbst überprüfen können – und die Ergebnisse in Ihren Sprachen und Ihren Meetings für sich sprechen zu lassen.