L'approche d'InterMIND pour les appels vidéo multilingues

Appel vidéo multilingue en temps réel

La plupart des outils de traduction ont été conçus pour des textes que l'on peut attendre. Un document est envoyé, une traduction revient, quelqu'un la révise. Une conversation en direct ne fonctionne pas de cette manière. Personne lors d'une réunion ne va faire une pause, envoyer une phrase à traduire, et attendre qu'elle revienne avant de répondre. La traduction doit se produire à l'intérieur de la conversation, sinon elle n'en fait pas partie du tout.

Cette contrainte modifie ce que l'on peut construire. Cet article explique comment InterMIND envisage les appels vidéo multilingues, et comment nous sommes honnêtes sur les limites actuelles de la technologie.

Le problème avec les solutions habituelles

Les approches courantes ont toutes des lacunes.

Sous-titres superposés à un appel en langue étrangère. Vous entendez toujours l'autre personne parler une langue que vous ne comprenez pas, et vous lisez une transcription défilante en dessous. Cela fonctionne, mais cela divise votre attention. Vous regardez le texte défiler tout en essayant de lire un visage, et les deux coïncident rarement. C'est plus proche du cinéma sous-titré que d'une conversation.

Traduction mot à mot. Traduire chaque phrase littéralement est la version facile et celle qui perd le plus. Le sens d'une conversation réelle réside dans le ton, dans ce qu'une personne essaie d'accomplir avec une phrase, dans les termes spécifiques utilisés dans un domaine. Un rendu littéral des mots peut être techniquement correct et pourtant manquer le point essentiel, ce qui, dans une négociation ou une discussion clinique, est précisément la partie que l'on ne peut pas se permettre de perdre.

Plugins ajoutés à une plateforme existante. Ajouter une couche de traduction par-dessus un système d'appel conçu pour une seule langue à la fois signifie vivre avec les décisions déjà prises par ce système concernant l'audio, le timing et le routage. Vous obtenez ce que les coutures permettent.

Une expérience monolingue

L'objectif vers lequel nous travaillons est simple à énoncer : chacun parle sa propre langue et entend tous les autres dans la sienne, et cela devrait donner l'impression d'un appel où tout le monde partage par hasard la même langue.

C'est différent des sous-titres. Les sous-titres vous rappellent, à chaque instant, qu'une traduction est en cours. L'objectif ici est l'opposé. Plutôt que de superposer un texte à une conversation en langue étrangère, InterMIND s'efforce de faire en sorte que l'intégralité de l'échange se déroule dans votre langue, afin que votre attention reste concentrée sur la personne et la discussion plutôt que sur la mécanique intermédiaire.

Pour y parvenir, il faut considérer que la fidélité à l'intention est plus importante que la fidélité aux mots individuels. Le système tente de transmettre le ton, l'intention et la terminologie du domaine, plutôt que d'échanger les mots un pour un. Parfois, la traduction la plus précise d'une phrase n'est pas la plus littérale, et une conversation en direct est l'endroit où cette distinction compte le plus.

Pourquoi une plateforme autonome, et ce que cela coûte

InterMIND est son propre système vidéo, et non un ajout à Teams ou Zoom. C'est un véritable compromis, et il est utile d'en présenter les deux aspects clairement.

Le coût est l'intégration. Si votre organisation utilise un outil de réunion existant, une plateforme distincte est un endroit distinct où se trouver, et cette friction est réelle. Nous ne prétendons pas le contraire.

La raison pour laquelle nous acceptons ce coût est le contrôle sur l'ensemble du chemin, de la parole au son. Lorsque vous maîtrisez la capture, la transcription, la traduction et la lecture de bout en bout, vous pouvez ajuster la manière dont ils interagissent. La qualité de la traduction lors d'un appel en direct dépend fortement de la façon dont ces étapes s'assemblent — comment l'audio est synchronisé, comment le pipeline décide quand une pensée est suffisamment complète pour être traduite. Posséder ce chemin est ce qui fait que l'expérience monolingue ressemble à une seule chose plutôt qu'à plusieurs outils assemblés.

Où en est réellement la technologie

InterMIND est nouveau, et nous préférons le dire tel quel plutôt que d'enjoliver la réalité.

La traduction vocale en temps réel est vraiment difficile, et la qualité n'est pas uniforme. Elle dépend de la paire de langues — certaines sont bien mieux dotées que d'autres — et du sujet traité, car un modèle général gère les conversations légères plus fiablement que la terminologie juridique ou médicale dense. Les benchmarks indépendants pour ce type de traduction multilingue en direct sont encore rares, il n'y a donc pas encore un vaste corpus de preuves externes à citer.

C'est pourquoi nous préférons vous donner un moyen de vérifier plutôt qu'un chiffre à croire. Si vous souhaitez évaluer un produit de traduction en temps réel, y compris le nôtre, la voie honnête est de le tester sur vos propres conversations, dans vos propres langues, selon vos propres conditions. Nous avons écrit davantage sur la façon dont la précision de la traduction devrait être réellement mesurée — en bref, un chiffre de précision affiché en titre vous en dit très peu tant que vous ne savez pas ce qui a été mesuré et comment.

Apportez vos propres paires de langues et votre propre sujet. Une démo sur une paire facile de conversations générales ne vous apprendra presque rien sur la façon dont un outil gère vos réunions réelles. Testez le cas qui vous intéresse.

Là où cela compte le plus

Les appels multilingues en temps réel sont les plus précieux là où la barrière linguistique pèse le plus.

Négociations internationales, où le coût d'une mauvaise interprétation de l'intention est élevé et où l'attente des interprètes ralentit tout.
Équipes distribuées qui travaillent quotidiennement dans différentes langues et qui perdent quelque chose en adoptant par défaut une seconde langue partagée que personne ne parle nativement.
Domaines réglementés — juridique, médical, financier — où la terminologie exacte est importante et où la possibilité de revoir ce qui a été dit et comment cela a été rendu fait partie du travail.

Ce sont les contextes où une expérience monolingue prend tout son sens, et où saisir l'intention, pas seulement les mots, est l'essentiel.

Où nous en sommes

InterMIND est un pari selon lequel les conversations en direct entre différentes langues méritent mieux que de simples sous-titres ou un échange littéral de mots, et que le moyen d'y parvenir est de maîtriser l'ensemble du processus plutôt que de se greffer sur un autre. Nous pensons que c'est le bon pari. Nous pensons également que la chose honnête à faire avec un jeune produit est de vous dire où il est fort, où il n'est pas encore prouvé, et comment vérifier par vous-même — et de laisser les résultats, dans vos langues et vos réunions, plaider en sa faveur.