Precisión de la Traducción con IA: Cómo Verificar la Calidad, No Confiar en un Número

Casi todos los proveedores de traducción se presentan con un titular: "98% de precisión", "calidad casi humana", "el mejor de su clase". Ninguna de estas frases significa nada por sí sola. La precisión no es un número único que se pueda imprimir en una pancarta; depende del par de idiomas, la temática, la métrica con la que se midió y quién realizó la medición.

Esta es la parte de la industria que creemos que está rota. En Mind.com — la empresa detrás de InterMIND — nuestra regla es verificable antes que confiar en nosotros: calidad que se puede comprobar con un estándar público, no un número en el que le pedimos que crea. Este artículo es la versión desde la perspectiva del comprador de ese principio: cómo interpretar las afirmaciones de precisión y cómo verificarlas usted mismo.

Por qué "X% de precisión" no dice casi nada

Cuando un proveedor dice "94% de precisión", hágase cuatro preguntas antes de que el número signifique algo:

¿Cómo se midió? Las métricas automáticas como BLEU, chrF y COMET puntúan la salida de la máquina frente a las traducciones de referencia, y discrepan constantemente entre sí. Un marco de evaluación humana como MQM (Multidimensional Quality Metrics) produce una imagen diferente, porque cuenta tipos de errores, no la superposición superficial. Un porcentaje sin una métrica adjunta es marketing, no una medición.
¿En qué par de idiomas? La calidad para inglés↔español no es la misma que para inglés↔japonés, y ninguna de las dos predice un par de idiomas de bajos recursos. Un promedio entre "idiomas principales" esconde exactamente el par que le interesa.
¿Sobre qué contenido? Un modelo que maneja la documentación técnica de forma limpia puede desmoronarse con textos de marketing, textos legales o modismos. El dominio del conjunto de pruebas decide la puntuación.
¿Contra qué referencia, en qué conjunto de pruebas? Un número que no se puede rastrear hasta un conjunto de pruebas público y nombrado es un número que no se puede reproducir, y un resultado irreproducible no es una prueba.

Si una afirmación sobrevive a las cuatro preguntas, podría ser útil. La mayoría no lo hacen.

Cómo es realmente una medición verificable

La buena noticia: ya existen estándares públicos para esto. No tiene que fiarse de la palabra de un proveedor, y no debería hacerlo.

Puntos de referencia públicos. Las campañas anuales de evaluación de la WMT (Conference on Machine Translation) y los conjuntos de pruebas abiertos como FLORES-200 permiten a cualquiera comparar sistemas con los mismos datos, en muchos idiomas. Los resultados se publican y son reproducibles.
Métricas nombradas, declaradas conjuntamente. Una afirmación seria de calidad nombra su métrica y su conjunto de pruebas — por ejemplo, "COMET en FLORES-200, EN→DE" — para que un tercero pueda volver a ejecutarla. Una métrica aislada es fácil de manipular; informar sobre varias juntas es más difícil de falsificar.
Evaluación humana con una rúbrica. Para cualquier cosa de alto riesgo, las puntuaciones automáticas son una criba, no un veredicto. La revisión humana al estilo MQM, con una taxonomía de errores documentada, es lo que le dice si el resultado es utilizable, no solo estadísticamente cercano.

El cambio aquí es simple: deje de preguntar "¿cuán preciso es usted?" y empiece a preguntar "¿contra qué estándar público, y puedo reproducirlo?".

Dónde es fuerte la traducción con IA, y dónde no lo es

No necesita porcentajes inventados para afirmar lo que está bien establecido en el campo:

Fuerte: pares de idiomas de alta disponibilidad, contenido técnico y estructurado, terminología consistente en volumen y una velocidad que los flujos de trabajo humanos no pueden igualar.
Más débil, y aún necesita un humano: copias creativas y de marketing, humor y modismos, matices culturalmente cargados, y textos legales o médicos donde un error conlleva responsabilidad.

Un posicionamiento honesto significa decir ambas mitades en voz alta. Un proveedor que solo le cuenta la parte fuerte le está vendiendo la brecha.

Qué significa esto para las reuniones en tiempo real

La conversación multilingüe en vivo eleva el listón más allá de la traducción de documentos. No hay tiempo para la postedición, la entrada es un lenguaje hablado desordenado y el costo de un malentendido se produce en el momento, en una negociación, una llamada de soporte, una conversación clínica. Una cifra de "precisión promedio" es una lente completamente equivocada; lo que importa es si el tono, la intención y su terminología específica sobreviven.

Por eso InterMIND está diseñado para que cada participante hable su propio idioma y sea comprendido en tiempo real, con las cosas que realmente determinan la calidad hechas verificables en lugar de simplemente afirmadas:

Glosarios controlados por el cliente — usted decide cómo se representan los nombres de sus productos, los términos legales y el vocabulario de su dominio, en lugar de esperar que un modelo general acierte.
Una pista de auditoría — lo que se dijo y cómo se tradujo es revisable a posteriori, por lo que la calidad es algo que puede inspeccionar, no solo confiar.
Infraestructura neutral / de la UE y despliegue local — dónde se procesan las palabras es su decisión, lo cual es tan importante como la propia traducción para trabajos regulados.

Una breve lista de verificación para evaluar a cualquier proveedor de traducción

¿En qué métrica se basa la afirmación y en qué conjunto de pruebas público?
¿Puede el resultado ser reproducido por un tercero?
¿Cómo funciona con sus pares de idiomas y su contenido, no con los promedios del proveedor?
¿Puede controlar la terminología (glosarios), o está atascado con la predeterminada?
¿Existe una pista de auditoría para revisar la calidad a posteriori?
¿Dónde se procesan y almacenan sus datos, y se utilizan para entrenar modelos?

Si un proveedor puede responder a estas preguntas, la conversación es real. Si la única respuesta es un porcentaje en una diapositiva, también ha aprendido algo.

Preferimos mostrarle cómo verificar la calidad que pedirle que confíe en un número de titular. Ese es el estándar que nos exigimos a nosotros mismos — vea cómo funciona en el producto en intermind.com.