Точность ИИ-перевода: как проверить качество, а не доверять цифрам

Почти каждый поставщик услуг перевода выходит с заголовком: "точность 98%", "качество, близкое к человеческому", "лучший в своем классе". Сами по себе эти фразы ничего не значат. Точность — это не одна цифра, которую можно напечатать на баннере: она зависит от языковой пары, тематики, используемой метрики и того, кто проводил измерения.

Это та часть отрасли, которую мы считаем нерабочей. В Mind.com — компании, стоящей за InterMIND — наше правило: проверяемость важнее доверия: качество, которое можно проверить по публичному стандарту, а не число, в которое мы просим вас поверить. Эта статья — версия данного принципа со стороны покупателя: как читать заявления о точности и как проверять их самостоятельно.

Почему "точность X%" практически ничего не говорит

Когда поставщик заявляет "точность 94%", задайте четыре вопроса, прежде чем это число что-либо значит:

Как измерялось? Автоматические метрики, такие как BLEU, chrF и COMET, оценивают машинный перевод по эталонным переводам — и они постоянно расходятся друг с другом. Система оценки человеком, такая как MQM (Multidimensional Quality Metrics), дает совершенно иную картину, потому что она учитывает типы ошибок, а не поверхностное совпадение. Процент без указания метрики — это маркетинг, а не измерение.
Для какой языковой пары? Качество для English↔Spanish не является качеством для English↔Japanese, и ни то, ни другое не предсказывает результат для низкоресурсной пары. Среднее значение по "основным языкам" скрывает именно ту пару, которая вас интересует.
Для какого контента? Модель, которая безупречно справляется с технической документацией, может потерпеть крах на маркетинговых текстах, юридических документах или идиомах. Область тестового набора определяет оценку.
По чьему эталону, на каком тестовом наборе? Число, которое вы не можете отследить до названного, публичного тестового набора, является числом, которое вы не можете воспроизвести — а невоспроизводимый результат не является доказательством.

Если утверждение выдерживает все четыре вопроса, оно может быть полезным. Большинство — нет.

Как на самом деле выглядит проверяемое измерение

Хорошая новость: публичные стандарты для этого уже существуют. Вам не нужно верить на слово поставщику, и не стоит.

Публичные бенчмарки. Ежегодные оценочные кампании WMT (Conference on Machine Translation) и открытые тестовые наборы, такие как FLORES-200, позволяют любому сравнивать системы на одних и тех же данных для многих языков. Результаты публикуются и воспроизводимы.
Указанные метрики, заявленные вместе. Серьезное заявление о качестве называет свою метрику и свой тестовый набор — например, "COMET on FLORES-200, EN→DE" — чтобы третья сторона могла повторно запустить тест. Одну метрику легко подделать; сообщать о нескольких вместе сложнее.
Оценка человеком с использованием рубрики. Для всего, что имеет высокие ставки, автоматические оценки являются фильтром, а не приговором. Человеческий анализ в стиле MQM с документированной таксономией ошибок — вот что говорит вам, является ли результат пригодным для использования, а не просто статистически близким.

Сдвиг здесь прост: перестаньте спрашивать "насколько вы точны?" и начните спрашивать "по какому публичному стандарту, и могу ли я это воспроизвести?".

Где ИИ-перевод силен — и где нет

Вам не нужны придуманные проценты, чтобы заявить то, что хорошо известно в этой области:

Сильные стороны: высокоресурсные языковые пары, технический и структурированный контент, последовательная терминология в больших объемах и скорость, с которой не могут сравниться человеческие рабочие процессы.
Слабые стороны (и все еще требует участия человека): креативные и маркетинговые тексты, юмор и идиомы, культурно обусловленные нюансы, а также юридические или медицинские тексты, где ошибка влечет за собой ответственность.

Честное позиционирование означает озвучивание обеих половин. Поставщик, который сообщает вам только о сильных сторонах, продает вам недостаток.

Что это означает для встреч в реальном времени

Живое многоязычное общение поднимает планку выше перевода документов. Нет времени на пост-редактирование, на входе — неразборчивая разговорная речь, а цена недопонимания проявляется в моменте — в переговорах, звонке в поддержку, клиническом разговоре. Цифра "средней точности" — совершенно неправильный подход; важно то, сохраняются ли тон, намерение и ваша специфическая терминология.

Вот почему InterMIND создан таким образом, что каждый участник говорит на своем языке и понимается в реальном времени, при этом факторы, которые действительно определяют качество, становятся проверяемыми, а не просто заявленными:

Глоссарии, контролируемые заказчиком — вы решаете, как будут переводиться названия ваших продуктов, юридические термины и отраслевая лексика, вместо того чтобы надеяться, что общая модель угадает правильно.
Журнал аудита — что было сказано и как это было переведено, можно просмотреть постфактум, так что качество — это то, что вы можете проверить, а не просто доверять.
Нейтральная/европейская инфраструктура и локальное развертывание — где обрабатываются слова, это ваше решение, которое имеет такое же значение, как и сам перевод, для регулируемой работы.

Краткий чек-лист для оценки любого поставщика услуг перевода

На какой метрике основано утверждение и на каком публичном тестовом наборе?
Может ли результат быть воспроизведен третьей стороной?
Как оно работает с вашими языковыми парами и вашим контентом — а не со средними показателями поставщика?
Можете ли вы контролировать терминологию (глоссарии) или вы привязаны к настройкам по умолчанию?
Существует ли журнал аудита для проверки качества постфактум?
Где обрабатываются и хранятся ваши данные, и используются ли они для обучения моделей?

Если поставщик может ответить на эти вопросы, разговор реален. Если единственный ответ — это процент на слайде, вы тоже кое-что узнали.

Мы предпочли бы показать вам, как проверять качество, а не просить вас доверять броским цифрам. Это стандарт, которого мы придерживаемся — посмотрите, как это работает в продукте на intermind.com.