Точность ИИ-перевода: как проверить качество, а не доверять цифрам
Один процент точности практически ничего не говорит. Вот как оценить качество ИИ-перевода по публичным бенчмаркам — проверяемо, а не на доверии.
Точность ИИ-перевода: как проверить качество, а не доверять цифрам
Почти каждый поставщик услуг перевода выходит с заголовком: "точность 98%", "качество, близкое к человеческому", "лучший в своем классе". Сами по себе эти фразы ничего не значат. Точность — это не одна цифра, которую можно напечатать на баннере: она зависит от языковой пары, тематики, используемой метрики и того, кто проводил измерения.
Это та часть отрасли, которую мы считаем нерабочей. В Mind.com — компании, стоящей за InterMIND — наше правило: проверяемость важнее доверия: качество, которое можно проверить по публичному стандарту, а не число, в которое мы просим вас поверить. Эта статья — версия данного принципа со стороны покупателя: как читать заявления о точности и как проверять их самостоятельно.
Почему "точность X%" практически ничего не говорит
Когда поставщик заявляет "точность 94%", задайте четыре вопроса, прежде чем это число что-либо значит:
- Как измерялось? Автоматические метрики, такие как BLEU, chrF и COMET, оценивают машинный перевод по эталонным переводам — и они постоянно расходятся друг с другом. Система оценки человеком, такая как MQM (Multidimensional Quality Metrics), дает совершенно иную картину, потому что она учитывает типы ошибок, а не поверхностное совпадение. Процент без указания метрики — это маркетинг, а не измерение.
- Для какой языковой пары? Качество для English↔Spanish не является качеством для English↔Japanese, и ни то, ни другое не предсказывает результат для низкоресурсной пары. Среднее значение по "основным языкам" скрывает именно ту пару, которая вас интересует.
- Для какого контента? Модель, которая безупречно справляется с технической документацией, может потерпеть крах на маркетинговых текстах, юридических документах или идиомах. Область тестового набора определяет оценку.
- По чьему эталону, на каком тестовом наборе? Число, которое вы не можете отследить до названного, публичного тестового набора, является числом, которое вы не можете воспроизвести — а невоспроизводимый результат не является доказательством.
Если утверждение выдерживает все четыре вопроса, оно может быть полезным. Большинство — нет.
Как на самом деле выглядит проверяемое измерение
Хорошая новость: публичные стандарты для этого уже существуют. Вам не нужно верить на слово поставщику, и не стоит.
- Публичные бенчмарки. Ежегодные оценочные кампании WMT (Conference on Machine Translation) и открытые тестовые наборы, такие как FLORES-200, позволяют любому сравнивать системы на одних и тех же данных для многих языков. Результаты публикуются и воспроизводимы.
- Указанные метрики, заявленные вместе. Серьезное заявление о качестве называет свою метрику и свой тестовый набор — например, "COMET on FLORES-200, EN→DE" — чтобы третья сторона могла повторно запустить тест. Одну метрику легко подделать; сообщать о нескольких вместе сложнее.
- Оценка человеком с использованием рубрики. Для всего, что имеет высокие ставки, автоматические оценки являются фильтром, а не приговором. Человеческий анализ в стиле MQM с документированной таксономией ошибок — вот что говорит вам, является ли результат пригодным для использования, а не просто статистически близким.
Сдвиг здесь прост: перестаньте спрашивать "насколько вы точны?" и начните спрашивать "по какому публичному стандарту, и могу ли я это воспроизвести?".
Где ИИ-перевод силен — и где нет
Вам не нужны придуманные проценты, чтобы заявить то, что хорошо известно в этой области:
- Сильные стороны: высокоресурсные языковые пары, технический и структурированный контент, последовательная терминология в больших объемах и скорость, с которой не могут сравниться человеческие рабочие процессы.
- Слабые стороны (и все еще требует участия человека): креативные и маркетинговые тексты, юмор и идиомы, культурно обусловленные нюансы, а также юридические или медицинские тексты, где ошибка влечет за собой ответственность.
Честное позиционирование означает озвучивание обеих половин. Поставщик, который сообщает вам только о сильных сторонах, продает вам недостаток.
Что это означает для встреч в реальном времени
Живое многоязычное общение поднимает планку выше перевода документов. Нет времени на пост-редактирование, на входе — неразборчивая разговорная речь, а цена недопонимания проявляется в моменте — в переговорах, звонке в поддержку, клиническом разговоре. Цифра "средней точности" — совершенно неправильный подход; важно то, сохраняются ли тон, намерение и ваша специфическая терминология.
Вот почему InterMIND создан таким образом, что каждый участник говорит на своем языке и понимается в реальном времени, при этом факторы, которые действительно определяют качество, становятся проверяемыми, а не просто заявленными:
- Глоссарии, контролируемые заказчиком — вы решаете, как будут переводиться названия ваших продуктов, юридические термины и отраслевая лексика, вместо того чтобы надеяться, что общая модель угадает правильно.
- Журнал аудита — что было сказано и как это было переведено, можно просмотреть постфактум, так что качество — это то, что вы можете проверить, а не просто доверять.
- Нейтральная/европейская инфраструктура и локальное развертывание — где обрабатываются слова, это ваше решение, которое имеет такое же значение, как и сам перевод, для регулируемой работы.
Краткий чек-лист для оценки любого поставщика услуг перевода
- На какой метрике основано утверждение и на каком публичном тестовом наборе?
- Может ли результат быть воспроизведен третьей стороной?
- Как оно работает с вашими языковыми парами и вашим контентом — а не со средними показателями поставщика?
- Можете ли вы контролировать терминологию (глоссарии) или вы привязаны к настройкам по умолчанию?
- Существует ли журнал аудита для проверки качества постфактум?
- Где обрабатываются и хранятся ваши данные, и используются ли они для обучения моделей?
Если поставщик может ответить на эти вопросы, разговор реален. Если единственный ответ — это процент на слайде, вы тоже кое-что узнали.
Мы предпочли бы показать вам, как проверять качество, а не просить вас доверять броским цифрам. Это стандарт, которого мы придерживаемся — посмотрите, как это работает в продукте на intermind.com.