20 октября 2025 г.

Точность ИИ-перевода: как проверить качество, а не доверять цифрам

Один процент точности практически ничего не говорит. Вот как оценить качество ИИ-перевода по публичным бенчмаркам — проверяемо, а не на доверии.

Точность ИИ-перевода: как проверить качество, а не доверять цифрам

Почти каждый поставщик услуг перевода выходит с заголовком: "точность 98%", "качество, близкое к человеческому", "лучший в своем классе". Сами по себе эти фразы ничего не значат. Точность — это не одна цифра, которую можно напечатать на баннере: она зависит от языковой пары, тематики, используемой метрики и того, кто проводил измерения.

Это та часть отрасли, которую мы считаем нерабочей. В Mind.com — компании, стоящей за InterMIND — наше правило: проверяемость важнее доверия: качество, которое можно проверить по публичному стандарту, а не число, в которое мы просим вас поверить. Эта статья — версия данного принципа со стороны покупателя: как читать заявления о точности и как проверять их самостоятельно.

Почему "точность X%" практически ничего не говорит

Когда поставщик заявляет "точность 94%", задайте четыре вопроса, прежде чем это число что-либо значит:

  • Как измерялось? Автоматические метрики, такие как BLEU, chrF и COMET, оценивают машинный перевод по эталонным переводам — и они постоянно расходятся друг с другом. Система оценки человеком, такая как MQM (Multidimensional Quality Metrics), дает совершенно иную картину, потому что она учитывает типы ошибок, а не поверхностное совпадение. Процент без указания метрики — это маркетинг, а не измерение.
  • Для какой языковой пары? Качество для English↔Spanish не является качеством для English↔Japanese, и ни то, ни другое не предсказывает результат для низкоресурсной пары. Среднее значение по "основным языкам" скрывает именно ту пару, которая вас интересует.
  • Для какого контента? Модель, которая безупречно справляется с технической документацией, может потерпеть крах на маркетинговых текстах, юридических документах или идиомах. Область тестового набора определяет оценку.
  • По чьему эталону, на каком тестовом наборе? Число, которое вы не можете отследить до названного, публичного тестового набора, является числом, которое вы не можете воспроизвести — а невоспроизводимый результат не является доказательством.

Если утверждение выдерживает все четыре вопроса, оно может быть полезным. Большинство — нет.

Как на самом деле выглядит проверяемое измерение

Хорошая новость: публичные стандарты для этого уже существуют. Вам не нужно верить на слово поставщику, и не стоит.

  • Публичные бенчмарки. Ежегодные оценочные кампании WMT (Conference on Machine Translation) и открытые тестовые наборы, такие как FLORES-200, позволяют любому сравнивать системы на одних и тех же данных для многих языков. Результаты публикуются и воспроизводимы.
  • Указанные метрики, заявленные вместе. Серьезное заявление о качестве называет свою метрику и свой тестовый набор — например, "COMET on FLORES-200, EN→DE" — чтобы третья сторона могла повторно запустить тест. Одну метрику легко подделать; сообщать о нескольких вместе сложнее.
  • Оценка человеком с использованием рубрики. Для всего, что имеет высокие ставки, автоматические оценки являются фильтром, а не приговором. Человеческий анализ в стиле MQM с документированной таксономией ошибок — вот что говорит вам, является ли результат пригодным для использования, а не просто статистически близким.

Сдвиг здесь прост: перестаньте спрашивать "насколько вы точны?" и начните спрашивать "по какому публичному стандарту, и могу ли я это воспроизвести?".

Где ИИ-перевод силен — и где нет

Вам не нужны придуманные проценты, чтобы заявить то, что хорошо известно в этой области:

  • Сильные стороны: высокоресурсные языковые пары, технический и структурированный контент, последовательная терминология в больших объемах и скорость, с которой не могут сравниться человеческие рабочие процессы.
  • Слабые стороны (и все еще требует участия человека): креативные и маркетинговые тексты, юмор и идиомы, культурно обусловленные нюансы, а также юридические или медицинские тексты, где ошибка влечет за собой ответственность.

Честное позиционирование означает озвучивание обеих половин. Поставщик, который сообщает вам только о сильных сторонах, продает вам недостаток.

Что это означает для встреч в реальном времени

Живое многоязычное общение поднимает планку выше перевода документов. Нет времени на пост-редактирование, на входе — неразборчивая разговорная речь, а цена недопонимания проявляется в моменте — в переговорах, звонке в поддержку, клиническом разговоре. Цифра "средней точности" — совершенно неправильный подход; важно то, сохраняются ли тон, намерение и ваша специфическая терминология.

Вот почему InterMIND создан таким образом, что каждый участник говорит на своем языке и понимается в реальном времени, при этом факторы, которые действительно определяют качество, становятся проверяемыми, а не просто заявленными:

  • Глоссарии, контролируемые заказчиком — вы решаете, как будут переводиться названия ваших продуктов, юридические термины и отраслевая лексика, вместо того чтобы надеяться, что общая модель угадает правильно.
  • Журнал аудита — что было сказано и как это было переведено, можно просмотреть постфактум, так что качество — это то, что вы можете проверить, а не просто доверять.
  • Нейтральная/европейская инфраструктура и локальное развертывание — где обрабатываются слова, это ваше решение, которое имеет такое же значение, как и сам перевод, для регулируемой работы.

Краткий чек-лист для оценки любого поставщика услуг перевода

  1. На какой метрике основано утверждение и на каком публичном тестовом наборе?
  2. Может ли результат быть воспроизведен третьей стороной?
  3. Как оно работает с вашими языковыми парами и вашим контентом — а не со средними показателями поставщика?
  4. Можете ли вы контролировать терминологию (глоссарии) или вы привязаны к настройкам по умолчанию?
  5. Существует ли журнал аудита для проверки качества постфактум?
  6. Где обрабатываются и хранятся ваши данные, и используются ли они для обучения моделей?

Если поставщик может ответить на эти вопросы, разговор реален. Если единственный ответ — это процент на слайде, вы тоже кое-что узнали.

Мы предпочли бы показать вам, как проверять качество, а не просить вас доверять броским цифрам. Это стандарт, которого мы придерживаемся — посмотрите, как это работает в продукте на intermind.com.

← Все записи