2025年10月20日

AI 翻译准确性:如何验证质量,而非盲信数字

单一的准确率百分比几乎毫无意义。本文将教您如何根据公共基准,以可验证的方式评估 AI 翻译质量,而非基于信任。

AI 翻译准确性:如何验证质量,而非盲信数字

几乎所有翻译供应商都以这样的标题宣传其产品:“98% 准确”、“接近人类水平的质量”、“业界最佳”。这些说法本身都毫无意义。准确性并非一个可以印在横幅上的单一数字——它取决于语言对、主题内容、所使用的衡量指标以及衡量方。

我们认为这是行业中的一个症结。在 InterMIND 背后的公司 Mind.com,我们的原则是可验证优先于信任:质量是您可以根据公共标准进行检查的,而不是一个我们要求您相信的数字。本文是该原则的买方版本:如何解读准确性声明,以及如何自行验证。

为什么“X% 准确”几乎毫无意义

当供应商声称“94% 准确率”时,在理解这个数字的意义之前,请先问四个问题:

  • 如何衡量的? BLEUchrFCOMET 等自动化指标根据参考译文评估机器输出——它们之间经常存在分歧。而像 MQM(多维质量指标)这样的人工评估框架则会呈现出不同的图景,因为它统计的是错误的种类,而非表面重叠。一个未附带衡量指标的百分比是营销,而非测量。
  • 针对哪个语言对? 英语↔西班牙语的质量不等于英语↔日语的质量,两者都无法预测低资源语言对的情况。“主要语言”的平均值会掩盖您真正关心的语言对。
  • 针对什么内容? 一个能干净处理技术文档的模型,可能在营销文案、法律文本或习语面前崩溃。测试集的领域决定了分数。
  • 针对谁的参考译文,在哪个测试集上? 一个无法追溯到具名公共测试集的数字,是一个您无法重现的数字——而无法重现的结果并非证据。

如果一项声明能经受住这四个问题,它可能才有用。大多数都不能。

可验证的测量实际是怎样的

好消息是:公共标准已经存在。您不必相信供应商的一面之词,也不应该相信。

  • 公共基准。 年度 WMT(机器翻译大会)评估活动和 FLORES-200 等开放测试集允许任何人使用相同数据,跨多种语言比较不同的系统。结果是公开且可重现的。
  • 具名指标,联合声明。 一个严肃的质量声明会指明其指标以及测试集——例如“在 FLORES-200 上,COMET,英语→德语”——这样第三方就可以重新运行它。单一指标容易作弊;同时报告多个指标则更难伪造。
  • 带评估标准的 HFE。 对于任何高风险任务,自动化评分只是筛选,而非最终裁定。MQM 式的人工评审,辅以文档化的错误分类法,才能告诉您输出是否可用,而不仅仅是统计学上的接近。

这里的转变很简单:停止问“你们有多准确?”,开始问“你们是依据哪个公共标准衡量的?我能重现它吗?”

AI 翻译的强项与弱项

您无需虚构的百分比来陈述领域内公认的结论:

  • 强项: 高资源语言对、技术性和结构化内容、大量且一致的术语,以及人工流程无法比拟的速度。
  • 弱项,且仍需人工参与: 创意和营销文案、幽默和习语、文化内涵丰富的细微差别,以及错误可能带来责任的法律或医疗文本。

诚实的定位意味着同时说明这两个方面。如果供应商只告诉您强项,那它就是在向您推销其中的缺陷。

这对实时会议意味着什么

实时多语言对话将标准提升到了文档翻译之上。没有时间进行后期编辑,输入是杂乱的口语,而且误解的代价会立即产生——在谈判、支持电话或临床对话中。一个“平均准确率”数字完全是错误的视角;重要的是语气、意图和您的特定术语是否能准确传达。

这就是为什么 InterMIND 的设计旨在让每位参与者都能用自己的语言讲话并被实时理解,并且实际决定质量的因素是可检查而非声称的:

  • 客户控制的术语表 — 您决定如何呈现您的产品名称、法律术语和领域词汇,而不是寄希望于通用模型猜测正确。
  • 审计追踪 — 所说内容及其翻译情况事后可审查,因此质量是您可以检查的,而不仅仅是信任。
  • 欧盟/中立基础设施和本地部署 — 词语的处理地点由您决定,这对于受监管的工作来说与翻译本身一样重要。

评估任何翻译供应商的简短清单

  1. 该声明基于哪个指标,以及哪个公共测试集
  2. 第三方能否重现结果?
  3. 它在您的语言对和您的内容上的表现如何——而不是供应商的平均值?
  4. 您能否控制术语(词汇表),还是只能使用默认设置?
  5. 是否有审计追踪以便事后审查质量?
  6. 您的数据在哪里处理和存储,以及它是否用于训练模型?

如果供应商能回答这些问题,那么对话才是真实的。如果唯一的答案只是幻灯片上的一个百分比,您也学到了一些东西。

我们宁愿向您展示如何检查质量,也不愿让您盲目相信一个标题数字。这就是我们对自己的标准——在 intermind.com 了解产品如何运作。

← 所有博文