AI 翻译准确性：如何验证质量，而非盲信数字

几乎所有翻译供应商都以这样的标题宣传其产品：“98% 准确”、“接近人类水平的质量”、“业界最佳”。这些说法本身都毫无意义。准确性并非一个可以印在横幅上的单一数字——它取决于语言对、主题内容、所使用的衡量指标以及衡量方。

我们认为这是行业中的一个症结。在 InterMIND 背后的公司 Mind.com，我们的原则是可验证优先于信任：质量是您可以根据公共标准进行检查的，而不是一个我们要求您相信的数字。本文是该原则的买方版本：如何解读准确性声明，以及如何自行验证。

为什么“X% 准确”几乎毫无意义

当供应商声称“94% 准确率”时，在理解这个数字的意义之前，请先问四个问题：

如何衡量的？ BLEU、chrF 和 COMET 等自动化指标根据参考译文评估机器输出——它们之间经常存在分歧。而像 MQM（多维质量指标）这样的人工评估框架则会呈现出不同的图景，因为它统计的是错误的种类，而非表面重叠。一个未附带衡量指标的百分比是营销，而非测量。
针对哪个语言对？ 英语↔西班牙语的质量不等于英语↔日语的质量，两者都无法预测低资源语言对的情况。“主要语言”的平均值会掩盖您真正关心的语言对。
针对什么内容？ 一个能干净处理技术文档的模型，可能在营销文案、法律文本或习语面前崩溃。测试集的领域决定了分数。
针对谁的参考译文，在哪个测试集上？ 一个无法追溯到具名公共测试集的数字，是一个您无法重现的数字——而无法重现的结果并非证据。

如果一项声明能经受住这四个问题，它可能才有用。大多数都不能。

好消息是：公共标准已经存在。您不必相信供应商的一面之词，也不应该相信。

公共基准。 年度 WMT（机器翻译大会）评估活动和 FLORES-200 等开放测试集允许任何人使用相同数据，跨多种语言比较不同的系统。结果是公开且可重现的。
具名指标，联合声明。 一个严肃的质量声明会指明其指标以及测试集——例如“在 FLORES-200 上，COMET，英语→德语”——这样第三方就可以重新运行它。单一指标容易作弊；同时报告多个指标则更难伪造。
带评估标准的 HFE。 对于任何高风险任务，自动化评分只是筛选，而非最终裁定。MQM 式的人工评审，辅以文档化的错误分类法，才能告诉您输出是否可用，而不仅仅是统计学上的接近。

这里的转变很简单：停止问“你们有多准确？”，开始问“你们是依据哪个公共标准衡量的？我能重现它吗？”

您无需虚构的百分比来陈述领域内公认的结论：

诚实的定位意味着同时说明这两个方面。如果供应商只告诉您强项，那它就是在向您推销其中的缺陷。

实时多语言对话将标准提升到了文档翻译之上。没有时间进行后期编辑，输入是杂乱的口语，而且误解的代价会立即产生——在谈判、支持电话或临床对话中。一个“平均准确率”数字完全是错误的视角；重要的是语气、意图和您的特定术语是否能准确传达。

这就是为什么 InterMIND 的设计旨在让每位参与者都能用自己的语言讲话并被实时理解，并且实际决定质量的因素是可检查而非声称的：

如果供应商能回答这些问题，那么对话才是真实的。如果唯一的答案只是幻灯片上的一个百分比，您也学到了一些东西。

我们宁愿向您展示如何检查质量，也不愿让您盲目相信一个标题数字。这就是我们对自己的标准——在 intermind.com 了解产品如何运作。