AI LQA 评分框架:用机器给游戏译文打分的可复用模板
如何用 AI 给游戏译文自动打分?拆解准确、术语、语域、格式、文化合规五大维度与权重,给出一套可复用的 LQA 评分模板。
人工抽检 5% 的译文,然后凭手感判断"整体还行"——这是大多数游戏团队的 LQA 现状。问题在于:那 5% 之外的术语漂移、超框文案、把敬语用错对象的尴尬,玩家会替你逐字读完。要让质量可量化、可回归、可在每次构建时自动跑一遍,你需要的不是更多审校员,而是一套机器能执行的评分框架。
为什么游戏 LQA 不能照搬通用翻译评分
市面上成熟的 MQM、DQF 等评分标准是为文档、合同、网页设计的。它们关心"意义是否准确传达",但开箱即用的通用维度并未覆盖"一句台词放进 UI 按钮会不会被截断"这类游戏特有的失败模式,也没有覆盖 NPC 该用敬体还是简体。游戏文本有几条独有的失败模式:
- 占位符与变量:
{playerName} 击败了 {bossName},顺序、格式、转义一个都不能错。 - 字符/像素约束:按钮、气泡、技能名有硬性长度上限,超框就是显示 bug。
- 角色语域:同一句"是"的翻译,傲慢反派和怯懦村民应该完全不同。
- 文化与合规:数字禁忌、宗教符号、地区敏感词,在某些市场是上架红线。
通用评分体系对这些一概打不出分。所以游戏 LQA 的第一步,是把评分维度重新定义到游戏语境上——这也是 游戏本地化 QA 检查清单 里反复强调的出发点。
五个评分维度与建议权重
我们把可量化的质量拆成五个维度。权重不是定律,而是一个合理的默认值——你应该按内容类型调整(下文会讲)。
| 维度 | 评什么 | 建议权重 | 是否硬性失败项 |
|---|---|---|---|
| 准确性 | 意义是否完整、有无漏译/错译/事实错误 | 35% | 否 |
| 术语一致 | 是否命中术语库、全文同一译法 | 20% | 部分(关键术语为硬性) |
| 语域与角色语气 | 敬语、人称、性别、性格语气是否匹配角色档案 | 20% | 否 |
| 格式与约束 | 占位符、标记、长度上限、换行 | 15% | 是 |
| 文化合规 | 禁忌词、地区敏感内容、法务红线 | 10% | 是 |
硬性失败项(hard fail) 是这套框架的关键设计。一句话哪怕准确性满分,只要破坏了占位符或踩了合规红线,总分直接归零并打回。质量不是平均分游戏——一个会崩溃的变量,不能被流畅的文笔"平均"掉。
每个维度怎么让机器打分
- 准确性:让 LLM 做双向回译比对,标出语义偏移;同时用规则检测漏译(目标为空、长度异常)。
- 术语一致:这是规则 + 语义的混合。先用术语库做精确/模糊匹配,再让模型判断上下文里这个术语是否真的该套用(避免"中"既是方位又是命中的误伤)。
- 语域:把角色档案(身份、性格、对谁说话)喂给模型,让它判断译文的语气、敬体/简体、人称是否自洽。这正是通用引擎做不到、而具备游戏语境理解的引擎能做的事。
- 格式约束:纯规则,确定性最高。逐字符比对占位符集合,按渲染宽度算长度,标记标签配对。
- 文化合规:维护一份按地区的敏感词与规则表,模型做语义级筛查兜底纯字符串匹配漏掉的隐性表达。
把分数变成可执行的修复,而不是一张报告
打分只是开始。多数 LQA 工具止步于"导出一份 Excel,标红 200 行",然后扔回给本地化经理人肉分诊。真正省时间的做法,是让评分和修复在同一个闭环里:
- 分级:按维度命中把问题分成 P0(硬性失败,阻断上线)、P1(关键术语/语域错误)、P2(可读性优化)。
- 聚类:同一个术语错译 40 次,是一条问题不是 40 条。聚类后修一次、全局回填。
- 就地修复:对 P2 类问题,直接给出建议译文,审校员一键采纳;对 P0/P1,定位到具体字符串并附上失败原因。
如果引擎本身就嵌在游戏运行环境里,这一步可以更进一步:发现超框或占位符错误时,在已接入运行时字符串更新能力的前提下,可直接在游戏内实时改字符串,不必等下一个构建。我们在 游戏内实时改字符串 里展开讲过这条链路——它让 LQA 从"上线前的一道关卡"变成"随时可回归的持续过程"。
落地成可复用模板:三层结构
要让这套框架在每个项目复用,而不是每次重写 prompt,建议把它固化成三层:
- 维度层(全局通用):五个维度的定义、评分锚点(什么算 5 分、什么算 2 分)、硬性失败规则。这一层一次定义,所有项目共享。
- 项目层(每个游戏一份):术语库、角色档案、UI 长度规格、目标市场合规表。这是把通用框架"接"到具体游戏上的接口。
- 运行层(每次构建):权重配置(按内容类型切换)、抽检比例、阈值(低于多少分自动打回)。
举例,不同内容类型应该用不同权重:
| 内容类型 | 准确 | 术语 | 语域 | 格式 | 合规 |
|---|---|---|---|---|---|
| UI / 系统文案 | 25% | 25% | 5% | 40% | 5% |
| 主线剧情对话 | 30% | 15% | 35% | 10% | 10% |
| 营销 / 商店描述 | 30% | 15% | 15% | 10% | 30% |
UI 文案的格式权重最高,因为它最容易超框;剧情对话把语域拉满,因为角色语气是沉浸感的核心;商店描述则要把合规权重提上来,因为它直接面对各地区审核。
给分数定个可信的基线
机器评分最常见的质疑是:"AI 自己打的分能信吗?"答案是——它需要校准。做法是定期取一批译文,同时跑 AI 评分和资深审校员盲评,看两者的相关性。当 AI 在准确性、术语、格式上与人工高度一致(这几项本就偏客观),你就可以把人工精力集中到机器拿不准的语域和创意适配上。这也回到我们在 AI 翻译 vs 传统翻译盲测对比 里得到的同一个结论:让 AI 承担可量化的正确性工作,把人留给真正需要判断力的部分。
结论
游戏 LQA 之所以一直靠手感,是因为缺一套机器能跑的评分语言。把质量拆成准确、术语、语域、格式、合规五个维度,给每个维度配权重、设硬性失败线,再固化成"维度-项目-运行"三层模板,你就把"整体还行"变成了一个能在每次构建自动回归的分数。先从你最痛的一个维度——多半是格式约束或术语一致——做成规则跑起来,再逐步把其余四个维度补齐。