2026年5月27日4 分钟阅读Loxily Team

AI LQA 评分框架:用机器给游戏译文打分的可复用模板

如何用 AI 给游戏译文自动打分?拆解准确、术语、语域、格式、文化合规五大维度与权重,给出一套可复用的 LQA 评分模板。

人工抽检 5% 的译文,然后凭手感判断"整体还行"——这是大多数游戏团队的 LQA 现状。问题在于:那 5% 之外的术语漂移、超框文案、把敬语用错对象的尴尬,玩家会替你逐字读完。要让质量可量化、可回归、可在每次构建时自动跑一遍,你需要的不是更多审校员,而是一套机器能执行的评分框架。

为什么游戏 LQA 不能照搬通用翻译评分

市面上成熟的 MQM、DQF 等评分标准是为文档、合同、网页设计的。它们关心"意义是否准确传达",但开箱即用的通用维度并未覆盖"一句台词放进 UI 按钮会不会被截断"这类游戏特有的失败模式,也没有覆盖 NPC 该用敬体还是简体。游戏文本有几条独有的失败模式:

占位符与变量:{playerName} 击败了 {bossName},顺序、格式、转义一个都不能错。
字符/像素约束:按钮、气泡、技能名有硬性长度上限,超框就是显示 bug。
角色语域:同一句"是"的翻译,傲慢反派和怯懦村民应该完全不同。
文化与合规:数字禁忌、宗教符号、地区敏感词,在某些市场是上架红线。

通用评分体系对这些一概打不出分。所以游戏 LQA 的第一步,是把评分维度重新定义到游戏语境上——这也是游戏本地化 QA 检查清单里反复强调的出发点。

五个评分维度与建议权重

我们把可量化的质量拆成五个维度。权重不是定律,而是一个合理的默认值——你应该按内容类型调整(下文会讲)。

维度	评什么	建议权重	是否硬性失败项
准确性	意义是否完整、有无漏译/错译/事实错误	35%	否
术语一致	是否命中术语库、全文同一译法	20%	部分(关键术语为硬性)
语域与角色语气	敬语、人称、性别、性格语气是否匹配角色档案	20%	否
格式与约束	占位符、标记、长度上限、换行	15%	是
文化合规	禁忌词、地区敏感内容、法务红线	10%	是

硬性失败项(hard fail) 是这套框架的关键设计。一句话哪怕准确性满分,只要破坏了占位符或踩了合规红线,总分直接归零并打回。质量不是平均分游戏——一个会崩溃的变量,不能被流畅的文笔"平均"掉。

每个维度怎么让机器打分

准确性:让 LLM 做双向回译比对,标出语义偏移;同时用规则检测漏译(目标为空、长度异常)。
术语一致:这是规则 + 语义的混合。先用术语库做精确/模糊匹配,再让模型判断上下文里这个术语是否真的该套用(避免"中"既是方位又是命中的误伤)。
语域:把角色档案(身份、性格、对谁说话)喂给模型,让它判断译文的语气、敬体/简体、人称是否自洽。这正是通用引擎做不到、而具备游戏语境理解的引擎能做的事。
格式约束:纯规则,确定性最高。逐字符比对占位符集合,按渲染宽度算长度,标记标签配对。
文化合规:维护一份按地区的敏感词与规则表,模型做语义级筛查兜底纯字符串匹配漏掉的隐性表达。

把分数变成可执行的修复,而不是一张报告

打分只是开始。多数 LQA 工具止步于"导出一份 Excel,标红 200 行",然后扔回给本地化经理人肉分诊。真正省时间的做法,是让评分和修复在同一个闭环里:

分级:按维度命中把问题分成 P0(硬性失败,阻断上线)、P1(关键术语/语域错误)、P2(可读性优化)。
聚类:同一个术语错译 40 次,是一条问题不是 40 条。聚类后修一次、全局回填。
就地修复:对 P2 类问题,直接给出建议译文,审校员一键采纳;对 P0/P1,定位到具体字符串并附上失败原因。

如果引擎本身就嵌在游戏运行环境里,这一步可以更进一步:发现超框或占位符错误时,在已接入运行时字符串更新能力的前提下,可直接在游戏内实时改字符串,不必等下一个构建。我们在游戏内实时改字符串里展开讲过这条链路——它让 LQA 从"上线前的一道关卡"变成"随时可回归的持续过程"。

落地成可复用模板:三层结构

要让这套框架在每个项目复用,而不是每次重写 prompt,建议把它固化成三层:

维度层(全局通用):五个维度的定义、评分锚点(什么算 5 分、什么算 2 分)、硬性失败规则。这一层一次定义,所有项目共享。
项目层(每个游戏一份):术语库、角色档案、UI 长度规格、目标市场合规表。这是把通用框架"接"到具体游戏上的接口。
运行层(每次构建):权重配置(按内容类型切换)、抽检比例、阈值(低于多少分自动打回)。

举例,不同内容类型应该用不同权重:

内容类型	准确	术语	语域	格式	合规
UI / 系统文案	25%	25%	5%	40%	5%
主线剧情对话	30%	15%	35%	10%	10%
营销 / 商店描述	30%	15%	15%	10%	30%

UI 文案的格式权重最高,因为它最容易超框;剧情对话把语域拉满,因为角色语气是沉浸感的核心;商店描述则要把合规权重提上来,因为它直接面对各地区审核。

给分数定个可信的基线

机器评分最常见的质疑是:"AI 自己打的分能信吗?"答案是——它需要校准。做法是定期取一批译文,同时跑 AI 评分和资深审校员盲评,看两者的相关性。当 AI 在准确性、术语、格式上与人工高度一致(这几项本就偏客观),你就可以把人工精力集中到机器拿不准的语域和创意适配上。这也回到我们在 AI 翻译 vs 传统翻译盲测对比里得到的同一个结论:让 AI 承担可量化的正确性工作,把人留给真正需要判断力的部分。

结论

游戏 LQA 之所以一直靠手感,是因为缺一套机器能跑的评分语言。把质量拆成准确、术语、语域、格式、合规五个维度,给每个维度配权重、设硬性失败线,再固化成"维度-项目-运行"三层模板,你就把"整体还行"变成了一个能在每次构建自动回归的分数。先从你最痛的一个维度——多半是格式约束或术语一致——做成规则跑起来,再逐步把其余四个维度补齐。

2026年7月21日游戏里的复数总翻错？用 ICU MessageFormat Plural 一次修好多语言复数 2026年7月6日角色感知 TTS 与声音克隆：游戏配音的多模态本地化指南 2026年5月13日游戏本地化自动化 QA 检查清单:变量、占位符、截断、换行与 RTL 的机器化校验