无损数据交换

通过TMX和TBX格式,翻译系统和术语工具中的数据可以实现相互交换。虽然存在相应标准,但还是会出现一些语段数据接收错误或无法接收的问题。问题到底出在哪里?怎样来优化数据交换结果?

在两种典型情况中,翻译记忆库的数据交换尤为重要。一是从一个翻译记忆库系统向另一个系统的转移,二是翻译记忆库或术语库在客户及译者间的转换。

此类数据交换不能出问题,且最终形成TMX翻译记忆库交换格式,以及TBX,术语库交换格式。通过这两种格式,用户可以将翻译记忆库或术语库内容导出并导入另一翻译系统。问题就解决了。

术语问题

通过TMX,翻译记忆库语段对的数据可以做到精确交换。但是,一个TMX文件还可以包含更多内容,比如用于语段对分类的元数据或语段上下文信息。此处显示出一些区别,哪些信息可以成功交换、哪些不行。

术语数据的交换,根据工具术语库的设定,可以很简单也可以非常复杂。由于此类数据记录可能比翻译记忆库语段对更复杂,此处通常需要花费更多时间。

可能出现的误差

我们观察这种情况:部门决定从翻译工具A转到翻译工具B。我们虽然知道,通过TMX格式可以将数据从一个工具转入另一个工具。但是否所有数据都转入新工具、会不会出现问题,都是存在一定的不确定性。

专家们决定进行一项测试。将一个较大的翻译记忆库导出成TMX格式并导入新工具。将在工具A中已经翻译好、存入翻译记忆库的数据导入工具B并进行分析。分析表明,并不是所有语段都在翻译记忆库中找到百分之百的匹配。这是为什么呢?

两个工具的文件解析显示出:翻译工具分段方式不同。工具A含有缩写列表,而工具B没有。此外,工具A的分段规则有所调整,例如用于避免带小数点数字的分割。这种调整工具B也没有。

不同的计算方法

越来越清楚地表明,仅通过TMX转移翻译记忆库是不够的。此外还需要注意,翻译记忆库匹配率的计算方法,各个工具各有不同。同一语段,在工具A的匹配度为80%,在工具B的匹配度可能是75%或者89%——因此,两个不同工具的分析数据也并不一致。

部门仔细浏览旧翻译记忆库并发现,工具A的记忆库有用户自定义(元数据)内容分类功能。进一步的测试观察表明,通过TMX交换,这些元数据是否进入工具B并可以继续使用。一项测试表明,语段对自身,以及数据制作人、制作日期的元数据,可以通过TMX格式成功地从一个工具转移到另一个工具。其他元数据的交换就取决于待交换的翻译工具组合。

接下来我们将详述,TMX文件含有哪些信息,数据交换时哪里可能出现问题,以及怎样可以解决问题。

语言及语言变体的统一

TMX文件会给出每个语段的语言信息。通常以语言变体的形式,如德语(德国)或者英语(美国)。

TMX文件的语言变体

说明:TU = 翻译单位 TUV = 翻译单位语言变体版(语段语言识别缩写)

图1.来源:安格丽卡 蔡尔法斯

问题:一些翻译工具允许使用通用语言,如德语或英语。TMX文件仅显示德语或英语。但是其他翻译工具必须预计到此处应有语言变体信息,如德语(德国),英语(美国)。语言变体信息的书写方式通常不会对数据交换产生影响,写成德语(德国)、还是德语(德国),没有区别。

解决办法:

文本和格式

图表1为TMX文件格式信息简化图。值得注意的是,TMX文件不仅将格式信息以标签形式存储,一些其他数据也是以这种方式存储。例如制表键、索引占位符、或者语句相应的图片。

TMX文件的两类格式信息都可以有效重现。在一个工具中,实际格式直接命名(“粗体”),而在另一个工具中,将格式信息进行连续编号。

简化版格式信息展示

表01来源:安格丽卡 蔡尔法斯

问题:此处也可清晰看出,信息交换时有可能丢失。尽管两个工具都理解,语句中存在格式信息标签,但是工具B无法识别该标签。由此可造成:在翻译记忆库中虽然找到了匹配翻译,但是格式信息标签所含内容有误。

解决办法:翻译时可以使用翻译记忆库的信息,但是格式信息标签可能需要人工替换成原文(译出文)格式信息标签。

来源可识别

语段是否通过数据对齐(Alignment)形成的信息,可允许翻译工具在使用翻译记忆库时降低匹配度。此类信息在不同的翻译工具中以不同的形式存储,导致通过TMX进行数据交换时,这些信息无法继续使用。通过下列示例,展示语段数据对齐信息如何显示。

简化版格式信息展示

问题:语段是否通过数据对齐(Alignment)形成的信息,在不同翻译工具间不可以交换使用,一个翻译工具不可以使用另一翻译工具可使用的数据。

解决办法:可通过查找/替换修改TMX文件,使数据对齐的信息匹配待导入翻译工具。

元数据同时传输

元数据分两类:一是系统信息,如“制作者姓名”、“存档日期”;二是用户自定义元数据。系统信息通常可以顺利地通过TMX文件从一个工具转移到另一个工具。而用户自定义信息的转移就取决于TMX文件在哪些工具中转移。有些工具可以读取其他工具的元数据,虽然其他工具TMX文件的写入方式与自己的不同。另一些工具则忽略与自己结构不同的元数据。

表3示例展示:用户自定义元数据在不同工具的TMX文件中的表现方式。

示例:用户自定义的数据

表 03 来源:安格丽卡 蔡尔法斯

所有的元数据都通过“属性”标签在TMX数据中实现。在翻译记忆库中各定义有一个专业领域,在列表中填有一个值 (XYZ)。

问题:每个翻译工具都有自己描述用户自定义数据的方式。TMX规范却允许这种情况发生。

解决办法:推荐使用导出、导入文本。待导入工具可能会接收元数据。如果不接收,在不耗费大量精力的前提下,可考虑使用查找/替换元数据修改TMX文件。

将记忆库设置完全原样转移到另一翻译工具中(如元数据模块列表)不可实现。没有相应的交换格式。

语段上下文

现在的翻译工具中,除原本的语段对以外,经常还会存储语段上下文信息。但是存储方式不同。比如一个工具存储某语段的前一句和后一句,而另一工具存储一个编码,该编码由不用信息组成。上下文信息的好处在于,翻译工具告诉译者,此处不仅是百分之百匹配(该文件语段与翻译记忆库中语段一致),而且它们的上下文也一致。此处翻译记忆库中的翻译便很可能真实匹配。

下列示例展示简化版上下文信息在翻译工具中存储的方式。

在翻译工具中的上下文信息

问题:没有上下文信息,也能显示最高100% 的匹配率。只有新语段用新工具在翻译记忆库中存储了之后,才可能显示出带相同上下文的匹配。

解决办法:没有

最后,我们部门发现,一些翻译记忆库中的文字组合已经过时,不再符合最新的文体及术语规定。于是决定:虽然在工具B中导入该翻译记忆库,但是该库仅用为背景翻译记忆库。为此,许多翻译工具都允许降低翻译记忆库内容匹配度