电子杂志
技术写作
无损数据交换

April 2016

写评论

作者: Angelika Zerfaß

无损数据交换

通过TMX和TBX格式，翻译系统和术语工具中的数据可以实现相互交换。虽然存在相应标准，但还是会出现一些语段数据接收错误或无法接收的问题。问题到底出在哪里？怎样来优化数据交换结果？

在两种典型情况中，翻译记忆库的数据交换尤为重要。一是从一个翻译记忆库系统向另一个系统的转移，二是翻译记忆库或术语库在客户及译者间的转换。

此类数据交换不能出问题，且最终形成TMX翻译记忆库交换格式，以及TBX，术语库交换格式。通过这两种格式，用户可以将翻译记忆库或术语库内容导出并导入另一翻译系统。问题就解决了。

术语问题

通过TMX，翻译记忆库语段对的数据可以做到精确交换。但是，一个TMX文件还可以包含更多内容，比如用于语段对分类的元数据或语段上下文信息。此处显示出一些区别，哪些信息可以成功交换、哪些不行。

术语数据的交换，根据工具术语库的设定，可以很简单也可以非常复杂。由于此类数据记录可能比翻译记忆库语段对更复杂，此处通常需要花费更多时间。

可能出现的误差

我们观察这种情况：部门决定从翻译工具A转到翻译工具B。我们虽然知道，通过TMX格式可以将数据从一个工具转入另一个工具。但是否所有数据都转入新工具、会不会出现问题，都是存在一定的不确定性。

专家们决定进行一项测试。将一个较大的翻译记忆库导出成TMX格式并导入新工具。将在工具A中已经翻译好、存入翻译记忆库的数据导入工具B并进行分析。分析表明，并不是所有语段都在翻译记忆库中找到百分之百的匹配。这是为什么呢？

两个工具的文件解析显示出：翻译工具分段方式不同。工具A含有缩写列表，而工具B没有。此外，工具A的分段规则有所调整，例如用于避免带小数点数字的分割。这种调整工具B也没有。

不同的计算方法

越来越清楚地表明，仅通过TMX转移翻译记忆库是不够的。此外还需要注意，翻译记忆库匹配率的计算方法，各个工具各有不同。同一语段，在工具A的匹配度为80%，在工具B的匹配度可能是75%或者89%——因此，两个不同工具的分析数据也并不一致。

部门仔细浏览旧翻译记忆库并发现，工具A的记忆库有用户自定义（元数据）内容分类功能。进一步的测试观察表明，通过TMX交换，这些元数据是否进入工具B并可以继续使用。一项测试表明，语段对自身，以及数据制作人、制作日期的元数据，可以通过TMX格式成功地从一个工具转移到另一个工具。其他元数据的交换就取决于待交换的翻译工具组合。

接下来我们将详述，TMX文件含有哪些信息，数据交换时哪里可能出现问题，以及怎样可以解决问题。

语言及语言变体的统一

TMX文件会给出每个语段的语言信息。通常以语言变体的形式，如德语（德国）或者英语（美国）。

TMX文件的语言变体

说明：TU = 翻译单位 TUV = 翻译单位语言变体版（语段语言识别缩写）

图1.来源：安格丽卡蔡尔法斯

问题：一些翻译工具允许使用通用语言，如德语或英语。TMX文件仅显示德语或英语。但是其他翻译工具必须预计到此处应有语言变体信息，如德语（德国），英语（美国）。语言变体信息的书写方式通常不会对数据交换产生影响，写成德语（德国）、还是德语（德国），没有区别。

解决办法：

文本和格式

图表1为TMX文件格式信息简化图。值得注意的是，TMX文件不仅将格式信息以标签形式存储，一些其他数据也是以这种方式存储。例如制表键、索引占位符、或者语句相应的图片。

TMX文件的两类格式信息都可以有效重现。在一个工具中，实际格式直接命名（“粗体”），而在另一个工具中，将格式信息进行连续编号。

简化版格式信息展示

表01来源：安格丽卡蔡尔法斯

问题：此处也可清晰看出，信息交换时有可能丢失。尽管两个工具都理解，语句中存在格式信息标签，但是工具B无法识别该标签。由此可造成：在翻译记忆库中虽然找到了匹配翻译，但是格式信息标签所含内容有误。

解决办法：翻译时可以使用翻译记忆库的信息，但是格式信息标签可能需要人工替换成原文（译出文）格式信息标签。

来源可识别

语段是否通过数据对齐(Alignment)形成的信息，可允许翻译工具在使用翻译记忆库时降低匹配度。此类信息在不同的翻译工具中以不同的形式存储，导致通过TMX进行数据交换时，这些信息无法继续使用。通过下列示例，展示语段数据对齐信息如何显示。

简化版格式信息展示

问题：语段是否通过数据对齐(Alignment)形成的信息，在不同翻译工具间不可以交换使用，一个翻译工具不可以使用另一翻译工具可使用的数据。

解决办法：可通过查找/替换修改TMX文件，使数据对齐的信息匹配待导入翻译工具。

元数据同时传输

元数据分两类：一是系统信息，如“制作者姓名”、“存档日期”；二是用户自定义元数据。系统信息通常可以顺利地通过TMX文件从一个工具转移到另一个工具。而用户自定义信息的转移就取决于TMX文件在哪些工具中转移。有些工具可以读取其他工具的元数据，虽然其他工具TMX文件的写入方式与自己的不同。另一些工具则忽略与自己结构不同的元数据。

表3示例展示：用户自定义元数据在不同工具的TMX文件中的表现方式。

示例：用户自定义的数据

表 03 来源：安格丽卡蔡尔法斯

所有的元数据都通过“属性”标签在TMX数据中实现。在翻译记忆库中各定义有一个专业领域，在列表中填有一个值 (XYZ)。

问题：每个翻译工具都有自己描述用户自定义数据的方式。TMX规范却允许这种情况发生。

解决办法：推荐使用导出、导入文本。待导入工具可能会接收元数据。如果不接收，在不耗费大量精力的前提下，可考虑使用查找/替换元数据修改TMX文件。

将记忆库设置完全原样转移到另一翻译工具中（如元数据模块列表）不可实现。没有相应的交换格式。

语段上下文

现在的翻译工具中，除原本的语段对以外，经常还会存储语段上下文信息。但是存储方式不同。比如一个工具存储某语段的前一句和后一句，而另一工具存储一个编码，该编码由不用信息组成。上下文信息的好处在于，翻译工具告诉译者，此处不仅是百分之百匹配（该文件语段与翻译记忆库中语段一致），而且它们的上下文也一致。此处翻译记忆库中的翻译便很可能真实匹配。

下列示例展示简化版上下文信息在翻译工具中存储的方式。

在翻译工具中的上下文信息

问题：没有上下文信息，也能显示最高100% 的匹配率。只有新语段用新工具在翻译记忆库中存储了之后，才可能显示出带相同上下文的匹配。

解决办法：没有

最后，我们部门发现，一些翻译记忆库中的文字组合已经过时，不再符合最新的文体及术语规定。于是决定：虽然在工具B中导入该翻译记忆库，但是该库仅用为背景翻译记忆库。为此，许多翻译工具都允许降低翻译记忆库内容匹配度

‹‹ 回到: 技术写作

无损数据交换

术语问题

可能出现的误差

不同的计算方法

语言及语言变体的统一

TMX文件的语言变体

文本和格式

简化版格式信息展示

来源可识别

简化版格式信息展示

元数据同时传输

语段上下文

评论 (0)

发表评论