AI 自动翻译的博士论文

既然把博客内容翻译成了英文，那么自动翻译博士论文有没有可能呢？我的博士论文有 200 多页，而且里面有很多图，AI 能自动把这么多 LaTeX 代码翻译得一字不差吗？论文里面的图怎么翻译？

首先，把原来翻译 Markdown 的 prompt 改成翻译 LaTeX 的。原来翻译 Markdown 的时候，我是把内容按行分隔，连续的几行凑够 2048 个字符，就请求一次 GPT-4。在翻译 LaTeX 的时候仍然这样做。

就像 Markdown 一样，GPT-4 输出的内容经常有前缀和后缀，好在设置为 temperature = 0.1 之后前缀和后缀都比较固定，可以写个后处理脚本直接给去掉。此外，GPT-4 对 LaTeX 中的转义字符不够了解，例如典型的下划线 _、美元符号 $ 和制表符 &，经常没有转义导致语法错误。这也是可以通过后处理脚本，用一些规则识别到底需不需要转义，如果需要转义就自动加上。

总的来说，GPT-4 的 LaTeX 能力是不错的，除了把一些 reference 给搞乱了导致引用变成问号了，其他的地方都没什么问题。经过后处理脚本后直接就可以编译了。

其次，为了翻译论文里面的图，我首先尝试了一些 PDF 翻译工具，发现没有一家能用，这些工具都只能翻译 PDF 中的大块文字，对于架构图，只会把整张图都搞得乱七八糟。因此，我用了图片翻译的方法。首先把 PDF 转成图片，然后调用有道图片翻译 API，如果识别出了中文字符，就把用翻译出的图片替换原来的 PDF；如果没有识别出任何中文字符（例如一些实验结果图），就保留原样。

其实有道图片翻译的原理也是先对图片做 OCR，把识别出的每个文字块逐个翻译，再用翻译后的文字块替换掉图片原来位置上的文字。我感觉对于 PDF，这也是可以做的，而且可以保持 PDF 仍然是矢量图。希望做 PDF 翻译工具的改进一下。

整个翻译花了半天时间，一些小问题也懒得修了。虽然翻译质量肯定不如手写的，尤其是图片翻译质量一般，但是基本上能看了。除了对 ustcthesis.cls 做了一些微调（例如把英文封面放在中文封面前面）以外，没有对翻译后的内容做任何人工修改。

AI 自动翻译的版本: High Performance Data Center Systems with Programmable Network Interface Cards (PDF, 8 MB)

中文原版: 基于可编程网卡的高性能数据中心系统 (PDF, 8 MB)

现在 arxiv 上面的 paper 都是有 LaTeX 源码的，按照这个方法，都可以直接翻译成中文论文了。希望哪天多模态模型能强到只需要 PDF，不要 LaTeX 源码，就能做翻译，这就厉害了。

AI 自动翻译的博士论文

Comments