【最新微信名英文名字】Kaishkun变成了“傻瓜”？哦'是吗'在我身边'你看你的名字翻译成什么了？微信翻译大型翻车现场吗？-拍拖百科

这两天，微信翻译队难得进行了最后一次热搜。

事情的发展是这样的。一位网民发现，当caixukun的人名拼音包含在翻译中时，微信翻译中会出现奇怪的汉语单词。

之后，人命测试开始，网民们出动寻找其他cookie视频，为微信翻译。

因此，网民们大吃一惊，玩得很开心，这个话题上了热搜。

关于相关问题，腾讯微信团队也回复说，昨天不是暖心的cookie视频，而是翻译引擎在翻译未经训练的非正式英语词汇时翻错了。

微信翻译bug都是算法的锅吗？

所以，真的如微信翻译团队所说，这个翻译事故现场都是算法的锅吗？

经过与自然语言处理领域的两位专家的咨询，显然算法也有问题，但更大的问题可能在于训练语料。

目前机器翻译领域主要使用的NMT体系结构相似，但解码器语言模型有问题，可以用使用的语料学习这些最大概率的出现单词。

微信队在处理过程中似乎没有处理“特殊情况”。更确切地说，模型没有添加copy机制。不管输出的英语“单词”有多奇怪，模型都会根据最大概率原则翻译单词。

如果添加特殊单词的复制机制，就可以直接复制无法翻译的单词，而无需翻译。

也就是说，聪明的模特要知道该翻译什么，不该翻译什么，微信队做的这个AI显然不聪明。

从目前微信恢复结果全球copy来看，微信队使用敏感词“caixukun”或句子“you are so……”为了返回对的原文，似乎重设了这个机制。

另一方面，问题可能更多地出现在语料库中。现在业界做的机器翻译很大程度上依赖于语料“呜”。并行语料数量充足，质量就足够了，但事实上，一般系统也能训练出好的结果。

以前有问微信翻译组怎么安装的问题。据自称的团队成员“LynnCui”透露，微信翻译是在微信后台，不到10人的工程师团队用从0扔出的引擎完成翻译的。

音~语料库，算法，少于10人。根据这些线索推测，微信翻译出现这种问题的原因是训练语料。如果培训资料多来自比较便宜的电影字幕、多语言会议等资料，模特最终展示的翻译内容也会相应地比较“活泼”和“口语化”。

面对Caixunkun等库中不存在的单词，算法会自动最频繁地出现，或者在形容词“帅哥”、“傻瓜”等上下文中自动匹配最容易匹配的内容。

那么，爵士。

过这一乌龙事件，微信团队是否会真的重视起翻译产品，然后重金重制语料库呢？我们拭目以待。

谷歌相关事件

其实相关翻译乌龙并不只有微信出现过，翻译领域的先驱谷歌也有过类似的事件。

之前外媒Motherboard有整理来自Reddit论坛的帖子发现，谷歌翻译在学习的过程中可能受到了输入来源的影响，竟将一些意味不明的语句翻译成了如圣经一般的语言。

比如，若用户将翻译设置为从毛利语翻译成英语，之后输入一长串的“dog”（英文意为“狗”），最后会得出这样的结果。

翻译出来的英文大意为：

世界末日时钟在12点3分钟，我们正在经历世界上的人物和戏剧性的发展，这表明我们越来越接近末日和耶稣的回归。

哈佛大学助理教授，研究自然语言处理和计算机翻译的Andrew Rush认为，这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。他表示，在神经机器翻译中，系统训练用了一种语言的大量文本来和另一种语言进行相应翻译，以在两者之间创建模型。但当输入的是无意义内容时，系统就会出现“幻觉性”的输出结果。

由于谷歌这一学习系统的原因，类似的翻译结果层出不穷。据悉，在设置从索马里语言翻译成英语的时候，谷歌有时翻译也会念起“圣经”，比如下面这个例子

其大意为：

因为上帝的名字是用希伯来语写的，所以用希伯来民族的语言写成。

机器翻译有哪些不确定性？

八卦归八卦，热搜归热搜。吃完瓜，文摘菌还是要跟各位强调，到底如何避免机器翻译的车祸现场。

让我们先从NMT的诞生讲起。

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。这一研究成果的发布可以说是神经机器翻译（NMT）的诞生。虽然在那之后有无数的研究者进行改进模型，但是仍然缺乏对模型的理解。

具体遇到的问题包括：训练和解码过程相当慢；对同一个词的翻译风格可能不一致；在翻译结果上还存在超出词汇表（out-of-vocabulary）的问题；黑箱的神经网络机制的可解释性很差；训练所用的参数大多数是根据经验选择的。

NMT和SMT对比

总的来说：不确定性是翻译中的一个核心挑战。我们需要知道不确定性的典型来源是什么？为什么会出现这种问题？

文摘菌在一篇论文《Analyzing Uncertainty in Neural Machine Translation》中找到了这个问题的答案。

根据论文，在构建翻译的模型的时候，基本上有两种不确定性，一种是任务本身固有的不确定性，另一种是数据收集过程中存在的不确定性。

内在的不确定性

不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的，即使字面上有很多表达相同意思的方法。句子的表达可以是主动的，也可以是被动的，对于某些语言来说，类似于“the”，“of”，或“their”也是可选择的。

除了一句话可以多种翻译这种情况外，规范性不足同样是翻译不确定的来源。

另外，如果没有背景输入，模型通常无法预测翻译语言的时态或数字，因此，简化或增加相关背景也是翻译不确定性的来源。

外在的不确定性

机器翻译系统，特别是模型，需要大量的训练数据才能表现良好。为了节省时间和精力，使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错，并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译，或者目标句里面有源句中没有的信息。

在一些加了copy机制的翻译模型中，对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现，即使copy机制很小，也能对模型预测产生较大的影响。

除此之外，这篇论文主要探究了NMT模型的适用性以及搜索。虽然模型在token和句子方面有很好的校准，但是预测的概率分布太广泛。这个问题的原因作者认为取决于函数是否是光滑的。

另外，论文研究了错配的影响，过度的概率分布会把样本在模型中的表现变差，而且。copy机制会更加突出。

福利：微信翻译的隐藏表白神器

其实微信翻译里面不仅仅有过翻车现场，也有一些隐形撩妹彩蛋！文章的最后，也为大家送上这波福利。

有细心的网友会发现你在微信聊天里面发送信息【ohh】,翻译内容是：【留在我身边】。

如今这个梗在知乎上广为流传，而且至今微信翻译这个bug还在，微信翻译也至今没有进行补丁，可见微信团队的程序员们不仅技术牛，也是很有爱的一波人呢！

最后奉上来自程序员的警告

编辑：金婉霞