谷歌博客说明：机器翻译中逐词翻译的难题被解

国际新闻 2022-11-23 10:01www.worldometers.cn最新国际新闻

　　原标题：谷歌博客说明：机器翻译中逐词翻译的难题被解决

　　新浪科技讯北京时间9月1日上午消息，机器学习已经成为一种非常有用的翻译工具，但它还存在一些弱点，翻译模式倾向于逐词翻译是其中之一，可导致严重错误。谷歌在iResearch博客上发表了一篇有趣的帖子，详细说明了这个问题的性质以及解决方案。

　　该公司自然语言处理部门雅克布·乌兹考瑞特（Jakob Uszkoreit）给出了很好的解释。请思考以下两个句子：

　　我过了马路就到了银行（bank）。

　　我过了河就到了岸边（bank）。

　　显然，每句话中的“bank”指代不同的东西，但是，逐字翻译的算法可能很可能挑选错误的含义——因为它不知道哪一个“bank”是正确的，除非它能看到句子结尾。你稍加留意就能发现，这种歧义随处可见。

　　我会改写句子，当然，翻译系统不会选择这样走。如果为了这种简单的句子而修改神经网络，那将是非常低效的。

　　谷歌的解决方案是所谓的关注机制（attention mechanism），也就是说在翻译软件中内置一个名为“变压器”（Transformaer）的系统。它将句子中的单词逐一进行比较，以确定它们之间是否以某种关键方式相互影响——例如，看“他”或“她”是否在说话，或者像“银行”这样的词是否以特定的方式表示。

　　当翻译句子被构建时，关注机制将每个词与其他词进行比较，就像下面GIF所演示的那样。

　　如果这一切听起来很熟悉，那可能是因为本周早些时候你读过一篇网报道：谷歌翻译的竞争对手DeepL也在使用一种关注机制。该公司的联合创始人提到了这个问题，他们正在为此而努力工作，他甚至提到那篇网报道谷歌的文章，但显而易见，他们的产品与谷歌有所区别，非常有效，甚至好于后者的版本。

　　有趣的是，谷歌的方法让人们有机会看到系统的运作原理，因为Transformer给每个词提供一个与其他单词相关程度的得分，你可以看到它认为是相关的词，或者潜在的相关词：

　　很酷，对吧？嗯，我想是的。但也存在另一种类型的歧义，因为在英文里，“它”可以指代街道或动物，必须看到最后一个字才能确定bank的含义。人脑可以自动计算和分辨，但机器仍然必须有人教。

上一篇：Facebook挑战YouTube 在美推Watch视频服务下一篇：美国众议院下周进行投票或禁止各州封杀无人驾

谷歌博客说明：机器翻译中逐词翻译的难题被解

全球网搜索

全球网导航

国际新闻

全球股市

全球华人

谷歌博客说明：机器翻译中逐词翻译的难题被解

今日国际新闻

全球网搜索

全球网导航

国际新闻

全球股市

全球华人