太阳集团2138手机版

详细内容

牛！勇夺四冠-杭州网络公司为你呈现

时间：2021-11-20 作者：杭州网络公司【转载】来自：微信派

在机器翻译界的奥林匹克WMT2021，微信AI一口气夺得四个冠军。

英中翻译方向
日英翻译方向
英日翻译方向
英德受限资源方向

那么，到底微信AI是通过什么技术夺冠的呢？

友情提示：以下内容非专业人士不建议查看

点击查看

在WMT21竞赛中，微信AI团队在模型结构、数据增强、训练优化和集成搜索方面继续探索，验证和使用了多项有效技术，同时也提出了多项有效的创新技术。

系统整体架构图

?模型架构

当前主流的神经网络机器翻译模型通常基于Transformer结构，往年一些有效的结构变种主要是增加模型深度和模型宽度。今年，我们在此基础上验证并使用了几项有效的模型变种，同时也提出了一些改进的模型结构，在明显提升翻译效果的同时，大幅增加了模型之间的多样性。在集成实验中，我们仅使用少量的改进后的变种模型就超越了几十个更深和更宽的Transformer模型集成效果。

■ Post-Norm Transformer

前人研究表明，通过改进模型的初始化方法，可以有效缓解深层Post-Norm Transformer训练失败的问题。我们引入了修改后的初始化方法，成功训练了深层Post-Norm Transformer，并在集成中得到了明显收益。

■Talking-Heads Attention Transformer

前人研究表明，在多头注意力计算中加入额外的线性映射，加强头和头之前的信息流动，来增强注意力机制的性能和多样性。

■ Average Attention Transformer

Average Attention Network

平均注意力模型将Transformer解码器的多头自注意力机制（Multi-Head Self-Attention）替换成平均注意力机制（Average Attention），在没有明显损失性能的条件下，加速了模型速度。同时，因为注意力机制的不同，Average Attention模型在模型集成中提供了很好的多样性。

■ Weighted Attention Transformer

Weighted Attention Network

进而，我们对 Average Attention Network (AAN) 的权重计算进行了修改，通过对距离越远的历史赋予越低的权重，模型的性能得到了进一步提升，效果超过了普通的深层Transformer。

■ Mix-AAN Transformer

Mix-AAN Transformer

因为Average Attention和Multi-Head Self-Attention表现出良好的多样性，我们将两者在模型Decoder端进行混合，通过串行或并行的方式顺序排列，得到一系列单模型性能强劲且多样性很好的模型。在我们的模型集成实验中，这类模型变种带来了很大的收益。

?数据增强

领域知识迁移

为了构建更好的伪数据，我们在大量的源端和目标端单语数据中过滤出高质量的数据。通过迭代回译和知识蒸馏，来生成伪双语数据。我们还使用了多粒度（子词、词、短语）的噪声加入方式和动态Top-p采样，进一步增加了伪数据的多样性，构建了大规模的通用领域伪数据。

当我们把模型微调至目标领域（新闻领域）后，我们集成多个不同结构的模型，将大量源语言的单语数据翻译至目标语言。这样，我们的领域知识就被迁移到了大规模的伪数据中。我们再在包含领域知识的伪数据上重新训练模型，将领域相关的知识迁移到了模型中，迭代地执行这个过程。

?训练优化

我们提出了三种改进的训练算法，来缓解暴露偏差的问题。

基于调度采样的两阶段模型训练架构

■ 基于模型置信度的调度采样算法（Confidence-Aware Scheduled Sampling）

基于模型置信度的调度采样算法(https://aclanthology.org/2021.findings-acl.205.pdf）是微信AI团队近期提出的一种有效缓解暴露偏差问题的训练方法。训练过程中，基于模型置信度设计调度采样策略，从第一阶段Decoder的输出历史和标准历史中采样，作为第二阶段Decoder的输入，在训练中模拟真实的翻译推导场景。论文已被ACL2021-Findings收录。

■ 针对目标端输入的抗噪训练（Target Denoising）

在训练过程中，我们延用去年参赛的经验（https://aclanthology.org/2020.wmt-1.24.pdf），将Decoder的输入随机替换成句子中的其他单词，来模拟模型翻译时容易产生的乱序的问题。

■渐进的标签平滑技术（Graduated Label Smoothing）

为了缓解模型在领域微调时产生的过拟合问题，我们对置信度较高的单词给与更大的惩罚，给置信度较低的单词不给予惩罚，以加强数据分布中低频词的训练。

?集成搜索

模型集成是一个有效提升模型性能的方案，但是如何在大量的候选模型中，选出最优的模型组合是一个耗时非常大，非常棘手的问题。常用的方法是通过贪心算法进行搜索，并引入一些随机性的策略，来得到一个较优的结果。

模型Self-BLEU示意图

我们去年在WMT20上曾提出一种基于Self-BLEU的集成搜索算法，有效的提升了模型集成搜索效率。在本次WMT21竞赛中，我们进一步改进了该搜索算法，同时兼顾了单个模型的多样性和模型在开发集上的效果（BLEU），对模型重要性进行排序。再基于候选模型和集成模型的平均Self-BLEU进行贪心搜索，最终搜索时间减少了95%以上，搜索得到的模型集成效果也明显优于简单的贪心搜索。

目前，微信翻译已成为一个日翻译百亿级字符的大型多语言机器翻译引擎，支持多语种间的双向翻译，在翻译质量上达到业界领先水平。我们新提出的部分技术已上线微信翻译，服务场景涵盖微信聊天翻译、朋友圈翻译、图片翻译、网页翻译、扫一扫翻译、QQ邮箱、QQ音乐、微信读书、腾讯小微等，后续会陆续应用于更多的场景。

此外，微信翻译团队还是腾讯内部开源协同组织TencentMT Oteam的主要成员之一，TencentMT Oteam的成立旨在融合公司内多个翻译团队的优势，集中资源深度优化核心技术模块，打造强大的翻译引擎和服务。

上一篇7月最火书单，最短神作只有几千字-杭州网站建设为你呈现下一篇还没付钱！他为何拿起快递就跑？-杭州APP开发为你呈现

关于我们

帮助中心

经营项目

太阳集团2138手机版

腾讯广告春节营销“兔”破创新，携手品牌“

2023 春节，腾讯广告推出10种创新营销玩法，以更突破的广告形态、更有趣的互动样式、更全域的生态联动，携手品牌共创有心意、更有趣的专属高光时刻。01形态冲击力
全新发布：腾讯广告互选平台投放端上线-杭

公众号、视频号已经成长为重要的微信内容营销场景，为更好服务商业合作需求，打造一站式投放体验，腾讯广告互选平台上线全新投放端。新投放端通过全链路产品升级，致力为广
首次商业化，视频号“竖屏看春晚”获 1.

除夕夜，你在视频号竖屏看春晚了吗?今年春节，中央广播电视总台与视频号二度合作“竖屏看春晚”，超 1.9 亿用户在视频号直播间共享这场沉浸式文化盛宴，场观破亿速度
钱兔似锦：视频号小任务春节活动上线-杭州

作为视频号重要的变现产品之一，视频号小任务上线半年以来，已助力上万创作者获得变现收入。近期小任务上线春节限时活动，提供丰富奖励与资源支持，助创作者过年创收，助品
结果公布: 2022 年度朋友圈广告评选

年度广告2022 TOP101月13日至16日微信用户投出了超过200w票,选出了年度用户最喜爱的朋友圈广告TOP 10TOP 1王者荣耀虎神贺岁,即刻起行横滑
邀你投票：2022 朋友圈广告年度评选-

你喜欢的,才是好创意2022，在朋友圈看名车疾驰出框、为冠军喝彩、与IP互动、绽放烟花…哪个是你的最爱?去投票，选你所好!朋友圈广告评选投票→生成分享卡→有机会
广告变现新机遇：小程序流量主代运营模式发

为帮助广大小程序商家进行流量变现，同时让服务商伙伴享受微信生态带来的商业价值。微信广告联合微信开放平台，推出“小程序流量主代运营”模式，通过为服务商（即“小程序
微信广告 2023 年春节假期工作安排通

2023 年春节假期即将来临，微信广告1月21日至 1月27日（农历除夕至正月初六）各项服务工作安排如下，请大家根据运营需求提前做好安排：1. 广告主审核及充
2022 Q4 用户最喜爱的朋友圈广告-

基于用户的互动行为及广告效果数据指标，我们找出了2022年第四季度用户最喜爱的朋友圈广告TOP 10(排名不分先后)，期待更多好创意与你相见。TOP朋友圈广告用
生活特辑 Vol.14 ᅵ

Good Life生活广告榜吃喝玩乐品生活，发现身边新乐趣。快来看看本季最受欢迎的身边广告。今天“吃”什么?吃喝福利,任你选新的一年不如用味觉拉开序幕不知道吃什

太阳集团5493con是一家专门致力于为企业提供全方位网站建设服务。年轻的我们带着梦想和对网络的热情走在互联网道路的前沿，一路走来，我们的努力和真诚得到了更多客户的认可。在未来的发在未来的发...

S

滚屏网站

crolling website

牛！勇夺四冠-杭州网络公司为你呈现

ICP备案：浙ICP备17031070号-1

浙公网安备：33010602011153