众所周知,参数量是机器学习算法的关键。在大规模参数量和数据集的支持下,简单的体系结构将远远超过复杂的算法。
在自然语言领域,被称为史上最强 NLP 的 GPT-3 拥有 1750 亿参数。近日,Google 将这一参数量直接拉高到了 1.6 万亿。
1 月 11 日,Google 在 arXiv 上发表论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新语言模型—Switch Transformer。















![/></p>总结及未来研究方向<p>研究人员表示,Switch Transformer 模型是具有可扩展性的高效自然语言处理模型,它通过简化 MoE,形成了快速理解、训练稳定且比同等大小模型更有效的样本体系结构。实验证明,这些模型在不同的语言任务和训练模式中都表现了出色的性能,包括预训练、微调和多任务训练。同时,这些结果也让训练具有上千亿、上万亿参数量的模型成为可能。</p><p>最后研究人员指出,虽然 Switch Transformer 改进了训练程序,并对稀疏模型进行了扩展的研究。但未来在此方向还有许多未完成的工作,如</p>
<p><p>进一步提高大型模型训练的稳定性。目前正在进行的方法有:正则化函数、适度的梯度裁剪等。</p><p><p>一般来说预训练越好,下游任务的效果也就越好,但在一些任务上发现,1.6T 参数的 Switch-C 会比较小模型的结果更低。</p><p><p>目前方法使用的同类专家,未来可尝试通过更灵活的基础结构支持异构专家。</p><p><p>调查 FFN 层之外的专家层,初步的证据表明,这同样可以改善模型质量。</p><p><p>目前的工作仅考虑了语言任务,未来可尝试将模型稀疏性类似地应用到其他模态(例如图像)或多模态中。</p>
<p>引用链接:</p><p>https://arxiv.org/pdf/2101.03961.pdf</p><p>https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/</p><p>https://arxiv.org/search/cs?searchtype=author&query=Fedus%2C+W</p>
</p>
<script>
var shang_config = {
title: '爷,赏一个呗',
option: [1,5,10,20,50],
default: 100,
custom: true,
iconUrl: 'http://www.costpay.net/static/images/shang.png'
};
</script>
<div class=](http://img.ithome.com/images/v2/t.png)