最终得到一个重要结果:常被视为随机矩阵默认模型的 Wigner 矩阵可能不是训练Transformer的最佳选择。非分布泛化需要特别注意训练数据的生成。
推荐阅读
GAIR 2021大会首日:18位Fellow的40年AI岁月,一场技术前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处理四十年,他们从无人区探索走到计算的黄金时代 | GAIR 2021
2021-12-09
时间的力量——1991 人工智能大辩论 30 周年纪念:主义不再,共融互生|GAIR 2021
2021-12-12
论智三易,串联通讯,贯通边缘,演进认知,汇于机器:听五位IEEE Fellow畅谈AI未来 | GAIR 2021
2021-12-25