这篇论文深入探讨了更多的比较和分析模式,但结论仍然是:lm知道他们所知道的,但结果仍然很容易受到影响,而且模型需要足够大。

Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, Huchuan Lu.
在过去的几年中,整理和统一机器学习模型架构在NLP中被证明是卓有成效的,现在他已经延申到视频计算机视觉任务了。
当涉及到视频相关的任务时,现有的表现最好的模型仍然倾向于依赖于任务特定的设计,结果是过度专注于他们的特定应用程序。
作者提出了一个单一的模型架构,在4种模式下进行目标跟踪:单目标跟踪(SOT),多目标跟踪(MOT),视频对象分割(VOS)和多目标跟踪和分割(MOTS)。
这个架构相当复杂,通过下面的图(也不一定能说清楚。。。)。在大致上,它从一个统一的主干嵌入图像开始,然后为参考帧和当前帧计算一个统一的嵌入。Transformer用于统一嵌入和当前帧之间的特征交互,输出对应于所有对象跟踪风格的类、框和掩码。

该系统在几个对象跟踪基准上进行了基准测试,如LaSOT、TrackingNet、MOT17、BDD100K(和其他),并在其中大多数上取得了最好的性能。

Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler.
作者执行了数百个跨尺度的实验,广泛的架构包括经典的和改进的Transformers,mlp mixer,和基于卷积的模型。实验包括使用自回归语言建模进行预训练(上游性能),然后监督微调GLUE、SuperGLUE和SQuAD(下游性能)。
结果很简单。在所有缩放机制中,经典的Transformer都不是最佳选择,但它在不同缩放机制中显示了最健壮和一致的性能结果。
卷积和基于mlp的架构在预训练(上游性能)方面做得很好,但在微调时无法获得相应的性能。这就指出了架构归纳偏差在迁移学习中的重要性。
改进后的Transformers只有在一定的规模下才能与同类产品竞争,而且如果规模足够大,则会变差。























