なぜビジョントランスフォーマーはこれほど高性能なのか。（）

3つの要点 ?? ViTは、すべての層でより均一な表現（特徴量）を持っている。つまり各層での表現が似ている。 ?? ViTは、自己注意（self-attention）により早期にグローバルな情報を集約できる。 ?? ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transformers See Like Convolutional Neu…

Gadget Gate

なぜビジョントランスフォーマーはこれほど高性能なのか。（）

Archives