もっと詳しく

3つの要点 ?? ViTは、すべての層でより均一な表現(特徴量)を持っている。つまり各層での表現が似ている。 ?? ViTは、自己注意(self-attention)により早期にグローバルな情報を集約できる。 ?? ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transformers See Like Convolutional Neu…