>>962
んー、CLIPでというのをどういう意味で言ってるかわからんけど、2D×3チャンネルの画像をこれと定めた次元の潜在空間に変換するのは普通はConvレイヤーを複数回使うので、そういう意味ではCLIPでって言ってもその中では普通は複数のConvレイヤーを使って変換してるはず
その意味ではVAEのエンコーダーも、例えばRezNetとかのCNNモデルも、Convレイヤーを使うものについては潜在空間への変換部分の仕組みはほぼ一緒で、VAEを使ってとかいう言い方は便宜上そう言ってるだけということにもなる
ただし、理屈上はViTのようにTransformarのエンコーダーを使っても潜在空間へのエンコードは可能でこれはVAEとは全然違う仕組み
ということだから、もしCLIPでってゆうのを、VAEのようなConvレイヤーじゃなくて画像についてもTransformarのエンコーダーを使うって意味なら、ふーんそうなんだって思えるけど、もしかしてそういう意味で言ってる?