wikiのHNにある
「Gradient蓄積ステップは4または8を設定します。この設定は学習がやや遅くなる欠点の代わりにVRAMの消費を抑える効果があります。
Steps for cycleの値は「学習素材数 ÷ Gradient蓄積ステップ」した値を10倍にした数値を入力します。端数は切り捨てです。」
を設定すると確実に「Applying xformers cross attention optimization.」と出て学習が止まるんやが。
これむしろVRAM消費上がってるんやないやろか。