>>667
Loraは知らんけどDLの一般論で言うなら1バッチ進むと重みが1回更新される
だから確かにバッチサイズを1にすれば重みの更新回数が増えて学習自体は早くは進む
ただ重みの更新はバッチ内の損失関数の一般的には平均で計算されるから
バッチサイズが適正値の方が重みの更新が安定する
バッチサイズが1だと特出したサンプルに振り回されることになる