LLMを趣味でやるなら自分でデータセット作れるようにならないとだめかもしれんな
このあたりのリポジトリ漁ればいいんだろうか
https://github.com/topics/text-mining
🤗のdatasetsの仕様とかもお勉強する必要ありそう