なんJLLM部 ★4

2023/09/30(土) 08:32:45.60

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
英語ならそこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
日本語は、どう転んでもローカルで動かせる今の世代はオバカなので
そこは期待しすぎんといてな

自薦・他薦のモデルやツールは>>2以降

なんJLLM部 ★3
https://fate.5ch.net/test/read.cgi/liveuranus/1691639766/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

2023/11/02(木) 20:39:19.09

594だけどjapanese-stablelm-instruct-beta-70bについて前言撤回。
パラメータが実験用にいじったままだった。
デフォルトに戻したらめちゃくちゃ賢い。日本語だとダントツだと思う。
すまんかった。

2023/11/02(木) 20:42:24.13

期待が高まるな(*'▽')

2023/11/02(木) 20:48:59.92

>>594
ちなみに、量子化する際のマシンスペックはどれくらい必要？
Q5k_mとか可能？

2023/11/02(木) 20:56:52.49

>>602
量子化処理はCPUもメモリもあまり使ってなかったしシーケンシャルにデータを変換してるだけっぽい
たぶんスペックそんなに要らないと思われる

2023/11/02(木) 21:05:41.66

次のPCの参考にしたいけど、SDの時みたいにいろんなCPUといろんなGPUとメモリでの出力スコアが比較できる奴ってないかな
colab proのスペック比較はあるけど、手に届くGPUの比較が見当たらん

2023/11/02(木) 21:19:34.12

自前で量子化したいけどうちの回線のせいでまだモデルのDLが終わらん

2023/11/02(木) 21:38:20.79

>>600
まじか
poe辺りで導入してくれねえかな

2023/11/02(木) 21:55:17.58

https://w.atwiki.jp/localmlhub/pages/15.html
ここ見ると、量子化にはかなりのスペック要するみたいだけど、他の手法があるのかな？

2023/11/02(木) 21:59:34.25

japanese-stablelm-instruct-beta-70bのDL終わったから一旦4bitでロードして動かしてるけど、確かに圧倒的に賢いな
こちらのわりと雑なテキストもちゃんと理解して、破綻のない日本語で回答してくれる

2023/11/02(木) 22:00:12.51

実際の出力結果とか見せてくれよな～たのむよ～

2023/11/02(木) 22:03:08.87

翻訳も中々だ
実質他のモデルを日本語で使える
しかも>>590これと一緒に使ったらいろんなタスクこなせるぞ
三連休はこれで潰れそうだ

2023/11/02(木) 22:08:24.44

>>607
llama.cpp 付属のconvert.pyとquantizeを使ってる

2023/11/02(木) 22:15:48.77

>>611
llama.cppでできるのか。さんきゅ　試してみる。

2023/11/02(木) 22:16:00.68

ファインチューニングのやり方をまとめてほしい

2023/11/02(木) 22:47:16.06

>>611
もひとつ質問
q5k_m以上も可能？
q4k_mのggfuアップしてる人のメッセにq5k_m以上はbloke頼みますみたいな書き込み見たんだけど

2023/11/02(木) 23:31:15.96

>>614
llama.cpp付属のquantizeでQ5_K_M 以上へも量子化できるよ
対応してるフォーマットは以下の通り

https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/quantize.cpp#L16-L32

2023/11/02(木) 23:34:36.63

さんきゅー

2023/11/03(金) 00:16:19.00

おお！
でも、ニキが絶賛して量子化開始するって言ってくれた。(*'▽')
明日には遊べるぞ！

2023/11/03(金) 00:30:46.23

rinnaの7Bもkoboldで動かすといいな
同じ言葉の繰り返しとかもあるがそれはGPT3.5でも起こるし13Bや20B辺りが出れば化けるかもしれん。

2023/11/03(金) 00:54:46.67

TheBloke/japanese-stablelm-instruct-beta-70B-GGUF
ｷﾀ━━━━(ﾟ∀ﾟ)━━━━!!

2023/11/03(金) 00:59:44.82

70B動かせる環境ほしいなー俺もなー
メモリ増設しようとしたらメモリスロットがイカれちゃって涙がで、でますよ

2023/11/03(金) 01:13:10.19

今日は落として試すまで寝れんなｗ

2023/11/03(金) 03:04:28.26

GPTQがまだアップロード終わってないみたいで待ちきれずにGGUFでやっててすっげー遅いけど才能は感じる
https://i.imgur.com/0X90WwT.jpg
自分が入れたの1行目だけで2行目以降が生成結果なのだけれどこのフリでこの内容になる辺りエロの素養はありそう

2023/11/03(金) 03:36:54.62

試してる内にAWQもアップロード終わってた。こっちなら現実的に使えるスピードだからこれから色々試そう。
https://i.imgur.com/bS49COk.png

2023/11/03(金) 04:33:04.30

期待してたのとはちょっと違う方向性に進んだけど悪くない。
https://i.imgur.com/VbhsD0L.png

チャットは微妙かも。チャットの中で勝手にチャットを始めたがる。プロンプトやパラメーターで調整出来るのかもしれないが。
https://pbs.twimg.com/media/F988jxRbMAASSXH.jpg

2023/11/03(金) 04:40:39.49

犯行に及んだ[5]。

ウィキペディア食わせるのええけど、こういうの事前に削除しないんかね
[要出典]とかも出てきそう

2023/11/03(金) 10:38:38.18

確かに今まで試したモデルの日本語とは別次元だな
これが70Bの日本語特化モデルの実力か…
出力が死ぬほど遅いけどな！
https://i.imgur.com/Wr1X82y.png

2023/11/03(金) 10:41:04.43

M2Ultra持っている奴このスレにおるんやっけ
ただのM2だったか？

どれくらいの速度でるんやろ

2023/11/03(金) 10:58:49.10

70bってどんなスペックなら動かせるの

2023/11/03(金) 11:05:02.38

そういう頻出質問テンプレにまとまってなかったっけ？

2023/11/03(金) 11:05:25.38

プレーンな70bはどれくらいで動くんだろうな

GPTQが楽しみだな

2023/11/03(金) 11:12:53.00

プレーンの場合は基本、消費するVRAMはモデルサイズ＋トークン数に応じて増加じゃないの？

2023/11/03(金) 11:15:40.91

取りあえず近親とママショタがOKなことは確認できたのでエロに関しては規制無しの模様

2023/11/03(金) 11:25:27.56

japanese-stablelm-instruct-beta-70B-GPTQ来てたから動かしてるけど当然ながら賢い
でもcalm2-7b-chatがむしろサイズの割りにやけに優秀で用途次第ではこっちもいいな

2023/11/03(金) 11:28:18.58

どんな環境で動かしてる？
Google Colab？

2023/11/03(金) 11:35:51.16

うちはメインPCが4090+3090でVRAM48GBあるから70BのGPTQならGPUで普通に動く

2023/11/03(金) 12:04:39.43

blokeニキのjapanese-stablelm-instruct-beta-70b.Q4_K_M
koboldで40レイヤーをGPUにオフロードしてるけどクソ遅い
VRAM12GBだと雀の涙だな

環境はRAM64GB＋4070ti
RAM使用率は96％

しばらくはガンマ7bで遊ぶわ

2023/11/03(金) 12:08:25.59

>>635
はえーすっごい大きい……

2023/11/03(金) 12:19:41.61

>>636
VRAM12Gで40レイヤーとかマジかと思って試したら、ちゃんと起動するんだな。
以前はエラーで落ちたのに・・・。
というわけで、１２Ｇなら、レイヤーを12に設定して試してみなされ。
きっと幸せになれるｗ

2023/11/03(金) 12:44:32.33

レイヤーって何MBとか決まってるのかね？
うちの4090だと40レイヤー指定で20Gくらい使ってる気がする

2023/11/03(金) 12:52:26.92

今のkoboldは足りないVRAMをメインメモリから無理矢理使ってる感じだね。
基本VRAMに収まるようにレイヤー数を調整した方が効率いいみたい。

2023/11/03(金) 13:25:41.38

その辺の設定は起動時の表示を見ながら上げ下げして適正値を模索だな

2023/11/03(金) 13:44:51.43

>>636
token/secだとどのくらいの速度なん？

2023/11/03(金) 13:47:46.73

>>627
M1Max/RAM64GBだけど5.5tokens/sec前後

2023/11/03(金) 13:48:48.52

>>643
はやっ……！

2023/11/03(金) 14:08:12.66

>>643
やはり70Bクラスからはベストの選択肢なんかな
でも当時の金額的には>>635の構成とどっこいだったりするんやろか

2023/11/03(金) 14:09:20.85

M2Ultraの128GBモデルとかだと多分130B時代とかにも
ついていけるんやろね

2023/11/03(金) 14:13:14.84

128Gだと180Bのq5k_mがギリ動かんからM3 ultraで256G以上待ってるｗ

2023/11/03(金) 14:41:38.86

https://twitter.com/_oshizo_/status/1720314706177716563
（別のPCで）テキスト打ち作業でもしながら気長に小説書かせるぶんには
どうにかなる速さって感じにも見えるな
https://twitter.com/thejimwatkins

2023/11/03(金) 14:55:16.23

>>645
為替の差もあるけど発売当初30万ちょいくらいだったよ

2023/11/03(金) 14:59:04.25

>>648
ggfuのq5k_m再生より遅いな

2023/11/03(金) 14:59:05.82

今の感覚だと40万くらいになるんかな
3090と4090の二枚載せ（not中古）よりはさすがに安そうやね

2023/11/03(金) 15:03:35.31

>>651
今見たら現行機種のM2Max+RAM64GBは定価35万〜だった

180BやってみたくてRAM192GBの価格見たら80万超えてきて厳しい…

2023/11/03(金) 15:04:11.67

貧乏人はコスパ最強の3060を沢山刺していこうぜ

2023/11/03(金) 15:17:45.18

>>638
少し速くなったわw
けど全然実用的じゃねー

>>642
0.9T/sだった　>>643の1/5以下か‥

2023/11/03(金) 15:38:36.43

そんなもんだよね
Macが異常なのよ

2023/11/03(金) 15:43:23.03

実際のところ3060を4枚差しで70B動かしてるぜ～とかいう奴
ここにおるんか？

2023/11/03(金) 15:51:22.52

3060を4枚フルスペックで動かす環境作るより3090買ったほうが安いから居ない

2023/11/03(金) 16:02:09.37

3090が1枚じゃ24GBにしかなんないやん
量子化しても70Bをきちんと載せるにはきついのでは

まあ中古視野に入れれば3090x2と言うほど値段変わらんってのはあるんやろけど

2023/11/03(金) 16:03:20.38

そういえばM3MAXがM2MAXよりメモリ帯域減ってるらしいから、LLMに関してはUltra出てもM2Ultraの方が速い可能性があるな

2023/11/03(金) 16:08:46.96

3090中古みたいにM2Ultraの中古が狙い目になったりするやろか
まあ元がクッソ高いからなあ

2023/11/03(金) 16:30:24.14

うーん、昨日からTheBloke/japanese-stablelm-instruct-beta-70B-GGUFの、Q5k_mで小説書かせてたんだけど
確かに日本語できるけど、なんかパッとしないって感じた。
それで、試しにQ6kを試したんだけど

なんか、別もんみたいにいい感じになったぞ。５ビットと６ビットでこんなに違うもんなのか？
スピードも大して変わららんし（遅いのは慣れたｗ）これからは、これで遊ぶわ

2023/11/03(金) 16:36:58.99

>>661
ダウンロードだけでもしんどいけど試すか…

なんなら4090を新品2枚より安くて速そう
https://i.imgur.com/Ob3XK7O.png

2023/11/03(金) 16:49:51.83

GPU2枚でも4枚でも電源を最低でも1000W以上にしないと動かないよね

2023/11/03(金) 16:53:19.91

電子レンジみたいなワット数…

2023/11/03(金) 16:54:30.40

>>661
試してみようかな
ところでこいつみたいに2分割されてるファイルはどう扱えばいいの？

2023/11/03(金) 17:10:45.54

>>665
copy oooo.slpit_* /B oooo.ggfu /B （/Bオプション必須）
みたいにコマンドプロンプトで合体させる。

2023/11/03(金) 17:15:39.15

サンクス
やってみる

2023/11/03(金) 18:51:14.17

paperspace A100-80G Free
TheBloke_japanese-stablelm-instruct-beta-70B-AWQ
AutoAWQでno_inject_fused_attentionにチェック以外はデフォ
https://i.imgur.com/OKxnCKu.png

2023/11/03(金) 18:54:56.72

Growthプランか
どれくらいの頻度で空いているかにもよるが

2023/11/03(金) 19:06:19.45

しかし手数料とか入れるともう39$/月は6000円以上/月になるんか
円安め

2023/11/03(金) 23:27:20.98

>>654
ありがとう 1T/s出てないとかなり遅いって感じるよな……
でもその位ならぎりぎり使えなくもないって程度だ、個人的には

2023/11/04(土) 09:57:01.20

最近流行りのミニPC(N100/16GB)を入手したので試したけど13Bモデルはそれなりの速度で動くな
速くはないけどメイン機で33Bを動かすくらいの感じだ

2023/11/04(土) 12:01:20.06

Blokeニキへの依頼ってどこでやってんだ?calm2-7b-chatも依頼してくれると助かる
というか自前で量子化できるならしたいんだがllama.cppとか読んでもゴチャついててようわからん

2023/11/04(土) 12:53:49.27

calm2-7bはmmnga版があるからやってくれないかもしれん
stockmarkもggfuだけやってないし

2023/11/04(土) 15:24:12.97

本家のサンプル書き換えでの4bit変換でも動かせてるで
プロンプトを4000文字ぐらい積んでもVRAM9GBとかでRTX3060でも速度は快適(16t/sぐらい？)や
プロンプトを積んで頭の悪さを軽減でけんかなぁと試行錯誤しとる
model = AutoModelForCausalLM.from_pretrained(
"cyberagent/calm2-7b", device_map="auto",
torch_dtype=torch.bfloat16, offload_folder="cache",
quantization_config=BitsAndBytesConfig(
load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4"))
面倒なpip↓他は言われるがままに
pip install -q torch==2.0.1+cu118 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install bitsandbytes --prefer-binary --extra-index-url=https://jllllll.github.io/bitsandbytes-windows-webui

2023/11/04(土) 17:45:10.38

blokeニキのページに一瞬だけcalm2-7bが表示されたけど今見ると消えてるな

2023/11/05(日) 10:42:16.61

実際japanese-stablelm-instruct-beta-70B-GGUFは出来映えどうよ？

2023/11/05(日) 11:34:03.93

日本語性能はダントツなのは間違いない
でも小説書かせるとちょっとぎこちない
で思ったんだがもしかしてyouriみたいに
baseモデルの方がいいってことあるかな
帰ったら7bで比べてみるわ
何も考えずinstract選んでたがvocabにもbaseにあててるやつあるしあるいは。。

2023/11/05(日) 11:37:02.68

問題になるのはいつだって動かす環境だ
新PCにできる金ほしーなー

2023/11/05(日) 13:12:09.24

>>677
日本語力は高いけどGPT3.5と一緒でハピエン厨

2023/11/05(日) 13:32:50.60

>>680
いや、
むしろすぐ襲い出すのをなんとか止めてるw
こうゆうところはAIのべりすとによく似てる　

2023/11/05(日) 13:36:20.96

文体や口調が一定しなかったり相手の呼び方がコロコロ変わったりもするな
まあこれはGPT3.5でもよくあってGPT4でやっと安定した問題だから日本語の難しさでもある

2023/11/05(日) 13:36:57.75

>>681
プロンプトが悪いんかな
犯罪的なシチュエーションでも被害者がノリノリで感じ始めてしまう

2023/11/05(日) 13:38:58.64

ところでKoboldがバージョンアップして過去のトークンの読み込み方が大きく変わったぽい
設定の保持がかなり改善されそうだけど果たして

2023/11/05(日) 13:58:35.55

1文字1token言語だから記憶力不足に悩まされる問題は数年レベルでは解決されそうにないがそこはもうむしろ云万token積もうが混乱しなくなる方向性の進化のほうがまだ期待出来るのかもしれない

2023/11/05(日) 14:03:45.02

英語だけどOpenHermes-2.5-Mistral-7Bは悪くないな
Mistral-7B-OpenOrcaより面白いこと言ってくる気がする

2023/11/05(日) 14:07:48.10

英語だとよっぽどのことやらせようとしない限りはpoeのChatGPTで
結構がんばってくれるからなあ

どうしても年齢明記したいんや！　って奴にはささらないし、
ローカルには好き放題書き換え可能のメリットが常に存在するが

2023/11/05(日) 17:52:12.03

vocab-7b-base とvocab-7b-instrct版試したけど、mmnga版のせいなのかどうかは不明だけど両方不安定でいまいち確証できなかった。
でもyouriの例もあるし、気になるから、こっちもニキに依頼したわ

stabilityai/japanese-stablelm-base-beta-70b

2023/11/05(日) 18:00:55.57

モモンガは何度かアップロードし直されてからやっとまともに動作するのがデフォなんだよな…

2023/11/05(日) 19:24:31.84

量子化って手順通りにやれば誰でも同じになるんじゃないのかな？
このスレで自前でやってる人は普通に動いてるのに、なんでmmnga氏のは変なんだろ

2023/11/05(日) 23:33:09.02

元モデルが、たとえばGGUFに変換して使用することを想定してなくて、GGUFのフォーマットに沿ってない設定が使われていると、ただ変換しただけのmmnga氏版が壊れる。
TheBloke氏の場合、アップ前にも動作検証してるっぽいし、軽微な場合は修正してから変換してるっぽいので、時には元モデルとは異なるプロンプトテンプレートが推奨されていたりもする。
両氏が同一モデルを変換してるとき、GGUFの起動ログを見てると差異が生じてる場合があるのよ。

2023/11/05(日) 23:41:07.81

なるほど
自前でやるにしても特殊なノウハウが必要なのね。
やはりニキは偉大だ

2023/11/06(月) 02:49:04.79

あんまり話題になってないけど、英語で使う分には Xwin-LM-13B-v0.2 は13Bの割りに性能高い気がする。
的外れな出力が少ない気がするし、変な繰り返しもあんまり出ない。
Nethena-MLewd-Xwin-23B もやや得手不得手がある感じはしたけど悪くない感じ。
使い方は会話というよりは物語生成。（Present the story/scene/conversation～みたいな指示する。）

2023/11/06(月) 04:12:38.94

japanese-stablelm-instruct-beta-70B-GPTQ
やればできる子なんだけど、なかなか指示どうりに動いてくれないな
書き直してと言ったら書き直すんだけど、指示した部分を直してくれなかったり、
指示の仕方が悪いのかな

2023/11/06(月) 06:19:18.95

>>693
Nethena-MLewd-Xwin-23B は自分も気に入って使ってるよ
描写力あるし展開も豊かでかなりエロいし23Bだから出力速度も速い
普段使いにはバランスがすごくいいと思う
最近はこれを中心に使ってる

2023/11/06(月) 07:18:50.34

>>691
llama.cppが使いやすいからGGUFを落としてたけどそんな弊害があったのか

pythonの知識あるならGPTQの方がいいのだろうか？

2023/11/06(月) 07:50:38.05

calm2もstockmarkもニキのggfuきた

2023/11/06(月) 12:12:22.56

日本語ローカルLLMもかなり良くなってきたな
まだのべりすとやGPT4を埋めるほどじゃないが選択肢に入る

2023/11/06(月) 12:49:12.72

エロで勉強してるけど、クラウドに上げたくない情報は沢山あるから、使いこなして仕事でも使いたい