なんJLLM部 ★4

2023/09/30(土) 08:32:45.60

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
英語ならそこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
日本語は、どう転んでもローカルで動かせる今の世代はオバカなので
そこは期待しすぎんといてな

自薦・他薦のモデルやツールは>>2以降

なんJLLM部 ★3
https://fate.5ch.net/test/read.cgi/liveuranus/1691639766/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

2023/11/03(金) 15:38:36.43

そんなもんだよね
Macが異常なのよ

2023/11/03(金) 15:43:23.03

実際のところ3060を4枚差しで70B動かしてるぜ～とかいう奴
ここにおるんか？

2023/11/03(金) 15:51:22.52

3060を4枚フルスペックで動かす環境作るより3090買ったほうが安いから居ない

2023/11/03(金) 16:02:09.37

3090が1枚じゃ24GBにしかなんないやん
量子化しても70Bをきちんと載せるにはきついのでは

まあ中古視野に入れれば3090x2と言うほど値段変わらんってのはあるんやろけど

2023/11/03(金) 16:03:20.38

そういえばM3MAXがM2MAXよりメモリ帯域減ってるらしいから、LLMに関してはUltra出てもM2Ultraの方が速い可能性があるな

2023/11/03(金) 16:08:46.96

3090中古みたいにM2Ultraの中古が狙い目になったりするやろか
まあ元がクッソ高いからなあ

2023/11/03(金) 16:30:24.14

うーん、昨日からTheBloke/japanese-stablelm-instruct-beta-70B-GGUFの、Q5k_mで小説書かせてたんだけど
確かに日本語できるけど、なんかパッとしないって感じた。
それで、試しにQ6kを試したんだけど

なんか、別もんみたいにいい感じになったぞ。５ビットと６ビットでこんなに違うもんなのか？
スピードも大して変わららんし（遅いのは慣れたｗ）これからは、これで遊ぶわ

2023/11/03(金) 16:36:58.99

>>661
ダウンロードだけでもしんどいけど試すか…

なんなら4090を新品2枚より安くて速そう
https://i.imgur.com/Ob3XK7O.png

2023/11/03(金) 16:49:51.83

GPU2枚でも4枚でも電源を最低でも1000W以上にしないと動かないよね

2023/11/03(金) 16:53:19.91

電子レンジみたいなワット数…

2023/11/03(金) 16:54:30.40

>>661
試してみようかな
ところでこいつみたいに2分割されてるファイルはどう扱えばいいの？

2023/11/03(金) 17:10:45.54

>>665
copy oooo.slpit_* /B oooo.ggfu /B （/Bオプション必須）
みたいにコマンドプロンプトで合体させる。

2023/11/03(金) 17:15:39.15

サンクス
やってみる

2023/11/03(金) 18:51:14.17

paperspace A100-80G Free
TheBloke_japanese-stablelm-instruct-beta-70B-AWQ
AutoAWQでno_inject_fused_attentionにチェック以外はデフォ
https://i.imgur.com/OKxnCKu.png

2023/11/03(金) 18:54:56.72

Growthプランか
どれくらいの頻度で空いているかにもよるが

2023/11/03(金) 19:06:19.45

しかし手数料とか入れるともう39$/月は6000円以上/月になるんか
円安め

2023/11/03(金) 23:27:20.98

>>654
ありがとう 1T/s出てないとかなり遅いって感じるよな……
でもその位ならぎりぎり使えなくもないって程度だ、個人的には

2023/11/04(土) 09:57:01.20

最近流行りのミニPC(N100/16GB)を入手したので試したけど13Bモデルはそれなりの速度で動くな
速くはないけどメイン機で33Bを動かすくらいの感じだ

2023/11/04(土) 12:01:20.06

Blokeニキへの依頼ってどこでやってんだ?calm2-7b-chatも依頼してくれると助かる
というか自前で量子化できるならしたいんだがllama.cppとか読んでもゴチャついててようわからん

2023/11/04(土) 12:53:49.27

calm2-7bはmmnga版があるからやってくれないかもしれん
stockmarkもggfuだけやってないし

2023/11/04(土) 15:24:12.97

本家のサンプル書き換えでの4bit変換でも動かせてるで
プロンプトを4000文字ぐらい積んでもVRAM9GBとかでRTX3060でも速度は快適(16t/sぐらい？)や
プロンプトを積んで頭の悪さを軽減でけんかなぁと試行錯誤しとる
model = AutoModelForCausalLM.from_pretrained(
"cyberagent/calm2-7b", device_map="auto",
torch_dtype=torch.bfloat16, offload_folder="cache",
quantization_config=BitsAndBytesConfig(
load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4"))
面倒なpip↓他は言われるがままに
pip install -q torch==2.0.1+cu118 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install bitsandbytes --prefer-binary --extra-index-url=https://jllllll.github.io/bitsandbytes-windows-webui

2023/11/04(土) 17:45:10.38

blokeニキのページに一瞬だけcalm2-7bが表示されたけど今見ると消えてるな

2023/11/05(日) 10:42:16.61

実際japanese-stablelm-instruct-beta-70B-GGUFは出来映えどうよ？

2023/11/05(日) 11:34:03.93

日本語性能はダントツなのは間違いない
でも小説書かせるとちょっとぎこちない
で思ったんだがもしかしてyouriみたいに
baseモデルの方がいいってことあるかな
帰ったら7bで比べてみるわ
何も考えずinstract選んでたがvocabにもbaseにあててるやつあるしあるいは。。

2023/11/05(日) 11:37:02.68

問題になるのはいつだって動かす環境だ
新PCにできる金ほしーなー

2023/11/05(日) 13:12:09.24

>>677
日本語力は高いけどGPT3.5と一緒でハピエン厨

2023/11/05(日) 13:32:50.60

>>680
いや、
むしろすぐ襲い出すのをなんとか止めてるw
こうゆうところはAIのべりすとによく似てる　

2023/11/05(日) 13:36:20.96

文体や口調が一定しなかったり相手の呼び方がコロコロ変わったりもするな
まあこれはGPT3.5でもよくあってGPT4でやっと安定した問題だから日本語の難しさでもある

2023/11/05(日) 13:36:57.75

>>681
プロンプトが悪いんかな
犯罪的なシチュエーションでも被害者がノリノリで感じ始めてしまう

2023/11/05(日) 13:38:58.64

ところでKoboldがバージョンアップして過去のトークンの読み込み方が大きく変わったぽい
設定の保持がかなり改善されそうだけど果たして

2023/11/05(日) 13:58:35.55

1文字1token言語だから記憶力不足に悩まされる問題は数年レベルでは解決されそうにないがそこはもうむしろ云万token積もうが混乱しなくなる方向性の進化のほうがまだ期待出来るのかもしれない

2023/11/05(日) 14:03:45.02

英語だけどOpenHermes-2.5-Mistral-7Bは悪くないな
Mistral-7B-OpenOrcaより面白いこと言ってくる気がする

2023/11/05(日) 14:07:48.10

英語だとよっぽどのことやらせようとしない限りはpoeのChatGPTで
結構がんばってくれるからなあ

どうしても年齢明記したいんや！　って奴にはささらないし、
ローカルには好き放題書き換え可能のメリットが常に存在するが

2023/11/05(日) 17:52:12.03

vocab-7b-base とvocab-7b-instrct版試したけど、mmnga版のせいなのかどうかは不明だけど両方不安定でいまいち確証できなかった。
でもyouriの例もあるし、気になるから、こっちもニキに依頼したわ

stabilityai/japanese-stablelm-base-beta-70b

2023/11/05(日) 18:00:55.57

モモンガは何度かアップロードし直されてからやっとまともに動作するのがデフォなんだよな…

2023/11/05(日) 19:24:31.84

量子化って手順通りにやれば誰でも同じになるんじゃないのかな？
このスレで自前でやってる人は普通に動いてるのに、なんでmmnga氏のは変なんだろ

2023/11/05(日) 23:33:09.02

元モデルが、たとえばGGUFに変換して使用することを想定してなくて、GGUFのフォーマットに沿ってない設定が使われていると、ただ変換しただけのmmnga氏版が壊れる。
TheBloke氏の場合、アップ前にも動作検証してるっぽいし、軽微な場合は修正してから変換してるっぽいので、時には元モデルとは異なるプロンプトテンプレートが推奨されていたりもする。
両氏が同一モデルを変換してるとき、GGUFの起動ログを見てると差異が生じてる場合があるのよ。

2023/11/05(日) 23:41:07.81

なるほど
自前でやるにしても特殊なノウハウが必要なのね。
やはりニキは偉大だ

2023/11/06(月) 02:49:04.79

あんまり話題になってないけど、英語で使う分には Xwin-LM-13B-v0.2 は13Bの割りに性能高い気がする。
的外れな出力が少ない気がするし、変な繰り返しもあんまり出ない。
Nethena-MLewd-Xwin-23B もやや得手不得手がある感じはしたけど悪くない感じ。
使い方は会話というよりは物語生成。（Present the story/scene/conversation～みたいな指示する。）

2023/11/06(月) 04:12:38.94

japanese-stablelm-instruct-beta-70B-GPTQ
やればできる子なんだけど、なかなか指示どうりに動いてくれないな
書き直してと言ったら書き直すんだけど、指示した部分を直してくれなかったり、
指示の仕方が悪いのかな

2023/11/06(月) 06:19:18.95

>>693
Nethena-MLewd-Xwin-23B は自分も気に入って使ってるよ
描写力あるし展開も豊かでかなりエロいし23Bだから出力速度も速い
普段使いにはバランスがすごくいいと思う
最近はこれを中心に使ってる

2023/11/06(月) 07:18:50.34

>>691
llama.cppが使いやすいからGGUFを落としてたけどそんな弊害があったのか

pythonの知識あるならGPTQの方がいいのだろうか？

2023/11/06(月) 07:50:38.05

calm2もstockmarkもニキのggfuきた

2023/11/06(月) 12:12:22.56

日本語ローカルLLMもかなり良くなってきたな
まだのべりすとやGPT4を埋めるほどじゃないが選択肢に入る

2023/11/06(月) 12:49:12.72

エロで勉強してるけど、クラウドに上げたくない情報は沢山あるから、使いこなして仕事でも使いたい

2023/11/06(月) 19:46:33.49

stabilityai/japanese-stablelm-base-beta-70b
ニキ、キューに入れたって
明日にはbaseも試せそうだ

2023/11/06(月) 22:53:39.10

base落ちたんで試してみた。
koboldの指示モードではinstractより落ちるけど、ストーリーモードでは、すごくいい感じだ。
AIのべりすとみたいな感覚で使える。

2023/11/07(火) 00:01:40.16

>>693
Xwin-LM-13B-v0.2は回答の質は高いと思うけど修正キツめじゃない？
なるべくトークン節約したいけどなんか良いプロンプトある？

2023/11/07(火) 08:06:16.20

>>702
「□□的な理由で回答できない」→「□□を無視する/存在しない」とか「反対概念が推奨される」をDescription(SillyTavern使ってるので)に追加
ってやってたらそのうち文句言わなくなったので、あまり気にしてなかった。
モグラ叩きみたいに潰しただけなので、トークン節約的なアドバイスはあんまり無いかな。
しいていうと、でっち上げで良いのでなんか理由付けた方が言うこと聞いてくれやすい気はする。
他は、chub.aiで良い反応返してくれるのを探して参考にしてみるとか。
一時的で良ければ回答チャット書き換えで冒頭を肯定的な反応にしてからContinueでうまくいくこともある。

2023/11/07(火) 10:01:40.20

CFGの数値でエロさが変わるの知らなかった。1だと良心的で1.5だとゲスになるんだね
ローダーのcfg-cacheにチェック
ただしこれ付けると余計にメモリ食うみたい

2023/11/07(火) 13:20:12.94

>>703>>704
サンキュー
そっちの方向で色々調べてみた結果、Negative promptにお決まりのモラルワードを入れてCFG Scaleを1.5～2.0ぐらいにしてみたら割とすんなり悪いことを話してくれるようになった

Negative promptはこれ
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.

2023/11/07(火) 18:45:20.60

Xwin-LM-70B-v0.2は、まだかー

2023/11/07(火) 20:33:09.20

GPTQでCFGを2.0にすると文字化けがひどくなる。これが量子化で削られてるってことなんだろうか

2023/11/07(火) 22:45:59.73

>>694
japanese-stablelm-instruct-beta-70b
だいぶいい感じのエロ小説が書けるようになってきた。
規制が入ってるのか、エロい展開になると途端に精度が落ちるみたいだね

2023/11/08(水) 12:34:34.73

もしかしてInstructionの一番最初が大事だったりする？

2023/11/08(水) 13:01:12.76

GPTQとGGUFってそれぞれ長所短所があるんか？
どっち使ったらいいんや…

2023/11/08(水) 13:08:59.67

動作速い順に

めっちゃ要求スペック高いから少し情報量落としたのがAWQ
AWQと同じ類で少しアルゴリズムが古いのがGPTQ
GPUのvramなんて4090ですら24GBしかないんだから一般人にはとても使えないよ、ってことでgpu無しで動くよう変換したのがGGUF

2023/11/08(水) 13:15:01.73

>>711解説サンクス

2023/11/08(水) 14:32:32.02

ちなみにjapanese-stablelm-instruct-beta-70bのGGUF動かしてる人はメモリいくら積んでるんやろか？
参考にしたい

2023/11/08(水) 14:43:32.77

DRAMは128GB、VRAMは４８GB（3060x4）で動かしてる、GGUFでもGPTQでもどちらでも動かせるけど
GGUFは激おそだからほとんど使わない
一度CFG2.0でGGUF試してみるかな

2023/11/08(水) 14:51:35.81

>>713
koboldなら、64Gあれば動く

>>714
それって、SillyTavernで動かしてるの？
これ、落としたけど使い方が良く分からん。

2023/11/08(水) 14:59:52.56

基本大葉

2023/11/08(水) 17:53:56.83

>>714>>715サンクス
DRAM48GBじゃちょっと辛そうですね…

2023/11/08(水) 17:57:11.12

>>717
Q4_K_Mってついてるやつなら、48Gでも動くよ

2023/11/08(水) 21:46:51.49

GGUFでもVRAMにモデル乗るでしょ
乗るだけ乗せたらCPUだけで動かすより断然早いよ

2023/11/08(水) 21:53:29.68

期待させるようなこと言うなよ、全然遅い

2023/11/08(水) 22:21:13.65

うん。気休め程度ですな。
基本、70Bをkoboldで動かすときは、他になにかしながらか、飯の間実行させとくとかがいい。

2023/11/08(水) 22:59:23.32

>>720
何t/sくらい？

2023/11/09(木) 00:24:30.33

oobaに↓の拡張を入れたら生テキストでLoRA学習できた。
https://github.com/FartyPants/Training_PRO/tree/main

ただjapanese-stablelm-instruct-gamma-7bのエロ表現を改善しようとWebのエロ小説を学習させてLoRA作ったんだけど明らかに馬鹿になってて使い物にならない。
7bモデルじゃやっぱり限界だろうか。それ以上だとVRAMがきついなぁ。
単純にデータセットや学習パラメータが悪いのかもしれないが。

2023/11/09(木) 01:37:54.25

>>723
面白そう
StableDiffusionでもいい感じのLoRA錬成するの結構試行錯誤必要だったりするし、LLMも学習率とかステップ数とかいろいろパラメータ調整試したらあるいはって感じかね

2023/11/09(木) 03:24:43.77

>>723
画像生成でもキャプション設定とか教師画像で変わっちまうからなぁ
同じ素材使ってるのに設定弄ったら最初作ったのより劣化するとかザラだし
言語モデルのloraなんて画像以上に闇鍋だろう

2023/11/09(木) 04:32:36.66

LLMだとdreamboothに相当する追加学習法ないんのん？

2023/11/09(木) 06:59:25.23

>>723
ＬｏＲＡの作り方教えてください。
githubから大葉に入らない

2023/11/09(木) 07:35:49.54

ここでマルチGPU使ってるニキいたと思うけど設定教えてくれんか？
koboldcppはそもそもマルチ対応してなくてoobaでやってるが、2台目を全然使ってくれない

2023/11/09(木) 07:44:42.76

>>728
ローダー何使ってますか

2023/11/09(木) 08:21:41.49

koboldcppも、gpuをどれ使うとか按分とかの設定があった気がする

2023/11/09(木) 08:54:07.57

>729
>730
すまん、自決しました
そもそもハードウェアドライバーが不具合起こして使えなかっただけだった

ドライバー入れ直したら認識されてkoboldでもマルチGPUで行けるようになったわ！
4090+3090で70Bがストレス無く動くようになったのが嬉しい

2023/11/09(木) 09:01:53.09

変態がおおすぎやしないか

2023/11/09(木) 09:26:01.25

4090+3090ってすげえなあ
合計で50万円超えてるんじゃ？

2023/11/09(木) 09:33:37.04

koboldcpp.exeが読み込めるモデルって決まっているんですか？落ちちゃうんですが

2023/11/09(木) 09:37:22.99

こいつすげえ変態だぜ？

2023/11/09(木) 09:38:59.19

>>724 >>725
画像に比べると知見がなさ過ぎて難しいわ
過学習っぽくさせたLoRAを適用して元のデータセットの頭を切り抜いて生成するとデータセットと同じ後続の文章が続いたりするから学習自体はできてそうなんだが

>>727
普通に最新のoobaでSessionタブから「Install or update an extension」でgithubのURLいれたら入らない？
だめならoobaをアップデートじゃなくて再度入れなおした方がいいと思う

2023/11/09(木) 09:51:36.19

このスレが活発になり始めてから（りんなの3.6Bが出たあたり？）
ちゃんとした成功例が一度も報告されてへんのよな

2023/11/09(木) 09:55:35.67

>>734
どのモデルが落ちる？

2023/11/09(木) 11:22:56.33

>>738
koboldcpp.exeで
japanese-stablelm-instruct-beta-70B-GPTQのmodel.safetensorsを指定して
Launchを押すと落ちちゃいます。

2023/11/09(木) 11:58:55.18

ggfuを読み込むんだ
koboldはggmlとggfu専用

2023/11/09(木) 11:59:36.68

ミス
ggufね

2023/11/09(木) 12:02:14.03

あとメモリは64GB積んでおけよ

2023/11/09(木) 12:36:58.48

小説書かせるためのInstructionテンプレートってあるんですか？

2023/11/09(木) 12:49:44.51

>>743
次々質問する前に質問への回答にちゃんと反応したほうがいいぞ

2023/11/09(木) 12:50:48.91

まあLoRA作るほどの段階にないことは確定的に明らか

2023/11/09(木) 12:54:39.31

>>740-743
koboldcpp.exeで
japanese-stablelm-instruct-beta-70B-GGUF
起動できました。
ありがとうございます。

2023/11/09(木) 13:42:58.89

>>746
4Qk_m以上にしないとアホになるから注意な

2023/11/09(木) 16:08:48.05

>>737
これ何回も言ってる人いるけどinstruction tuningならいくらでも成功例あるだろ

2023/11/09(木) 16:17:52.75

>>748
せやろか
ござるりんなとかは見たけどそれだけじゃあ……

ってかむしろノウハウ教えてほしいわ

2023/11/09(木) 16:19:04.94

逆になぜかりんな2Bだかの時代のスレでは
えちえちりんなの出力結果晒している人がいたのよな

エロ小説だかエロチャットだかエロゲテキストだかで
学習させたとか言っていた気がするが・・・

2023/11/09(木) 16:21:15.72

>>736
lora以前にチャットモードで会話がループする事もあるぐらいだし
俺は悪文を読ませないように国語の勉強とか始めたわ
文章の美的感覚がなけりゃloraでクォリティＵＰ以前の問題になる

画像でも雑に素材入れると余計な物を学習する事が多い
素材の選定や加工はやらざる得ないと思う

2023/11/09(木) 17:03:53.94

理屈上はそうなんやけど画像と比べて食わせないといけないデータが
大量に必要な気がしてなあ

多少文法破綻しててもエロい文章はあるし、その辺はできる範囲でって
感じでええんちゃうかな

2023/11/09(木) 20:30:09.83

大規模言語モデルをLoRAで低コストかつ効率的に微調整できる「Punica」が登場 - GIGAZINE
https://gigazine.net/news/20231109-punica-lora-for-llm/

2023/11/09(木) 21:39:16.66

「勝者はMeta」
やはりオープンソースはっょぃ