【ボイスチェンジャー】なんJRVC部 5

2023/12/05(火) 17:00:39.54

Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/

2024/01/31(水) 18:58:32.56

他のスレだが反AIがまた激しくなってきたな

2024/01/31(水) 18:59:20.46

揚げ足取ってAIは有罪！有罪！と釣りを楽しんでるように見える

2024/01/31(水) 19:00:57.93

>>820
まったく同じ物はできないよ
500人からなるベースの学習データに声色載せるだけ

2024/01/31(水) 19:10:50.57

>>820
素材がある程度揃ってさえいれば、だいたい同じクオリティのものにはなるという感覚
極端に素材が少ないと学習の際に偏りが出る可能性はあるかも

2024/01/31(水) 19:13:26.94

>>821
反ワクや陰謀論者と同じようなもんよ
ほっときゃいいのさ

2024/01/31(水) 19:36:48.84

なるほどじゃあ自分の声素材だけ30分くらいを使って同条件で学習データ出させても出てくるものはだいたいおなじになる感じか
多人数のを混ぜて使ってるとわからんって感じで
特定の短い言葉だけ妙にうまく出ないからなんとかならんかと思ってたけどもう何回か同じ条件で自分で確かめてみるかな

2024/01/31(水) 19:59:24.65

反ワクは専門家に逆らうことで"専門家より詳しい俺！"っていうのに酔ってるわけで、まあいかにも低学歴やなんの取り柄もないカスが好きそうな感じの動機だけど、反AIってどういう動機なんだろ

2024/01/31(水) 20:46:35.87

RVCなら学習より変換元のソースのほうが影響大きいのと過学習にシビア
30epと入力次第くらい、つまりトレーニング
学習は1本メインにして声のコシ求めるか音程上下求めて足すかどうかくらいかと

2024/01/31(水) 21:25:58.33

ボイチェン興味あってRVC試してみたんだけど
明瞭にしゃべらないとちゃんと変換できないのはわかった
でもこれって学習している元の音声がそういう音声だからだとは思うけど
ボソボソしゃべりの音声で学習したら同じようなぼそぼそしゃべりでもいけるの？

2024/01/31(水) 23:53:00.13

>>829
おそらくいけるとは思う
ただ、特徴的だったりわりと明瞭に喋るキャラを学習したモデルはどう喋ってもそれなりにその声が出るが、ボソボソ無感情に喋るキャラだけを学習したモデルは、喋り方もある程度本家のマネをしないと再現出来ないかも

2024/02/01(木) 05:03:28.63

AIカバーも当たり強くなってきてるけど毎回モノマネ芸人とAIカバー似てるけどなんで後者だけそんな叩かれるんやろって思ってしまう

2024/02/01(木) 07:15:51.93

誰が何を叩いてようが勝手にやらせとけ、そんなの気にする意味ないわ

2024/02/01(木) 14:46:10.29

https://huggingface.co/spaces/litagin/moe-speech-similarity-map
欲しいって言ってた人いたからMoe Speechの類似度グラフ部分だけ見れるようにしといたで

2024/02/01(木) 14:58:25.55

>>833
ありがてぇ・・・ありがてぇ！
何から何までありがてぇ！

2024/02/01(木) 15:15:33.25

>>833
正直助かるゥ！

2024/02/01(木) 15:25:04.77

Bert-VITS2の日本語特化版できたらしいやん
https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta

2024/02/01(木) 16:01:25.79

よくわからんけど、styleのpretrainedフォルダのファイルと入れ替えればいいのかな？

2024/02/01(木) 16:15:38.08

Bert-VITS2のJapanese-Extraは、本家Bert-VITS2のJapanese-Extraブランチでしか使えんで
（よさそうならStyleのほうもJapanese-Extraの構造やモデルを使うようにバージョンアップ予定やけどいつになるかは分からん）

2024/02/01(木) 16:52:38.57

なるほど感謝やで
まあ自分はエロ専なので、通常会話の精度よりもnsfw音声のクオリティと量をどう高めていくかのほうに頭を悩ませてるで

2024/02/01(木) 17:37:14.12

Moe SpeechのNSFW版みたいなのも出したい気はするんやが、いつになるか分からん
適当なエロゲ買えば1つでもまあまあ音声データは多いから使える気するで

2024/02/01(木) 18:32:08.67

そもそもぶっこ抜きがどうやんのか分からねえよ！

2024/02/01(木) 18:49:08.36

そんなお子様はとっととおうちに帰って suck your mama's tities!!!

2024/02/01(木) 19:44:51.96

>>841
https://rentry.co/zdpt46yn
謎のメモ置いとくわ

2024/02/01(木) 19:50:40.83

Pub: 01 Feb 2024 10:37 UTC
妙だな、、、

2024/02/01(木) 19:51:34.32

言う手持ってるエロゲサクレットの１個だけだけどためしてみるわさんくうー

2024/02/01(木) 19:53:07.49

エロいこと言わせてシコってるだけなのにホンマ頭が上がらんな
ドチャクソエロいの作ったるで！

2024/02/01(木) 20:01:59.73

エロゲってファイル名やフォルダで声優ごとに分けられてるからええよな

2024/02/01(木) 20:42:18.50

シナリオファイル読み込めればセリフも抜いてこれるしな

2024/02/02(金) 01:19:41.07

>>833
こうやって見ると人の声は数珠繋ぎに類似点が存在するんだなぁ
同じ顔の人間が3人いるとかドッペルゲンガーとか思い出した
近似するサンプルで作ったモデル同士をマージすれば違和感も減るか？

2024/02/02(金) 09:16:59.45

FANZAのエロソシャゲから持ってくるのもありかな、寝室は大体単一話者だし

2024/02/02(金) 09:46:54.19

うーんそれも音声抜きがなあ
なんかいい方法ないかな
素人エロチャで一通り喋らせてからオナニーさせるとか…
あれはあれで高いけど…

2024/02/02(金) 10:58:59.74

Applio 3.0.5キタでようやく3.0以前と同じ機能になったかなってレベルや
ライブラリサイズが小さくなってるから前のと置き換えてもそろそろいい頃
https://github.com/IAHispano/Applio/releases/tag/3.0.5

2024/02/02(金) 13:07:04.89

Bert-VITS2のJapanese-Extra、なかなか良さげやで。学習回していくとあった声のガタツキが少なくなってるっぽい。
あと日本語g2pが修正されたからイントネーションやアクセントも違和感少なくなってる気がするけどプラセボかもしらん。

2024/02/02(金) 13:36:45.29

pytorchのバージョンが2.2.0になった影響でWindowsでは学習がうまくいかんっぽいから、
Windowsユーザーは
https://pytorch.org/get-started/previous-versions/#linux-and-windows-1
でtorchいれる必要があるっぽいことに注意

2024/02/02(金) 13:48:53.34

Applioと>>415でモデル作り直してみたが、うーん
良くなったような気もするけどプラセボな気がしないでもない
そんでも本家より使いやすいしv3出るまで（出るのか？）使ってみるかな

2024/02/02(金) 16:31:13.76

こっちも>>415で学習させてみたけどあんまり良くなった様には感じないわ
同じ素材で比較した限りだと既存のモデルの方がクリアに聴こえる(気がする
個人の環境にもよるだろうけど

2024/02/02(金) 17:58:09.66

>>833
>>803 でリクエストした者です。こんな丁寧に作って頂いてありがとうございます！

2024/02/02(金) 18:33:07.47

Applio3.0.4にOv2superやったけどRVCからザラザラ感が減った気がするかもしれないくらいでほぼ一緒だった
学習スピードはApplioの方が30～40％早いけど

2024/02/02(金) 19:15:38.89

Applioだから速かったのか、superだから速かったのか
どちらにせよ明確な差は速度だけってことかな
なんだかんだでボイチャならRVCが一番精度高いからもっとバージョンアップして欲しいんだがなぁ

2024/02/02(金) 20:58:51.45

>>858
そんな早くなっとるのに品質変わらんのか…
どんな原理なんや？？

2024/02/02(金) 21:09:03.97

そもそも本家のRVCはコードがぐちゃぐちゃでかなり無駄が多いらしいよ
だだぱん氏もそれがイヤで書き直してたぐらいだし

2024/02/02(金) 21:55:13.01

Style-Bert-VITS2にJapanese-Extra搭載待ち

2024/02/03(土) 01:20:34.82

https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.0
Style-Bert-VITS2にJapanese-Extra搭載したで

2024/02/03(土) 01:40:01.67

>>863
乙やで！

2024/02/03(土) 02:08:43.70

JP-Extra、かなり音質の自然性が増してアクセント抑揚も自然になる気がする。どこまでがプラセボか判断できんけどたぶんめっちゃよくなっとる。
ただ英語中国語が話せなくなるから、トリリンガルの売りは消えるな。
無理やり英語中国語のモデルから取ってきてマージして喋らせるということもできはしそうやけどちょっと無理がありそう
まあこのスレの人らなら日本語オンリーでもええやろ

2024/02/03(土) 07:05:31.45

>>863
colabにマージ機能もほしいな

2024/02/03(土) 07:50:36.31

使わない方選ぶとエラーが出る
https://imgur.com/V795QbM.jpg

2024/02/03(土) 08:30:41.72

>>863
ありがとーやで！

2024/02/03(土) 10:05:00.41

>>867
JP-Extra使うならそっちのセルを実行しろ（train_ms_jp_extra.pyて書いてある方）ってことやけど、それでもエラー出る？

2024/02/03(土) 10:09:19.11

>>869
まずはJP-Extraなしで学習したい

2024/02/03(土) 10:12:58.62

JP-Extra
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory ./slm/wavlm-base-plus.
リポジトリ見てもそんなファイルないんだがどうすればいい？

2024/02/03(土) 10:15:58.23

>>871
今回のアップデート専用のbat使ったか？
もしくは手動で仮想環境からpython initialize.pyをやる

2024/02/03(土) 10:16:28.67

>>870
構造がいろいろ違うから、無しなら無しの設定で最初から最後までやらんとだめやで。それでエラー出たら報告して。

2024/02/03(土) 10:18:29.16

よく見たら前処理に設定あったのか
すまんな

2024/02/03(土) 10:21:12.89

>>863
新しい物の開発に加えてサポートまで取り組んでくれるなんて
ほんま神やわ
あなたが神か

2024/02/03(土) 10:26:08.88

まだJapanese-Extra搭載のアプデはしてないStyle-Bert-VITS2だけど、「もう疲れちゃって、全然動けなくてェ…」で音声合成したらエラー吐いた
自分のクソモデルが悪いのかと思ったけどjvnvの4モデル全部で出た
テキストを削っていったら「んう」周りが怪しいと思った、だがその他一切のことはわかりません！
https://i.imgur.com/5d80Gl7.png

2024/02/03(土) 10:30:19.16

>>876
たぶん[n]が読めないっぽい

2024/02/03(土) 10:32:53.10

「関羽」とか「懇意」は「カヌ」「コニ」になるな

2024/02/03(土) 10:32:56.86

>>876
すまんな「んう」とかの「ん＋母音」で（読みがな取得の時）エラーが起きるっぽいバグがあった
今回の2.0でのアプデでそこも直っとるはずやから試してみてくれ（以前のモデルも動く）

2024/02/03(土) 10:35:09.78

「ん」の「n」がナ行になる読みの修正も今回でちゃんとされたはず（読み記号にNを使うようにした）

2024/02/03(土) 10:47:16.68

>>879
なおったァ！

2024/02/03(土) 11:06:53.42

昔の中国語訛りっぽい日本語もそれはそれで味があったな

>>879
やったぜ、家帰ったら試す！

2024/02/03(土) 11:17:16.94

うーん、確かに調教にかかる時間が当社比で半分くらいになった気がするので精度上がったんだろうな
なんならもう調教しなくてもいいくらいやな
ただ、どうしようもないんだろうけど、漢字の読み間違いが結構あるやね
パンツの柄をえと言ったり

2024/02/03(土) 11:26:17.80

読み間違えはなー。原理的には内部をいじれば感じそのままで読みのみを手動修正はできると思うんやけど、
UIでうまく実装するのが難しそうや

2024/02/03(土) 12:20:54.55

アップデートしたけど「○ん○」が直らない...
念のため新規で作り直したけど駄目だった、おま環かな？

2024/02/03(土) 12:29:38.78

>>885
ある特定の単語や並びによって駄目とかありそうやから、どの単語が具体的にエラーでたか報告してくれると助かる

2024/02/03(土) 12:41:00.88

>>886
推論はエラーなくできるんですけど上で修正してもらった「ん」の「n」がナ行になる読みの修正の部分、
カンウ、コンイ、などの発音が「かんぬ」「こんに」になってしまいます
母音以外の「ん〇」だと問題なく発音してくれます

2024/02/03(土) 12:50:47.56

>>887
すみません、間違えました
「かぬ」「こに」になってしまいます間違えました

2024/02/03(土) 12:54:42.97

>>887
あーなるほど、推論はエラーはなくてアクセントのところの読みも間違ってないけど「懇意」の生成された発音が「こんに」とかになるってことかな
旧verモデルは、「懇意」の音素列が「k o n i」として処理されてて「ん」とナ行の区別がついてないから、それはたぶん旧verやとどうにもならん点やな
（事前学習モデルがそもそも「ん」を「n」で学習されていたことの弊害）
その意味でもJP-Extraのほうがええな

2024/02/03(土) 13:00:04.39

>>889
了解です、JP-Extraの方で新しく学習して確認してみます
いつも回答していただきありがとうございます

2024/02/03(土) 14:12:23.84

JP-Extraは1ステップごとに経過が出るのかよ

2024/02/03(土) 16:23:56.05

>>852
さっそくいれてみたで
教えてくれてサンガツ！！

2024/02/03(土) 16:30:06.05

ネタで作ったチンピラモデルが意外とちゃんとチンピラになって楽しいw
エロいことに使いやすいしなかなか笑える

https://files.catbox.moe/zdkvgy.mp4

2024/02/03(土) 17:37:55.65

両者ともにパンツにめっちゃこだわってて草

2024/02/03(土) 21:20:31.87

https://i.imgur.com/WAaGcqU.jpg
あれ？もう10年以上mate使ってるが
もしかしてこのスレに関してだけはPCで見た方が楽なのでは…

2024/02/03(土) 21:26:38.97

NVAと間違たごめんちゃい
でもアクセラレーターさんダウンロード待ちなしで聞けたわ

2024/02/03(土) 23:54:14.96

>>863
早い対応でめっちゃ助かるで
JP-Extraでサンプル台詞読ませると明らかに違うな
棒読み感が無くなって声色もしっかり変わってる

2024/02/04(日) 14:09:38.02

VR機器本体のマイクで使ってたりするんだけど普通のボイスチェンジャーと違ってオーディミキサーとかマイクを使うことで遅延とかが改善されるとかはRVCでもあるのかな？

2024/02/04(日) 14:10:26.91

ごめん普通のボイスチェンジャーと同じように、です

2024/02/04(日) 14:14:45.22

遅延は純粋にマイクの遅延分が影響しそう。遅延よりもマイクの音質による質の差がありそう

2024/02/04(日) 14:33:36.85

『普通のボイスチェンジャー』が何を指しているのかがまずわからん
察するに、quest2とかをPCに繋いでVRchatでボイチェンしたいのだが、quest2のマイクを通すよりPCのマイク直のほうが遅延は少ないのか？みたいな疑問かね
だとしたらもちろんそうだろうな、と
でもそれ以上にRVCの設定を詰めたりグラボ新調したほうが効果は大きいかな、と

2024/02/04(日) 14:44:24.82

基本的にバッファを少なくした方が即応的になる
でもバッファが少ないとガビるから4090みたいな上位機種に買い替えてパワーで処理するしかない
安く済ますなら専用チップの載ったボイチェンインターフェースを買うのが待ち時間がない

2024/02/04(日) 15:30:49.96

遅延は入力遅延+ボイチェン処理の遅延＋出力遅延
＞オーディミキサーとかマイクを使うことで遅延とかが改善される
これで改善されるのは入力遅延と出力遅延
いまRVCの遅延がどのくらいあるかわからんけどRVCの遅延の方が遙かにデカイから
RVCの遅延を詰めれてないならオーディオインターフェース変えても大して変わらんと思う

2024/02/04(日) 20:57:24.89

JP-Extraの学習で共有メモリの消費激しいのって仕様なんかな？

2024/02/04(日) 21:15:42.91

構造が一部ver 2.3みたいになっとるし、VRAM使用量増加とかはそれが原因やろうな

2024/02/04(日) 21:52:04.75

バッチサイズ2でVRAMと共有合わせて16GB超えるくらい派手にメモリ使うで…

2024/02/04(日) 22:14:04.57

Extraでの学習し直し、まだ手つけてないけどそんなメモリ使うのか…

2024/02/04(日) 23:54:16.90

データ量にもよるから一概には言えんで、ワイのとこじゃ今までと同じバッチサイズで問題なく学習できとる

2024/02/05(月) 00:16:07.44

場合によるけどVRAMあふれてても速度低下はないから心配する必要はないで
とはいえ8GB勢ワイはVRAM不足で若干遅くなる時あって気になったから4ステップごとにempty_cacheさせてる

2024/02/05(月) 03:10:54.93

Styleの方は設定変えたりBatch size2でもメモリ不足になるようになったから本家の方で学習してる
この前までBatch size8でも出来てたんだけどなんでか急に出来なくなっちまったわ

2024/02/05(月) 06:57:46.74

colabで学習したほうがいいかもしれないね

2024/02/05(月) 11:26:50.42

本家JP-Extraと構造は同じ（というよりむしろ小さくなってる）はずなんやがなんだろうなあ……

2024/02/05(月) 12:56:27.44

自分で音源抜いて学習テストしようとして文字起こしかけたらダミーのデータまで抜いちゃったらしくてめっちゃ時間かかるわ学習にも使えないわで辛えわ

2024/02/05(月) 13:13:38.51

nsfw の学習済みモデル消えちゃった？

2024/02/05(月) 14:10:26.10

Extraだと学習が1ステップずつ表示されるのって変えられないの

2024/02/05(月) 16:10:29.42

gc.collect()とtorch.cuda.empty_cache()って効果あるんかね
本家が消してたから消しちゃったけど復活させて試してみるか

2024/02/05(月) 18:44:05.50

RVCでもstyleのような声質とかの階層マージできるようにならないかな
ddpn版は互換が無いし

2024/02/05(月) 18:56:39.53

画像生成AIみたいに学習元の声をプロンプトで呼び出したいわ
いずれは全て統合されてそうなるのだろうけどまだ先だろうな

2024/02/05(月) 19:04:16.12

>>918
学習元の声を呼び出す？
テキスト入力するなり喋るなりで元々学習元の声を呼び出してるのがこのソフトだよ

2024/02/05(月) 20:44:41.28

ddpn版で一応マージは本家RVCでも機能するで。
ただ階層マージ若干実験したことはあるんやけど、明確にどこになにが入ってるかとかはようわからんかった。
前書いた実験レポ
https://rentry.co/dkirg