なんJRVC部★7

2024/03/31(日) 17:28:56.06

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
スレ立てのときは↑の!extend::vvvvv:1000:512を3行ぐらいに増やしてな

RVCとTTSとかの情報交換とかのスレ
ボイスチェンジャーで誰でも完璧に別人になりきることはできません。ボイストレーニングが必要です。

wiki: https://seesaawiki.jp/rvc_ch/
※前スレ
【ボイスチェンジャー】なんJRVC部 6
https://fate.5ch.net/test/read.cgi/liveuranus/1707472445/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

警備員[Lv.16][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/05/01(水) 20:16:09.06

データセットとしてノベルゲー音声はやっぱり一番やな
RVCだと逆に演技音声だと、こちらがちゃんと演技をしないと性能引き出せないって点で、素の雑談配信のほうがいいみたいなのはあるっぽいが

2024/05/01(水) 20:18:05.92

>>412
それ大事なのプロのスタジオだけじゃないかな・・・

2024/05/01(水) 20:47:02.90

ユーチューバーの配信とかが一番簡単に素材化できるんだけど、モデル化してみると活舌悪くて何言ってるかわからんって経験がある。
やっぱボイストレーニングしてるプロはすげーんだわ

2024/05/01(水) 20:48:06.27

>>410
同じ声優が声色変えててもあんまり影響ない印象だな
特定のキャラに似せたいって場合はやや特徴がぼけやるかもだけど

2024/05/02(木) 03:14:42.95

RVCのgo-webで、自分の声録音mp3に対して適当なモデル(pth)の声を少しだけブレンドしたいのですが、
簡単にできそうな方法はありませんか？
ちゃんと自分の声のモデルを作成して、ckptファイルの処理からAモデルBモデルとして
混ぜるしかないでしょうか

2024/05/02(木) 07:07:08.99

手持ちの発声部分が1時間くらいのデータを学習するとき4000～2万ステップくらいまでは殆ど差がなかった
そこからずっと続けて5万ステップ超えてくるとほんの少しずつ学習元にないセリフの結果も改善していく
中国語なまりがきつ過ぎる人は素材の不足か学習時間の不足があるかも知れない

警備員[Lv.8][初] (ﾜｯﾁｮｲ 077b-R43V) · 2024/05/03(金) 13:44:00.69

https://files.catbox.moe/a6cbwa.mp4
あかん
ママ系の音声作品をデータセットとして学習させたらです・ますのほとんどをでちゅ・まちゅで読み上げる謎TTSモデルができてしまった
失敗なのか成功なのかわからんぞ

警備員[Lv.18][苗] (ﾜｯﾁｮｲ df28-nVjz) · 2024/05/03(金) 14:42:54.69

>>420
おもしろいでちゅね

2024/05/03(金) 15:01:10.32

>>420
謎だけどワロタ

2024/05/03(金) 15:10:01.30

ある意味成功だろこれは

警備員[Lv.18][苗] (ﾜｯﾁｮｲ df28-nVjz) · 2024/05/03(金) 15:35:17.42

>>420
それにしても発音とか凄い自然に聞こえるね、データの時間はどれくらいで何stepくらい学習してるの？

警備員[Lv.19][初] (ﾜｯﾁｮｲ a77b-y8PE) · 2024/05/03(金) 16:15:03.56

>>420
狙ってできるようになれば革命じゃないかこれ

2024/05/03(金) 19:14:40.30

>>420
草

2024/05/03(金) 20:00:43.62

>>420
草　大成功やろこれ

2024/05/03(金) 20:03:27.11

久々にワロタ

警備員[Lv.5][新初] (ﾜｯﾁｮｲ e788-Y5uc) · 2024/05/03(金) 20:15:22.30

>>420
成功だなw

2024/05/03(金) 22:44:51.40

シコれるから成功だよ

警備員[Lv.9][初] (ﾜｯﾁｮｲ 077b-R43V) · 2024/05/04(土) 00:39:11.68

>>424
データセット：30分くらい
スライス後：282ファイル
バッチサイズ；4
38000ステップ (rtx3060で12時間) のウェイトを使った
https://files.catbox.moe/hpy6td.jpg
書き起こしはWhisper large v2でやってみたけどエッチなセリフもなにもかもマジで全部書いてくれてビビるわ
ちなみに通常のトーンまで汚染してほしくなかったから「んんっ♥」とか「～でちゅね♥」とか♥つくようにプロンプトで指示して書き起こしして記号に紐づかないかと実験してみたけどマジでなんも意味なかった

警備員[Lv.23][初] (ﾜｯﾁｮｲ 878d-b946) · 2024/05/04(土) 05:38:54.70

つまりある程度特徴的語尾なんかもサンプル次第で学習可能ってことだよな

2024/05/04(土) 05:50:47.91

しばらく離れてたんだけど今はRVCとVITS2が主流なの？
音声→音声がRVCで　文字→音声がVITS2の認識で合ってる？

警備員[Lv.17][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/05/04(土) 09:22:55.46

>>431
記号は通常の記号以外（絵文字とか含めて全部）は正規化の段階で消されるで
「'」とか「-」が残るからそれを使うといいかも

警備員[Lv.17][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/05/04(土) 09:27:16.06

学習データによって「私」を「あたし」や「わたくし」と読んだり、「えっと」「あの」たたまに自動的に挿入されるようになったりもするけど、
ここまでピンポイントに発音曲げられるもんなんやな

2024/05/04(土) 09:31:21.55

RVCの方は学習にマルチGPU対応してるから、いいんだけどVITS2の学習をマルチGPU対応させてほしい。
というか作者もやろうとしてるのは分かるんだけど、道半ばね

警備員[Lv.20][初] (ﾜｯﾁｮｲ a77b-y8PE) · 2024/05/04(土) 11:03:19.48

>>433
VITS2なんてものは無い
Style-Bert-VITSが2ってだけ
Style-Bert-VITS2はlitaginさんが日本人向けに使いやすくしてくれてるから日本人は使いやすいけど
RVCチームが作ったGPT-SoVITSとか上に出てるFish Speechとかがあるから主流がどれってのは無い

2024/05/04(土) 11:07:26.71

それらのVITSって学習済みモデルに互換性あったりしないですか？

警備員[Lv.19][苗] (ﾜｯﾁｮｲ df28-nVjz) · 2024/05/04(土) 11:35:22.00

>>431
あざます、参考になります。

警備員[Lv.24][初] (ﾜｯﾁｮｲ a77b-b946) · 2024/05/04(土) 12:04:42.13

やっぱちゃんとした声優さんの音声だと文字起こしも間違いが少ないな

2024/05/04(土) 12:14:19.86

Ninjaで俺も前のセッション残ってる？ってバグに遭遇したわ
koboldCppでちゃんとセッションクリアしてるのに前の履歴を引きずったみたいな挙動をして
何度も繰り返してるうちに日本語崩壊して普通に会話しようとするだけで↓みたいなことしか言わなくなる
「甘いMAXネガスむらんだ出帽子予約をすっかるサマを即座席から選手市からアパレクティラティ」

警備員[Lv.17][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/05/04(土) 13:09:29.41

一応やけどVITS2というものはあるで（アーキテクチャの名前）
VITSの改善版がVITS2で、それの実装にBERT（言語モデル）を組み合わせた実装がBert-VITS2（Bert-VITSがあってその2番目、というわけではない）
Style-Bert-VITS2はBert-VITS2にスタイル入れたやつ（なのでStyle-Bert-VITSがあってその2番目ではない）

2024/05/04(土) 13:17:05.32

すまん、441は誤爆した

警備員[Lv.24][苗] (ﾜｯﾁｮｲ a77b-b946) · 2024/05/04(土) 14:16:32.71

Style-Bert-VITS2を4ヶ月ぶりに使って学習して生成してみたけど
めっちゃ性能上がってへん？捗って助かるわ～

警備員[Lv.18][初] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/05(日) 10:06:31.62

https://huggingface.co/blaise-tk/TITAN
そういえばRVCのまた新しいベースモデル出たらしいので報告だけしとく

警備員[Lv.1][新芽] (ﾜｯﾁｮｲ 975b-QJLB) · 2024/05/05(日) 14:14:13.34

どんぐりコロコロ

2024/05/05(日) 17:04:28.87

style-bert-vits2の学習から作成したpthファイルを
RVC WebUIでも使用することはできますか？
vits2上では問題なく使用できるのですが
試しにmodelフォルダにある生成されたD_やG_やWD_のpthファイルをRVC WebUIに読み込ませてもエラーが表示されまして

2024/05/05(日) 20:01:30.21

日本語の発音に特化したモデルから進化してないな

2024/05/05(日) 21:21:36.82

>>447
その２つはまったく違うタイプのアプリだから無理
モデルも共有できん

2024/05/05(日) 21:42:39.95

>>449
そうなのですね・・・使い分けします
教えて頂きありがとうございます

2024/05/05(日) 21:46:59.17

GPT-SoVITSとStyle-Bert-VITS2のモデルは互換性ないですか？

2024/05/05(日) 22:39:13.89

RVCのベースモデルって学習時に差し替える認識だけど
再生時？変換時？はベースモデル指定する必要ないのでしょうか

2024/05/06(月) 10:13:24.85

>>451
ありません

警備員[Lv.18][初] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/06(月) 11:15:29.39

なんでそんなみんな互換性あるって思うのかな、って思ったら、拡張子が両方ともpthで同じだからか

2024/05/06(月) 11:40:38.53

ベースモデルに声色を載せたpthがあるからベースモデルはいりません

**452** (ﾜｯﾁｮｲ 9f88-Qzw7) · 2024/05/06(月) 15:14:51.89

>>455
ありがとう
ptnのサイズやたら小さいから差分かと思ってたんだけど違うんだね

2024/05/06(月) 15:54:47.91

円安落ち着いたらゲーミングＰＣ買ってRVC＋エペしたいと思ってるんだが、好きなキャラクターの声になれるってことでいいんだよな？

2024/05/06(月) 16:06:38.05

>>457
なれるけどそう簡単なもんでもないし、バレずにやるとしたら難易度は上がる
男が女声に変換するとしたらボイトレも必要
別にバレずにやるつもりってわけじゃなく同性の声なら概ね好きなキャラにはなれる

2024/05/06(月) 16:09:39.94

学習させた声に近い声になる
自分の声と相性が良ければ異性でもほぼ同じになれる

2024/05/06(月) 16:29:32.63

>>458
え、
金積めばなれるもんだと思ってたよ…

2024/05/06(月) 16:32:29.42

滑舌悪いとガッカリするで…

2024/05/06(月) 16:33:40.68

ﾆﾁｬｯ、ﾆﾁｬﾆﾁｬ、ﾆﾁｬｱ…

2024/05/06(月) 16:38:32.23

自分と相性のいいモデルを使って、かつ話し方も工夫すれば男が女のふりをすることは可能
ただボイチェン特有の声の歪みを100%無くすのは難しいからそのうちボロが出る
あとボイチェンの知識がある相手にはバレやすい

2024/05/06(月) 16:44:30.18

ボイチェンの天敵はボボボーボ・ボーボボ、この話題振られたらかなり上手く喋らないと変換されない

2024/05/06(月) 16:55:33.97

男でもボイトレ頑張れば自然な萌えボイスに変換できるような声を出せるが
それができるんであれば既存のピッチ調整するようなボイチェンでもできるしな
RVCは特定のキャラやら声優やらの声を真似するって用途のもん

2024/05/06(月) 17:03:36.98

声を瞬時に変換する画期的な技術だと思ってたんだが違うんだな
結局その声に寄せないと行けないと…

警備員[Lv.19][苗] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/06(月) 17:03:41.84

ボーボボもいえる最近の低遅延ボイチェンだとSupershiftが質高いで
https://www.nicovideo.jp/watch/sm43613806
学習はできんけどな。ピッチも保たれて、強豪のいろんなCPUボイチェンとは頭一つ抜けとる気がする。

警備員[Lv.19][苗] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/06(月) 17:04:02.09

SupershiftやなくてSupertone shiftやな

2024/05/06(月) 17:44:33.13

moisesの支払い出来なくなったから代用できるサイトないかな

警備員[Lv.18][初] (ﾜｯﾁｮｲ 2e7b-T7LG) · 2024/05/06(月) 21:39:53.98

>>467
凄いけど商用利用不可によりyoutubeの動画には活かせず
殆どの人が望むであろう特定のキャラの声になりたいって要望にも応えられないから日本では流行らんだろうな

警備員[Lv.4][新初] (ﾜｯﾁｮｲ a67b-2piB) · 2024/05/07(火) 13:32:45.61

それこそ声優学校に行って量産型の発声できるようになったらええんやな

2024/05/07(火) 15:26:28.38

https://files.catbox.moe/vll6f7.png
AI愛好家(?)の一部のなかでPortalに出てくるGLaDOSを現実に実装するのが流行っているような気がして自分も天井からロボットアームとか生やしてGLaDOSちゃん稼働させてぇなと思ったので、とりあえずTTSモデルを学習させてみてモデルをhuggingfaceにおいてみた
Style-Bert_VITS2(英語のみ)とGPT-SoVITS(日英中)の2つがあるサンプルはリポジトリ見てくれるとたすかる
https://huggingface.co/WarriorMama777/GLaDOS_TTS

警備員[Lv.10(前23)][苗] (ﾜｯﾁｮｲ 8b5e-w0ma) · 2024/05/07(火) 19:07:50.03

>>472
ゲームのキャラを現実にするみたいのかっこいいね

2024/05/07(火) 19:39:16.38

昔ニコ動にその手の動画があった記憶

2024/05/07(火) 21:58:59.01

>>467
これボーボボいえる？

2024/05/07(火) 22:26:15.93

すいません質問なんですがVITSのデータセット作成で
文字起こしが終わらずひたすらタイマーだけが進むのですが
初心者が陥りやすいミスとかあるのでしょうか

2024/05/07(火) 22:55:25.72

自決しました
お騒がせしました

2024/05/07(火) 23:53:29.16

ディスコ鯖っていまない？あったら招待欲しい

警備員[Lv.19][苗] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/08(水) 07:29:41.59

なんJRVC部のはあるけどほぼ動いてないで
声づくり研究会のほうが活発なんやないか

2024/05/08(水) 12:32:08.11

歌枠の音源でstyle-bert-vits2の学習させるとミクさんっぽい喋り方になるね
通常の喋り声と合わせるか悩むところ

ころころ (ﾜｯﾁｮｲ 2ef8-T7LG) · 2024/05/08(水) 21:21:22.60

声づくりっていつもの反AIがどうこうとか法律がどうこうとか同じ事ずっと喋ってる人がいる感じなん？
AI関連のDiscordはあの人等が常駐してるから怖くて参加でけへんねんな

警備員[Lv.20][苗] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/08(水) 21:46:02.54

捨て垢でのぞいてみればええんちゃうか

2024/05/08(水) 22:15:00.70

ハリウッドのスト騒動は、ファンレベルのAI使用についてではなく、制作サイドが契約内容としてAIに学習させることを契約に入れたことが問題なんやで
味方と思ってた側の方が問題って話、日本は遅れてるから後から気づくんだろうな

警備員[Lv.20][苗] (ﾜｯﾁｮｲ 2ef8-T7LG) · 2024/05/08(水) 22:20:18.82

>>483みたいにRVCその他ボイチェンと何の関係もなく
聞いてもいないのに突然自分の結論ありきで語りだす人間の集団やで？
興味本位で少しでも見たら頭おかしくなるで

2024/05/08(水) 22:24:17.93

ファンメイドはAIですって言ってフェイクではないことを名言しておけば、いいと思うわ
問題はビジネスとして、成り立たなくなることの方だろうし、ハリウッドを見ればこれから起こることも予測できる

警備員[Lv.20][苗] (ﾜｯﾁｮｲ 0b4a-0+0w) · 2024/05/08(水) 22:53:16.24

日本語通じん人はこのスレのほうが多そう

警備員[Lv.21][苗] (ﾜｯﾁｮｲ 2ef8-T7LG) · 2024/05/09(木) 14:02:04.00

stabilltyAIの日本公式discordサーバStable Community Japanがあるのに
一切話題にならない時点でどんなのがいるのかなんて見なくても分かるやろ
それでも見たいなら音声AIチャンネルもあるしどうぞ

2024/05/10(金) 14:39:38.53

音声界隈素人だけどLLMや画像の大規模にSelf supervised trainingしたモデルに対応するものって音声にもあるの？

2024/05/10(金) 16:57:22.59

UVR5でハモリだけ抜く方法はありますか？

2024/05/10(金) 19:08:16.54

>>489
俺ならUVRで分離したinstrumentalをspleeterに放り込む

2024/05/10(金) 20:12:00.50

>>488
HuBERT: https://arxiv.org/abs/2106.07447
ContentVec(HuBERTの話者依存なくしたやつ): https://arxiv.org/abs/2204.09224
Wav2vec: https://arxiv.org/abs/1904.05862
Wav2vec2.0: https://arxiv.org/abs/2006.11477
WavLM: https://arxiv.org/abs/2110.13900

2024/05/10(金) 20:15:16.50

colabのUVRは複雑すぎ
RVCについてるやつみたいにもうちょっとわかりやすいのはないの

2024/05/10(金) 21:30:44.19

>>490
UVR5のmdx-netのinst mainを使ってるんですが、そもそもinstにハモリが入らないんですよね他のを使えば入るんですかね・・・

2024/05/10(金) 23:37:03.21

音声の学習ってファイル数多いと逆に微妙っすねこれ……
あと音程が上がるとロボっぽくなるのは仕様でしょうか

2024/05/12(日) 11:28:05.37

Fish Speech ver1.1のガイドらしい
https://rentry.org/vedvbbng

警備員[Lv.30][苗] (ﾜｯﾁｮｲ 4bf0-739I) · 2024/05/12(日) 11:34:45.60

https://www.itmedia.co.jp/news/articles/2405/10/news126.html
陽キャSNSになぜ　なぜ

2024/05/12(日) 12:17:28.01

皆んな曲のボーカルとかBGM+喋り声から喋り声を抽出する時は、何使ってるんや？ワイはUVRのKimvocal2か5_hpkaraokeなんやがこれより精度いいやつある？

警備員[Lv.12(前23)][苗] (ﾜｯﾁｮｲ 7b31-W+jA) · 2024/05/12(日) 12:34:03.94

reactのフロントをcomfyuiみたいにしてみたいな

警備員[Lv.12(前23)][苗] (ｽｯｯﾌﾟ Sdd7-W+jA) · 2024/05/12(日) 13:45:00.58

と思ったがメリットが思いつかなかった

2024/05/12(日) 16:52:27.04

エロ声ならStyle-Bert_VITS2が一番やろか？

2024/05/12(日) 18:18:50.19

>>500
Style-Bert_VITS2ならAnneli-nsfwが簡単に試せるんで試してみたらええんちゃうかな

他でええのんあったら紹介してもろうて
Style-Bert_VITS2を気に入ったならApp.batでお好みの声を学習してもろうて

2024/05/13(月) 19:55:55.72

5100ステップしかないのかよ

2024/05/14(火) 11:13:01.37

RVCでボイチェンは動画に音声入れる程度のバレてもいい用途ならいいけど
AI音声聞きなれてる人間には一発でうわっAIじゃねぇかってバレるからまだあんま実用的じゃないのな

2024/05/14(火) 12:12:21.09

GPT-4oの合成音声すげー、もう普通に会話できるじゃん
技術進化早すぎる

2024/05/14(火) 13:04:44.06

Text to Speachじゃないからか笑い声とか無声音部分が自然よね
ピッチ変換とかも無いからケロケロしないし

2024/05/14(火) 15:13:48.22

>>503
上手な人がやると男が女声してても自然でバレにくいよ
RVCを使ってるって教えてもらった後でも、本物の女が話してるとしか思えないレベルの人がVRChatにはたまにいる

警備員[Lv.25][苗] (ﾜｯﾁｮｲ 0bb0-Hnix) · 2024/05/14(火) 15:30:23.28

綺麗に学習させたモデルで適切な声の出し方(高さは調整できるから違う)をすればRVCでも自然なTSボイスになるはず
違和感があるのはモデルの質か声の出し方が原因

2024/05/14(火) 15:41:33.51

GPT-4oはマルチモーダルで音声は音声のまま理解してるもんな、RVCとは次元の違う技術
人類マジ終わりだなって感じではあるけど
数年で99%の人間の仕事は代替出来るようになるね

2024/05/14(火) 16:48:26.44

そのGPT-4oっていうのはリアルタイムできるの？

2024/05/14(火) 17:24:11.17

BGM付き音声から声だけ抜き取りたくてMVSEP使ってみたけど
0%から動かなくて草
合計17時間あるからこれでどうにかするのは無理か…

2024/05/14(火) 18:06:29.77

既出な質問だったら申し訳ないのですが…
svc fork使っています。
例えばエポック100まで回してクオリティが微妙だなってなったときに素材を足そうと思ったら
素材を足してもう一回はじめからやったほうがいいか
足して(もしくはたさずに)継続したほうがいいかってわかりますか？
それと素材が200個程度ならエポック1200まで回したほうがいい。みたいな意見もあったんですけどみなさんはどのくらいで見切りつけてますか？

2024/05/14(火) 18:17:28.78

>>509
これとかすごいね
ttps://twitter.com/Toshio_gamgpomg/status/1790203466138460180
https://twitter.com/thejimwatkins

警備員[Lv.5][初] (ﾜｯﾁｮｲ ab4a-739I) · 2024/05/14(火) 22:29:40.30

どうせ好きな音声では学習させてくれないしNSFW特化の音声や音合成もしないだろうから
ローカルしか勝たんで