【ボイスチェンジャー】なんJRVC部 6

2024/02/09(金) 18:54:05.89

Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
ほかにもTTSの情報交換とか
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
【ボイスチェンジャー】なんJRVC部 5
https://fate.5ch.net/test/read.cgi/liveuranus/1701763239/

2024/02/09(金) 18:57:49.55

保守やで
https://files.catbox.moe/mbohb3.wav

2024/02/09(金) 19:03:14.02

サンイチ

2024/02/09(金) 19:05:23.25

落ちそうな過疎り具合だけど保守や
https://files.catbox.moe/pnngg3.wav

2024/02/09(金) 19:15:26.38

さんいち

2024/02/09(金) 19:26:00.54

さんいち

2024/02/09(金) 19:33:00.47

マジで落ちそうなほど人がいないな…
https://files.catbox.moe/e53439.wav

2024/02/09(金) 19:36:21.83

さんいち

2024/02/09(金) 19:38:23.60

とりま保守や

2024/02/09(金) 19:39:19.71

ホッシューホシュ

2024/02/09(金) 19:40:07.86

ボッシュBOSCH

2024/02/09(金) 19:40:56.62

モデル共有って法的にどうなん？
なんとなく画像よりも合法感あるけど…

2024/02/09(金) 19:41:32.13

ホーホー、ホッホー

2024/02/09(金) 19:43:09.08

>>12
実在の人物の模倣やしワイは悪用する輩が怖くて共有はしたくないな

2024/02/09(金) 19:43:22.62

さんいち
https://files.catbox.moe/3ooowa.wav

2024/02/09(金) 19:43:24.00

保守
JP-Extraやとnsfwモデルもまた良くなるんだろうか
https://uploader.cc/s/4w2x7w0kquwyspql5g5yvupmmb4es5i4ilaezp5tn186vw562javx4hc1q2a1z5p.wav

2024/02/09(金) 19:44:14.55

スレ立て乙やで！
保守

2024/02/09(金) 19:44:25.17

まだホシュの時間や
https://files.catbox.moe/gja00a.wav

2024/02/09(金) 19:45:06.01

保守って20までなんか？

2024/02/09(金) 19:45:06.60

あと2レスで保守完了

2024/02/09(金) 19:45:25.44

ええやん

2024/02/09(金) 19:46:21.78

20で保守終了や

2024/02/09(金) 19:49:03.59

保守
https://uploader.cc/s/sq44m70d9d4ab0db75lh9h84rmg301363sv17ftjkyv2ogp18un4xrujkfkjxzgb.wav
と思ったら終わってた

2024/02/09(金) 19:50:33.77

モデルは共有どころか声優モデルが学習元伏せてBOOTHで売られたりしてるほうがヤバそう
でも学習元は特定しようがないのでおそらく現状どうしようもできない

2024/02/09(金) 19:57:00.36

boothに絶対どう聴いてもあの人やなっていうStyle-Bert-VITS2のモデルが売られとったりするな
TTSはRVCより余計学習元が出るからちょっとアレ、規制とかどうなるんかも分からんけど

2024/02/09(金) 20:04:17.06

文字起こししたら、全部やったところで、ERROR | subprocess_utils.py:19 | Error: transcribe.py ってエラーになるんですがどうしてでしょうか

2024/02/09(金) 20:07:05.38

>>26
ちゃんと文字起こしされてるんやったらそれは無視していいやつや
何が原因かよう分からん

2024/02/09(金) 20:13:25.63

初期プロンプトによっては正常に終了してもなぜか終了コードがバッファオーバーラン？を意味するコードにされるのなんなんやろな

2024/02/09(金) 20:33:26.82

civitaiみたいなのは必要悪なのかもね
結局アレがないから売ったり買ったりする輩が現れるわけで

2024/02/09(金) 20:48:13.54

Style-Bert-VITS2ってインストールフォルダ（App.batとか入ってるヤツ）はSSDにしたほうがいいんだろうか？
モデル複数つくってると結構ストレージ容量食うから、大差無いようであればHDDに放り込んでおきたい

2024/02/09(金) 20:51:01.12

売買されると規制が加速するやろな

2024/02/09(金) 22:42:30.41

YMM4がStyle-Bert-VITS2のAPIに対応するみたいやな
動画作る人には朗報か

2024/02/10(土) 00:51:34.06

マ？AI拓也作りが捗るやん

2024/02/10(土) 00:51:57.18

20まで行かせるときにh o sh uって入れてると急に書き込めなくなるで

2024/02/10(土) 04:08:31.47

Discordみたいに5chも音源即再生出来たらええのに

2024/02/10(土) 06:14:52.28

学習開始しましたが、GPU一つだときついですね

マルチGPUにはできませんか？

2024/02/10(土) 09:04:08.41

まず4090を買います

2024/02/10(土) 09:09:01.69

Bert-VITS2以前の、ESPNetのVITSとかはまともになるのに24時間グラボまわしてようやく、しかも音質や再現度悪い、とかやったから、
グラボ1台3時間も回せば十分な質（1時間位でもいい声質は質が高い）のはすごい速さやで

2024/02/10(土) 09:49:25.42

Epochがデフォルトで100になってるけど、それが推奨値というわけでもなく？20で十分？

2024/02/10(土) 10:07:51.12

データセットによるけど100も回せば十分な質になることが多いって程度で、
実際結果見てみると50とか30とか20とかがいいときもあるし、何なら声だけなら1kステップでも似るで
ワイは一応300エポックまで回してどれがいいかチェックしとるけどちょっと過剰やな

2024/02/10(土) 10:50:53.78

複数GPUがある場合に、どのGPUを使うかを指定できますでしょうか？

NCCLのファイルが含まれているのでマルチGPUできるのでは

2024/02/10(土) 10:56:47.38

コード見れば分かるけど、環境変数でLOCAL_RANKを指定するか、config.ymlの箇所を変えるかでGPUは指定できるっぽい
マルチGPU環境が手元にはないのでチェックはしてないけど指定はできたという報告はあり

2024/02/10(土) 11:15:21.74

nVidiaコントロールパネルもGPU0とGPU1の切り替え出来るけどゲーム用かもわからん
マルチGPU環境ないから確かめられんへんけど

2024/02/10(土) 12:20:39.88

fork元の方にマルチGPU用の起動スクリプトらしきものあるので使ってみては
https://github.com/fishaudio/Bert-VITS2/blob/4b9d42c3ff49bc68fa2a674d4424aef995e29277/run_MnodesAndMgpus.sh#L14

2024/02/10(土) 12:32:41.12

>>34
知らなかったありがとう
次から気をつけるよ

2024/02/10(土) 12:43:56.42

やっぱ本人ボイスやね
https://youtu.be/9QWCCg6IAVM

2024/02/10(土) 13:56:35.86

トレーニングの前処理しようとすると「Step 1, Error: pretrained_jp_extraフォルダが見つかりません。」と出るんだけど、これってアプデ以外に何かせないかんことあるんかな？

2024/02/10(土) 14:03:31.98

>>47
1.x系から新しくJP-Extra版を使うようにアプデするには、今までのアプデのバッチファイルじゃなくて専用のバッチファイルを使う必要がある（か手動でpython initialize.pyをする）

2024/02/10(土) 14:14:56.47

>>48
サンガツ！いけたやで！

2024/02/10(土) 14:33:17.57

今、はじめての学習をしていますが。とりあえず最初なので、Epoch100までやります。

できたモデルをHugging Faceに設置したいのですが、無料のプランでできますか？
生成のインターフェイスはどうやって設置するのか教えてください。

2024/02/10(土) 14:34:16.15

無料でもCPU枠あるからできるで
やり方はhugging face spacesとかでググれ

2024/02/10(土) 14:35:18.04

Hugging Faceに設置してみんなに使ってみてもらいたいですね

2024/02/10(土) 16:38:38.54

TensorBoard見方がわかんないなグラフの

2024/02/10(土) 17:02:17.01

ローカルでやったら
RuntimeError: Failed to initalize Mecab
って出る

2024/02/10(土) 17:06:34.56

>>54
インストール場所のパスに日本語や空白あったりしない？

2024/02/10(土) 17:12:49.63

>>55
ドキュメントフォルダにインストールしたら失敗した
ダウンロードフォルダだとちゃんと実行出来るけどグループ表示のせいで埋もれてしまうから嫌なんだよな
C:フォルダにはなぜかインストールできんし

2024/02/10(土) 17:14:03.38

いいインストール場所あったら教えて

2024/02/10(土) 17:23:22.74

Cドライブと外付けストレージ以外のドライブの直下に置けばええやん

2024/02/10(土) 17:26:29.39

流石にインストール場所は（日本語と空白がない）好きな場所にしろとしか言えん

2024/02/10(土) 17:41:01.47

ユーザー名のフォルダにインストールできたわ

2024/02/10(土) 17:43:36.33

浅い階層の日本語無しフォルダに置く
Python入れるとき最後のPath数制限消すにチェック入れる
あとWindowsアカウントに日本語使わない
これぐらい

2024/02/10(土) 20:38:02.31

もひふすはにやえとんおのめくおせむうしたよのよろらくわまみはしなてのこぬりもたほちたのんき

2024/02/10(土) 20:40:57.89

相変わらず信者は全員、買い増ししていいのか
山上を義士だと思われてもしょうがない。
すなわち人生の全てを許した

2024/02/10(土) 20:43:08.38

大奥は正直他推しでフィニッシュ
-0.28%

2024/02/10(土) 20:43:24.00

まぁ、全員同じカルト一派の工作なんだけど

2024/02/10(土) 20:48:18.62

何か来たな

2024/02/10(土) 21:06:49.43

内容の憲法案に反対する

2024/02/10(土) 21:12:27.82

間違いないだろうね

2024/02/10(土) 21:17:13.64

多分効果あるわけでもなく
タバコクラブって響きがかわいい
いまここ何人くらいで回してるんだろ

2024/02/10(土) 21:21:17.87

>>34
深夜に戻して
アイスタイル安値ｗｗ
4んでたら

2024/02/10(土) 21:47:33.29

末尾もﾜｯﾁｮｲもないからNGめんどいな

2024/02/10(土) 21:49:12.84

やってる感はあるかもしれん
野菜炒めとか大量に食ってる訳でも思ったけど盆栽好きなの？

2024/02/10(土) 21:55:16.82

レンタカーて安いんだな
次にこの若者を混ぜておけば高くなる
ISUも金メダル2つとってないせいで
藍上については

2024/02/10(土) 21:59:02.13

久しぶりに昼間働いててアイスタイルと共同開発で化粧品づくりに乗り出したら最強ってことか。

2024/02/10(土) 23:35:10.68

またか

2024/02/11(日) 00:00:09.66

亀のように現れて亀のように去っていった

2024/02/11(日) 00:18:30.79

なんか確かにそうなんだけどさ
でもそれもわかる気がするよな
マジか！？
そういうこともあるんじゃないかな。
ところでRVCのV3はまだかね

2024/02/11(日) 06:32:21.65

学習終わって音声合成してみた。すばらしい出来でした。

できたモデルがEpochのバックアップが大量にできてますが、必要なのは最終出力されたものだけという認識でいいでしょうか？

これからhaggingfaceに上げる方の勉強をします。

2024/02/11(日) 10:13:26.25

haggingfaceのspaceの上げ方は理解しましたが

必要のないものは、pushしたくないのですが、学習したモデルで最低限必要なものが何か教えてください。

2024/02/11(日) 10:31:36.63

>>79
必要そうなものだけアップしてみていって動くまで追加

2024/02/11(日) 10:52:17.24

rvc起動しないんだが

2024/02/11(日) 10:57:52.63

何epochまで学習したのか知らんが、場合によってやり過ぎは劣化するだけ
素材の質や量とも関係するが100～300程度が無難なライン
なので最終出力だけあればいいっていうのはちと違う
あとモデルだけじゃなく一応indexファイルも必要

2024/02/11(日) 11:05:07.22

>>48
colabでも出たけどどうすればいいの

2024/02/11(日) 11:18:49.41

>>83
それはcolabの実行手順とかが間違ってるはず
環境構築のところでpretrained_jp_extraはダウンロードされる

2024/02/11(日) 11:24:00.77

>>81
同じく　立ち上がらなくなった

2024/02/11(日) 11:25:54.60

hugging faceが500エラーなっとるな

2024/02/11(日) 11:28:10.45

サーバーエラーかもね
新しくファイルDLしようとしても
500出たわ

2024/02/11(日) 11:29:54.79

じゃあ原因はそれかな

2024/02/11(日) 11:34:14.86

RVC起動しないのおま環かと思ってたわ

2024/02/11(日) 11:43:56.99

あーhugging faceが落ちててダウンロードできんのか、なるほど

2024/02/11(日) 11:54:40.61

あ、起動できたよ

2024/02/11(日) 12:22:25.59

あーよかった　直りました

2024/02/11(日) 12:23:17.58

俺も

2024/02/11(日) 18:34:55.49

ああ、haggingfaceのspaceは無料だとCPUにしないといけないのね
失敗失敗

2024/02/11(日) 19:50:20.14

こんなエラーが出てしまいます、configuration error
missing configuration in README
Base README.md template:
title: {{title}}
emoji: {{emoji}}
colorFrom: {{colorFrom}}
colorTo: {{colorTo}}
sdk: {{sdk}}
sdk_version: {{sdkVersion}}
app_file: app.py
pinned: false

2024/02/11(日) 19:53:52.10

>>95
読め
https://huggingface.co/docs/hub/spaces-overview

2024/02/11(日) 20:24:05.71

ん～わからない
configuration error
missing configuration in README
のまま、変わらない
pinned: falseが悪い？trueにしてコミットしても変わらない

2024/02/11(日) 21:26:21.33

ローカルでも推論はCPUだけで動くんやからわざわざspacesで使えるようにせんでも良くないか…？

2024/02/11(日) 21:58:28.06

README.mdちゃんと置いとるんか？

2024/02/11(日) 22:10:40.74

これhuggingfaceのspacesに置いて
「○○(学習元の実名まんま)を喋らせよう」とかやるつもりやないのか？
相当にガキ臭さ出とるし

2024/02/11(日) 22:38:49.07

お客さんっぽいな
というか無料プランの2コアCPUじゃ相当きついやろ

2024/02/11(日) 23:16:11.37

RVC-betaのころにちょろっと触ったけど中国で製作されたからなのか日本語喋らせると中国訛りっぽいのが目立ってすぐやめちゃったわ
今はどうなんや？

2024/02/11(日) 23:28:12.59

RVC v2でだいぶ改善されたはずやで
index使用率下げると滑舌ましになる

2024/02/11(日) 23:52:56.63

JP-Extraすげーな試しに妹の声学習させたら稀に中国人的な発音になるもののそっくりさんで驚いたわ
エイプリルフールはﾏｯﾏにパパ活してたら妊娠したドッキリやるのもええかもしれん🤭

2024/02/12(月) 05:27:49.54

README.mdの先頭に入れないといけなかったのですね
ビルドに進みました、

2024/02/12(月) 05:43:37.31

お前の進捗発表場所ちゃうで

2024/02/12(月) 06:02:01.47

ワイらの日記帳なんやから仲良くしよーや
隙あらばレスバしようとするんやからほんまに😞

2024/02/12(月) 06:22:11.51

無事起動できました。ありがとうございました。
https://huggingface.co/spaces/kkvc-hf/Style-Bert-VITS2

2024/02/12(月) 07:29:43.03

複数話者のために違うフォルダのファイルを同じモデル名で文字起こししたら上書きされちゃう？

2024/02/12(月) 08:09:35.92

Style-Bert-VITS2始めてみたんだけど、これって入力できるテキストに上限ってあるの？
3000文字くらい入れるとエラーで落ちる。エラーログも特に出てなくて
| INFO | tts_model.py:167 | Audio data generated successfully
が表示されたあとに突然終了しちゃう。2000文字なら大丈夫だった。

2024/02/12(月) 08:27:30.19

>>110
dataset.batの指示通りにやればそんなことにはならないと思うけど…

2024/02/12(月) 08:41:59.38

>>111
ごめんなさい説明不足でした。
App.batのほうで
1. モデルをロードする
2. テキストに3000文字入力する(今回の場合は「あ」を3000個入力)
3. 音声合成のボタンを押す
これで再現できます。

2024/02/12(月) 12:48:42.76

歌声変えたいんだけど今から始めるならRVCよりapplioがいいの？
知識ゼロ状態です

2024/02/12(月) 12:54:25.46

>>112
試してみたけどVRAMの問題やない？（自分の環境ではCUDA out of memoryが出てエラーが出た）
長い文字列を改行とかで分けずに入力すると、単純にモデルにその分の長さのベクトルが入力されるから、長すぎると無理っぽい
改行で短い文章に分けてたのなら知らん。

2024/02/12(月) 12:59:14.12

>>113
Applioでいいと思う
Applioはあくまでも本家RVC（RVC用モデルを学習したりするツール群）の改良版や
なので両方ともRVCではある、ということは理解してんのかな

2024/02/12(月) 13:21:40.40

>>115
ありがとう
全然理解してなかったけどApplio勉強してみるわ

2024/02/12(月) 13:25:58.59

>>112
メモリーのオーバーフローかなんかやと思うけど
そんな長ゼリフいらんやろ？
区切れ！句切れ！

2024/02/12(月) 13:32:42.79

なんか知らない間にapplioって出てるのね
ちょっとググってもまだ情報少ないんですね・・・

2024/02/12(月) 14:03:51.96

app.py起動時に最初からモデルをロードした状態で起動できますか？
gradioはREST APIが使えるとのことですが、音声合成するテキストを投げて結果を返すようにしたいです。
またRESTのリクエストにモデルの情報を入れることでモデルをロードした上で、音声合成もできませんか？

2024/02/12(月) 14:20:13.99

>>114,117
短い文章に区切れっていうのはその通りですねｗ
ありがとうございます。

いろいろ試してみたら、音声の生成はできててその後のアクセント調整に使う文字列の生成でクラッシュしてるみたいです
app.pyの
# アクセント指定に使えるようにアクセント情報を返す
ってなってる箇所付近の処理をコメントアウトして空文字を返すようにすると動くようになりました。アクセント調整はできなくなりますが

2024/02/12(月) 15:11:10.61

>>119
自分でコードいじれ、apiはserver_fastapi.pyがあるからそれ使えばええかも知らんが求める機能があるかは分からんから細かい要望は自分でやりな

2024/02/12(月) 15:41:08.23

>>121やってみます。

ところでdatasetのスライスの処理が異様に時間が掛かっているのですが、ちょうどいい長さにしている以外に何かしているのでしょうか
CPUを割と使われているようですが、１つのファイルに数分かかっています。

2024/02/12(月) 18:11:39.43

>>122
オーディオファイルから音声が発話された区間を検出する処理が入ってる
ファイルの長さが長いと時間かかるんだと思う

2024/02/12(月) 18:33:25.19

Applioとか前スレで名前出たのは知ってたけどどういうもんかはわかってなかったわ
話題出した人サンガツ

2024/02/12(月) 19:31:22.23

wavファイルシークするのってマルチスレッドが効く処理でもないから重いのよな
1時間とか2時間とかあるのを突っ込むのなら丸ごと入れるんではなく
自分で20分とかにぶつ切りにして入れた方が処理が数倍速いで

2024/02/12(月) 20:58:42.78

transcribe.pyのテキスト起こしでfaster_whisperを使うところを

model = WhisperModel(args.model, device=device, compute_type=compute_type)

この部分のパラメーターにdevice_indexを加えてもらえないでしょうか
device_indexは複数GPUがある場合にどれを使うかの指定です。0とか1とか入ります。

2024/02/12(月) 21:05:07.78

>>126
コード読めるんだったら自分で加えればいいのでは
プルリクは歓迎しとるで

2024/02/12(月) 21:12:36.18

自分で使うだけならハードコードすれば終わりやし
どうもチグハグやな

2024/02/12(月) 21:19:54.29

今はパラメーター直接書いて使ってます。

2024/02/12(月) 23:07:34.62

喘ぎ声AIが実現しそうやから耳舐めASMR AI作れんやろかと思ったんやけど
良く考えたらサンプリングしてランダムに再生すれば十分やな

2024/02/13(火) 00:22:02.00

CUDAアプリで２枚目のGPU使いたいとき、環境変数CUDA_VISIBLE_DEVICESでできるときもある。

自分はStyle-Bert-VITS2の音声合成でそれ使ってる。(Windows)

VoiceVoxのインストーラ版はDirectMLなので、CUDAじゃなくてWindowsの設定でGPU指定する。

2024/02/13(火) 06:50:04.17

スライスで時間掛かってるのはたぶん、文字越しがうまくできない音声がある時みたいです
最終的にスキップするんですけど

2024/02/13(火) 13:50:32.62

消えた歌い手の声を再現できて感涙や
スレとの出会いに感謝

2024/02/13(火) 22:22:06.41

Youtubeとニコニコの過去動画から好みの声探す毎日や
声優より素人の方がえろくてちんちんがイライラするのら

2024/02/14(水) 00:16:40.50

おすすめ素人を教えてください(血涙)

2024/02/14(水) 05:56:50.53

>>126の話の続きですが、device_index=[0,1,2,3]こうやって書くとマルチGPUでテキスト起こしができるようになりました。
whisperの処理は重いので、マルチGPUできたほうがいいです。

2024/02/14(水) 06:27:26.20

う～ん、マルチGPUで動いているけど、マルチプロセスにはなっていないなこれ、複数のGPUを順番に処理に使ってるだけで、同時進行じゃない
それでも多少は早い感じするけど、

2024/02/14(水) 07:06:40.09

文字越しでWhisperが変な文字を入れた場合、次の自動前処理でエラーになりますね、
ま、手動でその部分を直せばいいだけだけど

2024/02/14(水) 08:39:45.50

それ、できればエラーで止めずにスキップしてほしいところ

2024/02/14(水) 09:40:35.14

参考書の覚えへんといけない部分をすこすこな子で読ませといたらクッソモチベ上がってええやん🤗
棒読み無感情クソゴミ無能ボイスとはおさらばじゃ！

2024/02/14(水) 10:31:57.21

学習させる素材が多い時はepoch数減らしてもいいですか？

2024/02/14(水) 10:34:01.63

ええんやで

2024/02/14(水) 10:35:48.04

これくらいの感覚でいいのかな
素材→Epoch
*500→200
1000→100
2000→*50
3000→*33
5000→*20

2024/02/14(水) 10:35:53.15

読めん文字があったときにエラー出す代わりにその音声を学習に使わないオプションあったほうがええんかなあ
単純に素材量減るんで個人的には手動修正の方がええと思うが

2024/02/14(水) 10:38:20.17

素材数とエポック数はそんな単純な関係やないと思うで、人によって意見分かれると思うけど
むしろ素材多いといろんな声があるわけだから学習ちゃんとするのに必要なエポック数増えるのではって立場や
RVCの時も同じ意見
ただ人によってデータの質や感覚違うだろうから、自分で回して聴き比べるしかないで

2024/02/14(水) 10:47:20.57

素材数５０００でエポック１００はたぶんかなりの時間が掛かると思うので、まずエポック２０で十分かやってみます。

2024/02/14(水) 10:51:54.17

あ、いや、スマン、エラースキップの需要はワイだけかもしれん
寝る前に学習仕掛けようとして早く絵本読んでと子供に急かされる中でエラーが出ると学習自体諦めなきゃならんかったりするので、つい

2024/02/14(水) 11:07:03.61

やっている事はHuBERT学習済みデータに適用する音声テクスチャを貼る作業
epochが低いと「ら」が「あ」に聴こえるような音ハズレを起こすが
多くしてもHuBERT学習済みデータを超えるものはできない
素材が少ないと当てはめる音が見つからないのでepochを高めにすると誤魔化せる
素材が多ければ多いほど発音の多様性に対応できる
epochは100を基準でいい

2024/02/14(水) 11:13:57.39

勘違いして欲しくないのが一点
epochを高くしてもプロ声のような演技力は身に付かない
喋りがボソボソしてる人はテクスチャが良くても魅力のない声しか出ない

2024/02/14(水) 11:17:19.02

で、Style-Bert-VITS2とRVC
どっちの話題なんやこれ

2024/02/14(水) 11:21:21.55

なんか噛み合ってねーなーと思ったら
ID:ed0scPl8はStyle-Bert-VITS2の話してて
ID:UkmjK6miはRVCの話してんのか

2024/02/14(水) 11:31:56.20

おん？ここはRVCスレやなかったんか

2024/02/14(水) 11:40:52.87

アンジャッシュかな

2024/02/14(水) 12:20:10.30

RVCスレで合ってるよ
ただ今はRVCの更新が止まってるから
TTSのStyle-Bert-VITSの話が盛り上がってる感じ

2024/02/14(水) 12:31:57.34

>>152
スレタイはRVCスレではあるんだけどみんなの関心はTTSのStyle-Bert-VITS2の方が高いみたいやしな・・・
モデルの学習が似たようなものってだけで
ボイチェンとTTSでは全然別の物だろうからなんとも言えん

2024/02/14(水) 12:45:40.66

RVCは今やブログやyoutubeで沢山解説されてるしモデルもクソみたいにバラ撒かれたり売られたりしてて良くも悪くも市民権を得た感じだな
ここじゃなくても話題は沢山ありそう

2024/02/14(水) 13:54:59.36

RVCが使われてるやつで一番有名なのは音リビアの泉かな

2024/02/14(水) 14:49:44.19

RVCv3が来るのをワイは待ってるで

2024/02/14(水) 14:59:26.49

RVCは出来が良すぎてもうあまり言うことがない

VITSの方はまだまだいろいろやってほしいことがある。
マルチGPU対応とかオナシャス

2024/02/14(水) 15:47:06.52

VITSは
出来ればwebuiに表示されるミク？を消したいんだが

2024/02/14(水) 17:19:52.98

>>160
common/constants.pyのGRADIO_THEMEを好きなのに変えてくれ

2024/02/14(水) 17:27:20.74

学習初心者やけど
低音がガビるのがどうしても直らなかったから
ゼロから再学習したら嘘のようにキレイな音になった
同じ設定でやり直すだけでも何かが起こることもあるんやな

2024/02/14(水) 17:32:22.20

>>161
すまねぇすまねぇ
人前で起動する機会があって『アニメとかオタクっぽい何か』と思われたくなくてなｗ

2024/02/14(水) 20:19:03.45

RVC特に使い道がないんだよな

2024/02/14(水) 21:09:46.02

喋りが苦手なオタクほど『声を変えられる』って大きいと思うんやがなぁ
ようは声が匿名になるわけやしボイチャで会話スキル上がりそうやん

2024/02/14(水) 21:11:26.25

>>165
そうなんだが、はじめの一歩する場所がない…（ ; ; ）

2024/02/14(水) 21:14:00.27

独り言しゃべるだけでも楽しいぞ！

2024/02/14(水) 21:22:01.45

ディスコのAI声づくり技術研究会にそういう部屋あったな
たまに誰かいるぞ
あとはVRchatでバ美肉だ

2024/02/14(水) 21:42:13.58

喋りが苦手だとそもそも発声とか活舌の問題で声の問題じゃなかったりしてね

2024/02/14(水) 21:43:37.43

あとアクセントもか

2024/02/14(水) 22:02:09.11

ここに書き込むぐらいの気軽さでボイチャ出来る空間とかないんかな
失敗したら声もIDもリセットで

2024/02/14(水) 22:02:15.55

>>159
マルチGPUの環境がなくて、そもそもどういう機能に需要があるか分からんから、
具体的な要望を教えてくれると助かる
（学習に使うGPU指定は設定や環境変数でどうにかなるという認識）

2024/02/14(水) 22:13:15.84

>>172
早く処理できますからね
学習時間とか苦痛でしかない

2024/02/14(水) 22:27:32.60

変数書き換えるの面倒くさいから自動認識してくれという話やろ
知らんけどｗ

2024/02/14(水) 22:45:22.27

Style-Bert-VITS2の前準備でモーラの警告が出たときにどこのテキストが原因か表示するようにならないかな

2024/02/15(木) 00:31:55.32

>>171
そういうのがあればなぁ…
なんとか研究所は管理人の人がこわいです

2024/02/15(木) 00:34:34.65

>>173
具体的な要望はなんなんや？
複数GPUでの分散学習か？学習や推論のときのGPUを選択できるようにすることか？
ちゃんと言ってくれんとこちらも何をしたらいいのか分からんのや

2024/02/15(木) 00:36:31.24

>>175
漢字が読めんところはどこのテキストが原因か出たはずやけど、モーラ警告ってFirst mora should not be ...とかのやつか？それなら無視していいはずやけど

2024/02/15(木) 00:57:11.33

>>176
https://disboard.org/ja/search
テキトーに『コミュ障』とかで検索してサーバ入るのが無難かもね
あと朗読とかも楽しそう

2024/02/15(木) 01:21:52.29

>>176
PCにmeta quest3もあればVRChatの世界がおすすめやで
居酒屋ワールドで雑談に入るもよしゲームワールドでVCしながら協力プレイするもよし
メアドさえあればアカウントを作り直せるから旅の恥は掻き捨てで飛び込むんやｗ

2024/02/15(木) 02:05:22.92

>>178
たまに出てくるその警告が気になっただけや
影響もなさそうだし無視しとくか、サンガツ

2024/02/15(木) 06:28:35.70

>>177
今はGPU指定して、文字起こしや学習をする方法が分かったので、たくさんあるやりたいことを、
複数起動させて、順次フル稼働で回しています。（RVCでも同じようにしています。）
個人的には全肯定でGPUの指定ができるといいと思います。

それとは別に一番してほしいのは学習のマルチGPU化です。
とにかく時間がかかる処理はフルパワーをそこに費やしたいです。

2024/02/15(木) 08:18:53.70

Discordの人は偶になんJ民如く煽り入れてくる奴ら居るからムカツク😡

2024/02/15(木) 11:27:49.11

VRC行ってもコミュ障は人の少ない場所へ逃げ込んで誰にも見つからないようにワールド巡りすることしかできんのや………

2024/02/15(木) 11:30:51.00

コミュ障はTrustedのフレンドが出来無くて
アバターアップロードできなくて詰むんや

2024/02/15(木) 11:41:01.88

>>182
GPU指定できるようにするのは予定しとくわ
学習のマルチGPU化は、そもそもどれだけ効果あるのかは分からんけど（ほんとにグラボをつなげるやり方は無理なはず）、
現在でも分散学習のコードになっとるから、config.ymlのworld_sizeやらを変えたり、
https://github.com/fishaudio/Bert-VITS2/blob/master/run_MnodesAndMgpus.sh
を参考にしてみたりで、自分で調べて動くか試してみてくれんか
環境も知識もないからどうやったら動くかワイには分からん、知見あるひとおったら教えてくれ

2024/02/15(木) 12:14:37.93

マルチGPUはNCCL（NVIDIA Collective Communications Library）ってやつが関係しているんじゃないかな、知らんけど

train_ms.pyの中にもncclの記載がある

2024/02/15(木) 12:38:45.58

いくら分散学習が可能なプラットフォームに乗っかっていようと分散学習の整備なんて本来えらく金のかかる話やで
知らんけどで済まさず実装プランぐらい自分で勉強して示したらどうや

2024/02/15(木) 12:47:17.98

RVCやVITSに近い音声関係のAIでDeep Speakerって音声識別のやつがあって、こっちを使いこなす為にいろいろ調べてて

TensorFlowとかNCCLとかがよく出てくる。

2024/02/15(木) 13:29:56.91

非Windowsやとncclでwindowsだとglooってやつを現在の(Style-)Bert-VITS2の学習だと使っとる
実際にどうやって分散学習やるかは知らんのであとは自分で頑張ってくれ

2024/02/15(木) 16:03:05.22

>>179
>>180
ありがとうございます
VRchat、PCだけでもできるみたいなので飛び込んでみようと思います！

2024/02/15(木) 19:23:23.30

extra版で学習し直し始めたけどえらい時間かかるようになってしまった
同じ設定で前は2時間くらいだったのが15時間になってて絶望。うーんなんか設定ミスったかな

2024/02/15(木) 20:00:40.26

Extra版はVRAM使用量激増してるで
バッチサイズごとのVRAM使用量の目安はreleaseに書いてある
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.2

2024/02/15(木) 20:50:04.67

datasetのスライスは遅いから使わないことにした。
自分で作った無音分けと時間判別のpythonスクリプトでやる

2024/02/15(木) 21:07:49.77

どの声が一番いいと思う？
https://uploader.cc/s/k3b6xhsk19peq7ryyqjfgoafzad4cqcxhhzwh7yazoeck6d82pt07v80keqw0xdn.mp3

2024/02/15(木) 21:23:12.11

最初のやつ

2024/02/15(木) 21:24:56.73

>>193
VRAMは一応足りてるけどバッチサイズもっと下げたほうが良さそうやね
あと学習データ選別めんどいからあるだけ放り込んでるけどちょっと減らすかー

2024/02/15(木) 22:22:42.19

Out of memoryエラーが出なくても、バッチサイズ大きいと学習速度やたら遅くなることがあるっぽいので、メモリは足りててもとりあえず少なめから様子見が良さげ

2024/02/16(金) 01:47:12.52

共有メモリに食い込むとあんま時短にならへんな

2024/02/16(金) 03:24:20.28

PCIe5 x16とDDR5-7800環境ならDRAMメモリあふれてもそこそこ速いわ