【ボイスチェンジャー】なんJRVC部 5

2023/12/05(火) 17:00:39.54

Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/

2023/12/05(火) 17:02:00.86

以下有用そうなレス抜き出し
32 名前：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ 1ffc-Lcu7)[sage] 投稿日：2023/11/13(月) 15:32:14.90 ID:God5qFT00
マイク入力の話だけど RVC okibaのF0統計に近い形を入力出来ないか試した結果
ワイの出した答えがコレや 250Hz付近がピークになるように補正すればよかったんや
https://i.imgur.com/Lo2zirp.jpg

あとピッチシフターはVSTI使った方がいいわ VC Client側では0か3までぐらい
今のおすすめはクソ速いRoVeeかクソ奇麗なInner Pitch
https://www.auburnsounds.com/products/InnerPitch.html
それから RVCから出た音がクローズド(反響ゼロ)過ぎて嫌って人は
DOTECのDeeField刺すといい感じになるで学習時にはこれやるとLearning Rateクッソ下がるんだけどな
https://www.dotec-audio.com/deefield_jp.html

2023/12/05(火) 17:03:01.32

49 名前：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ a21b-sW/m)[sage] 投稿日：2023/11/23(木) 13:22:35.86 ID:66c6SvGK0
RVC okibaモデルの類似度に基づいてグラフ上でサンプル聞けるようにしたエクスプローラー作った
https://litagin02.github.io/rvc_okiba/
話者類似度からの最小全域木なんやけど、眺めるだけでも面白いな
（Beatriceの人がjvsコーパスで同じことやってたののパクり）

2023/12/05(火) 17:03:28.81

たておつ

2023/12/05(火) 17:03:54.60

55 名前：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ c717-1+JT)[sage] 投稿日：2023/11/30(木) 13:04:50.65 ID:s5yXvEj80
Bert-VITS2なかなかすごい気がするで
https://github.com/fishaudio/Bert-VITS2
1時間くらい学習を回しただけでこんぐらいのクオリティや
https://uploader.cc/s/r2mw27vrlpyaxohags2g5kdsf02bjbnvqzdd3p15o85gmui7m2o6ztr88u2ke2y6.wav
VITSに比べて短時間でできてノイズも少ない気がする。
ベースモデルはここに転載されとる
https://huggingface.co/Garydesu/bert-vits2_base_model-2.1

Bert-VITS2の使い方の記事書いたで
https://zenn.dev/litagin/articles/b1ddc1da5ea2b3

2023/12/05(火) 17:04:06.66

60 名前：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ a799-1+JT)[sage] 投稿日：2023/12/01(金) 18:14:59.21 ID:D++l71XR0
https://github.com/litagin02/slice-and-transcribe
TTS用のデータセット作るやつも公開した
ほぼ自分用やけどな

2023/12/05(火) 17:04:32.30

20までホシュ

2023/12/05(火) 17:05:26.66

ほ

2023/12/05(火) 17:07:05.00

法主上人猊下

2023/12/05(火) 17:07:32.90

保守って書くと怒られるのイラつく

2023/12/05(火) 17:07:45.82

あと9

2023/12/05(火) 17:08:08.91

あーえっちな声で男釣ってスパチャで稼ぎたい

2023/12/05(火) 17:08:16.53

あーめんどくさい

2023/12/05(火) 17:08:30.72

ボイトレとかめんどい

2023/12/05(火) 17:08:54.55

地声が低くてな

2023/12/05(火) 17:09:07.44

ならね

2023/12/05(火) 17:09:21.65

あと3

2023/12/05(火) 17:10:07.09

はいはい

2023/12/05(火) 17:10:15.75

ホシュ

2023/12/05(火) 17:10:26.19

ボッシュ

2023/12/05(火) 17:12:17.55

Bert-VITS2での結果のまた供養
https://uploader.cc/s/16zqapph6kq7h3f82c3bt66i16nipxjjw92x3pc6hbaeso3zer8d0w2273q8ait9.wav
感情が豊かすぎてパンドラの箱感があって怖い、じゃっかんカタコトの違和感はあるが

ここに載せたか忘れたけど作ったモデルのデモとモデル置き場
https://huggingface.co/spaces/litagin/bert_vits2_okiba_TTS
https://huggingface.co/litagin/bert_vits2_okiba

2023/12/05(火) 17:13:48.06

学習時間もRVCくらいの短時間でこんなTTSができるってちょっとヤバイじゃないんかって気がしてる
まあ外人感はしばらくはどうしようもないんやろうがなあ

2023/12/05(火) 17:20:44.23

Bert-VITS2についての初めての日本語動画がこれなのがな……
https://twitter.com/RougaiBarusan/status/1731685256246235230
https://twitter.com/thejimwatkins

2023/12/05(火) 17:35:12.38

サンイチ
確かに晋型やな

2023/12/05(火) 20:22:03.09

立て乙riffusionもここでええか

2023/12/05(火) 20:33:08.53

音系全般ここでええんやない
最近は歌詞から作曲してくれるsunoとかいうのがすごいらしいな
https://www.suno.ai/
要課金らしいけど

2023/12/05(火) 23:55:35.39

https://twitter.com/IrisiaProject/status/1732029906362785934
いろいろ使えそうな、キャラクターのセリフボイスデータセットの配布（RVCもあるよ）
セリフ書き起こしもあるからTTSの実験台にもやりやすそうやな
https://twitter.com/thejimwatkins

2023/12/06(水) 00:38:58.74

bertvits2って学習そんな回さなくてええんか
vitsのノリで1日とか回してたわ

2023/12/06(水) 01:05:58.75

サンイチ

2023/12/06(水) 01:32:45.94

>>28
これしたら特定のワードをいれるとノイズ音しか出なくなるモデルになったわ
そんなに回さない方が良い結果得られるな

2023/12/06(水) 01:47:07.03

すまん赤ちゃんなんやけど
モデルってマージやらなんやらしてオリジナルの声作れるの？

2023/12/06(水) 07:06:29.84

>>28
50エポックとか、回しても100エポック（ステップだと10kとか）で十分な印象
データセットにもよるけど学習時間は長くてもうちの4070やと2時間ちょいで十分や。

2023/12/06(水) 07:10:52.09

>>31
できるで（RVCの話よな？）
VC Client上でマージするのが何個でも好きな割合で混ぜられてすぐ確認できておすすめや。

2023/12/06(水) 11:41:11.47

>>27
Bert-VITS2 (15epoch 3000step 話者は全部混ぜた、ちょっとlowtensionな感情が反映されてない感じ？)
https://uploader.cc/s/obd5r7vgdzpy4953glaqibur5wcch4tqgc13klh2pd5xjb1e411ni3x9rrzup3dp.wav
基本話者だけで1時間半とちょっと多きいコーパスだし100epochもいらないやろか

transcript_utf8.csvをBert-VITS2のtext.listに変換するスクリプト置いとくで
https://pastebin.com/HecXRjx4

2023/12/06(水) 11:44:12.15

>>34
UnlistedじゃなくてPrivateに設定しててわスマンこっちで
https://pastebin.com/ZGhXwUre

2023/12/06(水) 11:50:28.21

>>34
助かる、自分も回しとるんであとでステップ数エポック数どんぐらいがよかったか報告するわ
感情のやつやけど、1文1文分けて生成の設定でやっとる？
全部まとめて放り込むと、最後の感情にひっぱられて微妙な感じになるで

2023/12/06(水) 13:26:05.64

>>36
39epoch 19000step
https://uploader.cc/s/wfkglm1czphict3o17ti2xtgtc3mrnvrrph2pmfuiqa3k6c0l6chc261kg7m52dc.wav
感情反映されなかったのは改行毎に生成できるapp.pyではなくwebui.py(cpu)からやったのがマズかったみたいやね

ちな4070Ti(共有メモリ無効化)で学習しながらapp.py動いたで
プチフリしたから焦ったけど学習もまだ進行してる

2023/12/06(水) 13:56:43.05

>>37
サンガツ、ええな
webuiでも一応右上の「切分生成」ってところからならいけるで

2023/12/06(水) 14:37:41.45

ワイは15kHz位から聴こえないんやけど目視で21kHz辺りまで伸びてるな
集めたデータセットだと11-16kHz位でLPF掛ってたりして確認できなかったんだが録音状態ええね
https://i.imgur.com/f7P2LFp.png

演技できるTTSなんて夢の技術が実現しつつあるのが凄い事や
商用のTTSも追従して来るんやろか？

2023/12/06(水) 17:46:10.06

Irisia Projectの音声から100エポックまで回した実験結果のページを共有するで
https://litagin02.github.io/irisia-bert-vits2-exp/
過学習っぽいのはやっぱあるな

2023/12/06(水) 17:56:25.29

>>40
かわええ
動画投稿でも使われるようになりそうやな
って言っておいてなんなんだけど、意外とTTSの需要があるんだね
みんなボイチェン目的でやってるもんだとばかり思ってたが

2023/12/06(水) 18:16:03.63

企業がやっとる音声合成製品に取って代わるにはキャラクターブランドとかそういうのが必要なのであれやけど、
マイコエイロインクとかで音声提供者が自発的にモデルを作って公開してる界隈だったら、こういうのと相性よさそう
コエイロインク開発のシロワニさんBert-VITS2使ってくれんかなあ

2023/12/06(水) 18:47:21.53

>>40
乙やで

ところで古いモデル残すのは config.yml の keep_ckpts: 0 にすればええんやろか？
そのままでやってたら100epoch付近のしか残っとらんでw

2023/12/06(水) 18:54:36.57

>>43
そうやな、そこを0以下にしとったらええはず（自分は一応-1にしとる）
若干そこらへんも記事に追記しといたわ

2023/12/06(水) 19:22:54.77

Colabでやったら
Google ドライブでエラーが発生しました。
って出るんだけどおま環？

2023/12/06(水) 22:18:51.66

>>33
サンガツや！
まだ何もわからんけど入部するで

2023/12/07(木) 08:49:16.54

サンイチ
RVCは10月から更新ないんか

2023/12/07(木) 12:49:52.50

RVC V3待ちやな

2023/12/07(木) 14:03:24.59

今日から参戦しますのでよろしくな

2023/12/08(金) 10:01:50.68

vits2
学習させて使ってみたがヤバいな

2023/12/08(金) 11:18:12.96

Bert-VITS2、関西弁で学習させるとちゃんとアクセントも何故か関西弁になるらしい
感情も抑揚も文章の意味によって変わるし、学習爆速で質もVITSより高いし、TTS界隈的に普通にめっちゃすごいのでは……？

2023/12/08(金) 12:14:12.56

広まるにはMoegoeほどのインパクト（声優3000人分のモデルとか）が求められとるんやろうか

2023/12/08(金) 12:14:33.51

広まるにはMoegoeほどのインパクト（声優3000人分のモデルとか）が求められとるんやろうか

2023/12/08(金) 12:28:31.69

過疎すぎてもあれだけど広まりすぎても岸田ディープフェイクみたいな迷惑な輩も出るだろうしなぁ、あれはロゴを勝手に使ったのが問題なんだけど

2023/12/08(金) 12:38:00.14

https://github.com/crskycode/GARbro/releases/tag/GARbro-Mod-1.0.1.2
何とは言わんが今更ながら音声学習の素材集めに使えるやつを置いとくで

2023/12/08(金) 23:52:25.48

oobaかkoboldでvits2動けば捗りそう

2023/12/09(土) 00:50:31.40

猫旅団の投入が急がれる

ウクライナ軍陣地、ネズミ大発生　食料に被害、前線にネコ送り駆除
https://news.yahoo.co.jp/articles/1bbc5fcbbc76527803537beb871741b4b6d3c2b9
https://i.imgur.com/suWcEQr.jpg

2023/12/09(土) 00:58:08.89

誤爆すまん

2023/12/09(土) 01:38:05.89

すまん、https://github.com/litagin02/slice-and-transcribeについて教えてクレメンス。
「wavファイルをinputsディレクトリに入れてください」とあるが、「inputsディレクトリ」ってなんや？そんなのどこにもないんやが・・・。
導入に書いてあるコマンドでgitするだけじゃアカンのか？

2023/12/09(土) 01:43:19.23

>>59
すまんgitでの空のフォルダ管理が面倒なのでinputsディレクトリは、
手動でinputsフォルダ作ってそこにwavファイルをいれてくれ

2023/12/09(土) 01:58:07.28

>>60
slice-and-transcribeの中に「inputs」と「raw」フォルダを作ればええんかな？
やってみたらこんなエラー出たが・・・。
2023-12-09 01:55:55.9548834 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.

2023/12/09(土) 04:02:34.04

今まで数日かけて学習させていたものと同等の結果が、
VITS2だと僅か数時間で得られるの本当に凄いわ

2023/12/09(土) 08:54:49.03

>>61
inputsフォルダだけでええで、rawは自動で作られる
そのエラーはエラーというより警告で無視していいやつや
分かりにくくてすまんな

2023/12/09(土) 10:03:17.71

>>63
作者様やったんか。ホンマサンガツやで。
しかしやっぱアカンな・・・。ご指摘の通り、inputsフォルダ作ってそこにWAVファイル入れてみたが、
Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not workと出る。
bingちゃんがpip install ffmpegせえ言うからやってみたけどアカンわ。

2023/12/09(土) 10:13:18.87

>>64
あーすまん、確かにpydubにffmpegが必要やったわ
Pythonライブラリじゃないんで、たぶん手動でインストールする必要ある（pipでは別に入れる必要ないっぽい）
「ffmpeg Windows インストール」とかでググって入れてくれ

2023/12/09(土) 12:17:37.96

適当にffmepg落としてきて環境変数のpathの欄にそのフォルダー入れとけば問題ないはず

2023/12/09(土) 13:28:05.85

bert-vits2は学習元はどれくらいの時間の音声用意してる？

2023/12/09(土) 13:33:27.23

>>67
（最終的に学習に使うwavの合計で）いつも40分前後でやっとるけど、RVCと同じくらいの15分とかの少ないデータ量でもそれなりにいけるっぽいで
あんま5分とかで回したことは無いけど行けそうな雰囲気ある
Irisia Projectの合計2時間でやったやつでも質がめっちゃ上がったという感じは正直ないから、長さはそんなにいらん気する

2023/12/09(土) 13:48:38.83

ffmpegはどうせvenv有効にするから venv\Scripts にビルド済みの ffmpeg ffprobe ffplay ブチ込んでるな
これはactivateが勝手にパス通すから環境変数弄んなくてもええぞ

>>67
あんま検証してないけど 8分 13分後 >>27 (全部)
質も重要やろうけど多分短くても感情表現色々混ってた方が向いてると思うで
これらを自動的に学習推論するみたいやし

2023/12/09(土) 16:14:48.08

ffmpegはインストールできたがやっぱり動かんな・・・。
Using cache found in C:\Users\user/.cache\torch\hub\snakers4_silero-vad_masterと出てる。
Silero VADをgit cloneして、そのフォルダの中にslice.pyを入れて起動させてみたがそれでもアカンわ。何が原因なんや・・・。

2023/12/09(土) 16:50:46.13

>>70
うーん、Using cache found in ...は別にエラーでは無くていつも出るやつなんやけど、
その下に何かエラー出とらん？
どこで処理が詰まっとるのかが分からんな

2023/12/09(土) 18:27:15.02

>>71
この手のエラーが10個くらい表示されとるが、これは無視してええやつなんよな？
2023-12-09 18:23:14.4986353 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
これらが表示されるだけで何も処理されず（rawフォルダも作成されず）に最初に戻されてるわ。
PS G:\Bert-VITS2\kakiokosi\slice-and-transcribe>

2023/12/09(土) 18:31:03.11

>>72
inputsフォルダ直下にwavファイルをちゃんと置いてる？
あーもしかして拡張子が大文字の.WAVかな？だったら今のやつだと想定してなかったんでとりあえず小文字.wavで試してくれ

2023/12/09(土) 18:37:18.71

拡張子大文字が問題だったなら修正したのでgit pullで更新で頼む

2023/12/09(土) 18:50:46.81

わざわざスマンな・・・。ギップルしたけどやっぱり変わらんわ。
多分ニキにとって当たり前の何かをワイがやってないんやと思うわ。ワイにはまだ早すぎたようや。
あんまり騒ぐのも申し訳ないので、ここらでROMるやで。ホンマサンガツな。これからもよろしくやで。

2023/12/09(土) 23:54:40.21

RVCリアルタイム変換で、4070Tiでも1.5秒くらい遅れるんだけどこんなもん?

2023/12/10(日) 03:22:59.36

俺も4日前からデビュー
よろしこ

2023/12/10(日) 11:01:26.41

>>68
㌧ｸｽ、目安にさせてもらいやす

2023/12/10(日) 11:05:31.81

>>76
CHUNKとEXTRAの設定次第だがそんなもん

2023/12/10(日) 20:39:10.73

滑舌どうしても悪くなるな…

2023/12/10(日) 21:56:56.76

>>79
そうかーもう少しなんとかなれば実用なんだけどなあ...

2023/12/11(月) 02:43:40.08

VRCでRVC使いたいけどなかなかうまく行かへんな

2023/12/11(月) 03:23:08.64

https://twitter.com/DannadoriYellow/status/1705387112772829660
WSL化, onnx化, serverでMMC以外を選択, 16K, で100~300msec辺りまで追い込めるけど品質は悪くはなるな
CHUNKを短くしてぶつぶつ言うのはLatencyMonで見て割り込み食ってる奴を排除しつつ詰めていくしかないなぁ
https://twitter.com/thejimwatkins

2023/12/11(月) 03:42:15.34

エラーが出まくったけどうごいてる。
(vit_env) C:\Bert-VITS2>python train_ms.py
加载config中的配置localhost　加载config中的配置10086　加载config中的配置1
加载config中的配置0　加载config中的配置0
加载环境变量
MASTER_ADDR: localhost,　MASTER_PORT: 10086,WORLD_SIZE: 1,
RANK: 0,
LOCAL_RANK: 0
12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████6/96 [00:00<00:00, 31921.13it/s]

2023/12/11(月) 03:43:25.76

12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 96　12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████████████| 4/4 [00:00<?, ?it/s]　12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 4
Using noise scaled MAS for VITS2　Using duration discriminator for VITS2
INFO:models:Loaded checkpoint 'Data/model_name1\models\DUR_0.pth' (iteration 0)
ERROR:models:enc_p.emo_quantizer._codebook.embed is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.initted is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.cluster_size is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.embed_avg is not in the checkpoint
ERROR:models:emb_g.weight is not in the checkpoint
INFO:models:Loaded checkpoint 'Data/model_name1\models\G_0.pth' (iteration 0)
INFO:models:Loaded checkpoint 'Data/model_name1\models\D_0.pth' (iteration 0)

2023/12/11(月) 03:45:15.70

******************检测到模型存在，epoch为 1，gloabl step为 0*********************
0it [00:00, ?it/s]INFO:models:Train Epoch: 1 [0%]
INFO:models:[2.746347427368164, 2.83308744430542, 4.527602195739746, 24.40008544921875, 3.1789772510528564, 3.6999363899230957, 0, 0.0002]
Evaluating ...
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\G_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\D_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\DUR_0.pth
20it [00:23, 1.20s/it]
INFO:models:====> Epoch: 1
以下続く。
もう寝て朝に結果をみることにします。

2023/12/11(月) 04:30:56.33

BERT-VITS2の安倍晋三モデルとかあんのかよ
https://huggingface.co/AbeShinzo0708/Bert-VITS2_AbeShinzo

2023/12/11(月) 04:44:07.93

>>85
感情関連の扱いがメインブランチ最新版で微妙に変わってるっぽいから、事前学習モデルとの食い違いでエラー出てるっぽい
（enc_p.emo_quantizerやらがたぶんそれやな）
学習うまくいったかどうかぜひ報告してくれ

2023/12/11(月) 10:47:20.76

VITS2のアクセント予測の精度が高いとは思えないな　ところどころ間違ってる
学習を増やしてもどうせそれは直らない　結局ゴミじゃないか

2023/12/11(月) 11:24:21.80

アクセント取り出す部分はpyopenjtalk依存だからVITS2は悪くないはずやで
一応仕組み上はアクセント手動で修正できるはずなんやけど、前実験したら微妙だったから、うまくできるかは分からん

2023/12/11(月) 11:50:32.80

亡くなっている要人であれば問題は起きにくいのかもしれないが
過去の発言などと捏造してアップするような行為はまずいし
平常時も声の権利ってどう判断されるのかよく分からんな……まだ判例なさそうだし

2023/12/11(月) 14:58:00.02

>>81
そんなもんとは言ったけど
ソフトとハード突き詰めていけば
ほぼリアルタイムで十分な品質は夢じゃないぞ
OSがUbuntuのPCでMMVCServerSIO.py を実行した方が良いと思う
WindowsとLinuxベースの違いが少なからず遅延に影響してるはず

2023/12/11(月) 18:50:15.57

>>88
帰ってきたので、推論を試しました。
つくよみちゃんのデータ100件をもとに作成。G1000,G4000で聴き比べしましたが、G1000でも十分そのまんまの声になりました。
しかしながら、Emotionの値は0-9のどれにしても話し方が変わったようには思えませんでした。よって感情にかかわる学習はできていないように思います。
また、Languageは日本語に設定し、日本語の文章を読ませることはできますが、少しでも英語が入った文章、たとえば、（目的地までLet's go）などは、英語の部分を話さず飛ばして発話されます。
そこでLanguageをMIXにすれば英語も話してくれるかなと思いましたが、エラー（Error: No valid speaker format detected. Please check your input.）となり、音声を生成することができません。
Languageをautoにすると、英語部分も話すようになりますが、日本人がでLet's goというときのレッツゴーという発音ではなく、英語話者のでLet's goの発音になるので、違和感しかないですし、日本語部分も少し下手になるので、autoはダメだなと感じました。

2023/12/11(月) 19:15:18.60

英語の部分は全部カタカナにしてあげると、日本の発音で英語をよむね。
簡単に解決した。でもiphoneとかusbとかも発音してくれないから、アイフォン、ユーエスビーと書いてあげる必要がある。

2023/12/11(月) 19:22:49.95

いやマジでなんかTTSのスレになってないかｗ
ボイチェンとしての需要あんまないんか・・・？

2023/12/11(月) 19:28:07.42

RADEON 使ってるんで動かないウゴゴなっってたがONNX対応最新のをいれてみたらCPUで出来るようになっってんのな
Ryzen 5950X 22スレッドだかで1 Epochあたり21-24分掛かって草
まぁ軽いゲームや動画視聴くらいなら並列でも問題なく動くから良いや

2023/12/11(月) 19:32:46.34

>>95
たまたまTTSの話題が続いてるだけでしょ
俺はボイチェン目的でずっとここ見てる

2023/12/11(月) 19:43:12.78

>>93
おつ
英語読んでくれない問題は人力で頑張ってアルファベットをカタカナに変換するのを噛ませたりしとる人はおった、カタカナで打つのがまあ手っ取り早いな。
Emotionは今はうまく機能してないっぽくて、次verの2.2でちゃんと動くようになるっぽい
（つくよみちゃんなら元の音声読み上げが感情が平坦やからアレやけど、データに感情があればちゃんと文章によって感情が変わるはず、うまく学習できてれば）

2023/12/11(月) 19:44:07.41

ボイチェンもRVC v3来ないし、とくに話すこともないよなーっていう感じになっているのは正直ある
低遅延を売りにしとったやつもまだ来ないし

2023/12/11(月) 19:52:26.88

https://uploader.cc/s/jpb8g8axxnfus0w9judpi4kwspqr674m7arzcoyvncpf235p18055q2ziussa141.mp4
前適当に作った、ChatGPTのAPI使ってBert-VITS2ちゃんと（RVCで）お話するやつ

2023/12/11(月) 20:30:04.62

>>91
まあいいじゃん、そういうの

2023/12/11(月) 22:53:07.89

LLVCの事やったらDistil-Whisperと同じでpruningしてるから英語のみ特化になるんやな
論文読み込んで実装してグラボいっぱい借りて日本語でモデル特化で回さんといかんからそんな酔狂な奴はおらんやろなぁ

2023/12/11(月) 23:16:56.25

https://twitter.com/tarepan_mhhow/status/1720661932351607192
LLVCは日本語でも動くっぽいけど話者性がちょい微妙みたいやで（やってないので知らんがサンプル音声はどっかに上げてた）
ワイが言ったやつはParakeetのことやな
https://twitter.com/thejimwatkins

2023/12/11(月) 23:18:59.17

何か変なアカウントくっついたが何やこれ
Parakeetのところのボイチェン
https://www.parakeet-inc.com/parakeet-vc
ウェイトリスト公開して2ヶ月くらい経つけど音沙汰なし

2023/12/11(月) 23:31:09.16

>>104
5chにTwitterのURL貼ると何故か自動で5ch管理人であるジムのTwitterも貼られる仕様

2023/12/12(火) 15:38:30.65

好きな声にいい感じの曲AIカバーさせてんほりたいけど中々うまく変換できん
ボーカルぶっこ抜けば比較的キレイに歌ってくれるオススメの曲ないか？

2023/12/12(火) 19:08:25.98

おすすめ曲というか、原曲じゃなくて上手い歌ってみたとかでやるのおすすめ
原曲だと、どうしてもハモリとかが邪魔できれいにならない

2023/12/13(水) 13:56:01.01

Bert-VITS2、ver 2.2が来たけど、まだ事前学習モデルが壊れてるっぽくて質が2.1より落ちるから注意な
もう少しは2.1で様子見といたほうが良さそう

2023/12/13(水) 15:53:40.36

↑なおったっぽい

2023/12/13(水) 16:48:44.14

他の場所は普通なのに高い音のときだけオク下で変換するのやめちくり～
まるでサビだけオク下になるワイみたいだあ…(直喩)　AIなんだから難なく全部歌って、どうぞ

2023/12/13(水) 17:04:02.90

F0推定失敗してんやろな
RVCでンゴるのってF0推定失敗のせいやろ？

2023/12/13(水) 18:53:05.40

Vitsなおるのはや

2023/12/13(水) 19:01:53.74

2.2学習試してみたけど、感情プロンプト正直全く効かん、しばらくは様子見で2.1でええかもしらん

2023/12/13(水) 19:58:54.14

2.0なんか2.1なのかわかってないけど2.1に出来る？

2023/12/14(木) 06:17:34.46

というか、思ったほどよくないよね。RVCと差があまり感じられないんだけど。

2023/12/14(木) 06:58:39.84

Bert-VITS2の話なら、TTSとボイチェンは単純には比較できない気が

2023/12/14(木) 15:49:44.59

VC Client専用にPCを用意しようと思うんだけど、グラボって変換までの遅延と値段のバランスを考えると以下のどれがいいのかな
メインPC
→　VCC専用機(NVIDIA Broadcast→VoiceMeeter Banana(VST)→VCC→VoiceMeeter Banana(VST)→メインPC)
というような構成を想定(できるかまでは未確認)
・RTX3060 12GB
・RTX4060ti 16GB
・RTX4070
・RTX4070ti

2023/12/14(木) 23:21:48.17

遅延気にするならまずvoicemeeterは無い
DSP内蔵でエフェクトかけてライン戻しミキシングのできるオーディオインターフェイス買え
具体的にはio44とかの内蔵エフェクトやゲートが有能
どうしてもVST使いたいならむしろUAD-2つかえるuniversal Audio Apollo

2023/12/14(木) 23:25:14.36

>>117
特定のキャラや声優の声真似したいってんじゃなければ
普通のボイチェン使ったほうがいいんじゃない・・・？

2023/12/14(木) 23:49:04.75

中古の3090がいいと思うよ

2023/12/15(金) 00:42:49.55

Bert-VITS2.1用やけどエポック毎に推論してwav出力するスクリプト置いとくで
(独自のローカルデータセットでエポック毎の比較したい人向け)
https://pastebin.com/1GTSZqi5

ぶっちゃけpythonもtorchもよく解ってないんでそこんとこ堪忍な

2023/12/15(金) 00:45:53.38

>>0118-0120
回答ありがとうございます。
すみません、質問の内容を変えます。
皆さんはどのような構成でVC Clientを使用していて、どのぐらい遅延が発生しているのでしょうか？

2023/12/15(金) 00:47:04.95

Blue Cat’s ConnectorでPC間やDAW間を音声に戻さずに低遅延でデーター転送できるで
https://www.dtmstation.com/archives/55390.html
生音声入れるとこはDSP付きオーディオインターフェイス入れたほうが絶対ええけど
VCC用専用グラボのメモリはAIさわるなら16G欲しいなあグラボ買うには時期悪いから年明けまで待ったほうがええけど

2023/12/15(金) 01:37:57.12

>>121
>>123
よくわかんねぇけどすげぇ・・・
何故このスレにエンジニアが集っているんだ

2023/12/15(金) 11:46:59.73

志村けんさんのデータを作りたいがいい素材がない

2023/12/15(金) 12:37:04.27

>>120
結局VRAMが一番重要になるAIだと最良の選択肢だよは
今年でもちょいちょい新品の3090が13万前後で売ってたのマジで惜しい
中古はマイニング酷使でオイルブリードのリスクが高いのが本当になあ

2023/12/15(金) 16:41:11.97

特定の声以外は周波数やら何やらを利用してミュートするという準備が必要なんじゃないか

2023/12/15(金) 17:42:53.99

>>122
io44使ってRTX3090&i9 12900単機でVRCしてXSplit配信しながらの重さでこんな感じ
https://i.imgur.com/P4WqHpQ.png
https://i.imgur.com/bISStTi.png

2023/12/15(金) 17:55:08.84

学習ならVRAM必要だろうけどボイチェン用途でもそんなに重要なんか？

2023/12/15(金) 17:57:43.96

>>128
早速ありがとうございます。
chunk16ってすごいですね…変換後音声がプツプツってならないのですか？

2023/12/15(金) 18:05:33.74

>>130
なんないで
この下に下げると急に始まる

2023/12/15(金) 20:18:43.84

ダイエットは限界だ
しかし
車の修理

2023/12/15(金) 20:23:17.15

これで普通はリバウンドするんだろうけど
どこの国の責任だろう

2023/12/15(金) 20:28:02.69

またスクリプトきたんでほどほど書き込みせんと落とされるで

2023/12/15(金) 20:28:35.92

>>125
これ
まあ現実的じゃなかろうよ。

2023/12/15(金) 20:29:09.10

200スレ超えると
最後に書き込まれたスレ順で下半分落とされます

2023/12/15(金) 20:29:11.31

>>12
なんでゴリ押しなの危機管理能力0で来年アイランド2なんてないパターンやろw

2023/12/15(金) 20:30:07.64

手動で書き込みして抵抗した所でどうしようもない
落ちたらまた建て直せばいい

2023/12/15(金) 20:31:38.01

>>131
グラボの暴力ってすごいですね。
とりあえずio44ポチったのでそれも含めて現環境で色々試してみます。

2023/12/15(金) 20:36:57.84

もし無かった場合どうなるか見物だな

2023/12/15(金) 20:39:41.14

ただものじゃないぞ
+1.66%

2023/12/15(金) 21:03:06.62

>>125
その人のモノマネする人がyoutubeに上げてるやん
激似やしいけんか？

2023/12/15(金) 23:36:20.41

スクリプト荒らしなんなん？暇？糖質？

2023/12/15(金) 23:46:17.56

VC Client、少し前のアプデでchunk下げても変にはならんくなったけど、やっぱ滑舌や発音はかなりびみょくなる印象（Beatriceは知らん）
ずっと前の癖でいつも128くらいでやっとるな

2023/12/16(土) 00:20:04.24

VC Client1.5.3.17bに更新してchunk下げてみたら24が限界だったわ
この時CPU負荷(3700X)がフルコア全スレッドで90%越えてる
CUDA負荷(4070ti)は50%以下やからVC ClientはCPUも重要なんやな

2023/12/16(土) 00:22:12.67

indexが大きめだとCPU負荷が余計かかるという仕様もある、WSL使うとそれはなくなるらしい

2023/12/16(土) 03:16:49.97

>>145-146
indexの処理に使用しているfaissとかいうライブラリがwindowsだとうまく動かなくてCPU使用率が上がるとかなんとか。

2023/12/16(土) 04:22:57.27

>>147
糞ライブラリで草

2023/12/16(土) 08:11:40.24

tiktok liteでPayPayやAmazon券などに交換可能な4000円分のポイントをプレゼント中！
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
　　　　　
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード（ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要！)で合計で4000円分のポイントゲット

ポイントはPayPayやAmazon券に交換できます！
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。

2023/12/16(土) 10:16:52.08

>>149
試してみるサンキュー

2023/12/16(土) 19:41:02.77

Bert-VITS2 (2.1)の環境構築とかいろいろ自動でやってくれる便利なやつが出たってよ
https://twitter.com/Zuntan03/status/1735947687466557733
https://twitter.com/thejimwatkins

2023/12/16(土) 20:13:41.41

横転した漫画はあるし
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは

2023/12/16(土) 20:14:19.24

>>107
お前が一番身体検査しろよ
年齢変わらない

2023/12/16(土) 20:15:58.33

>>69
イヤモニで指示する番組になっちゃってがっかりや
漫画自体は悪くないよ
おんな城主直虎はあんまおもろくなかった

2023/12/16(土) 20:17:12.61

>>149
TikTokから見れば4000円は小銭か
　

2023/12/16(土) 20:21:03.05

>>51
仕事やとおっさん同士美少女の幻覚をかけてくれる頼もしい味方
なんかあるでしょ

2023/12/16(土) 20:21:07.61

もちろん男な
年金で

2023/12/16(土) 20:51:28.67

ガッカリはしないやろ

2023/12/16(土) 20:54:01.01

思い出したら
最も先鋭的な書き込みだから、若い世代だから
女優だよ。

2023/12/16(土) 20:56:41.59

パーティいなくなったし
人気は時間差ではあるな

2023/12/16(土) 21:08:32.71

これ何？
親米派は

2023/12/16(土) 21:10:40.31

>>7
稚魚もは無いよね
普段から言動が伴ってれば道具なんか好きなオッサンアニメ見るか？
ふうまろ髪切りすぎで実力以上はしてると思うよ
ほら全部憶測でしかないのな

2023/12/16(土) 21:11:07.02

>>122
あの体型見ただけで

2023/12/16(土) 21:22:53.28

アプデで章増えていきますとかじゃないかぎり騒がんだろうな

2023/12/16(土) 21:22:56.65

長期はほったらかし

2023/12/16(土) 21:24:32.73

>>164
コロナの後に24h出ても辞めて
最近アカンと思ってたわ
スーパースラムでスラムは同じなんだよな

2023/12/16(土) 21:24:50.09

ヒロキの部屋住めるだろ
エンジンは叩くだろうけど
もう人も多いよな

2023/12/16(土) 21:27:19.30

>>36
アニメ化するかはほんと無理
https://i.imgur.com/GdGLF0b.jpg

2023/12/16(土) 21:28:33.03

展開早すぎてよく知らんやつが

2023/12/16(土) 21:30:42.27

接種した可能性も華もないのに
ヒロキのすべてのが萌えた

2023/12/16(土) 21:32:35.28

いまはドライブレコーダーをつけて練習着のままって感じだな
しばらく金10主演できて

2023/12/16(土) 21:34:53.00

二気筒でよかった(:_;)
( ﾟ ⊇ ﾟ)ﾌﾝﾌﾝ

2023/12/16(土) 21:36:36.24

>>160
分かってるんかその辺の嵐だった
(´・ω・`)

2023/12/16(土) 21:40:10.93

自分は

2023/12/16(土) 21:45:28.95

今日はスプリクト元気やな

>>146,147
index=0.0やけどheavyやで

これと関係ないけどパススルーしてなんか音量小さいなと思ったら
モノ+モノで入力の片方しかマイクが繋がってない環境では
音量がマイク(L)/無音(R)みたく平均化されて半分になっちまうみたいやな
https://github.com/w-okada/voice-changer/blob/0f0225cfcdc62ddf41495124cc9a5cef53c5f014/server/voice_changer/Local/ServerDevice.py#L136
https://librosa.org/doc/main/generated/librosa.to_mono.html
こう言う環境はinのゲイン2.0にすればええんやろか？ギターとかマイク以外の機材繋いでる場合困りそうやけど

2023/12/16(土) 21:48:08.60

なんで
ボート
パチ屋
バカモノの間違いじゃ無いか？
https://i.imgur.com/mJwl7qU.mp4

2023/12/16(土) 22:47:07.34

>>175
いつもマイク入力が片側のみやったけどその情報知らんかった、なるほど
どうなんやろ（ワイはin 2 out 2ぐらいで固定しとる）

2023/12/16(土) 23:03:11.63

あの燃え方では優等生だけど下手な人にも

2023/12/16(土) 23:03:51.09

はまちそつふさややをぬひはみまそそぬわませせたひをられみかそかこちへそなのをりれん

2023/12/16(土) 23:07:04.28

自身のメンタル体力が落ちてるんだけど数字改変してるよな
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた

2023/12/16(土) 23:08:57.19

ふちてちめれろへろいりきはははおきめせひくうをりそおむへあそち

2023/12/16(土) 23:17:14.00

一般社会でこんな

2023/12/16(土) 23:19:33.35

まずその書き込みのおかしいところのお坊ちゃんだと思われても無駄な我慢と苦労で草
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw

2023/12/16(土) 23:21:56.23

>>144

ただ台の版権とか考えると凄いんだよな

https://i.imgur.com/uPFmerJ.jpg

◆29NECOsF/g · 2023/12/16(土) 23:24:38.06

>>184 >>168
グロ

2023/12/16(土) 23:34:30.49

ねいをおゆをかにともへ

2023/12/16(土) 23:41:13.09

>>103
出ても少ないし
こいつのせいじゃないよね
ネイサンは本当にありがとうございました
＞運転手も含め8人がやっとるやろ

2023/12/16(土) 23:47:19.56

真っ暗
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな

2023/12/16(土) 23:53:34.89

流石に一番酷かったのは明白

2023/12/16(土) 23:55:50.88

>>186
むしろなんでまだ生きてるはず

2023/12/16(土) 23:58:30.87

異性関係は母親や付き合った俳優Nはその恐ろしいカルトをなんとかしろ
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね？

2023/12/17(日) 00:05:58.83

>>30
分離帯にほぼ真っ正面から突っ込んで確認を取ってないぞ
擬人化アニメ
さいころ倶楽部みたいな話

2023/12/17(日) 01:44:39.93

>>177
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで

https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない

sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか？
今日はこの位にしておきます

2023/12/17(日) 10:27:42.40

>>193
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで

2023/12/18(月) 13:14:25.21

Bert-VITS2のモデルのkey別マージで実験しとったら、思ったよりもはっきり話者性と感情表現・抑揚とかが入ってる箇所がわかったから、
その点で声音と感情表現・抑揚とテンポの3つの要素で2つのモデルを取り替えたりマージしたりできるやつ作ったで
https://gist.github.com/litagin02/f07a5d7217c9efa4918de0812fd99cd3
これで平坦なコーパス読み上げ文章のモデルを無理やり感情豊かにできる（1つ目が素のずんだもん、2つ目がマージで作った感情豊かなずんだもん）
https://uploader.cc/s/w6p6svisy00w5ymx7qemgbjmshz250ewt9lva4edqcbfuqe55x51l1zdta6zk8i7.wav
https://uploader.cc/s/1o9jz8pzt1kh8vemb9xllj1g5yl4td3x9b8b4mjyzytatb2dxdhlxglnealminoc.wav

2023/12/18(月) 13:57:33.41

今ってRVC beta v2で48kで学習できるようになったんやな
でも主流はもう変わっとるん？

2023/12/18(月) 13:58:54.28

好きなボーカルの音声で別な曲を歌わせることが出来るというので、Google ColabでどうにかこうにかConvertで安定して音声変換できるようになりました。
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか？

2023/12/18(月) 14:03:12.97

>>195
乙やで
凄いなこれ確かに棒なモデルが感情表現できる様になったで

2023/12/18(月) 15:38:29.12

>>197
いろんなことに依存しそうやけど、とりあえずピッチ推定pmはクソやから、
rmvpe使え

2023/12/18(月) 15:39:55.45

>>195
すんごいもん作るなぁ