Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。
wiki
https://seesaawiki.jp/rvc_ch/
※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/
【ボイスチェンジャー】なんJRVC部 5
レス数が1000を超えています。これ以上書き込みはできません。
2023/12/05(火) 17:00:39.54ID:NtbcvmEK
2023/12/05(火) 17:02:00.86ID:NtbcvmEK
以下有用そうなレス抜き出し
32 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1ffc-Lcu7)[sage] 投稿日:2023/11/13(月) 15:32:14.90 ID:God5qFT00
マイク入力の話だけど RVC okibaのF0統計に近い形を入力出来ないか試した結果
ワイの出した答えがコレや 250Hz付近がピークになるように補正すればよかったんや
https://i.imgur.com/Lo2zirp.jpg
あとピッチシフターはVSTI使った方がいいわ VC Client側では0か3までぐらい
今のおすすめは クソ速いRoVeeかクソ奇麗なInner Pitch
https://www.auburnsounds.com/products/InnerPitch.html
それから RVCから出た音がクローズド(反響ゼロ)過ぎて嫌って人は
DOTECのDeeField刺すといい感じになるで 学習時にはこれやるとLearning Rateクッソ下がるんだけどな
https://www.dotec-audio.com/deefield_jp.html
32 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1ffc-Lcu7)[sage] 投稿日:2023/11/13(月) 15:32:14.90 ID:God5qFT00
マイク入力の話だけど RVC okibaのF0統計に近い形を入力出来ないか試した結果
ワイの出した答えがコレや 250Hz付近がピークになるように補正すればよかったんや
https://i.imgur.com/Lo2zirp.jpg
あとピッチシフターはVSTI使った方がいいわ VC Client側では0か3までぐらい
今のおすすめは クソ速いRoVeeかクソ奇麗なInner Pitch
https://www.auburnsounds.com/products/InnerPitch.html
それから RVCから出た音がクローズド(反響ゼロ)過ぎて嫌って人は
DOTECのDeeField刺すといい感じになるで 学習時にはこれやるとLearning Rateクッソ下がるんだけどな
https://www.dotec-audio.com/deefield_jp.html
2023/12/05(火) 17:03:01.32ID:NtbcvmEK
49 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a21b-sW/m)[sage] 投稿日:2023/11/23(木) 13:22:35.86 ID:66c6SvGK0
RVC okibaモデルの類似度に基づいてグラフ上でサンプル聞けるようにしたエクスプローラー作った
https://litagin02.github.io/rvc_okiba/
話者類似度からの最小全域木なんやけど、眺めるだけでも面白いな
(Beatriceの人がjvsコーパスで同じことやってたののパクり)
RVC okibaモデルの類似度に基づいてグラフ上でサンプル聞けるようにしたエクスプローラー作った
https://litagin02.github.io/rvc_okiba/
話者類似度からの最小全域木なんやけど、眺めるだけでも面白いな
(Beatriceの人がjvsコーパスで同じことやってたののパクり)
2023/12/05(火) 17:03:28.81ID:HfgtLD2Q
たておつ
2023/12/05(火) 17:03:54.60ID:NtbcvmEK
55 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c717-1+JT)[sage] 投稿日:2023/11/30(木) 13:04:50.65 ID:s5yXvEj80
Bert-VITS2なかなかすごい気がするで
https://github.com/fishaudio/Bert-VITS2
1時間くらい学習を回しただけでこんぐらいのクオリティや
https://uploader.cc/s/r2mw27vrlpyaxohags2g5kdsf02bjbnvqzdd3p15o85gmui7m2o6ztr88u2ke2y6.wav
VITSに比べて短時間でできてノイズも少ない気がする。
ベースモデルはここに転載されとる
https://huggingface.co/Garydesu/bert-vits2_base_model-2.1
Bert-VITS2の使い方の記事書いたで
https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
Bert-VITS2なかなかすごい気がするで
https://github.com/fishaudio/Bert-VITS2
1時間くらい学習を回しただけでこんぐらいのクオリティや
https://uploader.cc/s/r2mw27vrlpyaxohags2g5kdsf02bjbnvqzdd3p15o85gmui7m2o6ztr88u2ke2y6.wav
VITSに比べて短時間でできてノイズも少ない気がする。
ベースモデルはここに転載されとる
https://huggingface.co/Garydesu/bert-vits2_base_model-2.1
Bert-VITS2の使い方の記事書いたで
https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
2023/12/05(火) 17:04:06.66ID:NtbcvmEK
60 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a799-1+JT)[sage] 投稿日:2023/12/01(金) 18:14:59.21 ID:D++l71XR0
https://github.com/litagin02/slice-and-transcribe
TTS用のデータセット作るやつも公開した
ほぼ自分用やけどな
https://github.com/litagin02/slice-and-transcribe
TTS用のデータセット作るやつも公開した
ほぼ自分用やけどな
2023/12/05(火) 17:04:32.30ID:NtbcvmEK
20までホシュ
2023/12/05(火) 17:05:26.66ID:NtbcvmEK
ほ
2023/12/05(火) 17:07:05.00ID:NtbcvmEK
法主上人猊下
10今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 17:07:32.90ID:7vtpdsTb 保守って書くと怒られるのイラつく
2023/12/05(火) 17:07:45.82ID:NtbcvmEK
あと9
12今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 17:08:08.91ID:7vtpdsTb あーえっちな声で男釣ってスパチャで稼ぎたい
2023/12/05(火) 17:08:16.53ID:NtbcvmEK
あーめんどくさい
14今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 17:08:30.72ID:7vtpdsTb ボイトレとかめんどい
15今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 17:08:54.55ID:7vtpdsTb 地声が低くてな
2023/12/05(火) 17:09:07.44ID:NtbcvmEK
ならね
2023/12/05(火) 17:09:21.65ID:NtbcvmEK
あと3
18今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 17:10:07.09ID:7vtpdsTb はいはい
2023/12/05(火) 17:10:15.75ID:NtbcvmEK
ホシュ
2023/12/05(火) 17:10:26.19ID:NtbcvmEK
ボッシュ
2023/12/05(火) 17:12:17.55ID:HfgtLD2Q
Bert-VITS2での結果のまた供養
https://uploader.cc/s/16zqapph6kq7h3f82c3bt66i16nipxjjw92x3pc6hbaeso3zer8d0w2273q8ait9.wav
感情が豊かすぎてパンドラの箱感があって怖い、じゃっかんカタコトの違和感はあるが
ここに載せたか忘れたけど作ったモデルのデモとモデル置き場
https://huggingface.co/spaces/litagin/bert_vits2_okiba_TTS
https://huggingface.co/litagin/bert_vits2_okiba
https://uploader.cc/s/16zqapph6kq7h3f82c3bt66i16nipxjjw92x3pc6hbaeso3zer8d0w2273q8ait9.wav
感情が豊かすぎてパンドラの箱感があって怖い、じゃっかんカタコトの違和感はあるが
ここに載せたか忘れたけど作ったモデルのデモとモデル置き場
https://huggingface.co/spaces/litagin/bert_vits2_okiba_TTS
https://huggingface.co/litagin/bert_vits2_okiba
2023/12/05(火) 17:13:48.06ID:HfgtLD2Q
学習時間もRVCくらいの短時間でこんなTTSができるってちょっとヤバイじゃないんかって気がしてる
まあ外人感はしばらくはどうしようもないんやろうがなあ
まあ外人感はしばらくはどうしようもないんやろうがなあ
2023/12/05(火) 17:20:44.23ID:HfgtLD2Q
Bert-VITS2についての初めての日本語動画がこれなのがな……
https://twitter.com/RougaiBarusan/status/1731685256246235230
https://twitter.com/thejimwatkins
https://twitter.com/RougaiBarusan/status/1731685256246235230
https://twitter.com/thejimwatkins
2023/12/05(火) 17:35:12.38ID:J8aO9KxW
サンイチ
確かに晋型やな
確かに晋型やな
25今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/05(火) 20:22:03.09ID:zARvbkAg 立て乙riffusionもここでええか
2023/12/05(火) 20:33:08.53ID:HfgtLD2Q
2023/12/05(火) 23:55:35.39ID:HfgtLD2Q
https://twitter.com/IrisiaProject/status/1732029906362785934
いろいろ使えそうな、キャラクターのセリフボイスデータセットの配布(RVCもあるよ)
セリフ書き起こしもあるからTTSの実験台にもやりやすそうやな
https://twitter.com/thejimwatkins
いろいろ使えそうな、キャラクターのセリフボイスデータセットの配布(RVCもあるよ)
セリフ書き起こしもあるからTTSの実験台にもやりやすそうやな
https://twitter.com/thejimwatkins
2023/12/06(水) 00:38:58.74ID:TScE2zyD
bertvits2って学習そんな回さなくてええんか
vitsのノリで1日とか回してたわ
vitsのノリで1日とか回してたわ
29今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 01:05:58.75ID:lqBl5/bB サンイチ
2023/12/06(水) 01:32:45.94ID:/ecVYdPt
31今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 01:47:07.03ID:lqBl5/bB すまん赤ちゃんなんやけど
モデルってマージやらなんやらしてオリジナルの声作れるの?
モデルってマージやらなんやらしてオリジナルの声作れるの?
32今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 07:06:29.84ID:tlRamRXv33今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 07:10:52.09ID:tlRamRXv2023/12/06(水) 11:41:11.47ID:zTqzhiA0
>>27
Bert-VITS2 (15epoch 3000step 話者は全部混ぜた、ちょっとlowtensionな感情が反映されてない感じ?)
https://uploader.cc/s/obd5r7vgdzpy4953glaqibur5wcch4tqgc13klh2pd5xjb1e411ni3x9rrzup3dp.wav
基本話者だけで1時間半とちょっと多きいコーパスだし100epochもいらないやろか
transcript_utf8.csvをBert-VITS2のtext.listに変換するスクリプト置いとくで
https://pastebin.com/HecXRjx4
Bert-VITS2 (15epoch 3000step 話者は全部混ぜた、ちょっとlowtensionな感情が反映されてない感じ?)
https://uploader.cc/s/obd5r7vgdzpy4953glaqibur5wcch4tqgc13klh2pd5xjb1e411ni3x9rrzup3dp.wav
基本話者だけで1時間半とちょっと多きいコーパスだし100epochもいらないやろか
transcript_utf8.csvをBert-VITS2のtext.listに変換するスクリプト置いとくで
https://pastebin.com/HecXRjx4
2023/12/06(水) 11:44:12.15ID:zTqzhiA0
2023/12/06(水) 11:50:28.21ID:mNJ7iuxn
>>34
助かる、自分も回しとるんであとでステップ数エポック数どんぐらいがよかったか報告するわ
感情のやつやけど、1文1文分けて生成の設定でやっとる?
全部まとめて放り込むと、最後の感情にひっぱられて微妙な感じになるで
助かる、自分も回しとるんであとでステップ数エポック数どんぐらいがよかったか報告するわ
感情のやつやけど、1文1文分けて生成の設定でやっとる?
全部まとめて放り込むと、最後の感情にひっぱられて微妙な感じになるで
2023/12/06(水) 13:26:05.64ID:zTqzhiA0
>>36
39epoch 19000step
https://uploader.cc/s/wfkglm1czphict3o17ti2xtgtc3mrnvrrph2pmfuiqa3k6c0l6chc261kg7m52dc.wav
感情反映されなかったのは改行毎に生成できるapp.pyではなくwebui.py(cpu)からやったのがマズかったみたいやね
ちな4070Ti(共有メモリ無効化)で学習しながらapp.py動いたで
プチフリしたから焦ったけど学習もまだ進行してる
39epoch 19000step
https://uploader.cc/s/wfkglm1czphict3o17ti2xtgtc3mrnvrrph2pmfuiqa3k6c0l6chc261kg7m52dc.wav
感情反映されなかったのは改行毎に生成できるapp.pyではなくwebui.py(cpu)からやったのがマズかったみたいやね
ちな4070Ti(共有メモリ無効化)で学習しながらapp.py動いたで
プチフリしたから焦ったけど学習もまだ進行してる
2023/12/06(水) 13:56:43.05ID:mNJ7iuxn
2023/12/06(水) 14:37:41.45ID:zTqzhiA0
ワイは15kHz位から聴こえないんやけど目視で21kHz辺りまで伸びてるな
集めたデータセットだと11-16kHz位でLPF掛ってたりして確認できなかったんだが録音状態ええね
https://i.imgur.com/f7P2LFp.png
演技できるTTSなんて夢の技術が実現しつつあるのが凄い事や
商用のTTSも追従して来るんやろか?
集めたデータセットだと11-16kHz位でLPF掛ってたりして確認できなかったんだが録音状態ええね
https://i.imgur.com/f7P2LFp.png
演技できるTTSなんて夢の技術が実現しつつあるのが凄い事や
商用のTTSも追従して来るんやろか?
2023/12/06(水) 17:46:10.06ID:mNJ7iuxn
Irisia Projectの音声から100エポックまで回した実験結果のページを共有するで
https://litagin02.github.io/irisia-bert-vits2-exp/
過学習っぽいのはやっぱあるな
https://litagin02.github.io/irisia-bert-vits2-exp/
過学習っぽいのはやっぱあるな
2023/12/06(水) 17:56:25.29ID:saF2saC5
2023/12/06(水) 18:16:03.63ID:mNJ7iuxn
企業がやっとる音声合成製品に取って代わるにはキャラクターブランドとかそういうのが必要なのであれやけど、
マイコエイロインクとかで音声提供者が自発的にモデルを作って公開してる界隈だったら、こういうのと相性よさそう
コエイロインク開発のシロワニさんBert-VITS2使ってくれんかなあ
マイコエイロインクとかで音声提供者が自発的にモデルを作って公開してる界隈だったら、こういうのと相性よさそう
コエイロインク開発のシロワニさんBert-VITS2使ってくれんかなあ
2023/12/06(水) 18:47:21.53ID:zTqzhiA0
2023/12/06(水) 18:54:36.57ID:mNJ7iuxn
45今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 19:22:54.77ID:gGz7eYdD Colabでやったら
Google ドライブでエラーが発生しました。
って出るんだけどおま環?
Google ドライブでエラーが発生しました。
って出るんだけどおま環?
46今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/06(水) 22:18:51.66ID:zqy5AsvB2023/12/07(木) 08:49:16.54ID:lg998iua
サンイチ
RVCは10月から更新ないんか
RVCは10月から更新ないんか
2023/12/07(木) 12:49:52.50ID:imst42r3
RVC V3待ちやな
2023/12/07(木) 14:03:24.59ID:V7BDw/O/
今日から参戦しますのでよろしくな
2023/12/08(金) 10:01:50.68ID:h3qQXqqq
vits2
学習させて使ってみたがヤバいな
学習させて使ってみたがヤバいな
2023/12/08(金) 11:18:12.96ID:9Pe6Rvoh
Bert-VITS2、関西弁で学習させるとちゃんとアクセントも何故か関西弁になるらしい
感情も抑揚も文章の意味によって変わるし、学習爆速で質もVITSより高いし、TTS界隈的に普通にめっちゃすごいのでは……?
感情も抑揚も文章の意味によって変わるし、学習爆速で質もVITSより高いし、TTS界隈的に普通にめっちゃすごいのでは……?
2023/12/08(金) 12:14:12.56ID:9Pe6Rvoh
広まるにはMoegoeほどのインパクト(声優3000人分のモデルとか)が求められとるんやろうか
2023/12/08(金) 12:14:33.51ID:9Pe6Rvoh
広まるにはMoegoeほどのインパクト(声優3000人分のモデルとか)が求められとるんやろうか
54今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/08(金) 12:28:31.69ID:5x0oS9Je 過疎すぎてもあれだけど広まりすぎても岸田ディープフェイクみたいな迷惑な輩も出るだろうしなぁ、あれはロゴを勝手に使ったのが問題なんだけど
2023/12/08(金) 12:38:00.14ID:9Pe6Rvoh
https://github.com/crskycode/GARbro/releases/tag/GARbro-Mod-1.0.1.2
何とは言わんが今更ながら音声学習の素材集めに使えるやつを置いとくで
何とは言わんが今更ながら音声学習の素材集めに使えるやつを置いとくで
56今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/08(金) 23:52:25.48ID:EbSKZJE0 oobaかkoboldでvits2動けば捗りそう
2023/12/09(土) 00:50:31.40ID:cFVDz1I3
猫旅団の投入が急がれる
ウクライナ軍陣地、ネズミ大発生 食料に被害、前線にネコ送り駆除
https://news.yahoo.co.jp/articles/1bbc5fcbbc76527803537beb871741b4b6d3c2b9
https://i.imgur.com/suWcEQr.jpg
ウクライナ軍陣地、ネズミ大発生 食料に被害、前線にネコ送り駆除
https://news.yahoo.co.jp/articles/1bbc5fcbbc76527803537beb871741b4b6d3c2b9
https://i.imgur.com/suWcEQr.jpg
2023/12/09(土) 00:58:08.89ID:cFVDz1I3
誤爆すまん
59今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 01:38:05.89ID:SrQDbGRs すまん、https://github.com/litagin02/slice-and-transcribeについて教えてクレメンス。
「wavファイルをinputsディレクトリに入れてください」とあるが、「inputsディレクトリ」ってなんや?そんなのどこにもないんやが・・・。
導入に書いてあるコマンドでgitするだけじゃアカンのか?
「wavファイルをinputsディレクトリに入れてください」とあるが、「inputsディレクトリ」ってなんや?そんなのどこにもないんやが・・・。
導入に書いてあるコマンドでgitするだけじゃアカンのか?
2023/12/09(土) 01:43:19.23ID:EUlIIqVY
61今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 01:58:07.28ID:SrQDbGRs >>60
slice-and-transcribeの中に「inputs」と「raw」フォルダを作ればええんかな?
やってみたらこんなエラー出たが・・・。
2023-12-09 01:55:55.9548834 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
slice-and-transcribeの中に「inputs」と「raw」フォルダを作ればええんかな?
やってみたらこんなエラー出たが・・・。
2023-12-09 01:55:55.9548834 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
2023/12/09(土) 04:02:34.04ID:xlPUOit1
今まで数日かけて学習させていたものと同等の結果が、
VITS2だと僅か数時間で得られるの本当に凄いわ
VITS2だと僅か数時間で得られるの本当に凄いわ
63今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 08:54:49.03ID:EUlIIqVY64今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 10:03:17.71ID:SrQDbGRs >>63
作者様やったんか。ホンマサンガツやで。
しかしやっぱアカンな・・・。ご指摘の通り、inputsフォルダ作ってそこにWAVファイル入れてみたが、
Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not workと出る。
bingちゃんがpip install ffmpegせえ言うからやってみたけどアカンわ。
作者様やったんか。ホンマサンガツやで。
しかしやっぱアカンな・・・。ご指摘の通り、inputsフォルダ作ってそこにWAVファイル入れてみたが、
Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not workと出る。
bingちゃんがpip install ffmpegせえ言うからやってみたけどアカンわ。
2023/12/09(土) 10:13:18.87ID:EUlIIqVY
>>64
あーすまん、確かにpydubにffmpegが必要やったわ
Pythonライブラリじゃないんで、たぶん手動でインストールする必要ある(pipでは別に入れる必要ないっぽい)
「ffmpeg Windows インストール」とかでググって入れてくれ
あーすまん、確かにpydubにffmpegが必要やったわ
Pythonライブラリじゃないんで、たぶん手動でインストールする必要ある(pipでは別に入れる必要ないっぽい)
「ffmpeg Windows インストール」とかでググって入れてくれ
2023/12/09(土) 12:17:37.96ID:sTmr2lSM
適当にffmepg落としてきて環境変数のpathの欄にそのフォルダー入れとけば問題ないはず
2023/12/09(土) 13:28:05.85ID:KoJ7yhzq
bert-vits2は学習元はどれくらいの時間の音声用意してる?
2023/12/09(土) 13:33:27.23ID:EUlIIqVY
>>67
(最終的に学習に使うwavの合計で)いつも40分前後でやっとるけど、RVCと同じくらいの15分とかの少ないデータ量でもそれなりにいけるっぽいで
あんま5分とかで回したことは無いけど行けそうな雰囲気ある
Irisia Projectの合計2時間でやったやつでも質がめっちゃ上がったという感じは正直ないから、長さはそんなにいらん気する
(最終的に学習に使うwavの合計で)いつも40分前後でやっとるけど、RVCと同じくらいの15分とかの少ないデータ量でもそれなりにいけるっぽいで
あんま5分とかで回したことは無いけど行けそうな雰囲気ある
Irisia Projectの合計2時間でやったやつでも質がめっちゃ上がったという感じは正直ないから、長さはそんなにいらん気する
2023/12/09(土) 13:48:38.83ID:aux1tGeX
70今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 16:14:48.08ID:SrQDbGRs ffmpegはインストールできたがやっぱり動かんな・・・。
Using cache found in C:\Users\user/.cache\torch\hub\snakers4_silero-vad_masterと出てる。
Silero VADをgit cloneして、そのフォルダの中にslice.pyを入れて起動させてみたがそれでもアカンわ。何が原因なんや・・・。
Using cache found in C:\Users\user/.cache\torch\hub\snakers4_silero-vad_masterと出てる。
Silero VADをgit cloneして、そのフォルダの中にslice.pyを入れて起動させてみたがそれでもアカンわ。何が原因なんや・・・。
2023/12/09(土) 16:50:46.13ID:EUlIIqVY
72今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 18:27:15.02ID:SrQDbGRs >>71
この手のエラーが10個くらい表示されとるが、これは無視してええやつなんよな?
2023-12-09 18:23:14.4986353 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
これらが表示されるだけで何も処理されず(rawフォルダも作成されず)に最初に戻されてるわ。
PS G:\Bert-VITS2\kakiokosi\slice-and-transcribe>
この手のエラーが10個くらい表示されとるが、これは無視してええやつなんよな?
2023-12-09 18:23:14.4986353 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
これらが表示されるだけで何も処理されず(rawフォルダも作成されず)に最初に戻されてるわ。
PS G:\Bert-VITS2\kakiokosi\slice-and-transcribe>
2023/12/09(土) 18:31:03.11ID:EUlIIqVY
2023/12/09(土) 18:37:18.71ID:EUlIIqVY
拡張子大文字が問題だったなら修正したのでgit pullで更新で頼む
75今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/09(土) 18:50:46.81ID:SrQDbGRs わざわざスマンな・・・。ギップルしたけどやっぱり変わらんわ。
多分ニキにとって当たり前の何かをワイがやってないんやと思うわ。ワイにはまだ早すぎたようや。
あんまり騒ぐのも申し訳ないので、ここらでROMるやで。ホンマサンガツな。これからもよろしくやで。
多分ニキにとって当たり前の何かをワイがやってないんやと思うわ。ワイにはまだ早すぎたようや。
あんまり騒ぐのも申し訳ないので、ここらでROMるやで。ホンマサンガツな。これからもよろしくやで。
2023/12/09(土) 23:54:40.21ID:BW9p2CS/
RVCリアルタイム変換で、4070Tiでも1.5秒くらい遅れるんだけどこんなもん?
77今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/10(日) 03:22:59.36ID:NZpkpBHa 俺も4日前からデビュー
よろしこ
よろしこ
78今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/10(日) 11:01:26.41ID:zE4bzkUH >>68
㌧クス、目安にさせてもらいやす
㌧クス、目安にさせてもらいやす
79今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/10(日) 11:05:31.81ID:lwUNw4Eq >>76
CHUNKとEXTRAの設定次第だがそんなもん
CHUNKとEXTRAの設定次第だがそんなもん
2023/12/10(日) 20:39:10.73ID:trAPoOtp
滑舌どうしても悪くなるな…
2023/12/10(日) 21:56:56.76ID:JsHr6Sq9
>>79
そうかー もう少しなんとかなれば実用なんだけどなあ...
そうかー もう少しなんとかなれば実用なんだけどなあ...
2023/12/11(月) 02:43:40.08ID:seFy/hYJ
VRCでRVC使いたいけどなかなかうまく行かへんな
83今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 03:23:08.64ID:ucTDrGSM https://twitter.com/DannadoriYellow/status/1705387112772829660
WSL化, onnx化, serverでMMC以外を選択, 16K, で100~300msec辺りまで追い込めるけど品質は悪くはなるな
CHUNKを短くしてぶつぶつ言うのはLatencyMonで見て割り込み食ってる奴を排除しつつ詰めていくしかないなぁ
https://twitter.com/thejimwatkins
WSL化, onnx化, serverでMMC以外を選択, 16K, で100~300msec辺りまで追い込めるけど品質は悪くはなるな
CHUNKを短くしてぶつぶつ言うのはLatencyMonで見て割り込み食ってる奴を排除しつつ詰めていくしかないなぁ
https://twitter.com/thejimwatkins
84今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 03:42:15.34ID:u3pWUgFj エラーが出まくったけどうごいてる。
(vit_env) C:\Bert-VITS2>python train_ms.py
加载config中的配置localhost 加载config中的配置10086 加载config中的配置1
加载config中的配置0 加载config中的配置0
加载环境变量
MASTER_ADDR: localhost, MASTER_PORT: 10086,WORLD_SIZE: 1,
RANK: 0,
LOCAL_RANK: 0
12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████6/96 [00:00<00:00, 31921.13it/s]
(vit_env) C:\Bert-VITS2>python train_ms.py
加载config中的配置localhost 加载config中的配置10086 加载config中的配置1
加载config中的配置0 加载config中的配置0
加载环境变量
MASTER_ADDR: localhost, MASTER_PORT: 10086,WORLD_SIZE: 1,
RANK: 0,
LOCAL_RANK: 0
12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████6/96 [00:00<00:00, 31921.13it/s]
85今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 03:43:25.76ID:u3pWUgFj 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 96 12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████████████| 4/4 [00:00<?, ?it/s] 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 4
Using noise scaled MAS for VITS2 Using duration discriminator for VITS2
INFO:models:Loaded checkpoint 'Data/model_name1\models\DUR_0.pth' (iteration 0)
ERROR:models:enc_p.emo_quantizer._codebook.embed is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.initted is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.cluster_size is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.embed_avg is not in the checkpoint
ERROR:models:emb_g.weight is not in the checkpoint
INFO:models:Loaded checkpoint 'Data/model_name1\models\G_0.pth' (iteration 0)
INFO:models:Loaded checkpoint 'Data/model_name1\models\D_0.pth' (iteration 0)
100%|███████████████████| 4/4 [00:00<?, ?it/s] 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 4
Using noise scaled MAS for VITS2 Using duration discriminator for VITS2
INFO:models:Loaded checkpoint 'Data/model_name1\models\DUR_0.pth' (iteration 0)
ERROR:models:enc_p.emo_quantizer._codebook.embed is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.initted is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.cluster_size is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.embed_avg is not in the checkpoint
ERROR:models:emb_g.weight is not in the checkpoint
INFO:models:Loaded checkpoint 'Data/model_name1\models\G_0.pth' (iteration 0)
INFO:models:Loaded checkpoint 'Data/model_name1\models\D_0.pth' (iteration 0)
86今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 03:45:15.70ID:u3pWUgFj ******************检测到模型存在,epoch为 1,gloabl step为 0*********************
0it [00:00, ?it/s]INFO:models:Train Epoch: 1 [0%]
INFO:models:[2.746347427368164, 2.83308744430542, 4.527602195739746, 24.40008544921875, 3.1789772510528564, 3.6999363899230957, 0, 0.0002]
Evaluating ...
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\G_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\D_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\DUR_0.pth
20it [00:23, 1.20s/it]
INFO:models:====> Epoch: 1
以下続く。
もう寝て朝に結果をみることにします。
0it [00:00, ?it/s]INFO:models:Train Epoch: 1 [0%]
INFO:models:[2.746347427368164, 2.83308744430542, 4.527602195739746, 24.40008544921875, 3.1789772510528564, 3.6999363899230957, 0, 0.0002]
Evaluating ...
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\G_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\D_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\DUR_0.pth
20it [00:23, 1.20s/it]
INFO:models:====> Epoch: 1
以下続く。
もう寝て朝に結果をみることにします。
2023/12/11(月) 04:30:56.33ID:TKrZFFr0
BERT-VITS2の安倍晋三モデルとかあんのかよ
https://huggingface.co/AbeShinzo0708/Bert-VITS2_AbeShinzo
https://huggingface.co/AbeShinzo0708/Bert-VITS2_AbeShinzo
2023/12/11(月) 04:44:07.93ID:CoJwOZfw
>>85
感情関連の扱いがメインブランチ最新版で微妙に変わってるっぽいから、事前学習モデルとの食い違いでエラー出てるっぽい
(enc_p.emo_quantizerやらがたぶんそれやな)
学習うまくいったかどうかぜひ報告してくれ
感情関連の扱いがメインブランチ最新版で微妙に変わってるっぽいから、事前学習モデルとの食い違いでエラー出てるっぽい
(enc_p.emo_quantizerやらがたぶんそれやな)
学習うまくいったかどうかぜひ報告してくれ
2023/12/11(月) 10:47:20.76ID:s4mxE7XN
VITS2のアクセント予測の精度が高いとは思えないな ところどころ間違ってる
学習を増やしてもどうせそれは直らない 結局ゴミじゃないか
学習を増やしてもどうせそれは直らない 結局ゴミじゃないか
2023/12/11(月) 11:24:21.80ID:Wca6sJD3
アクセント取り出す部分はpyopenjtalk依存だからVITS2は悪くないはずやで
一応仕組み上はアクセント手動で修正できるはずなんやけど、前実験したら微妙だったから、うまくできるかは分からん
一応仕組み上はアクセント手動で修正できるはずなんやけど、前実験したら微妙だったから、うまくできるかは分からん
2023/12/11(月) 11:50:32.80ID:z6JoO8hJ
亡くなっている要人であれば問題は起きにくいのかもしれないが
過去の発言などと捏造してアップするような行為はまずいし
平常時も声の権利ってどう判断されるのかよく分からんな……まだ判例なさそうだし
過去の発言などと捏造してアップするような行為はまずいし
平常時も声の権利ってどう判断されるのかよく分からんな……まだ判例なさそうだし
92今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 14:58:00.02ID:pal7zLgb >>81
そんなもんとは言ったけど
ソフトとハード突き詰めていけば
ほぼリアルタイムで十分な品質は夢じゃないぞ
OSがUbuntuのPCでMMVCServerSIO.py を実行した方が良いと思う
WindowsとLinuxベースの違いが少なからず遅延に影響してるはず
そんなもんとは言ったけど
ソフトとハード突き詰めていけば
ほぼリアルタイムで十分な品質は夢じゃないぞ
OSがUbuntuのPCでMMVCServerSIO.py を実行した方が良いと思う
WindowsとLinuxベースの違いが少なからず遅延に影響してるはず
93今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 18:50:15.57ID:xFe5Zh3Y >>88
帰ってきたので、推論を試しました。
つくよみちゃんのデータ100件をもとに作成。G1000,G4000で聴き比べしましたが、G1000でも十分そのまんまの声になりました。
しかしながら、Emotionの値は0-9のどれにしても話し方が変わったようには思えませんでした。よって感情にかかわる学習はできていないように思います。
また、Languageは日本語に設定し、日本語の文章を読ませることはできますが、少しでも英語が入った文章、たとえば、(目的地までLet's go)などは、英語の部分を話さず飛ばして発話されます。
そこでLanguageをMIXにすれば英語も話してくれるかなと思いましたが、エラー(Error: No valid speaker format detected. Please check your input.)となり、音声を生成することができません。
Languageをautoにすると、英語部分も話すようになりますが、日本人がでLet's goというときのレッツゴーという発音ではなく、英語話者のでLet's goの発音になるので、違和感しかないですし、日本語部分も少し下手になるので、autoはダメだなと感じました。
帰ってきたので、推論を試しました。
つくよみちゃんのデータ100件をもとに作成。G1000,G4000で聴き比べしましたが、G1000でも十分そのまんまの声になりました。
しかしながら、Emotionの値は0-9のどれにしても話し方が変わったようには思えませんでした。よって感情にかかわる学習はできていないように思います。
また、Languageは日本語に設定し、日本語の文章を読ませることはできますが、少しでも英語が入った文章、たとえば、(目的地までLet's go)などは、英語の部分を話さず飛ばして発話されます。
そこでLanguageをMIXにすれば英語も話してくれるかなと思いましたが、エラー(Error: No valid speaker format detected. Please check your input.)となり、音声を生成することができません。
Languageをautoにすると、英語部分も話すようになりますが、日本人がでLet's goというときのレッツゴーという発音ではなく、英語話者のでLet's goの発音になるので、違和感しかないですし、日本語部分も少し下手になるので、autoはダメだなと感じました。
94今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 19:15:18.60ID:xFe5Zh3Y 英語の部分は全部カタカナにしてあげると、日本の発音で英語をよむね。
簡単に解決した。でもiphoneとかusbとかも発音してくれないから、アイフォン、ユーエスビーと書いてあげる必要がある。
簡単に解決した。でもiphoneとかusbとかも発音してくれないから、アイフォン、ユーエスビーと書いてあげる必要がある。
2023/12/11(月) 19:22:49.95ID:a8EdvOAP
いやマジでなんかTTSのスレになってないかw
ボイチェンとしての需要あんまないんか・・・?
ボイチェンとしての需要あんまないんか・・・?
96今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 19:28:07.42ID:xouBE6hM RADEON 使ってるんで動かないウゴゴなっってたがONNX対応最新のをいれてみたらCPUで出来るようになっってんのな
Ryzen 5950X 22スレッドだかで1 Epochあたり21-24分掛かって草
まぁ軽いゲームや動画視聴くらいなら並列でも問題なく動くから良いや
Ryzen 5950X 22スレッドだかで1 Epochあたり21-24分掛かって草
まぁ軽いゲームや動画視聴くらいなら並列でも問題なく動くから良いや
97今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/11(月) 19:32:46.34ID:xouBE6hM2023/12/11(月) 19:43:12.78ID:Wca6sJD3
>>93
おつ
英語読んでくれない問題は人力で頑張ってアルファベットをカタカナに変換するのを噛ませたりしとる人はおった、カタカナで打つのがまあ手っ取り早いな。
Emotionは今はうまく機能してないっぽくて、次verの2.2でちゃんと動くようになるっぽい
(つくよみちゃんなら元の音声読み上げが感情が平坦やからアレやけど、データに感情があればちゃんと文章によって感情が変わるはず、うまく学習できてれば)
おつ
英語読んでくれない問題は人力で頑張ってアルファベットをカタカナに変換するのを噛ませたりしとる人はおった、カタカナで打つのがまあ手っ取り早いな。
Emotionは今はうまく機能してないっぽくて、次verの2.2でちゃんと動くようになるっぽい
(つくよみちゃんなら元の音声読み上げが感情が平坦やからアレやけど、データに感情があればちゃんと文章によって感情が変わるはず、うまく学習できてれば)
2023/12/11(月) 19:44:07.41ID:Wca6sJD3
ボイチェンもRVC v3来ないし、とくに話すこともないよなーっていう感じになっているのは正直ある
低遅延を売りにしとったやつもまだ来ないし
低遅延を売りにしとったやつもまだ来ないし
2023/12/11(月) 19:52:26.88ID:Wca6sJD3
https://uploader.cc/s/jpb8g8axxnfus0w9judpi4kwspqr674m7arzcoyvncpf235p18055q2ziussa141.mp4
前適当に作った、ChatGPTのAPI使ってBert-VITS2ちゃんと(RVCで)お話するやつ
前適当に作った、ChatGPTのAPI使ってBert-VITS2ちゃんと(RVCで)お話するやつ
2023/12/11(月) 20:30:04.62ID:TKrZFFr0
>>91
まあいいじゃん、そういうの
まあいいじゃん、そういうの
2023/12/11(月) 22:53:07.89ID:ucTDrGSM
LLVCの事やったらDistil-Whisperと同じでpruningしてるから英語のみ特化になるんやな
論文読み込んで実装してグラボいっぱい借りて日本語でモデル特化で回さんといかんからそんな酔狂な奴はおらんやろなぁ
論文読み込んで実装してグラボいっぱい借りて日本語でモデル特化で回さんといかんからそんな酔狂な奴はおらんやろなぁ
2023/12/11(月) 23:16:56.25ID:Wca6sJD3
https://twitter.com/tarepan_mhhow/status/1720661932351607192
LLVCは日本語でも動くっぽいけど話者性がちょい微妙みたいやで(やってないので知らんがサンプル音声はどっかに上げてた)
ワイが言ったやつはParakeetのことやな
https://twitter.com/thejimwatkins
LLVCは日本語でも動くっぽいけど話者性がちょい微妙みたいやで(やってないので知らんがサンプル音声はどっかに上げてた)
ワイが言ったやつはParakeetのことやな
https://twitter.com/thejimwatkins
2023/12/11(月) 23:18:59.17ID:Wca6sJD3
何か変なアカウントくっついたが何やこれ
Parakeetのところのボイチェン
https://www.parakeet-inc.com/parakeet-vc
ウェイトリスト公開して2ヶ月くらい経つけど音沙汰なし
Parakeetのところのボイチェン
https://www.parakeet-inc.com/parakeet-vc
ウェイトリスト公開して2ヶ月くらい経つけど音沙汰なし
2023/12/11(月) 23:31:09.16ID:aaXCXJtY
>>104
5chにTwitterのURL貼ると何故か自動で5ch管理人であるジムのTwitterも貼られる仕様
5chにTwitterのURL貼ると何故か自動で5ch管理人であるジムのTwitterも貼られる仕様
106今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/12(火) 15:38:30.65ID:YW2FGSC7 好きな声にいい感じの曲AIカバーさせてんほりたいけど中々うまく変換できん
ボーカルぶっこ抜けば比較的キレイに歌ってくれるオススメの曲ないか?
ボーカルぶっこ抜けば比較的キレイに歌ってくれるオススメの曲ないか?
2023/12/12(火) 19:08:25.98ID:mQPwx7G6
おすすめ曲というか、原曲じゃなくて上手い歌ってみたとかでやるのおすすめ
原曲だと、どうしてもハモリとかが邪魔できれいにならない
原曲だと、どうしてもハモリとかが邪魔できれいにならない
2023/12/13(水) 13:56:01.01ID:kUARjcw0
Bert-VITS2、ver 2.2が来たけど、まだ事前学習モデルが壊れてるっぽくて質が2.1より落ちるから注意な
もう少しは2.1で様子見といたほうが良さそう
もう少しは2.1で様子見といたほうが良さそう
2023/12/13(水) 15:53:40.36ID:kUARjcw0
↑なおったっぽい
110今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/13(水) 16:48:44.14ID:952iZou2 他の場所は普通なのに高い音のときだけオク下で変換するのやめちくり〜
まるでサビだけオク下になるワイみたいだあ…(直喩) AIなんだから難なく全部歌って、どうぞ
まるでサビだけオク下になるワイみたいだあ…(直喩) AIなんだから難なく全部歌って、どうぞ
2023/12/13(水) 17:04:02.90ID:4dOT5chY
F0推定失敗してんやろな
RVCでンゴるのってF0推定失敗のせいやろ?
RVCでンゴるのってF0推定失敗のせいやろ?
2023/12/13(水) 18:53:05.40ID:sjqhr50d
Vitsなおるのはや
2023/12/13(水) 19:01:53.74ID:kUARjcw0
2.2学習試してみたけど、感情プロンプト正直全く効かん、しばらくは様子見で2.1でええかもしらん
2023/12/13(水) 19:58:54.14ID:sjqhr50d
2.0なんか2.1なのかわかってないけど2.1に出来る?
115今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/14(木) 06:17:34.46ID:9YEGlaAf というか、思ったほどよくないよね。RVCと差があまり感じられないんだけど。
116今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/14(木) 06:58:39.84ID:QNS/bVEY Bert-VITS2の話なら、TTSとボイチェンは単純には比較できない気が
2023/12/14(木) 15:49:44.59ID:z+fYYr8q
VC Client専用にPCを用意しようと思うんだけど、グラボって変換までの遅延と値段のバランスを考えると以下のどれがいいのかな
メインPC
→ VCC専用機(NVIDIA Broadcast→VoiceMeeter Banana(VST)→VCC→VoiceMeeter Banana(VST)→メインPC)
というような構成を想定(できるかまでは未確認)
・RTX3060 12GB
・RTX4060ti 16GB
・RTX4070
・RTX4070ti
メインPC
→ VCC専用機(NVIDIA Broadcast→VoiceMeeter Banana(VST)→VCC→VoiceMeeter Banana(VST)→メインPC)
というような構成を想定(できるかまでは未確認)
・RTX3060 12GB
・RTX4060ti 16GB
・RTX4070
・RTX4070ti
118今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/14(木) 23:21:48.17ID:F2976Luf 遅延気にするならまずvoicemeeterは無い
DSP内蔵でエフェクトかけてライン戻しミキシングのできるオーディオインターフェイス買え
具体的にはio44とかの内蔵エフェクトやゲートが有能
どうしてもVST使いたいならむしろUAD-2つかえるuniversal Audio Apollo
DSP内蔵でエフェクトかけてライン戻しミキシングのできるオーディオインターフェイス買え
具体的にはio44とかの内蔵エフェクトやゲートが有能
どうしてもVST使いたいならむしろUAD-2つかえるuniversal Audio Apollo
2023/12/14(木) 23:25:14.36ID:hKXPTYDh
120今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/14(木) 23:49:04.75ID:V4LyIlWk 中古の3090がいいと思うよ
2023/12/15(金) 00:42:49.55ID:jGIJXrKL
Bert-VITS2.1用やけどエポック毎に推論してwav出力するスクリプト置いとくで
(独自のローカルデータセットでエポック毎の比較したい人向け)
https://pastebin.com/1GTSZqi5
ぶっちゃけpythonもtorchもよく解ってないんでそこんとこ堪忍な
(独自のローカルデータセットでエポック毎の比較したい人向け)
https://pastebin.com/1GTSZqi5
ぶっちゃけpythonもtorchもよく解ってないんでそこんとこ堪忍な
2023/12/15(金) 00:45:53.38ID:9vzSOX3e
>>0118-0120
回答ありがとうございます。
すみません、質問の内容を変えます。
皆さんはどのような構成でVC Clientを使用していて、どのぐらい遅延が発生しているのでしょうか?
回答ありがとうございます。
すみません、質問の内容を変えます。
皆さんはどのような構成でVC Clientを使用していて、どのぐらい遅延が発生しているのでしょうか?
123今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 00:47:04.95ID:E+ykIKFv Blue Cat’s ConnectorでPC間やDAW間を音声に戻さずに低遅延でデーター転送できるで
https://www.dtmstation.com/archives/55390.html
生音声入れるとこはDSP付きオーディオインターフェイス入れたほうが絶対ええけど
VCC用専用グラボのメモリはAIさわるなら16G欲しいなあグラボ買うには時期悪いから年明けまで待ったほうがええけど
https://www.dtmstation.com/archives/55390.html
生音声入れるとこはDSP付きオーディオインターフェイス入れたほうが絶対ええけど
VCC用専用グラボのメモリはAIさわるなら16G欲しいなあグラボ買うには時期悪いから年明けまで待ったほうがええけど
2023/12/15(金) 01:37:57.12ID:IslkZKPj
125今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 11:46:59.73ID:ZL0fV9a2 志村けんさんのデータを作りたいがいい素材がない
126今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 12:37:04.27ID:0/y+sDf/ >>120
結局VRAMが一番重要になるAIだと最良の選択肢だよは
今年でもちょいちょい新品の3090が13万前後で売ってたのマジで惜しい
中古はマイニング酷使でオイルブリードのリスクが高いのが本当になあ
結局VRAMが一番重要になるAIだと最良の選択肢だよは
今年でもちょいちょい新品の3090が13万前後で売ってたのマジで惜しい
中古はマイニング酷使でオイルブリードのリスクが高いのが本当になあ
2023/12/15(金) 16:41:11.97ID:zoEx94fk
特定の声以外は周波数やら何やらを利用してミュートするという準備が必要なんじゃないか
128今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 17:42:53.99ID:KFIvbw6t >>122
io44使ってRTX3090&i9 12900単機でVRCしてXSplit配信しながらの重さでこんな感じ
https://i.imgur.com/P4WqHpQ.png
https://i.imgur.com/bISStTi.png
io44使ってRTX3090&i9 12900単機でVRCしてXSplit配信しながらの重さでこんな感じ
https://i.imgur.com/P4WqHpQ.png
https://i.imgur.com/bISStTi.png
129今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 17:55:08.84ID:J2J0+ICs 学習ならVRAM必要だろうけどボイチェン用途でもそんなに重要なんか?
2023/12/15(金) 17:57:43.96ID:9vzSOX3e
131今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 18:05:33.74ID:KFIvbw6t132今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:18:43.84ID:YxJX5xBU ダイエットは限界だ
しかし
車の修理
しかし
車の修理
133今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:23:17.15ID:uLwxLvj7 これで普通はリバウンドするんだろうけど
どこの国の責任だろう
どこの国の責任だろう
134今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:28:02.69ID:jEn9aLNn またスクリプトきたんでほどほど書き込みせんと落とされるで
2023/12/15(金) 20:28:35.92ID:yHVhc9UF
136今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:29:09.10ID:jEn9aLNn 200スレ超えると
最後に書き込まれたスレ順で下半分落とされます
最後に書き込まれたスレ順で下半分落とされます
137今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:29:11.31ID:aaB2bs6Z >>12
なんでゴリ押しなの危機管理能力0で来年アイランド2なんてないパターンやろw
なんでゴリ押しなの危機管理能力0で来年アイランド2なんてないパターンやろw
2023/12/15(金) 20:30:07.64ID:TQqz0isB
手動で書き込みして抵抗した所でどうしようもない
落ちたらまた建て直せばいい
落ちたらまた建て直せばいい
2023/12/15(金) 20:31:38.01ID:9vzSOX3e
140今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:36:57.84ID:RRILED5Q もし無かった場合どうなるか見物だな
141今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/15(金) 20:39:41.14ID:x2xOdsms ただものじゃないぞ
+1.66%
+1.66%
2023/12/15(金) 21:03:06.62ID:D6jkSCKJ
2023/12/15(金) 23:36:20.41ID:MHYcRZPD
スクリプト荒らしなんなん?暇?糖質?
2023/12/15(金) 23:46:17.56ID:zRYIpwjd
VC Client、少し前のアプデでchunk下げても変にはならんくなったけど、やっぱ滑舌や発音はかなりびみょくなる印象(Beatriceは知らん)
ずっと前の癖でいつも128くらいでやっとるな
ずっと前の癖でいつも128くらいでやっとるな
2023/12/16(土) 00:20:04.24ID:rgYMxXWL
VC Client1.5.3.17bに更新してchunk下げてみたら24が限界だったわ
この時CPU負荷(3700X)がフルコア全スレッドで90%越えてる
CUDA負荷(4070ti)は50%以下やからVC ClientはCPUも重要なんやな
この時CPU負荷(3700X)がフルコア全スレッドで90%越えてる
CUDA負荷(4070ti)は50%以下やからVC ClientはCPUも重要なんやな
2023/12/16(土) 00:22:12.67ID:+CDZ+o/4
indexが大きめだとCPU負荷が余計かかるという仕様もある、WSL使うとそれはなくなるらしい
2023/12/16(土) 03:16:49.97ID:EiHyeesZ
>>145-146
indexの処理に使用しているfaissとかいうライブラリがwindowsだとうまく動かなくてCPU使用率が上がるとかなんとか。
indexの処理に使用しているfaissとかいうライブラリがwindowsだとうまく動かなくてCPU使用率が上がるとかなんとか。
148今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 04:22:57.27ID:wppvZoPw >>147
糞ライブラリで草
糞ライブラリで草
2023/12/16(土) 08:11:40.24ID:dJY5GNKt
tiktok liteでPayPayやAmazon券などに交換可能な4000円分のポイントをプレゼント中!
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード(ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要!)で合計で4000円分のポイントゲット
ポイントはPayPayやAmazon券に交換できます!
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード(ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要!)で合計で4000円分のポイントゲット
ポイントはPayPayやAmazon券に交換できます!
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。
2023/12/16(土) 10:16:52.08ID:ogBJmtsG
>>149
試してみるサンキュー
試してみるサンキュー
2023/12/16(土) 19:41:02.77ID:+CDZ+o/4
Bert-VITS2 (2.1)の環境構築とかいろいろ自動でやってくれる便利なやつが出たってよ
https://twitter.com/Zuntan03/status/1735947687466557733
https://twitter.com/thejimwatkins
https://twitter.com/Zuntan03/status/1735947687466557733
https://twitter.com/thejimwatkins
152今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:13:41.41ID:DURvKtMr 横転した漫画はあるし
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは
153今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:14:19.24ID:ZYT35+6D154今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:15:58.33ID:gwW3MEvF2023/12/16(土) 20:17:12.61ID:C0V1Df+3
156今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:21:03.05ID:gSjZm5vJ2023/12/16(土) 20:21:07.61ID:mTQOnOuA
もちろん男な
年金で
年金で
158今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:51:28.67ID:R0pIFyTP ガッカリはしないやろ
159今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 20:54:01.01ID:5y8XTIEj 思い出したら
最も先鋭的な書き込みだから、若い世代だから
女優だよ。
最も先鋭的な書き込みだから、若い世代だから
女優だよ。
2023/12/16(土) 20:56:41.59ID:3lZqHqtI
パーティいなくなったし
人気は時間差ではあるな
人気は時間差ではあるな
161今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:08:32.71ID:3zpwGAO2 これ何?
親米派は
親米派は
162今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:10:40.31ID:ZTkDauMr163今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:11:07.02ID:ObxDFux+ >>122
あの体型見ただけで
あの体型見ただけで
2023/12/16(土) 21:22:53.28ID:AYaiUGBT
アプデで章増えていきますとかじゃないかぎり騒がんだろうな
2023/12/16(土) 21:22:56.65ID:G+vcTkPq
長期はほったらかし
166今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:24:32.73ID:KO/K/LBt167今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:24:50.09ID:mL4gSSlB ヒロキの部屋住めるだろ
エンジンは叩くだろうけど
もう人も多いよな
エンジンは叩くだろうけど
もう人も多いよな
168今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:27:19.30ID:7rv9blam169今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:28:33.03ID:YYj4qJ98 展開早すぎてよく知らんやつが
170今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:30:42.27ID:m3aGWBbU 接種した可能性も華もないのに
ヒロキのすべてのが萌えた
ヒロキのすべてのが萌えた
2023/12/16(土) 21:32:35.28ID:G2SzM+Q1
いまはドライブレコーダーをつけて練習着のままって感じだな
しばらく金10主演できて
しばらく金10主演できて
172今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:34:53.00ID:KZjxquPG 二気筒でよかった(:_;)
( ゚ ⊇ ゚)フンフン
( ゚ ⊇ ゚)フンフン
2023/12/16(土) 21:36:36.24ID:2PiQnr8u
174今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:40:10.93ID:eqVItttP 自分は
2023/12/16(土) 21:45:28.95ID:rgYMxXWL
今日はスプリクト元気やな
>>146,147
index=0.0やけどheavyやで
これと関係ないけどパススルーしてなんか音量小さいなと思ったら
モノ+モノで入力の片方しかマイクが繋がってない環境では
音量がマイク(L)/無音(R)みたく平均化されて半分になっちまうみたいやな
https://github.com/w-okada/voice-changer/blob/0f0225cfcdc62ddf41495124cc9a5cef53c5f014/server/voice_changer/Local/ServerDevice.py#L136
https://librosa.org/doc/main/generated/librosa.to_mono.html
こう言う環境はinのゲイン2.0にすればええんやろか?ギターとかマイク以外の機材繋いでる場合困りそうやけど
>>146,147
index=0.0やけどheavyやで
これと関係ないけどパススルーしてなんか音量小さいなと思ったら
モノ+モノで入力の片方しかマイクが繋がってない環境では
音量がマイク(L)/無音(R)みたく平均化されて半分になっちまうみたいやな
https://github.com/w-okada/voice-changer/blob/0f0225cfcdc62ddf41495124cc9a5cef53c5f014/server/voice_changer/Local/ServerDevice.py#L136
https://librosa.org/doc/main/generated/librosa.to_mono.html
こう言う環境はinのゲイン2.0にすればええんやろか?ギターとかマイク以外の機材繋いでる場合困りそうやけど
176今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 21:48:08.60ID:pk8Uk/cH2023/12/16(土) 22:47:07.34ID:+CDZ+o/4
178今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:03:11.63ID:mV2Y/k/d あの燃え方では優等生だけど下手な人にも
2023/12/16(土) 23:03:51.09ID:gODNzgb5
はまちそつふさややをぬひはみまそそぬわませせたひをられみかそかこちへそなのをりれん
180今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:07:04.28ID:kktSjngt 自身のメンタル体力が落ちてるんだけど数字改変してるよな
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた
2023/12/16(土) 23:08:57.19ID:i63rbcIV
ふちてちめれろへろいりきはははおきめせひくうをりそおむへあそち
182今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:17:14.00ID:manSJDaf 一般社会でこんな
183今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:19:33.35ID:bXTkb+k+ まずその書き込みのおかしいところのお坊ちゃんだと思われても無駄な我慢と苦労で草
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw
184今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:21:56.23ID:2FEb53z9186今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:34:30.49ID:wN7n4SsH ねいをおゆをかにともへ
187今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:41:13.09ID:OgnrSHx4188今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:47:19.56ID:wZtrQT6T 真っ暗
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな
189今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:53:34.89ID:3IAi/Mgl 流石に一番酷かったのは明白
190今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:55:50.88ID:32bo6dFe >>186
むしろなんでまだ生きてるはず
むしろなんでまだ生きてるはず
191今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/16(土) 23:58:30.87ID:K0Ecg+B3 異性関係は母親や付き合った俳優Nはその恐ろしいカルトをなんとかしろ
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね?
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね?
192今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/17(日) 00:05:58.83ID:G/TX1hEt2023/12/17(日) 01:44:39.93ID:XaIYbYGz
>>177
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで
https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない
sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか?
今日はこの位にしておきます
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで
https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない
sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか?
今日はこの位にしておきます
2023/12/17(日) 10:27:42.40ID:XaIYbYGz
>>193
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで
2023/12/18(月) 13:14:25.21ID:bYoIY8K4
Bert-VITS2のモデルのkey別マージで実験しとったら、思ったよりもはっきり話者性と感情表現・抑揚とかが入ってる箇所がわかったから、
その点で声音と感情表現・抑揚とテンポの3つの要素で2つのモデルを取り替えたりマージしたりできるやつ作ったで
https://gist.github.com/litagin02/f07a5d7217c9efa4918de0812fd99cd3
これで平坦なコーパス読み上げ文章のモデルを無理やり感情豊かにできる(1つ目が素のずんだもん、2つ目がマージで作った感情豊かなずんだもん)
https://uploader.cc/s/w6p6svisy00w5ymx7qemgbjmshz250ewt9lva4edqcbfuqe55x51l1zdta6zk8i7.wav
https://uploader.cc/s/1o9jz8pzt1kh8vemb9xllj1g5yl4td3x9b8b4mjyzytatb2dxdhlxglnealminoc.wav
その点で声音と感情表現・抑揚とテンポの3つの要素で2つのモデルを取り替えたりマージしたりできるやつ作ったで
https://gist.github.com/litagin02/f07a5d7217c9efa4918de0812fd99cd3
これで平坦なコーパス読み上げ文章のモデルを無理やり感情豊かにできる(1つ目が素のずんだもん、2つ目がマージで作った感情豊かなずんだもん)
https://uploader.cc/s/w6p6svisy00w5ymx7qemgbjmshz250ewt9lva4edqcbfuqe55x51l1zdta6zk8i7.wav
https://uploader.cc/s/1o9jz8pzt1kh8vemb9xllj1g5yl4td3x9b8b4mjyzytatb2dxdhlxglnealminoc.wav
2023/12/18(月) 13:57:33.41ID:8ph9dYNq
今ってRVC beta v2で48kで学習できるようになったんやな
でも主流はもう変わっとるん?
でも主流はもう変わっとるん?
197今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/18(月) 13:58:54.28ID:TFJNuQDv 好きなボーカルの音声で別な曲を歌わせることが出来るというので、Google ColabでどうにかこうにかConvertで安定して音声変換できるようになりました。
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか?
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか?
2023/12/18(月) 14:03:12.97ID:/mr3kGdU
2023/12/18(月) 15:38:29.12ID:bYoIY8K4
200今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/18(月) 15:39:55.45ID:OIfpkr60 >>195
すんごいもん作るなぁ
すんごいもん作るなぁ
2023/12/18(月) 15:40:01.39ID:bYoIY8K4
>>196
学習のサンプリングレートは48kHzにしてもあんま変わらん・むしろ逆に悪くなるので40kHzで十分、という意見が(というかワイの手持ちだとそうなった)
でも48kHzのほうがいいっていう人もいるらしい、やっぱデータセット依存な感じがあり、両方で試す方がええ気がする
学習のサンプリングレートは48kHzにしてもあんま変わらん・むしろ逆に悪くなるので40kHzで十分、という意見が(というかワイの手持ちだとそうなった)
でも48kHzのほうがいいっていう人もいるらしい、やっぱデータセット依存な感じがあり、両方で試す方がええ気がする
2023/12/18(月) 16:16:35.86ID:NPDrbaSy
>>197
上にも書いてあるけど、セットする曲次第だよ
原曲だとハモリ混ざってうまく変換できないから歌ってみたなどから抽出したほういい
学習データ正しいかは、ピアノ伴奏だけの曲から抽出したやつだと比較的きれいだから試してみたほういいかも
上にも書いてあるけど、セットする曲次第だよ
原曲だとハモリ混ざってうまく変換できないから歌ってみたなどから抽出したほういい
学習データ正しいかは、ピアノ伴奏だけの曲から抽出したやつだと比較的きれいだから試してみたほういいかも
2023/12/18(月) 18:11:00.94ID:TFJNuQDv
2023/12/18(月) 18:33:43.38ID:/mr3kGdU
>>203
rmvpe無いのはたぶん古いからじゃないやろか?
https://i.imgur.com/L0bqY2t.png
sha256sum RVC-beta.7z
92b334bb30a7f55d2da3f2dc8f63c083cd94645163a3cf9fb4c1e93bca96c2ae *RVC-beta.7z
まぁワイもどれが最新版なのか命名規則がイマイチ解ってないんやけど
rmvpe無いのはたぶん古いからじゃないやろか?
https://i.imgur.com/L0bqY2t.png
sha256sum RVC-beta.7z
92b334bb30a7f55d2da3f2dc8f63c083cd94645163a3cf9fb4c1e93bca96c2ae *RVC-beta.7z
まぁワイもどれが最新版なのか命名規則がイマイチ解ってないんやけど
205今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/18(月) 19:17:53.03ID:EVDnrv4P2023/12/18(月) 21:34:50.85ID:mpDbGWHg
>>195
おつ!
おつ!
2023/12/19(火) 08:41:54.05ID:1JuVJruY
>>204
ありがとうございます
ノートPCなもので別なバージョンを実行したときにCUDA搭載してないと無理というエラーが出たのでローカルは諦めてました
AI自体それなりのスペックを要求するので私のローカル環境でRVC実行は無理そうです
いずれごついデスクトップPCを手に入れたときは好き放題やってみたいです
ありがとうございます
ノートPCなもので別なバージョンを実行したときにCUDA搭載してないと無理というエラーが出たのでローカルは諦めてました
AI自体それなりのスペックを要求するので私のローカル環境でRVC実行は無理そうです
いずれごついデスクトップPCを手に入れたときは好き放題やってみたいです
2023/12/19(火) 16:57:09.82ID:ooCMV9sF
2023/12/19(火) 17:30:40.32ID:MjHsbJYI
>>208
あー話者idが0同士のマージしか想定してないわ、複数話者がいた場合にどうなるかは試しとらん
同一モデル内でも原理的にはできそうだけど話者idがどうやって使われてるかいまいちよく分かっとらんからすぐにはできんな……
あー話者idが0同士のマージしか想定してないわ、複数話者がいた場合にどうなるかは試しとらん
同一モデル内でも原理的にはできそうだけど話者idがどうやって使われてるかいまいちよく分かっとらんからすぐにはできんな……
2023/12/19(火) 20:47:06.62ID:2xkAKKV0
>>209 サンガツ
今までなんとなく複数話者を1つのモデルに詰め込んでたから、話者ごとのモデルに作り直して試してみるわ
今までなんとなく複数話者を1つのモデルに詰め込んでたから、話者ごとのモデルに作り直して試してみるわ
2023/12/19(火) 20:59:05.59ID:H8NeE+il
すげぇどうでもいい事なんだけど「安倍晋三」って何や?
中国でも人気なんやろか?
https://github.com/fishaudio/Bert-VITS2/blob/76653b5b6d657143721df2ed6c5c246b4b1d9277/default_config.yml#L153
中国でも人気なんやろか?
https://github.com/fishaudio/Bert-VITS2/blob/76653b5b6d657143721df2ed6c5c246b4b1d9277/default_config.yml#L153
2023/12/19(火) 22:48:47.90ID:61RKEbyH
乙zennにも記事乗っけたんね
RCVの学習は脳死でrmvpe選んどけばいいんだけど
声優のスタジオクオリティで取ったデッドなしっかりした録音素材レベルだと
harvestアルゴリズムの素性の良さからそっちの方がいい例外が一部だけはある
VC Clientの時選ぶのはマイク入力のピッチ推定に使う方なのでノイズに強いrmvpe選んどけばいい
RCVの学習は脳死でrmvpe選んどけばいいんだけど
声優のスタジオクオリティで取ったデッドなしっかりした録音素材レベルだと
harvestアルゴリズムの素性の良さからそっちの方がいい例外が一部だけはある
VC Clientの時選ぶのはマイク入力のピッチ推定に使う方なのでノイズに強いrmvpe選んどけばいい
2023/12/20(水) 09:58:42.76ID:F0okMRjN
https://github.com/fishaudio/Bert-VITS2/releases/tag/v2.3
Bert-VITS2の2.3来たで、最終リリースらしい
感情制御がCLAP使うのじゃなくてBertで別のセリフを混ぜるやつになって、これは体感だと結構効く気がする
Bert-VITS2の2.3来たで、最終リリースらしい
感情制御がCLAP使うのじゃなくてBertで別のセリフを混ぜるやつになって、これは体感だと結構効く気がする
2023/12/20(水) 10:35:39.23ID:aAVryQqI
もう2.3来たのか
昨日2.2でやっと学習を試したところだったのに早い
昨日2.2でやっと学習を試したところだったのに早い
2023/12/20(水) 11:04:25.08ID:OUOwKJT8
216今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/20(水) 12:21:19.59ID:whLLZUdz 歌ってみたからボーカル抽出しようと思ったらことごとくそいつらもハモってて、歌ってみたの人も頑張ってるなと思った(小並感)
もうワイが…歌うしかないんか?ヴォエ!駄目だやっぱ!(迫真音痴部)
もうワイが…歌うしかないんか?ヴォエ!駄目だやっぱ!(迫真音痴部)
217今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/20(水) 15:08:17.60ID:ZpgOY3GM EasyBertVits2 で2.3にも対応してくれないかなぁ。
ワクテカして待とう。
ワクテカして待とう。
2023/12/20(水) 15:45:25.79ID:7BSiYzss
Bert-VITS2.3 webui_preprocess使ったんだけど指定の事前学習モデルが中国SMS使えないと落せねぇ…
と思ったらここに書いてあった
https://qiita.com/seichi25/items/e6133c5209e2d65b377a
Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_v', 'encoder.pos_conv_embed.conv.weight_g']
なんか学習中に警告出るわ一応推論できてるけど
と思ったらここに書いてあった
https://qiita.com/seichi25/items/e6133c5209e2d65b377a
Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_v', 'encoder.pos_conv_embed.conv.weight_g']
なんか学習中に警告出るわ一応推論できてるけど
2023/12/20(水) 18:36:40.24ID:iYOAZ+Jf
2人以上の長文から音声書き起こししたいんだけど
pyannote使えば良いのかな
pyannote使えば良いのかな
2023/12/20(水) 19:26:06.71ID:F0okMRjN
Bert-VITS2、2.3微妙だ感がある、結局2.1が一番良かったのではという説
いろいろ実験してみるしかないかー
いろいろ実験してみるしかないかー
221今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/20(水) 21:55:26.18ID:AKPPtI4a >>217
trunkに仮対応入れといたで
https://github.com/Zuntan03/EasyBertVits2/blob/main/src/Install-EasyBertVits2.bat
のRawを右クリックからダウンロードでいけるはずや。
>>220
みたくv2.1にlitaginニキのStyle Textパッチ当てたのが最善となるやもしらんが
trunkに仮対応入れといたで
https://github.com/Zuntan03/EasyBertVits2/blob/main/src/Install-EasyBertVits2.bat
のRawを右クリックからダウンロードでいけるはずや。
>>220
みたくv2.1にlitaginニキのStyle Textパッチ当てたのが最善となるやもしらんが
2023/12/20(水) 21:59:35.13ID:D/Gc/OhE
2023/12/20(水) 22:36:07.92ID:AKPPtI4a
試しにv2.3でbf16で学習してみたモデルも置いときま
https://huggingface.co/Zuntan/JVNV-F2_Bert-VITS2_v2.3-Test
普通の読み上げは普通やが喘ぎ声とかは2.1のほうがマシな印象や
https://huggingface.co/Zuntan/JVNV-F2_Bert-VITS2_v2.3-Test
普通の読み上げは普通やが喘ぎ声とかは2.1のほうがマシな印象や
2023/12/21(木) 06:43:44.22ID:OWEukyD4
2023/12/21(木) 21:03:21.84ID:OWEukyD4
https://uploader.cc/s/vriub4zusemgnlf2ncfppetiyy9uv8roofj4huz5y7pbo1byp8r4cha81q9ic1jd.wav
https://uploader.cc/s/m5ylnb12uo56a7q6es2agnzcii5dl6j4hultjojmhxrgtlhwf39v81ys7acgjml8.wav
Bert-VITS2を喘ぎ声オンリーで学習させてみたやつ(複数話者混じってるので声音は安定しないかも?普通の文章もしゃべれるはしゃべれるけどちょっとガビる)
https://huggingface.co/litagin/bert-vits2-nsfw
https://uploader.cc/s/m5ylnb12uo56a7q6es2agnzcii5dl6j4hultjojmhxrgtlhwf39v81ys7acgjml8.wav
Bert-VITS2を喘ぎ声オンリーで学習させてみたやつ(複数話者混じってるので声音は安定しないかも?普通の文章もしゃべれるはしゃべれるけどちょっとガビる)
https://huggingface.co/litagin/bert-vits2-nsfw
2023/12/21(木) 21:08:21.53ID:AYEznT0x
自然な笑い声が学習できなくて難しい
2023/12/21(木) 21:17:21.55ID:jvunRhIL
2023/12/21(木) 21:48:42.77ID:sFgNcNXb
2023/12/21(木) 22:42:11.12ID:88yZ8cgr
>>225
これは可能性を感じるな
これは可能性を感じるな
230今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/22(金) 00:26:50.94ID:XMhUrnHB2023/12/22(金) 07:04:01.36ID:mtjgMM+Y
>>224
Linux…
Linux…
2023/12/22(金) 09:10:42.51ID:/olCN63v
>>195
すっごい初歩的かもだけど、zuntanニキのEasyBertVits2を使ってる場合これでマージしたやつはどうすればいいんだ?
出来上がった.pthとモデルAの.jsonをDataフォルダにおいてもロードできない(認識はされてる)
すっごい初歩的かもだけど、zuntanニキのEasyBertVits2を使ってる場合これでマージしたやつはどうすればいいんだ?
出来上がった.pthとモデルAの.jsonをDataフォルダにおいてもロードできない(認識はされてる)
2023/12/22(金) 09:56:29.24ID:YBCjXFlS
>>232
HiyoriUIを使う場合よな?
コード見たらpthファイルの最初が"G_"から始まらないと駄目っぽかったからそうリネームしてくれ
それでも駄目だったらコマンドプロンプトにどんなエラーログが出てるか教えて
HiyoriUIを使う場合よな?
コード見たらpthファイルの最初が"G_"から始まらないと駄目っぽかったからそうリネームしてくれ
それでも駄目だったらコマンドプロンプトにどんなエラーログが出てるか教えて
2023/12/22(金) 10:19:13.51ID:kI19oEOx
最近流行ってるAIカバーソングってどうやって作ったらいいの?
米津玄師がYOASOBI歌う、みたいなの
米津玄師がYOASOBI歌う、みたいなの
235今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/22(金) 10:29:03.22ID:ZNVT95Av >>234
米津玄師の歌のボーカル部だけを抜き出して学習させる
↓
米津玄師のボイスモデルができる
↓
そのモデルを使って自分でYOASOBIの歌を歌う
もしくは
YOASOBIの歌のボーカル部だけを抜き出して、それを入力し米津玄師のモデルを通して出力
米津玄師の歌のボーカル部だけを抜き出して学習させる
↓
米津玄師のボイスモデルができる
↓
そのモデルを使って自分でYOASOBIの歌を歌う
もしくは
YOASOBIの歌のボーカル部だけを抜き出して、それを入力し米津玄師のモデルを通して出力
2023/12/22(金) 10:33:54.00ID:vZbOIEIA
カバーとかは作っても貼らない方が良さそう
絵以上に本気出されたらヤバそう
絵以上に本気出されたらヤバそう
2023/12/22(金) 12:45:59.82ID:xEmQ4qoo
2023/12/22(金) 13:07:04.04ID:YBCjXFlS
>>237
RVCはボイチェン(セリフや歌ボーカルを入力したらその声を別の人の声に変える)やからそういうことやな
RVCで歌わせたい人の声を学習して、そのボイチェンを通して自分が歌ったりボーカル部分を通したりすれば、歌わせたい人の声で歌わせられる
RVCはボイチェン(セリフや歌ボーカルを入力したらその声を別の人の声に変える)やからそういうことやな
RVCで歌わせたい人の声を学習して、そのボイチェンを通して自分が歌ったりボーカル部分を通したりすれば、歌わせたい人の声で歌わせられる
2023/12/22(金) 14:00:35.59ID:Fss4Kj+N
2023/12/22(金) 14:10:11.92ID:xEmQ4qoo
ありがとう!
グラボはあるから調べてみる!
グラボはあるから調べてみる!
241今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/22(金) 14:21:25.24ID:jH7+zXRT NVIDIAのグラボな
ほとんど全部がCUDAで記述されてるからAMD やIntel はまともに使えない
ほとんど全部がCUDAで記述されてるからAMD やIntel はまともに使えない
2023/12/22(金) 15:20:09.99ID:RvhSzlue
>>233
ワイのようなエロ利用したいだけのダンゴムシを相手にしてくれてありがとうやで
そして.jsonファイルを違うファイルと取り違えてただけやった
スマンやで
しかし、完成度高いモデルにnsfwモデル混ぜたら完成度高いまま喘がせられるかと思ったけど、なかなか思うようにはいかないな
ワイのようなエロ利用したいだけのダンゴムシを相手にしてくれてありがとうやで
そして.jsonファイルを違うファイルと取り違えてただけやった
スマンやで
しかし、完成度高いモデルにnsfwモデル混ぜたら完成度高いまま喘がせられるかと思ったけど、なかなか思うようにはいかないな
243今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/22(金) 17:41:59.20ID:Rx49IFxt ワイもダンゴムシや
正月に覚えたいと思ってromってる
正月に覚えたいと思ってromってる
244今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/23(土) 07:00:34.29ID:pus1g4sU2023/12/23(土) 17:16:54.27ID:bTK20Uu6
bert vits2はrvcみたいに音声データを読み込ませてそのまま変換するみたいなことはできない感じかね?
2023/12/23(土) 17:51:07.54ID:REWL7Y2Z
ボイチェン(音声を入れたら音声が返ってくる)とテキスト読み上げ(テキストを入れたら音声が返ってくる)は違うから、その目的ならRVCじゃね
247今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/23(土) 18:24:03.30ID:O+7nCNNR >>245
RVCがVoice Conversion(音声変換)でVITSがText to Speech(テキスト読み上げ)でそれぞれ全くの別物やで
RVCがVoice Conversion(音声変換)でVITSがText to Speech(テキスト読み上げ)でそれぞれ全くの別物やで
2023/12/23(土) 18:50:30.10ID:bTK20Uu6
2023/12/24(日) 10:58:29.48ID:AoDoxnMx
>>224
これPaperspaceのA4000で試してみた
6時間制限めいっぱいで20000ステップほど終わってた
2000ステップ毎保存で容量34GBになってたんでProプラン基本枠15GB内でやるのは無理
学習する度にダウンロードして綺麗に消せば月額総計2000円程度か?
これPaperspaceのA4000で試してみた
6時間制限めいっぱいで20000ステップほど終わってた
2000ステップ毎保存で容量34GBになってたんでProプラン基本枠15GB内でやるのは無理
学習する度にダウンロードして綺麗に消せば月額総計2000円程度か?
2023/12/24(日) 12:34:53.34ID:zONGPvmI
EasyBertVits2なんですが2.1のモデルロード押しても左下に出なくて悩んでます・・
モデルは一覧に表示されます、デモのモデルはロードできてる
って状態です・・・原因何が考えられますか?
モデルは一覧に表示されます、デモのモデルはロードできてる
って状態です・・・原因何が考えられますか?
2023/12/24(日) 16:34:35.08ID:NXPiZtaW
2023/12/24(日) 18:08:38.80ID:XXrcsDw5
2023/12/24(日) 20:01:55.89ID:1A3uo7mA
ここのスレ民ってdeepfake?も作ってるん?
2023/12/24(日) 22:15:38.51ID:PtqsjAXA
VITSとゆかりネットを繋げて喋ったりとかは今のところ無理なのかな?
255今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/24(日) 22:16:53.08ID:xD/Pfp/2 >>254
仮想ケーブルに流せばいけるやろ
仮想ケーブルに流せばいけるやろ
2023/12/25(月) 19:22:00.17ID:kedVu1dK
https://twitter.com/ParakeetIncCom/status/1739205839599411564
Parakeetのリアルタイムボイチェンきたで
(ウェイトリスト登録とは何だったのか……)
総合の質は正直RVCが上でピッチもずれるから歌とかも歌えないしガタつくけど、低遅延は正義って感じでめっちゃ軽くて速い
https://twitter.com/thejimwatkins
Parakeetのリアルタイムボイチェンきたで
(ウェイトリスト登録とは何だったのか……)
総合の質は正直RVCが上でピッチもずれるから歌とかも歌えないしガタつくけど、低遅延は正義って感じでめっちゃ軽くて速い
https://twitter.com/thejimwatkins
2023/12/25(月) 19:49:12.08ID:eYq/uO/d
Parakeet試してみようと思ったけど起動してもすぐ白い画面になってしまう
相性問題なんだろうね、残念
相性問題なんだろうね、残念
258今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/25(月) 21:11:04.09ID:MWPqNLWp 遅延100msだとワイのこれ>>128より遅いんよ…
2023/12/25(月) 21:22:55.91ID:ipIPPJgI
EXTRAの値ってなにに関係してるの?
2023/12/25(月) 21:33:24.35ID:+tOgVLnP
歌の音程
話し言葉なら低くても違和感がない
話し言葉なら低くても違和感がない
2023/12/25(月) 21:42:48.41ID:24Q663EP
2023/12/25(月) 22:23:00.69ID:2n9+AoV7
VC Client1.5.3.17bでしゃべってるとCPU使用率100%行くのおま環じゃなかったのか安心した
2023/12/26(火) 11:15:00.92ID:cpZ7WCTA
https://i.imgur.com/SmqD7eQ.png
3090のBFPでもCHUNKこれくらい必要なんやけどBFPよりRevelator io44のほうが設定詰められるんやろか
3090のBFPでもCHUNKこれくらい必要なんやけどBFPよりRevelator io44のほうが設定詰められるんやろか
2023/12/26(火) 12:23:01.16ID:lwQ9Ct7z
Bert-VITS2.1の関西弁のデータどこかにないでしょうか?
2023/12/26(火) 12:43:07.31ID:tlv0qrcJ
2023/12/26(火) 12:52:48.18ID:lwQ9Ct7z
>>265
関西弁が話せないので聞いたのです
関西弁が話せないので聞いたのです
2023/12/26(火) 13:14:34.01ID:ItLJReTo
方言はずんだもんもどきみたいなのしか見たことないな
268今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/26(火) 13:34:53.08ID:xPn7kPMU 琴葉茜exvoice集でこっそりやってみたらええと思う
269今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/26(火) 13:42:22.42ID:cDQ9djdu >>263
chunk下げられないのとio44はあんま関係ないのでどっちかというとモデルの教育具合と入力音声の整流の影響かと思う
ただwasapiは問答無用で実測100ms弱の遅延発生させるからそっちはio44に限らずちゃんとしたASIOオーディオインターフェイス買えば数msまで減らせるで
io44やapolloはDSP内蔵しているのでさらに入力音声のバイパス、ゲート、コンプレッサー処理を遅延μSクラスにできる
chunk下げられないのとio44はあんま関係ないのでどっちかというとモデルの教育具合と入力音声の整流の影響かと思う
ただwasapiは問答無用で実測100ms弱の遅延発生させるからそっちはio44に限らずちゃんとしたASIOオーディオインターフェイス買えば数msまで減らせるで
io44やapolloはDSP内蔵しているのでさらに入力音声のバイパス、ゲート、コンプレッサー処理を遅延μSクラスにできる
270今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/26(火) 13:48:47.93ID:cDQ9djdu >>262
ま?うちそれいまんとこ起こらないや…
ま?うちそれいまんとこ起こらないや…
2023/12/26(火) 14:12:17.92ID:3zxH+Yac
Babyface Proって15万もする高級AIFの印象なんやけどASIO使えんのか?
2023/12/26(火) 16:56:08.15ID:tlv0qrcJ
>>266
その関西弁コーパスとかで学習してみたらってこと
その関西弁コーパスとかで学習してみたらってこと
2023/12/26(火) 17:00:04.49ID:cpZ7WCTA
>>269
サンガツ ASIOは使えるけどようわからんで
アウトプットは仮想ケーブルやからインプットをASIOにしたら上の画像と同じ設定でプツプツいうたんやが…
ちな両方ASIOにしたらエラーでてるっぽくてマイクの音が出なくなったで
サンガツ ASIOは使えるけどようわからんで
アウトプットは仮想ケーブルやからインプットをASIOにしたら上の画像と同じ設定でプツプツいうたんやが…
ちな両方ASIOにしたらエラーでてるっぽくてマイクの音が出なくなったで
2023/12/26(火) 17:18:37.99ID:3zxH+Yac
DMTでド逓倍のBabyface Proでも駄目となるとやっぱVC ClientでのASIOのpaaudio(soundevice)の扱いに問題あるんじゃなかろうか?
2023/12/26(火) 17:35:15.12ID:3zxH+Yac
DMTでド逓倍→DTMでド定番 やでスマンな
276今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/26(火) 18:43:38.06ID:M+VaoUZO >>256
これすげえな。RVC client試したときは色々いじってもいまいち微妙な声にしかできなかったけど、こっちは遅延も少ないしインストールして開始するだけですぐキャラの声になれる。
ワイの設定が悪かったのかもしれないけど…
これすげえな。RVC client試したときは色々いじってもいまいち微妙な声にしかできなかったけど、こっちは遅延も少ないしインストールして開始するだけですぐキャラの声になれる。
ワイの設定が悪かったのかもしれないけど…
277今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/26(火) 23:03:20.77ID:MyLDPx+R hiyori使ってる場合、simple_merge.pyってどこに置くの?
赤ちゃんすぎて全くわからん みんなすごいわ
赤ちゃんすぎて全くわからん みんなすごいわ
2023/12/26(火) 23:17:15.74ID:HQXkj6x9
279今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/27(水) 02:33:14.41ID:wM5Q0rZb >>271
ASIO 当然使えるよbabyface proもFSも
ASIO 当然使えるよbabyface proもFSも
2023/12/27(水) 02:43:28.77ID:oFa1nQC+
ぶつぶつの原因はマザボやらCPUやら色々絡むからLatencyMonなんかで観察して一つ一つ潰していくしかないんやな
SoundBlaster(256chunk)からMOTUに変えるだけ(32chink)かなり短くできるようになるからドライバの影響もあるんやな
DTM界でもレイテンシ問題はかなり根が深いから何とも言えん世界や
ttps://u-aim.com/archives/119
SoundBlaster(256chunk)からMOTUに変えるだけ(32chink)かなり短くできるようになるからドライバの影響もあるんやな
DTM界でもレイテンシ問題はかなり根が深いから何とも言えん世界や
ttps://u-aim.com/archives/119
281今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/27(水) 02:53:11.53ID:P+wkvJfF2023/12/27(水) 03:15:08.99ID:wgVGbbhn
rvcデータ作成の分かりやすい解説サイトないか
2023/12/27(水) 19:56:36.79ID:K5osm0y+
https://github.com/litagin02/Style-Bert-VITS2/
Bert-VITS2の2.1をベースに感情操作をちゃんとできるように改善したStyle-Bert-VITS2を作ったで
EasyBertVits2みたいにPythonやGitなくてもzipファイルの中のbatをダブルクリックするだけでインストールできるはずや
Bert-VITS2の2.1をベースに感情操作をちゃんとできるように改善したStyle-Bert-VITS2を作ったで
EasyBertVits2みたいにPythonやGitなくてもzipファイルの中のbatをダブルクリックするだけでインストールできるはずや
284今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/27(水) 20:34:44.60ID:V+/9RLvj サンガツ!いれてみゆ
285今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2023/12/28(木) 14:53:49.90ID:cbWIwzod めっちゃ楽やなサンガツ
2023/12/29(金) 13:10:55.89ID:JGeSFF/j
ありがてぇ!
2023/12/29(金) 15:20:26.15ID:4IO69Izm
https://github.com/litagin02/Aivis-Dataset
Aivisがデータセットづくりがすごい工夫されてて有能そうだけどBert-VITS2限定だしWindowsだと使えんので、簡単インストーラー付きのWindowsユーザー向けのデータセット作成部分のフォークを作った
どこまで書き起こし修正が必要かはよう分からんけど、質が悪くなることはないと思うし、めっちゃ工夫されてるからStyle-Bert-VITS2に入れるデータセットづくりに使うといいかもしれない
Aivisがデータセットづくりがすごい工夫されてて有能そうだけどBert-VITS2限定だしWindowsだと使えんので、簡単インストーラー付きのWindowsユーザー向けのデータセット作成部分のフォークを作った
どこまで書き起こし修正が必要かはよう分からんけど、質が悪くなることはないと思うし、めっちゃ工夫されてるからStyle-Bert-VITS2に入れるデータセットづくりに使うといいかもしれない
2023/12/30(土) 01:10:25.37ID:d5/EM6ec
す、凄い・・・そこまで作ってくれるとは
2023/12/30(土) 02:04:54.75ID:/Gf6v8l6
しょぼいPCだからGPU借りて使えるAivis重宝してるわ
2023/12/30(土) 17:41:01.13ID:SNZENq0y
Bert-VITSで盛り上がってるところすまないんだけどRVCで質問させてください
俺は男なんだけど、別に女声にボイチェンしたいわけじゃなくて動画投稿のために
カッコいい声に変換したいと思ってるんだけど
そういう場合って適当にbooth辺りに売ってるイケボのモデルでも買えばいいんだろうか?
自然な女声に変換するのはボイトレが必要なのは何となく分かるけど
おっさんボイスをイケボにするのにもボイトレが必要なんだろうか?
俺は男なんだけど、別に女声にボイチェンしたいわけじゃなくて動画投稿のために
カッコいい声に変換したいと思ってるんだけど
そういう場合って適当にbooth辺りに売ってるイケボのモデルでも買えばいいんだろうか?
自然な女声に変換するのはボイトレが必要なのは何となく分かるけど
おっさんボイスをイケボにするのにもボイトレが必要なんだろうか?
2023/12/30(土) 18:19:44.39ID:EBNsfZ+f
2023/12/30(土) 18:33:45.45ID:SNZENq0y
>>291
あざっす ちょっと試してみますわ
あざっす ちょっと試してみますわ
2023/12/31(日) 15:46:58.05ID:NGVLnzvu
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/1.2
Style-Bert-VITS2をアプデして、colabでの学習やらマージ機能やらいろいろつけたからよかったら使ってや
Style-Bert-VITS2をアプデして、colabでの学習やらマージ機能やらいろいろつけたからよかったら使ってや
2023/12/31(日) 16:21:10.67ID:Re3pRflG
>>293
サンガツ
サンガツ
2023/12/31(日) 17:02:35.74ID:Lm+Hyf46
えらすぎ…神
2023/12/31(日) 21:21:28.71ID:Uzvvt9B0
2023/12/31(日) 22:05:54.89ID:R66QxfSs
>>293
これってstyle_vectors.npy無しでモデルを読み込ませる事とかできるの?
試行錯誤したけどスタイル作成するには元音源wavが必要みたいだし
EasyBertVits2で使えた音声モデルを動かせなくて困ってる
これってstyle_vectors.npy無しでモデルを読み込ませる事とかできるの?
試行錯誤したけどスタイル作成するには元音源wavが必要みたいだし
EasyBertVits2で使えた音声モデルを動かせなくて困ってる
2023/12/31(日) 22:27:50.33ID:NGVLnzvu
>>297
今は対応しとらん、というか対応したとしてもEasyBertVits2で作ったモデルはスタイル指定はできないので、その音声モデルを使いたいならEasyBertVits2を使ったほうが早いと思う
スタイル使いたいなら面倒やけど学習し直して自分でスタイル作る、って感じやな、すまん
今は対応しとらん、というか対応したとしてもEasyBertVits2で作ったモデルはスタイル指定はできないので、その音声モデルを使いたいならEasyBertVits2を使ったほうが早いと思う
スタイル使いたいなら面倒やけど学習し直して自分でスタイル作る、って感じやな、すまん
2023/12/31(日) 23:04:39.13ID:R66QxfSs
>>298
Easyだとsafetensorsを読み込めないし、互換性は無いに等しい感じか・・・
しかし、これから合成音声を作るのなら機能的にstyle一択みたいになりそう
自分で学習チャレンジする時の参考にさせてもらうわ
Easyだとsafetensorsを読み込めないし、互換性は無いに等しい感じか・・・
しかし、これから合成音声を作るのなら機能的にstyle一択みたいになりそう
自分で学習チャレンジする時の参考にさせてもらうわ
2024/01/01(月) 11:42:40.73ID:PcT75306
301今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/01(月) 13:50:26.91ID:i3TY93qZ Audacityで無音の分割すると文の途中で切れるんやが
上手いコツを教えてくれよ
上手いコツを教えてくれよ
2024/01/01(月) 14:16:13.92ID:hofToLNI
>>300
ならばlitagin-bert-vits2-nsfw-ver2.1-aegi1を(迫真)
年始だし気長にお待ちするわ
画像生成と一緒ならsafetensorsとpthは構成ほぼ同じ?
声は本人そのまんまになるから学習させるなら故人の声優にしようと思うわ
しかし、データセット作るのにはスマホゲー等のブッコ抜き使う方が遥かに楽という
古い声優だと無料公開1話等から録音アプリでかき集めるしかないね
ならばlitagin-bert-vits2-nsfw-ver2.1-aegi1を(迫真)
年始だし気長にお待ちするわ
画像生成と一緒ならsafetensorsとpthは構成ほぼ同じ?
声は本人そのまんまになるから学習させるなら故人の声優にしようと思うわ
しかし、データセット作るのにはスマホゲー等のブッコ抜き使う方が遥かに楽という
古い声優だと無料公開1話等から録音アプリでかき集めるしかないね
2024/01/01(月) 15:06:33.41ID:TBsTQKWs
たまに発生する中国人が日本語喋ったみたいな発音はベースモデルとアーキテクチャの都合でしょうがないんかな
声質が自然なんで違和感すごいわ
声質が自然なんで違和感すごいわ
2024/01/01(月) 15:30:29.82ID:PcT75306
>>302
nsfwのほうかー、あれは話者性が結構ガタついてノイズが酷かったから、複数話者混ぜないnsfwとしてそのうち出す気がするわ
safetensorsとpthはほぼ構成は同じなんだけど、Bert-VITS2 v2.1であった感情の重みを消してStyle-Bert-VITS2では別の重みにしてそれを学習させてるから、
そのまま移植してもスタイルは使えん、っちゅう感じ
nsfwのほうかー、あれは話者性が結構ガタついてノイズが酷かったから、複数話者混ぜないnsfwとしてそのうち出す気がするわ
safetensorsとpthはほぼ構成は同じなんだけど、Bert-VITS2 v2.1であった感情の重みを消してStyle-Bert-VITS2では別の重みにしてそれを学習させてるから、
そのまま移植してもスタイルは使えん、っちゅう感じ
2024/01/01(月) 15:32:38.21ID:PcT75306
よく言われる中国人発音は、中国モデルというよりも、単純に日本語のアクセントとかいう、単語単位で音の高低が決まっているという仕組みを学習するのが難しいからやろな
(中国語や英語だとそういうのはない、はず)
今はアクセント調整がうまく学習できてなくて手動でも変えれないから、そこを変えれたらもう満点という感じなんやが……
(中国語や英語だとそういうのはない、はず)
今はアクセント調整がうまく学習できてなくて手動でも変えれないから、そこを変えれたらもう満点という感じなんやが……
306今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/01(月) 16:15:30.12ID:i3TY93qZ2024/01/01(月) 16:18:11.97ID:AgH9tBF4
>>300
LとTお願いします!
LとTお願いします!
2024/01/01(月) 17:00:24.95ID:hofToLNI
2024/01/01(月) 19:13:59.95ID:AkOsNxIx
2024/01/01(月) 20:06:17.50ID:WaZ+cn6O
2024/01/02(火) 01:20:29.66ID:n7+rFXE4
Aivis Datasetで「1-CreateSegments.bat」を実行すると
RuntimeError: Library cublas64_11.dll is not found or cannot be loaded
こうなるんだけど、解決方法ありますか?
ちなみにCドライブ直下にインストールしたんだけど…
RuntimeError: Library cublas64_11.dll is not found or cannot be loaded
こうなるんだけど、解決方法ありますか?
ちなみにCドライブ直下にインストールしたんだけど…
2024/01/02(火) 03:37:29.19ID:eKulY1+w
>>311
ttps://zenn.dev/rhene/scraps/60763ec9d7f1ee
多分、グラボのドライバが正常に機能してない
GPUが正しく使われてないと思う
画像生成やゲームでちゃんとcudaは機能してるか?
CUDA-System Fallback Policyで勝手にメインメモリ使ってる可能性もある
ttps://zenn.dev/rhene/scraps/60763ec9d7f1ee
多分、グラボのドライバが正常に機能してない
GPUが正しく使われてないと思う
画像生成やゲームでちゃんとcudaは機能してるか?
CUDA-System Fallback Policyで勝手にメインメモリ使ってる可能性もある
313今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/02(火) 09:46:08.37ID:kxJK/jCV 結局分割せずにブチ込んでいいって事かい
https://seesaawiki.jp/rvc_ch/d/%b3%d8%bd%ac%a4%ce%a5%b3%a5%c4
https://seesaawiki.jp/rvc_ch/d/%b3%d8%bd%ac%a4%ce%a5%b3%a5%c4
2024/01/02(火) 10:15:54.78ID:nOY/VkPl
315今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/02(火) 10:47:25.90ID:kxJK/jCV 素材を全部くっつけて無音を削除して5秒ごとに分割するで!
↓
声がノイズ扱いされるンゴ……
無音を作ったら解決した
↓
声がノイズ扱いされるンゴ……
無音を作ったら解決した
2024/01/02(火) 11:05:27.70ID:VhQ4y0mm
2024/01/02(火) 12:23:04.17ID:nOY/VkPl
2024/01/02(火) 12:40:35.67ID:qWThB8fr
グラボ何使ってるんだ?
2024/01/02(火) 13:03:42.71ID:iDTKUWvF
>>316
cudaがv12.xならcublas64_12.dllってのがあるはずなので、それをその場にコピペして11にリネームしたら通ったよ
cudaがv12.xならcublas64_12.dllってのがあるはずなので、それをその場にコピペして11にリネームしたら通ったよ
320今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/02(火) 16:38:16.08ID:rSD8HGuj2024/01/03(水) 02:32:59.13ID:aIRLIpMZ
>>316
自分も同じトラブルに遭ったわ
ttps://note.com/hcanadli12345/n/nb8cf59ca2596
そもそも、該当ソフト自体が入ってない可能性もある
ちゃんとcuda等が入っているのなら既に上がってる通りリネームで行ける
自分も同じトラブルに遭ったわ
ttps://note.com/hcanadli12345/n/nb8cf59ca2596
そもそも、該当ソフト自体が入ってない可能性もある
ちゃんとcuda等が入っているのなら既に上がってる通りリネームで行ける
2024/01/03(水) 11:05:46.85ID:59geVqx3
coeiroinkみたいに音の高低を調整できたら完璧なんやがなぁ…。
というか学習したpthファイルをcoeiroinkで読み込ませることはできんのやろか。
というか学習したpthファイルをcoeiroinkで読み込ませることはできんのやろか。
2024/01/03(水) 11:11:43.62ID:nG05gnJB
coeiroinkは単純なESPnetのVITSで、Bert-VITS2系とは構造が違うから互換性は全くないで
coeiroinkのアクセント調整はVITS内在のものでBert-VITS2系だとうまく動かんから期待できんけど、
手動ピッチいじりの方はあれは無理やりいじってるだけな気がするから、すごい人ならアレと同等のことはできるようにできるんかもしらん
(coeiroink editorがコード公開されとればええんやけどな……)
coeiroinkのアクセント調整はVITS内在のものでBert-VITS2系だとうまく動かんから期待できんけど、
手動ピッチいじりの方はあれは無理やりいじってるだけな気がするから、すごい人ならアレと同等のことはできるようにできるんかもしらん
(coeiroink editorがコード公開されとればええんやけどな……)
2024/01/03(水) 12:45:09.43ID:ObFdo8/H
フリーソフトでピッチ調整してみたが
液タブで鉛筆ツール使えば結構簡単にできるな
https://otoasobidayo.com/vocalshifterle220504/
voicevoxのアクセント調整より楽かも
↓調整比較
https://files.catbox.moe/0sgp55.mp3
液タブで鉛筆ツール使えば結構簡単にできるな
https://otoasobidayo.com/vocalshifterle220504/
voicevoxのアクセント調整より楽かも
↓調整比較
https://files.catbox.moe/0sgp55.mp3
2024/01/03(水) 13:54:36.40ID:nG05gnJB
>>324
おおええな、そこまで不自然さも目立たん
おおええな、そこまで不自然さも目立たん
2024/01/04(木) 18:48:00.78ID:SSrZyHoF
https://huggingface.co/litagin/style_bert_vits2_okiba
https://huggingface.co/litagin/style_bert_vits2_nsfw
Style-Bert-VITS2のモデル置き場(とそのNSFW版)や。まだ3個やけど随時更新してくで。
喘ぎ声注意
https://uploader.cc/s/q9tuo5dwdwi6gzq6ylw2fkvovdg92n51i8r2bkjaoyf36q80cvjoog2cp5uiwoa5.wav
https://huggingface.co/litagin/style_bert_vits2_nsfw
Style-Bert-VITS2のモデル置き場(とそのNSFW版)や。まだ3個やけど随時更新してくで。
喘ぎ声注意
https://uploader.cc/s/q9tuo5dwdwi6gzq6ylw2fkvovdg92n51i8r2bkjaoyf36q80cvjoog2cp5uiwoa5.wav
2024/01/04(木) 19:29:38.03ID:Qj42N/Od
>>326
うおおお!
サンガツ×100!
使わせてもらうで!
自分でもモデル作成&sfwモデルとnsfwモデルのマージやってるけど、感情を1.0にしちゃうとやっぱり声色もnsfwモデルに引きずられるんよねえ
sfwモデルをnsfw化するにはなるべく声色が似ているモデルを使用したほうがいいんかのう…
うおおお!
サンガツ×100!
使わせてもらうで!
自分でもモデル作成&sfwモデルとnsfwモデルのマージやってるけど、感情を1.0にしちゃうとやっぱり声色もnsfwモデルに引きずられるんよねえ
sfwモデルをnsfw化するにはなるべく声色が似ているモデルを使用したほうがいいんかのう…
2024/01/04(木) 19:39:06.04ID:9omz8bss
2024/01/04(木) 19:43:37.74ID:aXUeZXLH
喘ぎ声や吐息も充分実用に足るレベルだね
声優の代替になるってほどでもないけど
むしろボイロとかの人工音声の方が好きな層も多いからウケもよさそう
声優の代替になるってほどでもないけど
むしろボイロとかの人工音声の方が好きな層も多いからウケもよさそう
2024/01/04(木) 20:04:20.96ID:Vqfp8ZMg
サンガツすぎる!!
2024/01/04(木) 20:20:35.93ID:6xOjpnqJ
>>293
いつもサンガツ!
デバグ報告するやで
batインストーラーを使ったら途中でパスが不正でエラーになってしもた
Program Filesの半角スペースが引数の区切り文字と誤認されてるみたいやわ
パスを渡す時に" "で囲わないとアカンみたいや
D:/Program Files/V_Chang/install-Style-Bert-VIST2.bat
いつもサンガツ!
デバグ報告するやで
batインストーラーを使ったら途中でパスが不正でエラーになってしもた
Program Filesの半角スペースが引数の区切り文字と誤認されてるみたいやわ
パスを渡す時に" "で囲わないとアカンみたいや
D:/Program Files/V_Chang/install-Style-Bert-VIST2.bat
2024/01/04(木) 23:18:22.44ID:9omz8bss
Ilonaちゃんだけ感情入れるとエラーになっちゃうんやがワイ環?😢
2024/01/04(木) 23:25:42.48ID:SSrZyHoF
>>332
nsfwのほう?どういうエラーや?
nsfwのほう?どういうエラーや?
2024/01/04(木) 23:58:31.76ID:uXco2875
2024/01/05(金) 00:12:21.50ID:HIjkdKWD
>>333
いや幸いな事にnsfwの方は動くんやが
普通版の方がneutral以外で生成すると
IndexError: index 3 is out of bounds for axis 0 with size 1
と出てerror表示されるんや
ワイ環の可能性結構あるから他に報告無かったら無視してクレメンス
いや幸いな事にnsfwの方は動くんやが
普通版の方がneutral以外で生成すると
IndexError: index 3 is out of bounds for axis 0 with size 1
と出てerror表示されるんや
ワイ環の可能性結構あるから他に報告無かったら無視してクレメンス
2024/01/05(金) 00:13:41.36ID:1xWEF8RC
>>327
nsfwでのマージあんま試したことなかったわ、こちらでもやってみる
今は「話者性」「感情表現」「テンポ」の3つでマージにしとるけど、最初の話者性のところに声の高さの情報が入っちゃってるから(flow)、
通常のモデルとnsfwモデルを、話者性を通常モデル全振り(0)でやっちゃうと、喘ぎっぽい甲高い声にならない、っていうのはありそうや。
いろいろ試し見てみてうまく行ったら、声の高さについてのマージもちゃんと分けてできるようにしてみるで。
nsfwでのマージあんま試したことなかったわ、こちらでもやってみる
今は「話者性」「感情表現」「テンポ」の3つでマージにしとるけど、最初の話者性のところに声の高さの情報が入っちゃってるから(flow)、
通常のモデルとnsfwモデルを、話者性を通常モデル全振り(0)でやっちゃうと、喘ぎっぽい甲高い声にならない、っていうのはありそうや。
いろいろ試し見てみてうまく行ったら、声の高さについてのマージもちゃんと分けてできるようにしてみるで。
2024/01/05(金) 00:19:51.64ID:1xWEF8RC
2024/01/05(金) 00:24:01.70ID:HIjkdKWD
>>337
分かったで👌😊
分かったで👌😊
2024/01/05(金) 00:30:39.14ID:HIjkdKWD
2024/01/05(金) 03:52:05.74ID:UowDd/LY
>>336
なるほど~
まあ考えてみれば喘ぎ声や吐息って感情表現や抑揚だけじゃないもんな
喘ぎ声や吐息を構成する要素をマージするにはその構成キーを探し出してnsfwマージ専用のコマンドにしなきゃならんのかもな…
なるほど~
まあ考えてみれば喘ぎ声や吐息って感情表現や抑揚だけじゃないもんな
喘ぎ声や吐息を構成する要素をマージするにはその構成キーを探し出してnsfwマージ専用のコマンドにしなきゃならんのかもな…
2024/01/05(金) 20:31:10.48ID:1xWEF8RC
(Style-)Bert-VITS2の日本語から音素記号に変換するところに重大なバグがあったのに気づいて修正したから報告や
細かいことは置いておいて、今までは「車両を見つける」という文が、学習でも音声合成でも、本来は「シャリョオオ ミツケル」なのが、「シャリ「ヨ」オオ ミ「ッ」ケル」になっとったんや
そのせいでアクセントの学習もぶっ壊れるところがあったっぽい。
https://github.com/litagin02/Style-Bert-VITS2/blob/master/text/japanese.py
本家の人でもStyleの方でもダウンロードしてtext/japanese.pyに置き換えればそこが修正されるはずや(StyleならUpdate.batでもたぶんいける)。
ちょっと試したけどアクセント等が自然になった気がする(少なくとも悪くはならん)。
(また全部学習し直しや……)
細かいことは置いておいて、今までは「車両を見つける」という文が、学習でも音声合成でも、本来は「シャリョオオ ミツケル」なのが、「シャリ「ヨ」オオ ミ「ッ」ケル」になっとったんや
そのせいでアクセントの学習もぶっ壊れるところがあったっぽい。
https://github.com/litagin02/Style-Bert-VITS2/blob/master/text/japanese.py
本家の人でもStyleの方でもダウンロードしてtext/japanese.pyに置き換えればそこが修正されるはずや(StyleならUpdate.batでもたぶんいける)。
ちょっと試したけどアクセント等が自然になった気がする(少なくとも悪くはならん)。
(また全部学習し直しや……)
2024/01/05(金) 20:38:57.41ID:hJnkAA/y
マジかー
まあデータセット全部貯めとるから回し直すだけやけども
まあデータセット全部貯めとるから回し直すだけやけども
343今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/05(金) 20:44:34.72ID:NX9VsWAy おkー
344今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/05(金) 22:03:59.47ID:XzxS6qFB >>341
学習中に残り時間とか表示してほしくて進捗をエポックごとじゃなくて全体を表示するように改造して使ってるんやがdevブランチにPRしてええかな?
それと書き起こしに「ヴ」があるとエラー出たから報告や
学習中に残り時間とか表示してほしくて進捗をエポックごとじゃなくて全体を表示するように改造して使ってるんやがdevブランチにPRしてええかな?
それと書き起こしに「ヴ」があるとエラー出たから報告や
2024/01/05(金) 22:29:20.39ID:1xWEF8RC
346今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/05(金) 22:39:35.64ID:XzxS6qFB347今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/05(金) 23:06:56.62ID:bkDayODq Style-Bert-VITS2なのですが Install-Style-Bert-VITS2-CPU.batで色々とセットアップとダウンロード後に
zipfile.ZipFile.__init__(self, filename)
File "zipfile.py", line 1269, in __init__
File "zipfile.py", line 1336, in _RealGetContents
zipfile.BadZipFile: File is not a zip file
Press any key to continue . . .
みたいな感じでエラーが出て起動せず困っております…
あまりにも初心者すぎて申し訳ないのですがいったい何が原因でしょうか
zipfile.ZipFile.__init__(self, filename)
File "zipfile.py", line 1269, in __init__
File "zipfile.py", line 1336, in _RealGetContents
zipfile.BadZipFile: File is not a zip file
Press any key to continue . . .
みたいな感じでエラーが出て起動せず困っております…
あまりにも初心者すぎて申し訳ないのですがいったい何が原因でしょうか
2024/01/05(金) 23:22:06.11ID:OBrhAtQv
2024/01/05(金) 23:28:13.39ID:1xWEF8RC
一応やけど、学習をし直さなくても一応アプデしても前のモデルは使えるは使えて、それだけでも少しは改善される可能性はあるで。
(特に「車両を見つける」とかはアプデ前はめっちゃ「みっける」って発音してたのが直ったりする)
(特に「車両を見つける」とかはアプデ前はめっちゃ「みっける」って発音してたのが直ったりする)
2024/01/06(土) 01:00:38.74ID:skpYDIZj
>>348
韓国系の男性アイドルとかモンゴル人力士みたいな上手いけどなんか違和感ある日本語かな?そもそもそれ自体どうしてそうなるのかよく分かんないんだよね
韓国系の男性アイドルとかモンゴル人力士みたいな上手いけどなんか違和感ある日本語かな?そもそもそれ自体どうしてそうなるのかよく分かんないんだよね
2024/01/06(土) 05:10:33.74ID:xI4/qOQT
どうしてもなにも、画像生成で指が増えたり減ったりするようなもんやろ
文章から感情や文脈を判断して自然な文章を読み上げるなんて少し前なら考えられんほどのオーバーテクノロジーやし、ポン出しでネイティブにも全く違和感のないものが出ると期待するのは無理がある
細かな違和感は今のところ手動調整していくしかないやろな
文章から感情や文脈を判断して自然な文章を読み上げるなんて少し前なら考えられんほどのオーバーテクノロジーやし、ポン出しでネイティブにも全く違和感のないものが出ると期待するのは無理がある
細かな違和感は今のところ手動調整していくしかないやろな
2024/01/06(土) 08:41:17.54ID:AUJnrt+K
ポン出しで出たのを上に出てたVolcalShifterで微修正とかいう感覚やろか
出てきたものを微調整するのが今はちょっと音は敷居が高い感じはあるから、やっぱそこどうにかしたいな
出てきたものを微調整するのが今はちょっと音は敷居が高い感じはあるから、やっぱそこどうにかしたいな
2024/01/06(土) 10:42:15.55ID:xI4/qOQT
>>352
自分は違和感ある単語を置き換えたり句読点を挟んだりしてイントネーション調節してるな
コツを掴めば5分の小説朗読なら30分くらい調教すればほぼ違和感なくなる
どうしても言わせたい単語をどうしても違和感なく言ってくれなかったときは困ったけど…
自分は違和感ある単語を置き換えたり句読点を挟んだりしてイントネーション調節してるな
コツを掴めば5分の小説朗読なら30分くらい調教すればほぼ違和感なくなる
どうしても言わせたい単語をどうしても違和感なく言ってくれなかったときは困ったけど…
2024/01/06(土) 12:32:40.92ID:xw9yupwG
漢字を置き換る
前後を感情語(嬉しい! びっくり!など)で挟む
改行する
とかで欲しいアクセントや情感探しとるな自分は 雑感では
一発で欲しいセリフが出る 20~30%
テキスト微調整の繰り返しででる 60% ってとこやろか
残りはどうしても出んからコマ切れに出力して切り貼りとかしてたが
今後は鉛筆カキカキやな
手間やが現状すでに棒読みのAV嬢よりずっとそそられると思うわ
前後を感情語(嬉しい! びっくり!など)で挟む
改行する
とかで欲しいアクセントや情感探しとるな自分は 雑感では
一発で欲しいセリフが出る 20~30%
テキスト微調整の繰り返しででる 60% ってとこやろか
残りはどうしても出んからコマ切れに出力して切り貼りとかしてたが
今後は鉛筆カキカキやな
手間やが現状すでに棒読みのAV嬢よりずっとそそられると思うわ
355今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/07(日) 00:37:57.48ID:HoAn3gCI Bert-VITS2の音素変換って総当たりの置き換えでやってるのね
中華系のVITSはpyopenjtalk使ってるイメージだったんだがpyopenjtalkそのまま使ってない理由とかあるんだろうか
中華系のVITSはpyopenjtalk使ってるイメージだったんだがpyopenjtalkそのまま使ってない理由とかあるんだろうか
2024/01/07(日) 01:07:07.32ID:legAf/UY
Bert-VITS2は読み取得のところでpyopenjtalk使っとるで、総当たりしとるのはpyopenjtalkで読みを取得してからのところやな
そのまま使っとらん理由は、ちょうどいま自分が突き当たっとる問題なんやけど、pyopenjtalkまんまだと「!」とか三点リーダーが消えたり「。」と「、」の区別がつかなかったりで、
だから(学習データの関係上)記号は記号のままで使いたい、という理由やと思う(既存TTSやと「!」で強調とか効かんから利点はあるな)。
やけど、そこが原因で、昨日の修正でもまだアクセントがおかしくなる場合があることに気づいたから、それをどうにかしようと修正中や……
そのまま使っとらん理由は、ちょうどいま自分が突き当たっとる問題なんやけど、pyopenjtalkまんまだと「!」とか三点リーダーが消えたり「。」と「、」の区別がつかなかったりで、
だから(学習データの関係上)記号は記号のままで使いたい、という理由やと思う(既存TTSやと「!」で強調とか効かんから利点はあるな)。
やけど、そこが原因で、昨日の修正でもまだアクセントがおかしくなる場合があることに気づいたから、それをどうにかしようと修正中や……
2024/01/07(日) 02:39:41.50ID:mUQausRZ
わぁい!わぁい!わぁい!わぁーい!とか同じ文章を読ませると
モデルによっては変な揺らぎでまともに発音しないな
モデルによっては変な揺らぎでまともに発音しないな
2024/01/07(日) 04:41:32.29ID:e3tLo7yU
もうほんとアクセント以外はほぼ完璧な気がするな~
ある意味恐怖
ある意味恐怖
359今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/07(日) 12:58:41.27ID:HoAn3gCI2024/01/07(日) 14:26:45.17ID:legAf/UY
>>341
ちょっと書いたけど、そもそもBert-VITS2のアクセントの取得法がミスってて、この修正でもアクセントがおかしいまま学習・推論されるバグがあったから、
とりあえず修正した(はずの)やつを置いとくで、何度もすまん(「私はそれがいい」→「ワ↑タシ↓ワ ソ↑レ↓ガ イ↓イ」だったのを「ワ↑タシハ ソ↑レガ イ↓イ」に修正)、
https://github.com/litagin02/Style-Bert-VITS2/blob/fix-g2p-again/text/japanese.py
改善はたぶんアクセントだけやから、正直どこまで効果があるかは分からんしまだこれを本流にするかは決めとらん、なかなか評価もしにくい
(あとアルファベットが学習時・推論時に無視されるのも直した)
ちょっと書いたけど、そもそもBert-VITS2のアクセントの取得法がミスってて、この修正でもアクセントがおかしいまま学習・推論されるバグがあったから、
とりあえず修正した(はずの)やつを置いとくで、何度もすまん(「私はそれがいい」→「ワ↑タシ↓ワ ソ↑レ↓ガ イ↓イ」だったのを「ワ↑タシハ ソ↑レガ イ↓イ」に修正)、
https://github.com/litagin02/Style-Bert-VITS2/blob/fix-g2p-again/text/japanese.py
改善はたぶんアクセントだけやから、正直どこまで効果があるかは分からんしまだこれを本流にするかは決めとらん、なかなか評価もしにくい
(あとアルファベットが学習時・推論時に無視されるのも直した)
2024/01/07(日) 16:18:17.33ID:+rXCtWkB
Install-Style-Bert-VITS2-CPU.bat を使わせて頂きました
languageが[EN][ZH]の時は[音声合成]ボタンで音声を生成してくれるのですが
日本語[JP]だとエラーがでてしまいます
プロンプト?には↓のように表示されます。 何か考えられる解決方法はありますのでしょうか。
File "C:Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\pyopenjtalk\__init__.py", line 209, in run_frontend
_global_jtalk = OpenJTalk(dn_mecab=OPEN_JTALK_DICT_DIR)
File "pyopenjtalk\openjtalk.pyx", line 142, in pyopenjtalk.openjtalk.OpenJTalk.__cinit__
RuntimeError: Failed to initalize Mecab
languageが[EN][ZH]の時は[音声合成]ボタンで音声を生成してくれるのですが
日本語[JP]だとエラーがでてしまいます
プロンプト?には↓のように表示されます。 何か考えられる解決方法はありますのでしょうか。
File "C:Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\pyopenjtalk\__init__.py", line 209, in run_frontend
_global_jtalk = OpenJTalk(dn_mecab=OPEN_JTALK_DICT_DIR)
File "pyopenjtalk\openjtalk.pyx", line 142, in pyopenjtalk.openjtalk.OpenJTalk.__cinit__
RuntimeError: Failed to initalize Mecab
2024/01/07(日) 16:19:48.00ID:05LovUN2
当初の修正でヤバげな発音が大体直って
後はアクセントが多少おかしいのがアレぐらいに思っとったんやけど
つまりこれでワイにとっては完全版になるんか
日本語の解釈処理だけでここまで変わるってことは根本はとんでもない代物なんやな
また回し直してみるわ
後はアクセントが多少おかしいのがアレぐらいに思っとったんやけど
つまりこれでワイにとっては完全版になるんか
日本語の解釈処理だけでここまで変わるってことは根本はとんでもない代物なんやな
また回し直してみるわ
363今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/07(日) 22:34:03.11ID:YVXGPhC0 普段お絵描きAIばっか使ってるけど
音声AIが面白いことになってるらしいと聞いて遊びに来たで
文章のみから勝手に感情まで付けて読み上げてくれるってすごいなぁ
ずんだもん喋らせて喜んでたくらいの自分からするとタイムマシンに乗せられたような気分や
Style-Bert-VITS2使わせてもろとるけど導入もめちゃ簡単で感謝やで
音声AIが面白いことになってるらしいと聞いて遊びに来たで
文章のみから勝手に感情まで付けて読み上げてくれるってすごいなぁ
ずんだもん喋らせて喜んでたくらいの自分からするとタイムマシンに乗せられたような気分や
Style-Bert-VITS2使わせてもろとるけど導入もめちゃ簡単で感謝やで
2024/01/08(月) 10:51:10.77ID:AR6gW25V
すげー!ちょっと入れてみよ
2024/01/08(月) 12:31:53.47ID:mWmMbrFN
マルチ投稿っぽくてスマンがStyle-Bert-VITS2を使うアプリを作ってみたんで紹介しとくで
https://twitter.com/Zuntan03/status/1744195658029117523
https://twitter.com/thejimwatkins
https://twitter.com/Zuntan03/status/1744195658029117523
https://twitter.com/thejimwatkins
2024/01/08(月) 13:36:39.72ID:EywVqhGQ
Style-Bert-VITS2は学習も簡単にできるのがいいな
分割とか文字起こしも内蔵してるから適当な音声ファイルぶっこんでやれば学習できる
あとモデルのマージも出来るんで適当な2キャラで学習したあとにマージすれば適度に学習本を特定されにくいレベルになる
ただ感情のスタイル指定がなかなかうまくいかないな
分割とか文字起こしも内蔵してるから適当な音声ファイルぶっこんでやれば学習できる
あとモデルのマージも出来るんで適当な2キャラで学習したあとにマージすれば適度に学習本を特定されにくいレベルになる
ただ感情のスタイル指定がなかなかうまくいかないな
2024/01/08(月) 14:22:34.67ID:e/yufQF+
368今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 15:58:23.67ID:BXZVRFsl Style-Bert-VITS2を使わせてもらってるんですけどスタイルの指定方法の音声ファイルを入力の方がエラーが出て使えないんですけど使うにあたっての条件等があるのでしょうか?
2024/01/08(月) 16:24:34.37ID:do/uuRGs
370今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 17:32:08.79ID:7pM2uyHm Style-Bert-VITS2試しに学習しようとしたらエラーおきたからデータが悪いのかと思いデータセット作成ツールから文字起こし選択するもこっちもエラー
もう分からん…
もう分からん…
2024/01/08(月) 17:33:38.30ID:do/uuRGs
>>370
どんなエラーや?
どんなエラーや?
372今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 18:03:06.02ID:eZy0SDe/ Style-Bert-VITS2もテキストいるのか……
2024/01/08(月) 18:07:03.42ID:Ms5jIVaM
?
そりゃテキストを音声に変換するAIだし当然だろ
ボイチェンならrvc
そりゃテキストを音声に変換するAIだし当然だろ
ボイチェンならrvc
374今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 18:57:06.81ID:eZy0SDe/ Elevenlabsはテキスト必要ない
375今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 19:11:13.79ID:7pM2uyHm2024/01/08(月) 19:16:43.42ID:o82jRM3y
インストールファイルをダブクリしたら黒い窓がててきて途中で止まるわ
2024/01/08(月) 19:20:47.88ID:e/yufQF+
2024/01/08(月) 19:30:38.80ID:do/uuRGs
>>375
学習時の前処理のところで「bfloat16を使う」を外してみたらどうや?
学習時の前処理のところで「bfloat16を使う」を外してみたらどうや?
379今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 19:32:35.54ID:eZy0SDe/2024/01/08(月) 19:45:36.70ID:do/uuRGs
Bert-VITS2は声音だけじゃなく喋り方の癖やら感情表現も学習してくれるのが売りやからな、音声少し与えて喋らせるだけのゼロショットとはちょっと方向性が違う気がするで
(ゼロショット方面やと最近はBert-VITS2開発陣ががんばって作っとるFish Speechとかいうやつがあるからそっち期待やな)
(ゼロショット方面やと最近はBert-VITS2開発陣ががんばって作っとるFish Speechとかいうやつがあるからそっち期待やな)
2024/01/08(月) 19:55:05.99ID:Ms5jIVaM
テキストが要らないって結局良くわからん
学習のときに音声のテキスト起こしが要らないということ?
それはstyleの機能の一つで自動でできるぞ
学習のときに音声のテキスト起こしが要らないということ?
それはstyleの機能の一つで自動でできるぞ
382今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 19:57:16.65ID:eZy0SDe/ あ、そうなの
colabでもできる?
colabでもできる?
2024/01/08(月) 19:58:52.94ID:RQdHYKY9
384今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 20:04:28.19ID:7pM2uyHm >>378
完全に見落としてました…
チェック外して再度行ったところ今度はValueError: need at least one array to concatenateというものに変わったのですがこれも分からないです
完全に見落としてました…
チェック外して再度行ったところ今度はValueError: need at least one array to concatenateというものに変わったのですがこれも分からないです
2024/01/08(月) 20:08:29.36ID:Ms5jIVaM
2024/01/08(月) 20:21:51.25ID:do/uuRGs
2024/01/08(月) 20:46:53.48ID:jickF518
どのライブラリなのか分からないけどStyle-Bert-VITS2の文字起こし精度高いよね
喘ぎ声混じりのエロゲ濡れ場シーンでもかなり正確
喘ぎ声混じりのエロゲ濡れ場シーンでもかなり正確
388今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 21:18:15.45ID:QZW3cV1c389361
2024/01/08(月) 22:24:29.67ID:Cp/qxqUP 自己解決。cドライブ直下でインスコし直しで解決しました。わーい
2024/01/08(月) 22:39:05.92ID:EywVqhGQ
>>388
なんどか名前だけ聞いたことあるけどWhisperだったのか
確かに「ご視聴ありがとうございました。 高評価とチャンネル登録をお願いいたします」って出てるの時々あるな
つべの動画から学習してるんだろうか?
なんどか名前だけ聞いたことあるけどWhisperだったのか
確かに「ご視聴ありがとうございました。 高評価とチャンネル登録をお願いいたします」って出てるの時々あるな
つべの動画から学習してるんだろうか?
391今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/08(月) 23:14:52.80ID:waIebOgY2024/01/09(火) 00:07:37.49ID:VGWgumC1
Whisperはネット動画の音声と字幕から学習しとるんやけど
この字幕データがまあまあ正確に付いとる動画であっても
動画の最後にそれを破って話してもいない「ご視聴ありがとうございましたチャンネル登録高評価よろしくお願いします」が入ってたりすることが多いんや
BGMやらガヤしか入っとらん状況でいきなりそうなるもんやから、同じようによく分からん音声を食わされるとそう誘導される訳や
この字幕データがまあまあ正確に付いとる動画であっても
動画の最後にそれを破って話してもいない「ご視聴ありがとうございましたチャンネル登録高評価よろしくお願いします」が入ってたりすることが多いんや
BGMやらガヤしか入っとらん状況でいきなりそうなるもんやから、同じようによく分からん音声を食わされるとそう誘導される訳や
393今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 00:27:04.69ID:QQwZv1/42024/01/09(火) 00:30:34.79ID:Z1LmPeH/
>>393
変換とは?前処理は成功してる?
変換とは?前処理は成功してる?
395今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 01:03:01.44ID:QQwZv1/42024/01/09(火) 01:06:57.52ID:Z1LmPeH/
>>395
スタイルベクトル作る所で失敗しとる気配がする、エラーの前後がコマンドプロンプトでどうなっとるか教えてほしい
(あとwavsフォルダにwavファイルに対応したnpyって拡張子のファイルたちがあるかどうかも)
スタイルベクトル作る所で失敗しとる気配がする、エラーの前後がコマンドプロンプトでどうなっとるか教えてほしい
(あとwavsフォルダにwavファイルに対応したnpyって拡張子のファイルたちがあるかどうかも)
397今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 01:27:40.41ID:QQwZv1/42024/01/09(火) 01:36:19.79ID:Z1LmPeH/
399今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 01:51:56.44ID:QQwZv1/4 >>398
いつもはmanaって名前のフォルダなんですけど今回testって名前のフォルダにして前処理したらnpyが作られました…謎すぎる…グラボのアプデしたからかな?
それで今学習回してるところですこんな時間までお付き合い頂いてありがとうございました
https://i.imgur.com/D0dT0T2.png
https://i.imgur.com/mlsKhjB.png
いつもはmanaって名前のフォルダなんですけど今回testって名前のフォルダにして前処理したらnpyが作られました…謎すぎる…グラボのアプデしたからかな?
それで今学習回してるところですこんな時間までお付き合い頂いてありがとうございました
https://i.imgur.com/D0dT0T2.png
https://i.imgur.com/mlsKhjB.png
400今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 02:12:51.83ID:QQwZv1/42024/01/09(火) 09:04:13.24ID:QUczHquz
>>399
横からだけど、自分もmanaって名前で作ったモデルあるけどちゃんと生成までいったから名前は関係ないと思う
ただこっちもちょっと失敗しちゃってesd.listに文法ミス(たぶん|の数の不一致)があったみたいなんだけど、そのままesd.listが文法おかしかった
所の手前までで破損しちゃった……
横からだけど、自分もmanaって名前で作ったモデルあるけどちゃんと生成までいったから名前は関係ないと思う
ただこっちもちょっと失敗しちゃってesd.listに文法ミス(たぶん|の数の不一致)があったみたいなんだけど、そのままesd.listが文法おかしかった
所の手前までで破損しちゃった……
2024/01/09(火) 18:49:53.09ID:Z1LmPeH/
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/1.3
Style-Bert-VITS2のバージョン上げたで。日本語処理部分のバグを直したり、アクセント調整機能つけたり(万能ではない)、colabに学習データセット作るやつもつけたりいろいろ。
Style-Bert-VITS2のバージョン上げたで。日本語処理部分のバグを直したり、アクセント調整機能つけたり(万能ではない)、colabに学習データセット作るやつもつけたりいろいろ。
2024/01/09(火) 18:54:36.24ID:0hvO+s0S
>>402
サンガツ!!!
サンガツ!!!
404今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 19:04:20.91ID:02Oz9qXT colabで開くリンクつけて~
2024/01/09(火) 19:08:35.99ID:Z1LmPeH/
>>404
あれREADMEにはつけとるはずやで
あれREADMEにはつけとるはずやで
406今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 19:21:07.70ID:02Oz9qXT 見たらついてたわすまんな
2024/01/09(火) 20:09:34.99ID:QUczHquz
2024/01/09(火) 20:53:50.45ID:BOrj0zth
2024/01/09(火) 20:59:44.90ID:QUczHquz
読めない漢字があると事前学習止まるって見て結構たくさん修正いるかなとおもったけど
人物名とかの難読を除けば「ヶ」と「乃」くらいで殆ど修正しないで済んだ
人物名とかの難読を除けば「ヶ」と「乃」くらいで殆ど修正しないで済んだ
410今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 21:06:02.79ID:02Oz9qXT 分割もしてくれるのね、ありがたい
2024/01/09(火) 21:11:25.32ID:Z1LmPeH/
2024/01/09(火) 21:17:48.23ID:fxqToDiR
javascriptで拾ってもフォーム部品単位だろうしなあ
2024/01/09(火) 21:25:44.09ID:Z8MDomlE
moegoeみたいにC#でフロントエンド作るのも良いかもしれん
414今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 21:33:55.18ID:L5/GFLiJ https://i.imgur.com/xs4ppuN.png
こんな感じでエラー吐いて起動しないんじゃけど何かおかしいんじゃろうか
キャッシュ削除とか再インストールとか色々やってみたんだけど駄目だったので知恵をお借りしたい
こんな感じでエラー吐いて起動しないんじゃけど何かおかしいんじゃろうか
キャッシュ削除とか再インストールとか色々やってみたんだけど駄目だったので知恵をお借りしたい
2024/01/09(火) 21:34:01.45ID:Z1LmPeH/
RVCのほうで、事前学習モデルをこれに置き換えるとよいかもという噂があるらしい(AI HUBの人たちが事前学習モデルを改良したらしい?)
https://huggingface.co/ORVC/Ov2Super/tree/main
https://huggingface.co/ORVC/Ov2Super/tree/main
2024/01/09(火) 21:36:37.83ID:Z1LmPeH/
417今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 21:55:25.99ID:L5/GFLiJ2024/01/09(火) 22:17:08.50ID:Z1LmPeH/
419今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/09(火) 22:23:21.93ID:L5/GFLiJ2024/01/09(火) 22:34:21.03ID:Z1LmPeH/
2024/01/09(火) 22:42:02.46ID:QUczHquz
import中にモジュールがzipダウンロードするのが失敗してるとかかな?
ファイアウォールが通信をブロックしてないかとか、proxy経由する必要があるとか、そんな感じ?
ファイアウォールが通信をブロックしてないかとか、proxy経由する必要があるとか、そんな感じ?
2024/01/10(水) 00:47:08.20ID:FrDCwiwR
>>419
BadZipFile…
BadZipFile…
423今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 08:54:42.55ID:4y6ys5U/ やってみたけどすげえー
https://files.catbox.moe/bc6oj6.wav
https://files.catbox.moe/bc6oj6.wav
2024/01/10(水) 11:47:36.46ID:tMQlgLCv
Style-Bert-VITS2の1.3はスタイルの設定もかなり良くなってるね
いままであまり区別出来てなかった通常の会話とエロ声がちゃんと分別できるようになった
いままであまり区別出来てなかった通常の会話とエロ声がちゃんと分別できるようになった
425今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 12:06:44.11ID:4y6ys5U/ colabでは生成できないの
2024/01/10(水) 12:25:51.53ID:7Nv1N++M
音声合成WebUI立ち上げるやつは一応一番下に載せとるはずやで
2024/01/10(水) 13:26:04.81ID:DInNoojP
「ずんだもん読み上げに感情を与える」ページを見ながらマージに挑戦中なんだけど、教えていただきたいことが…
「デフォルトのjvnv-F1」と「デフォルトのjvnv-F2」のマージはmodel_assetsフォルダを弄ることなくMerge.batから成功
しかし「Zuntanさんの10kステップ(v2.1とv2.3両方DL)」とのマージのやり方がわからない(自分なりにやったらモデルファイルのマージボタンでError吐いた)
まず基本的なフォルダ構造からわからんです
「mergeフォルダを作って〜」というのはmodel_assetsフォルダ内に作るって事なんだろうか?
「そこに2つのモデルを入れて」というのはどこのフォルダの何を入れるんでしょう?
「片方のモデルのconfig.jsonも入れて」というのはmergeフォルダ直下に放り込むんでしょうか?
わからん もう・・・なにもかもが・・・
「デフォルトのjvnv-F1」と「デフォルトのjvnv-F2」のマージはmodel_assetsフォルダを弄ることなくMerge.batから成功
しかし「Zuntanさんの10kステップ(v2.1とv2.3両方DL)」とのマージのやり方がわからない(自分なりにやったらモデルファイルのマージボタンでError吐いた)
まず基本的なフォルダ構造からわからんです
「mergeフォルダを作って〜」というのはmodel_assetsフォルダ内に作るって事なんだろうか?
「そこに2つのモデルを入れて」というのはどこのフォルダの何を入れるんでしょう?
「片方のモデルのconfig.jsonも入れて」というのはmergeフォルダ直下に放り込むんでしょうか?
わからん もう・・・なにもかもが・・・
2024/01/10(水) 13:33:49.75ID:7Nv1N++M
>>427
その記事はBert-VITS2本家のやつやからStyle-Bert-VITS2の情報とは違うで(mergeフォルダを作ってconfig.json入れてとかそこらへんは本家でsimple_merge.pyを使う場合の話や)
Style-Bert-VITS2ならMerge.batからやるだけや、デフォルトのjvnvモデルのマージに成功してるんならそのやりかたでええで。
あとたぶんZuntanさんの10kステップのやつはBert-VITS2本家のやつやからStyle-Bert-VITS2では使えんで
その記事はBert-VITS2本家のやつやからStyle-Bert-VITS2の情報とは違うで(mergeフォルダを作ってconfig.json入れてとかそこらへんは本家でsimple_merge.pyを使う場合の話や)
Style-Bert-VITS2ならMerge.batからやるだけや、デフォルトのjvnvモデルのマージに成功してるんならそのやりかたでええで。
あとたぶんZuntanさんの10kステップのやつはBert-VITS2本家のやつやからStyle-Bert-VITS2では使えんで
2024/01/10(水) 13:44:46.41ID:DInNoojP
あー、本家情報と分家情報の段階からの勘違いだったかー、これは酷い
お手数おかけしました
お手数おかけしました
2024/01/10(水) 13:46:12.73ID:WWohrpx2
たしかに紛らわしいなw
431今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 13:55:40.12ID:4y6ys5U/ Dataフォルダ内の自動削除もつけてほしいなー
2024/01/10(水) 14:45:44.67ID:tMQlgLCv
Dataは残したままの方が良くない?
Inputの方は移動後は消しちゃって良さそうな気がするけど
Inputの方は移動後は消しちゃって良さそうな気がするけど
433今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 14:47:47.95ID:4y6ys5U/ ドライブの容量食う
2024/01/10(水) 15:02:25.55ID:7Nv1N++M
追加で学習したりスタイル分けを作ったりに後からも必要やから自動削除機能は付ける予定はないで
colabでGoogle driveやったら自分でもういらんやつは消してくれ
colabでGoogle driveやったら自分でもういらんやつは消してくれ
435今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 15:17:49.23ID:4y6ys5U/ スタイルってどこで保存できるの
2024/01/10(水) 15:45:19.70ID:xQ6+pCiw
説明書読んどらんのがよく分かるな
437今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 15:52:38.60ID:4y6ys5U/ python webui_style_vectors.pyが起動できない
2024/01/10(水) 17:11:36.36ID:7Nv1N++M
colabやったら最初に「!」つけるんやなかったっけ
と思ったけど、webui_style_vectors.pyはcolab今は対応しとらんかった、すまんな
スタイル作りはグラボ全く使わんからとりあえずローカルでやってくれ
(colabでgradio立ち上げるのがどうか問題もあるしな)
と思ったけど、webui_style_vectors.pyはcolab今は対応しとらんかった、すまんな
スタイル作りはグラボ全く使わんからとりあえずローカルでやってくれ
(colabでgradio立ち上げるのがどうか問題もあるしな)
439今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 17:15:47.74ID:4y6ys5U/ ありがとう
440今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 17:44:46.09ID:4y6ys5U/ インストールしたらNo module named 'gradio'ってエラーが出る
2024/01/10(水) 17:51:24.57ID:7Nv1N++M
>>440
仮想環境からちゃんと立ち上げてる?よく分からんのやったらStyle.batダブルクリックでいいはず
仮想環境からちゃんと立ち上げてる?よく分からんのやったらStyle.batダブルクリックでいいはず
442今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 17:54:12.97ID:4y6ys5U/ USBメモリにはインストールできんのか……
443今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 18:04:49.07ID:w0N3T4aC pythonの仮想環境って外部ストレージは基本的に無理では?
444今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 18:07:43.21ID:4y6ys5U/ やっぱcolabでやるしかないか……
2024/01/10(水) 18:28:52.43ID:tMQlgLCv
3060で自動分割後1100個程の音声を学習するのに7時間ほどかかっけど
Colabの無料とかでそんなに長時間接続出来るんだろうか? 最近Colabで遊んでないから分からないや……
Colabの無料とかでそんなに長時間接続出来るんだろうか? 最近Colabで遊んでないから分からないや……
2024/01/10(水) 18:29:56.83ID:cABMXkYp
なんでUSBメモリにインストールしてんねんw
447今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 18:34:21.46ID:G52r3o8T USBメモリwwwwうぇwwww
2024/01/10(水) 18:37:29.76ID:cn1gnr8G
449今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 18:38:37.03ID:7Svn4Q/8 >>423
ワイの主治医の中国人の先生に似てる
ワイの主治医の中国人の先生に似てる
450今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 18:45:31.17ID:w0N3T4aC >>445
時間からして30000ステップ以上回してそうだけど10000ステップ回せば十分な出来になるで
時間からして30000ステップ以上回してそうだけど10000ステップ回せば十分な出来になるで
451今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 19:09:23.21ID:4y6ys5U/ 「書き起こしファイルの前処理に失敗しました」と出た
2024/01/10(水) 19:09:28.06ID:tMQlgLCv
>>450
ステップ数では確認してないけどデフォルトに従って100エポックまで回してみたかたち
雑に確認したときは60エポックくらいのが一番良かった気がしてるけど
画像と違ってどこが一番いいって分かりにくいね
ステップ数では確認してないけどデフォルトに従って100エポックまで回してみたかたち
雑に確認したときは60エポックくらいのが一番良かった気がしてるけど
画像と違ってどこが一番いいって分かりにくいね
2024/01/10(水) 19:16:47.80ID:7Nv1N++M
RVCも似たような感じやけど、音声はどれがいいかとか一目で分からんから選別が沼なんよな……
100エポックで良い気もしたけど自分のデータだと300くらい回したほうが質が上がる気配もあるし分からん
100エポックで良い気もしたけど自分のデータだと300くらい回したほうが質が上がる気配もあるし分からん
454今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 19:22:19.18ID:w0N3T4aC ID:4y6ys5U/くんおねだりしたりやたら質問したり何か失敗してもエラーメッセージの類を一切はらんあたりマジで無知やな
>>452
確かに画像ほど明確な変化がないからどこまで回せばいいかよくわからんわ
>>452
確かに画像ほど明確な変化がないからどこまで回せばいいかよくわからんわ
455今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 19:31:41.56ID:4y6ys5U/456今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 19:34:12.41ID:w0N3T4aC >>455
漢字の変換に失敗してるから摘木をカタカナに変えろ
漢字の変換に失敗してるから摘木をカタカナに変えろ
457今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/10(水) 19:37:50.59ID:4y6ys5U/ 何度もありがとうございます
colabだとダウンロードして開かなきゃいけないのめんどいね
colabだとダウンロードして開かなきゃいけないのめんどいね
2024/01/10(水) 19:42:32.22ID:cABMXkYp
>>455
まぁ気にすんな
まぁ気にすんな
2024/01/10(水) 19:49:19.74ID:qr1yX9Na
東北訛りも話者がちゃんとしてればかなり忠実に再現してくれて感動したわ
2024/01/10(水) 19:49:39.01ID:YumpvakQ
chatGPTに聞けば大抵のエラーは解決できるよ
2024/01/10(水) 23:50:44.70ID:mIYEJ8B8
Style-Bert-VITS2のtrain.batで学習させる場合って10秒程度のWAVなんぼくらいあったらちゃんとしたの出来るんか?
4つじゃ全くダメで、同じのコピーして水増ししても意味なかったんやけど
4つじゃ全くダメで、同じのコピーして水増ししても意味なかったんやけど
2024/01/11(木) 00:45:59.35ID:iTBTqLA7
463今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/11(木) 04:00:20.29ID:Zvz0VIQ6 Style-Bert-VITS2の書き起こしファイルの前処理でエラー吐くとesd.listぶっ壊されるな…
2024/01/11(木) 09:22:10.61ID:wrdExYFT
2024/01/11(木) 09:41:04.96ID:V1LFvSkt
2024/01/11(木) 10:44:56.40ID:YvaFHFsX
2024/01/11(木) 11:08:55.33ID:YvaFHFsX
RVCと同じく合計時間は5分-1時間くらいがええんかなあって気がする、知らんけど
468今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/11(木) 12:04:35.93ID:gk6c96KK 素材が少ない場合は似た声を一緒に学習させてスタイル生成でゴリ押すのも可能?
2024/01/11(木) 13:41:18.07ID:dEBhSpQU
ノウハウがあんま無いから実験してみて結果を教えてくれや
470今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/11(木) 14:46:51.30ID:gk6c96KK 学習途中でスタイルを生成して置き換えて再度最後まで学習したらスタイルがNeutralだけになった
2024/01/11(木) 15:30:52.49ID:dEBhSpQU
>>470
すまんそれは認識しとるんやけどまだあんま取り込んどらんかった
train_ms.pyを実行する所で--skip_default_styleをとりあえずつけてくれたらNeutralスタイルの生成がスキップされるからそうしてくれ、そのうちWebUI側でもそれを指定できるようにするわ
すまんそれは認識しとるんやけどまだあんま取り込んどらんかった
train_ms.pyを実行する所で--skip_default_styleをとりあえずつけてくれたらNeutralスタイルの生成がスキップされるからそうしてくれ、そのうちWebUI側でもそれを指定できるようにするわ
472今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/11(木) 16:06:18.17ID:gk6c96KK 学習終了してから生成するしかないってことかな
2024/01/11(木) 16:09:55.85ID:dEBhSpQU
スタイルが生成されるのは学習の最初だから、学習途中に作っても問題はないはずやで、上書きされるのは学習を途中から再開とかで新しく初めた時
474今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/11(木) 16:14:47.37ID:gk6c96KK そういうことね
2024/01/11(木) 16:45:05.54ID:wrdExYFT
そういえば前にうっかり学習途中で止めちゃって、また最初からやり直しかなと思ったら
普通に中断した所から再開できて助かった
普通に中断した所から再開できて助かった
2024/01/11(木) 18:31:21.41ID:eYRps24Y
学習終わって確認してみたらガビガビモデル出来てたからなんで?と思ったけどDataにmodelフォルダあるとベースモデルコピーされないのね
2024/01/11(木) 19:02:03.37ID:dEBhSpQU
今はmodelsフォルダあっても上書きで事前学習モデルがコピーされるはずやけどな……なんでやろ
2024/01/11(木) 19:51:42.08ID:4M9bZLAS
ま?と思ってもう一回やってみたけどやっぱりコピーされないみたいや
|WARNING | webui_train.py:69 | Step 1: Data\test\models already exists.
まぁコピーしてmodelsフォルダだけ残すなんて変なことしなきゃええだけなんやがな
|WARNING | webui_train.py:69 | Step 1: Data\test\models already exists.
まぁコピーしてmodelsフォルダだけ残すなんて変なことしなきゃええだけなんやがな
2024/01/11(木) 20:09:58.03ID:dEBhSpQU
>>478
すまん勘違いやった、コピーされるようにしたつもりやったわ、そのうち修正する
すまん勘違いやった、コピーされるようにしたつもりやったわ、そのうち修正する
2024/01/11(木) 22:47:30.33ID:pmx+5Klu
ワイ グラボないのでCPU版で生成して楽しませてもらっていたが
遂にcolabでの学習・生成に成功。好きな声だと破壊力が段違い、
しかもグラボ経由(?だと長文でもめっちゃ生成早くて感動
製作者様ありがとう。
遂にcolabでの学習・生成に成功。好きな声だと破壊力が段違い、
しかもグラボ経由(?だと長文でもめっちゃ生成早くて感動
製作者様ありがとう。
481今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/12(金) 02:24:04.00ID:7lfL+Rbk Aivis Datasetのことなのですが01-Sourcesに音声データをセットして、1-CreateSegments.batを実行すると画像のようにエラーが出てしまうのですが、原因が分からず何か解決方法等はありますでしょうか?https://i.imgur.com/6TB0CgQ.jpg
2024/01/12(金) 09:06:26.51ID:aJa8GldG
>>481
なんかのファイルが見つからんことしか分からんな、もっと上の方からエラーログを送ってくれ
なんかのファイルが見つからんことしか分からんな、もっと上の方からエラーログを送ってくれ
483今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/12(金) 11:04:30.21ID:OFhKQ2an2024/01/12(金) 12:07:09.27ID:SmSXDCQq
ffmpegが入ってない予感
2024/01/12(金) 12:28:42.47ID:tDjYqEI8
ffmpeg入れればよさそう
2024/01/12(金) 15:31:48.11ID:dZyVyvKH
学習のesd.listって学習用の音声データを全部文字で打たなきゃいけないのか
数百個とかあると結構大変だな…
数百個とかあると結構大変だな…
2024/01/12(金) 15:36:14.43ID:JNT2MKtk
自動文字起こしツールも同梱されてるからそれ使え定期
2024/01/12(金) 15:38:56.67ID:tDjYqEI8
全部手打ちしてるやつたぶんおらんやろ、たいてい自動文字起こしか元々書き起こしが存在するコーパスか
489今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/12(金) 15:45:18.61ID:pQK+e0xH Style-Bert-VITS2のバージョン戻す方法ってないですか?
2024/01/12(金) 15:46:29.60ID:JNT2MKtk
思うに、公式の使い方の説明の順番はslice、transcribe、学習にするか、またはそれらひとまとめで学習としたほうがいいのでは
2024/01/12(金) 16:15:47.72ID:tDjYqEI8
2024/01/12(金) 16:29:54.82ID:pQK+e0xH
>>491
気のせいかもしんないけど自環境だと発音バグ修正前の方が自然な抑揚だった気がして
気のせいかもしんないけど自環境だと発音バグ修正前の方が自然な抑揚だった気がして
493今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/12(金) 16:43:07.67ID:vUf36eJX モデルを選ぶメニューは作った順番になるのね
アルファベット順にでけへんの
アルファベット順にでけへんの
2024/01/12(金) 16:44:34.92ID:igx1ZwRA
自動書き起こしツール優秀だけど
突然「ご清聴ありがとうございました。チャンネル登録お願いします」が入ってくる時があるから生成後のチェックは必要だけどね
突然「ご清聴ありがとうございました。チャンネル登録お願いします」が入ってくる時があるから生成後のチェックは必要だけどね
2024/01/12(金) 16:44:57.60ID:tDjYqEI8
>>492
事前学習モデルがバグありで学習されとる関係で、学習データ量が少ない場合はそうなるかもしれないとは思ってた、すまんな
発音・アクセントは2回修正してて(1回目は「微力→ビリヨク」等の発音バグ、2回目はアクセントそもそものより広範囲のバグ)
1回目修正時点でのものは
https://github.com/fishaudio/Bert-VITS2/blob/master/text/japanese.py
から、1回目も戻すんやったら、
https://github.com/fishaudio/Bert-VITS2/blob/e173aa85eed867ab7f17875d00121abb58eb574f/text/japanese.py
あたりからjapanese.pyを取ってきて置き換えれば前バージョンの挙動に戻る
1回目の修正は個人的にはそんな悪影響はないって気がするけど分からん
事前学習モデルがバグありで学習されとる関係で、学習データ量が少ない場合はそうなるかもしれないとは思ってた、すまんな
発音・アクセントは2回修正してて(1回目は「微力→ビリヨク」等の発音バグ、2回目はアクセントそもそものより広範囲のバグ)
1回目修正時点でのものは
https://github.com/fishaudio/Bert-VITS2/blob/master/text/japanese.py
から、1回目も戻すんやったら、
https://github.com/fishaudio/Bert-VITS2/blob/e173aa85eed867ab7f17875d00121abb58eb574f/text/japanese.py
あたりからjapanese.pyを取ってきて置き換えれば前バージョンの挙動に戻る
1回目の修正は個人的にはそんな悪影響はないって気がするけど分からん
2024/01/12(金) 16:51:38.00ID:tDjYqEI8
>>495
と思ったけどすまん、アクセント調整機能を追加しているやつが悪さする気するから、1.3verでそこだけ置き換えるだけじゃ動かん気がしてきた
適当なコミットの所でgit checkoutしてくれ……
と思ったけどすまん、アクセント調整機能を追加しているやつが悪さする気するから、1.3verでそこだけ置き換えるだけじゃ動かん気がしてきた
適当なコミットの所でgit checkoutしてくれ……
2024/01/12(金) 21:11:54.79ID:zkxeojaL
俺はちなみに新Verでめっちゃアクセント良くなったでほんまサンガツ
2024/01/12(金) 21:13:55.68ID:zkxeojaL
この辺は2.x系の話もやけど、書き起こしの書き方とか、性能とかで一長一短なとこも実はあったりなんかもな
ちなみに
10秒程度の会話を230ファイル
バッチ8で200エポック回してる
ちなみに
10秒程度の会話を230ファイル
バッチ8で200エポック回してる
2024/01/12(金) 21:16:03.92ID:zkxeojaL
すまんあと追加なんだけど自動書き起こしだと最後に全部 。 がついてるからなおしたり!とか?とか…を場合に合わせて書き換えてるがこれも意味あるんやろか
2024/01/12(金) 21:54:13.28ID:tDjYqEI8
「。」「!」「?」は全部別音素扱いやからちゃんと意味はあると思うで。「!」で強調された感じにとか明確にあるしな。
501今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/12(金) 23:58:53.94ID:7lfL+Rbk2024/01/13(土) 09:00:49.67ID:ykIXHKWU
2024/01/13(土) 09:21:06.77ID:+c4XcjFk
その辺の判断はAIガチャの良し悪しもあって難しいよね
まあボカロとかでも「旧バージョンの方が”らしい”」ってことで使い続ける人が居るし、もっと広い括りだと「ハイレゾ音源よりも通常音源のほうが好き」って場合もある
人間の聴覚って視覚よりも相当に不安定、だからこそ同じ生成AIでも使い手に依存するところが大きくて楽しい
まあボカロとかでも「旧バージョンの方が”らしい”」ってことで使い続ける人が居るし、もっと広い括りだと「ハイレゾ音源よりも通常音源のほうが好き」って場合もある
人間の聴覚って視覚よりも相当に不安定、だからこそ同じ生成AIでも使い手に依存するところが大きくて楽しい
2024/01/13(土) 09:40:39.67ID:AumHJiQI
触ってみたけど吐息や叫び声とかの変換が素晴らしいな
あとはVOICEVOXみたいにアクセントや音の長さをスライダーで細かく指定できたら最高なんやけど
あとはVOICEVOXみたいにアクセントや音の長さをスライダーで細かく指定できたら最高なんやけど
2024/01/13(土) 11:37:04.47ID:17umePfJ
1.2で学習させたモデルだとアクセントがバグったアクセントで正しいアクセントが読み上げられるようになっとるから、1.3でそのまま使うと違和感があったり、とかはありそうやな
なかなかデータや耳にも寄りそうだし判断が難しいところや
なかなかデータや耳にも寄りそうだし判断が難しいところや
2024/01/13(土) 15:10:56.00ID:8dM8n3QR
bertvits2 で音声からの文字起こしでエラーでる場合と出ないときとあるんだが
エラーでるのは何が悪いんでしょうか?
わかる方います?
エラーでるのは何が悪いんでしょうか?
わかる方います?
2024/01/13(土) 15:22:07.91ID:3p69mjij
エラーが出たってときはそのエラーのログを貼ろう
2024/01/13(土) 15:46:22.57ID:3p69mjij
しかしエロゲの音声吸わせようと昔のエロゲを読み込もうとするとPCから光学ドライブなくしたことに気付く
2024/01/13(土) 16:14:05.42ID:oiKwX7Dz
自分も最近文字起こしでエラー出る事があるな
ファイルはちゃんと作られてるので困ってないけど
ERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data\modelname\raw --output_file Data\modelname\esd.list --speaker_name modelname --model large-v3 --compute_type bfloat16 --device cuda --language ja --initial_prompt "こんにちは。元気、ですかー?私は……ふふっ、ちゃんと元気だよ!"
ファイルはちゃんと作られてるので困ってないけど
ERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data\modelname\raw --output_file Data\modelname\esd.list --speaker_name modelname --model large-v3 --compute_type bfloat16 --device cuda --language ja --initial_prompt "こんにちは。元気、ですかー?私は……ふふっ、ちゃんと元気だよ!"
2024/01/13(土) 16:36:28.11ID:17umePfJ
その文字起こしのエラーは原因がよう分からんけど無視していいはずや……なんで出るんやろ
2024/01/13(土) 17:00:19.77ID:8dM8n3QR
>>510
無視してよかったのか、助かります、ありがとうございました。
無視してよかったのか、助かります、ありがとうございました。
2024/01/13(土) 18:34:41.51ID:1psfLtT6
transcribe.pyが吐いてるなら、翻訳機能が入ってて日本語→日本語なんてできないとか?
2024/01/13(土) 18:48:47.43ID:17umePfJ
https://huggingface.co/litagin/Style-Bert-VITS2-1.3.1-base
Style-Bert-VITS2の1.3でのアクセントバグ修正から追加で日本語多話者学習して事前学習モデル作ってみたで
pretrainedをこれと置き換えると使える
どれほどよくなっとるかは正直分からんけど1つ回した感じは悪くなってなくて自然性が増してアクセント制御もよくなってる、ような気がした
(Speech MOSでの自然性評価はとりあえず明確によくなってた)
よければ使ってみるといいかもしらん、どっちがよかったかとか教えてくれると助かる
Style-Bert-VITS2の1.3でのアクセントバグ修正から追加で日本語多話者学習して事前学習モデル作ってみたで
pretrainedをこれと置き換えると使える
どれほどよくなっとるかは正直分からんけど1つ回した感じは悪くなってなくて自然性が増してアクセント制御もよくなってる、ような気がした
(Speech MOSでの自然性評価はとりあえず明確によくなってた)
よければ使ってみるといいかもしらん、どっちがよかったかとか教えてくれると助かる
2024/01/13(土) 19:01:46.65ID:17umePfJ
>>513
連投すまん、感情表現が露骨に下手になってそうやったから非公開にしたわ……
スタイル埋め込みは学習させんままのほうがよかったかもしらんな、また試してみていい感じの事前学習モデルできたら共有する
連投すまん、感情表現が露骨に下手になってそうやったから非公開にしたわ……
スタイル埋め込みは学習させんままのほうがよかったかもしらんな、また試してみていい感じの事前学習モデルできたら共有する
2024/01/13(土) 20:31:26.92ID:VJ/ndl8C
研究おつやで
最近触り始めた身からしたらまだ良くする余地があることにビビるわ
最近触り始めた身からしたらまだ良くする余地があることにビビるわ
2024/01/13(土) 20:32:58.08ID:iErln0fb
やっぱ初期モデルというか日本語コーパスをマージしたほうが無難って感じですかね
2024/01/13(土) 20:38:05.25ID:17umePfJ
初期のjvnvモデルも1.3以前に学習されとるからアクセントがおかしいのが目立つ気するんよな、といいつつなかなか自分では使わんから学習し直す気にならん
2024/01/13(土) 20:56:15.10ID:QVFGRziX
私はボイスチェンジャーで自分の歌声を女声に変えたくてこのスレを見てるのですが、ここは色んな声で喋らせるスレなのでしょうか?
2024/01/13(土) 20:58:22.50ID:iErln0fb
互換性があればワイもRVCやりたいと思ってるんやけどなぁ…
2024/01/13(土) 21:05:42.65ID:17umePfJ
https://github.com/IAHispano/Applio-Installer/releases/tag/5.3.5
試しとらんけどRVCはもうAI HUB勢力が本家とは独自に色々改良したり別プロジェクト立ち上げたりしてるっぽいから、
最近だとApplioを使うのがいいらしい?
事前学習モデルも新しいやつ>>415 があるっぽいしな。
プラセボやらもありそうだし音声は評価ほんと難しいから分からんが……あといまさら作ってきたモデルを全部学習し直す気にもならんが……
試しとらんけどRVCはもうAI HUB勢力が本家とは独自に色々改良したり別プロジェクト立ち上げたりしてるっぽいから、
最近だとApplioを使うのがいいらしい?
事前学習モデルも新しいやつ>>415 があるっぽいしな。
プラセボやらもありそうだし音声は評価ほんと難しいから分からんが……あといまさら作ってきたモデルを全部学習し直す気にもならんが……
2024/01/13(土) 21:06:53.49ID:y5J3q/Td
RVC学習V3がくれば話題が再燃するぞ多分
2024/01/13(土) 23:01:13.90ID:0s69Xze1
ボイチェンは質の面ではRVCやSoVITSで完成されてたイメージがあるからなぁ
523今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 00:52:19.41ID:hYJsSNbH ユーザー名漢字にするんやなかった…
やっと引っ越し終わった
やっと引っ越し終わった
2024/01/14(日) 08:33:13.39ID:aYpnU11o
https://huggingface.co/litagin/Style-Bert-VITS2-1.3-test/tree/main
Style-Bert-VITS2の1.3で正しいアクセントで追加学習(ただしbertは学習させず)をやってみた事前学習モデル作ったから、
暇な人がいたら置き換えて試してみてくれ
しばらく出先やから自分で学習はまだチェックしとらん
Style-Bert-VITS2の1.3で正しいアクセントで追加学習(ただしbertは学習させず)をやってみた事前学習モデル作ったから、
暇な人がいたら置き換えて試してみてくれ
しばらく出先やから自分で学習はまだチェックしとらん
525今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 10:09:59.87ID:yNAkvOXf なんでColab君グラボ使ってないとブチギレてくるんや
526今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 12:54:50.11ID:yNAkvOXf2024/01/14(日) 14:52:46.04ID:qaRvbrq3
別に下にいくらでも伸びても選べるしええやろ
gradioやらブラウザの仕様やから我慢するか、解決方法をプルリクで送ってくれ
gradioやらブラウザの仕様やから我慢するか、解決方法をプルリクで送ってくれ
528今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 14:55:06.11ID:yNAkvOXf RVCはちゃんとスクロールバーあるのに
2024/01/14(日) 16:17:52.61ID:d6RNtXJi
Style-Bert-VITS2 v1.3
すみません、下記のように追加モデル配置してもモデルロードでエラーが出ますが何が原因でしょうか
model_assets
├── Hilja
│ ├── Hilja_e300_s26480.safetensors
│ ├── model_assets_Hilja_config.json
│ ├── style_vectors.npy
│ ├──
│ └──
すみません、下記のように追加モデル配置してもモデルロードでエラーが出ますが何が原因でしょうか
model_assets
├── Hilja
│ ├── Hilja_e300_s26480.safetensors
│ ├── model_assets_Hilja_config.json
│ ├── style_vectors.npy
│ ├──
│ └──
2024/01/14(日) 16:20:40.23ID:NUeyVxTp
コンフィグファイルの名前
ただのconfig.JSONにすれば解決すると思う
ただのconfig.JSONにすれば解決すると思う
2024/01/14(日) 16:21:11.10ID:NUeyVxTp
大文字はミスですはい、スマホからなんで
2024/01/14(日) 16:31:50.86ID:IFMBozEN
2024/01/14(日) 16:32:53.42ID:d6RNtXJi
>>530
できました!感謝します、ありがとうございました
できました!感謝します、ありがとうございました
2024/01/14(日) 16:34:11.79ID:d6RNtXJi
>>532 さんもありがとう
535今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 19:49:08.24ID:yNAkvOXf すまん、14人超えたらスクロールバー出てきたわ
早とちりしてしまった
早とちりしてしまった
2024/01/14(日) 19:54:41.10ID:lsRqDmzj
>>535
こやつめ(*゚∀゚)σ)∀`)プニ
こやつめ(*゚∀゚)σ)∀`)プニ
537今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/14(日) 21:26:22.61ID:yNAkvOXf 特定の話者だけ抽出してくれるやつってないのんか
2024/01/14(日) 22:05:15.48ID:tJl5dGaP
Style-Bert-VITS2 v1.3、エロ朗読させて遊んでたけど、エロテキストにありがちな「んあ」みたいなn+母音を音素変換するときにエラー出るね。どう変換するねんて話はあるけど
File "japanese.py", line 239, in phone_tone2kata_tone
tone == next_tone
AssertionError: Unexpected n tone 1 != 0
File "japanese.py", line 239, in phone_tone2kata_tone
tone == next_tone
AssertionError: Unexpected n tone 1 != 0
2024/01/14(日) 22:21:14.04ID:4qDRxjL2
声門破裂子音の鼻音化したアかね
2024/01/14(日) 23:07:10.93ID:4t3y/2J4
>>524
条件一緒で事前学習モデルだけ前のやつ(before)とこのレスのやつ(after)でが17000ステップほど学習させて
Neutralでサンプルの文章を再生させた
https://96.gigafile.nu/0117-dec08f13cad4dcb06d3b842f6220d9c47
若干自然になった気がするけど……こころなしか元気がなくなった気がする
条件一緒で事前学習モデルだけ前のやつ(before)とこのレスのやつ(after)でが17000ステップほど学習させて
Neutralでサンプルの文章を再生させた
https://96.gigafile.nu/0117-dec08f13cad4dcb06d3b842f6220d9c47
若干自然になった気がするけど……こころなしか元気がなくなった気がする
2024/01/14(日) 23:36:03.37ID:4t3y/2J4
私を「わたくし」と発音するキャラを学習させたら
2024/01/14(日) 23:36:50.13ID:4t3y/2J4
まちがえて途中で書き込んじゃった
私を「わたくし」と発音するキャラを学習させたら、ちゃんと「わたくし」って発音するように学習してくれて
ちょっと感動した「
私を「わたくし」と発音するキャラを学習させたら、ちゃんと「わたくし」って発音するように学習してくれて
ちょっと感動した「
2024/01/15(月) 00:08:06.77ID:gcBqcSge
学習を「わたし」でしてるならあんまりよくない気がするぞそれ
2024/01/15(月) 00:38:29.03ID:y1ToKj7U
>>543
end.list上はすべて「私」のままだから、まあよくはないんだろうね
「タ」の発音か「シ」の発音のどっちかに「ク」が混じって覚えちゃってるんだろうなあ……
「私」を「わたくし」に一括置換して学習捺せ直したほうがいいんだと思うけど、それはそれとしてこのモデルはこのモデルで保存しておこう
end.list上はすべて「私」のままだから、まあよくはないんだろうね
「タ」の発音か「シ」の発音のどっちかに「ク」が混じって覚えちゃってるんだろうなあ……
「私」を「わたくし」に一括置換して学習捺せ直したほうがいいんだと思うけど、それはそれとしてこのモデルはこのモデルで保存しておこう
2024/01/15(月) 08:13:19.04ID:ZY2hWReX
割と賢いから、「わたし」という並びのときのみにワタクシって発音する気するで
私を「あたし」読みするモデルいくつかあるけど不便なとこはそんなない
私を「あたし」読みするモデルいくつかあるけど不便なとこはそんなない
546今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/15(月) 09:53:27.70ID:OIJ8h3EI2024/01/15(月) 10:04:33.87ID:ZY2hWReX
發音の「ん」は普通は大文字N表記の音素で子音のnとは区別するんやけど、そこがBert-VITS2やと区別しとらんからアレになってるぽいな……
エラー出ること多そうやから対策考えんと……すまんな
エラー出ること多そうやから対策考えんと……すまんな
2024/01/15(月) 15:44:29.40ID:mVY6anby
2024/01/15(月) 16:22:15.01ID:AdYo75ds
話者はスタイルで分けられるよ
学習前に分けてそれぞれ学習させたほうがいいんだろうけど、面倒だから学習後にスタイルとして分けて使ってる
学習前に分けてそれぞれ学習させたほうがいいんだろうけど、面倒だから学習後にスタイルとして分けて使ってる
2024/01/15(月) 16:56:41.38ID:ZY2hWReX
スタイル理由のやつはもともと話者識別用のやつやからそれ改造すれば使えるで(そもそもスタイル理由画面はワイが特定話者取り出すのに使っとった画面や)
>>549
やったことないから聞きたいんやけど、複数話者学習でも(書き起こしの話者名分けずに)スタイル分けでちゃんと別話者として使える?混じらん?
>>549
やったことないから聞きたいんやけど、複数話者学習でも(書き起こしの話者名分けずに)スタイル分けでちゃんと別話者として使える?混じらん?
2024/01/15(月) 16:57:32.07ID:ZY2hWReX
スタイル理由→スタイル分け
552今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/15(月) 17:05:10.25ID:OIJ8h3EI colabでもスタイル分けさせて欲しいな
いちいち10GBもインストールするのめんどいんじゃい
いちいち10GBもインストールするのめんどいんじゃい
2024/01/15(月) 17:25:45.62ID:ZY2hWReX
python webui_style_vectors.pyをやれ
2024/01/15(月) 17:38:36.80ID:avZ9YzH0
>>415
のOv2SuperとRVCApplioつこうてみたけど、確実に音質が上がるな
ベンチマーク用のゆっくり音声なんかのカバー率が高くなってる(ざらざら感が減る)のと
発音できる音が増えてる感じや、48Kバージョンが来れば48kがだいぶ使えるようになると思うわ
RVCApplioは来週にV3出すでって作者が言うてるけど
内容からしてリファクタリングからだから、まずは学習速度向上とかそんなもんだと思うわ
のOv2SuperとRVCApplioつこうてみたけど、確実に音質が上がるな
ベンチマーク用のゆっくり音声なんかのカバー率が高くなってる(ざらざら感が減る)のと
発音できる音が増えてる感じや、48Kバージョンが来れば48kがだいぶ使えるようになると思うわ
RVCApplioは来週にV3出すでって作者が言うてるけど
内容からしてリファクタリングからだから、まずは学習速度向上とかそんなもんだと思うわ
2024/01/15(月) 17:42:53.36ID:AdYo75ds
556今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/15(月) 18:09:57.03ID:OIJ8h3EI2024/01/15(月) 19:31:56.92ID:y1ToKj7U
スタイル訳ならGPUしょぼいローカルPCでも出来んじゃない?
2024/01/15(月) 19:36:12.68ID:LvAdVh3S
2024/01/15(月) 19:37:27.39ID:ZY2hWReX
>>556
コードいじってshareオプションにするようにしな、しばらく出先なんでこちらからはできん
コードいじってshareオプションにするようにしな、しばらく出先なんでこちらからはできん
2024/01/15(月) 19:39:24.67ID:y1ToKj7U
そういえば オマンコやおチンチンにピー音が混じってるデータで学習したけどピー音は覚えなかったな
2024/01/15(月) 20:31:29.18ID:AdYo75ds
2024/01/15(月) 22:50:14.57ID:Pu6wCuNT
API活用したいんだけど、いい感じのお勉強サイトある?
2024/01/15(月) 22:56:01.37ID:y1ToKj7U
>>562
割りと真面目にChatGPTとかBingとかBardに聞いたらいい感じに教えてくれると思う
割りと真面目にChatGPTとかBingとかBardに聞いたらいい感じに教えてくれると思う
2024/01/15(月) 23:52:43.08ID:UMCeqf/t
wikiからきました。
2024/01/15(月) 23:55:39.06ID:UMCeqf/t
やっべ書き込んじゃった
モデルのトレーニングが終わって
後は変換するだけってところで詰んでしまいました
相談に乗ってもろてもいいですか?
あと、Wikiに載っていたディスコの招待って期限切れです?どこも入れなかった…
モデルのトレーニングが終わって
後は変換するだけってところで詰んでしまいました
相談に乗ってもろてもいいですか?
あと、Wikiに載っていたディスコの招待って期限切れです?どこも入れなかった…
2024/01/16(火) 12:26:27.53ID:sfzCPYnl
何で何をしようとしててどんなエラーが出たかわからなければどうしようもないやんけ
2024/01/17(水) 01:00:07.49ID:2yo7tcoK
>>540
試してみてくれてありがとう
こちらでもようやくチェックしてみたんやけど、言われた通り感情表現やっぱ下手になって元気なくなっとるな……
最初がもともと、下が事前学習モデル変えたやつ
https://uploader.cc/s/un2kv0abe41rntrpfw8u67130fljx44z29gafpl0x2avxcgj2j1ym4enn6lmao8c.wav
https://uploader.cc/s/1eo78ghuerj4a0104g2gmgx2tq7ot2lbqk4gjm2yp0aeyar015mfmj416ylv1fj1.wav
基本的には事前学習モデルは今んとこは変えないほうがよさそうやな。今回は平坦読み上げコーパス文で追加学習したのがよくなかった気がするので感情表現マシマシのコーパスでやればいいのかもしらんが……
試してみてくれてありがとう
こちらでもようやくチェックしてみたんやけど、言われた通り感情表現やっぱ下手になって元気なくなっとるな……
最初がもともと、下が事前学習モデル変えたやつ
https://uploader.cc/s/un2kv0abe41rntrpfw8u67130fljx44z29gafpl0x2avxcgj2j1ym4enn6lmao8c.wav
https://uploader.cc/s/1eo78ghuerj4a0104g2gmgx2tq7ot2lbqk4gjm2yp0aeyar015mfmj416ylv1fj1.wav
基本的には事前学習モデルは今んとこは変えないほうがよさそうやな。今回は平坦読み上げコーパス文で追加学習したのがよくなかった気がするので感情表現マシマシのコーパスでやればいいのかもしらんが……
2024/01/17(水) 04:30:13.28ID:3alYBOb2
事前学習モデルと我々オナニストがエロ音声使ってやってる学習って、画像AIで言うところのベースモデルとloraみたいな関係で合ってるんやろか
2024/01/17(水) 08:38:22.35ID:JHyQAaW3
Style-Bert-VITS2を使わせてもらってるんだけど、スタイル分けについての基本的な理解に自信がないから確認させて
これは「Happy声とSad声をまとめた学習モデルをStyle.batの段階で振り分ける」のと、「Happy声とSad声を個別に学習モデルにする」のでは、期待される出力としては同等という理解でいいのかしら?
これは「Happy声とSad声をまとめた学習モデルをStyle.batの段階で振り分ける」のと、「Happy声とSad声を個別に学習モデルにする」のでは、期待される出力としては同等という理解でいいのかしら?
2024/01/17(水) 09:02:25.90ID:2yo7tcoK
>>568
雰囲気はそうやけど、音声合成の場合はある話者で学習したモデルをそのまま追加で別話者に学習できるから、上のは単にもともとの事前学習モデルに追加で学習させたやつを新しい事前学習モデルとしとるだけやな
雰囲気はそうやけど、音声合成の場合はある話者で学習したモデルをそのまま追加で別話者に学習できるから、上のは単にもともとの事前学習モデルに追加で学習させたやつを新しい事前学習モデルとしとるだけやな
2024/01/17(水) 09:07:17.77ID:Z6KpCaL+
Aivisってcolabではまだ使えない?
2024/01/17(水) 09:08:54.49ID:2yo7tcoK
>>569
声音は似た結果かも知らんけど、文章に対する応答等が色々違うで。基本的にスタイル分け単一モデルのほうがええはずや。
別スタイルをそれぞれ別のモデルとして作ると、Happyモデルではどんな言葉もハッピーに話されるモデル、Sadのほうは悲しく話すモデルができ、感情の強さも制御できん。
一方で単一モデルでスタイル分けする場合、スタイルをNeutralにしとったら文章内容によってHappyとSadの雰囲気が自動で引っ張られる
加えて手動でスタイルを重み付きで指定できるから、「めっちゃ悲しそうに」「ほんの少し悲しそうに」とかの指定ができるのもあるな
声音は似た結果かも知らんけど、文章に対する応答等が色々違うで。基本的にスタイル分け単一モデルのほうがええはずや。
別スタイルをそれぞれ別のモデルとして作ると、Happyモデルではどんな言葉もハッピーに話されるモデル、Sadのほうは悲しく話すモデルができ、感情の強さも制御できん。
一方で単一モデルでスタイル分けする場合、スタイルをNeutralにしとったら文章内容によってHappyとSadの雰囲気が自動で引っ張られる
加えて手動でスタイルを重み付きで指定できるから、「めっちゃ悲しそうに」「ほんの少し悲しそうに」とかの指定ができるのもあるな
2024/01/17(水) 09:22:10.70ID:JHyQAaW3
>>572
ありがとう、スタイル分け方面には着手してなかったけど試してみる!
ありがとう、スタイル分け方面には着手してなかったけど試してみる!
2024/01/17(水) 09:26:39.57ID:Sa/drkly
StyleBertVITS2のテキスト自動書き起こし機能使うと言語の部分が、「Languages.JP」になってこのままだとエラーが出ちゃうんだけど、「JP」に置換するとちゃんと学習できる
これってバグ?それともワイの環境が変なのかな?
置換するだけだから面倒じゃないし学習もちゃんと終わるから別にいいんだけど、学習結果に影響するとかなら解決したい
これってバグ?それともワイの環境が変なのかな?
置換するだけだから面倒じゃないし学習もちゃんと終わるから別にいいんだけど、学習結果に影響するとかなら解決したい
575今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/17(水) 09:27:21.16ID:vI4tubjz コードをshareオプションにするのってどうやんの
2024/01/17(水) 10:22:33.29ID:2yo7tcoK
2024/01/17(水) 10:36:40.57ID:Sa/drkly
>>576
早速対応ありがとうございます!助かります。
早速対応ありがとうございます!助かります。
2024/01/17(水) 12:45:20.17ID:2yo7tcoK
https://github.com/RVC-Boss/GPT-SoVITS
何かfew shot TTSの新しいのがRVCのところから出たらしいで、試しとらんけど
何かfew shot TTSの新しいのがRVCのところから出たらしいで、試しとらんけど
579今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/17(水) 12:51:00.48ID:vI4tubjz >>559
やり方を教えて下さい。
やり方を教えて下さい。
2024/01/17(水) 13:33:22.28ID:3alYBOb2
2024/01/17(水) 13:49:00.78ID:2yo7tcoK
>>580
今の音声合成では、スタイルは「Neutralを基準としてそのスタイルを強調して合成」って感じやから、
複数人でしかも各人に感情スタイルを作ろうとした場合はうまくいかん気がするな
各人が1スタイルのみで、人数に応じたスタイル数、ならデメリットはないような気がする
(けど複数話者を単一話者扱い複数スタイルで学習したこと無いから正確なことはわからん)
今の音声合成では、スタイルは「Neutralを基準としてそのスタイルを強調して合成」って感じやから、
複数人でしかも各人に感情スタイルを作ろうとした場合はうまくいかん気がするな
各人が1スタイルのみで、人数に応じたスタイル数、ならデメリットはないような気がする
(けど複数話者を単一話者扱い複数スタイルで学習したこと無いから正確なことはわからん)
2024/01/17(水) 15:11:32.65ID:2yo7tcoK
>>578
GPT-SoVITSのゼロショットTTSだけ試してみたからはっとくで。
追加学習せず数秒の音声を与えただけでこれくらいの質や、与えた音声の秒数を考えるとなかなか良さげ。まあ感情表現やら音質やら細かい声音やらはBert-VITS2のほうが上っぽいが目指してるものが別っぽいしな
https://uploader.cc/s/eaxhxn7bup3abbr76w0niyl8wtp2yqf790ml3b156jj9e9yc2x6aefw3ief0zfk6.mp4
few-shotで追加で学習もできるみたいやからためしてみる。
GPT-SoVITSのゼロショットTTSだけ試してみたからはっとくで。
追加学習せず数秒の音声を与えただけでこれくらいの質や、与えた音声の秒数を考えるとなかなか良さげ。まあ感情表現やら音質やら細かい声音やらはBert-VITS2のほうが上っぽいが目指してるものが別っぽいしな
https://uploader.cc/s/eaxhxn7bup3abbr76w0niyl8wtp2yqf790ml3b156jj9e9yc2x6aefw3ief0zfk6.mp4
few-shotで追加で学習もできるみたいやからためしてみる。
2024/01/17(水) 15:54:14.99ID:pnttFTt8
>>582
えぐいな
えぐいな
2024/01/17(水) 16:07:46.04ID:2yo7tcoK
>>582
使い方はこれの7zをダウンロードして展開でgo-web.batダブルクリック、RVCと似た感じやな
(逆にコードがこれ前提になってるからgit pullでの環境構築がしにくい)
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main
few-shot学習もできたので置いとくで。声音の再現度はzero-shotより増す(前半が学習無しzero-show、後半が30音声3分くらいで追加学習したやつ)。
https://uploader.cc/s/br38eo9xzjysgftjzkmv2bjyhy3ikkzdwuvqx8s3t8uy78su3int2egp25t1yiub.mp4
ただまあBert-VITS2とは強みが違う感じやね。お手軽に声音クローンならまあまあ使えそう。VALLE-E-Xの上位互換っぽい感じやな。
使い方はこれの7zをダウンロードして展開でgo-web.batダブルクリック、RVCと似た感じやな
(逆にコードがこれ前提になってるからgit pullでの環境構築がしにくい)
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main
few-shot学習もできたので置いとくで。声音の再現度はzero-shotより増す(前半が学習無しzero-show、後半が30音声3分くらいで追加学習したやつ)。
https://uploader.cc/s/br38eo9xzjysgftjzkmv2bjyhy3ikkzdwuvqx8s3t8uy78su3int2egp25t1yiub.mp4
ただまあBert-VITS2とは強みが違う感じやね。お手軽に声音クローンならまあまあ使えそう。VALLE-E-Xの上位互換っぽい感じやな。
2024/01/17(水) 18:22:01.61ID:RaBSn+Q0
数秒でこりゃすごいな
2024/01/17(水) 21:50:01.20ID:7jZfFxkM
Chat-GPT の読み上げ 音声を好きな声優にして使ってる人とかおるん?
これが出来たらワイの夢が叶うんやが
これが出来たらワイの夢が叶うんやが
2024/01/17(水) 23:43:25.14ID:2yo7tcoK
https://huggingface.co/spaces/litagin/gpt_sovits_demo
GPT-SoVITSのゼロショットTTSをオンラインで試せるデモを作った
GPT-SoVITSのゼロショットTTSをオンラインで試せるデモを作った
2024/01/18(木) 00:40:01.67ID:80vgCNoo
>>587
ありがとう! 7秒のサンプル音声でやってみた
https://uploader.cc/s/pb9i78boue54ku89knlolnszbfkuuxq03az5qumk1lyjr1a5xn2fv8whort5m4q9.wav
こんな簡単に学習……っていうか特徴の抽出と再合成なのかな? 出来るのすごいね
ありがとう! 7秒のサンプル音声でやってみた
https://uploader.cc/s/pb9i78boue54ku89knlolnszbfkuuxq03az5qumk1lyjr1a5xn2fv8whort5m4q9.wav
こんな簡単に学習……っていうか特徴の抽出と再合成なのかな? 出来るのすごいね
2024/01/18(木) 00:46:55.46ID:0rflumuS
StyleBertVitsより学習させて品質があがるんやろか?
2024/01/18(木) 01:00:13.75ID:e0zEppE1
GPT-SoVITS、総合的な品質は(Style-)Bert-VITS2には敵わんで。音質がまず32kHzで悪さが目立つ上に話者性もそこまで再現されるわけではない、あとまあこれはそのうち追加されるかもだけど今は使われてるbertとhubertが中国語専用のやつやから抑揚やらもBert-VITS2のほうが自然やろうし、アクセント埋め込みもないのでアクセント調整はできん、あと日本語bertがない関係でBert-VITS2のようなテキストによって声音が変わることもない、というより感情や抑揚含めてリファレンスからクローンされるイメージやな。
ただ技術的には面白いし、何より学習がいらない or めっちゃ短時間(10分もかからん)で済むというお手軽さが、zero-shotやfew-shotの強みでは一番やと思う。
ただ技術的には面白いし、何より学習がいらない or めっちゃ短時間(10分もかからん)で済むというお手軽さが、zero-shotやfew-shotの強みでは一番やと思う。
2024/01/18(木) 01:27:58.12ID:80vgCNoo
音声ファイルがあるけど数が少なくてBert-VITS2で学習するのが難しいって場合に
GPT-SoVITSでいろんな音声つくりまくって、そこから良さげなのをピックアップしてから
Bert-VITSで学習するといい感じになったりするかな?
GPT-SoVITSでいろんな音声つくりまくって、そこから良さげなのをピックアップしてから
Bert-VITSで学習するといい感じになったりするかな?
2024/01/18(木) 01:31:15.13ID:e0zEppE1
音質劣化があるからなあ……使えんことはないんやろうけどどうなんやろ
593今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/18(木) 04:34:46.90ID:XfTOCtUc594今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/18(木) 07:40:22.55ID:h/2GxqsW colabでスタイル生成したい
2024/01/18(木) 09:13:39.29ID:e0zEppE1
>>593
Style-Bert-VITS2のほうを使ってほしいのと某界隈に広まって微妙になったから消した
まだ少ないけどこれからどんどん作る予定なのでこっちの方使ってくれや
https://huggingface.co/litagin/style_bert_vits2_okiba
Style-Bert-VITS2のほうを使ってほしいのと某界隈に広まって微妙になったから消した
まだ少ないけどこれからどんどん作る予定なのでこっちの方使ってくれや
https://huggingface.co/litagin/style_bert_vits2_okiba
2024/01/18(木) 11:16:23.12ID:80vgCNoo
>>587
demoアプリはWindowsローカルでも動くのかな? と思って試してみたら結構あったりうごいた
もとのやつがよく使い方分からなかったんで助かる
生成の方でうまく作れない単語がある時はReference audioのサンプル不足なのかな?
demoアプリはWindowsローカルでも動くのかな? と思って試してみたら結構あったりうごいた
もとのやつがよく使い方分からなかったんで助かる
生成の方でうまく作れない単語がある時はReference audioのサンプル不足なのかな?
2024/01/18(木) 19:24:17.55ID:k2S0EtDt
>>586
今作ってる最中やで
https://uploader.cc/s/8ux1ytlaqoj4hnvr034tkn9f0s172oauwj15ehuajocbfldx3ttxlezdryjfdzll.mp4
StyleBertVITS2のAPIって100文字制限あるけど上限増やせれたりする?
今作ってる最中やで
https://uploader.cc/s/8ux1ytlaqoj4hnvr034tkn9f0s172oauwj15ehuajocbfldx3ttxlezdryjfdzll.mp4
StyleBertVITS2のAPIって100文字制限あるけど上限増やせれたりする?
598今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/18(木) 19:33:24.87ID:h/2GxqsW コードいじってshareオプションにする?ってのはどうやるの
2024/01/18(木) 21:12:02.32ID:sTtZmFBI
80分(1000ファイル)くらいで学習してみたけど、学習に適してないような吐息ばっかとかの音声もスタイルで後から除けられるのが便利だな
あんまり素材を吟味する必要がないというかサボっていいというか
あんまり素材を吟味する必要がないというかサボっていいというか
2024/01/18(木) 21:17:43.33ID:EWWFrR5Q
久しぶりに来て遡ってみたけど謎の英語でよくわからんのやが、今みんながやってるのってどんなツールなの?
2024/01/18(木) 21:20:42.67ID:7nv1ljt5
でもGPT4のAPIってクソ高いんじゃなかったっけ
2024/01/18(木) 21:25:10.37ID:6PA8iefy
>>600
最近はボイチェンよりもTTSっていう音声合成ソフトの話題が盛ん
You Tubeでよくあるゆっくりボイスみたいな奴を、好きな声優さんとかの声で学習させてできちゃう的な
Bertvits2ってやつ
最近はボイチェンよりもTTSっていう音声合成ソフトの話題が盛ん
You Tubeでよくあるゆっくりボイスみたいな奴を、好きな声優さんとかの声で学習させてできちゃう的な
Bertvits2ってやつ
2024/01/18(木) 21:35:05.61ID:aSuPKFDZ
AIのべりすとってAPIにお金取ってたっけ?
ボイジャーとかブンゴウとか課金プランは色々あったけど
ボイジャーとかブンゴウとか課金プランは色々あったけど
2024/01/18(木) 21:35:31.99ID:aSuPKFDZ
AIのべりすとってAPIに課金必須だっけ?
ボイジャーとかブンゴウとか課金プランは色々あったけど
ボイジャーとかブンゴウとか課金プランは色々あったけど
2024/01/18(木) 21:36:19.81ID:aSuPKFDZ
二重カキコすまん
2024/01/18(木) 23:01:55.16ID:e0zEppE1
2024/01/19(金) 08:32:23.52ID:IsNfRRND
2024/01/19(金) 08:50:22.15ID:UgKIlhOB
これ棒読みちゃんに渡して読ませることできるんですか?
2024/01/19(金) 10:53:29.49ID:OiMmyDBi
610今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/19(金) 18:38:11.88ID:54BW8xQD >>607
そっち弄ればよかったのか。これで、長文で喋らせることができるぜ。ありがとね。
そっち弄ればよかったのか。これで、長文で喋らせることができるぜ。ありがとね。
611今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/20(土) 08:27:45.82ID:eB+vsghT 2ページで済んでたのが3ページになってバチクソキレそう
これ表示させない方法ないの?
これ表示させない方法ないの?
612今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/20(土) 08:28:47.03ID:eB+vsghT2024/01/20(土) 08:31:49.91ID:zonDR0A9
deathbreaker草
2024/01/20(土) 09:43:51.34ID:5bUVGl+J
そしてそれを堂々と晒す度胸
かっけーっす
かっけーっす
2024/01/20(土) 10:47:01.03ID:6Ldkkgcf
赤ちゃんやがStyleBertVits2で使い方に従ってって学習でけた!
loraもそうやったが学習初成功は格別の気分よな😚
感動をありがとうlitaginニキ
セリフ起こしのとこcudaのバージョンがv12の人は
v11に下げんとアカンっぽいからこれからやる人は気をつけてな
loraもそうやったが学習初成功は格別の気分よな😚
感動をありがとうlitaginニキ
セリフ起こしのとこcudaのバージョンがv12の人は
v11に下げんとアカンっぽいからこれからやる人は気をつけてな
2024/01/20(土) 11:14:07.47ID:5bUVGl+J
下げるというか対象ファイルを複製&リネームだけで大丈夫だよ
2024/01/20(土) 12:26:26.72ID:vZNUfvBH
stylebertvits2の自動文字起こし機能使ってるんだけどたまに出てくるカギかっこつきの文章って学習に関して何か意味あるの?
強調して読み上げるとかになるのかな?
強調して読み上げるとかになるのかな?
2024/01/20(土) 14:28:30.74ID:ejgXqUgZ
>>617
文章の正規化段階で「」は'に変換される、ということは分かるが、この'がどういう影響を及ぼすかはよく分からない……
文章の正規化段階で「」は'に変換される、ということは分かるが、この'がどういう影響を及ぼすかはよく分からない……
2024/01/21(日) 02:48:08.22ID:pggWYCVR
Style-Bert-VITS2
複数話者で学習させてから話者ごとにスタイル分けすると早口で機械っぽくなってしまうな
Neutralは全員の声を合体させた感ある
複数話者で学習させてから話者ごとにスタイル分けすると早口で機械っぽくなってしまうな
Neutralは全員の声を合体させた感ある
2024/01/21(日) 08:07:47.15ID:jXIVMaBK
VITS2すごい綺麗に発音してくれてビビる
話者によっては私はッ!!とてもッ!!悲しいッ!!!!みたいな強い喋り方になって笑う
喘ぎ囁き素材のない話者で囁かせたり喘がせるのはまだまだ難しそうやな
話者によっては私はッ!!とてもッ!!悲しいッ!!!!みたいな強い喋り方になって笑う
喘ぎ囁き素材のない話者で囁かせたり喘がせるのはまだまだ難しそうやな
2024/01/21(日) 08:25:51.93ID:nLxp11zB
2024/01/21(日) 10:06:43.42ID:VW6zJopl
ボイチェンスレなのにボイチェンの話題がないのはどういうことや
623今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/21(日) 10:41:24.24ID:xMeoe1LS なんJBert-VITS2部に改名すっか
2024/01/21(日) 11:55:50.53ID:nLxp11zB
ボイチェンはもうだいたい完成されてるんじゃないの
2024/01/21(日) 12:04:35.08ID:PAEfyX1w
>>622
あくまで俺の考察として聞いて欲しい
このスレができた当初は人がごった返してみんな色々と試行錯誤してたんだけど
何を望んでるかというと、どうも女性のアニメ声になりたいって需要が多かったのよ。
RVCってソフトなら簡単にその願いが叶うんじゃないかと期待されてたけど
有志が試してみたサンプルを聞くと全然ショボくて、ボイチェン感満載のボイスだったわけだ。
有識者によると、自然なアニメ声出すにはボイトレが必須だったと。バ美肉vtuberはそうして努力の結果だそうな。
で、単純にアニメ声出すだけなら既存のボイチェンでもできてたからRVCの優位性は無かったのでみんな話題にしなくなった感じ
RVCは既存の声優の声等を学習して模倣するのができるソフトだけど
このスレの人達が期待したのは簡単に女性ボイスが出せることだった
あくまで俺の考察として聞いて欲しい
このスレができた当初は人がごった返してみんな色々と試行錯誤してたんだけど
何を望んでるかというと、どうも女性のアニメ声になりたいって需要が多かったのよ。
RVCってソフトなら簡単にその願いが叶うんじゃないかと期待されてたけど
有志が試してみたサンプルを聞くと全然ショボくて、ボイチェン感満載のボイスだったわけだ。
有識者によると、自然なアニメ声出すにはボイトレが必須だったと。バ美肉vtuberはそうして努力の結果だそうな。
で、単純にアニメ声出すだけなら既存のボイチェンでもできてたからRVCの優位性は無かったのでみんな話題にしなくなった感じ
RVCは既存の声優の声等を学習して模倣するのができるソフトだけど
このスレの人達が期待したのは簡単に女性ボイスが出せることだった
626今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/21(日) 12:15:07.14ID:xMeoe1LS それでもこういうのよりは性能いいーぞ
https://www.youtube.com/watch?v=SyCoLVJNavU
https://www.youtube.com/watch?v=SyCoLVJNavU
2024/01/21(日) 12:47:37.79ID:6KwACbN5
元々音楽に興味がありRVCのモデルは30くらい作った
これはこれでよかったが裏声とか吐息っぽいものが再現できないラップも…
そして今はLLMに興味があるんだけどさ
例えばターバンアプリ経由してVIT2に流し込めないかな?
RVCを呼ぶ方法はうまくいかなかった
これはこれでよかったが裏声とか吐息っぽいものが再現できないラップも…
そして今はLLMに興味があるんだけどさ
例えばターバンアプリ経由してVIT2に流し込めないかな?
RVCを呼ぶ方法はうまくいかなかった
2024/01/21(日) 13:36:15.78ID:pggWYCVR
ボイチェンは10月から更新ないからV3更新待ちやね
Ov2Superでちょっと良くなったで
Ov2Superでちょっと良くなったで
2024/01/21(日) 14:45:46.41ID:u14S38Ef
音声認識→合成音声は可能性ないんだろうか
2024/01/21(日) 15:05:47.27ID:dU9Hb/aL
結局用途によるよね
Vtuberになりたい
エロゲを作りたい
特定の声を再現して好きなことを喋らせたい
ボイス付きの対話相手を作りたい
とか。自分は4つ目
Vtuberになりたい
エロゲを作りたい
特定の声を再現して好きなことを喋らせたい
ボイス付きの対話相手を作りたい
とか。自分は4つ目
2024/01/21(日) 16:58:14.44ID:vRwEuo5z
RVCは十分質高いボイチェンできると思うで、ただ単純に大きいニュースが無いからもう出尽くして話題が付きてるだけ感、学習素材も人によってはもう尽きて学習の話題もそんな盛り上がらんしな
Ov2Superやら、RIN_E3やら、事前学習モデルを変える方向のニュースが最近出とるけど正直学習し直し面倒で効果も分からずアレやな
https://huggingface.co/MUSTAR/RIN_E3
音声合成が盛り上がっとるのは単純にただそれが大きいニュースでインパクトがあったからしばらくは盛り上がってるではないかと。
Ov2Superやら、RIN_E3やら、事前学習モデルを変える方向のニュースが最近出とるけど正直学習し直し面倒で効果も分からずアレやな
https://huggingface.co/MUSTAR/RIN_E3
音声合成が盛り上がっとるのは単純にただそれが大きいニュースでインパクトがあったからしばらくは盛り上がってるではないかと。
632今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/21(日) 17:09:17.16ID:eCJbXZXw >>631
充分質は高いんだろうけど、スレが立った当初に居た人たちの需要を満たすものではなかったって事でしょ
実際昔の人物に現代のアニソン歌わせてみただの岸田首相に変なこと言わせるのだのって使われ方はされとる。
でもバ美肉したい人たちの願望を満たす能力は既存のボイチェンと変わんなかったってだけ。
お前らそんなに女声出したいんかよってツッコミ入れたくなるような状況だった。
充分質は高いんだろうけど、スレが立った当初に居た人たちの需要を満たすものではなかったって事でしょ
実際昔の人物に現代のアニソン歌わせてみただの岸田首相に変なこと言わせるのだのって使われ方はされとる。
でもバ美肉したい人たちの願望を満たす能力は既存のボイチェンと変わんなかったってだけ。
お前らそんなに女声出したいんかよってツッコミ入れたくなるような状況だった。
2024/01/21(日) 17:54:40.58ID:J7HxWj3E
2024/01/21(日) 21:08:39.17ID:pBpe4sPz
RVCのApplioV3が来たけどこれアレやな今の所コード整理して必要容量削っただけやな
2024/01/21(日) 21:50:10.09ID:KToU0fju
ボイチェンだと自分で演技しなきゃならんし声張ると近所迷惑だから厳しいんだよな
TTSなら喋りは音声認識と連携、吐息や喘ぎとか特殊なのはテキストを用意して~とか使い分けできそう
TTSなら喋りは音声認識と連携、吐息や喘ぎとか特殊なのはテキストを用意して~とか使い分けできそう
2024/01/21(日) 22:36:05.32ID:wS4pTczo
637今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/22(月) 08:44:14.23ID:l0l8rQpX638今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/22(月) 13:22:45.65ID:VW/8AnJ/ できるけど複数話者で合体したような声になった
スタイルで分けると話者毎に分けられるけど発音が不安定になる感じ
スタイル分けのやつで自動で話者毎に音源をフォルダ分けする機能があれば1人ずつ作れて便利になりそう
スタイルで分けると話者毎に分けられるけど発音が不安定になる感じ
スタイル分けのやつで自動で話者毎に音源をフォルダ分けする機能があれば1人ずつ作れて便利になりそう
639今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/22(月) 13:59:21.73ID:l0l8rQpX 書き起こしの話者名は今のところ無意味って事か
2024/01/22(月) 16:52:01.23ID:Qki3slgl
https://huggingface.co/datasets/litagin/moe-speech
キャラクター演技音声のデータセットを公開したで、今は合計449キャラクター、約36万の音声ファイル、合計約581時間、343GBのデータ。
一人で独占しとるのアレやし公開した。使いたい人はちゃんと規約を読んで使ってな。
キャラクター演技音声のデータセットを公開したで、今は合計449キャラクター、約36万の音声ファイル、合計約581時間、343GBのデータ。
一人で独占しとるのアレやし公開した。使いたい人はちゃんと規約を読んで使ってな。
2024/01/22(月) 18:25:44.57ID:T1fYSnIu
343GBで草
2024/01/22(月) 18:46:49.66ID:PmKb1bSn
キャラ多すぎるし容量でかすぎて草
熱意ある人しかDLしなさそうだしパンピー除けにはちょうど良いのかな
熱意ある人しかDLしなさそうだしパンピー除けにはちょうど良いのかな
2024/01/22(月) 18:49:58.06ID:2slv5A04
2024/01/22(月) 19:34:25.69ID:fpkG7cZL
>>640
サンキューガッツ
サンキューガッツ
2024/01/22(月) 20:18:56.48ID:Xu4sWeiZ
楽しそうやな
2024/01/22(月) 20:28:09.63ID:TL3LpFWs
試したくても今月DLしたら公平制御ライン超えて死ぬ・・・
2024/01/22(月) 20:30:55.46ID:57NTvy8O
KRTN族とかYKT族とかちゃんと固まってるのすごいな
ダメ絶対音感検定に使えそう
ダメ絶対音感検定に使えそう
2024/01/22(月) 20:34:55.27ID:2slv5A04
スマホでやってるのか・・・?
2024/01/22(月) 20:48:18.25ID:TL3LpFWs
光回線だが正月休みで一杯使ったから帯域がカツカツのはずなんだわ
月1TB越えるとうちのISPは制裁が下るらしい
みんなも気をつけてな
月1TB越えるとうちのISPは制裁が下るらしい
みんなも気をつけてな
2024/01/22(月) 20:48:30.65ID:57NTvy8O
2024/01/22(月) 20:57:02.59ID:2slv5A04
2024/01/22(月) 21:20:18.57ID:nsGmcnYd
>>640
凄すぎワロタ
凄すぎワロタ
2024/01/22(月) 21:25:21.80ID:M+tT+TRj
654今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/22(月) 21:26:28.26ID:l0l8rQpX ちょくちょく聞き覚えのある声があるな
2024/01/22(月) 21:30:57.94ID:XWEmdsNQ
>>640
ダウンロードしようとしたらhuggingface-cli loginのトークン入力で詰んだ
何故か右クリックのコピペが出来ない。enterキーしか反応せずに手打ちも出来ない
shift+insertの貼り付けも出来ないしお手上げだわ
ダウンロードしようとしたらhuggingface-cli loginのトークン入力で詰んだ
何故か右クリックのコピペが出来ない。enterキーしか反応せずに手打ちも出来ない
shift+insertの貼り付けも出来ないしお手上げだわ
2024/01/22(月) 21:32:26.03ID:NhhezVWT
各音声のサンプルはどうやったら聴けますか?全ダウンロードはできそうにない…
2024/01/22(月) 21:34:45.89ID:nsGmcnYd
2024/01/22(月) 21:35:30.14ID:6CgQpJHQ
>>655
そこは見た目上表示されずにカーソルも動かないだけで、実際は右クリック一回だけ押していけるぞ
そこは見た目上表示されずにカーソルも動かないだけで、実際は右クリック一回だけ押していけるぞ
2024/01/22(月) 21:36:29.34ID:M+tT+TRj
□私はロボットではありません
2024/01/22(月) 21:40:32.56ID:Qki3slgl
>>657
与えられた音声がnsfwかどうかを判定するのが機械的にどうやったらいいか分からんって感じ。
話者識別モデル通してクラスタ分けすれば個別のデータについてはnsfwとそれ以外はまあまあ分けれるんやけど、データに依存する手作業やから一つ一つやると時間かかるし(いくつかはそういうことやってきたけど大量は無理)、
「これはnsfw音声かどうか」を判定するAIみたいなのが欲しいって感じやな。
ちょっと真面目に機械学習勉強してラベルつきデータセットつくればそれくらいならできそうって気もするが。
与えられた音声がnsfwかどうかを判定するのが機械的にどうやったらいいか分からんって感じ。
話者識別モデル通してクラスタ分けすれば個別のデータについてはnsfwとそれ以外はまあまあ分けれるんやけど、データに依存する手作業やから一つ一つやると時間かかるし(いくつかはそういうことやってきたけど大量は無理)、
「これはnsfw音声かどうか」を判定するAIみたいなのが欲しいって感じやな。
ちょっと真面目に機械学習勉強してラベルつきデータセットつくればそれくらいならできそうって気もするが。
2024/01/22(月) 21:43:10.63ID:M+tT+TRj
2024/01/22(月) 21:43:11.75ID:2slv5A04
エッチな音声かどうかのAI判別・・・大変そうやな
2024/01/22(月) 21:55:53.63ID:XWEmdsNQ
2024/01/22(月) 21:56:12.24ID:nSim7KcS
お前のフォトニック・レゾナンス・チャンバーに俺のクアンタム・ハーモナイザーを入れてやる!
665今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/22(月) 21:59:22.59ID:l0l8rQpX 渋みのある声を見つけたのにそれが誰かわからないのがもどかしい
2024/01/22(月) 22:05:59.77ID:M+tT+TRj
スネイクかアンデルセン神父やろ(適当)
2024/01/22(月) 22:24:39.21ID:PmKb1bSn
自分で作る気になれないから漢の声ありがたい
2024/01/23(火) 00:01:46.07ID:Hh8Sb2Yn
プロバイダの帯域制限以外にhuggingface自体にも制限ある?
全部落とそうとしたら途中でエラー吐いて止まったわ
個別に少しずつ落とすしかないな
全部落とそうとしたら途中でエラー吐いて止まったわ
個別に少しずつ落とすしかないな
669今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/23(火) 00:04:35.71ID:ZGsLmtWf データセット助かるんだがこれを学習したモデルは公開しないから自分らでやってってことでいいのかな
2024/01/23(火) 02:25:15.31ID:7RtqlSd8
>>640
Tちゃんと思われる2ファイル頂いたこのコほんと好きありがとう
Tちゃんと思われる2ファイル頂いたこのコほんと好きありがとう
2024/01/23(火) 04:05:09.53ID:2CEQGngd
うおおおどれが誰だかわかんねえええ
2024/01/23(火) 06:44:48.54ID:G4UFbEW2
>>670
謎の八文字を…是非…
謎の八文字を…是非…
2024/01/23(火) 08:43:19.48ID:/+eyO7hw
識別子の公開は禁止やで
2024/01/23(火) 08:45:17.31ID:G4UFbEW2
あっそうか、すまん
2024/01/23(火) 09:11:27.37ID:z0MY347/
ゲームから抜く方法って安易に録画するとかしかないか…?
2024/01/23(火) 09:22:08.68ID:/+eyO7hw
>>661
あーたしかに音声認識結果をもとにふるい分けるのはありやな
ただそもそも喘ぎ声とかだと音声認識がバグってうまくいかんかったり、性的な内容のセリフでも通常トーンでの発話は別にNSFW扱いしたくなかったり、微妙なところや
あーたしかに音声認識結果をもとにふるい分けるのはありやな
ただそもそも喘ぎ声とかだと音声認識がバグってうまくいかんかったり、性的な内容のセリフでも通常トーンでの発話は別にNSFW扱いしたくなかったり、微妙なところや
2024/01/23(火) 10:04:34.77ID:cz/HPcw0
BGMとSEは抜こうな(2敗)
2024/01/23(火) 10:05:07.68ID:cz/HPcw0
全部オフにするなよ(一敗)
2024/01/23(火) 13:38:23.13ID:JkZiw+z/
海外展開してるソシャゲなんかは海外wikiに全音声ぶっこ抜いたのポン置きされてること多いから音声収集割と楽なんだがな
2024/01/23(火) 14:27:22.77ID:/+eyO7hw
ゲームにもよるだろうけどツールいろいろあるで
2024/01/23(火) 19:11:55.70ID:Hh8Sb2Yn
PSやPS2辺りなら抽出ツールあるね
2024/01/23(火) 20:17:00.33ID:DNXhoQbv
2024/01/23(火) 20:21:06.17ID:/+eyO7hw
全部ならトークン指定してgit cloneとかでもいけるんやないかな、試しとらんけど
2024/01/23(火) 20:45:05.03ID:Hh8Sb2Yn
2024/01/23(火) 21:04:38.17ID:q/xuz2yj
ワイルドカード使って
ダウン対象フォルダ名を0*,1*,2*,,,,,,,って変えながらダウンしてるわ
これもあんま連続でやってるとタイムアウトするがな
さっき数字終わってアルファベットに入るやで
ダウン対象フォルダ名を0*,1*,2*,,,,,,,って変えながらダウンしてるわ
これもあんま連続でやってるとタイムアウトするがな
さっき数字終わってアルファベットに入るやで
2024/01/23(火) 22:41:32.80ID:DNXhoQbv
2024/01/23(火) 23:01:10.80ID:DNXhoQbv
あ、だめだ
エラー出たら次の行に行っちゃうわ
なんで止まんねーんだよ…
エラー出たら次の行に行っちゃうわ
なんで止まんねーんだよ…
2024/01/24(水) 00:53:46.07ID:6Q6CfgJw
謎の八文字とか識別子とかみんな何の話をしてるんだ・・・?
2024/01/24(水) 07:31:37.58ID:Ji34G7BA
このスレ読んでもわからんなら一生わからんだろうな
2024/01/24(水) 09:51:24.25ID:6Q6CfgJw
2024/01/24(水) 10:19:13.96ID:W8OGDTCD
意地悪やないw
何のためにボカしてるのか考えたらわからやろ
何のためにボカしてるのか考えたらわからやろ
2024/01/24(水) 11:35:12.08ID:UuLIHd+H
規約読まないで制作者に迷惑かけるのはやめよう
2024/01/24(水) 11:44:07.98ID:XRRpTdkI
制作者(ぶっこ抜いてアップしただけ)
2024/01/24(水) 11:49:33.57ID:W8OGDTCD
ほーら出たでw
2024/01/24(水) 12:09:55.60ID:6Q6CfgJw
なんやようわからんけどボカす理由自体もよくわからんからすまんな
2024/01/24(水) 14:05:32.15ID:1ObSRNhs
結局フォルダまるごとじゃなくて00******からff******までを個別に指定したバッチファイルにしたら無事ダウンロード進んどるかも
ちなバッチファイルもbingに書いてもらった
AIさまさまよなー
ちなバッチファイルもbingに書いてもらった
AIさまさまよなー
2024/01/24(水) 14:19:26.43ID:QLGKn/bp
>>640を落としてファイル1つ1つチェックしとる人おったら、電話音声とかエコー音声とか明らかな喘ぎ声リップ音とかそういう不適切っぽいやつがどれかという情報をよければ集めてファイルとかにまとめて共有してくれると助かる
今はとりあえず新しく追加できるデータがまだあるからそっちの作業をやっとるけど、それ終わったら、人力除外作業と人力追加作業が待っとるからな……
今はとりあえず新しく追加できるデータがまだあるからそっちの作業をやっとるけど、それ終わったら、人力除外作業と人力追加作業が待っとるからな……
2024/01/24(水) 14:46:21.88ID:ywX35Pik
セリフで作品と声優名わかってしまうワイって一体・・・
Tさんとか一発やで
まぁこっちではKさんやけどな
Tさんとか一発やで
まぁこっちではKさんやけどな
2024/01/24(水) 15:16:08.25ID:9ZmpTz8T
ちょっと思ったんやけど、データセットの音声にSpeechMOSかけて足切りとかできるんやろか?
MOSの用途からして電話音声風の高域バッサリエフェクトとかエコーとかは効果的に除けると思うで
NSFW系がどう反応するかは分からんけど
MOSの用途からして電話音声風の高域バッサリエフェクトとかエコーとかは効果的に除けると思うで
NSFW系がどう反応するかは分からんけど
2024/01/24(水) 16:14:13.07ID:QLGKn/bp
>>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
701今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 16:22:15.34ID:QCQwcyrK702今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 16:23:01.42ID:QCQwcyrK2024/01/24(水) 16:28:37.00ID:QLGKn/bp
>>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
704今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 16:55:56.70ID:FkJraRU5 >>701
なにがゲェーなんだ?
なにがゲェーなんだ?
2024/01/24(水) 17:02:12.43ID:rdYx1knY
https://twitter.com/mutaguchi/status/1749819586260983819
ということらしいのでゲェーの意味もわからんが
https://twitter.com/thejimwatkins
ということらしいのでゲェーの意味もわからんが
https://twitter.com/thejimwatkins
706今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 17:04:13.81ID:QCQwcyrK ワシには難しい話がよくわからないのでいかんのかと思った
2024/01/24(水) 17:36:42.03ID:QLGKn/bp
MoeSpeech、キャラ追加アプデしたで(合計24キャラクター追加、結果約39万の音声ファイル、合計約622時間、368GB)
全部ダウンロードしとる人はinfo.csvの差分あたりから使ってな(どんくらいいるのかしらんが)
これで手持ちは一段落のはずやからあとは除外作業とかがんばるわ
全部ダウンロードしとる人はinfo.csvの差分あたりから使ってな(どんくらいいるのかしらんが)
これで手持ちは一段落のはずやからあとは除外作業とかがんばるわ
708今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 17:44:55.98ID:FkJraRU5 これ以上追加って一体何があなたをここまで突き動かすんだ…
ご苦労様です。除外作業はゆっくり進めていただけるだけで助かります
ご苦労様です。除外作業はゆっくり進めていただけるだけで助かります
2024/01/24(水) 17:47:19.08ID:6Q6CfgJw
>>707
凄まじい作業量にも関わらず乙であります
凄まじい作業量にも関わらず乙であります
2024/01/24(水) 17:57:48.27ID:9ZmpTz8T
2024/01/24(水) 18:22:14.23ID:1ObSRNhs
>>706
とりあえず3年ぐらいRomってたほうがええよ
とりあえず3年ぐらいRomってたほうがええよ
712今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 18:25:54.09ID:QCQwcyrK ごめん
713今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 18:33:35.08ID:uaPG1bsf 普段NVA部におるがとんでもないデータセット上がったと聞いてやってきた
確かにこっちの界隈は使いやすいデータセットがないんやね
確かにこっちの界隈は使いやすいデータセットがないんやね
714今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 18:45:16.23ID:FkJraRU52024/01/24(水) 18:56:25.63ID:6Q6CfgJw
2024/01/24(水) 19:04:03.34ID:1ObSRNhs
2024/01/24(水) 19:05:20.25ID:6Q6CfgJw
あんたもいきなり煽ったりするなよ
2024/01/24(水) 19:05:46.82ID:F5+K8L8V
配慮されてるとはいえ生データ上げてるんだから取り扱い注意なのは明白やろな
2024/01/24(水) 19:07:15.95ID:1ObSRNhs
アホが変な拡散する前に全部DLしたいところだが間に合うかなー
720今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 19:12:42.80ID:FkJraRU5 >>716
テメェが殴りかかってんのにチカラ抜けは違うだろアホか
テメェが殴りかかってんのにチカラ抜けは違うだろアホか
2024/01/24(水) 19:56:29.66ID:QLGKn/bp
正直誰でも集めようと思えばちょっとだけ金と時間をかければ容易に集められるデータではあることやから、ダウンロードするの気が引ける人は普通に自分で購入して音声データセットとして使えばいいと思うで、そちらのほうは法律面では少なくとも今はほぼセーフやろうし(生成段階や公表段階での問題は置いておいて)
722今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 20:06:37.50ID:xpqjGt0L ちょっとだけではないやろ!感謝しとるわ!
まぁ半分趣味でコツコツ集めとったとかなんかな
まぁ半分趣味でコツコツ集めとったとかなんかな
2024/01/24(水) 20:15:29.27ID:TyBdzx0a
データセット見てるけどこのくらいの長さでええの?ワイ合計1時間位の音声読み込ませてたわ
724今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 20:22:57.33ID:bMbjHPBB SBVの簡易学習用データセット作成ツールでERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data云々ってエラー出て
Chatgptに聞いてもなんのこっちゃって感じやったけどIssue見たら特に問題ないんやね
cmd見て処理に妙に時間かかるファイル消したらERROR出なくなったし
ちなみに其のファイルは「~ましょう」の「aしょう」だけ切り取られた音声で「ご視聴ありがとうございました」とか「さあ、行きましょう。」って書き起こされてた
Chatgptに聞いてもなんのこっちゃって感じやったけどIssue見たら特に問題ないんやね
cmd見て処理に妙に時間かかるファイル消したらERROR出なくなったし
ちなみに其のファイルは「~ましょう」の「aしょう」だけ切り取られた音声で「ご視聴ありがとうございました」とか「さあ、行きましょう。」って書き起こされてた
2024/01/24(水) 20:25:50.40ID:QLGKn/bp
Bert-VITS2系は合計データセットは15分もあれば声質再現とかは十分いけるで、1時間以上だと表現の質は上がるっぽいけどどこまで上がるかは分からん(どれだけ感情表現がバラけて多く入っているかとかにもよりそう)
ただ2時間とかそれ以上で回すことに意味があるのかは分からん。既存TTSなら多ければ多いほどいいらしいけどなあ……
ただ2時間とかそれ以上で回すことに意味があるのかは分からん。既存TTSなら多ければ多いほどいいらしいけどなあ……
2024/01/24(水) 20:53:54.49ID:JA4viUJP
そのパターンが来た時の抑揚だから長さよりは種類の豊富さじゃないの
まだ触ってないから知らんけど
まだ触ってないから知らんけど
2024/01/24(水) 20:59:31.48ID:5oaYtcXT
アニメキャラとか数分でもいけるよ
抑揚や感情表現はベースモデルの方でやってるのかな?
そこらへんはむしろ「下手に追加学習させないほうがいい」までありそう
気合い入れて作ったやつより数分の素材で適当に作ったやつのほうが出来が良かったりするし…
抑揚や感情表現はベースモデルの方でやってるのかな?
そこらへんはむしろ「下手に追加学習させないほうがいい」までありそう
気合い入れて作ったやつより数分の素材で適当に作ったやつのほうが出来が良かったりするし…
2024/01/24(水) 21:44:13.73ID:TyBdzx0a
自分のpcはよわよわなので短い時間でも十分と聞いて安心した、声は少数精鋭の方がいいんやな、ありがとう
2024/01/24(水) 21:55:00.92ID:1ObSRNhs
730今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 21:59:30.91ID:dRGXIgSs まぁ肩のちから抜けよ
731今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/24(水) 22:01:53.10ID:b1SXX0A/ 少なすぎてもイントネーションが不自然になりやすい気がする
2024/01/24(水) 22:02:14.57ID:TmBqm/ub
もちつけw
お前らに喧嘩してほしくて公開したんやないで?
そんなことじゃ製作者は後悔しとるで
公開だけに後悔し、、
お前らに喧嘩してほしくて公開したんやないで?
そんなことじゃ製作者は後悔しとるで
公開だけに後悔し、、
2024/01/24(水) 22:06:34.59ID:1ObSRNhs
つまらんことでお目汚しすんません
無事全部DL出来たが時間帯によってはタイムアウトしやすいからもしかすると抜けがあるかもなぁ
無事全部DL出来たが時間帯によってはタイムアウトしやすいからもしかすると抜けがあるかもなぁ
2024/01/24(水) 22:27:34.62ID:TyBdzx0a
容量余裕あるからダウンロードしようとCLI導入しようとしたらログインのとこでトークンコピペ出来なくて積んだんだけど
2024/01/24(水) 22:31:54.45ID:QLGKn/bp
huggingface-cliでログインしてる状態やと、git clone https://huggingface.co/datasets/litagin/moe-speechで全部ダウンロードできるらしいで
>>734
>>658やない?
>>734
>>658やない?
2024/01/24(水) 22:32:40.32ID:QLGKn/bp
あっgit lfs installがいるかもしらん
2024/01/24(水) 22:46:57.87ID:TyBdzx0a
いや普通に空欄扱いでvalue errorなんやが
2024/01/24(水) 22:48:54.47ID:TyBdzx0a
ごめん自決した
すべてうまくいきました
すべてうまくいきました
2024/01/24(水) 22:53:08.43ID:8J4Foz6I
まて早まるな
740今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/25(木) 08:48:21.01ID:iUic83E+2024/01/25(木) 08:56:10.78ID:LN5zrODy
あとはnsfw音声集に期待
742今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/25(木) 09:02:49.67ID:FZtdwHTG 素材によっては「やったー!テストで満点取れた!」でキレたりする
2024/01/25(木) 09:06:31.24ID:byP1dkmO
サンプルテキストだと桜の木の下には〜が一番難易度高い気がする
あとは「あはは」とかの笑い声?
あとは「あはは」とかの笑い声?
2024/01/25(木) 11:36:52.16ID:lLJw9zHD
笑い声が入ってると、笑い声以外のとこでも音質や自然性が一気に下がって、学習データにある笑い方しかできない(「ふふっ」は行けるけど「あはは」はいけない)感じで一番難しい感じ
2024/01/25(木) 12:02:20.64ID:WjMjWhE8
moegoe出た時の
2千人声優データの学習元サイトの
voistock 今見ると音声データベース
全部さっぱり消えて跡地みたいに
なってるな
法的な問題は一切ないっていってたのに
どっかから怒られたのかな
2千人声優データの学習元サイトの
voistock 今見ると音声データベース
全部さっぱり消えて跡地みたいに
なってるな
法的な問題は一切ないっていってたのに
どっかから怒られたのかな
746今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/25(木) 12:08:35.84ID:FZtdwHTG 一覧に直接入れなくなっただけでボイス自体はまだ公開されてるよ
2024/01/25(木) 12:15:17.36ID:WjMjWhE8
おお、そうだったのか。すまない
2024/01/25(木) 22:20:05.93ID:vr/WMFWN
473キャラって書いてあるのに471フォルダしかダウンロードされてなかったわ
途中タイムアウトで飛ばされたかな
途中タイムアウトで飛ばされたかな
749今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/25(木) 22:51:20.19ID:9HQy7LBe git restore --source=HEAD :/
とか?時間かかるかもしれんけど
とか?時間かかるかもしれんけど
2024/01/25(木) 23:59:04.49ID:vr/WMFWN
Pythonでフォルダリスト出してcsvと比較するやつ作って差分調べたわ
なんで抜け落ちたのかは不明
なんで抜け落ちたのかは不明
2024/01/26(金) 08:23:26.33ID:+yGH2Jrz
フォルダ欠けてるなら.wavファイルも欠損してる説ない?
存在しないwavがある、壊れてるwavがある等
存在しないwavがある、壊れてるwavがある等
2024/01/26(金) 10:42:56.06ID:5kvMPl5F
wavファイルもだいぶ抜け落ちてたわ…
2024/01/26(金) 18:48:05.43ID:TTMrZYDw
751みたいな発想をパッとできるようになりたいわ
有能
有能
2024/01/26(金) 20:03:05.41ID:AEcT+Jd9
git lfsが最適解なんかね
試した人いるんかな
huggingface-cliはフォルダ単位でしかダウンロード出来ない仕様らしく、大容量だとタイムアウトしやすいようだ
オレは最終的に、info.csvを参照してローカルのDL済みフォルダのファイル数と比較、足りてない場合は各フォルダごと再DLを行うという自動DLスクリプトを作って全部ダウンロードした
が、結局ファイル数は全部揃うが破損まではわからんままや
試した人いるんかな
huggingface-cliはフォルダ単位でしかダウンロード出来ない仕様らしく、大容量だとタイムアウトしやすいようだ
オレは最終的に、info.csvを参照してローカルのDL済みフォルダのファイル数と比較、足りてない場合は各フォルダごと再DLを行うという自動DLスクリプトを作って全部ダウンロードした
が、結局ファイル数は全部揃うが破損まではわからんままや
2024/01/27(土) 10:47:23.62ID:ofssaJVg
今後の更新を取り込むことを考えてもhuggingface-cliよりgit cloneのほうがいいかもな
.git隠しフォルダがめっちゃ容量食うのが難点やが
.git隠しフォルダがめっちゃ容量食うのが難点やが
2024/01/27(土) 11:36:02.67ID:E9l2ocLR
huggingfaceにログインが必要だからgit cloneできないやん
2024/01/27(土) 11:51:37.83ID:ofssaJVg
huggingface-cliでログインしてからgit cloneすればいけるで
2024/01/27(土) 11:53:21.62ID:E9l2ocLR
git cloneの時に出る認証窓やないのか
サンガツやで!
サンガツやで!
2024/01/27(土) 16:20:15.07ID:kbUyhDmA
Bert-VITS2の活用傾向を知りたいと思って色々検索してるけど、tiktokだと無関係のコンテンツばかりでてくるな
RVCなら出てくるし規約的に生成AI自体が禁止されてるわけでもない、単に投稿が無いだけだろうか
RVCなら出てくるし規約的に生成AI自体が禁止されてるわけでもない、単に投稿が無いだけだろうか
760今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/27(土) 16:23:18.16ID:rLmsTxFl 一応わしが作ったやつね
https://youtu.be/9W_Bp6NHKlA
https://youtu.be/9W_Bp6NHKlA
2024/01/27(土) 17:58:54.40ID:ZQq0VrAc
nsfw音声の選択肢がまだ揃ってないからなあ
射精管理とかの女性優位系なら作れるからポツポツ作って仲間内で公開してるで
射精管理とかの女性優位系なら作れるからポツポツ作って仲間内で公開してるで
2024/01/27(土) 18:17:02.24ID:ZQq0VrAc
こんな感じのを作って練習してる
女性優位以外では、痴漢体験談読み上げはあまり喘がせなくて済むからおすすめや
最終的には堂々と作品と呼べるレベルのものを作りたい
https://files.catbox.moe/y4nk9v.mp4
女性優位以外では、痴漢体験談読み上げはあまり喘がせなくて済むからおすすめや
最終的には堂々と作品と呼べるレベルのものを作りたい
https://files.catbox.moe/y4nk9v.mp4
2024/01/27(土) 18:50:57.73ID:9wciO+/o
2024/01/28(日) 00:12:37.43ID:9fauRT1s
みんな凄いな
俺はそのhuggingfaceとやらのサイトのどこをどうクリックすれば
音声が落ちてくるのかもわからんわ
俺はそのhuggingfaceとやらのサイトのどこをどうクリックすれば
音声が落ちてくるのかもわからんわ
765今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 02:43:32.14ID:qfb4jAug766今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 04:39:12.16ID:u20GRBUN2024/01/28(日) 06:26:57.02ID:K0LKgOk0
2024/01/28(日) 07:40:14.24ID:gfryxBaD
絵もそうだけど技術の発展にはやっぱエロが不可欠なんだなあ
2024/01/28(日) 10:37:55.77ID:YbKmo4v2
770764
2024/01/28(日) 10:42:26.29ID:9fauRT1s 一応RVCでモデル作ったりもしたんや
音声ファイルがあればモデル作れはするで
音声ファイルがあればモデル作れはするで
771今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 10:45:01.74ID:805ZQ+JW2024/01/28(日) 10:46:30.30ID:uEOij8Au
Moe Speech、wavファイルの規格を統一して容量が約半分の184GBになったで
最初からやっとけばよかった、すまん
あと手動音声除外・追加作業を始めたので、完了済みのは
https://huggingface.co/datasets/litagin/moe-speech/blob/main/finished_uuids.txt
にあるから、そこを使っとる人がいたら更新するといいかもしらん。
最初からやっとけばよかった、すまん
あと手動音声除外・追加作業を始めたので、完了済みのは
https://huggingface.co/datasets/litagin/moe-speech/blob/main/finished_uuids.txt
にあるから、そこを使っとる人がいたら更新するといいかもしらん。
2024/01/28(日) 10:48:49.30ID:YbKmo4v2
774今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 10:58:52.44ID:805ZQ+JW2024/01/28(日) 11:01:27.44ID:K0LKgOk0
>>774
じゃあお前が丁寧に教えてやれよ
じゃあお前が丁寧に教えてやれよ
776今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 11:03:07.68ID:ra6+TDGC hugging faceはその仕様上普通のwebサイトみたいに
「ダウンロード」とかいうわかりやすいボタンをクリックすれば落ちてくるような仕様ではない
Git LFSというソフトが必ず必要なのでググってダウンロードして改めて>>640にアクセスすれば良い
普通にwebブラウザでダウンロードすることは不可能
「ダウンロード」とかいうわかりやすいボタンをクリックすれば落ちてくるような仕様ではない
Git LFSというソフトが必ず必要なのでググってダウンロードして改めて>>640にアクセスすれば良い
普通にwebブラウザでダウンロードすることは不可能
2024/01/28(日) 11:03:58.08ID:YbKmo4v2
2024/01/28(日) 11:06:04.69ID:YbKmo4v2
>>774
規約を読んだら丁寧に落とし方も書いてるのに?
だから読んでないんやろと決めつけたけど間違ってなかったみたいやな
Huggingfaceをエロ動画を配るダウンロードサイトか何かと勘違いしてるやろw
規約を読んだら丁寧に落とし方も書いてるのに?
だから読んでないんやろと決めつけたけど間違ってなかったみたいやな
Huggingfaceをエロ動画を配るダウンロードサイトか何かと勘違いしてるやろw
779今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 11:08:21.25ID:lT7Etap8 ここNVAスレの派生スレだからみんなわかってるだけで
直でここに来た人にはいきなり英語だらけのサイトでダウンロードってなると
厳しいかもわからんな
直でここに来た人にはいきなり英語だらけのサイトでダウンロードってなると
厳しいかもわからんな
2024/01/28(日) 11:12:26.90ID:9fauRT1s
いやなんかすまん・・・俺のせいで荒れて
規約の落とし方見てもよくわからんから
これからも自前でシコシコ用意するわ
規約の落とし方見てもよくわからんから
これからも自前でシコシコ用意するわ
2024/01/28(日) 11:14:33.88ID:YbKmo4v2
huggingface とは
これでググれば落とし方の書いてるサイトに辿り着くやろ
これでググれば落とし方の書いてるサイトに辿り着くやろ
2024/01/28(日) 11:14:51.54ID:RhySsjXx
読んだうえでここで躓いたこんなエラーが出たみたいな話なら付き合ってくれる人もいると思うよ
ただわからないとだけ言うから規約読んでないと思われたわけで
ただわからないとだけ言うから規約読んでないと思われたわけで
2024/01/28(日) 11:18:31.41ID:K0LKgOk0
現状、最新のAIいじるならPythonとgitとhuggingfaceについての最低限の知識は必須やな
でもそんな難しくはねーよ
調べりゃ出てくる
でもそんな難しくはねーよ
調べりゃ出てくる
2024/01/28(日) 11:21:14.85ID:fT7bg5B3
>>780
周りが勝手に騒いでるだけでお前さんはなんにも悪くないから安心していいで
周りが勝手に騒いでるだけでお前さんはなんにも悪くないから安心していいで
785今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 11:21:32.25ID:lT7Etap82024/01/28(日) 11:24:58.30ID:YbKmo4v2
>>780
わいも最初はそうやったで
わからんことに出くわすたびにChatGPTに聞いてなんとかやりくりしてた
最近ではChatGPTは検索結果を絞り込むだけやと気が付いて使ってないけどなw
賢いけどネット教科書がないと役立たずや
わいも最初はそうやったで
わからんことに出くわすたびにChatGPTに聞いてなんとかやりくりしてた
最近ではChatGPTは検索結果を絞り込むだけやと気が付いて使ってないけどなw
賢いけどネット教科書がないと役立たずや
2024/01/28(日) 11:27:30.20ID:RDPNvPOb
2024/01/28(日) 11:35:14.43ID:K0LKgOk0
ぶっちゃけ今となっちゃbingで聞いたほうが正確やわ
懇切丁寧に手順説明してくれる
あと、一部でデータセットの存在が拡散されてるからそのうち誰かがnoteとか書くやろな
懇切丁寧に手順説明してくれる
あと、一部でデータセットの存在が拡散されてるからそのうち誰かがnoteとか書くやろな
789今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 11:47:52.99ID:1bKli4+N2024/01/28(日) 11:49:06.05ID:YbKmo4v2
>>785
実を言うとわいは最初にここに来たときに赤ちゃんすぎる質問をして無視されたやでw
実を言うとわいは最初にここに来たときに赤ちゃんすぎる質問をして無視されたやでw
2024/01/28(日) 12:00:05.52ID:ywIe7FGv
2024/01/28(日) 12:16:56.28ID:uEOij8Au
>>772
追加で、そういえばサンプル音源のやつを諸事情で消したので、
代わりに各uuidごとに最初の音源を集めたフォルダ(samples)を作っておいた
ダウンロード方法のとこにのせといたんで、いちいち全部のを1つずつちょっとずつダウンロードする手間は減る、はず
追加で、そういえばサンプル音源のやつを諸事情で消したので、
代わりに各uuidごとに最初の音源を集めたフォルダ(samples)を作っておいた
ダウンロード方法のとこにのせといたんで、いちいち全部のを1つずつちょっとずつダウンロードする手間は減る、はず
2024/01/28(日) 17:38:11.42ID:vPJaOLHD
>>790
自分が初心者の頃スレでクソ対応されたから初心者にやり返すって普通に性格悪いな
自分が初心者の頃スレでクソ対応されたから初心者にやり返すって普通に性格悪いな
2024/01/28(日) 17:42:22.76ID:qCSEhWzj
人少なかった時かもしれんしな
795今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 18:34:40.60ID:7fbnyBBe2024/01/28(日) 19:00:34.30ID:iBxAZymw
>>795はID:YbKmo4v2の自演擁護?w
アニメ好きのための夢の技術を、独り占めして、他の人におしえないとか、性格悪い以外に何があるよ
丁寧に教える気がないなら、書き込むなといいたいわ
こういう排他的なやつがいるから、技術の進歩の足を引っ張るんや
作者様も迷惑してるだろうな
アニメ好きのための夢の技術を、独り占めして、他の人におしえないとか、性格悪い以外に何があるよ
丁寧に教える気がないなら、書き込むなといいたいわ
こういう排他的なやつがいるから、技術の進歩の足を引っ張るんや
作者様も迷惑してるだろうな
2024/01/28(日) 19:03:35.92ID:K0LKgOk0
なんだただの釣りだった
スルーで
スルーで
798今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/28(日) 19:27:20.02ID:QLmE8Jdm 丁寧に教えてもらったことはだいたい忘れるぞ
2024/01/28(日) 20:30:09.83ID:1t+bpX19
最低限の赤ちゃん避けは必要やで騒ぐ奴がいたらリビジョン切ってmainは空にしてもいいで
800今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/29(月) 04:12:47.33ID:uJ1x+HbI 796みたいな赤ちゃんマジやべぇ
2024/01/29(月) 08:34:07.81ID:0u3Ru1NN
なんか少し見ない間に「鯉が溢れてる池に餌投げた」みたいなカオスな状況になっとるな……
2024/01/29(月) 08:49:33.44ID:tyvvEa6X
2024/01/29(月) 09:35:15.07ID:5z8KmH+o
moe speechの作者さん、以前サンプル音源のページで見れたコサイン類似度をminimum spanning treeで表示したグラフのやつ、また見たいのでグラフの画像だけでもリポジトリに加えることってできませんか?
マージの実験するときに似た声とそうでないときで比較とかしたくて、あると便利だなと思ったので…
マージの実験するときに似た声とそうでないときで比較とかしたくて、あると便利だなと思ったので…
804今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/29(月) 09:50:38.91ID:bFBWS1dU2024/01/29(月) 09:56:32.36ID:/+4H8eVR
huggingface版Applio来たで ColabのIlariaも更新マメやしRVCはもうonline版追いかけるだけでええかもな
https://huggingface.co/spaces/IAHispano/Applio
https://huggingface.co/spaces/IAHispano/Applio
2024/01/29(月) 10:23:10.69ID:R/rQluh/
>>804
そいつに便乗したワニガメの赤ちゃんが暴れてる
そいつに便乗したワニガメの赤ちゃんが暴れてる
807764
2024/01/29(月) 10:45:06.99ID:Hm6GUWV62024/01/29(月) 16:20:17.67ID:CmJHnBUm
ああやっと目パチ口パク素材作成とそれを落とし込む動画設定が終わった、慣れないことやるとクッソ疲れるな
世間的には音声生成AIなんぞより遥かに楽なんだろうけど
世間的には音声生成AIなんぞより遥かに楽なんだろうけど
809今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/30(火) 03:19:37.83ID:2AgMYB1q Aivis-Datasetがイマイチいい感じに切って書き起こしてくれねぇなあと思ってたけど
UVRでノイズ除去したら解決したわ
餅は餅屋やね
UVRでノイズ除去したら解決したわ
餅は餅屋やね
2024/01/30(火) 22:21:36.64ID:+s61y8Nu
https://github.com/litagin02/processed-speech-detector/
MoeSpeechから手動で電話音声や壁越し音声を取り除くのがしんどかったので判別するAI作った
機械学習はほんとに素人なのでよく分からん(録音スタジオや声質やセリフによって誤判定も多い)
ローパスハイパスフィルター検知はまあまあ良さそうだけど、リバーブ検知はかなり怪しいので要改善
(今はこれを使って取り出した1500ファイルぐらいを除外して更新する作業をしています)
MoeSpeechから手動で電話音声や壁越し音声を取り除くのがしんどかったので判別するAI作った
機械学習はほんとに素人なのでよく分からん(録音スタジオや声質やセリフによって誤判定も多い)
ローパスハイパスフィルター検知はまあまあ良さそうだけど、リバーブ検知はかなり怪しいので要改善
(今はこれを使って取り出した1500ファイルぐらいを除外して更新する作業をしています)
2024/01/30(火) 23:52:17.58ID:K7tVxd6B
2024/01/31(水) 00:49:58.91ID:v/D0JowF
813今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/31(水) 14:30:03.06ID:eqcnIsQf RVC0813からアプデしてないんですが、最新の10月のアプデで何か新機能とか出てますか?過去ログ見ても誰も話してなかったので
変更点などあれば知りたいです
変更点などあれば知りたいです
2024/01/31(水) 14:46:48.98ID:wXYISPtr
ここはもうrvcの話題は無いで
変更点を知りたければguthubのChangelogを見るといい
doc/jpでなくdoc/cnにしかないで
変更点を知りたければguthubのChangelogを見るといい
doc/jpでなくdoc/cnにしかないで
2024/01/31(水) 14:56:34.11ID:ippu2Vsv
無いわけじゃねぇよ勝手に決めんなw
2024/01/31(水) 15:00:16.66ID:wXYISPtr
>>815
南蛮やねん?
南蛮やねん?
2024/01/31(水) 15:05:34.12ID:ippu2Vsv
>>813
基本部分では変わってないが、一部の連中は改変されたフォーク版で色々試したりしてる
少し軽くなっていたり学習時間が短くなってる、らしい
ベースモデルも他の連中が再学習したものが公開されてたりするから精度や結果も良くなってる、らしい
基本部分では変わってないが、一部の連中は改変されたフォーク版で色々試したりしてる
少し軽くなっていたり学習時間が短くなってる、らしい
ベースモデルも他の連中が再学習したものが公開されてたりするから精度や結果も良くなってる、らしい
2024/01/31(水) 15:09:21.17ID:wXYISPtr
819今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/31(水) 18:35:13.26ID:wQMsh1cN アウラ達のボイスドラマを作り
「そういえばドラートはどうしたの?」
「すいません……彼は素材が少なくて音声が作れないんです」
「何よそれ!」
といったメタネタを挟みたい
「そういえばドラートはどうしたの?」
「すいません……彼は素材が少なくて音声が作れないんです」
「何よそれ!」
といったメタネタを挟みたい
820今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/31(水) 18:57:31.32ID:785sP5hd RVCの学習ってAIイラストみたいに初期条件同じで学習させても出てくるものが結構違ったりするんかな?大体おなじになるの?
2024/01/31(水) 18:58:32.56ID:rKqYD+8m
他のスレだが反AIがまた激しくなってきたな
2024/01/31(水) 18:59:20.46ID:rKqYD+8m
揚げ足取ってAIは有罪!有罪!と釣りを楽しんでるように見える
2024/01/31(水) 19:00:57.93ID:rKqYD+8m
2024/01/31(水) 19:10:50.57ID:bLeW3YvY
2024/01/31(水) 19:13:26.94ID:bLeW3YvY
826今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/01/31(水) 19:36:48.84ID:785sP5hd なるほどじゃあ自分の声素材だけ30分くらいを使って同条件で学習データ出させても出てくるものはだいたいおなじになる感じか
多人数のを混ぜて使ってるとわからんって感じで
特定の短い言葉だけ妙にうまく出ないからなんとかならんかと思ってたけどもう何回か同じ条件で自分で確かめてみるかな
多人数のを混ぜて使ってるとわからんって感じで
特定の短い言葉だけ妙にうまく出ないからなんとかならんかと思ってたけどもう何回か同じ条件で自分で確かめてみるかな
2024/01/31(水) 19:59:24.65ID:itZflxuy
反ワクは専門家に逆らうことで"専門家より詳しい俺!"っていうのに酔ってるわけで、まあいかにも低学歴やなんの取り柄もないカスが好きそうな感じの動機だけど、反AIってどういう動機なんだろ
2024/01/31(水) 20:46:35.87ID:eIqjKucX
RVCなら学習より変換元のソースのほうが影響大きいのと過学習にシビア
30epと入力次第くらい、つまりトレーニング
学習は1本メインにして声のコシ求めるか音程上下求めて足すかどうかくらいかと
30epと入力次第くらい、つまりトレーニング
学習は1本メインにして声のコシ求めるか音程上下求めて足すかどうかくらいかと
2024/01/31(水) 21:25:58.33ID:mawgS5z0
ボイチェン興味あってRVC試してみたんだけど
明瞭にしゃべらないとちゃんと変換できないのはわかった
でもこれって学習している元の音声がそういう音声だからだとは思うけど
ボソボソしゃべりの音声で学習したら同じようなぼそぼそしゃべりでもいけるの?
明瞭にしゃべらないとちゃんと変換できないのはわかった
でもこれって学習している元の音声がそういう音声だからだとは思うけど
ボソボソしゃべりの音声で学習したら同じようなぼそぼそしゃべりでもいけるの?
2024/01/31(水) 23:53:00.13ID:bLeW3YvY
>>829
おそらくいけるとは思う
ただ、特徴的だったりわりと明瞭に喋るキャラを学習したモデルはどう喋ってもそれなりにその声が出るが、ボソボソ無感情に喋るキャラだけを学習したモデルは、喋り方もある程度本家のマネをしないと再現出来ないかも
おそらくいけるとは思う
ただ、特徴的だったりわりと明瞭に喋るキャラを学習したモデルはどう喋ってもそれなりにその声が出るが、ボソボソ無感情に喋るキャラだけを学習したモデルは、喋り方もある程度本家のマネをしないと再現出来ないかも
2024/02/01(木) 05:03:28.63ID:U06S5pIS
AIカバーも当たり強くなってきてるけど毎回モノマネ芸人とAIカバー似てるけどなんで後者だけそんな叩かれるんやろって思ってしまう
2024/02/01(木) 07:15:51.93ID:tztx1CCF
誰が何を叩いてようが勝手にやらせとけ、そんなの気にする意味ないわ
2024/02/01(木) 14:46:10.29ID:RhyxAkU6
https://huggingface.co/spaces/litagin/moe-speech-similarity-map
欲しいって言ってた人いたからMoe Speechの類似度グラフ部分だけ見れるようにしといたで
欲しいって言ってた人いたからMoe Speechの類似度グラフ部分だけ見れるようにしといたで
2024/02/01(木) 14:58:25.55ID:o+pWZavi
2024/02/01(木) 15:15:33.25ID:H7/y1xnp
>>833
正直助かるゥ!
正直助かるゥ!
836今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/01(木) 15:25:04.77ID:/kwvb+um Bert-VITS2の日本語特化版できたらしいやん
https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta
https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta
2024/02/01(木) 16:01:25.79ID:wmQwqYAF
よくわからんけど、styleのpretrainedフォルダのファイルと入れ替えればいいのかな?
2024/02/01(木) 16:15:38.08ID:RhyxAkU6
Bert-VITS2のJapanese-Extraは、本家Bert-VITS2のJapanese-Extraブランチでしか使えんで
(よさそうならStyleのほうもJapanese-Extraの構造やモデルを使うようにバージョンアップ予定やけどいつになるかは分からん)
(よさそうならStyleのほうもJapanese-Extraの構造やモデルを使うようにバージョンアップ予定やけどいつになるかは分からん)
2024/02/01(木) 16:52:38.57ID:dWuaE8uC
なるほど感謝やで
まあ自分はエロ専なので、通常会話の精度よりもnsfw音声のクオリティと量をどう高めていくかのほうに頭を悩ませてるで
まあ自分はエロ専なので、通常会話の精度よりもnsfw音声のクオリティと量をどう高めていくかのほうに頭を悩ませてるで
2024/02/01(木) 17:37:14.12ID:RhyxAkU6
Moe SpeechのNSFW版みたいなのも出したい気はするんやが、いつになるか分からん
適当なエロゲ買えば1つでもまあまあ音声データは多いから使える気するで
適当なエロゲ買えば1つでもまあまあ音声データは多いから使える気するで
2024/02/01(木) 18:32:08.67ID:D4t+FXZF
そもそもぶっこ抜きがどうやんのか分からねえよ!
2024/02/01(木) 18:49:08.36ID:H7/y1xnp
そんなお子様はとっととおうちに帰って suck your mama's tities!!!
2024/02/01(木) 19:44:51.96ID:bSO6H2+B
2024/02/01(木) 19:50:40.83ID:D4t+FXZF
Pub: 01 Feb 2024 10:37 UTC
妙だな、、、
妙だな、、、
2024/02/01(木) 19:51:34.32ID:D4t+FXZF
言う手持ってるエロゲサクレットの1個だけだけどためしてみるわさんくうー
2024/02/01(木) 19:53:07.49ID:z8PjzpdC
エロいこと言わせてシコってるだけなのにホンマ頭が上がらんな
ドチャクソエロいの作ったるで!
ドチャクソエロいの作ったるで!
2024/02/01(木) 20:01:59.73ID:7wYXzngL
エロゲってファイル名やフォルダで声優ごとに分けられてるからええよな
848今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/01(木) 20:42:18.50ID:rZIgo+l5 シナリオファイル読み込めればセリフも抜いてこれるしな
2024/02/02(金) 01:19:41.07ID:5M6F8/h0
2024/02/02(金) 09:16:59.45ID:2dS0uk0B
FANZAのエロソシャゲから持ってくるのもありかな、寝室は大体単一話者だし
2024/02/02(金) 09:46:54.19ID:3LyUPFnw
うーんそれも音声抜きがなあ
なんかいい方法ないかな
素人エロチャで一通り喋らせてからオナニーさせるとか…
あれはあれで高いけど…
なんかいい方法ないかな
素人エロチャで一通り喋らせてからオナニーさせるとか…
あれはあれで高いけど…
2024/02/02(金) 10:58:59.74ID:4VijEr4E
Applio 3.0.5キタで ようやく3.0以前と同じ機能になったかなってレベルや
ライブラリサイズが小さくなってるから前のと置き換えてもそろそろいい頃
https://github.com/IAHispano/Applio/releases/tag/3.0.5
ライブラリサイズが小さくなってるから前のと置き換えてもそろそろいい頃
https://github.com/IAHispano/Applio/releases/tag/3.0.5
2024/02/02(金) 13:07:04.89ID:ghzcTUQO
Bert-VITS2のJapanese-Extra、なかなか良さげやで。学習回していくとあった声のガタツキが少なくなってるっぽい。
あと日本語g2pが修正されたからイントネーションやアクセントも違和感少なくなってる気がするけどプラセボかもしらん。
あと日本語g2pが修正されたからイントネーションやアクセントも違和感少なくなってる気がするけどプラセボかもしらん。
2024/02/02(金) 13:36:45.29ID:ghzcTUQO
pytorchのバージョンが2.2.0になった影響でWindowsでは学習がうまくいかんっぽいから、
Windowsユーザーは
https://pytorch.org/get-started/previous-versions/#linux-and-windows-1
でtorchいれる必要があるっぽいことに注意
Windowsユーザーは
https://pytorch.org/get-started/previous-versions/#linux-and-windows-1
でtorchいれる必要があるっぽいことに注意
2024/02/02(金) 13:48:53.34ID:d0Chqpbz
856今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/02(金) 16:31:13.76ID:dj3s9Rzt2024/02/02(金) 17:58:09.66ID:X3B/EZfx
2024/02/02(金) 18:33:07.47ID:8cPy0C5M
Applio3.0.4にOv2superやったけどRVCからザラザラ感が減った気がするかもしれないくらいでほぼ一緒だった
学習スピードはApplioの方が30~40%早いけど
学習スピードはApplioの方が30~40%早いけど
2024/02/02(金) 19:15:38.89ID:d0Chqpbz
Applioだから速かったのか、superだから速かったのか
どちらにせよ明確な差は速度だけってことかな
なんだかんだでボイチャならRVCが一番精度高いからもっとバージョンアップして欲しいんだがなぁ
どちらにせよ明確な差は速度だけってことかな
なんだかんだでボイチャならRVCが一番精度高いからもっとバージョンアップして欲しいんだがなぁ
860今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/02(金) 20:58:51.45ID:mlNNC5wB2024/02/02(金) 21:09:03.97ID:d0Chqpbz
そもそも本家のRVCはコードがぐちゃぐちゃでかなり無駄が多いらしいよ
だだぱん氏もそれがイヤで書き直してたぐらいだし
だだぱん氏もそれがイヤで書き直してたぐらいだし
862今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/02(金) 21:55:13.01ID:eXFy0MzO Style-Bert-VITS2にJapanese-Extra搭載待ち
2024/02/03(土) 01:20:34.82ID:DORd/8Oc
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.0
Style-Bert-VITS2にJapanese-Extra搭載したで
Style-Bert-VITS2にJapanese-Extra搭載したで
2024/02/03(土) 01:40:01.67ID:LZNcyo3a
>>863
乙やで!
乙やで!
2024/02/03(土) 02:08:43.70ID:DORd/8Oc
JP-Extra、かなり音質の自然性が増してアクセント抑揚も自然になる気がする。どこまでがプラセボか判断できんけどたぶんめっちゃよくなっとる。
ただ英語中国語が話せなくなるから、トリリンガルの売りは消えるな。
無理やり英語中国語のモデルから取ってきてマージして喋らせるということもできはしそうやけどちょっと無理がありそう
まあこのスレの人らなら日本語オンリーでもええやろ
ただ英語中国語が話せなくなるから、トリリンガルの売りは消えるな。
無理やり英語中国語のモデルから取ってきてマージして喋らせるということもできはしそうやけどちょっと無理がありそう
まあこのスレの人らなら日本語オンリーでもええやろ
866今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 07:05:31.45ID:EtEP7KDL >>863
colabにマージ機能もほしいな
colabにマージ機能もほしいな
867今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 07:50:36.31ID:EtEP7KDL 使わない方選ぶとエラーが出る
https://imgur.com/V795QbM.jpg
https://imgur.com/V795QbM.jpg
2024/02/03(土) 08:30:41.72ID:a/k4myDh
>>863
ありがとーやで!
ありがとーやで!
869今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:05:00.41ID:DORd/8Oc >>867
JP-Extra使うならそっちのセルを実行しろ(train_ms_jp_extra.pyて書いてある方)ってことやけど、それでもエラー出る?
JP-Extra使うならそっちのセルを実行しろ(train_ms_jp_extra.pyて書いてある方)ってことやけど、それでもエラー出る?
870今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:09:19.11ID:EtEP7KDL >>869
まずはJP-Extraなしで学習したい
まずはJP-Extraなしで学習したい
871今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:12:58.62ID:roxCT098 JP-Extra
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory ./slm/wavlm-base-plus.
リポジトリ見てもそんなファイルないんだがどうすればいい?
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory ./slm/wavlm-base-plus.
リポジトリ見てもそんなファイルないんだがどうすればいい?
2024/02/03(土) 10:15:58.23ID:DORd/8Oc
2024/02/03(土) 10:16:28.67ID:DORd/8Oc
>>870
構造がいろいろ違うから、無しなら無しの設定で最初から最後までやらんとだめやで。それでエラー出たら報告して。
構造がいろいろ違うから、無しなら無しの設定で最初から最後までやらんとだめやで。それでエラー出たら報告して。
874今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:18:29.16ID:EtEP7KDL よく見たら前処理に設定あったのか
すまんな
すまんな
2024/02/03(土) 10:21:12.89ID:7X5kEa/u
2024/02/03(土) 10:26:08.88ID:RY1STVNL
まだJapanese-Extra搭載のアプデはしてないStyle-Bert-VITS2だけど、「もう疲れちゃって、全然動けなくてェ…」で音声合成したらエラー吐いた
自分のクソモデルが悪いのかと思ったけどjvnvの4モデル全部で出た
テキストを削っていったら「んう」周りが怪しいと思った、だがその他一切のことはわかりません!
https://i.imgur.com/5d80Gl7.png
自分のクソモデルが悪いのかと思ったけどjvnvの4モデル全部で出た
テキストを削っていったら「んう」周りが怪しいと思った、だがその他一切のことはわかりません!
https://i.imgur.com/5d80Gl7.png
877今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:30:19.16ID:EtEP7KDL >>876
たぶん[n]が読めないっぽい
たぶん[n]が読めないっぽい
878今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 10:32:53.10ID:EtEP7KDL 「関羽」とか「懇意」は「カヌ」「コニ」になるな
2024/02/03(土) 10:32:56.86ID:DORd/8Oc
2024/02/03(土) 10:35:09.78ID:DORd/8Oc
「ん」の「n」がナ行になる読みの修正も今回でちゃんとされたはず(読み記号にNを使うようにした)
2024/02/03(土) 10:47:16.68ID:RY1STVNL
>>879
なおったァ!
なおったァ!
2024/02/03(土) 11:06:53.42ID:sp9zp5j3
2024/02/03(土) 11:17:16.94ID:hz5RLZAe
うーん、確かに調教にかかる時間が当社比で半分くらいになった気がするので精度上がったんだろうな
なんならもう調教しなくてもいいくらいやな
ただ、どうしようもないんだろうけど、漢字の読み間違いが結構あるやね
パンツの柄をえと言ったり
なんならもう調教しなくてもいいくらいやな
ただ、どうしようもないんだろうけど、漢字の読み間違いが結構あるやね
パンツの柄をえと言ったり
2024/02/03(土) 11:26:17.80ID:DORd/8Oc
読み間違えはなー。原理的には内部をいじれば感じそのままで読みのみを手動修正はできると思うんやけど、
UIでうまく実装するのが難しそうや
UIでうまく実装するのが難しそうや
885今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 12:20:54.55ID:Fw3xFpQl アップデートしたけど「○ん○」が直らない...
念のため新規で作り直したけど駄目だった、おま環かな?
念のため新規で作り直したけど駄目だった、おま環かな?
2024/02/03(土) 12:29:38.78ID:DORd/8Oc
>>885
ある特定の単語や並びによって駄目とかありそうやから、どの単語が具体的にエラーでたか報告してくれると助かる
ある特定の単語や並びによって駄目とかありそうやから、どの単語が具体的にエラーでたか報告してくれると助かる
887今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 12:41:00.88ID:Fw3xFpQl >>886
推論はエラーなくできるんですけど上で修正してもらった「ん」の「n」がナ行になる読みの修正の部分、
カンウ、コンイ、などの発音が「かんぬ」「こんに」になってしまいます
母音以外の「ん〇」だと問題なく発音してくれます
推論はエラーなくできるんですけど上で修正してもらった「ん」の「n」がナ行になる読みの修正の部分、
カンウ、コンイ、などの発音が「かんぬ」「こんに」になってしまいます
母音以外の「ん〇」だと問題なく発音してくれます
888今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 12:50:47.56ID:Fw3xFpQl2024/02/03(土) 12:54:42.97ID:DORd/8Oc
>>887
あーなるほど、推論はエラーはなくてアクセントのところの読みも間違ってないけど「懇意」の生成された発音が「こんに」とかになるってことかな
旧verモデルは、「懇意」の音素列が「k o n i」として処理されてて「ん」とナ行の区別がついてないから、それはたぶん旧verやとどうにもならん点やな
(事前学習モデルがそもそも「ん」を「n」で学習されていたことの弊害)
その意味でもJP-Extraのほうがええな
あーなるほど、推論はエラーはなくてアクセントのところの読みも間違ってないけど「懇意」の生成された発音が「こんに」とかになるってことかな
旧verモデルは、「懇意」の音素列が「k o n i」として処理されてて「ん」とナ行の区別がついてないから、それはたぶん旧verやとどうにもならん点やな
(事前学習モデルがそもそも「ん」を「n」で学習されていたことの弊害)
その意味でもJP-Extraのほうがええな
890今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 13:00:04.39ID:Fw3xFpQl891今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 14:12:23.84ID:EtEP7KDL JP-Extraは1ステップごとに経過が出るのかよ
892今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 16:23:56.05ID:vwCazGNV2024/02/03(土) 16:30:06.05ID:uNlSyu44
2024/02/03(土) 17:37:55.65ID:DORd/8Oc
両者ともにパンツにめっちゃこだわってて草
895今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 21:20:31.87ID:aJTOwX28896今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 21:26:38.97ID:aJTOwX28 NVAと間違たごめんちゃい
でもアクセラレーターさんダウンロード待ちなしで聞けたわ
でもアクセラレーターさんダウンロード待ちなしで聞けたわ
897今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/03(土) 23:54:14.96ID:zDr2/QIY898今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/04(日) 14:09:38.02ID:p9NOopAP VR機器本体のマイクで使ってたりするんだけど普通のボイスチェンジャーと違ってオーディミキサーとかマイクを使うことで遅延とかが改善されるとかはRVCでもあるのかな?
899今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/04(日) 14:10:26.91ID:p9NOopAP ごめん普通のボイスチェンジャーと同じように、です
2024/02/04(日) 14:14:45.22ID:kOuATE1e
遅延は純粋にマイクの遅延分が影響しそう。遅延よりもマイクの音質による質の差がありそう
2024/02/04(日) 14:33:36.85ID:+aLuUfsz
『普通のボイスチェンジャー』が何を指しているのかがまずわからん
察するに、quest2とかをPCに繋いでVRchatでボイチェンしたいのだが、quest2のマイクを通すよりPCのマイク直のほうが遅延は少ないのか?みたいな疑問かね
だとしたらもちろんそうだろうな、と
でもそれ以上にRVCの設定を詰めたりグラボ新調したほうが効果は大きいかな、と
察するに、quest2とかをPCに繋いでVRchatでボイチェンしたいのだが、quest2のマイクを通すよりPCのマイク直のほうが遅延は少ないのか?みたいな疑問かね
だとしたらもちろんそうだろうな、と
でもそれ以上にRVCの設定を詰めたりグラボ新調したほうが効果は大きいかな、と
2024/02/04(日) 14:44:24.82ID:pCDI+w5G
基本的にバッファを少なくした方が即応的になる
でもバッファが少ないとガビるから4090みたいな上位機種に買い替えてパワーで処理するしかない
安く済ますなら専用チップの載ったボイチェンインターフェースを買うのが待ち時間がない
でもバッファが少ないとガビるから4090みたいな上位機種に買い替えてパワーで処理するしかない
安く済ますなら専用チップの載ったボイチェンインターフェースを買うのが待ち時間がない
903今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/04(日) 15:30:49.96ID:a+skvKu1 遅延は入力遅延+ボイチェン処理の遅延+出力遅延
>オーディミキサーとかマイクを使うことで遅延とかが改善される
これで改善されるのは入力遅延と出力遅延
いまRVCの遅延がどのくらいあるかわからんけどRVCの遅延の方が遙かにデカイから
RVCの遅延を詰めれてないならオーディオインターフェース変えても大して変わらんと思う
>オーディミキサーとかマイクを使うことで遅延とかが改善される
これで改善されるのは入力遅延と出力遅延
いまRVCの遅延がどのくらいあるかわからんけどRVCの遅延の方が遙かにデカイから
RVCの遅延を詰めれてないならオーディオインターフェース変えても大して変わらんと思う
904今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/04(日) 20:57:24.89ID:15msUIb1 JP-Extraの学習で共有メモリの消費激しいのって仕様なんかな?
2024/02/04(日) 21:15:42.91ID:kOuATE1e
構造が一部ver 2.3みたいになっとるし、VRAM使用量増加とかはそれが原因やろうな
906今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/04(日) 21:52:04.75ID:15msUIb1 バッチサイズ2でVRAMと共有合わせて16GB超えるくらい派手にメモリ使うで…
2024/02/04(日) 22:14:04.57ID:7W0/eqdh
Extraでの学習し直し、まだ手つけてないけどそんなメモリ使うのか…
2024/02/04(日) 23:54:16.90ID:kOuATE1e
データ量にもよるから一概には言えんで、ワイのとこじゃ今までと同じバッチサイズで問題なく学習できとる
909今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 00:16:07.44ID:38qfj2Y3 場合によるけどVRAMあふれてても速度低下はないから心配する必要はないで
とはいえ8GB勢ワイはVRAM不足で若干遅くなる時あって気になったから4ステップごとにempty_cacheさせてる
とはいえ8GB勢ワイはVRAM不足で若干遅くなる時あって気になったから4ステップごとにempty_cacheさせてる
910今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 03:10:54.93ID:7X02jBbQ Styleの方は設定変えたりBatch size2でもメモリ不足になるようになったから本家の方で学習してる
この前までBatch size8でも出来てたんだけどなんでか急に出来なくなっちまったわ
この前までBatch size8でも出来てたんだけどなんでか急に出来なくなっちまったわ
911今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 06:57:46.74ID:FgBYXr7X colabで学習したほうがいいかもしれないね
2024/02/05(月) 11:26:50.42ID:ZymMGHH/
本家JP-Extraと構造は同じ(というよりむしろ小さくなってる)はずなんやがなんだろうなあ……
913今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 12:56:27.44ID:kpwt0Jhs 自分で音源抜いて学習テストしようとして文字起こしかけたらダミーのデータまで抜いちゃったらしくてめっちゃ時間かかるわ学習にも使えないわで辛えわ
2024/02/05(月) 13:13:38.51ID:wptVEXXj
nsfw の学習済みモデル消えちゃった?
915今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 14:10:26.10ID:FgBYXr7X Extraだと学習が1ステップずつ表示されるのって変えられないの
2024/02/05(月) 16:10:29.42ID:ZymMGHH/
gc.collect()とtorch.cuda.empty_cache()って効果あるんかね
本家が消してたから消しちゃったけど復活させて試してみるか
本家が消してたから消しちゃったけど復活させて試してみるか
2024/02/05(月) 18:44:05.50ID:g0NVRHqc
RVCでもstyleのような声質とかの階層マージできるようにならないかな
ddpn版は互換が無いし
ddpn版は互換が無いし
2024/02/05(月) 18:56:39.53ID:TJX+/0UC
画像生成AIみたいに学習元の声をプロンプトで呼び出したいわ
いずれは全て統合されてそうなるのだろうけどまだ先だろうな
いずれは全て統合されてそうなるのだろうけどまだ先だろうな
919今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 19:04:16.12ID:iK2MVaq02024/02/05(月) 20:44:41.28ID:ZymMGHH/
ddpn版で一応マージは本家RVCでも機能するで。
ただ階層マージ若干実験したことはあるんやけど、明確にどこになにが入ってるかとかはようわからんかった。
前書いた実験レポ
https://rentry.co/dkirg
ただ階層マージ若干実験したことはあるんやけど、明確にどこになにが入ってるかとかはようわからんかった。
前書いた実験レポ
https://rentry.co/dkirg
2024/02/05(月) 20:47:53.09ID:ZymMGHH/
TTSモデルは声音やら感情表現やらテンポやらと明確に構成要素があるからそれぞれがある場所が分かれてるってのは分かるけど、
RVCはボイチェンやからせいぜい「声音」「どの高さの入力に感度がいいか」「音質?」くらいしか要素がなくて、
それぞれがちゃんと分かれてるかもちょっと微妙という感じやった
RVCはボイチェンやからせいぜい「声音」「どの高さの入力に感度がいいか」「音質?」くらいしか要素がなくて、
それぞれがちゃんと分かれてるかもちょっと微妙という感じやった
2024/02/05(月) 20:59:53.84ID:TJX+/0UC
2024/02/05(月) 21:06:02.30ID:TJX+/0UC
とにかくRVCのモデルが増えすぎて困ってんだよね
しかもこれ精度上がったらまた学習し直しだもんな
マジで気が滅入る
マージとか出来たら最高なのに
しかもこれ精度上がったらまた学習し直しだもんな
マジで気が滅入る
マージとか出来たら最高なのに
2024/02/05(月) 21:12:31.18ID:T/9WEVsh
マージだけにマジ…
2024/02/05(月) 21:14:10.04ID:AOUb64ch
Applio 3.0.5も3.0.4で学習させた後別のモデル学習させたら学習終わった瞬間ブルスクなるんだけどおま環?
最後のエポックは破損しててインデックスは生成されてない
最後のエポックは破損しててインデックスは生成されてない
2024/02/05(月) 23:13:22.25ID:NkN6rqHe
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.0.1
colab上でマージできるようにしてステップごと表示も直したで(たぶん)
colab上でマージできるようにしてステップごと表示も直したで(たぶん)
927今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 23:16:40.67ID:+3UsH0yF お疲れ様です!
928今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/05(月) 23:19:51.52ID:FgBYXr7X 赤髪のサンクス
929今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 02:17:12.22ID:FJekxo+6 Style-Bert-VITS2の学習中のログ生成とログ用のlossの計算消したら速くなるな(1.44it/s→1.65it/s)
930今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 12:54:43.87ID:SMAhexg3 JP-ExtraをきっかけにStyle-Bert-VITS2を入れて素材の用意から生成実行までこなしたけどテキスト入れるだけでかなり自然な音声出るの凄いわ
環境整えてくれてるニキサンガツ
環境整えてくれてるニキサンガツ
931今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 15:48:03.55ID:2Tb6gO1j932今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 19:46:02.40ID:lAlN9xC1933今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 19:46:33.34ID:lAlN9xC12024/02/06(火) 19:56:39.70ID:3nG0PMD+
前処理のresampleにはグラボ関係ないからCPUの性能やろな
詳細設定のところに「プロセス数」ってのがあるからそれを下げてからやり直せばいける(最悪別に1でもそこまで遅くはないと思う)
詳細設定のところに「プロセス数」ってのがあるからそれを下げてからやり直せばいける(最悪別に1でもそこまで遅くはないと思う)
935今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 20:01:48.52ID:lAlN9xC1 >>934
やってみる!サンクス!
やってみる!サンクス!
2024/02/06(火) 20:14:09.76ID:LXwjbVl0
机で作業してる環境音とかが混じった合計40分の音声使ってbf16で学習させたら
2500step位で急激にloss/g/totalが40から170までブチ上がって
どんなテキスト入れてもビーー!!っていう機械音しか出なくなったわ
bf16オフにしたら同じ素材で100epochの3800stepとかでも問題無かったけど
bf16のせいなのかたまたまノイズが学習されすぎて発散したのかは検証してないから謎や
それとbf16オフにした場合ってfp16学習になるんか?
文字起こしの精度はbf16からfp32に変えると分かりやすく改善されるから
fp32で学習してみたいんやがどうなんや
2500step位で急激にloss/g/totalが40から170までブチ上がって
どんなテキスト入れてもビーー!!っていう機械音しか出なくなったわ
bf16オフにしたら同じ素材で100epochの3800stepとかでも問題無かったけど
bf16のせいなのかたまたまノイズが学習されすぎて発散したのかは検証してないから謎や
それとbf16オフにした場合ってfp16学習になるんか?
文字起こしの精度はbf16からfp32に変えると分かりやすく改善されるから
fp32で学習してみたいんやがどうなんや
937今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 20:23:01.76ID:2Tb6gO1j moisesの質落ちたな
声が微かに残るようになった
声が微かに残るようになった
938今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 20:35:12.37ID:iXHkkCqu >>936
同じ状況や
1000stepのはまあまあまともだったけど2000step以降は何をテキストに入れても全部音量振り切ってビーー!って機械音になる
まだ赤ちゃんだから何が原因かわからんが少なくとも数日前まではまともに学習できてたんや
別フォルダに新しくインストールし直した環境でもなったからなんだかようわからん
同じ状況や
1000stepのはまあまあまともだったけど2000step以降は何をテキストに入れても全部音量振り切ってビーー!って機械音になる
まだ赤ちゃんだから何が原因かわからんが少なくとも数日前まではまともに学習できてたんや
別フォルダに新しくインストールし直した環境でもなったからなんだかようわからん
2024/02/06(火) 20:36:32.05ID:3nG0PMD+
うーんワイもまさに同じ状況になっとる、bf16をオフにしたほうが安全かもしらん
bf16オフにしたらfp32になるはずやで
bf16オフにしたらfp32になるはずやで
2024/02/06(火) 20:38:09.54ID:3nG0PMD+
ちなみにワイもbf16をオフにしたら今のところよさそうや。
デフォルトでオンにしとるけどオフに変えたほうがいい気がするな……原因はよう分からんけど(たぶん学習が発散しとる)
デフォルトでオンにしとるけどオフに変えたほうがいい気がするな……原因はよう分からんけど(たぶん学習が発散しとる)
2024/02/06(火) 20:46:11.94ID:3nG0PMD+
何入力してもブザー音になるバグの人は、「bfloat16を使う」のチェックを外して試してみてな
学習元素材の音質とかによるんかなあ
学習元素材の音質とかによるんかなあ
2024/02/06(火) 20:47:40.24ID:LXwjbVl0
ちなみに書き忘れとったけどワイはJP-Extraオンのver 2.0環境での出来事やな
JP-Extraのモデルの影響もあるんかな
bf16オフだとfp32になるんやなサンガツ
とりあえずオフなら問題無さそうだからこれで行くわ
JP-Extraのモデルの影響もあるんかな
bf16オフだとfp32になるんやなサンガツ
とりあえずオフなら問題無さそうだからこれで行くわ
943今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 20:48:38.70ID:FJekxo+6 画像は16ビットでも平気だけど音声は32ビットやないとダメなんやな…
944今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/06(火) 23:27:31.11ID:EtLtXdqV ワイのグラボ古すぎてfp32しか対応してないでちょうど良かったわ
2024/02/07(水) 18:02:00.89ID:RmUOB1dF
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.1
Style-Bert-VITS2バージョン上げ
bf16をデフォルトで無効に、あと学習使用メモリも減らそうとちょっと調整してみた
Style-Bert-VITS2バージョン上げ
bf16をデフォルトで無効に、あと学習使用メモリも減らそうとちょっと調整してみた
2024/02/07(水) 18:21:43.31ID:LNzMkDPF
なんやろな
16bit音源や24bit音源が混ざるとアカンのか
16bit音源や24bit音源が混ざるとアカンのか
947今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/07(水) 19:13:32.76ID:hvf8OUmi ミルクボーイモデル作りたいから早く複数話者で推論できるようにならんかな
948今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/07(水) 19:17:53.08ID:hvf8OUmi こういうエラーが出た
https://imgur.com/L59B4Tg.jpg
https://imgur.com/L59B4Tg.jpg
2024/02/07(水) 19:26:06.46ID:RmUOB1dF
複数話者推論はすでにできるで
2024/02/07(水) 19:29:44.58ID:LNzMkDPF
>>948
そんなウンチ出たみたいに報告されても…
そんなウンチ出たみたいに報告されても…
951今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/07(水) 20:08:29.52ID:hvf8OUmi もうちょっと詳しいの
https://imgur.com/XMt7kcR.jpg
https://imgur.com/XMt7kcR.jpg
2024/02/07(水) 20:15:07.04ID:RmUOB1dF
すまんcolab確かにbert生成部分で失敗するな、チェックしとらんのが悪かった
何か並列処理が何故か悪さをしとるっぽかったのでたぶん直した
いま更新したからもう一回確かめてみてくれ
何か並列処理が何故か悪さをしとるっぽかったのでたぶん直した
いま更新したからもう一回確かめてみてくれ
953今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/07(水) 20:25:08.28ID:hvf8OUmi 治ったで
ありがとう
ありがとう
2024/02/08(木) 07:33:33.16ID:OMXAItIU
VITSのテキストを用意するのが面倒なんですが
音声ファイル用意するだけで何とか学習してもらえないでしょうか
音声ファイル用意するだけで何とか学習してもらえないでしょうか
955今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 07:36:53.58ID:K/FRv+bc2024/02/08(木) 08:37:41.35ID:OMXAItIU
957今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 08:40:16.82ID:K/FRv+bc >>956
Dataset.batで文字起こし出来る
Dataset.batで文字起こし出来る
2024/02/08(木) 08:47:05.42ID:MnlO5wgh
2024/02/08(木) 08:50:07.54ID:OMXAItIU
2024/02/08(木) 08:51:25.48ID:OMXAItIU
>>958
やってみます。
やってみます。
2024/02/08(木) 08:54:45.70ID:CGxym0SZ
>>959
他は知らないけど使い勝手をよく考えてくれているから使いやすいよ
他は知らないけど使い勝手をよく考えてくれているから使いやすいよ
2024/02/08(木) 08:56:04.29ID:CGxym0SZ
それにいいアイデアがあればここに書いたら
できる範囲で改良してくれるフットワークの軽さもやり手やで
できる範囲で改良してくれるフットワークの軽さもやり手やで
2024/02/08(木) 08:57:35.41ID:CGxym0SZ
作者さんには足を向けて寝られないぐらい感謝してるで
どこ住か分からんけどな
垂直に寝るかw
どこ住か分からんけどな
垂直に寝るかw
2024/02/08(木) 08:57:51.87ID:MnlO5wgh
というか文字起こしはもうテンプレ入れたほうがいいかもな
気づかないやつ多すぎ
気づかないやつ多すぎ
965今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 08:59:54.60ID:PEsM49TY 喘ぎ声とか含まれるnsfw音声やと文字起こしされなかったりするのは人力で頑張るしかないんかな
2024/02/08(木) 09:29:54.42ID:SV0V1dtR
喘ぎ声特化の文字起こしAIがあればええんやけどな……ワイも苦労しとる
initial promptにそれっぽい喘ぎ声の書き起こしを入れるとちょっとはマシになるけど、唐突に謎言語やら絵文字やらが書き起こしに出てきて笑ってまうわ
initial promptにそれっぽい喘ぎ声の書き起こしを入れるとちょっとはマシになるけど、唐突に謎言語やら絵文字やらが書き起こしに出てきて笑ってまうわ
2024/02/08(木) 10:15:57.93ID:0OJpevBX
そういえばJP EXTRAにするもんで作り直したらNSFWモデル無くなってて泣いた
2024/02/08(木) 10:22:57.87ID:OMXAItIU
言わせたい単語は、単語で正しいイントネーションで学習させた方がいいのでしょうか?
2024/02/08(木) 10:31:00.09ID:SV0V1dtR
学習データにある単語や文章が言いやすくなるのはあるから、含められるなら含めたほうがええで
既存のVITSのCOEIROINKとかでも挨拶文やらキャラ名をめっちゃいれたコーパス使ってたりとかあるからな
既存のVITSのCOEIROINKとかでも挨拶文やらキャラ名をめっちゃいれたコーパス使ってたりとかあるからな
970今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 11:21:22.06ID:n3UF7LYt エロゲの音声も良いけどASMRの音声もかなり学習素材に良い感じ
背景音声除去版とか提供してくれてるところも結構あるしシリーズものだと同一キャラのデータかなり多くて良き
背景音声除去版とか提供してくれてるところも結構あるしシリーズものだと同一キャラのデータかなり多くて良き
2024/02/08(木) 11:56:45.13ID:MnlO5wgh
ASMRはささやき声とか耳舐め音とか多すぎなんだよなあ
ひたすら淫語と喘ぎ声を出してほしいだけなんだが
そう考えるとnsfwコーパスみたいなのがあればいいのかもね
ひたすら淫語と喘ぎ声を出してほしいだけなんだが
そう考えるとnsfwコーパスみたいなのがあればいいのかもね
2024/02/08(木) 20:00:09.89ID:brtpdwCN
阿久女イク活用の時が来たか……?
973今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 20:45:33.53ID:6DrBm3AR JP-Extra版って笑い声ない話者でもある程度笑えるようになってるな
逆に笑い声ある話者だと劣化してるようなしてないような…
逆に笑い声ある話者だと劣化してるようなしてないような…
974今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 21:34:45.46ID:Znv4h/Tf 最新のにアップデートしたら文字起こしがエラー吐いて機能しなくなっちまったんだが
0からインストールしなおしても同じだし、何がいけないんだろうか
ログにはtranscribe.pyがエラーを吐いている事しかでていない
0からインストールしなおしても同じだし、何がいけないんだろうか
ログにはtranscribe.pyがエラーを吐いている事しかでていない
975今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 21:59:37.72ID:6DrBm3AR ただ単にErrorとだけ出ててValueErrorとかのpythonのエラーメッセージが一切でてないなら正常やで
最新版はなぜかtranscribe.pyの終了コードがおかしくなってエラー扱いになるみたい
最新版はなぜかtranscribe.pyの終了コードがおかしくなってエラー扱いになるみたい
976今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 22:56:18.70ID:K/FRv+bc977今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 23:09:25.14ID:piTBvxmK 左の方は違和感ないのに右は違和感ある
2024/02/08(木) 23:30:18.86ID:9OCWC7wv
喋り方よく真似出来てると思う、すごいわ
ここまでできるなら歌手の歌い方とかも真似できそうだな
ここまでできるなら歌手の歌い方とかも真似できそうだな
979今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/08(木) 23:42:40.53ID:Znv4h/Tf webuiの結果にはerror表示のみコンソールは出力先とか読込先等の情報がでるだけで進行しないんだ
esdlistは生成されるけど中身は空のまま、JP-Extra版以前までは特に問題なかったんだけどな
esdlistは生成されるけど中身は空のまま、JP-Extra版以前までは特に問題なかったんだけどな
2024/02/09(金) 01:56:31.20ID:PSfsO+Vk
Dataset.batたまーにCannot read発生して止まるときある
esd.list開いて手動で修正してるけど1200分超えだと大変
>ValueError: Cannot read: 々 in:
>何々の......ふふっ
esd.list開いて手動で修正してるけど1200分超えだと大変
>ValueError: Cannot read: 々 in:
>何々の......ふふっ
2024/02/09(金) 06:51:43.97ID:K47yR2He
さすがに歌声は音程の情報とかいるやろうし難しそうやなぁ
RVCで歌声データベース作って
RVCで歌声データベース作って
2024/02/09(金) 07:06:32.32ID:K47yR2He
途中送信した
歌声データベース作ってNNSVSだのDiffsingerだのでAIシンガー作った方が扱いやすそう
Style-Bert-VITS2内でもRVCみたいな一括でのピッチ変更あったらいいなとは思うが
歌声データベース作ってNNSVSだのDiffsingerだのでAIシンガー作った方が扱いやすそう
Style-Bert-VITS2内でもRVCみたいな一括でのピッチ変更あったらいいなとは思うが
2024/02/09(金) 08:19:40.15ID:6lctFRzt
2024/02/09(金) 11:19:28.22ID:D2+9rAQ5
>>979
なんやろ、データセットづくりのところは以前から何も変えてないんやけどなあ、CUDAバージョン違いエラーとかやろうか
直接python transcribe.py経由で実行したら何かエラー出ない?
なんやろ、データセットづくりのところは以前から何も変えてないんやけどなあ、CUDAバージョン違いエラーとかやろうか
直接python transcribe.py経由で実行したら何かエラー出ない?
2024/02/09(金) 11:20:59.21ID:D2+9rAQ5
最近はVOICEVOXが謎技術で歌えるようになったらしいけど、さすがに歌は無理やな
きりたんの歌唱データベースで学習させとる人おったけど、めっちゃ音痴で適当なメロディーで歌うTTSモデルになって、あれはあれでおもしろかったで
きりたんの歌唱データベースで学習させとる人おったけど、めっちゃ音痴で適当なメロディーで歌うTTSモデルになって、あれはあれでおもしろかったで
2024/02/09(金) 12:33:03.10ID:ObX0/P1y
確認ですがApp.batで起動でOK?
2024/02/09(金) 13:13:47.83ID:D2+9rAQ5
>>986
何を起動するかによる(音声合成ならApp.bat、データセット作りならDataset.bat、学習ならTrain.bat、マージならMerge.bat、スタイル分けならStyle.bat)
何を起動するかによる(音声合成ならApp.bat、データセット作りならDataset.bat、学習ならTrain.bat、マージならMerge.bat、スタイル分けならStyle.bat)
2024/02/09(金) 14:03:16.48ID:ObX0/P1y
作ったモデルをHugging Faceなどにおいて音声合成はできるのでしょうか
2024/02/09(金) 14:12:15.35ID:D2+9rAQ5
自分でspaces作ればいけるで(何人か公開しとる人おるな)
2024/02/09(金) 17:41:29.00ID:ObX0/P1y
今までVITSについて教えてくれる人がいなかったので非常に助かります。
2024/02/09(金) 18:33:22.07ID:D2+9rAQ5
992今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/09(金) 18:55:14.41ID:2EU7WjtP2024/02/09(金) 19:05:05.67ID:mUhHVbFZ
Part5にして初めてスレの完走か・・・
これも職人さんが定期的に新技術を後悔してくれるおかげやな
これも職人さんが定期的に新技術を後悔してくれるおかげやな
994今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/09(金) 19:37:47.87ID:2EU7WjtP 次スレの保守頼む…誰も見てないだろうけど
2024/02/09(金) 19:44:56.14ID:D2+9rAQ5
そういえばスレ完走初めてやったのか
2024/02/09(金) 19:51:39.04ID:L2Nehy75
毎回途中でスクリプト爆撃されるから純粋に完走はできてないかもなw
997今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/09(金) 19:53:20.78ID:2EU7WjtP NVA部は二日で完走するのでここは二カ月もかかったんやな…
2024/02/09(金) 19:54:43.08ID:f5mtUA6F
音声ポンポン貼れるわけじゃないししゃーない
999今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/09(金) 20:00:35.70ID:2EU7WjtP 貼るもなんもそもそも人がいないししゃーないか
1000今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
2024/02/09(金) 20:01:06.65ID:2EU7WjtP 祝・1000レス
10011001
Over 1000Thread このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 66日 3時間 0分 28秒
新しいスレッドを立ててください。
life time: 66日 3時間 0分 28秒
10021002
Over 1000Thread 5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。
▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/
▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login
運営にご協力お願いいたします。
───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。
▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/
▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login
レス数が1000を超えています。これ以上書き込みはできません。
ニュース
- 永野芽郁の不倫報道火消しへ 永野の自宅マンションには「母親がいた」 永野、田中、キムの所属事務所発表★3 [ネギうどん★]
- 不倫疑惑の永野芽郁、母親が自宅にいる話を“文春砲”の2日前にラジオで連発 [ネギうどん★]
- 立憲が参院選公約に「食料品の消費税ゼロ」 時限措置として野田代表ら執行部が方針決定 [少考さん★]
- トランプ米大統領 「中国を債務不履行にすべき」 [お断り★]
- 中居正広、水面下で反撃の準備か 第三者委員会の報告書での“性暴力者”認定に強い抵抗感、自らの口で真相を明らかにする考えも ★3 [Ailuropoda melanoleuca★]
- 日本は抵抗の構え、トランプ政権が目指す対中貿易包囲網に [おっさん友の会★]
- アンチ武田鉄矢職人のお🏡
- 最近の日本人が「ハリウッド映画」をあんまり観なくなった理由とは...? [253977787]
- 知能「コメ5kgの適正価格は4,000~6,000円」…日本人ok? [249548894]
- 声優の石見舞菜香のソックリさん、彼氏との写真が流出 [159091185]
- 【悲報】愛知万博の入場者数、関係者を含んでいなかった [834922174]
- 著名人のSwitch2当落一覧wwwwwwwwwwwwwwww