X



【ボイスチェンジャー】なんJRVC部 5
レス数が1000を超えています。これ以上書き込みはできません。
0001今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:00:39.54ID:NtbcvmEK
Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/
0002今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:02:00.86ID:NtbcvmEK
以下有用そうなレス抜き出し
32 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1ffc-Lcu7)[sage] 投稿日:2023/11/13(月) 15:32:14.90 ID:God5qFT00
マイク入力の話だけど RVC okibaのF0統計に近い形を入力出来ないか試した結果
ワイの出した答えがコレや 250Hz付近がピークになるように補正すればよかったんや
https://i.imgur.com/Lo2zirp.jpg

あとピッチシフターはVSTI使った方がいいわ VC Client側では0か3までぐらい
今のおすすめは クソ速いRoVeeかクソ奇麗なInner Pitch
https://www.auburnsounds.com/products/InnerPitch.html
それから RVCから出た音がクローズド(反響ゼロ)過ぎて嫌って人は
DOTECのDeeField刺すといい感じになるで 学習時にはこれやるとLearning Rateクッソ下がるんだけどな
https://www.dotec-audio.com/deefield_jp.html
0003今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:03:01.32ID:NtbcvmEK
49 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a21b-sW/m)[sage] 投稿日:2023/11/23(木) 13:22:35.86 ID:66c6SvGK0
RVC okibaモデルの類似度に基づいてグラフ上でサンプル聞けるようにしたエクスプローラー作った
https://litagin02.github.io/rvc_okiba/
話者類似度からの最小全域木なんやけど、眺めるだけでも面白いな
(Beatriceの人がjvsコーパスで同じことやってたののパクり)
0005今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:03:54.60ID:NtbcvmEK
55 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c717-1+JT)[sage] 投稿日:2023/11/30(木) 13:04:50.65 ID:s5yXvEj80
Bert-VITS2なかなかすごい気がするで
https://github.com/fishaudio/Bert-VITS2
1時間くらい学習を回しただけでこんぐらいのクオリティや
https://uploader.cc/s/r2mw27vrlpyaxohags2g5kdsf02bjbnvqzdd3p15o85gmui7m2o6ztr88u2ke2y6.wav
VITSに比べて短時間でできてノイズも少ない気がする。
ベースモデルはここに転載されとる
https://huggingface.co/Garydesu/bert-vits2_base_model-2.1

Bert-VITS2の使い方の記事書いたで
https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
0010今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:07:32.90ID:7vtpdsTb
保守って書くと怒られるのイラつく
0012今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:08:08.91ID:7vtpdsTb
あーえっちな声で男釣ってスパチャで稼ぎたい
0014今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:08:30.72ID:7vtpdsTb
ボイトレとかめんどい
0015今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:08:54.55ID:7vtpdsTb
地声が低くてな
0018今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:10:07.09ID:7vtpdsTb
はいはい
0021今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 17:12:17.55ID:HfgtLD2Q
Bert-VITS2での結果のまた供養
https://uploader.cc/s/16zqapph6kq7h3f82c3bt66i16nipxjjw92x3pc6hbaeso3zer8d0w2273q8ait9.wav
感情が豊かすぎてパンドラの箱感があって怖い、じゃっかんカタコトの違和感はあるが

ここに載せたか忘れたけど作ったモデルのデモとモデル置き場
https://huggingface.co/spaces/litagin/bert_vits2_okiba_TTS
https://huggingface.co/litagin/bert_vits2_okiba
0025今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/05(火) 20:22:03.09ID:zARvbkAg
立て乙riffusionもここでええか
0029今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 01:05:58.75ID:lqBl5/bB
サンイチ
0031今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 01:47:07.03ID:lqBl5/bB
すまん赤ちゃんなんやけど
モデルってマージやらなんやらしてオリジナルの声作れるの?
0032今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 07:06:29.84ID:tlRamRXv
>>28
50エポックとか、回しても100エポック(ステップだと10kとか)で十分な印象
データセットにもよるけど学習時間は長くてもうちの4070やと2時間ちょいで十分や。
0033今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 07:10:52.09ID:tlRamRXv
>>31
できるで(RVCの話よな?)
VC Client上でマージするのが何個でも好きな割合で混ぜられてすぐ確認できておすすめや。
0034今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 11:41:11.47ID:zTqzhiA0
>>27
Bert-VITS2 (15epoch 3000step 話者は全部混ぜた、ちょっとlowtensionな感情が反映されてない感じ?)
https://uploader.cc/s/obd5r7vgdzpy4953glaqibur5wcch4tqgc13klh2pd5xjb1e411ni3x9rrzup3dp.wav
基本話者だけで1時間半とちょっと多きいコーパスだし100epochもいらないやろか

transcript_utf8.csvをBert-VITS2のtext.listに変換するスクリプト置いとくで
https://pastebin.com/HecXRjx4
0036今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 11:50:28.21ID:mNJ7iuxn
>>34
助かる、自分も回しとるんであとでステップ数エポック数どんぐらいがよかったか報告するわ
感情のやつやけど、1文1文分けて生成の設定でやっとる?
全部まとめて放り込むと、最後の感情にひっぱられて微妙な感じになるで
0037今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 13:26:05.64ID:zTqzhiA0
>>36
39epoch 19000step
https://uploader.cc/s/wfkglm1czphict3o17ti2xtgtc3mrnvrrph2pmfuiqa3k6c0l6chc261kg7m52dc.wav
感情反映されなかったのは改行毎に生成できるapp.pyではなくwebui.py(cpu)からやったのがマズかったみたいやね

ちな4070Ti(共有メモリ無効化)で学習しながらapp.py動いたで
プチフリしたから焦ったけど学習もまだ進行してる
0039今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 14:37:41.45ID:zTqzhiA0
ワイは15kHz位から聴こえないんやけど目視で21kHz辺りまで伸びてるな
集めたデータセットだと11-16kHz位でLPF掛ってたりして確認できなかったんだが録音状態ええね
https://i.imgur.com/f7P2LFp.png

演技できるTTSなんて夢の技術が実現しつつあるのが凄い事や
商用のTTSも追従して来るんやろか?
0042今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 18:16:03.63ID:mNJ7iuxn
企業がやっとる音声合成製品に取って代わるにはキャラクターブランドとかそういうのが必要なのであれやけど、
マイコエイロインクとかで音声提供者が自発的にモデルを作って公開してる界隈だったら、こういうのと相性よさそう
コエイロインク開発のシロワニさんBert-VITS2使ってくれんかなあ
0045今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 19:22:54.77ID:gGz7eYdD
Colabでやったら
Google ドライブでエラーが発生しました。
って出るんだけどおま環?
0046今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/06(水) 22:18:51.66ID:zqy5AsvB
>>33
サンガツや!
まだ何もわからんけど入部するで
0051今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/08(金) 11:18:12.96ID:9Pe6Rvoh
Bert-VITS2、関西弁で学習させるとちゃんとアクセントも何故か関西弁になるらしい
感情も抑揚も文章の意味によって変わるし、学習爆速で質もVITSより高いし、TTS界隈的に普通にめっちゃすごいのでは……?
0054今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/08(金) 12:28:31.69ID:5x0oS9Je
過疎すぎてもあれだけど広まりすぎても岸田ディープフェイクみたいな迷惑な輩も出るだろうしなぁ、あれはロゴを勝手に使ったのが問題なんだけど
0056今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/08(金) 23:52:25.48ID:EbSKZJE0
oobaかkoboldでvits2動けば捗りそう
0059今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 01:38:05.89ID:SrQDbGRs
すまん、https://github.com/litagin02/slice-and-transcribeについて教えてクレメンス。
「wavファイルをinputsディレクトリに入れてください」とあるが、「inputsディレクトリ」ってなんや?そんなのどこにもないんやが・・・。
導入に書いてあるコマンドでgitするだけじゃアカンのか?
0061今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 01:58:07.28ID:SrQDbGRs
>>60
slice-and-transcribeの中に「inputs」と「raw」フォルダを作ればええんかな?
やってみたらこんなエラー出たが・・・。
2023-12-09 01:55:55.9548834 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
0063今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 08:54:49.03ID:EUlIIqVY
>>61
inputsフォルダだけでええで、rawは自動で作られる
そのエラーはエラーというより警告で無視していいやつや
分かりにくくてすまんな
0064今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 10:03:17.71ID:SrQDbGRs
>>63
作者様やったんか。ホンマサンガツやで。
しかしやっぱアカンな・・・。ご指摘の通り、inputsフォルダ作ってそこにWAVファイル入れてみたが、
Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not workと出る。
bingちゃんがpip install ffmpegせえ言うからやってみたけどアカンわ。
0065今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 10:13:18.87ID:EUlIIqVY
>>64
あーすまん、確かにpydubにffmpegが必要やったわ
Pythonライブラリじゃないんで、たぶん手動でインストールする必要ある(pipでは別に入れる必要ないっぽい)
「ffmpeg Windows インストール」とかでググって入れてくれ
0068今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 13:33:27.23ID:EUlIIqVY
>>67
(最終的に学習に使うwavの合計で)いつも40分前後でやっとるけど、RVCと同じくらいの15分とかの少ないデータ量でもそれなりにいけるっぽいで
あんま5分とかで回したことは無いけど行けそうな雰囲気ある
Irisia Projectの合計2時間でやったやつでも質がめっちゃ上がったという感じは正直ないから、長さはそんなにいらん気する
0069今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 13:48:38.83ID:aux1tGeX
ffmpegはどうせvenv有効にするから venv\Scripts にビルド済みの ffmpeg ffprobe ffplay ブチ込んでるな
これはactivateが勝手にパス通すから環境変数弄んなくてもええぞ

>>67
あんま検証してないけど 8分 13分 後 >>27 (全部)
質も重要やろうけど多分短くても感情表現色々混ってた方が向いてると思うで
これらを自動的に学習推論するみたいやし
0070今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 16:14:48.08ID:SrQDbGRs
ffmpegはインストールできたがやっぱり動かんな・・・。
Using cache found in C:\Users\user/.cache\torch\hub\snakers4_silero-vad_masterと出てる。
Silero VADをgit cloneして、そのフォルダの中にslice.pyを入れて起動させてみたがそれでもアカンわ。何が原因なんや・・・。
0072今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 18:27:15.02ID:SrQDbGRs
>>71
この手のエラーが10個くらい表示されとるが、これは無視してええやつなんよな?
2023-12-09 18:23:14.4986353 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
これらが表示されるだけで何も処理されず(rawフォルダも作成されず)に最初に戻されてるわ。
PS G:\Bert-VITS2\kakiokosi\slice-and-transcribe>
0075今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/09(土) 18:50:46.81ID:SrQDbGRs
わざわざスマンな・・・。ギップルしたけどやっぱり変わらんわ。
多分ニキにとって当たり前の何かをワイがやってないんやと思うわ。ワイにはまだ早すぎたようや。
あんまり騒ぐのも申し訳ないので、ここらでROMるやで。ホンマサンガツな。これからもよろしくやで。
0077今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/10(日) 03:22:59.36ID:NZpkpBHa
俺も4日前からデビュー
よろしこ
0078今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/10(日) 11:01:26.41ID:zE4bzkUH
>>68
㌧クス、目安にさせてもらいやす
0079今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/10(日) 11:05:31.81ID:lwUNw4Eq
>>76
CHUNKとEXTRAの設定次第だがそんなもん
0084今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 03:42:15.34ID:u3pWUgFj
エラーが出まくったけどうごいてる。
(vit_env) C:\Bert-VITS2>python train_ms.py
加载config中的配置localhost 加载config中的配置10086 加载config中的配置1
加载config中的配置0 加载config中的配置0
加载环境变量
MASTER_ADDR: localhost, MASTER_PORT: 10086,WORLD_SIZE: 1,
RANK: 0,
LOCAL_RANK: 0
12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████6/96 [00:00<00:00, 31921.13it/s]
0085今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 03:43:25.76ID:u3pWUgFj
12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 96 12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████████████| 4/4 [00:00<?, ?it/s] 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 4
Using noise scaled MAS for VITS2 Using duration discriminator for VITS2
INFO:models:Loaded checkpoint 'Data/model_name1\models\DUR_0.pth' (iteration 0)
ERROR:models:enc_p.emo_quantizer._codebook.embed is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.initted is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.cluster_size is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.embed_avg is not in the checkpoint
ERROR:models:emb_g.weight is not in the checkpoint
INFO:models:Loaded checkpoint 'Data/model_name1\models\G_0.pth' (iteration 0)
INFO:models:Loaded checkpoint 'Data/model_name1\models\D_0.pth' (iteration 0)
0086今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 03:45:15.70ID:u3pWUgFj
******************检测到模型存在,epoch为 1,gloabl step为 0*********************
0it [00:00, ?it/s]INFO:models:Train Epoch: 1 [0%]
INFO:models:[2.746347427368164, 2.83308744430542, 4.527602195739746, 24.40008544921875, 3.1789772510528564, 3.6999363899230957, 0, 0.0002]
Evaluating ...
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\G_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\D_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\DUR_0.pth
20it [00:23, 1.20s/it]
INFO:models:====> Epoch: 1
以下続く。
もう寝て朝に結果をみることにします。
0091今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 11:50:32.80ID:z6JoO8hJ
亡くなっている要人であれば問題は起きにくいのかもしれないが
過去の発言などと捏造してアップするような行為はまずいし
平常時も声の権利ってどう判断されるのかよく分からんな……まだ判例なさそうだし
0092今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 14:58:00.02ID:pal7zLgb
>>81
そんなもんとは言ったけど
ソフトとハード突き詰めていけば
ほぼリアルタイムで十分な品質は夢じゃないぞ
OSがUbuntuのPCでMMVCServerSIO.py を実行した方が良いと思う
WindowsとLinuxベースの違いが少なからず遅延に影響してるはず
0093今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 18:50:15.57ID:xFe5Zh3Y
>>88
帰ってきたので、推論を試しました。
つくよみちゃんのデータ100件をもとに作成。G1000,G4000で聴き比べしましたが、G1000でも十分そのまんまの声になりました。
しかしながら、Emotionの値は0-9のどれにしても話し方が変わったようには思えませんでした。よって感情にかかわる学習はできていないように思います。
また、Languageは日本語に設定し、日本語の文章を読ませることはできますが、少しでも英語が入った文章、たとえば、(目的地までLet's go)などは、英語の部分を話さず飛ばして発話されます。
そこでLanguageをMIXにすれば英語も話してくれるかなと思いましたが、エラー(Error: No valid speaker format detected. Please check your input.)となり、音声を生成することができません。
Languageをautoにすると、英語部分も話すようになりますが、日本人がでLet's goというときのレッツゴーという発音ではなく、英語話者のでLet's goの発音になるので、違和感しかないですし、日本語部分も少し下手になるので、autoはダメだなと感じました。
0094今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 19:15:18.60ID:xFe5Zh3Y
英語の部分は全部カタカナにしてあげると、日本の発音で英語をよむね。
簡単に解決した。でもiphoneとかusbとかも発音してくれないから、アイフォン、ユーエスビーと書いてあげる必要がある。
0096今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 19:28:07.42ID:xouBE6hM
RADEON 使ってるんで動かないウゴゴなっってたがONNX対応最新のをいれてみたらCPUで出来るようになっってんのな
Ryzen 5950X 22スレッドだかで1 Epochあたり21-24分掛かって草
まぁ軽いゲームや動画視聴くらいなら並列でも問題なく動くから良いや
0097今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 19:32:46.34ID:xouBE6hM
>>95
たまたまTTSの話題が続いてるだけでしょ
俺はボイチェン目的でずっとここ見てる
0098今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 19:43:12.78ID:Wca6sJD3
>>93
おつ
英語読んでくれない問題は人力で頑張ってアルファベットをカタカナに変換するのを噛ませたりしとる人はおった、カタカナで打つのがまあ手っ取り早いな。
Emotionは今はうまく機能してないっぽくて、次verの2.2でちゃんと動くようになるっぽい
(つくよみちゃんなら元の音声読み上げが感情が平坦やからアレやけど、データに感情があればちゃんと文章によって感情が変わるはず、うまく学習できてれば)
0102今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/11(月) 22:53:07.89ID:ucTDrGSM
LLVCの事やったらDistil-Whisperと同じでpruningしてるから英語のみ特化になるんやな
論文読み込んで実装してグラボいっぱい借りて日本語でモデル特化で回さんといかんからそんな酔狂な奴はおらんやろなぁ
0106今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/12(火) 15:38:30.65ID:YW2FGSC7
好きな声にいい感じの曲AIカバーさせてんほりたいけど中々うまく変換できん
ボーカルぶっこ抜けば比較的キレイに歌ってくれるオススメの曲ないか?
0110今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/13(水) 16:48:44.14ID:952iZou2
他の場所は普通なのに高い音のときだけオク下で変換するのやめちくり〜
まるでサビだけオク下になるワイみたいだあ…(直喩) AIなんだから難なく全部歌って、どうぞ
0115今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/14(木) 06:17:34.46ID:9YEGlaAf
というか、思ったほどよくないよね。RVCと差があまり感じられないんだけど。
0116今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/14(木) 06:58:39.84ID:QNS/bVEY
Bert-VITS2の話なら、TTSとボイチェンは単純には比較できない気が
0117今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/14(木) 15:49:44.59ID:z+fYYr8q
VC Client専用にPCを用意しようと思うんだけど、グラボって変換までの遅延と値段のバランスを考えると以下のどれがいいのかな
メインPC
→ VCC専用機(NVIDIA Broadcast→VoiceMeeter Banana(VST)→VCC→VoiceMeeter Banana(VST)→メインPC)
というような構成を想定(できるかまでは未確認)
・RTX3060 12GB
・RTX4060ti 16GB
・RTX4070
・RTX4070ti
0118今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/14(木) 23:21:48.17ID:F2976Luf
遅延気にするならまずvoicemeeterは無い
DSP内蔵でエフェクトかけてライン戻しミキシングのできるオーディオインターフェイス買え
具体的にはio44とかの内蔵エフェクトやゲートが有能
どうしてもVST使いたいならむしろUAD-2つかえるuniversal Audio Apollo
0120今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/14(木) 23:49:04.75ID:V4LyIlWk
中古の3090がいいと思うよ
0123今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 00:47:04.95ID:E+ykIKFv
Blue Cat’s ConnectorでPC間やDAW間を音声に戻さずに低遅延でデーター転送できるで
https://www.dtmstation.com/archives/55390.html
生音声入れるとこはDSP付きオーディオインターフェイス入れたほうが絶対ええけど
VCC用専用グラボのメモリはAIさわるなら16G欲しいなあグラボ買うには時期悪いから年明けまで待ったほうがええけど
0125今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 11:46:59.73ID:ZL0fV9a2
志村けんさんのデータを作りたいがいい素材がない
0126今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 12:37:04.27ID:0/y+sDf/
>>120
結局VRAMが一番重要になるAIだと最良の選択肢だよは
今年でもちょいちょい新品の3090が13万前後で売ってたのマジで惜しい
中古はマイニング酷使でオイルブリードのリスクが高いのが本当になあ
0129今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 17:55:08.84ID:J2J0+ICs
学習ならVRAM必要だろうけどボイチェン用途でもそんなに重要なんか?
0131今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 18:05:33.74ID:KFIvbw6t
>>130
なんないで
この下に下げると急に始まる
0132今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:18:43.84ID:YxJX5xBU
ダイエットは限界だ
しかし
車の修理
0133今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:23:17.15ID:uLwxLvj7
これで普通はリバウンドするんだろうけど
どこの国の責任だろう
0134今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:28:02.69ID:jEn9aLNn
またスクリプトきたんでほどほど書き込みせんと落とされるで
0136今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:29:09.10ID:jEn9aLNn
200スレ超えると
最後に書き込まれたスレ順で下半分落とされます
0137今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:29:11.31ID:aaB2bs6Z
>>12
なんでゴリ押しなの危機管理能力0で来年アイランド2なんてないパターンやろw
0140今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:36:57.84ID:RRILED5Q
もし無かった場合どうなるか見物だな
0141今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/15(金) 20:39:41.14ID:x2xOdsms
ただものじゃないぞ
+1.66%
0148今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 04:22:57.27ID:wppvZoPw
>>147
糞ライブラリで草
0149今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 08:11:40.24ID:dJY5GNKt
tiktok liteでPayPayやAmazon券などに交換可能な4000円分のポイントをプレゼント中!
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
      
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード(ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要!)で合計で4000円分のポイントゲット

ポイントはPayPayやAmazon券に交換できます!
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。
0152今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:13:41.41ID:DURvKtMr
横転した漫画はあるし
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは
0153今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:14:19.24ID:ZYT35+6D
>>107
お前が一番身体検査しろよ
年齢変わらない
0154今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:15:58.33ID:gwW3MEvF
>>69
イヤモニで指示する番組になっちゃってがっかりや
漫画自体は悪くないよ
おんな城主直虎はあんまおもろくなかった
0156今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:21:03.05ID:gSjZm5vJ
>>51
仕事やとおっさん同士美少女の幻覚をかけてくれる頼もしい味方
なんかあるでしょ
0158今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:51:28.67ID:R0pIFyTP
ガッカリはしないやろ
0159今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 20:54:01.01ID:5y8XTIEj
思い出したら
最も先鋭的な書き込みだから、若い世代だから
女優だよ。
0161今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:08:32.71ID:3zpwGAO2
これ何?
親米派は
0162今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:10:40.31ID:ZTkDauMr
>>7
稚魚もは無いよね
普段から言動が伴ってれば道具なんか好きなオッサンアニメ見るか?
ふうまろ髪切りすぎで実力以上はしてると思うよ
ほら全部憶測でしかないのな
0163今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:11:07.02ID:ObxDFux+
>>122
あの体型見ただけで
0166今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:24:32.73ID:KO/K/LBt
>>164
コロナの後に24h出ても辞めて
最近アカンと思ってたわ
スーパースラムでスラムは同じなんだよな
0167今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:24:50.09ID:mL4gSSlB
ヒロキの部屋住めるだろ
エンジンは叩くだろうけど
もう人も多いよな
0168今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:27:19.30ID:7rv9blam
>>36
アニメ化するかはほんと無理
https://i.imgur.com/GdGLF0b.jpg
0169今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:28:33.03ID:YYj4qJ98
展開早すぎてよく知らんやつが
0170今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:30:42.27ID:m3aGWBbU
接種した可能性も華もないのに
ヒロキのすべてのが萌えた
0172今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:34:53.00ID:KZjxquPG
二気筒でよかった(:_;)
( ゚ ⊇ ゚)フンフン
0174今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:40:10.93ID:eqVItttP
自分は
0175今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:45:28.95ID:rgYMxXWL
今日はスプリクト元気やな

>>146,147
index=0.0やけどheavyやで

これと関係ないけどパススルーしてなんか音量小さいなと思ったら
モノ+モノで入力の片方しかマイクが繋がってない環境では
音量がマイク(L)/無音(R)みたく平均化されて半分になっちまうみたいやな
https://github.com/w-okada/voice-changer/blob/0f0225cfcdc62ddf41495124cc9a5cef53c5f014/server/voice_changer/Local/ServerDevice.py#L136
https://librosa.org/doc/main/generated/librosa.to_mono.html
こう言う環境はinのゲイン2.0にすればええんやろか?ギターとかマイク以外の機材繋いでる場合困りそうやけど
0176今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 21:48:08.60ID:pk8Uk/cH
なんで
ボート
パチ屋
バカモノの間違いじゃ無いか?
https://i.imgur.com/mJwl7qU.mp4
0178今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:03:11.63ID:mV2Y/k/d
あの燃え方では優等生だけど下手な人にも
0180今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:07:04.28ID:kktSjngt
自身のメンタル体力が落ちてるんだけど数字改変してるよな
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた
0182今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:17:14.00ID:manSJDaf
一般社会でこんな
0183今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:19:33.35ID:bXTkb+k+
まずその書き込みのおかしいところのお坊ちゃんだと思われても無駄な我慢と苦労で草
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw
0184今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:21:56.23ID:2FEb53z9
>>144

ただ台の版権とか考えると凄いんだよな

https://i.imgur.com/uPFmerJ.jpg
0186今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:34:30.49ID:wN7n4SsH
ねいをおゆをかにともへ
0187今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:41:13.09ID:OgnrSHx4
>>103
出ても少ないし
こいつのせいじゃないよね
ネイサンは本当にありがとうございました
>運転手も含め8人がやっとるやろ
0188今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:47:19.56ID:wZtrQT6T
真っ暗
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな
0189今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:53:34.89ID:3IAi/Mgl
流石に一番酷かったのは明白
0190今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:55:50.88ID:32bo6dFe
>>186
むしろなんでまだ生きてるはず
0191今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/16(土) 23:58:30.87ID:K0Ecg+B3
異性関係は母親や付き合った俳優Nはその恐ろしいカルトをなんとかしろ
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね?
0192今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/17(日) 00:05:58.83ID:G/TX1hEt
>>30
分離帯にほぼ真っ正面から突っ込んで確認を取ってないぞ
擬人化アニメ
さいころ倶楽部みたいな話
0193今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/17(日) 01:44:39.93ID:XaIYbYGz
>>177
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで

https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない

sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか?
今日はこの位にしておきます
0194今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/17(日) 10:27:42.40ID:XaIYbYGz
>>193
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで
0195今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 13:14:25.21ID:bYoIY8K4
Bert-VITS2のモデルのkey別マージで実験しとったら、思ったよりもはっきり話者性と感情表現・抑揚とかが入ってる箇所がわかったから、
その点で声音と感情表現・抑揚とテンポの3つの要素で2つのモデルを取り替えたりマージしたりできるやつ作ったで
https://gist.github.com/litagin02/f07a5d7217c9efa4918de0812fd99cd3
これで平坦なコーパス読み上げ文章のモデルを無理やり感情豊かにできる(1つ目が素のずんだもん、2つ目がマージで作った感情豊かなずんだもん)
https://uploader.cc/s/w6p6svisy00w5ymx7qemgbjmshz250ewt9lva4edqcbfuqe55x51l1zdta6zk8i7.wav
https://uploader.cc/s/1o9jz8pzt1kh8vemb9xllj1g5yl4td3x9b8b4mjyzytatb2dxdhlxglnealminoc.wav
0197今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 13:58:54.28ID:TFJNuQDv
好きなボーカルの音声で別な曲を歌わせることが出来るというので、Google ColabでどうにかこうにかConvertで安定して音声変換できるようになりました。
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか?
0200今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 15:39:55.45ID:OIfpkr60
>>195
すんごいもん作るなぁ
0201今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 15:40:01.39ID:bYoIY8K4
>>196
学習のサンプリングレートは48kHzにしてもあんま変わらん・むしろ逆に悪くなるので40kHzで十分、という意見が(というかワイの手持ちだとそうなった)
でも48kHzのほうがいいっていう人もいるらしい、やっぱデータセット依存な感じがあり、両方で試す方がええ気がする
0202今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 16:16:35.86ID:NPDrbaSy
>>197
上にも書いてあるけど、セットする曲次第だよ
原曲だとハモリ混ざってうまく変換できないから歌ってみたなどから抽出したほういい
学習データ正しいかは、ピアノ伴奏だけの曲から抽出したやつだと比較的きれいだから試してみたほういいかも
0203今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 18:11:00.94ID:TFJNuQDv
>>199
WEB_UIを使ってるので選択肢がpmかharvestかdioしかありません
harvestでも同じような結果だったんですが
次はdioやってみようと思います

>>202
2人のアーティストをやってみましたが
確かに2人とも1人でよくハモり、エコーもよくかかっています
現行のRVCではハモりに対応していないのは知っていたので
ボーカル抽出したものからハモりを避けてなるべく素の歌声の箇所をそれぞれ100個ずつ切り出してはいますが
やはりデータの質が肝っぽいですね
なるほど歌ってみたは良さそうですね
0205今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/18(月) 19:17:53.03ID:EVDnrv4P
>>201
なるほどサンキュー
>>204
今のRVCはrmvpeがクオリティ高いのができるの?
0207今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/19(火) 08:41:54.05ID:1JuVJruY
>>204
ありがとうございます
ノートPCなもので別なバージョンを実行したときにCUDA搭載してないと無理というエラーが出たのでローカルは諦めてました
AI自体それなりのスペックを要求するので私のローカル環境でRVC実行は無理そうです
いずれごついデスクトップPCを手に入れたときは好き放題やってみたいです
0209今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/19(火) 17:30:40.32ID:MjHsbJYI
>>208
あー話者idが0同士のマージしか想定してないわ、複数話者がいた場合にどうなるかは試しとらん
同一モデル内でも原理的にはできそうだけど話者idがどうやって使われてるかいまいちよく分かっとらんからすぐにはできんな……
0212今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/19(火) 22:48:47.90ID:61RKEbyH
乙zennにも記事乗っけたんね
RCVの学習は脳死でrmvpe選んどけばいいんだけど
声優のスタジオクオリティで取ったデッドなしっかりした録音素材レベルだと
harvestアルゴリズムの素性の良さからそっちの方がいい例外が一部だけはある
VC Clientの時選ぶのはマイク入力のピッチ推定に使う方なのでノイズに強いrmvpe選んどけばいい
0216今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/20(水) 12:21:19.59ID:whLLZUdz
歌ってみたからボーカル抽出しようと思ったらことごとくそいつらもハモってて、歌ってみたの人も頑張ってるなと思った(小並感)
もうワイが…歌うしかないんか?ヴォエ!駄目だやっぱ!(迫真音痴部)
0217今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/20(水) 15:08:17.60ID:ZpgOY3GM
EasyBertVits2 で2.3にも対応してくれないかなぁ。
ワクテカして待とう。
0218今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/20(水) 15:45:25.79ID:7BSiYzss
Bert-VITS2.3 webui_preprocess使ったんだけど指定の事前学習モデルが中国SMS使えないと落せねぇ…

と思ったらここに書いてあった
https://qiita.com/seichi25/items/e6133c5209e2d65b377a

Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_v', 'encoder.pos_conv_embed.conv.weight_g']

なんか学習中に警告出るわ一応推論できてるけど
0225今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/21(木) 21:03:21.84ID:OWEukyD4
https://uploader.cc/s/vriub4zusemgnlf2ncfppetiyy9uv8roofj4huz5y7pbo1byp8r4cha81q9ic1jd.wav
https://uploader.cc/s/m5ylnb12uo56a7q6es2agnzcii5dl6j4hultjojmhxrgtlhwf39v81ys7acgjml8.wav
Bert-VITS2を喘ぎ声オンリーで学習させてみたやつ(複数話者混じってるので声音は安定しないかも?普通の文章もしゃべれるはしゃべれるけどちょっとガビる)
https://huggingface.co/litagin/bert-vits2-nsfw
0230今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 00:26:50.94ID:XMhUrnHB
>>225
とりあえずはこれに更にRVC被せればいろんな声で色々できそうやね
RVC経由で増やした喘ぎ声をvits2のデータセットに入れてみるのも楽しそう
0235今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 10:29:03.22ID:ZNVT95Av
>>234
米津玄師の歌のボーカル部だけを抜き出して学習させる

米津玄師のボイスモデルができる

そのモデルを使って自分でYOASOBIの歌を歌う
もしくは
YOASOBIの歌のボーカル部だけを抜き出して、それを入力し米津玄師のモデルを通して出力
0238今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 13:07:04.04ID:YBCjXFlS
>>237
RVCはボイチェン(セリフや歌ボーカルを入力したらその声を別の人の声に変える)やからそういうことやな
RVCで歌わせたい人の声を学習して、そのボイチェンを通して自分が歌ったりボーカル部分を通したりすれば、歌わせたい人の声で歌わせられる
0241今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 14:21:25.24ID:jH7+zXRT
NVIDIAのグラボな
ほとんど全部がCUDAで記述されてるからAMD やIntel はまともに使えない
0242今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 15:20:09.99ID:RvhSzlue
>>233
ワイのようなエロ利用したいだけのダンゴムシを相手にしてくれてありがとうやで
そして.jsonファイルを違うファイルと取り違えてただけやった
スマンやで
しかし、完成度高いモデルにnsfwモデル混ぜたら完成度高いまま喘がせられるかと思ったけど、なかなか思うようにはいかないな
0243今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/22(金) 17:41:59.20ID:Rx49IFxt
ワイもダンゴムシや
正月に覚えたいと思ってromってる
0244今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/23(土) 07:00:34.29ID:pus1g4sU
>>234
>>236
sunoAIでオリジナル楽曲作ってもらって声を米津に変えるとかもあり

てかsunoAI米津っぽい曲歌声も出せるらしいね
ガチャだけど
sunoくんはアーティストのタグ効くようにしてくれればより細く欲しい曲のイメージを指定できて覇権取れるだろうなぁ
0247今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/23(土) 18:24:03.30ID:O+7nCNNR
>>245
RVCがVoice Conversion(音声変換)でVITSがText to Speech(テキスト読み上げ)でそれぞれ全くの別物やで
0249今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/24(日) 10:58:29.48ID:AoDoxnMx
>>224
これPaperspaceのA4000で試してみた
6時間制限めいっぱいで20000ステップほど終わってた
2000ステップ毎保存で容量34GBになってたんでProプラン基本枠15GB内でやるのは無理
学習する度にダウンロードして綺麗に消せば月額総計2000円程度か?
0255今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/24(日) 22:16:53.08ID:xD/Pfp/2
>>254
仮想ケーブルに流せばいけるやろ
0256今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/25(月) 19:22:00.17ID:kedVu1dK
https://twitter.com/ParakeetIncCom/status/1739205839599411564
Parakeetのリアルタイムボイチェンきたで
(ウェイトリスト登録とは何だったのか……)
総合の質は正直RVCが上でピッチもずれるから歌とかも歌えないしガタつくけど、低遅延は正義って感じでめっちゃ軽くて速い
https://twitter.com/thejimwatkins
0258今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/25(月) 21:11:04.09ID:MWPqNLWp
遅延100msだとワイのこれ>>128より遅いんよ…
0268今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 13:34:53.08ID:xPn7kPMU
琴葉茜exvoice集でこっそりやってみたらええと思う
0269今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 13:42:22.42ID:cDQ9djdu
>>263
chunk下げられないのとio44はあんま関係ないのでどっちかというとモデルの教育具合と入力音声の整流の影響かと思う
ただwasapiは問答無用で実測100ms弱の遅延発生させるからそっちはio44に限らずちゃんとしたASIOオーディオインターフェイス買えば数msまで減らせるで
io44やapolloはDSP内蔵しているのでさらに入力音声のバイパス、ゲート、コンプレッサー処理を遅延μSクラスにできる
0270今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 13:48:47.93ID:cDQ9djdu
>>262
ま?うちそれいまんとこ起こらないや…
0273今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 17:00:04.49ID:cpZ7WCTA
>>269
サンガツ ASIOは使えるけどようわからんで
アウトプットは仮想ケーブルやからインプットをASIOにしたら上の画像と同じ設定でプツプツいうたんやが…
ちな両方ASIOにしたらエラーでてるっぽくてマイクの音が出なくなったで
0276今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 18:43:38.06ID:M+VaoUZO
>>256
これすげえな。RVC client試したときは色々いじってもいまいち微妙な声にしかできなかったけど、こっちは遅延も少ないしインストールして開始するだけですぐキャラの声になれる。
ワイの設定が悪かったのかもしれないけど…
0277今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/26(火) 23:03:20.77ID:MyLDPx+R
hiyori使ってる場合、simple_merge.pyってどこに置くの?
赤ちゃんすぎて全くわからん みんなすごいわ
0279今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/27(水) 02:33:14.41ID:wM5Q0rZb
>>271
ASIO 当然使えるよbabyface proもFSも
0280今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/27(水) 02:43:28.77ID:oFa1nQC+
ぶつぶつの原因はマザボやらCPUやら色々絡むからLatencyMonなんかで観察して一つ一つ潰していくしかないんやな
SoundBlaster(256chunk)からMOTUに変えるだけ(32chink)かなり短くできるようになるからドライバの影響もあるんやな
DTM界でもレイテンシ問題はかなり根が深いから何とも言えん世界や
ttps://u-aim.com/archives/119
0281今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/27(水) 02:53:11.53ID:P+wkvJfF
>>273
仮想ケーブルってvoice meeterかな
あれはvoice meeter製のASIOドライバつかっても遅延ほとんど変わらず50ms発生するから基本使っちゃ駄目なんよ
0284今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/27(水) 20:34:44.60ID:V+/9RLvj
サンガツ!いれてみゆ
0285今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/28(木) 14:53:49.90ID:cbWIwzod
めっちゃ楽やなサンガツ
0287今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/29(金) 15:20:26.15ID:4IO69Izm
https://github.com/litagin02/Aivis-Dataset
Aivisがデータセットづくりがすごい工夫されてて有能そうだけどBert-VITS2限定だしWindowsだと使えんので、簡単インストーラー付きのWindowsユーザー向けのデータセット作成部分のフォークを作った
どこまで書き起こし修正が必要かはよう分からんけど、質が悪くなることはないと思うし、めっちゃ工夫されてるからStyle-Bert-VITS2に入れるデータセットづくりに使うといいかもしれない
0290今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/30(土) 17:41:01.13ID:SNZENq0y
Bert-VITSで盛り上がってるところすまないんだけどRVCで質問させてください
俺は男なんだけど、別に女声にボイチェンしたいわけじゃなくて動画投稿のために
カッコいい声に変換したいと思ってるんだけど
そういう場合って適当にbooth辺りに売ってるイケボのモデルでも買えばいいんだろうか?
自然な女声に変換するのはボイトレが必要なのは何となく分かるけど
おっさんボイスをイケボにするのにもボイトレが必要なんだろうか?
0298今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2023/12/31(日) 22:27:50.33ID:NGVLnzvu
>>297
今は対応しとらん、というか対応したとしてもEasyBertVits2で作ったモデルはスタイル指定はできないので、その音声モデルを使いたいならEasyBertVits2を使ったほうが早いと思う
スタイル使いたいなら面倒やけど学習し直して自分でスタイル作る、って感じやな、すまん
0301今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/01(月) 13:50:26.91ID:i3TY93qZ
Audacityで無音の分割すると文の途中で切れるんやが
上手いコツを教えてくれよ
0302今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/01(月) 14:16:13.92ID:hofToLNI
>>300
ならばlitagin-bert-vits2-nsfw-ver2.1-aegi1を(迫真)
年始だし気長にお待ちするわ
画像生成と一緒ならsafetensorsとpthは構成ほぼ同じ?

声は本人そのまんまになるから学習させるなら故人の声優にしようと思うわ
しかし、データセット作るのにはスマホゲー等のブッコ抜き使う方が遥かに楽という
古い声優だと無料公開1話等から録音アプリでかき集めるしかないね
0304今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/01(月) 15:30:29.82ID:PcT75306
>>302
nsfwのほうかー、あれは話者性が結構ガタついてノイズが酷かったから、複数話者混ぜないnsfwとしてそのうち出す気がするわ
safetensorsとpthはほぼ構成は同じなんだけど、Bert-VITS2 v2.1であった感情の重みを消してStyle-Bert-VITS2では別の重みにしてそれを学習させてるから、
そのまま移植してもスタイルは使えん、っちゅう感じ
0305今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/01(月) 15:32:38.21ID:PcT75306
よく言われる中国人発音は、中国モデルというよりも、単純に日本語のアクセントとかいう、単語単位で音の高低が決まっているという仕組みを学習するのが難しいからやろな
(中国語や英語だとそういうのはない、はず)
今はアクセント調整がうまく学習できてなくて手動でも変えれないから、そこを変えれたらもう満点という感じなんやが……
0306今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/01(月) 16:15:30.12ID:i3TY93qZ
>>302
知蔵って人が亡くなった声優のゲームキャラ集を投稿してるからオススメ
https://www.youtube.com/@tomzou7569/featured
0312今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/02(火) 03:37:29.19ID:eKulY1+w
>>311
ttps://zenn.dev/rhene/scraps/60763ec9d7f1ee

多分、グラボのドライバが正常に機能してない
GPUが正しく使われてないと思う
画像生成やゲームでちゃんとcudaは機能してるか?
CUDA-System Fallback Policyで勝手にメインメモリ使ってる可能性もある
0315今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/02(火) 10:47:25.90ID:kxJK/jCV
素材を全部くっつけて無音を削除して5秒ごとに分割するで!

声がノイズ扱いされるンゴ……

無音を作ったら解決した
0320今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/02(火) 16:38:16.08ID:rSD8HGuj
>>293
遅ればせながら使わせて頂いたが、すごすぎて変な笑い出たw
ほんまサンガツ!赤ちゃんでもめっちゃ使いやすいやで!
0323今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/03(水) 11:11:43.62ID:nG05gnJB
coeiroinkは単純なESPnetのVITSで、Bert-VITS2系とは構造が違うから互換性は全くないで
coeiroinkのアクセント調整はVITS内在のものでBert-VITS2系だとうまく動かんから期待できんけど、
手動ピッチいじりの方はあれは無理やりいじってるだけな気がするから、すごい人ならアレと同等のことはできるようにできるんかもしらん
(coeiroink editorがコード公開されとればええんやけどな……)
0327今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/04(木) 19:29:38.03ID:Qj42N/Od
>>326
うおおお!
サンガツ×100!
使わせてもらうで!
自分でもモデル作成&sfwモデルとnsfwモデルのマージやってるけど、感情を1.0にしちゃうとやっぱり声色もnsfwモデルに引きずられるんよねえ
sfwモデルをnsfw化するにはなるべく声色が似ているモデルを使用したほうがいいんかのう…
0331今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/04(木) 20:20:35.93ID:6xOjpnqJ
>>293
いつもサンガツ!
デバグ報告するやで

batインストーラーを使ったら途中でパスが不正でエラーになってしもた
Program Filesの半角スペースが引数の区切り文字と誤認されてるみたいやわ
パスを渡す時に" "で囲わないとアカンみたいや


D:/Program Files/V_Chang/install-Style-Bert-VIST2.bat
0336今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 00:13:41.36ID:1xWEF8RC
>>327
nsfwでのマージあんま試したことなかったわ、こちらでもやってみる
今は「話者性」「感情表現」「テンポ」の3つでマージにしとるけど、最初の話者性のところに声の高さの情報が入っちゃってるから(flow)、
通常のモデルとnsfwモデルを、話者性を通常モデル全振り(0)でやっちゃうと、喘ぎっぽい甲高い声にならない、っていうのはありそうや。
いろいろ試し見てみてうまく行ったら、声の高さについてのマージもちゃんと分けてできるようにしてみるで。
0341今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 20:31:10.48ID:1xWEF8RC
(Style-)Bert-VITS2の日本語から音素記号に変換するところに重大なバグがあったのに気づいて修正したから報告や
細かいことは置いておいて、今までは「車両を見つける」という文が、学習でも音声合成でも、本来は「シャリョオオ ミツケル」なのが、「シャリ「ヨ」オオ ミ「ッ」ケル」になっとったんや
そのせいでアクセントの学習もぶっ壊れるところがあったっぽい。
https://github.com/litagin02/Style-Bert-VITS2/blob/master/text/japanese.py
本家の人でもStyleの方でもダウンロードしてtext/japanese.pyに置き換えればそこが修正されるはずや(StyleならUpdate.batでもたぶんいける)。
ちょっと試したけどアクセント等が自然になった気がする(少なくとも悪くはならん)。
(また全部学習し直しや……)
0343今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 20:44:34.72ID:NX9VsWAy
おkー
0344今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 22:03:59.47ID:XzxS6qFB
>>341
学習中に残り時間とか表示してほしくて進捗をエポックごとじゃなくて全体を表示するように改造して使ってるんやがdevブランチにPRしてええかな?
それと書き起こしに「ヴ」があるとエラー出たから報告や
0346今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 22:39:35.64ID:XzxS6qFB
>>345
修正サンガツ
また何時間も学習回さなあかんな…
0347今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 23:06:56.62ID:bkDayODq
Style-Bert-VITS2なのですが Install-Style-Bert-VITS2-CPU.batで色々とセットアップとダウンロード後に
zipfile.ZipFile.__init__(self, filename)
File "zipfile.py", line 1269, in __init__
File "zipfile.py", line 1336, in _RealGetContents
zipfile.BadZipFile: File is not a zip file
Press any key to continue . . .
みたいな感じでエラーが出て起動せず困っております…
あまりにも初心者すぎて申し訳ないのですがいったい何が原因でしょうか
0349今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/05(金) 23:28:13.39ID:1xWEF8RC
一応やけど、学習をし直さなくても一応アプデしても前のモデルは使えるは使えて、それだけでも少しは改善される可能性はあるで。
(特に「車両を見つける」とかはアプデ前はめっちゃ「みっける」って発音してたのが直ったりする)
0351今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/06(土) 05:10:33.74ID:xI4/qOQT
どうしてもなにも、画像生成で指が増えたり減ったりするようなもんやろ
文章から感情や文脈を判断して自然な文章を読み上げるなんて少し前なら考えられんほどのオーバーテクノロジーやし、ポン出しでネイティブにも全く違和感のないものが出ると期待するのは無理がある
細かな違和感は今のところ手動調整していくしかないやろな
0353今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/06(土) 10:42:15.55ID:xI4/qOQT
>>352
自分は違和感ある単語を置き換えたり句読点を挟んだりしてイントネーション調節してるな
コツを掴めば5分の小説朗読なら30分くらい調教すればほぼ違和感なくなる
どうしても言わせたい単語をどうしても違和感なく言ってくれなかったときは困ったけど…
0354今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/06(土) 12:32:40.92ID:xw9yupwG
漢字を置き換る
前後を感情語(嬉しい! びっくり!など)で挟む
改行する

とかで欲しいアクセントや情感探しとるな自分は 雑感では
一発で欲しいセリフが出る 20~30%
テキスト微調整の繰り返しででる 60% ってとこやろか
残りはどうしても出んからコマ切れに出力して切り貼りとかしてたが
今後は鉛筆カキカキやな
手間やが現状すでに棒読みのAV嬢よりずっとそそられると思うわ
0355今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 00:37:57.48ID:HoAn3gCI
Bert-VITS2の音素変換って総当たりの置き換えでやってるのね
中華系のVITSはpyopenjtalk使ってるイメージだったんだがpyopenjtalkそのまま使ってない理由とかあるんだろうか
0356今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 01:07:07.32ID:legAf/UY
Bert-VITS2は読み取得のところでpyopenjtalk使っとるで、総当たりしとるのはpyopenjtalkで読みを取得してからのところやな
そのまま使っとらん理由は、ちょうどいま自分が突き当たっとる問題なんやけど、pyopenjtalkまんまだと「!」とか三点リーダーが消えたり「。」と「、」の区別がつかなかったりで、
だから(学習データの関係上)記号は記号のままで使いたい、という理由やと思う(既存TTSやと「!」で強調とか効かんから利点はあるな)。
やけど、そこが原因で、昨日の修正でもまだアクセントがおかしくなる場合があることに気づいたから、それをどうにかしようと修正中や……
0359今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 12:58:41.27ID:HoAn3gCI
>>356
あぁなるほど記号か
pyopenjtalk使ってるのはpipに入ってるから知ってたけど全部それでやってると思ってたんや
わざわざサンガツ
0360今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 14:26:45.17ID:legAf/UY
>>341
ちょっと書いたけど、そもそもBert-VITS2のアクセントの取得法がミスってて、この修正でもアクセントがおかしいまま学習・推論されるバグがあったから、
とりあえず修正した(はずの)やつを置いとくで、何度もすまん(「私はそれがいい」→「ワ↑タシ↓ワ ソ↑レ↓ガ イ↓イ」だったのを「ワ↑タシハ ソ↑レガ イ↓イ」に修正)、
https://github.com/litagin02/Style-Bert-VITS2/blob/fix-g2p-again/text/japanese.py
改善はたぶんアクセントだけやから、正直どこまで効果があるかは分からんしまだこれを本流にするかは決めとらん、なかなか評価もしにくい
(あとアルファベットが学習時・推論時に無視されるのも直した)
0361今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 16:18:17.33ID:+rXCtWkB
Install-Style-Bert-VITS2-CPU.bat を使わせて頂きました

languageが[EN][ZH]の時は[音声合成]ボタンで音声を生成してくれるのですが
日本語[JP]だとエラーがでてしまいます
プロンプト?には↓のように表示されます。 何か考えられる解決方法はありますのでしょうか。

File "C:Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\pyopenjtalk\__init__.py", line 209, in run_frontend
_global_jtalk = OpenJTalk(dn_mecab=OPEN_JTALK_DICT_DIR)
File "pyopenjtalk\openjtalk.pyx", line 142, in pyopenjtalk.openjtalk.OpenJTalk.__cinit__
RuntimeError: Failed to initalize Mecab
0362今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 16:19:48.00ID:05LovUN2
当初の修正でヤバげな発音が大体直って
後はアクセントが多少おかしいのがアレぐらいに思っとったんやけど
つまりこれでワイにとっては完全版になるんか
日本語の解釈処理だけでここまで変わるってことは根本はとんでもない代物なんやな
また回し直してみるわ
0363今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/07(日) 22:34:03.11ID:YVXGPhC0
普段お絵描きAIばっか使ってるけど
音声AIが面白いことになってるらしいと聞いて遊びに来たで
文章のみから勝手に感情まで付けて読み上げてくれるってすごいなぁ
ずんだもん喋らせて喜んでたくらいの自分からするとタイムマシンに乗せられたような気分や

Style-Bert-VITS2使わせてもろとるけど導入もめちゃ簡単で感謝やで
0366今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 13:36:39.72ID:EywVqhGQ
Style-Bert-VITS2は学習も簡単にできるのがいいな
分割とか文字起こしも内蔵してるから適当な音声ファイルぶっこんでやれば学習できる
あとモデルのマージも出来るんで適当な2キャラで学習したあとにマージすれば適度に学習本を特定されにくいレベルになる
ただ感情のスタイル指定がなかなかうまくいかないな
0368今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 15:58:23.67ID:BXZVRFsl
Style-Bert-VITS2を使わせてもらってるんですけどスタイルの指定方法の音声ファイルを入力の方がエラーが出て使えないんですけど使うにあたっての条件等があるのでしょうか?
0370今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 17:32:08.79ID:7pM2uyHm
Style-Bert-VITS2試しに学習しようとしたらエラーおきたからデータが悪いのかと思いデータセット作成ツールから文字起こし選択するもこっちもエラー
もう分からん…
0372今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 18:03:06.02ID:eZy0SDe/
Style-Bert-VITS2もテキストいるのか……
0374今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 18:57:06.81ID:eZy0SDe/
Elevenlabsはテキスト必要ない
0375今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 19:11:13.79ID:7pM2uyHm
>>371
今グラボ1070使ってるんだけどfloat16ってやつがサポートされてないっぽいから?
まったくわからんすまん
0379今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 19:32:35.54ID:eZy0SDe/
>>377
有料だけど音声アップロードするだけで喋ってくれる
発音は結構怪しいけれども
https://elevenlabs.io/
0380今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 19:45:36.70ID:do/uuRGs
Bert-VITS2は声音だけじゃなく喋り方の癖やら感情表現も学習してくれるのが売りやからな、音声少し与えて喋らせるだけのゼロショットとはちょっと方向性が違う気がするで
(ゼロショット方面やと最近はBert-VITS2開発陣ががんばって作っとるFish Speechとかいうやつがあるからそっち期待やな)
0382今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 19:57:16.65ID:eZy0SDe/
あ、そうなの
colabでもできる?
0384今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 20:04:28.19ID:7pM2uyHm
>>378
完全に見落としてました…
チェック外して再度行ったところ今度はValueError: need at least one array to concatenateというものに変わったのですがこれも分からないです
0388今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 21:18:15.45ID:QZW3cV1c
>>387
OpenAIが作ったWhisperってやつやで
この文字起こし認識失敗すると大体「ご視聴ありがとうございました」になるのが不思議や
0389361
垢版 |
2024/01/08(月) 22:24:29.67ID:Cp/qxqUP
自己解決。cドライブ直下でインスコし直しで解決しました。わーい
0391今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/08(月) 23:14:52.80ID:waIebOgY
>>369
アップデートしたところ使える様になりました
ありがとうございます
0392今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 00:07:37.49ID:VGWgumC1
Whisperはネット動画の音声と字幕から学習しとるんやけど
この字幕データがまあまあ正確に付いとる動画であっても
動画の最後にそれを破って話してもいない「ご視聴ありがとうございましたチャンネル登録高評価よろしくお願いします」が入ってたりすることが多いんや
BGMやらガヤしか入っとらん状況でいきなりそうなるもんやから、同じようによく分からん音声を食わされるとそう誘導される訳や
0393今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 00:27:04.69ID:QQwZv1/4
>>386
一番初めの段階ですね、変換に入る前です
ディスコの投稿遡って調べても同じ症状の人いなさそうだからおま環なのかな
0395今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 01:03:01.44ID:QQwZv1/4
>>394
間違えた変換じゃなくて学習ですね、学習を開始のボタン押してすぐエラーがでます
前処理は成功してます
0397今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 01:27:40.41ID:QQwZv1/4
>>396
コマンドプロンプトがこれです
npyの拡張子は見当たらないです
https://i.imgur.com/2pXBvSc.png
0399今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 01:51:56.44ID:QQwZv1/4
>>398
いつもはmanaって名前のフォルダなんですけど今回testって名前のフォルダにして前処理したらnpyが作られました…謎すぎる…グラボのアプデしたからかな?
それで今学習回してるところですこんな時間までお付き合い頂いてありがとうございました
https://i.imgur.com/D0dT0T2.png
https://i.imgur.com/mlsKhjB.png
0400今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 02:12:51.83ID:QQwZv1/4
>>398
音声合成までいけた!本当にありがとうございました!
しかしこれいいなRVCも凄かったけど自分で音声読み上げしなくていいのが特に楽で
0401今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 09:04:13.24ID:QUczHquz
>>399
横からだけど、自分もmanaって名前で作ったモデルあるけどちゃんと生成までいったから名前は関係ないと思う
ただこっちもちょっと失敗しちゃってesd.listに文法ミス(たぶん|の数の不一致)があったみたいなんだけど、そのままesd.listが文法おかしかった
所の手前までで破損しちゃった……
0404今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 19:04:20.91ID:02Oz9qXT
colabで開くリンクつけて~
0406今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 19:21:07.70ID:02Oz9qXT
見たらついてたわすまんな
0410今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 21:06:02.79ID:02Oz9qXT
分割もしてくれるのね、ありがたい
0414今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 21:33:55.18ID:L5/GFLiJ
https://i.imgur.com/xs4ppuN.png
こんな感じでエラー吐いて起動しないんじゃけど何かおかしいんじゃろうか
キャッシュ削除とか再インストールとか色々やってみたんだけど駄目だったので知恵をお借りしたい
0417今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/09(火) 21:55:25.99ID:L5/GFLiJ
>>416
ダメでした…
app.batとMerge.batは同様のエラーで起動せず
Style.batは一応起動しました
0425今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 12:06:44.11ID:4y6ys5U/
colabでは生成できないの
0427今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 13:26:04.81ID:DInNoojP
「ずんだもん読み上げに感情を与える」ページを見ながらマージに挑戦中なんだけど、教えていただきたいことが…
「デフォルトのjvnv-F1」と「デフォルトのjvnv-F2」のマージはmodel_assetsフォルダを弄ることなくMerge.batから成功
しかし「Zuntanさんの10kステップ(v2.1とv2.3両方DL)」とのマージのやり方がわからない(自分なりにやったらモデルファイルのマージボタンでError吐いた)

まず基本的なフォルダ構造からわからんです
「mergeフォルダを作って〜」というのはmodel_assetsフォルダ内に作るって事なんだろうか?
「そこに2つのモデルを入れて」というのはどこのフォルダの何を入れるんでしょう?
「片方のモデルのconfig.jsonも入れて」というのはmergeフォルダ直下に放り込むんでしょうか?
わからん もう・・・なにもかもが・・・
0428今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 13:33:49.75ID:7Nv1N++M
>>427
その記事はBert-VITS2本家のやつやからStyle-Bert-VITS2の情報とは違うで(mergeフォルダを作ってconfig.json入れてとかそこらへんは本家でsimple_merge.pyを使う場合の話や)
Style-Bert-VITS2ならMerge.batからやるだけや、デフォルトのjvnvモデルのマージに成功してるんならそのやりかたでええで。
あとたぶんZuntanさんの10kステップのやつはBert-VITS2本家のやつやからStyle-Bert-VITS2では使えんで
0431今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 13:55:40.12ID:4y6ys5U/
Dataフォルダ内の自動削除もつけてほしいなー
0433今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 14:47:47.95ID:4y6ys5U/
ドライブの容量食う
0435今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 15:17:49.23ID:4y6ys5U/
スタイルってどこで保存できるの
0437今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 15:52:38.60ID:4y6ys5U/
python webui_style_vectors.pyが起動できない
0438今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 17:11:36.36ID:7Nv1N++M
colabやったら最初に「!」つけるんやなかったっけ
と思ったけど、webui_style_vectors.pyはcolab今は対応しとらんかった、すまんな
スタイル作りはグラボ全く使わんからとりあえずローカルでやってくれ
(colabでgradio立ち上げるのがどうか問題もあるしな)
0439今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 17:15:47.74ID:4y6ys5U/
ありがとう
0440今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 17:44:46.09ID:4y6ys5U/
インストールしたらNo module named 'gradio'ってエラーが出る
0442今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 17:54:12.97ID:4y6ys5U/
USBメモリにはインストールできんのか……
0443今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 18:04:49.07ID:w0N3T4aC
pythonの仮想環境って外部ストレージは基本的に無理では?
0444今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 18:07:43.21ID:4y6ys5U/
やっぱcolabでやるしかないか……
0447今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 18:34:21.46ID:G52r3o8T
USBメモリwwwwうぇwwww
0449今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 18:38:37.03ID:7Svn4Q/8
>>423
ワイの主治医の中国人の先生に似てる
0450今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 18:45:31.17ID:w0N3T4aC
>>445
時間からして30000ステップ以上回してそうだけど10000ステップ回せば十分な出来になるで
0451今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:09:23.21ID:4y6ys5U/
「書き起こしファイルの前処理に失敗しました」と出た
0453今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:16:47.80ID:7Nv1N++M
RVCも似たような感じやけど、音声はどれがいいかとか一目で分からんから選別が沼なんよな……
100エポックで良い気もしたけど自分のデータだと300くらい回したほうが質が上がる気配もあるし分からん
0454今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:22:19.18ID:w0N3T4aC
ID:4y6ys5U/くんおねだりしたりやたら質問したり何か失敗してもエラーメッセージの類を一切はらんあたりマジで無知やな
>>452
確かに画像ほど明確な変化がないからどこまで回せばいいかよくわからんわ
0455今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:31:41.56ID:4y6ys5U/
めんぼくない
https://imgur.com/cfG9rEA.jpg
0456今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:34:12.41ID:w0N3T4aC
>>455
漢字の変換に失敗してるから摘木をカタカナに変えろ
0457今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/10(水) 19:37:50.59ID:4y6ys5U/
何度もありがとうございます
colabだとダウンロードして開かなきゃいけないのめんどいね
0463今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 04:00:20.29ID:Zvz0VIQ6
Style-Bert-VITS2の書き起こしファイルの前処理でエラー吐くとesd.listぶっ壊されるな…
0468今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 12:04:35.93ID:gk6c96KK
素材が少ない場合は似た声を一緒に学習させてスタイル生成でゴリ押すのも可能?
0470今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 14:46:51.30ID:gk6c96KK
学習途中でスタイルを生成して置き換えて再度最後まで学習したらスタイルがNeutralだけになった
0471今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 15:30:52.49ID:dEBhSpQU
>>470
すまんそれは認識しとるんやけどまだあんま取り込んどらんかった
train_ms.pyを実行する所で--skip_default_styleをとりあえずつけてくれたらNeutralスタイルの生成がスキップされるからそうしてくれ、そのうちWebUI側でもそれを指定できるようにするわ
0472今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 16:06:18.17ID:gk6c96KK
学習終了してから生成するしかないってことかな
0474今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 16:14:47.37ID:gk6c96KK
そういうことね
0478今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 19:51:42.08ID:4M9bZLAS
ま?と思ってもう一回やってみたけどやっぱりコピーされないみたいや
|WARNING | webui_train.py:69 | Step 1: Data\test\models already exists.
まぁコピーしてmodelsフォルダだけ残すなんて変なことしなきゃええだけなんやがな
0480今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/11(木) 22:47:30.33ID:pmx+5Klu
ワイ グラボないのでCPU版で生成して楽しませてもらっていたが
遂にcolabでの学習・生成に成功。好きな声だと破壊力が段違い、
しかもグラボ経由(?だと長文でもめっちゃ生成早くて感動
製作者様ありがとう。
0481今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 02:24:04.00ID:7lfL+Rbk
Aivis Datasetのことなのですが01-Sourcesに音声データをセットして、1-CreateSegments.batを実行すると画像のようにエラーが出てしまうのですが、原因が分からず何か解決方法等はありますでしょうか?https://i.imgur.com/6TB0CgQ.jpg
0483今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 11:04:30.21ID:OFhKQ2an
>>482
済みません、大きい画像をアップさせて頂きました。https://i.imgur.com/h5WA5aL.jpg
0489今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 15:45:18.61ID:pQK+e0xH
Style-Bert-VITS2のバージョン戻す方法ってないですか?
0493今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 16:43:07.67ID:vUf36eJX
モデルを選ぶメニューは作った順番になるのね
アルファベット順にでけへんの
0495今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 16:44:57.60ID:tDjYqEI8
>>492
事前学習モデルがバグありで学習されとる関係で、学習データ量が少ない場合はそうなるかもしれないとは思ってた、すまんな
発音・アクセントは2回修正してて(1回目は「微力→ビリヨク」等の発音バグ、2回目はアクセントそもそものより広範囲のバグ)
1回目修正時点でのものは
https://github.com/fishaudio/Bert-VITS2/blob/master/text/japanese.py
から、1回目も戻すんやったら、
https://github.com/fishaudio/Bert-VITS2/blob/e173aa85eed867ab7f17875d00121abb58eb574f/text/japanese.py
あたりからjapanese.pyを取ってきて置き換えれば前バージョンの挙動に戻る
1回目の修正は個人的にはそんな悪影響はないって気がするけど分からん
0501今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/12(金) 23:58:53.94ID:7lfL+Rbk
>>484、485さん
ffmpegをいれたら無事に解決出来ました。
ご回答頂きありがとうございましたm(__)m
0503今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/13(土) 09:21:06.77ID:+c4XcjFk
その辺の判断はAIガチャの良し悪しもあって難しいよね
まあボカロとかでも「旧バージョンの方が”らしい”」ってことで使い続ける人が居るし、もっと広い括りだと「ハイレゾ音源よりも通常音源のほうが好き」って場合もある
人間の聴覚って視覚よりも相当に不安定、だからこそ同じ生成AIでも使い手に依存するところが大きくて楽しい
0505今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/13(土) 11:37:04.47ID:17umePfJ
1.2で学習させたモデルだとアクセントがバグったアクセントで正しいアクセントが読み上げられるようになっとるから、1.3でそのまま使うと違和感があったり、とかはありそうやな
なかなかデータや耳にも寄りそうだし判断が難しいところや
0509今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/13(土) 16:14:05.42ID:oiKwX7Dz
自分も最近文字起こしでエラー出る事があるな
ファイルはちゃんと作られてるので困ってないけど

ERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data\modelname\raw --output_file Data\modelname\esd.list --speaker_name modelname --model large-v3 --compute_type bfloat16 --device cuda --language ja --initial_prompt "こんにちは。元気、ですかー?私は……ふふっ、ちゃんと元気だよ!"
0513今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/13(土) 18:48:47.43ID:17umePfJ
https://huggingface.co/litagin/Style-Bert-VITS2-1.3.1-base
Style-Bert-VITS2の1.3でのアクセントバグ修正から追加で日本語多話者学習して事前学習モデル作ってみたで
pretrainedをこれと置き換えると使える
どれほどよくなっとるかは正直分からんけど1つ回した感じは悪くなってなくて自然性が増してアクセント制御もよくなってる、ような気がした
(Speech MOSでの自然性評価はとりあえず明確によくなってた)
よければ使ってみるといいかもしらん、どっちがよかったかとか教えてくれると助かる
0520今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/13(土) 21:05:42.65ID:17umePfJ
https://github.com/IAHispano/Applio-Installer/releases/tag/5.3.5
試しとらんけどRVCはもうAI HUB勢力が本家とは独自に色々改良したり別プロジェクト立ち上げたりしてるっぽいから、
最近だとApplioを使うのがいいらしい?
事前学習モデルも新しいやつ>>415 があるっぽいしな。
プラセボやらもありそうだし音声は評価ほんと難しいから分からんが……あといまさら作ってきたモデルを全部学習し直す気にもならんが……
0523今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 00:52:19.41ID:hYJsSNbH
ユーザー名漢字にするんやなかった…
やっと引っ越し終わった
0525今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 10:09:59.87ID:yNAkvOXf
なんでColab君グラボ使ってないとブチギレてくるんや
0526今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 12:54:50.11ID:yNAkvOXf
プルダウンにスクロールバーが欲しい
モデルが増えると下へ下へと伸び続けてしまう
https://imgur.com/ywbKmtA.jpg
0528今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 14:55:06.11ID:yNAkvOXf
RVCはちゃんとスクロールバーあるのに
0529今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 16:17:52.61ID:d6RNtXJi
Style-Bert-VITS2 v1.3
すみません、下記のように追加モデル配置してもモデルロードでエラーが出ますが何が原因でしょうか

model_assets
├── Hilja
│ ├── Hilja_e300_s26480.safetensors
│ ├── model_assets_Hilja_config.json
│ ├── style_vectors.npy
│ ├──
│ └──
0535今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 19:49:08.24ID:yNAkvOXf
すまん、14人超えたらスクロールバー出てきたわ
早とちりしてしまった
0537今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 21:26:22.61ID:yNAkvOXf
特定の話者だけ抽出してくれるやつってないのんか
0538今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/14(日) 22:05:15.48ID:tJl5dGaP
Style-Bert-VITS2 v1.3、エロ朗読させて遊んでたけど、エロテキストにありがちな「んあ」みたいなn+母音を音素変換するときにエラー出るね。どう変換するねんて話はあるけど

File "japanese.py", line 239, in phone_tone2kata_tone
tone == next_tone
AssertionError: Unexpected n tone 1 != 0
0544今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 00:38:29.03ID:y1ToKj7U
>>543
end.list上はすべて「私」のままだから、まあよくはないんだろうね
「タ」の発音か「シ」の発音のどっちかに「ク」が混じって覚えちゃってるんだろうなあ……
「私」を「わたくし」に一括置換して学習捺せ直したほうがいいんだと思うけど、それはそれとしてこのモデルはこのモデルで保存しておこう
0546今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 09:53:27.70ID:OIJ8h3EI
>>538
「親愛なる同志諸君」や「全王様もオッタマゲ」は読めるけど
「多分嘘になる」や「価格は53円」は読めない
0550今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 16:56:41.38ID:ZY2hWReX
スタイル理由のやつはもともと話者識別用のやつやからそれ改造すれば使えるで(そもそもスタイル理由画面はワイが特定話者取り出すのに使っとった画面や)

>>549
やったことないから聞きたいんやけど、複数話者学習でも(書き起こしの話者名分けずに)スタイル分けでちゃんと別話者として使える?混じらん?
0552今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 17:05:10.25ID:OIJ8h3EI
colabでもスタイル分けさせて欲しいな
いちいち10GBもインストールするのめんどいんじゃい
0554今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 17:38:36.80ID:avZ9YzH0
>>415
のOv2SuperとRVCApplioつこうてみたけど、確実に音質が上がるな
ベンチマーク用のゆっくり音声なんかのカバー率が高くなってる(ざらざら感が減る)のと
発音できる音が増えてる感じや、48Kバージョンが来れば48kがだいぶ使えるようになると思うわ

RVCApplioは来週にV3出すでって作者が言うてるけど
内容からしてリファクタリングからだから、まずは学習速度向上とかそんなもんだと思うわ
0565今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/15(月) 23:55:39.06ID:UMCeqf/t
やっべ書き込んじゃった

モデルのトレーニングが終わって
後は変換するだけってところで詰んでしまいました

相談に乗ってもろてもいいですか?

あと、Wikiに載っていたディスコの招待って期限切れです?どこも入れなかった…
0567今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 01:00:07.49ID:2yo7tcoK
>>540
試してみてくれてありがとう
こちらでもようやくチェックしてみたんやけど、言われた通り感情表現やっぱ下手になって元気なくなっとるな……
最初がもともと、下が事前学習モデル変えたやつ
https://uploader.cc/s/un2kv0abe41rntrpfw8u67130fljx44z29gafpl0x2avxcgj2j1ym4enn6lmao8c.wav
https://uploader.cc/s/1eo78ghuerj4a0104g2gmgx2tq7ot2lbqk4gjm2yp0aeyar015mfmj416ylv1fj1.wav
基本的には事前学習モデルは今んとこは変えないほうがよさそうやな。今回は平坦読み上げコーパス文で追加学習したのがよくなかった気がするので感情表現マシマシのコーパスでやればいいのかもしらんが……
0569今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 08:38:22.35ID:JHyQAaW3
Style-Bert-VITS2を使わせてもらってるんだけど、スタイル分けについての基本的な理解に自信がないから確認させて
これは「Happy声とSad声をまとめた学習モデルをStyle.batの段階で振り分ける」のと、「Happy声とSad声を個別に学習モデルにする」のでは、期待される出力としては同等という理解でいいのかしら?
0570今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 09:02:25.90ID:2yo7tcoK
>>568
雰囲気はそうやけど、音声合成の場合はある話者で学習したモデルをそのまま追加で別話者に学習できるから、上のは単にもともとの事前学習モデルに追加で学習させたやつを新しい事前学習モデルとしとるだけやな
0572今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 09:08:54.49ID:2yo7tcoK
>>569
声音は似た結果かも知らんけど、文章に対する応答等が色々違うで。基本的にスタイル分け単一モデルのほうがええはずや。
別スタイルをそれぞれ別のモデルとして作ると、Happyモデルではどんな言葉もハッピーに話されるモデル、Sadのほうは悲しく話すモデルができ、感情の強さも制御できん。
一方で単一モデルでスタイル分けする場合、スタイルをNeutralにしとったら文章内容によってHappyとSadの雰囲気が自動で引っ張られる
加えて手動でスタイルを重み付きで指定できるから、「めっちゃ悲しそうに」「ほんの少し悲しそうに」とかの指定ができるのもあるな
0574今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 09:26:39.57ID:Sa/drkly
StyleBertVITS2のテキスト自動書き起こし機能使うと言語の部分が、「Languages.JP」になってこのままだとエラーが出ちゃうんだけど、「JP」に置換するとちゃんと学習できる
これってバグ?それともワイの環境が変なのかな?
置換するだけだから面倒じゃないし学習もちゃんと終わるから別にいいんだけど、学習結果に影響するとかなら解決したい
0575今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 09:27:21.16ID:vI4tubjz
コードをshareオプションにするのってどうやんの
0579今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 12:51:00.48ID:vI4tubjz
>>559
やり方を教えて下さい。
0581今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 13:49:00.78ID:2yo7tcoK
>>580
今の音声合成では、スタイルは「Neutralを基準としてそのスタイルを強調して合成」って感じやから、
複数人でしかも各人に感情スタイルを作ろうとした場合はうまくいかん気がするな
各人が1スタイルのみで、人数に応じたスタイル数、ならデメリットはないような気がする
(けど複数話者を単一話者扱い複数スタイルで学習したこと無いから正確なことはわからん)
0582今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 15:11:32.65ID:2yo7tcoK
>>578
GPT-SoVITSのゼロショットTTSだけ試してみたからはっとくで。
追加学習せず数秒の音声を与えただけでこれくらいの質や、与えた音声の秒数を考えるとなかなか良さげ。まあ感情表現やら音質やら細かい声音やらはBert-VITS2のほうが上っぽいが目指してるものが別っぽいしな
https://uploader.cc/s/eaxhxn7bup3abbr76w0niyl8wtp2yqf790ml3b156jj9e9yc2x6aefw3ief0zfk6.mp4
few-shotで追加で学習もできるみたいやからためしてみる。
0584今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/17(水) 16:07:46.04ID:2yo7tcoK
>>582
使い方はこれの7zをダウンロードして展開でgo-web.batダブルクリック、RVCと似た感じやな
(逆にコードがこれ前提になってるからgit pullでの環境構築がしにくい)
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main
few-shot学習もできたので置いとくで。声音の再現度はzero-shotより増す(前半が学習無しzero-show、後半が30音声3分くらいで追加学習したやつ)。
https://uploader.cc/s/br38eo9xzjysgftjzkmv2bjyhy3ikkzdwuvqx8s3t8uy78su3int2egp25t1yiub.mp4
ただまあBert-VITS2とは強みが違う感じやね。お手軽に声音クローンならまあまあ使えそう。VALLE-E-Xの上位互換っぽい感じやな。
0590今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 01:00:13.75ID:e0zEppE1
GPT-SoVITS、総合的な品質は(Style-)Bert-VITS2には敵わんで。音質がまず32kHzで悪さが目立つ上に話者性もそこまで再現されるわけではない、あとまあこれはそのうち追加されるかもだけど今は使われてるbertとhubertが中国語専用のやつやから抑揚やらもBert-VITS2のほうが自然やろうし、アクセント埋め込みもないのでアクセント調整はできん、あと日本語bertがない関係でBert-VITS2のようなテキストによって声音が変わることもない、というより感情や抑揚含めてリファレンスからクローンされるイメージやな。
ただ技術的には面白いし、何より学習がいらない or めっちゃ短時間(10分もかからん)で済むというお手軽さが、zero-shotやfew-shotの強みでは一番やと思う。
0591今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 01:27:58.12ID:80vgCNoo
音声ファイルがあるけど数が少なくてBert-VITS2で学習するのが難しいって場合に
GPT-SoVITSでいろんな音声つくりまくって、そこから良さげなのをピックアップしてから
Bert-VITSで学習するといい感じになったりするかな?
0594今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 07:40:22.55ID:h/2GxqsW
colabでスタイル生成したい
0596今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 11:16:23.12ID:80vgCNoo
>>587
demoアプリはWindowsローカルでも動くのかな? と思って試してみたら結構あったりうごいた
もとのやつがよく使い方分からなかったんで助かる
生成の方でうまく作れない単語がある時はReference audioのサンプル不足なのかな?
0598今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 19:33:24.87ID:h/2GxqsW
コードいじってshareオプションにする?ってのはどうやるの
0599今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/18(木) 21:12:02.32ID:sTtZmFBI
80分(1000ファイル)くらいで学習してみたけど、学習に適してないような吐息ばっかとかの音声もスタイルで後から除けられるのが便利だな
あんまり素材を吟味する必要がないというかサボっていいというか
0610今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/19(金) 18:38:11.88ID:54BW8xQD
>>607
そっち弄ればよかったのか。これで、長文で喋らせることができるぜ。ありがとね。
0611今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/20(土) 08:27:45.82ID:eB+vsghT
2ページで済んでたのが3ページになってバチクソキレそう
これ表示させない方法ないの?
0615今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/20(土) 10:47:01.03ID:6Ldkkgcf
赤ちゃんやがStyleBertVits2で使い方に従ってって学習でけた!
loraもそうやったが学習初成功は格別の気分よな😚
感動をありがとうlitaginニキ
セリフ起こしのとこcudaのバージョンがv12の人は
v11に下げんとアカンっぽいからこれからやる人は気をつけてな
0620今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 08:07:47.15ID:jXIVMaBK
VITS2すごい綺麗に発音してくれてビビる
話者によっては私はッ!!とてもッ!!悲しいッ!!!!みたいな強い喋り方になって笑う
喘ぎ囁き素材のない話者で囁かせたり喘がせるのはまだまだ難しそうやな
0623今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 10:41:24.24ID:xMeoe1LS
なんJBert-VITS2部に改名すっか
0625今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 12:04:35.08ID:PAEfyX1w
>>622
あくまで俺の考察として聞いて欲しい
このスレができた当初は人がごった返してみんな色々と試行錯誤してたんだけど
何を望んでるかというと、どうも女性のアニメ声になりたいって需要が多かったのよ。
RVCってソフトなら簡単にその願いが叶うんじゃないかと期待されてたけど
有志が試してみたサンプルを聞くと全然ショボくて、ボイチェン感満載のボイスだったわけだ。
有識者によると、自然なアニメ声出すにはボイトレが必須だったと。バ美肉vtuberはそうして努力の結果だそうな。
で、単純にアニメ声出すだけなら既存のボイチェンでもできてたからRVCの優位性は無かったのでみんな話題にしなくなった感じ

RVCは既存の声優の声等を学習して模倣するのができるソフトだけど
このスレの人達が期待したのは簡単に女性ボイスが出せることだった
0627今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 12:47:37.79ID:6KwACbN5
元々音楽に興味がありRVCのモデルは30くらい作った
これはこれでよかったが裏声とか吐息っぽいものが再現できないラップも…
そして今はLLMに興味があるんだけどさ
例えばターバンアプリ経由してVIT2に流し込めないかな?
RVCを呼ぶ方法はうまくいかなかった
0631今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 16:58:14.44ID:vRwEuo5z
RVCは十分質高いボイチェンできると思うで、ただ単純に大きいニュースが無いからもう出尽くして話題が付きてるだけ感、学習素材も人によってはもう尽きて学習の話題もそんな盛り上がらんしな
Ov2Superやら、RIN_E3やら、事前学習モデルを変える方向のニュースが最近出とるけど正直学習し直し面倒で効果も分からずアレやな
https://huggingface.co/MUSTAR/RIN_E3
音声合成が盛り上がっとるのは単純にただそれが大きいニュースでインパクトがあったからしばらくは盛り上がってるではないかと。
0632今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/21(日) 17:09:17.16ID:eCJbXZXw
>>631
充分質は高いんだろうけど、スレが立った当初に居た人たちの需要を満たすものではなかったって事でしょ
実際昔の人物に現代のアニソン歌わせてみただの岸田首相に変なこと言わせるのだのって使われ方はされとる。
でもバ美肉したい人たちの願望を満たす能力は既存のボイチェンと変わんなかったってだけ。

お前らそんなに女声出したいんかよってツッコミ入れたくなるような状況だった。
0637今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 08:44:14.23ID:l0l8rQpX
複数話者で合成ってできるの?
できるのかできないのかイマイチわかりにくい
https://imgur.com/7nSj2Rc.jpg
0638今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 13:22:45.65ID:VW/8AnJ/
できるけど複数話者で合体したような声になった
スタイルで分けると話者毎に分けられるけど発音が不安定になる感じ
スタイル分けのやつで自動で話者毎に音源をフォルダ分けする機能があれば1人ずつ作れて便利になりそう
0639今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 13:59:21.73ID:l0l8rQpX
書き起こしの話者名は今のところ無意味って事か
0654今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 21:26:28.26ID:l0l8rQpX
ちょくちょく聞き覚えのある声があるな
0660今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 21:40:32.56ID:Qki3slgl
>>657
与えられた音声がnsfwかどうかを判定するのが機械的にどうやったらいいか分からんって感じ。
話者識別モデル通してクラスタ分けすれば個別のデータについてはnsfwとそれ以外はまあまあ分けれるんやけど、データに依存する手作業やから一つ一つやると時間かかるし(いくつかはそういうことやってきたけど大量は無理)、
「これはnsfw音声かどうか」を判定するAIみたいなのが欲しいって感じやな。
ちょっと真面目に機械学習勉強してラベルつきデータセットつくればそれくらいならできそうって気もするが。
0665今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/22(月) 21:59:22.59ID:l0l8rQpX
渋みのある声を見つけたのにそれが誰かわからないのがもどかしい
0669今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/23(火) 00:04:35.71ID:ZGsLmtWf
データセット助かるんだがこれを学習したモデルは公開しないから自分らでやってってことでいいのかな
0676今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/23(火) 09:22:08.68ID:/+eyO7hw
>>661
あーたしかに音声認識結果をもとにふるい分けるのはありやな
ただそもそも喘ぎ声とかだと音声認識がバグってうまくいかんかったり、性的な内容のセリフでも通常トーンでの発話は別にNSFW扱いしたくなかったり、微妙なところや
0697今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 14:19:26.43ID:QLGKn/bp
>>640を落としてファイル1つ1つチェックしとる人おったら、電話音声とかエコー音声とか明らかな喘ぎ声リップ音とかそういう不適切っぽいやつがどれかという情報をよければ集めてファイルとかにまとめて共有してくれると助かる
今はとりあえず新しく追加できるデータがまだあるからそっちの作業をやっとるけど、それ終わったら、人力除外作業と人力追加作業が待っとるからな……
0699今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 15:16:08.25ID:9ZmpTz8T
ちょっと思ったんやけど、データセットの音声にSpeechMOSかけて足切りとかできるんやろか?
MOSの用途からして電話音声風の高域バッサリエフェクトとかエコーとかは効果的に除けると思うで
NSFW系がどう反応するかは分からんけど
0700今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 16:14:13.07ID:QLGKn/bp
>>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
0703今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 16:28:37.00ID:QLGKn/bp
>>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった)
0704今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 16:55:56.70ID:FkJraRU5
>>701
なにがゲェーなんだ?
0706今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 17:04:13.81ID:QCQwcyrK
ワシには難しい話がよくわからないのでいかんのかと思った
0707今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 17:36:42.03ID:QLGKn/bp
MoeSpeech、キャラ追加アプデしたで(合計24キャラクター追加、結果約39万の音声ファイル、合計約622時間、368GB)
全部ダウンロードしとる人はinfo.csvの差分あたりから使ってな(どんくらいいるのかしらんが)
これで手持ちは一段落のはずやからあとは除外作業とかがんばるわ
0708今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 17:44:55.98ID:FkJraRU5
これ以上追加って一体何があなたをここまで突き動かすんだ…
ご苦労様です。除外作業はゆっくり進めていただけるだけで助かります
0712今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 18:25:54.09ID:QCQwcyrK
ごめん
0713今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 18:33:35.08ID:uaPG1bsf
普段NVA部におるがとんでもないデータセット上がったと聞いてやってきた
確かにこっちの界隈は使いやすいデータセットがないんやね
0714今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 18:45:16.23ID:FkJraRU5
>>711
お前が何かしたわけじゃねぇのにイキってんなよ
同じ乞食同士だろ
0720今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 19:12:42.80ID:FkJraRU5
>>716
テメェが殴りかかってんのにチカラ抜けは違うだろアホか
0721今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 19:56:29.66ID:QLGKn/bp
正直誰でも集めようと思えばちょっとだけ金と時間をかければ容易に集められるデータではあることやから、ダウンロードするの気が引ける人は普通に自分で購入して音声データセットとして使えばいいと思うで、そちらのほうは法律面では少なくとも今はほぼセーフやろうし(生成段階や公表段階での問題は置いておいて)
0722今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 20:06:37.50ID:xpqjGt0L
ちょっとだけではないやろ!感謝しとるわ!
まぁ半分趣味でコツコツ集めとったとかなんかな
0724今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 20:22:57.33ID:bMbjHPBB
SBVの簡易学習用データセット作成ツールでERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data云々ってエラー出て
Chatgptに聞いてもなんのこっちゃって感じやったけどIssue見たら特に問題ないんやね
cmd見て処理に妙に時間かかるファイル消したらERROR出なくなったし
ちなみに其のファイルは「~ましょう」の「aしょう」だけ切り取られた音声で「ご視聴ありがとうございました」とか「さあ、行きましょう。」って書き起こされてた
0725今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 20:25:50.40ID:QLGKn/bp
Bert-VITS2系は合計データセットは15分もあれば声質再現とかは十分いけるで、1時間以上だと表現の質は上がるっぽいけどどこまで上がるかは分からん(どれだけ感情表現がバラけて多く入っているかとかにもよりそう)
ただ2時間とかそれ以上で回すことに意味があるのかは分からん。既存TTSなら多ければ多いほどいいらしいけどなあ……
0727今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 20:59:31.48ID:5oaYtcXT
アニメキャラとか数分でもいけるよ
抑揚や感情表現はベースモデルの方でやってるのかな?
そこらへんはむしろ「下手に追加学習させないほうがいい」までありそう
気合い入れて作ったやつより数分の素材で適当に作ったやつのほうが出来が良かったりするし…
0730今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 21:59:30.91ID:dRGXIgSs
まぁ肩のちから抜けよ
0731今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/24(水) 22:01:53.10ID:b1SXX0A/
少なすぎてもイントネーションが不自然になりやすい気がする
0740今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/25(木) 08:48:21.01ID:iUic83E+
>>735
ストレージに600GB空いてるからgit cloneしても平気やろー
と思ってたらストレージ全部食い尽くして草生えた
0742今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/25(木) 09:02:49.67ID:FZtdwHTG
素材によっては「やったー!テストで満点取れた!」でキレたりする
0746今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/25(木) 12:08:35.84ID:FZtdwHTG
一覧に直接入れなくなっただけでボイス自体はまだ公開されてるよ
0749今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/25(木) 22:51:20.19ID:9HQy7LBe
git restore --source=HEAD :/
とか?時間かかるかもしれんけど
0754今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/26(金) 20:03:05.41ID:AEcT+Jd9
git lfsが最適解なんかね
試した人いるんかな

huggingface-cliはフォルダ単位でしかダウンロード出来ない仕様らしく、大容量だとタイムアウトしやすいようだ
オレは最終的に、info.csvを参照してローカルのDL済みフォルダのファイル数と比較、足りてない場合は各フォルダごと再DLを行うという自動DLスクリプトを作って全部ダウンロードした
が、結局ファイル数は全部揃うが破損まではわからんままや
0759今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/27(土) 16:20:15.07ID:kbUyhDmA
Bert-VITS2の活用傾向を知りたいと思って色々検索してるけど、tiktokだと無関係のコンテンツばかりでてくるな
RVCなら出てくるし規約的に生成AI自体が禁止されてるわけでもない、単に投稿が無いだけだろうか
0760今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/27(土) 16:23:18.16ID:rLmsTxFl
一応わしが作ったやつね
https://youtu.be/9W_Bp6NHKlA
0765今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 02:43:32.14ID:qfb4jAug
>>762
ギンギンになったやないか
どうしてくれんねん
0766今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 04:39:12.16ID:u20GRBUN
>>762
ゴチでした。
次回作にも期待しております。
0770764
垢版 |
2024/01/28(日) 10:42:26.29ID:9fauRT1s
一応RVCでモデル作ったりもしたんや
音声ファイルがあればモデル作れはするで
0771今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 10:45:01.74ID:805ZQ+JW
>>769
>>640の事やろ
落とすだけに技術だの交流だのあらへん
0772今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 10:46:30.30ID:uEOij8Au
Moe Speech、wavファイルの規格を統一して容量が約半分の184GBになったで
最初からやっとけばよかった、すまん
あと手動音声除外・追加作業を始めたので、完了済みのは
https://huggingface.co/datasets/litagin/moe-speech/blob/main/finished_uuids.txt
にあるから、そこを使っとる人がいたら更新するといいかもしらん。
0774今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 10:58:52.44ID:805ZQ+JW
>>773
んな排他的なことやってるといつまでも広まらないだろ
技術は背中で盗めとかいう昭和のおっさんかよ
0776今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 11:03:07.68ID:ra6+TDGC
hugging faceはその仕様上普通のwebサイトみたいに
「ダウンロード」とかいうわかりやすいボタンをクリックすれば落ちてくるような仕様ではない
Git LFSというソフトが必ず必要なのでググってダウンロードして改めて>>640にアクセスすれば良い
普通にwebブラウザでダウンロードすることは不可能
0779今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 11:08:21.25ID:lT7Etap8
ここNVAスレの派生スレだからみんなわかってるだけで
直でここに来た人にはいきなり英語だらけのサイトでダウンロードってなると
厳しいかもわからんな
0785今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 11:21:32.25ID:lT7Etap8
>>781
規約読んでないのは間違ってなかったなとかイヤミ言いつつ
ちゃんと読んでてそれでもわからない人には逆に親切に教えてやるとか偉いやっちゃな😊
0786今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 11:24:58.30ID:YbKmo4v2
>>780
わいも最初はそうやったで
わからんことに出くわすたびにChatGPTに聞いてなんとかやりくりしてた
最近ではChatGPTは検索結果を絞り込むだけやと気が付いて使ってないけどなw
賢いけどネット教科書がないと役立たずや
0789今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 11:47:52.99ID:1bKli4+N
>>776
???
普通に落とせるが?
このデータセット丸ごとってなると事実上不可能だけど
いくつかつまんで落として聞いてみて気に入った声優のだけ落とすってやり方もあるやろ
0792今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 12:16:56.28ID:uEOij8Au
>>772
追加で、そういえばサンプル音源のやつを諸事情で消したので、
代わりに各uuidごとに最初の音源を集めたフォルダ(samples)を作っておいた
ダウンロード方法のとこにのせといたんで、いちいち全部のを1つずつちょっとずつダウンロードする手間は減る、はず
0795今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 18:34:40.60ID:7fbnyBBe
>>793
よく流れ見てみなよ
丁寧にググり方まで教えてあげてるじゃん
0796今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 19:00:34.30ID:iBxAZymw
>>795はID:YbKmo4v2の自演擁護?w
アニメ好きのための夢の技術を、独り占めして、他の人におしえないとか、性格悪い以外に何があるよ
丁寧に教える気がないなら、書き込むなといいたいわ
こういう排他的なやつがいるから、技術の進歩の足を引っ張るんや
作者様も迷惑してるだろうな
0798今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/28(日) 19:27:20.02ID:QLmE8Jdm
丁寧に教えてもらったことはだいたい忘れるぞ
0800今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/29(月) 04:12:47.33ID:uJ1x+HbI
796みたいな赤ちゃんマジやべぇ
0803今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/29(月) 09:35:15.07ID:5z8KmH+o
moe speechの作者さん、以前サンプル音源のページで見れたコサイン類似度をminimum spanning treeで表示したグラフのやつ、また見たいのでグラフの画像だけでもリポジトリに加えることってできませんか?
マージの実験するときに似た声とそうでないときで比較とかしたくて、あると便利だなと思ったので…
0804今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/29(月) 09:50:38.91ID:bFBWS1dU
>>801
いや謙虚な鯉が一匹いるだけだろ
そいつに餌やるだのやらないだので外野が揉めてる
0807764
垢版 |
2024/01/29(月) 10:45:06.99ID:Hm6GUWV6
昨日落とし方がわからないって言ってたものですけど今日ブラウザで見てみたらあっさり簡単に落とせました
ズコーなオチかもしれないですけど作者さんが>>772の作業のために一時的にリストを消して
落とせなかっただけみたいです。お騒がせしました

>>772
サンプルあざっす!
まるごと落とすのはしんどいし持て余しそうだった俺としては
これマジで助かりますわ
0809今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/30(火) 03:19:37.83ID:2AgMYB1q
Aivis-Datasetがイマイチいい感じに切って書き起こしてくれねぇなあと思ってたけど
UVRでノイズ除去したら解決したわ
餅は餅屋やね
0810今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/30(火) 22:21:36.64ID:+s61y8Nu
https://github.com/litagin02/processed-speech-detector/
MoeSpeechから手動で電話音声や壁越し音声を取り除くのがしんどかったので判別するAI作った
機械学習はほんとに素人なのでよく分からん(録音スタジオや声質やセリフによって誤判定も多い)
ローパスハイパスフィルター検知はまあまあ良さそうだけど、リバーブ検知はかなり怪しいので要改善
(今はこれを使って取り出した1500ファイルぐらいを除外して更新する作業をしています)
0813今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 14:30:03.06ID:eqcnIsQf
RVC0813からアプデしてないんですが、最新の10月のアプデで何か新機能とか出てますか?過去ログ見ても誰も話してなかったので
変更点などあれば知りたいです
0817今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 15:05:34.12ID:ippu2Vsv
>>813
基本部分では変わってないが、一部の連中は改変されたフォーク版で色々試したりしてる
少し軽くなっていたり学習時間が短くなってる、らしい
ベースモデルも他の連中が再学習したものが公開されてたりするから精度や結果も良くなってる、らしい
0819今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 18:35:13.26ID:wQMsh1cN
アウラ達のボイスドラマを作り
「そういえばドラートはどうしたの?」
「すいません……彼は素材が少なくて音声が作れないんです」
「何よそれ!」
といったメタネタを挟みたい
0820今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 18:57:31.32ID:785sP5hd
RVCの学習ってAIイラストみたいに初期条件同じで学習させても出てくるものが結構違ったりするんかな?大体おなじになるの?
0826今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 19:36:48.84ID:785sP5hd
なるほどじゃあ自分の声素材だけ30分くらいを使って同条件で学習データ出させても出てくるものはだいたいおなじになる感じか
多人数のを混ぜて使ってるとわからんって感じで
特定の短い言葉だけ妙にうまく出ないからなんとかならんかと思ってたけどもう何回か同じ条件で自分で確かめてみるかな
0829今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 21:25:58.33ID:mawgS5z0
ボイチェン興味あってRVC試してみたんだけど
明瞭にしゃべらないとちゃんと変換できないのはわかった
でもこれって学習している元の音声がそういう音声だからだとは思うけど
ボソボソしゃべりの音声で学習したら同じようなぼそぼそしゃべりでもいけるの?
0830今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/01/31(水) 23:53:00.13ID:bLeW3YvY
>>829
おそらくいけるとは思う
ただ、特徴的だったりわりと明瞭に喋るキャラを学習したモデルはどう喋ってもそれなりにその声が出るが、ボソボソ無感情に喋るキャラだけを学習したモデルは、喋り方もある程度本家のマネをしないと再現出来ないかも
0848今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/01(木) 20:42:18.50ID:rZIgo+l5
シナリオファイル読み込めればセリフも抜いてこれるしな
0853今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/02(金) 13:07:04.89ID:ghzcTUQO
Bert-VITS2のJapanese-Extra、なかなか良さげやで。学習回していくとあった声のガタツキが少なくなってるっぽい。
あと日本語g2pが修正されたからイントネーションやアクセントも違和感少なくなってる気がするけどプラセボかもしらん。
0856今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/02(金) 16:31:13.76ID:dj3s9Rzt
こっちも>>415で学習させてみたけどあんまり良くなった様には感じないわ
同じ素材で比較した限りだと既存のモデルの方がクリアに聴こえる(気がする
個人の環境にもよるだろうけど
0860今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/02(金) 20:58:51.45ID:mlNNC5wB
>>858
そんな早くなっとるのに品質変わらんのか…
どんな原理なんや??
0862今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/02(金) 21:55:13.01ID:eXFy0MzO
Style-Bert-VITS2にJapanese-Extra搭載待ち
0865今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 02:08:43.70ID:DORd/8Oc
JP-Extra、かなり音質の自然性が増してアクセント抑揚も自然になる気がする。どこまでがプラセボか判断できんけどたぶんめっちゃよくなっとる。
ただ英語中国語が話せなくなるから、トリリンガルの売りは消えるな。
無理やり英語中国語のモデルから取ってきてマージして喋らせるということもできはしそうやけどちょっと無理がありそう
まあこのスレの人らなら日本語オンリーでもええやろ
0866今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 07:05:31.45ID:EtEP7KDL
>>863
colabにマージ機能もほしいな
0867今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 07:50:36.31ID:EtEP7KDL
使わない方選ぶとエラーが出る
https://imgur.com/V795QbM.jpg
0869今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:05:00.41ID:DORd/8Oc
>>867
JP-Extra使うならそっちのセルを実行しろ(train_ms_jp_extra.pyて書いてある方)ってことやけど、それでもエラー出る?
0870今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:09:19.11ID:EtEP7KDL
>>869
まずはJP-Extraなしで学習したい
0871今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:12:58.62ID:roxCT098
JP-Extra
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory ./slm/wavlm-base-plus.
リポジトリ見てもそんなファイルないんだがどうすればいい?
0874今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:18:29.16ID:EtEP7KDL
よく見たら前処理に設定あったのか
すまんな
0876今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:26:08.88ID:RY1STVNL
まだJapanese-Extra搭載のアプデはしてないStyle-Bert-VITS2だけど、「もう疲れちゃって、全然動けなくてェ…」で音声合成したらエラー吐いた
自分のクソモデルが悪いのかと思ったけどjvnvの4モデル全部で出た
テキストを削っていったら「んう」周りが怪しいと思った、だがその他一切のことはわかりません!
https://i.imgur.com/5d80Gl7.png
0877今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:30:19.16ID:EtEP7KDL
>>876
たぶん[n]が読めないっぽい
0878今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 10:32:53.10ID:EtEP7KDL
「関羽」とか「懇意」は「カヌ」「コニ」になるな
0883今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 11:17:16.94ID:hz5RLZAe
うーん、確かに調教にかかる時間が当社比で半分くらいになった気がするので精度上がったんだろうな
なんならもう調教しなくてもいいくらいやな
ただ、どうしようもないんだろうけど、漢字の読み間違いが結構あるやね
パンツの柄をえと言ったり
0885今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 12:20:54.55ID:Fw3xFpQl
アップデートしたけど「○ん○」が直らない...
念のため新規で作り直したけど駄目だった、おま環かな?
0887今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 12:41:00.88ID:Fw3xFpQl
>>886
推論はエラーなくできるんですけど上で修正してもらった「ん」の「n」がナ行になる読みの修正の部分、
カンウ、コンイ、などの発音が「かんぬ」「こんに」になってしまいます
母音以外の「ん〇」だと問題なく発音してくれます
0888今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 12:50:47.56ID:Fw3xFpQl
>>887
すみません、間違えました
「かぬ」「こに」になってしまいます間違えました
0889今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 12:54:42.97ID:DORd/8Oc
>>887
あーなるほど、推論はエラーはなくてアクセントのところの読みも間違ってないけど「懇意」の生成された発音が「こんに」とかになるってことかな
旧verモデルは、「懇意」の音素列が「k o n i」として処理されてて「ん」とナ行の区別がついてないから、それはたぶん旧verやとどうにもならん点やな
(事前学習モデルがそもそも「ん」を「n」で学習されていたことの弊害)
その意味でもJP-Extraのほうがええな
0890今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 13:00:04.39ID:Fw3xFpQl
>>889
了解です、JP-Extraの方で新しく学習して確認してみます
いつも回答していただきありがとうございます
0891今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 14:12:23.84ID:EtEP7KDL
JP-Extraは1ステップごとに経過が出るのかよ
0892今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 16:23:56.05ID:vwCazGNV
>>852
さっそくいれてみたで
教えてくれてサンガツ!!
0895今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 21:20:31.87ID:aJTOwX28
https://i.imgur.com/WAaGcqU.jpg
あれ?もう10年以上mate使ってるが
もしかしてこのスレに関してだけはPCで見た方が楽なのでは…
0896今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 21:26:38.97ID:aJTOwX28
NVAと間違たごめんちゃい
でもアクセラレーターさんダウンロード待ちなしで聞けたわ
0897今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/03(土) 23:54:14.96ID:zDr2/QIY
>>863
早い対応でめっちゃ助かるで
JP-Extraでサンプル台詞読ませると明らかに違うな
棒読み感が無くなって声色もしっかり変わってる
0898今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 14:09:38.02ID:p9NOopAP
VR機器本体のマイクで使ってたりするんだけど普通のボイスチェンジャーと違ってオーディミキサーとかマイクを使うことで遅延とかが改善されるとかはRVCでもあるのかな?
0899今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 14:10:26.91ID:p9NOopAP
ごめん普通のボイスチェンジャーと同じように、です
0901今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 14:33:36.85ID:+aLuUfsz
『普通のボイスチェンジャー』が何を指しているのかがまずわからん
察するに、quest2とかをPCに繋いでVRchatでボイチェンしたいのだが、quest2のマイクを通すよりPCのマイク直のほうが遅延は少ないのか?みたいな疑問かね
だとしたらもちろんそうだろうな、と
でもそれ以上にRVCの設定を詰めたりグラボ新調したほうが効果は大きいかな、と
0902今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 14:44:24.82ID:pCDI+w5G
基本的にバッファを少なくした方が即応的になる
でもバッファが少ないとガビるから4090みたいな上位機種に買い替えてパワーで処理するしかない
安く済ますなら専用チップの載ったボイチェンインターフェースを買うのが待ち時間がない
0903今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 15:30:49.96ID:a+skvKu1
遅延は入力遅延+ボイチェン処理の遅延+出力遅延
>オーディミキサーとかマイクを使うことで遅延とかが改善される
これで改善されるのは入力遅延と出力遅延
いまRVCの遅延がどのくらいあるかわからんけどRVCの遅延の方が遙かにデカイから
RVCの遅延を詰めれてないならオーディオインターフェース変えても大して変わらんと思う
0904今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 20:57:24.89ID:15msUIb1
JP-Extraの学習で共有メモリの消費激しいのって仕様なんかな?
0906今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/04(日) 21:52:04.75ID:15msUIb1
バッチサイズ2でVRAMと共有合わせて16GB超えるくらい派手にメモリ使うで…
0909今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 00:16:07.44ID:38qfj2Y3
場合によるけどVRAMあふれてても速度低下はないから心配する必要はないで
とはいえ8GB勢ワイはVRAM不足で若干遅くなる時あって気になったから4ステップごとにempty_cacheさせてる
0910今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 03:10:54.93ID:7X02jBbQ
Styleの方は設定変えたりBatch size2でもメモリ不足になるようになったから本家の方で学習してる
この前までBatch size8でも出来てたんだけどなんでか急に出来なくなっちまったわ
0911今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 06:57:46.74ID:FgBYXr7X
colabで学習したほうがいいかもしれないね
0913今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 12:56:27.44ID:kpwt0Jhs
自分で音源抜いて学習テストしようとして文字起こしかけたらダミーのデータまで抜いちゃったらしくてめっちゃ時間かかるわ学習にも使えないわで辛えわ
0915今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 14:10:26.10ID:FgBYXr7X
Extraだと学習が1ステップずつ表示されるのって変えられないの
0919今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 19:04:16.12ID:iK2MVaq0
>>918
学習元の声を呼び出す?
テキスト入力するなり喋るなりで元々学習元の声を呼び出してるのがこのソフトだよ
0921今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 20:47:53.09ID:ZymMGHH/
TTSモデルは声音やら感情表現やらテンポやらと明確に構成要素があるからそれぞれがある場所が分かれてるってのは分かるけど、
RVCはボイチェンやからせいぜい「声音」「どの高さの入力に感度がいいか」「音質?」くらいしか要素がなくて、
それぞれがちゃんと分かれてるかもちょっと微妙という感じやった
0927今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 23:16:40.67ID:+3UsH0yF
お疲れ様です!
0928今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/05(月) 23:19:51.52ID:FgBYXr7X
赤髪のサンクス
0929今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 02:17:12.22ID:FJekxo+6
Style-Bert-VITS2の学習中のログ生成とログ用のlossの計算消したら速くなるな(1.44it/s→1.65it/s)
0930今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 12:54:43.87ID:SMAhexg3
JP-ExtraをきっかけにStyle-Bert-VITS2を入れて素材の用意から生成実行までこなしたけどテキスト入れるだけでかなり自然な音声出るの凄いわ
環境整えてくれてるニキサンガツ
0932今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 19:46:02.40ID:lAlN9xC1
Style-Bert-VITS2の自動前処理が1000秒以上経過しても画像のまま永遠に終わらないんだけどなんぜ?
VRAMが8Gだから?

https://imgur.com/a/8Cz0pDe
0933今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 19:46:33.34ID:lAlN9xC1
Style-Bert-VITS2の自動前処理が1000秒以上経過しても画像のまま永遠に終わらないんだけどなんぜ?
VRAMが8Gだから?

https://imgur.com/a/8Cz0pDe
0935今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:01:48.52ID:lAlN9xC1
>>934
やってみる!サンクス!
0936今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:14:09.76ID:LXwjbVl0
机で作業してる環境音とかが混じった合計40分の音声使ってbf16で学習させたら
2500step位で急激にloss/g/totalが40から170までブチ上がって
どんなテキスト入れてもビーー!!っていう機械音しか出なくなったわ
bf16オフにしたら同じ素材で100epochの3800stepとかでも問題無かったけど
bf16のせいなのかたまたまノイズが学習されすぎて発散したのかは検証してないから謎や

それとbf16オフにした場合ってfp16学習になるんか?
文字起こしの精度はbf16からfp32に変えると分かりやすく改善されるから
fp32で学習してみたいんやがどうなんや
0937今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:23:01.76ID:2Tb6gO1j
moisesの質落ちたな
声が微かに残るようになった
0938今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:35:12.37ID:iXHkkCqu
>>936
同じ状況や
1000stepのはまあまあまともだったけど2000step以降は何をテキストに入れても全部音量振り切ってビーー!って機械音になる
まだ赤ちゃんだから何が原因かわからんが少なくとも数日前まではまともに学習できてたんや
別フォルダに新しくインストールし直した環境でもなったからなんだかようわからん
0942今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:47:40.24ID:LXwjbVl0
ちなみに書き忘れとったけどワイはJP-Extraオンのver 2.0環境での出来事やな
JP-Extraのモデルの影響もあるんかな

bf16オフだとfp32になるんやなサンガツ
とりあえずオフなら問題無さそうだからこれで行くわ
0943今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 20:48:38.70ID:FJekxo+6
画像は16ビットでも平気だけど音声は32ビットやないとダメなんやな…
0944今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/06(火) 23:27:31.11ID:EtLtXdqV
ワイのグラボ古すぎてfp32しか対応してないでちょうど良かったわ
0947今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/07(水) 19:13:32.76ID:hvf8OUmi
ミルクボーイモデル作りたいから早く複数話者で推論できるようにならんかな
0948今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/07(水) 19:17:53.08ID:hvf8OUmi
こういうエラーが出た
https://imgur.com/L59B4Tg.jpg
0951今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/07(水) 20:08:29.52ID:hvf8OUmi
もうちょっと詳しいの
https://imgur.com/XMt7kcR.jpg
0953今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/07(水) 20:25:08.28ID:hvf8OUmi
治ったで
ありがとう
0955今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 07:36:53.58ID:K/FRv+bc
>>954
自動で書き起こししてくれる機能あるよ
複数話者は出来ないけど
0957今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 08:40:16.82ID:K/FRv+bc
>>956
Dataset.batで文字起こし出来る
0965今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 08:59:54.60ID:PEsM49TY
喘ぎ声とか含まれるnsfw音声やと文字起こしされなかったりするのは人力で頑張るしかないんかな
0966今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 09:29:54.42ID:SV0V1dtR
喘ぎ声特化の文字起こしAIがあればええんやけどな……ワイも苦労しとる
initial promptにそれっぽい喘ぎ声の書き起こしを入れるとちょっとはマシになるけど、唐突に謎言語やら絵文字やらが書き起こしに出てきて笑ってまうわ
0970今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 11:21:22.06ID:n3UF7LYt
エロゲの音声も良いけどASMRの音声もかなり学習素材に良い感じ
背景音声除去版とか提供してくれてるところも結構あるしシリーズものだと同一キャラのデータかなり多くて良き
0973今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 20:45:33.53ID:6DrBm3AR
JP-Extra版って笑い声ない話者でもある程度笑えるようになってるな
逆に笑い声ある話者だと劣化してるようなしてないような…
0974今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 21:34:45.46ID:Znv4h/Tf
最新のにアップデートしたら文字起こしがエラー吐いて機能しなくなっちまったんだが
0からインストールしなおしても同じだし、何がいけないんだろうか
ログにはtranscribe.pyがエラーを吐いている事しかでていない
0975今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 21:59:37.72ID:6DrBm3AR
ただ単にErrorとだけ出ててValueErrorとかのpythonのエラーメッセージが一切でてないなら正常やで
最新版はなぜかtranscribe.pyの終了コードがおかしくなってエラー扱いになるみたい
0977今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 23:09:25.14ID:piTBvxmK
左の方は違和感ないのに右は違和感ある
0979今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/08(木) 23:42:40.53ID:Znv4h/Tf
webuiの結果にはerror表示のみコンソールは出力先とか読込先等の情報がでるだけで進行しないんだ
esdlistは生成されるけど中身は空のまま、JP-Extra版以前までは特に問題なかったんだけどな
0985今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 11:20:59.21ID:D2+9rAQ5
最近はVOICEVOXが謎技術で歌えるようになったらしいけど、さすがに歌は無理やな
きりたんの歌唱データベースで学習させとる人おったけど、めっちゃ音痴で適当なメロディーで歌うTTSモデルになって、あれはあれでおもしろかったで
0994今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 19:37:47.87ID:2EU7WjtP
次スレの保守頼む…誰も見てないだろうけど
0997今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 19:53:20.78ID:2EU7WjtP
NVA部は二日で完走するのでここは二カ月もかかったんやな…
0999今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 20:00:35.70ID:2EU7WjtP
貼るもなんもそもそも人がいないししゃーないか
1000今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 20:01:06.65ID:2EU7WjtP
祝・1000レス
10011001
垢版 |
Over 1000Thread
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 66日 3時間 0分 28秒
10021002
垢版 |
Over 1000Thread
5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。

▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/

▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況