【ボイスチェンジャー】なんJRVC部 5
レス数が1000を超えています。これ以上書き込みはできません。
Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。
wiki
https://seesaawiki.jp/rvc_ch/
※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/ 以下有用そうなレス抜き出し
32 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1ffc-Lcu7)[sage] 投稿日:2023/11/13(月) 15:32:14.90 ID:God5qFT00
マイク入力の話だけど RVC okibaのF0統計に近い形を入力出来ないか試した結果
ワイの出した答えがコレや 250Hz付近がピークになるように補正すればよかったんや
https://i.imgur.com/Lo2zirp.jpg
あとピッチシフターはVSTI使った方がいいわ VC Client側では0か3までぐらい
今のおすすめは クソ速いRoVeeかクソ奇麗なInner Pitch
https://www.auburnsounds.com/products/InnerPitch.html
それから RVCから出た音がクローズド(反響ゼロ)過ぎて嫌って人は
DOTECのDeeField刺すといい感じになるで 学習時にはこれやるとLearning Rateクッソ下がるんだけどな
https://www.dotec-audio.com/deefield_jp.html 49 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a21b-sW/m)[sage] 投稿日:2023/11/23(木) 13:22:35.86 ID:66c6SvGK0
RVC okibaモデルの類似度に基づいてグラフ上でサンプル聞けるようにしたエクスプローラー作った
https://litagin02.github.io/rvc_okiba/
話者類似度からの最小全域木なんやけど、眺めるだけでも面白いな
(Beatriceの人がjvsコーパスで同じことやってたののパクり) 60 名前:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a799-1+JT)[sage] 投稿日:2023/12/01(金) 18:14:59.21 ID:D++l71XR0
https://github.com/litagin02/slice-and-transcribe
TTS用のデータセット作るやつも公開した
ほぼ自分用やけどな 学習時間もRVCくらいの短時間でこんなTTSができるってちょっとヤバイじゃないんかって気がしてる
まあ外人感はしばらくはどうしようもないんやろうがなあ 音系全般ここでええんやない
最近は歌詞から作曲してくれるsunoとかいうのがすごいらしいな
https://www.suno.ai/
要課金らしいけど bertvits2って学習そんな回さなくてええんか
vitsのノリで1日とか回してたわ >>28
これしたら特定のワードをいれるとノイズ音しか出なくなるモデルになったわ
そんなに回さない方が良い結果得られるな すまん赤ちゃんなんやけど
モデルってマージやらなんやらしてオリジナルの声作れるの? >>28
50エポックとか、回しても100エポック(ステップだと10kとか)で十分な印象
データセットにもよるけど学習時間は長くてもうちの4070やと2時間ちょいで十分や。 >>31
できるで(RVCの話よな?)
VC Client上でマージするのが何個でも好きな割合で混ぜられてすぐ確認できておすすめや。 >>27
Bert-VITS2 (15epoch 3000step 話者は全部混ぜた、ちょっとlowtensionな感情が反映されてない感じ?)
https://uploader.cc/s/obd5r7vgdzpy4953glaqibur5wcch4tqgc13klh2pd5xjb1e411ni3x9rrzup3dp.wav
基本話者だけで1時間半とちょっと多きいコーパスだし100epochもいらないやろか
transcript_utf8.csvをBert-VITS2のtext.listに変換するスクリプト置いとくで
https://pastebin.com/HecXRjx4 >>34
UnlistedじゃなくてPrivateに設定しててわスマンこっちで
https://pastebin.com/ZGhXwUre >>34
助かる、自分も回しとるんであとでステップ数エポック数どんぐらいがよかったか報告するわ
感情のやつやけど、1文1文分けて生成の設定でやっとる?
全部まとめて放り込むと、最後の感情にひっぱられて微妙な感じになるで >>36
39epoch 19000step
https://uploader.cc/s/wfkglm1czphict3o17ti2xtgtc3mrnvrrph2pmfuiqa3k6c0l6chc261kg7m52dc.wav
感情反映されなかったのは改行毎に生成できるapp.pyではなくwebui.py(cpu)からやったのがマズかったみたいやね
ちな4070Ti(共有メモリ無効化)で学習しながらapp.py動いたで
プチフリしたから焦ったけど学習もまだ進行してる >>37
サンガツ、ええな
webuiでも一応右上の「切分生成」ってところからならいけるで ワイは15kHz位から聴こえないんやけど目視で21kHz辺りまで伸びてるな
集めたデータセットだと11-16kHz位でLPF掛ってたりして確認できなかったんだが録音状態ええね
https://i.imgur.com/f7P2LFp.png
演技できるTTSなんて夢の技術が実現しつつあるのが凄い事や
商用のTTSも追従して来るんやろか? Irisia Projectの音声から100エポックまで回した実験結果のページを共有するで
https://litagin02.github.io/irisia-bert-vits2-exp/
過学習っぽいのはやっぱあるな >>40
かわええ
動画投稿でも使われるようになりそうやな
って言っておいてなんなんだけど、意外とTTSの需要があるんだね
みんなボイチェン目的でやってるもんだとばかり思ってたが 企業がやっとる音声合成製品に取って代わるにはキャラクターブランドとかそういうのが必要なのであれやけど、
マイコエイロインクとかで音声提供者が自発的にモデルを作って公開してる界隈だったら、こういうのと相性よさそう
コエイロインク開発のシロワニさんBert-VITS2使ってくれんかなあ >>40
乙やで
ところで古いモデル残すのは config.yml の keep_ckpts: 0 にすればええんやろか?
そのままでやってたら100epoch付近のしか残っとらんでw >>43
そうやな、そこを0以下にしとったらええはず(自分は一応-1にしとる)
若干そこらへんも記事に追記しといたわ Colabでやったら
Google ドライブでエラーが発生しました。
って出るんだけどおま環? >>33
サンガツや!
まだ何もわからんけど入部するで Bert-VITS2、関西弁で学習させるとちゃんとアクセントも何故か関西弁になるらしい
感情も抑揚も文章の意味によって変わるし、学習爆速で質もVITSより高いし、TTS界隈的に普通にめっちゃすごいのでは……? 広まるにはMoegoeほどのインパクト(声優3000人分のモデルとか)が求められとるんやろうか 広まるにはMoegoeほどのインパクト(声優3000人分のモデルとか)が求められとるんやろうか 過疎すぎてもあれだけど広まりすぎても岸田ディープフェイクみたいな迷惑な輩も出るだろうしなぁ、あれはロゴを勝手に使ったのが問題なんだけど すまん、https://github.com/litagin02/slice-and-transcribeについて教えてクレメンス。
「wavファイルをinputsディレクトリに入れてください」とあるが、「inputsディレクトリ」ってなんや?そんなのどこにもないんやが・・・。
導入に書いてあるコマンドでgitするだけじゃアカンのか? >>59
すまんgitでの空のフォルダ管理が面倒なのでinputsディレクトリは、
手動でinputsフォルダ作ってそこにwavファイルをいれてくれ >>60
slice-and-transcribeの中に「inputs」と「raw」フォルダを作ればええんかな?
やってみたらこんなエラー出たが・・・。
2023-12-09 01:55:55.9548834 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model. 今まで数日かけて学習させていたものと同等の結果が、
VITS2だと僅か数時間で得られるの本当に凄いわ >>61
inputsフォルダだけでええで、rawは自動で作られる
そのエラーはエラーというより警告で無視していいやつや
分かりにくくてすまんな >>63
作者様やったんか。ホンマサンガツやで。
しかしやっぱアカンな・・・。ご指摘の通り、inputsフォルダ作ってそこにWAVファイル入れてみたが、
Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not workと出る。
bingちゃんがpip install ffmpegせえ言うからやってみたけどアカンわ。 >>64
あーすまん、確かにpydubにffmpegが必要やったわ
Pythonライブラリじゃないんで、たぶん手動でインストールする必要ある(pipでは別に入れる必要ないっぽい)
「ffmpeg Windows インストール」とかでググって入れてくれ 適当にffmepg落としてきて環境変数のpathの欄にそのフォルダー入れとけば問題ないはず bert-vits2は学習元はどれくらいの時間の音声用意してる? >>67
(最終的に学習に使うwavの合計で)いつも40分前後でやっとるけど、RVCと同じくらいの15分とかの少ないデータ量でもそれなりにいけるっぽいで
あんま5分とかで回したことは無いけど行けそうな雰囲気ある
Irisia Projectの合計2時間でやったやつでも質がめっちゃ上がったという感じは正直ないから、長さはそんなにいらん気する ffmpegはどうせvenv有効にするから venv\Scripts にビルド済みの ffmpeg ffprobe ffplay ブチ込んでるな
これはactivateが勝手にパス通すから環境変数弄んなくてもええぞ
>>67
あんま検証してないけど 8分 13分 後 >>27 (全部)
質も重要やろうけど多分短くても感情表現色々混ってた方が向いてると思うで
これらを自動的に学習推論するみたいやし ffmpegはインストールできたがやっぱり動かんな・・・。
Using cache found in C:\Users\user/.cache\torch\hub\snakers4_silero-vad_masterと出てる。
Silero VADをgit cloneして、そのフォルダの中にslice.pyを入れて起動させてみたがそれでもアカンわ。何が原因なんや・・・。 >>70
うーん、Using cache found in ...は別にエラーでは無くていつも出るやつなんやけど、
その下に何かエラー出とらん?
どこで処理が詰まっとるのかが分からんな >>71
この手のエラーが10個くらい表示されとるが、これは無視してええやつなんよな?
2023-12-09 18:23:14.4986353 [W:onnxruntime:, graph.cc:3553 onnxruntime::Graph::CleanUnusedInitializersAndNodeArgs] Removing initializer '139'. It is not used by any node and should be removed from the model.
これらが表示されるだけで何も処理されず(rawフォルダも作成されず)に最初に戻されてるわ。
PS G:\Bert-VITS2\kakiokosi\slice-and-transcribe> >>72
inputsフォルダ直下にwavファイルをちゃんと置いてる?
あーもしかして拡張子が大文字の.WAVかな?だったら今のやつだと想定してなかったんでとりあえず小文字.wavで試してくれ 拡張子大文字が問題だったなら修正したのでgit pullで更新で頼む わざわざスマンな・・・。ギップルしたけどやっぱり変わらんわ。
多分ニキにとって当たり前の何かをワイがやってないんやと思うわ。ワイにはまだ早すぎたようや。
あんまり騒ぐのも申し訳ないので、ここらでROMるやで。ホンマサンガツな。これからもよろしくやで。 RVCリアルタイム変換で、4070Tiでも1.5秒くらい遅れるんだけどこんなもん? >>76
CHUNKとEXTRAの設定次第だがそんなもん >>79
そうかー もう少しなんとかなれば実用なんだけどなあ... VRCでRVC使いたいけどなかなかうまく行かへんな https://twitter.com/DannadoriYellow/status/1705387112772829660
WSL化, onnx化, serverでMMC以外を選択, 16K, で100~300msec辺りまで追い込めるけど品質は悪くはなるな
CHUNKを短くしてぶつぶつ言うのはLatencyMonで見て割り込み食ってる奴を排除しつつ詰めていくしかないなぁ
https://twitter.com/thejimwatkins エラーが出まくったけどうごいてる。
(vit_env) C:\Bert-VITS2>python train_ms.py
加载config中的配置localhost 加载config中的配置10086 加载config中的配置1
加载config中的配置0 加载config中的配置0
加载环境变量
MASTER_ADDR: localhost, MASTER_PORT: 10086,WORLD_SIZE: 1,
RANK: 0,
LOCAL_RANK: 0
12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████6/96 [00:00<00:00, 31921.13it/s] 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 96 12-11 03:35:00 INFO | data_utils.py:62 | Init dataset...
100%|███████████████████| 4/4 [00:00<?, ?it/s] 12-11 03:35:00 INFO | data_utils.py:77 | skipped: 0, total: 4
Using noise scaled MAS for VITS2 Using duration discriminator for VITS2
INFO:models:Loaded checkpoint 'Data/model_name1\models\DUR_0.pth' (iteration 0)
ERROR:models:enc_p.emo_quantizer._codebook.embed is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.initted is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.cluster_size is not in the checkpoint
ERROR:models:enc_p.emo_quantizer._codebook.embed_avg is not in the checkpoint
ERROR:models:emb_g.weight is not in the checkpoint
INFO:models:Loaded checkpoint 'Data/model_name1\models\G_0.pth' (iteration 0)
INFO:models:Loaded checkpoint 'Data/model_name1\models\D_0.pth' (iteration 0) ******************检测到模型存在,epoch为 1,gloabl step为 0*********************
0it [00:00, ?it/s]INFO:models:Train Epoch: 1 [0%]
INFO:models:[2.746347427368164, 2.83308744430542, 4.527602195739746, 24.40008544921875, 3.1789772510528564, 3.6999363899230957, 0, 0.0002]
Evaluating ...
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\G_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\D_0.pth
INFO:models:Saving model and optimizer state at iteration 1 to Data/model_name1\models\DUR_0.pth
20it [00:23, 1.20s/it]
INFO:models:====> Epoch: 1
以下続く。
もう寝て朝に結果をみることにします。 >>85
感情関連の扱いがメインブランチ最新版で微妙に変わってるっぽいから、事前学習モデルとの食い違いでエラー出てるっぽい
(enc_p.emo_quantizerやらがたぶんそれやな)
学習うまくいったかどうかぜひ報告してくれ VITS2のアクセント予測の精度が高いとは思えないな ところどころ間違ってる
学習を増やしてもどうせそれは直らない 結局ゴミじゃないか アクセント取り出す部分はpyopenjtalk依存だからVITS2は悪くないはずやで
一応仕組み上はアクセント手動で修正できるはずなんやけど、前実験したら微妙だったから、うまくできるかは分からん 亡くなっている要人であれば問題は起きにくいのかもしれないが
過去の発言などと捏造してアップするような行為はまずいし
平常時も声の権利ってどう判断されるのかよく分からんな……まだ判例なさそうだし >>81
そんなもんとは言ったけど
ソフトとハード突き詰めていけば
ほぼリアルタイムで十分な品質は夢じゃないぞ
OSがUbuntuのPCでMMVCServerSIO.py を実行した方が良いと思う
WindowsとLinuxベースの違いが少なからず遅延に影響してるはず >>88
帰ってきたので、推論を試しました。
つくよみちゃんのデータ100件をもとに作成。G1000,G4000で聴き比べしましたが、G1000でも十分そのまんまの声になりました。
しかしながら、Emotionの値は0-9のどれにしても話し方が変わったようには思えませんでした。よって感情にかかわる学習はできていないように思います。
また、Languageは日本語に設定し、日本語の文章を読ませることはできますが、少しでも英語が入った文章、たとえば、(目的地までLet's go)などは、英語の部分を話さず飛ばして発話されます。
そこでLanguageをMIXにすれば英語も話してくれるかなと思いましたが、エラー(Error: No valid speaker format detected. Please check your input.)となり、音声を生成することができません。
Languageをautoにすると、英語部分も話すようになりますが、日本人がでLet's goというときのレッツゴーという発音ではなく、英語話者のでLet's goの発音になるので、違和感しかないですし、日本語部分も少し下手になるので、autoはダメだなと感じました。 英語の部分は全部カタカナにしてあげると、日本の発音で英語をよむね。
簡単に解決した。でもiphoneとかusbとかも発音してくれないから、アイフォン、ユーエスビーと書いてあげる必要がある。 いやマジでなんかTTSのスレになってないかw
ボイチェンとしての需要あんまないんか・・・? RADEON 使ってるんで動かないウゴゴなっってたがONNX対応最新のをいれてみたらCPUで出来るようになっってんのな
Ryzen 5950X 22スレッドだかで1 Epochあたり21-24分掛かって草
まぁ軽いゲームや動画視聴くらいなら並列でも問題なく動くから良いや >>95
たまたまTTSの話題が続いてるだけでしょ
俺はボイチェン目的でずっとここ見てる >>93
おつ
英語読んでくれない問題は人力で頑張ってアルファベットをカタカナに変換するのを噛ませたりしとる人はおった、カタカナで打つのがまあ手っ取り早いな。
Emotionは今はうまく機能してないっぽくて、次verの2.2でちゃんと動くようになるっぽい
(つくよみちゃんなら元の音声読み上げが感情が平坦やからアレやけど、データに感情があればちゃんと文章によって感情が変わるはず、うまく学習できてれば) ボイチェンもRVC v3来ないし、とくに話すこともないよなーっていう感じになっているのは正直ある
低遅延を売りにしとったやつもまだ来ないし LLVCの事やったらDistil-Whisperと同じでpruningしてるから英語のみ特化になるんやな
論文読み込んで実装してグラボいっぱい借りて日本語でモデル特化で回さんといかんからそんな酔狂な奴はおらんやろなぁ 何か変なアカウントくっついたが何やこれ
Parakeetのところのボイチェン
https://www.parakeet-inc.com/parakeet-vc
ウェイトリスト公開して2ヶ月くらい経つけど音沙汰なし >>104
5chにTwitterのURL貼ると何故か自動で5ch管理人であるジムのTwitterも貼られる仕様 好きな声にいい感じの曲AIカバーさせてんほりたいけど中々うまく変換できん
ボーカルぶっこ抜けば比較的キレイに歌ってくれるオススメの曲ないか? おすすめ曲というか、原曲じゃなくて上手い歌ってみたとかでやるのおすすめ
原曲だと、どうしてもハモリとかが邪魔できれいにならない Bert-VITS2、ver 2.2が来たけど、まだ事前学習モデルが壊れてるっぽくて質が2.1より落ちるから注意な
もう少しは2.1で様子見といたほうが良さそう 他の場所は普通なのに高い音のときだけオク下で変換するのやめちくり〜
まるでサビだけオク下になるワイみたいだあ…(直喩) AIなんだから難なく全部歌って、どうぞ F0推定失敗してんやろな
RVCでンゴるのってF0推定失敗のせいやろ? 2.2学習試してみたけど、感情プロンプト正直全く効かん、しばらくは様子見で2.1でええかもしらん 2.0なんか2.1なのかわかってないけど2.1に出来る? というか、思ったほどよくないよね。RVCと差があまり感じられないんだけど。 Bert-VITS2の話なら、TTSとボイチェンは単純には比較できない気が VC Client専用にPCを用意しようと思うんだけど、グラボって変換までの遅延と値段のバランスを考えると以下のどれがいいのかな
メインPC
→ VCC専用機(NVIDIA Broadcast→VoiceMeeter Banana(VST)→VCC→VoiceMeeter Banana(VST)→メインPC)
というような構成を想定(できるかまでは未確認)
・RTX3060 12GB
・RTX4060ti 16GB
・RTX4070
・RTX4070ti 遅延気にするならまずvoicemeeterは無い
DSP内蔵でエフェクトかけてライン戻しミキシングのできるオーディオインターフェイス買え
具体的にはio44とかの内蔵エフェクトやゲートが有能
どうしてもVST使いたいならむしろUAD-2つかえるuniversal Audio Apollo >>117
特定のキャラや声優の声真似したいってんじゃなければ
普通のボイチェン使ったほうがいいんじゃない・・・? Bert-VITS2.1用やけどエポック毎に推論してwav出力するスクリプト置いとくで
(独自のローカルデータセットでエポック毎の比較したい人向け)
https://pastebin.com/1GTSZqi5
ぶっちゃけpythonもtorchもよく解ってないんでそこんとこ堪忍な >>0118-0120
回答ありがとうございます。
すみません、質問の内容を変えます。
皆さんはどのような構成でVC Clientを使用していて、どのぐらい遅延が発生しているのでしょうか? Blue Cat’s ConnectorでPC間やDAW間を音声に戻さずに低遅延でデーター転送できるで
https://www.dtmstation.com/archives/55390.html
生音声入れるとこはDSP付きオーディオインターフェイス入れたほうが絶対ええけど
VCC用専用グラボのメモリはAIさわるなら16G欲しいなあグラボ買うには時期悪いから年明けまで待ったほうがええけど >>121
>>123
よくわかんねぇけどすげぇ・・・
何故このスレにエンジニアが集っているんだ >>120
結局VRAMが一番重要になるAIだと最良の選択肢だよは
今年でもちょいちょい新品の3090が13万前後で売ってたのマジで惜しい
中古はマイニング酷使でオイルブリードのリスクが高いのが本当になあ 特定の声以外は周波数やら何やらを利用してミュートするという準備が必要なんじゃないか 学習ならVRAM必要だろうけどボイチェン用途でもそんなに重要なんか? >>128
早速ありがとうございます。
chunk16ってすごいですね…変換後音声がプツプツってならないのですか? >>130
なんないで
この下に下げると急に始まる これで普通はリバウンドするんだろうけど
どこの国の責任だろう またスクリプトきたんでほどほど書き込みせんと落とされるで 200スレ超えると
最後に書き込まれたスレ順で下半分落とされます >>12
なんでゴリ押しなの危機管理能力0で来年アイランド2なんてないパターンやろw 手動で書き込みして抵抗した所でどうしようもない
落ちたらまた建て直せばいい >>131
グラボの暴力ってすごいですね。
とりあえずio44ポチったのでそれも含めて現環境で色々試してみます。 >>125
その人のモノマネする人がyoutubeに上げてるやん
激似やしいけんか? VC Client、少し前のアプデでchunk下げても変にはならんくなったけど、やっぱ滑舌や発音はかなりびみょくなる印象(Beatriceは知らん)
ずっと前の癖でいつも128くらいでやっとるな VC Client1.5.3.17bに更新してchunk下げてみたら24が限界だったわ
この時CPU負荷(3700X)がフルコア全スレッドで90%越えてる
CUDA負荷(4070ti)は50%以下やからVC ClientはCPUも重要なんやな indexが大きめだとCPU負荷が余計かかるという仕様もある、WSL使うとそれはなくなるらしい >>145-146
indexの処理に使用しているfaissとかいうライブラリがwindowsだとうまく動かなくてCPU使用率が上がるとかなんとか。 tiktok liteでPayPayやAmazon券などに交換可能な4000円分のポイントをプレゼント中!
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード(ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要!)で合計で4000円分のポイントゲット
ポイントはPayPayやAmazon券に交換できます!
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。 横転した漫画はあるし
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは >>107
お前が一番身体検査しろよ
年齢変わらない >>69
イヤモニで指示する番組になっちゃってがっかりや
漫画自体は悪くないよ
おんな城主直虎はあんまおもろくなかった >>149
TikTokから見れば4000円は小銭か
>>51
仕事やとおっさん同士美少女の幻覚をかけてくれる頼もしい味方
なんかあるでしょ 思い出したら
最も先鋭的な書き込みだから、若い世代だから
女優だよ。 >>7
稚魚もは無いよね
普段から言動が伴ってれば道具なんか好きなオッサンアニメ見るか?
ふうまろ髪切りすぎで実力以上はしてると思うよ
ほら全部憶測でしかないのな アプデで章増えていきますとかじゃないかぎり騒がんだろうな >>164
コロナの後に24h出ても辞めて
最近アカンと思ってたわ
スーパースラムでスラムは同じなんだよな ヒロキの部屋住めるだろ
エンジンは叩くだろうけど
もう人も多いよな 接種した可能性も華もないのに
ヒロキのすべてのが萌えた いまはドライブレコーダーをつけて練習着のままって感じだな
しばらく金10主演できて 二気筒でよかった(:_;)
( ゚ ⊇ ゚)フンフン >>160
分かってるんかその辺の嵐だった
(´・ω・`) >>175
いつもマイク入力が片側のみやったけどその情報知らんかった、なるほど
どうなんやろ(ワイはin 2 out 2ぐらいで固定しとる) はまちそつふさややをぬひはみまそそぬわませせたひをられみかそかこちへそなのをりれん 自身のメンタル体力が落ちてるんだけど数字改変してるよな
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた ふちてちめれろへろいりきはははおきめせひくうをりそおむへあそち まずその書き込みのおかしいところのお坊ちゃんだと思われても無駄な我慢と苦労で草
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw >>103
出ても少ないし
こいつのせいじゃないよね
ネイサンは本当にありがとうございました
>運転手も含め8人がやっとるやろ 真っ暗
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな 異性関係は母親や付き合った俳優Nはその恐ろしいカルトをなんとかしろ
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね? >>30
分離帯にほぼ真っ正面から突っ込んで確認を取ってないぞ
擬人化アニメ
さいころ倶楽部みたいな話 >>177
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで
https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない
sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか?
今日はこの位にしておきます >>193
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで 今ってRVC beta v2で48kで学習できるようになったんやな
でも主流はもう変わっとるん? 好きなボーカルの音声で別な曲を歌わせることが出来るというので、Google ColabでどうにかこうにかConvertで安定して音声変換できるようになりました。
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか? >>195
乙やで
凄いなこれ確かに棒なモデルが感情表現できる様になったで >>197
いろんなことに依存しそうやけど、とりあえずピッチ推定pmはクソやから、
rmvpe使え >>196
学習のサンプリングレートは48kHzにしてもあんま変わらん・むしろ逆に悪くなるので40kHzで十分、という意見が(というかワイの手持ちだとそうなった)
でも48kHzのほうがいいっていう人もいるらしい、やっぱデータセット依存な感じがあり、両方で試す方がええ気がする >>197
上にも書いてあるけど、セットする曲次第だよ
原曲だとハモリ混ざってうまく変換できないから歌ってみたなどから抽出したほういい
学習データ正しいかは、ピアノ伴奏だけの曲から抽出したやつだと比較的きれいだから試してみたほういいかも >>199
WEB_UIを使ってるので選択肢がpmかharvestかdioしかありません
harvestでも同じような結果だったんですが
次はdioやってみようと思います
>>202
2人のアーティストをやってみましたが
確かに2人とも1人でよくハモり、エコーもよくかかっています
現行のRVCではハモりに対応していないのは知っていたので
ボーカル抽出したものからハモりを避けてなるべく素の歌声の箇所をそれぞれ100個ずつ切り出してはいますが
やはりデータの質が肝っぽいですね
なるほど歌ってみたは良さそうですね >>203
rmvpe無いのはたぶん古いからじゃないやろか?
https://i.imgur.com/L0bqY2t.png
sha256sum RVC-beta.7z
92b334bb30a7f55d2da3f2dc8f63c083cd94645163a3cf9fb4c1e93bca96c2ae *RVC-beta.7z
まぁワイもどれが最新版なのか命名規則がイマイチ解ってないんやけど >>201
なるほどサンキュー
>>204
今のRVCはrmvpeがクオリティ高いのができるの? >>204
ありがとうございます
ノートPCなもので別なバージョンを実行したときにCUDA搭載してないと無理というエラーが出たのでローカルは諦めてました
AI自体それなりのスペックを要求するので私のローカル環境でRVC実行は無理そうです
いずれごついデスクトップPCを手に入れたときは好き放題やってみたいです >>195 これ話者は一人ずつのモデルが前提っていう認識であっとる?
同一モデル内で話者同士のマージとかできるんやろか >>208
あー話者idが0同士のマージしか想定してないわ、複数話者がいた場合にどうなるかは試しとらん
同一モデル内でも原理的にはできそうだけど話者idがどうやって使われてるかいまいちよく分かっとらんからすぐにはできんな…… >>209 サンガツ
今までなんとなく複数話者を1つのモデルに詰め込んでたから、話者ごとのモデルに作り直して試してみるわ 乙zennにも記事乗っけたんね
RCVの学習は脳死でrmvpe選んどけばいいんだけど
声優のスタジオクオリティで取ったデッドなしっかりした録音素材レベルだと
harvestアルゴリズムの素性の良さからそっちの方がいい例外が一部だけはある
VC Clientの時選ぶのはマイク入力のピッチ推定に使う方なのでノイズに強いrmvpe選んどけばいい https://github.com/fishaudio/Bert-VITS2/releases/tag/v2.3
Bert-VITS2の2.3来たで、最終リリースらしい
感情制御がCLAP使うのじゃなくてBertで別のセリフを混ぜるやつになって、これは体感だと結構効く気がする もう2.3来たのか
昨日2.2でやっと学習を試したところだったのに早い https://github.com/KoeAI/LLVC/issues/5
VCCがLLVCに対応してくれそう
トレーニングに時間がかかるらしいから気軽にモデル作成するのは難しいらしいけど面白そう 歌ってみたからボーカル抽出しようと思ったらことごとくそいつらもハモってて、歌ってみたの人も頑張ってるなと思った(小並感)
もうワイが…歌うしかないんか?ヴォエ!駄目だやっぱ!(迫真音痴部) EasyBertVits2 で2.3にも対応してくれないかなぁ。
ワクテカして待とう。 Bert-VITS2.3 webui_preprocess使ったんだけど指定の事前学習モデルが中国SMS使えないと落せねぇ…
と思ったらここに書いてあった
https://qiita.com/seichi25/items/e6133c5209e2d65b377a
Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_v', 'encoder.pos_conv_embed.conv.weight_g']
なんか学習中に警告出るわ一応推論できてるけど 2人以上の長文から音声書き起こししたいんだけど
pyannote使えば良いのかな Bert-VITS2、2.3微妙だ感がある、結局2.1が一番良かったのではという説
いろいろ実験してみるしかないかー >>217
trunkに仮対応入れといたで
https://github.com/Zuntan03/EasyBertVits2/blob/main/src/Install-EasyBertVits2.bat
のRawを右クリックからダウンロードでいけるはずや。
>>220
みたくv2.1にlitaginニキのStyle Textパッチ当てたのが最善となるやもしらんが >>221
外付けSSDに対応作業したばかりだというのに
2.3への迅速な対応凄いです
お疲れ様であります 試しにv2.3でbf16で学習してみたモデルも置いときま
https://huggingface.co/Zuntan/JVNV-F2_Bert-VITS2_v2.3-Test
普通の読み上げは普通やが喘ぎ声とかは2.1のほうがマシな印象や >>225
凄い・・・
AI絵も組み合わせればエロゲー作れてまうやん EasyBertVits2に
>>225
を一括ダウンロードするDownload-litagin-bert-vits2-nsfw.batを追加しといたで >>225
とりあえずはこれに更にRVC被せればいろんな声で色々できそうやね
RVC経由で増やした喘ぎ声をvits2のデータセットに入れてみるのも楽しそう >>195
すっごい初歩的かもだけど、zuntanニキのEasyBertVits2を使ってる場合これでマージしたやつはどうすればいいんだ?
出来上がった.pthとモデルAの.jsonをDataフォルダにおいてもロードできない(認識はされてる) >>232
HiyoriUIを使う場合よな?
コード見たらpthファイルの最初が"G_"から始まらないと駄目っぽかったからそうリネームしてくれ
それでも駄目だったらコマンドプロンプトにどんなエラーログが出てるか教えて 最近流行ってるAIカバーソングってどうやって作ったらいいの?
米津玄師がYOASOBI歌う、みたいなの >>234
米津玄師の歌のボーカル部だけを抜き出して学習させる
↓
米津玄師のボイスモデルができる
↓
そのモデルを使って自分でYOASOBIの歌を歌う
もしくは
YOASOBIの歌のボーカル部だけを抜き出して、それを入力し米津玄師のモデルを通して出力 カバーとかは作っても貼らない方が良さそう
絵以上に本気出されたらヤバそう >>235
歌ったりモデルを通すっていうのはRVCっていうの使えばいいの?
何もわかってなくてゴメン
ボーカル抜き出しとかはできるけどそこから先が何すればいいかわかんない >>237
RVCはボイチェン(セリフや歌ボーカルを入力したらその声を別の人の声に変える)やからそういうことやな
RVCで歌わせたい人の声を学習して、そのボイチェンを通して自分が歌ったりボーカル部分を通したりすれば、歌わせたい人の声で歌わせられる >>237
RVCの使い方とかそういう話であれば
「RVC 使い方」とかでググった方がいい
>>1のwikiのRVCの導入とかも参考にはなる
それと、PCにグラボ付いてないとそもそもできないよ NVIDIAのグラボな
ほとんど全部がCUDAで記述されてるからAMD やIntel はまともに使えない >>233
ワイのようなエロ利用したいだけのダンゴムシを相手にしてくれてありがとうやで
そして.jsonファイルを違うファイルと取り違えてただけやった
スマンやで
しかし、完成度高いモデルにnsfwモデル混ぜたら完成度高いまま喘がせられるかと思ったけど、なかなか思うようにはいかないな ワイもダンゴムシや
正月に覚えたいと思ってromってる >>234
>>236
sunoAIでオリジナル楽曲作ってもらって声を米津に変えるとかもあり
てかsunoAI米津っぽい曲歌声も出せるらしいね
ガチャだけど
sunoくんはアーティストのタグ効くようにしてくれればより細く欲しい曲のイメージを指定できて覇権取れるだろうなぁ bert vits2はrvcみたいに音声データを読み込ませてそのまま変換するみたいなことはできない感じかね? ボイチェン(音声を入れたら音声が返ってくる)とテキスト読み上げ(テキストを入れたら音声が返ってくる)は違うから、その目的ならRVCじゃね >>245
RVCがVoice Conversion(音声変換)でVITSがText to Speech(テキスト読み上げ)でそれぞれ全くの別物やで >>246
>>247
なるほど。
ありがとうございます🙏 >>224
これPaperspaceのA4000で試してみた
6時間制限めいっぱいで20000ステップほど終わってた
2000ステップ毎保存で容量34GBになってたんでProプラン基本枠15GB内でやるのは無理
学習する度にダウンロードして綺麗に消せば月額総計2000円程度か? EasyBertVits2なんですが2.1のモデルロード押しても左下に出なくて悩んでます・・
モデルは一覧に表示されます、デモのモデルはロードできてる
って状態です・・・原因何が考えられますか? >>250
jsonはちゃんと置いてる?
jsonが無かったり違うのだったりするとそうなる >>249
そんなステップ数は回さんでええで
あとkeep_ckptsをちゃんと設定しとれば古いのから順に消えるからそこまで容量はとらんはず VITSとゆかりネットを繋げて喋ったりとかは今のところ無理なのかな? https://twitter.com/ParakeetIncCom/status/1739205839599411564
Parakeetのリアルタイムボイチェンきたで
(ウェイトリスト登録とは何だったのか……)
総合の質は正直RVCが上でピッチもずれるから歌とかも歌えないしガタつくけど、低遅延は正義って感じでめっちゃ軽くて速い
https://twitter.com/thejimwatkins Parakeet試してみようと思ったけど起動してもすぐ白い画面になってしまう
相性問題なんだろうね、残念 遅延100msだとワイのこれ>>128より遅いんよ… >>258
まぁグラボ無いような人が対象なんじゃないかな
スマホで出来るようになれば若い層を取り込めそうだけど VC Client1.5.3.17bでしゃべってるとCPU使用率100%行くのおま環じゃなかったのか安心した https://i.imgur.com/SmqD7eQ.png
3090のBFPでもCHUNKこれくらい必要なんやけどBFPよりRevelator io44のほうが設定詰められるんやろか Bert-VITS2.1の関西弁のデータどこかにないでしょうか? 方言はずんだもんもどきみたいなのしか見たことないな 琴葉茜exvoice集でこっそりやってみたらええと思う >>263
chunk下げられないのとio44はあんま関係ないのでどっちかというとモデルの教育具合と入力音声の整流の影響かと思う
ただwasapiは問答無用で実測100ms弱の遅延発生させるからそっちはio44に限らずちゃんとしたASIOオーディオインターフェイス買えば数msまで減らせるで
io44やapolloはDSP内蔵しているのでさらに入力音声のバイパス、ゲート、コンプレッサー処理を遅延μSクラスにできる Babyface Proって15万もする高級AIFの印象なんやけどASIO使えんのか? >>266
その関西弁コーパスとかで学習してみたらってこと >>269
サンガツ ASIOは使えるけどようわからんで
アウトプットは仮想ケーブルやからインプットをASIOにしたら上の画像と同じ設定でプツプツいうたんやが…
ちな両方ASIOにしたらエラーでてるっぽくてマイクの音が出なくなったで DMTでド逓倍のBabyface Proでも駄目となるとやっぱVC ClientでのASIOのpaaudio(soundevice)の扱いに問題あるんじゃなかろうか? >>256
これすげえな。RVC client試したときは色々いじってもいまいち微妙な声にしかできなかったけど、こっちは遅延も少ないしインストールして開始するだけですぐキャラの声になれる。
ワイの設定が悪かったのかもしれないけど… hiyori使ってる場合、simple_merge.pyってどこに置くの?
赤ちゃんすぎて全くわからん みんなすごいわ >>277
ワイも赤ちゃんやけど、bertvitsの下に置いたで
〇〇が無い!ってエラーが30回くらい出たけど、求められる餌を片っ端から食わせまくったらなんとか動いた >>271
ASIO 当然使えるよbabyface proもFSも ぶつぶつの原因はマザボやらCPUやら色々絡むからLatencyMonなんかで観察して一つ一つ潰していくしかないんやな
SoundBlaster(256chunk)からMOTUに変えるだけ(32chink)かなり短くできるようになるからドライバの影響もあるんやな
DTM界でもレイテンシ問題はかなり根が深いから何とも言えん世界や
ttps://u-aim.com/archives/119 >>273
仮想ケーブルってvoice meeterかな
あれはvoice meeter製のASIOドライバつかっても遅延ほとんど変わらず50ms発生するから基本使っちゃ駄目なんよ https://github.com/litagin02/Style-Bert-VITS2/
Bert-VITS2の2.1をベースに感情操作をちゃんとできるように改善したStyle-Bert-VITS2を作ったで
EasyBertVits2みたいにPythonやGitなくてもzipファイルの中のbatをダブルクリックするだけでインストールできるはずや https://github.com/litagin02/Aivis-Dataset
Aivisがデータセットづくりがすごい工夫されてて有能そうだけどBert-VITS2限定だしWindowsだと使えんので、簡単インストーラー付きのWindowsユーザー向けのデータセット作成部分のフォークを作った
どこまで書き起こし修正が必要かはよう分からんけど、質が悪くなることはないと思うし、めっちゃ工夫されてるからStyle-Bert-VITS2に入れるデータセットづくりに使うといいかもしれない しょぼいPCだからGPU借りて使えるAivis重宝してるわ Bert-VITSで盛り上がってるところすまないんだけどRVCで質問させてください
俺は男なんだけど、別に女声にボイチェンしたいわけじゃなくて動画投稿のために
カッコいい声に変換したいと思ってるんだけど
そういう場合って適当にbooth辺りに売ってるイケボのモデルでも買えばいいんだろうか?
自然な女声に変換するのはボイトレが必要なのは何となく分かるけど
おっさんボイスをイケボにするのにもボイトレが必要なんだろうか? >>293
これってstyle_vectors.npy無しでモデルを読み込ませる事とかできるの?
試行錯誤したけどスタイル作成するには元音源wavが必要みたいだし
EasyBertVits2で使えた音声モデルを動かせなくて困ってる >>297
今は対応しとらん、というか対応したとしてもEasyBertVits2で作ったモデルはスタイル指定はできないので、その音声モデルを使いたいならEasyBertVits2を使ったほうが早いと思う
スタイル使いたいなら面倒やけど学習し直して自分でスタイル作る、って感じやな、すまん >>298
Easyだとsafetensorsを読み込めないし、互換性は無いに等しい感じか・・・
しかし、これから合成音声を作るのなら機能的にstyle一択みたいになりそう
自分で学習チャレンジする時の参考にさせてもらうわ >>299
もしokibaモデル(EasyBertVits2からダウンロードできるモデル)やったら使いたいモデルあったら教えてや
優先して作り直すようにするわ Audacityで無音の分割すると文の途中で切れるんやが
上手いコツを教えてくれよ >>300
ならばlitagin-bert-vits2-nsfw-ver2.1-aegi1を(迫真)
年始だし気長にお待ちするわ
画像生成と一緒ならsafetensorsとpthは構成ほぼ同じ?
声は本人そのまんまになるから学習させるなら故人の声優にしようと思うわ
しかし、データセット作るのにはスマホゲー等のブッコ抜き使う方が遥かに楽という
古い声優だと無料公開1話等から録音アプリでかき集めるしかないね たまに発生する中国人が日本語喋ったみたいな発音はベースモデルとアーキテクチャの都合でしょうがないんかな
声質が自然なんで違和感すごいわ >>302
nsfwのほうかー、あれは話者性が結構ガタついてノイズが酷かったから、複数話者混ぜないnsfwとしてそのうち出す気がするわ
safetensorsとpthはほぼ構成は同じなんだけど、Bert-VITS2 v2.1であった感情の重みを消してStyle-Bert-VITS2では別の重みにしてそれを学習させてるから、
そのまま移植してもスタイルは使えん、っちゅう感じ よく言われる中国人発音は、中国モデルというよりも、単純に日本語のアクセントとかいう、単語単位で音の高低が決まっているという仕組みを学習するのが難しいからやろな
(中国語や英語だとそういうのはない、はず)
今はアクセント調整がうまく学習できてなくて手動でも変えれないから、そこを変えれたらもう満点という感じなんやが…… >>306
情報ありがとナス
声はどうしてもディープフェイク問題が付きまとうから
現役声優やナレーションの人と競合しないように配慮したいわ >>300
いつもお世話になってるで
どれも好きな声質で気分転換で替えるの楽しいわ
無理せんと更新作業しておくれ >>300
横からリクエストええやろか😋
Gちゃんの声を何卒…🙏 Aivis Datasetで「1-CreateSegments.bat」を実行すると
RuntimeError: Library cublas64_11.dll is not found or cannot be loaded
こうなるんだけど、解決方法ありますか?
ちなみにCドライブ直下にインストールしたんだけど… >>311
ttps://zenn.dev/rhene/scraps/60763ec9d7f1ee
多分、グラボのドライバが正常に機能してない
GPUが正しく使われてないと思う
画像生成やゲームでちゃんとcudaは機能してるか?
CUDA-System Fallback Policyで勝手にメインメモリ使ってる可能性もある 某RVCのガイド
https://rentry.org/9r7pn
分割とか無音とかは初期の話とか情報が錯綜してるときの話やろな 素材を全部くっつけて無音を削除して5秒ごとに分割するで!
↓
声がノイズ扱いされるンゴ……
無音を作ったら解決した >>312
似たような名前のファイルを探してリネームすれば良い感じですか?
それともドライバのアプデ? >>316
cudaがv12.xならcublas64_12.dllってのがあるはずなので、それをその場にコピペして11にリネームしたら通ったよ >>293
遅ればせながら使わせて頂いたが、すごすぎて変な笑い出たw
ほんまサンガツ!赤ちゃんでもめっちゃ使いやすいやで! >>316
自分も同じトラブルに遭ったわ
ttps://note.com/hcanadli12345/n/nb8cf59ca2596
そもそも、該当ソフト自体が入ってない可能性もある
ちゃんとcuda等が入っているのなら既に上がってる通りリネームで行ける coeiroinkみたいに音の高低を調整できたら完璧なんやがなぁ…。
というか学習したpthファイルをcoeiroinkで読み込ませることはできんのやろか。 coeiroinkは単純なESPnetのVITSで、Bert-VITS2系とは構造が違うから互換性は全くないで
coeiroinkのアクセント調整はVITS内在のものでBert-VITS2系だとうまく動かんから期待できんけど、
手動ピッチいじりの方はあれは無理やりいじってるだけな気がするから、すごい人ならアレと同等のことはできるようにできるんかもしらん
(coeiroink editorがコード公開されとればええんやけどな……) >>324
おおええな、そこまで不自然さも目立たん >>326
うおおお!
サンガツ×100!
使わせてもらうで!
自分でもモデル作成&sfwモデルとnsfwモデルのマージやってるけど、感情を1.0にしちゃうとやっぱり声色もnsfwモデルに引きずられるんよねえ
sfwモデルをnsfw化するにはなるべく声色が似ているモデルを使用したほうがいいんかのう… >>326
😭😭😭
nsfwのサンプル複数同情再生だけで至福なんですけど!! 喘ぎ声や吐息も充分実用に足るレベルだね
声優の代替になるってほどでもないけど
むしろボイロとかの人工音声の方が好きな層も多いからウケもよさそう >>293
いつもサンガツ!
デバグ報告するやで
batインストーラーを使ったら途中でパスが不正でエラーになってしもた
Program Filesの半角スペースが引数の区切り文字と誤認されてるみたいやわ
パスを渡す時に" "で囲わないとアカンみたいや
D:/Program Files/V_Chang/install-Style-Bert-VIST2.bat Ilonaちゃんだけ感情入れるとエラーになっちゃうんやがワイ環?😢 >>326
おぉ、ありがとうナス
これでStyleの方に完全移行できるわ
config.jsonのファイル名が違って動かなかったから焦った >>333
いや幸いな事にnsfwの方は動くんやが
普通版の方がneutral以外で生成すると
IndexError: index 3 is out of bounds for axis 0 with size 1
と出てerror表示されるんや
ワイ環の可能性結構あるから他に報告無かったら無視してクレメンス >>327
nsfwでのマージあんま試したことなかったわ、こちらでもやってみる
今は「話者性」「感情表現」「テンポ」の3つでマージにしとるけど、最初の話者性のところに声の高さの情報が入っちゃってるから(flow)、
通常のモデルとnsfwモデルを、話者性を通常モデル全振り(0)でやっちゃうと、喘ぎっぽい甲高い声にならない、っていうのはありそうや。
いろいろ試し見てみてうまく行ったら、声の高さについてのマージもちゃんと分けてできるようにしてみるで。 >>335
style_vectors.npyファイルが壊れてるっぽいな
こちらではエラーが再現できんかったから、もう一度ダウンロードしてみて試してみてくれ >>337
サンガツ 動いたわ🤗
何回か3個セットダウンし直したんやが何か間違ってたんやろな
手間かけさせてすまんやで😞 >>336
なるほど~
まあ考えてみれば喘ぎ声や吐息って感情表現や抑揚だけじゃないもんな
喘ぎ声や吐息を構成する要素をマージするにはその構成キーを探し出してnsfwマージ専用のコマンドにしなきゃならんのかもな… (Style-)Bert-VITS2の日本語から音素記号に変換するところに重大なバグがあったのに気づいて修正したから報告や
細かいことは置いておいて、今までは「車両を見つける」という文が、学習でも音声合成でも、本来は「シャリョオオ ミツケル」なのが、「シャリ「ヨ」オオ ミ「ッ」ケル」になっとったんや
そのせいでアクセントの学習もぶっ壊れるところがあったっぽい。
https://github.com/litagin02/Style-Bert-VITS2/blob/master/text/japanese.py
本家の人でもStyleの方でもダウンロードしてtext/japanese.pyに置き換えればそこが修正されるはずや(StyleならUpdate.batでもたぶんいける)。
ちょっと試したけどアクセント等が自然になった気がする(少なくとも悪くはならん)。
(また全部学習し直しや……) マジかー
まあデータセット全部貯めとるから回し直すだけやけども >>341
学習中に残り時間とか表示してほしくて進捗をエポックごとじゃなくて全体を表示するように改造して使ってるんやがdevブランチにPRしてええかな?
それと書き起こしに「ヴ」があるとエラー出たから報告や >>344
気軽に送ってくれてええで、ただ自分は目標エポックでかめにして途中で中断して選定するタイプやから、マージするかはちょっと分からん
ヴ問題はさっき気づいてアプデしたで >>345
修正サンガツ
また何時間も学習回さなあかんな… Style-Bert-VITS2なのですが Install-Style-Bert-VITS2-CPU.batで色々とセットアップとダウンロード後に
zipfile.ZipFile.__init__(self, filename)
File "zipfile.py", line 1269, in __init__
File "zipfile.py", line 1336, in _RealGetContents
zipfile.BadZipFile: File is not a zip file
Press any key to continue . . .
みたいな感じでエラーが出て起動せず困っております…
あまりにも初心者すぎて申し訳ないのですがいったい何が原因でしょうか >>341
なんか中国人が話す日本語みたいとか言われてたのはバグのせいか?
画像生成AIでもtextencoderが壊れてるとかあったけど
このバグは根本的にやり直しになるのか・・・ヒェ 一応やけど、学習をし直さなくても一応アプデしても前のモデルは使えるは使えて、それだけでも少しは改善される可能性はあるで。
(特に「車両を見つける」とかはアプデ前はめっちゃ「みっける」って発音してたのが直ったりする) >>348
韓国系の男性アイドルとかモンゴル人力士みたいな上手いけどなんか違和感ある日本語かな?そもそもそれ自体どうしてそうなるのかよく分かんないんだよね どうしてもなにも、画像生成で指が増えたり減ったりするようなもんやろ
文章から感情や文脈を判断して自然な文章を読み上げるなんて少し前なら考えられんほどのオーバーテクノロジーやし、ポン出しでネイティブにも全く違和感のないものが出ると期待するのは無理がある
細かな違和感は今のところ手動調整していくしかないやろな ポン出しで出たのを上に出てたVolcalShifterで微修正とかいう感覚やろか
出てきたものを微調整するのが今はちょっと音は敷居が高い感じはあるから、やっぱそこどうにかしたいな >>352
自分は違和感ある単語を置き換えたり句読点を挟んだりしてイントネーション調節してるな
コツを掴めば5分の小説朗読なら30分くらい調教すればほぼ違和感なくなる
どうしても言わせたい単語をどうしても違和感なく言ってくれなかったときは困ったけど… 漢字を置き換る
前後を感情語(嬉しい! びっくり!など)で挟む
改行する
とかで欲しいアクセントや情感探しとるな自分は 雑感では
一発で欲しいセリフが出る 20~30%
テキスト微調整の繰り返しででる 60% ってとこやろか
残りはどうしても出んからコマ切れに出力して切り貼りとかしてたが
今後は鉛筆カキカキやな
手間やが現状すでに棒読みのAV嬢よりずっとそそられると思うわ Bert-VITS2の音素変換って総当たりの置き換えでやってるのね
中華系のVITSはpyopenjtalk使ってるイメージだったんだがpyopenjtalkそのまま使ってない理由とかあるんだろうか Bert-VITS2は読み取得のところでpyopenjtalk使っとるで、総当たりしとるのはpyopenjtalkで読みを取得してからのところやな
そのまま使っとらん理由は、ちょうどいま自分が突き当たっとる問題なんやけど、pyopenjtalkまんまだと「!」とか三点リーダーが消えたり「。」と「、」の区別がつかなかったりで、
だから(学習データの関係上)記号は記号のままで使いたい、という理由やと思う(既存TTSやと「!」で強調とか効かんから利点はあるな)。
やけど、そこが原因で、昨日の修正でもまだアクセントがおかしくなる場合があることに気づいたから、それをどうにかしようと修正中や…… わぁい!わぁい!わぁい!わぁーい!とか同じ文章を読ませると
モデルによっては変な揺らぎでまともに発音しないな もうほんとアクセント以外はほぼ完璧な気がするな~
ある意味恐怖 >>356
あぁなるほど記号か
pyopenjtalk使ってるのはpipに入ってるから知ってたけど全部それでやってると思ってたんや
わざわざサンガツ >>341
ちょっと書いたけど、そもそもBert-VITS2のアクセントの取得法がミスってて、この修正でもアクセントがおかしいまま学習・推論されるバグがあったから、
とりあえず修正した(はずの)やつを置いとくで、何度もすまん(「私はそれがいい」→「ワ↑タシ↓ワ ソ↑レ↓ガ イ↓イ」だったのを「ワ↑タシハ ソ↑レガ イ↓イ」に修正)、
https://github.com/litagin02/Style-Bert-VITS2/blob/fix-g2p-again/text/japanese.py
改善はたぶんアクセントだけやから、正直どこまで効果があるかは分からんしまだこれを本流にするかは決めとらん、なかなか評価もしにくい
(あとアルファベットが学習時・推論時に無視されるのも直した) Install-Style-Bert-VITS2-CPU.bat を使わせて頂きました
languageが[EN][ZH]の時は[音声合成]ボタンで音声を生成してくれるのですが
日本語[JP]だとエラーがでてしまいます
プロンプト?には↓のように表示されます。 何か考えられる解決方法はありますのでしょうか。
File "C:Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\pyopenjtalk\__init__.py", line 209, in run_frontend
_global_jtalk = OpenJTalk(dn_mecab=OPEN_JTALK_DICT_DIR)
File "pyopenjtalk\openjtalk.pyx", line 142, in pyopenjtalk.openjtalk.OpenJTalk.__cinit__
RuntimeError: Failed to initalize Mecab 当初の修正でヤバげな発音が大体直って
後はアクセントが多少おかしいのがアレぐらいに思っとったんやけど
つまりこれでワイにとっては完全版になるんか
日本語の解釈処理だけでここまで変わるってことは根本はとんでもない代物なんやな
また回し直してみるわ 普段お絵描きAIばっか使ってるけど
音声AIが面白いことになってるらしいと聞いて遊びに来たで
文章のみから勝手に感情まで付けて読み上げてくれるってすごいなぁ
ずんだもん喋らせて喜んでたくらいの自分からするとタイムマシンに乗せられたような気分や
Style-Bert-VITS2使わせてもろとるけど導入もめちゃ簡単で感謝やで Style-Bert-VITS2は学習も簡単にできるのがいいな
分割とか文字起こしも内蔵してるから適当な音声ファイルぶっこんでやれば学習できる
あとモデルのマージも出来るんで適当な2キャラで学習したあとにマージすれば適度に学習本を特定されにくいレベルになる
ただ感情のスタイル指定がなかなかうまくいかないな >>365
いやなんだこれすげぇなw
ボイチェンやらTTSと全く別の方向性で進化してるやん Style-Bert-VITS2を使わせてもらってるんですけどスタイルの指定方法の音声ファイルを入力の方がエラーが出て使えないんですけど使うにあたっての条件等があるのでしょうか? >>368
すまんバグや、あんま音声ファイル使わんから気づかんかった
たぶん修正したはずなのでアプデして試してみてくれ Style-Bert-VITS2試しに学習しようとしたらエラーおきたからデータが悪いのかと思いデータセット作成ツールから文字起こし選択するもこっちもエラー
もう分からん… Style-Bert-VITS2もテキストいるのか…… ?
そりゃテキストを音声に変換するAIだし当然だろ
ボイチェンならrvc >>371
今グラボ1070使ってるんだけどfloat16ってやつがサポートされてないっぽいから?
まったくわからんすまん インストールファイルをダブクリしたら黒い窓がててきて途中で止まるわ >>374
へぇー
じゃあ、こんにちはみなさん
とかって喋らせたい時はどうやって入力すんの? >>375
学習時の前処理のところで「bfloat16を使う」を外してみたらどうや? >>377
有料だけど音声アップロードするだけで喋ってくれる
発音は結構怪しいけれども
https://elevenlabs.io/ Bert-VITS2は声音だけじゃなく喋り方の癖やら感情表現も学習してくれるのが売りやからな、音声少し与えて喋らせるだけのゼロショットとはちょっと方向性が違う気がするで
(ゼロショット方面やと最近はBert-VITS2開発陣ががんばって作っとるFish Speechとかいうやつがあるからそっち期待やな) テキストが要らないって結局良くわからん
学習のときに音声のテキスト起こしが要らないということ?
それはstyleの機能の一つで自動でできるぞ >>378
完全に見落としてました…
チェック外して再度行ったところ今度はValueError: need at least one array to concatenateというものに変わったのですがこれも分からないです colabでも無理やりデータセットづくりは使えるは使えるけど公式で出しとるやつには乗っ取らんな
(次verで乗っける予定や)
>>384
どのステップの段階でそのエラーが出てる? どのライブラリなのか分からないけどStyle-Bert-VITS2の文字起こし精度高いよね
喘ぎ声混じりのエロゲ濡れ場シーンでもかなり正確 >>387
OpenAIが作ったWhisperってやつやで
この文字起こし認識失敗すると大体「ご視聴ありがとうございました」になるのが不思議や 自己解決。cドライブ直下でインスコし直しで解決しました。わーい >>388
なんどか名前だけ聞いたことあるけどWhisperだったのか
確かに「ご視聴ありがとうございました。 高評価とチャンネル登録をお願いいたします」って出てるの時々あるな
つべの動画から学習してるんだろうか? >>369
アップデートしたところ使える様になりました
ありがとうございます Whisperはネット動画の音声と字幕から学習しとるんやけど
この字幕データがまあまあ正確に付いとる動画であっても
動画の最後にそれを破って話してもいない「ご視聴ありがとうございましたチャンネル登録高評価よろしくお願いします」が入ってたりすることが多いんや
BGMやらガヤしか入っとらん状況でいきなりそうなるもんやから、同じようによく分からん音声を食わされるとそう誘導される訳や >>386
一番初めの段階ですね、変換に入る前です
ディスコの投稿遡って調べても同じ症状の人いなさそうだからおま環なのかな >>394
間違えた変換じゃなくて学習ですね、学習を開始のボタン押してすぐエラーがでます
前処理は成功してます >>395
スタイルベクトル作る所で失敗しとる気配がする、エラーの前後がコマンドプロンプトでどうなっとるか教えてほしい
(あとwavsフォルダにwavファイルに対応したnpyって拡張子のファイルたちがあるかどうかも) >>397
やっぱり前処理段階で失敗しとるな、前処理の所でwavファイルに対応するnpyファイルとbert.ptファイルが生成されるはず
前処理で何か警告とかエラーとか出てない? >>398
いつもはmanaって名前のフォルダなんですけど今回testって名前のフォルダにして前処理したらnpyが作られました…謎すぎる…グラボのアプデしたからかな?
それで今学習回してるところですこんな時間までお付き合い頂いてありがとうございました
https://i.imgur.com/D0dT0T2.png
https://i.imgur.com/mlsKhjB.png >>398
音声合成までいけた!本当にありがとうございました!
しかしこれいいなRVCも凄かったけど自分で音声読み上げしなくていいのが特に楽で >>399
横からだけど、自分もmanaって名前で作ったモデルあるけどちゃんと生成までいったから名前は関係ないと思う
ただこっちもちょっと失敗しちゃってesd.listに文法ミス(たぶん|の数の不一致)があったみたいなんだけど、そのままesd.listが文法おかしかった
所の手前までで破損しちゃった…… https://github.com/litagin02/Style-Bert-VITS2/releases/tag/1.3
Style-Bert-VITS2のバージョン上げたで。日本語処理部分のバグを直したり、アクセント調整機能つけたり(万能ではない)、colabに学習データセット作るやつもつけたりいろいろ。 >>402
おー、アクセント調整ほしかったやつだありがとう
ちょっとの調整でかなり自然に話してくれるようになった >>402
アクセント調整凄くイイ!🤩
ここまでくるとマウスで0と1切り替えられるようになるよう
図々しくリクエストしちゃうやで!! 読めない漢字があると事前学習止まるって見て結構たくさん修正いるかなとおもったけど
人物名とかの難読を除けば「ヶ」と「乃」くらいで殆ど修正しないで済んだ >>408
それはやりたいんやけど、今使っとるGradioっちゅう簡易的なGUIツールじゃ難しそうなんや……
そのうちすごい人が別のツールを作ってくれるの待ちやな javascriptで拾ってもフォーム部品単位だろうしなあ moegoeみたいにC#でフロントエンド作るのも良いかもしれん https://i.imgur.com/xs4ppuN.png
こんな感じでエラー吐いて起動しないんじゃけど何かおかしいんじゃろうか
キャッシュ削除とか再インストールとか色々やってみたんだけど駄目だったので知恵をお借りしたい RVCのほうで、事前学習モデルをこれに置き換えるとよいかもという噂があるらしい(AI HUBの人たちが事前学習モデルを改良したらしい?)
https://huggingface.co/ORVC/Ov2Super/tree/main >>414
インストールは終わっとるみたいやから、そのままApp.batダブルクリックで開かんかな?
何か下の方にエラーが隠れとるからそれが出るかも知らんが。 >>416
ダメでした…
app.batとMerge.batは同様のエラーで起動せず
Style.batは一応起動しました >>417
その同様のエラーってのを教えてほしい
画像の下の方にもっとエラー内容が書かれとらん? >>419
分からんな……
何かライブラリがダウンロードしてきたっぽいzipファイルが壊れてるっぽいエラーやから、もう一回全部消してやり直してみるくらいしかアドバイスできん、すまん import中にモジュールがzipダウンロードするのが失敗してるとかかな?
ファイアウォールが通信をブロックしてないかとか、proxy経由する必要があるとか、そんな感じ? Style-Bert-VITS2の1.3はスタイルの設定もかなり良くなってるね
いままであまり区別出来てなかった通常の会話とエロ声がちゃんと分別できるようになった 音声合成WebUI立ち上げるやつは一応一番下に載せとるはずやで 「ずんだもん読み上げに感情を与える」ページを見ながらマージに挑戦中なんだけど、教えていただきたいことが…
「デフォルトのjvnv-F1」と「デフォルトのjvnv-F2」のマージはmodel_assetsフォルダを弄ることなくMerge.batから成功
しかし「Zuntanさんの10kステップ(v2.1とv2.3両方DL)」とのマージのやり方がわからない(自分なりにやったらモデルファイルのマージボタンでError吐いた)
まず基本的なフォルダ構造からわからんです
「mergeフォルダを作って〜」というのはmodel_assetsフォルダ内に作るって事なんだろうか?
「そこに2つのモデルを入れて」というのはどこのフォルダの何を入れるんでしょう?
「片方のモデルのconfig.jsonも入れて」というのはmergeフォルダ直下に放り込むんでしょうか?
わからん もう・・・なにもかもが・・・ >>427
その記事はBert-VITS2本家のやつやからStyle-Bert-VITS2の情報とは違うで(mergeフォルダを作ってconfig.json入れてとかそこらへんは本家でsimple_merge.pyを使う場合の話や)
Style-Bert-VITS2ならMerge.batからやるだけや、デフォルトのjvnvモデルのマージに成功してるんならそのやりかたでええで。
あとたぶんZuntanさんの10kステップのやつはBert-VITS2本家のやつやからStyle-Bert-VITS2では使えんで あー、本家情報と分家情報の段階からの勘違いだったかー、これは酷い
お手数おかけしました Dataは残したままの方が良くない?
Inputの方は移動後は消しちゃって良さそうな気がするけど 追加で学習したりスタイル分けを作ったりに後からも必要やから自動削除機能は付ける予定はないで
colabでGoogle driveやったら自分でもういらんやつは消してくれ python webui_style_vectors.pyが起動できない colabやったら最初に「!」つけるんやなかったっけ
と思ったけど、webui_style_vectors.pyはcolab今は対応しとらんかった、すまんな
スタイル作りはグラボ全く使わんからとりあえずローカルでやってくれ
(colabでgradio立ち上げるのがどうか問題もあるしな) インストールしたらNo module named 'gradio'ってエラーが出る >>440
仮想環境からちゃんと立ち上げてる?よく分からんのやったらStyle.batダブルクリックでいいはず pythonの仮想環境って外部ストレージは基本的に無理では? 3060で自動分割後1100個程の音声を学習するのに7時間ほどかかっけど
Colabの無料とかでそんなに長時間接続出来るんだろうか? 最近Colabで遊んでないから分からないや…… >>445
画像生成の学習でも似た様なのあったぞ
確か無料プランだと3時間ぐらいで切断されるはず
今はどうか知らんけど7時間は確実に接続切れると思う >>445
時間からして30000ステップ以上回してそうだけど10000ステップ回せば十分な出来になるで 「書き起こしファイルの前処理に失敗しました」と出た >>450
ステップ数では確認してないけどデフォルトに従って100エポックまで回してみたかたち
雑に確認したときは60エポックくらいのが一番良かった気がしてるけど
画像と違ってどこが一番いいって分かりにくいね RVCも似たような感じやけど、音声はどれがいいかとか一目で分からんから選別が沼なんよな……
100エポックで良い気もしたけど自分のデータだと300くらい回したほうが質が上がる気配もあるし分からん ID:4y6ys5U/くんおねだりしたりやたら質問したり何か失敗してもエラーメッセージの類を一切はらんあたりマジで無知やな
>>452
確かに画像ほど明確な変化がないからどこまで回せばいいかよくわからんわ >>455
漢字の変換に失敗してるから摘木をカタカナに変えろ 何度もありがとうございます
colabだとダウンロードして開かなきゃいけないのめんどいね 東北訛りも話者がちゃんとしてればかなり忠実に再現してくれて感動したわ Style-Bert-VITS2のtrain.batで学習させる場合って10秒程度のWAVなんぼくらいあったらちゃんとしたの出来るんか?
4つじゃ全くダメで、同じのコピーして水増ししても意味なかったんやけど >>461
サンプルのデータセットを見た限りでは
1ファイル10秒を100個ぐらいセットにしていたね
サンプルボイスを合計して15~20分ほど必要なんじゃない? Style-Bert-VITS2の書き起こしファイルの前処理でエラー吐くとesd.listぶっ壊されるな… >>463
エラー発生した所の先が消えちゃうときがあるね……常にってわけじゃないけど
前処理する前にファイルのバックアップとってからやったほうが良いね https://www.youtube.com/watch?v=CG_F6B78a-0
必要なデータ下限を検証してた人おるで
データにもよるけど2分くらいでも行けるは行けるみたい RVCと同じく合計時間は5分-1時間くらいがええんかなあって気がする、知らんけど 素材が少ない場合は似た声を一緒に学習させてスタイル生成でゴリ押すのも可能? ノウハウがあんま無いから実験してみて結果を教えてくれや 学習途中でスタイルを生成して置き換えて再度最後まで学習したらスタイルがNeutralだけになった >>470
すまんそれは認識しとるんやけどまだあんま取り込んどらんかった
train_ms.pyを実行する所で--skip_default_styleをとりあえずつけてくれたらNeutralスタイルの生成がスキップされるからそうしてくれ、そのうちWebUI側でもそれを指定できるようにするわ スタイルが生成されるのは学習の最初だから、学習途中に作っても問題はないはずやで、上書きされるのは学習を途中から再開とかで新しく初めた時 そういえば前にうっかり学習途中で止めちゃって、また最初からやり直しかなと思ったら
普通に中断した所から再開できて助かった 学習終わって確認してみたらガビガビモデル出来てたからなんで?と思ったけどDataにmodelフォルダあるとベースモデルコピーされないのね 今はmodelsフォルダあっても上書きで事前学習モデルがコピーされるはずやけどな……なんでやろ ま?と思ってもう一回やってみたけどやっぱりコピーされないみたいや
|WARNING | webui_train.py:69 | Step 1: Data\test\models already exists.
まぁコピーしてmodelsフォルダだけ残すなんて変なことしなきゃええだけなんやがな >>478
すまん勘違いやった、コピーされるようにしたつもりやったわ、そのうち修正する ワイ グラボないのでCPU版で生成して楽しませてもらっていたが
遂にcolabでの学習・生成に成功。好きな声だと破壊力が段違い、
しかもグラボ経由(?だと長文でもめっちゃ生成早くて感動
製作者様ありがとう。 Aivis Datasetのことなのですが01-Sourcesに音声データをセットして、1-CreateSegments.batを実行すると画像のようにエラーが出てしまうのですが、原因が分からず何か解決方法等はありますでしょうか?https://i.imgur.com/6TB0CgQ.jpg >>481
なんかのファイルが見つからんことしか分からんな、もっと上の方からエラーログを送ってくれ 学習のesd.listって学習用の音声データを全部文字で打たなきゃいけないのか
数百個とかあると結構大変だな… 自動文字起こしツールも同梱されてるからそれ使え定期 全部手打ちしてるやつたぶんおらんやろ、たいてい自動文字起こしか元々書き起こしが存在するコーパスか Style-Bert-VITS2のバージョン戻す方法ってないですか? 思うに、公式の使い方の説明の順番はslice、transcribe、学習にするか、またはそれらひとまとめで学習としたほうがいいのでは >>490
たしかにせやな、あんまREADMEに丁寧には書いてないけど順番だけは変えて補足説明追加しといたわ
>>489
新バージョンで何か不具合ある? >>491
気のせいかもしんないけど自環境だと発音バグ修正前の方が自然な抑揚だった気がして モデルを選ぶメニューは作った順番になるのね
アルファベット順にでけへんの 自動書き起こしツール優秀だけど
突然「ご清聴ありがとうございました。チャンネル登録お願いします」が入ってくる時があるから生成後のチェックは必要だけどね >>492
事前学習モデルがバグありで学習されとる関係で、学習データ量が少ない場合はそうなるかもしれないとは思ってた、すまんな
発音・アクセントは2回修正してて(1回目は「微力→ビリヨク」等の発音バグ、2回目はアクセントそもそものより広範囲のバグ)
1回目修正時点でのものは
https://github.com/fishaudio/Bert-VITS2/blob/master/text/japanese.py
から、1回目も戻すんやったら、
https://github.com/fishaudio/Bert-VITS2/blob/e173aa85eed867ab7f17875d00121abb58eb574f/text/japanese.py
あたりからjapanese.pyを取ってきて置き換えれば前バージョンの挙動に戻る
1回目の修正は個人的にはそんな悪影響はないって気がするけど分からん >>495
と思ったけどすまん、アクセント調整機能を追加しているやつが悪さする気するから、1.3verでそこだけ置き換えるだけじゃ動かん気がしてきた
適当なコミットの所でgit checkoutしてくれ…… 俺はちなみに新Verでめっちゃアクセント良くなったでほんまサンガツ この辺は2.x系の話もやけど、書き起こしの書き方とか、性能とかで一長一短なとこも実はあったりなんかもな
ちなみに
10秒程度の会話を230ファイル
バッチ8で200エポック回してる すまんあと追加なんだけど自動書き起こしだと最後に全部 。 がついてるからなおしたり!とか?とか…を場合に合わせて書き換えてるがこれも意味あるんやろか 「。」「!」「?」は全部別音素扱いやからちゃんと意味はあると思うで。「!」で強調された感じにとか明確にあるしな。 >>484、485さん
ffmpegをいれたら無事に解決出来ました。
ご回答頂きありがとうございましたm(__)m >>496
1.2に戻してみたけど抑揚は気のせいだったっぽい
ただ母音の発音は1.2の方が明瞭な感じするんやがどうなんやろ その辺の判断はAIガチャの良し悪しもあって難しいよね
まあボカロとかでも「旧バージョンの方が”らしい”」ってことで使い続ける人が居るし、もっと広い括りだと「ハイレゾ音源よりも通常音源のほうが好き」って場合もある
人間の聴覚って視覚よりも相当に不安定、だからこそ同じ生成AIでも使い手に依存するところが大きくて楽しい 触ってみたけど吐息や叫び声とかの変換が素晴らしいな
あとはVOICEVOXみたいにアクセントや音の長さをスライダーで細かく指定できたら最高なんやけど 1.2で学習させたモデルだとアクセントがバグったアクセントで正しいアクセントが読み上げられるようになっとるから、1.3でそのまま使うと違和感があったり、とかはありそうやな
なかなかデータや耳にも寄りそうだし判断が難しいところや bertvits2 で音声からの文字起こしでエラーでる場合と出ないときとあるんだが
エラーでるのは何が悪いんでしょうか?
わかる方います? しかしエロゲの音声吸わせようと昔のエロゲを読み込もうとするとPCから光学ドライブなくしたことに気付く 自分も最近文字起こしでエラー出る事があるな
ファイルはちゃんと作られてるので困ってないけど
ERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data\modelname\raw --output_file Data\modelname\esd.list --speaker_name modelname --model large-v3 --compute_type bfloat16 --device cuda --language ja --initial_prompt "こんにちは。元気、ですかー?私は……ふふっ、ちゃんと元気だよ!" その文字起こしのエラーは原因がよう分からんけど無視していいはずや……なんで出るんやろ >>510
無視してよかったのか、助かります、ありがとうございました。 transcribe.pyが吐いてるなら、翻訳機能が入ってて日本語→日本語なんてできないとか? https://huggingface.co/litagin/Style-Bert-VITS2-1.3.1-base
Style-Bert-VITS2の1.3でのアクセントバグ修正から追加で日本語多話者学習して事前学習モデル作ってみたで
pretrainedをこれと置き換えると使える
どれほどよくなっとるかは正直分からんけど1つ回した感じは悪くなってなくて自然性が増してアクセント制御もよくなってる、ような気がした
(Speech MOSでの自然性評価はとりあえず明確によくなってた)
よければ使ってみるといいかもしらん、どっちがよかったかとか教えてくれると助かる >>513
連投すまん、感情表現が露骨に下手になってそうやったから非公開にしたわ……
スタイル埋め込みは学習させんままのほうがよかったかもしらんな、また試してみていい感じの事前学習モデルできたら共有する 研究おつやで
最近触り始めた身からしたらまだ良くする余地があることにビビるわ やっぱ初期モデルというか日本語コーパスをマージしたほうが無難って感じですかね 初期のjvnvモデルも1.3以前に学習されとるからアクセントがおかしいのが目立つ気するんよな、といいつつなかなか自分では使わんから学習し直す気にならん 私はボイスチェンジャーで自分の歌声を女声に変えたくてこのスレを見てるのですが、ここは色んな声で喋らせるスレなのでしょうか? 互換性があればワイもRVCやりたいと思ってるんやけどなぁ… https://github.com/IAHispano/Applio-Installer/releases/tag/5.3.5
試しとらんけどRVCはもうAI HUB勢力が本家とは独自に色々改良したり別プロジェクト立ち上げたりしてるっぽいから、
最近だとApplioを使うのがいいらしい?
事前学習モデルも新しいやつ>>415 があるっぽいしな。
プラセボやらもありそうだし音声は評価ほんと難しいから分からんが……あといまさら作ってきたモデルを全部学習し直す気にもならんが…… ボイチェンは質の面ではRVCやSoVITSで完成されてたイメージがあるからなぁ ユーザー名漢字にするんやなかった…
やっと引っ越し終わった https://huggingface.co/litagin/Style-Bert-VITS2-1.3-test/tree/main
Style-Bert-VITS2の1.3で正しいアクセントで追加学習(ただしbertは学習させず)をやってみた事前学習モデル作ったから、
暇な人がいたら置き換えて試してみてくれ
しばらく出先やから自分で学習はまだチェックしとらん なんでColab君グラボ使ってないとブチギレてくるんや プルダウンにスクロールバーが欲しい
モデルが増えると下へ下へと伸び続けてしまう
https://imgur.com/ywbKmtA.jpg 別に下にいくらでも伸びても選べるしええやろ
gradioやらブラウザの仕様やから我慢するか、解決方法をプルリクで送ってくれ Style-Bert-VITS2 v1.3
すみません、下記のように追加モデル配置してもモデルロードでエラーが出ますが何が原因でしょうか
model_assets
├── Hilja
│ ├── Hilja_e300_s26480.safetensors
│ ├── model_assets_Hilja_config.json
│ ├── style_vectors.npy
│ ├──
│ └── コンフィグファイルの名前
ただのconfig.JSONにすれば解決すると思う >>529
model_assets_Hilja_config.json
を
config.json
にリネーム >>530
できました!感謝します、ありがとうございました すまん、14人超えたらスクロールバー出てきたわ
早とちりしてしまった Style-Bert-VITS2 v1.3、エロ朗読させて遊んでたけど、エロテキストにありがちな「んあ」みたいなn+母音を音素変換するときにエラー出るね。どう変換するねんて話はあるけど
File "japanese.py", line 239, in phone_tone2kata_tone
tone == next_tone
AssertionError: Unexpected n tone 1 != 0 >>524
条件一緒で事前学習モデルだけ前のやつ(before)とこのレスのやつ(after)でが17000ステップほど学習させて
Neutralでサンプルの文章を再生させた
https://96.gigafile.nu/0117-dec08f13cad4dcb06d3b842f6220d9c47
若干自然になった気がするけど……こころなしか元気がなくなった気がする まちがえて途中で書き込んじゃった
私を「わたくし」と発音するキャラを学習させたら、ちゃんと「わたくし」って発音するように学習してくれて
ちょっと感動した「 学習を「わたし」でしてるならあんまりよくない気がするぞそれ >>543
end.list上はすべて「私」のままだから、まあよくはないんだろうね
「タ」の発音か「シ」の発音のどっちかに「ク」が混じって覚えちゃってるんだろうなあ……
「私」を「わたくし」に一括置換して学習捺せ直したほうがいいんだと思うけど、それはそれとしてこのモデルはこのモデルで保存しておこう 割と賢いから、「わたし」という並びのときのみにワタクシって発音する気するで
私を「あたし」読みするモデルいくつかあるけど不便なとこはそんなない >>538
「親愛なる同志諸君」や「全王様もオッタマゲ」は読めるけど
「多分嘘になる」や「価格は53円」は読めない 發音の「ん」は普通は大文字N表記の音素で子音のnとは区別するんやけど、そこがBert-VITS2やと区別しとらんからアレになってるぽいな……
エラー出ること多そうやから対策考えんと……すまんな >>537
これ俺も欲しいなぁ
誰か作って(人任せ) 話者はスタイルで分けられるよ
学習前に分けてそれぞれ学習させたほうがいいんだろうけど、面倒だから学習後にスタイルとして分けて使ってる スタイル理由のやつはもともと話者識別用のやつやからそれ改造すれば使えるで(そもそもスタイル理由画面はワイが特定話者取り出すのに使っとった画面や)
>>549
やったことないから聞きたいんやけど、複数話者学習でも(書き起こしの話者名分けずに)スタイル分けでちゃんと別話者として使える?混じらん? colabでもスタイル分けさせて欲しいな
いちいち10GBもインストールするのめんどいんじゃい python webui_style_vectors.pyをやれ >>415
のOv2SuperとRVCApplioつこうてみたけど、確実に音質が上がるな
ベンチマーク用のゆっくり音声なんかのカバー率が高くなってる(ざらざら感が減る)のと
発音できる音が増えてる感じや、48Kバージョンが来れば48kがだいぶ使えるようになると思うわ
RVCApplioは来週にV3出すでって作者が言うてるけど
内容からしてリファクタリングからだから、まずは学習速度向上とかそんなもんだと思うわ >>550
こんな感じやね
エロ注意
https://files.catbox.moe/wwwyh8.mp4
一人目は関西弁のテストで、後半二人は混合素材からの混合学習スタイル分けのテスト スタイル訳ならGPUしょぼいローカルPCでも出来んじゃない? >>555
ええな 理想の使い方や😊
アニメ素材にする場合って後ろのBGM
やっぱ取り除かないとマズイん? >>556
コードいじってshareオプションにするようにしな、しばらく出先なんでこちらからはできん そういえば オマンコやおチンチンにピー音が混じってるデータで学習したけどピー音は覚えなかったな >>558
uvrとかで取り除けばそれほど手間じゃなかろ
あとは有名キャラならセリフ集みたいなのがゴニョゴニョ API活用したいんだけど、いい感じのお勉強サイトある? >>562
割りと真面目にChatGPTとかBingとかBardに聞いたらいい感じに教えてくれると思う やっべ書き込んじゃった
モデルのトレーニングが終わって
後は変換するだけってところで詰んでしまいました
相談に乗ってもろてもいいですか?
あと、Wikiに載っていたディスコの招待って期限切れです?どこも入れなかった… 何で何をしようとしててどんなエラーが出たかわからなければどうしようもないやんけ >>540
試してみてくれてありがとう
こちらでもようやくチェックしてみたんやけど、言われた通り感情表現やっぱ下手になって元気なくなっとるな……
最初がもともと、下が事前学習モデル変えたやつ
https://uploader.cc/s/un2kv0abe41rntrpfw8u67130fljx44z29gafpl0x2avxcgj2j1ym4enn6lmao8c.wav
https://uploader.cc/s/1eo78ghuerj4a0104g2gmgx2tq7ot2lbqk4gjm2yp0aeyar015mfmj416ylv1fj1.wav
基本的には事前学習モデルは今んとこは変えないほうがよさそうやな。今回は平坦読み上げコーパス文で追加学習したのがよくなかった気がするので感情表現マシマシのコーパスでやればいいのかもしらんが…… 事前学習モデルと我々オナニストがエロ音声使ってやってる学習って、画像AIで言うところのベースモデルとloraみたいな関係で合ってるんやろか Style-Bert-VITS2を使わせてもらってるんだけど、スタイル分けについての基本的な理解に自信がないから確認させて
これは「Happy声とSad声をまとめた学習モデルをStyle.batの段階で振り分ける」のと、「Happy声とSad声を個別に学習モデルにする」のでは、期待される出力としては同等という理解でいいのかしら? >>568
雰囲気はそうやけど、音声合成の場合はある話者で学習したモデルをそのまま追加で別話者に学習できるから、上のは単にもともとの事前学習モデルに追加で学習させたやつを新しい事前学習モデルとしとるだけやな >>569
声音は似た結果かも知らんけど、文章に対する応答等が色々違うで。基本的にスタイル分け単一モデルのほうがええはずや。
別スタイルをそれぞれ別のモデルとして作ると、Happyモデルではどんな言葉もハッピーに話されるモデル、Sadのほうは悲しく話すモデルができ、感情の強さも制御できん。
一方で単一モデルでスタイル分けする場合、スタイルをNeutralにしとったら文章内容によってHappyとSadの雰囲気が自動で引っ張られる
加えて手動でスタイルを重み付きで指定できるから、「めっちゃ悲しそうに」「ほんの少し悲しそうに」とかの指定ができるのもあるな >>572
ありがとう、スタイル分け方面には着手してなかったけど試してみる! StyleBertVITS2のテキスト自動書き起こし機能使うと言語の部分が、「Languages.JP」になってこのままだとエラーが出ちゃうんだけど、「JP」に置換するとちゃんと学習できる
これってバグ?それともワイの環境が変なのかな?
置換するだけだから面倒じゃないし学習もちゃんと終わるから別にいいんだけど、学習結果に影響するとかなら解決したい コードをshareオプションにするのってどうやんの >>574
すまんたぶんバグや、こちらの環境だとなぜかそうならんかったから気づかんかった
直してアプデしといた >>576
早速対応ありがとうございます!助かります。 https://github.com/RVC-Boss/GPT-SoVITS
何かfew shot TTSの新しいのがRVCのところから出たらしいで、試しとらんけど >>572
では異なる話者を一緒に学習してスタイルとして話者を分けた場合のデメリットはどうなんやろ
全体Neutralが誰の声でもなくなる?ことくらい? >>580
今の音声合成では、スタイルは「Neutralを基準としてそのスタイルを強調して合成」って感じやから、
複数人でしかも各人に感情スタイルを作ろうとした場合はうまくいかん気がするな
各人が1スタイルのみで、人数に応じたスタイル数、ならデメリットはないような気がする
(けど複数話者を単一話者扱い複数スタイルで学習したこと無いから正確なことはわからん) >>578
GPT-SoVITSのゼロショットTTSだけ試してみたからはっとくで。
追加学習せず数秒の音声を与えただけでこれくらいの質や、与えた音声の秒数を考えるとなかなか良さげ。まあ感情表現やら音質やら細かい声音やらはBert-VITS2のほうが上っぽいが目指してるものが別っぽいしな
https://uploader.cc/s/eaxhxn7bup3abbr76w0niyl8wtp2yqf790ml3b156jj9e9yc2x6aefw3ief0zfk6.mp4
few-shotで追加で学習もできるみたいやからためしてみる。 >>582
使い方はこれの7zをダウンロードして展開でgo-web.batダブルクリック、RVCと似た感じやな
(逆にコードがこれ前提になってるからgit pullでの環境構築がしにくい)
https://huggingface.co/lj1995/GPT-SoVITS-windows-package/tree/main
few-shot学習もできたので置いとくで。声音の再現度はzero-shotより増す(前半が学習無しzero-show、後半が30音声3分くらいで追加学習したやつ)。
https://uploader.cc/s/br38eo9xzjysgftjzkmv2bjyhy3ikkzdwuvqx8s3t8uy78su3int2egp25t1yiub.mp4
ただまあBert-VITS2とは強みが違う感じやね。お手軽に声音クローンならまあまあ使えそう。VALLE-E-Xの上位互換っぽい感じやな。 Chat-GPT の読み上げ 音声を好きな声優にして使ってる人とかおるん?
これが出来たらワイの夢が叶うんやが StyleBertVitsより学習させて品質があがるんやろか? GPT-SoVITS、総合的な品質は(Style-)Bert-VITS2には敵わんで。音質がまず32kHzで悪さが目立つ上に話者性もそこまで再現されるわけではない、あとまあこれはそのうち追加されるかもだけど今は使われてるbertとhubertが中国語専用のやつやから抑揚やらもBert-VITS2のほうが自然やろうし、アクセント埋め込みもないのでアクセント調整はできん、あと日本語bertがない関係でBert-VITS2のようなテキストによって声音が変わることもない、というより感情や抑揚含めてリファレンスからクローンされるイメージやな。
ただ技術的には面白いし、何より学習がいらない or めっちゃ短時間(10分もかからん)で済むというお手軽さが、zero-shotやfew-shotの強みでは一番やと思う。 音声ファイルがあるけど数が少なくてBert-VITS2で学習するのが難しいって場合に
GPT-SoVITSでいろんな音声つくりまくって、そこから良さげなのをピックアップしてから
Bert-VITSで学習するといい感じになったりするかな? 音質劣化があるからなあ……使えんことはないんやろうけどどうなんやろ >>593
Style-Bert-VITS2のほうを使ってほしいのと某界隈に広まって微妙になったから消した
まだ少ないけどこれからどんどん作る予定なのでこっちの方使ってくれや
https://huggingface.co/litagin/style_bert_vits2_okiba >>587
demoアプリはWindowsローカルでも動くのかな? と思って試してみたら結構あったりうごいた
もとのやつがよく使い方分からなかったんで助かる
生成の方でうまく作れない単語がある時はReference audioのサンプル不足なのかな? コードいじってshareオプションにする?ってのはどうやるの 80分(1000ファイル)くらいで学習してみたけど、学習に適してないような吐息ばっかとかの音声もスタイルで後から除けられるのが便利だな
あんまり素材を吟味する必要がないというかサボっていいというか 久しぶりに来て遡ってみたけど謎の英語でよくわからんのやが、今みんながやってるのってどんなツールなの? でもGPT4のAPIってクソ高いんじゃなかったっけ >>600
最近はボイチェンよりもTTSっていう音声合成ソフトの話題が盛ん
You Tubeでよくあるゆっくりボイスみたいな奴を、好きな声優さんとかの声で学習させてできちゃう的な
Bertvits2ってやつ AIのべりすとってAPIにお金取ってたっけ?
ボイジャーとかブンゴウとか課金プランは色々あったけど AIのべりすとってAPIに課金必須だっけ?
ボイジャーとかブンゴウとか課金プランは色々あったけど >>597
100文字制限はAPIには無いで。
制限つけてたのはたぶんhuggingfaceのspaces用やな、ローカルのserver_fastapi.pyにはなにも制限はないはず これ棒読みちゃんに渡して読ませることできるんですか? >>607
あれすまん普通に制限あったのか……server_fastapi.pyあんまみとらんから気づかんかったすまん
おっしゃるとおりそこを変えれば大丈夫そうや >>607
そっち弄ればよかったのか。これで、長文で喋らせることができるぜ。ありがとね。 2ページで済んでたのが3ページになってバチクソキレそう
これ表示させない方法ないの? 赤ちゃんやがStyleBertVits2で使い方に従ってって学習でけた!
loraもそうやったが学習初成功は格別の気分よな😚
感動をありがとうlitaginニキ
セリフ起こしのとこcudaのバージョンがv12の人は
v11に下げんとアカンっぽいからこれからやる人は気をつけてな 下げるというか対象ファイルを複製&リネームだけで大丈夫だよ stylebertvits2の自動文字起こし機能使ってるんだけどたまに出てくるカギかっこつきの文章って学習に関して何か意味あるの?
強調して読み上げるとかになるのかな? >>617
文章の正規化段階で「」は'に変換される、ということは分かるが、この'がどういう影響を及ぼすかはよく分からない…… Style-Bert-VITS2
複数話者で学習させてから話者ごとにスタイル分けすると早口で機械っぽくなってしまうな
Neutralは全員の声を合体させた感ある VITS2すごい綺麗に発音してくれてビビる
話者によっては私はッ!!とてもッ!!悲しいッ!!!!みたいな強い喋り方になって笑う
喘ぎ囁き素材のない話者で囁かせたり喘がせるのはまだまだ難しそうやな >>620
それなー
エロ利用者としてはsfwモデルに吐息や喘ぎ声を追加してnsfwモデルにしたいんだけどな ボイチェンスレなのにボイチェンの話題がないのはどういうことや >>622
あくまで俺の考察として聞いて欲しい
このスレができた当初は人がごった返してみんな色々と試行錯誤してたんだけど
何を望んでるかというと、どうも女性のアニメ声になりたいって需要が多かったのよ。
RVCってソフトなら簡単にその願いが叶うんじゃないかと期待されてたけど
有志が試してみたサンプルを聞くと全然ショボくて、ボイチェン感満載のボイスだったわけだ。
有識者によると、自然なアニメ声出すにはボイトレが必須だったと。バ美肉vtuberはそうして努力の結果だそうな。
で、単純にアニメ声出すだけなら既存のボイチェンでもできてたからRVCの優位性は無かったのでみんな話題にしなくなった感じ
RVCは既存の声優の声等を学習して模倣するのができるソフトだけど
このスレの人達が期待したのは簡単に女性ボイスが出せることだった 元々音楽に興味がありRVCのモデルは30くらい作った
これはこれでよかったが裏声とか吐息っぽいものが再現できないラップも…
そして今はLLMに興味があるんだけどさ
例えばターバンアプリ経由してVIT2に流し込めないかな?
RVCを呼ぶ方法はうまくいかなかった ボイチェンは10月から更新ないからV3更新待ちやね
Ov2Superでちょっと良くなったで 結局用途によるよね
Vtuberになりたい
エロゲを作りたい
特定の声を再現して好きなことを喋らせたい
ボイス付きの対話相手を作りたい
とか。自分は4つ目 RVCは十分質高いボイチェンできると思うで、ただ単純に大きいニュースが無いからもう出尽くして話題が付きてるだけ感、学習素材も人によってはもう尽きて学習の話題もそんな盛り上がらんしな
Ov2Superやら、RIN_E3やら、事前学習モデルを変える方向のニュースが最近出とるけど正直学習し直し面倒で効果も分からずアレやな
https://huggingface.co/MUSTAR/RIN_E3
音声合成が盛り上がっとるのは単純にただそれが大きいニュースでインパクトがあったからしばらくは盛り上がってるではないかと。 >>631
充分質は高いんだろうけど、スレが立った当初に居た人たちの需要を満たすものではなかったって事でしょ
実際昔の人物に現代のアニソン歌わせてみただの岸田首相に変なこと言わせるのだのって使われ方はされとる。
でもバ美肉したい人たちの願望を満たす能力は既存のボイチェンと変わんなかったってだけ。
お前らそんなに女声出したいんかよってツッコミ入れたくなるような状況だった。 >>630
その中なら自分は3つ目
趣味でラジオドラマ作ってるけど、読み上げ系だと限界があるのでRVCの更新待ち状態
老若男女、全部ひとりで演れたらなーと思ってる RVCのApplioV3が来たけどこれアレやな今の所コード整理して必要容量削っただけやな ボイチェンだと自分で演技しなきゃならんし声張ると近所迷惑だから厳しいんだよな
TTSなら喋りは音声認識と連携、吐息や喘ぎとか特殊なのはテキストを用意して~とか使い分けできそう >>630
強いて言えば5つ目かな
特定の声でもいいんだけど、今はmergeして元が誰だかわからないようにしてる
けどなんかmergeの組み合わせが悪い声とかあったりするなあって配合に悩んでる 複数話者で合成ってできるの?
できるのかできないのかイマイチわかりにくい
https://imgur.com/7nSj2Rc.jpg できるけど複数話者で合体したような声になった
スタイルで分けると話者毎に分けられるけど発音が不安定になる感じ
スタイル分けのやつで自動で話者毎に音源をフォルダ分けする機能があれば1人ずつ作れて便利になりそう https://huggingface.co/datasets/litagin/moe-speech
キャラクター演技音声のデータセットを公開したで、今は合計449キャラクター、約36万の音声ファイル、合計約581時間、343GBのデータ。
一人で独占しとるのアレやし公開した。使いたい人はちゃんと規約を読んで使ってな。 キャラ多すぎるし容量でかすぎて草
熱意ある人しかDLしなさそうだしパンピー除けにはちょうど良いのかな >>640
449キャラ分もすげぇな・・・
めちゃくちゃ大変だったろうに 試したくても今月DLしたら公平制御ライン超えて死ぬ・・・ KRTN族とかYKT族とかちゃんと固まってるのすごいな
ダメ絶対音感検定に使えそう 光回線だが正月休みで一杯使ったから帯域がカツカツのはずなんだわ
月1TB越えるとうちのISPは制裁が下るらしい
みんなも気をつけてな >>647
TDN表記で書いたけどやっぱ元データについて言及するのは良くなかったな
失礼 >>649
そうなのか。すまんな
デリケートなISPもあるんだな >>640
あんさんの作るクオリティ高いと思ったらやはりただもんや無かったなw
WちゃんとTちゃんの最適化お願いしやす >>640
ダウンロードしようとしたらhuggingface-cli loginのトークン入力で詰んだ
何故か右クリックのコピペが出来ない。enterキーしか反応せずに手打ちも出来ない
shift+insertの貼り付けも出来ないしお手上げだわ 各音声のサンプルはどうやったら聴けますか?全ダウンロードはできそうにない… >>640
ちなみにnsfw音声の抽出自動化に困ってるってのはどういうことなんや?
まあ聞いても赤ちゃんのワイに解決できるとは思わんが… >>655
そこは見た目上表示されずにカーソルも動かないだけで、実際は右クリック一回だけ押していけるぞ >>657
与えられた音声がnsfwかどうかを判定するのが機械的にどうやったらいいか分からんって感じ。
話者識別モデル通してクラスタ分けすれば個別のデータについてはnsfwとそれ以外はまあまあ分けれるんやけど、データに依存する手作業やから一つ一つやると時間かかるし(いくつかはそういうことやってきたけど大量は無理)、
「これはnsfw音声かどうか」を判定するAIみたいなのが欲しいって感じやな。
ちょっと真面目に機械学習勉強してラベルつきデータセットつくればそれくらいならできそうって気もするが。 >>660
発音する前にエッチなアエギワードを辞書化したもので判定したらアカンのか
通常の会話の中に含まれていても急にスイッチが入った人みたいでおもろいやんw >>658
ありがとう理解した
トークンがセキリティ上の関係で表示されてないだけだったのか
これ罠過ぎんだろ・・・
>>640 も頂いたわサンクス お前のフォトニック・レゾナンス・チャンバーに俺のクアンタム・ハーモナイザーを入れてやる! 渋みのある声を見つけたのにそれが誰かわからないのがもどかしい プロバイダの帯域制限以外にhuggingface自体にも制限ある?
全部落とそうとしたら途中でエラー吐いて止まったわ
個別に少しずつ落とすしかないな データセット助かるんだがこれを学習したモデルは公開しないから自分らでやってってことでいいのかな >>640
Tちゃんと思われる2ファイル頂いたこのコほんと好きありがとう ゲームから抜く方法って安易に録画するとかしかないか…? >>661
あーたしかに音声認識結果をもとにふるい分けるのはありやな
ただそもそも喘ぎ声とかだと音声認識がバグってうまくいかんかったり、性的な内容のセリフでも通常トーンでの発話は別にNSFW扱いしたくなかったり、微妙なところや 海外展開してるソシャゲなんかは海外wikiに全音声ぶっこ抜いたのポン置きされてること多いから音声収集割と楽なんだがな >>640
まとめてDLしようとすると途中でサーバーがタイムアウトして途切れるわ
やり直しも面倒だし選んで落とすしかねぇな 全部ならトークン指定してgit cloneとかでもいけるんやないかな、試しとらんけど >>682
ナカーマ、俺も40GBほど落としたところでタイムアウトしたわ
300GB超えるのは無理だった ワイルドカード使って
ダウン対象フォルダ名を0*,1*,2*,,,,,,,って変えながらダウンしてるわ
これもあんま連続でやってるとタイムアウトするがな
さっき数字終わってアルファベットに入るやで >>685
あったまいいな!
というわけで0~fまでのバッチファイル作って一気に投げることにしたわ
これなら途中で止まっても途中からやり直せる、はず あ、だめだ
エラー出たら次の行に行っちゃうわ
なんで止まんねーんだよ… 謎の八文字とか識別子とかみんな何の話をしてるんだ・・・? >>689
>>640の事なのか?
いじわるしないで教えてくれよ 意地悪やないw
何のためにボカしてるのか考えたらわからやろ なんやようわからんけどボカす理由自体もよくわからんからすまんな 結局フォルダまるごとじゃなくて00******からff******までを個別に指定したバッチファイルにしたら無事ダウンロード進んどるかも
ちなバッチファイルもbingに書いてもらった
AIさまさまよなー >>640を落としてファイル1つ1つチェックしとる人おったら、電話音声とかエコー音声とか明らかな喘ぎ声リップ音とかそういう不適切っぽいやつがどれかという情報をよければ集めてファイルとかにまとめて共有してくれると助かる
今はとりあえず新しく追加できるデータがまだあるからそっちの作業をやっとるけど、それ終わったら、人力除外作業と人力追加作業が待っとるからな…… セリフで作品と声優名わかってしまうワイって一体・・・
Tさんとか一発やで
まぁこっちではKさんやけどな ちょっと思ったんやけど、データセットの音声にSpeechMOSかけて足切りとかできるんやろか?
MOSの用途からして電話音声風の高域バッサリエフェクトとかエコーとかは効果的に除けると思うで
NSFW系がどう反応するかは分からんけど >>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった) >>699
すでにNISQAっちゅうMOSでフィルターかけとるで、SpeechMOSよりは音声の自然性よりも音響に反応するっぽいからよさげだったのでかけてる
ちなみにNSFWは機械的なMOSだとかなりスコアが低く出る(これは新しい発見だった) ワシには難しい話がよくわからないのでいかんのかと思った MoeSpeech、キャラ追加アプデしたで(合計24キャラクター追加、結果約39万の音声ファイル、合計約622時間、368GB)
全部ダウンロードしとる人はinfo.csvの差分あたりから使ってな(どんくらいいるのかしらんが)
これで手持ちは一段落のはずやからあとは除外作業とかがんばるわ これ以上追加って一体何があなたをここまで突き動かすんだ…
ご苦労様です。除外作業はゆっくり進めていただけるだけで助かります >>707
凄まじい作業量にも関わらず乙であります >>700
すまん余りにも思考が浅かったわ
けど何かしらの発見につながったようなら本望やで >>706
とりあえず3年ぐらいRomってたほうがええよ 普段NVA部におるがとんでもないデータセット上がったと聞いてやってきた
確かにこっちの界隈は使いやすいデータセットがないんやね >>711
お前が何かしたわけじゃねぇのにイキってんなよ
同じ乞食同士だろ >>712
きにすんな
>>714
まぁそう言うなよ 配慮されてるとはいえ生データ上げてるんだから取り扱い注意なのは明白やろな アホが変な拡散する前に全部DLしたいところだが間に合うかなー >>716
テメェが殴りかかってんのにチカラ抜けは違うだろアホか 正直誰でも集めようと思えばちょっとだけ金と時間をかければ容易に集められるデータではあることやから、ダウンロードするの気が引ける人は普通に自分で購入して音声データセットとして使えばいいと思うで、そちらのほうは法律面では少なくとも今はほぼセーフやろうし(生成段階や公表段階での問題は置いておいて) ちょっとだけではないやろ!感謝しとるわ!
まぁ半分趣味でコツコツ集めとったとかなんかな データセット見てるけどこのくらいの長さでええの?ワイ合計1時間位の音声読み込ませてたわ SBVの簡易学習用データセット作成ツールでERROR | subprocess_utils.py:19 | Error: transcribe.py --input_dir Data云々ってエラー出て
Chatgptに聞いてもなんのこっちゃって感じやったけどIssue見たら特に問題ないんやね
cmd見て処理に妙に時間かかるファイル消したらERROR出なくなったし
ちなみに其のファイルは「~ましょう」の「aしょう」だけ切り取られた音声で「ご視聴ありがとうございました」とか「さあ、行きましょう。」って書き起こされてた Bert-VITS2系は合計データセットは15分もあれば声質再現とかは十分いけるで、1時間以上だと表現の質は上がるっぽいけどどこまで上がるかは分からん(どれだけ感情表現がバラけて多く入っているかとかにもよりそう)
ただ2時間とかそれ以上で回すことに意味があるのかは分からん。既存TTSなら多ければ多いほどいいらしいけどなあ…… そのパターンが来た時の抑揚だから長さよりは種類の豊富さじゃないの
まだ触ってないから知らんけど アニメキャラとか数分でもいけるよ
抑揚や感情表現はベースモデルの方でやってるのかな?
そこらへんはむしろ「下手に追加学習させないほうがいい」までありそう
気合い入れて作ったやつより数分の素材で適当に作ったやつのほうが出来が良かったりするし… 自分のpcはよわよわなので短い時間でも十分と聞いて安心した、声は少数精鋭の方がいいんやな、ありがとう >>720
オレお前じゃなくてID:QCQwcyrKにRomってろって言ったんだが?自演?
それにしてもキレすぎだよカルシウムとったほうがいいぞ?? 少なすぎてもイントネーションが不自然になりやすい気がする もちつけw
お前らに喧嘩してほしくて公開したんやないで?
そんなことじゃ製作者は後悔しとるで
公開だけに後悔し、、 つまらんことでお目汚しすんません
無事全部DL出来たが時間帯によってはタイムアウトしやすいからもしかすると抜けがあるかもなぁ 容量余裕あるからダウンロードしようとCLI導入しようとしたらログインのとこでトークンコピペ出来なくて積んだんだけど huggingface-cliでログインしてる状態やと、git clone https://huggingface.co/datasets/litagin/moe-speechで全部ダウンロードできるらしいで
>>734
>>658やない? あっgit lfs installがいるかもしらん いや普通に空欄扱いでvalue errorなんやが >>735
ストレージに600GB空いてるからgit cloneしても平気やろー
と思ってたらストレージ全部食い尽くして草生えた 素材によっては「やったー!テストで満点取れた!」でキレたりする サンプルテキストだと桜の木の下には〜が一番難易度高い気がする
あとは「あはは」とかの笑い声? 笑い声が入ってると、笑い声以外のとこでも音質や自然性が一気に下がって、学習データにある笑い方しかできない(「ふふっ」は行けるけど「あはは」はいけない)感じで一番難しい感じ moegoe出た時の
2千人声優データの学習元サイトの
voistock 今見ると音声データベース
全部さっぱり消えて跡地みたいに
なってるな
法的な問題は一切ないっていってたのに
どっかから怒られたのかな 一覧に直接入れなくなっただけでボイス自体はまだ公開されてるよ 473キャラって書いてあるのに471フォルダしかダウンロードされてなかったわ
途中タイムアウトで飛ばされたかな git restore --source=HEAD :/
とか?時間かかるかもしれんけど Pythonでフォルダリスト出してcsvと比較するやつ作って差分調べたわ
なんで抜け落ちたのかは不明 フォルダ欠けてるなら.wavファイルも欠損してる説ない?
存在しないwavがある、壊れてるwavがある等 751みたいな発想をパッとできるようになりたいわ
有能 git lfsが最適解なんかね
試した人いるんかな
huggingface-cliはフォルダ単位でしかダウンロード出来ない仕様らしく、大容量だとタイムアウトしやすいようだ
オレは最終的に、info.csvを参照してローカルのDL済みフォルダのファイル数と比較、足りてない場合は各フォルダごと再DLを行うという自動DLスクリプトを作って全部ダウンロードした
が、結局ファイル数は全部揃うが破損まではわからんままや 今後の更新を取り込むことを考えてもhuggingface-cliよりgit cloneのほうがいいかもな
.git隠しフォルダがめっちゃ容量食うのが難点やが huggingfaceにログインが必要だからgit cloneできないやん huggingface-cliでログインしてからgit cloneすればいけるで git cloneの時に出る認証窓やないのか
サンガツやで! Bert-VITS2の活用傾向を知りたいと思って色々検索してるけど、tiktokだと無関係のコンテンツばかりでてくるな
RVCなら出てくるし規約的に生成AI自体が禁止されてるわけでもない、単に投稿が無いだけだろうか nsfw音声の選択肢がまだ揃ってないからなあ
射精管理とかの女性優位系なら作れるからポツポツ作って仲間内で公開してるで こんな感じのを作って練習してる
女性優位以外では、痴漢体験談読み上げはあまり喘がせなくて済むからおすすめや
最終的には堂々と作品と呼べるレベルのものを作りたい
https://files.catbox.moe/y4nk9v.mp4 >>762
すばら!ええ声やね😍
また気が向いたら貼ってクレヨン みんな凄いな
俺はそのhuggingfaceとやらのサイトのどこをどうクリックすれば
音声が落ちてくるのかもわからんわ >>762
ギンギンになったやないか
どうしてくれんねん >>762
ゴチでした。
次回作にも期待しております。 >>764
その段階だと音声ファイル手に入れても手に余ると思うで
1年ぐらい待てばお絵描きAIみたいに誰でも簡単に好きな音声を作れる環境になってそうやが 絵もそうだけど技術の発展にはやっぱエロが不可欠なんだなあ >>764
そこは技術者の交流の場やで
一般人にはちと早すぎる 一応RVCでモデル作ったりもしたんや
音声ファイルがあればモデル作れはするで >>769
>>640の事やろ
落とすだけに技術だの交流だのあらへん Moe Speech、wavファイルの規格を統一して容量が約半分の184GBになったで
最初からやっとけばよかった、すまん
あと手動音声除外・追加作業を始めたので、完了済みのは
https://huggingface.co/datasets/litagin/moe-speech/blob/main/finished_uuids.txt
にあるから、そこを使っとる人がいたら更新するといいかもしらん。 >>771
落とし方もわからんやつが規約を読むと思うか?
絶対にやらかして製作者に迷惑かけるやろ
一般は触らせないのは正解やで
他人の行動は責任もてない >>773
んな排他的なことやってるといつまでも広まらないだろ
技術は背中で盗めとかいう昭和のおっさんかよ hugging faceはその仕様上普通のwebサイトみたいに
「ダウンロード」とかいうわかりやすいボタンをクリックすれば落ちてくるような仕様ではない
Git LFSというソフトが必ず必要なのでググってダウンロードして改めて>>640にアクセスすれば良い
普通にwebブラウザでダウンロードすることは不可能 >>772
これはストレージに優しいわ
サンガツです >>774
規約を読んだら丁寧に落とし方も書いてるのに?
だから読んでないんやろと決めつけたけど間違ってなかったみたいやな
Huggingfaceをエロ動画を配るダウンロードサイトか何かと勘違いしてるやろw ここNVAスレの派生スレだからみんなわかってるだけで
直でここに来た人にはいきなり英語だらけのサイトでダウンロードってなると
厳しいかもわからんな いやなんかすまん・・・俺のせいで荒れて
規約の落とし方見てもよくわからんから
これからも自前でシコシコ用意するわ huggingface とは
これでググれば落とし方の書いてるサイトに辿り着くやろ 読んだうえでここで躓いたこんなエラーが出たみたいな話なら付き合ってくれる人もいると思うよ
ただわからないとだけ言うから規約読んでないと思われたわけで 現状、最新のAIいじるならPythonとgitとhuggingfaceについての最低限の知識は必須やな
でもそんな難しくはねーよ
調べりゃ出てくる >>780
周りが勝手に騒いでるだけでお前さんはなんにも悪くないから安心していいで >>781
規約読んでないのは間違ってなかったなとかイヤミ言いつつ
ちゃんと読んでてそれでもわからない人には逆に親切に教えてやるとか偉いやっちゃな😊 >>780
わいも最初はそうやったで
わからんことに出くわすたびにChatGPTに聞いてなんとかやりくりしてた
最近ではChatGPTは検索結果を絞り込むだけやと気が付いて使ってないけどなw
賢いけどネット教科書がないと役立たずや >>772
なんか変な流れになってしまったが更新お疲れ様やで!
だいぶ落としやすくなったろうし感謝やわ
ってか除外だけじゃなくてまだ追加もしとるんかい!もうええやろw ぶっちゃけ今となっちゃbingで聞いたほうが正確やわ
懇切丁寧に手順説明してくれる
あと、一部でデータセットの存在が拡散されてるからそのうち誰かがnoteとか書くやろな >>776
???
普通に落とせるが?
このデータセット丸ごとってなると事実上不可能だけど
いくつかつまんで落として聞いてみて気に入った声優のだけ落とすってやり方もあるやろ >>785
実を言うとわいは最初にここに来たときに赤ちゃんすぎる質問をして無視されたやでw >>772
オイイイイ!せっかくストレージ無理やり整理して容量確保したのにヨォ!
サンガツやで >>772
追加で、そういえばサンプル音源のやつを諸事情で消したので、
代わりに各uuidごとに最初の音源を集めたフォルダ(samples)を作っておいた
ダウンロード方法のとこにのせといたんで、いちいち全部のを1つずつちょっとずつダウンロードする手間は減る、はず >>790
自分が初心者の頃スレでクソ対応されたから初心者にやり返すって普通に性格悪いな >>793
よく流れ見てみなよ
丁寧にググり方まで教えてあげてるじゃん >>795はID:YbKmo4v2の自演擁護?w
アニメ好きのための夢の技術を、独り占めして、他の人におしえないとか、性格悪い以外に何があるよ
丁寧に教える気がないなら、書き込むなといいたいわ
こういう排他的なやつがいるから、技術の進歩の足を引っ張るんや
作者様も迷惑してるだろうな 最低限の赤ちゃん避けは必要やで騒ぐ奴がいたらリビジョン切ってmainは空にしてもいいで なんか少し見ない間に「鯉が溢れてる池に餌投げた」みたいなカオスな状況になっとるな…… moe speechの作者さん、以前サンプル音源のページで見れたコサイン類似度をminimum spanning treeで表示したグラフのやつ、また見たいのでグラフの画像だけでもリポジトリに加えることってできませんか?
マージの実験するときに似た声とそうでないときで比較とかしたくて、あると便利だなと思ったので… >>801
いや謙虚な鯉が一匹いるだけだろ
そいつに餌やるだのやらないだので外野が揉めてる huggingface版Applio来たで ColabのIlariaも更新マメやしRVCはもうonline版追いかけるだけでええかもな
https://huggingface.co/spaces/IAHispano/Applio >>804
そいつに便乗したワニガメの赤ちゃんが暴れてる 昨日落とし方がわからないって言ってたものですけど今日ブラウザで見てみたらあっさり簡単に落とせました
ズコーなオチかもしれないですけど作者さんが>>772の作業のために一時的にリストを消して
落とせなかっただけみたいです。お騒がせしました
>>772
サンプルあざっす!
まるごと落とすのはしんどいし持て余しそうだった俺としては
これマジで助かりますわ ああやっと目パチ口パク素材作成とそれを落とし込む動画設定が終わった、慣れないことやるとクッソ疲れるな
世間的には音声生成AIなんぞより遥かに楽なんだろうけど Aivis-Datasetがイマイチいい感じに切って書き起こしてくれねぇなあと思ってたけど
UVRでノイズ除去したら解決したわ
餅は餅屋やね https://github.com/litagin02/processed-speech-detector/
MoeSpeechから手動で電話音声や壁越し音声を取り除くのがしんどかったので判別するAI作った
機械学習はほんとに素人なのでよく分からん(録音スタジオや声質やセリフによって誤判定も多い)
ローパスハイパスフィルター検知はまあまあ良さそうだけど、リバーブ検知はかなり怪しいので要改善
(今はこれを使って取り出した1500ファイルぐらいを除外して更新する作業をしています) >>810
乙です
まだ暫くは落とさないで待機しておきます >>810
作業完了してMoe Speechバージョン上げたで
基本的には不適切音声削除とあとは手動での追加(また50 / 473で先は長い) RVC0813からアプデしてないんですが、最新の10月のアプデで何か新機能とか出てますか?過去ログ見ても誰も話してなかったので
変更点などあれば知りたいです ここはもうrvcの話題は無いで
変更点を知りたければguthubのChangelogを見るといい
doc/jpでなくdoc/cnにしかないで >>813
基本部分では変わってないが、一部の連中は改変されたフォーク版で色々試したりしてる
少し軽くなっていたり学習時間が短くなってる、らしい
ベースモデルも他の連中が再学習したものが公開されてたりするから精度や結果も良くなってる、らしい >>817
おーんw
>>815が無かったら100点満点の回答やったのに
いつもそういうとこやぞw アウラ達のボイスドラマを作り
「そういえばドラートはどうしたの?」
「すいません……彼は素材が少なくて音声が作れないんです」
「何よそれ!」
といったメタネタを挟みたい RVCの学習ってAIイラストみたいに初期条件同じで学習させても出てくるものが結構違ったりするんかな?大体おなじになるの? 揚げ足取ってAIは有罪!有罪!と釣りを楽しんでるように見える >>820
まったく同じ物はできないよ
500人からなるベースの学習データに声色載せるだけ >>820
素材がある程度揃ってさえいれば、だいたい同じクオリティのものにはなるという感覚
極端に素材が少ないと学習の際に偏りが出る可能性はあるかも >>821
反ワクや陰謀論者と同じようなもんよ
ほっときゃいいのさ なるほどじゃあ自分の声素材だけ30分くらいを使って同条件で学習データ出させても出てくるものはだいたいおなじになる感じか
多人数のを混ぜて使ってるとわからんって感じで
特定の短い言葉だけ妙にうまく出ないからなんとかならんかと思ってたけどもう何回か同じ条件で自分で確かめてみるかな 反ワクは専門家に逆らうことで"専門家より詳しい俺!"っていうのに酔ってるわけで、まあいかにも低学歴やなんの取り柄もないカスが好きそうな感じの動機だけど、反AIってどういう動機なんだろ RVCなら学習より変換元のソースのほうが影響大きいのと過学習にシビア
30epと入力次第くらい、つまりトレーニング
学習は1本メインにして声のコシ求めるか音程上下求めて足すかどうかくらいかと ボイチェン興味あってRVC試してみたんだけど
明瞭にしゃべらないとちゃんと変換できないのはわかった
でもこれって学習している元の音声がそういう音声だからだとは思うけど
ボソボソしゃべりの音声で学習したら同じようなぼそぼそしゃべりでもいけるの? >>829
おそらくいけるとは思う
ただ、特徴的だったりわりと明瞭に喋るキャラを学習したモデルはどう喋ってもそれなりにその声が出るが、ボソボソ無感情に喋るキャラだけを学習したモデルは、喋り方もある程度本家のマネをしないと再現出来ないかも AIカバーも当たり強くなってきてるけど毎回モノマネ芸人とAIカバー似てるけどなんで後者だけそんな叩かれるんやろって思ってしまう 誰が何を叩いてようが勝手にやらせとけ、そんなの気にする意味ないわ >>833
ありがてぇ・・・ありがてぇ!
何から何までありがてぇ! よくわからんけど、styleのpretrainedフォルダのファイルと入れ替えればいいのかな? Bert-VITS2のJapanese-Extraは、本家Bert-VITS2のJapanese-Extraブランチでしか使えんで
(よさそうならStyleのほうもJapanese-Extraの構造やモデルを使うようにバージョンアップ予定やけどいつになるかは分からん) なるほど感謝やで
まあ自分はエロ専なので、通常会話の精度よりもnsfw音声のクオリティと量をどう高めていくかのほうに頭を悩ませてるで Moe SpeechのNSFW版みたいなのも出したい気はするんやが、いつになるか分からん
適当なエロゲ買えば1つでもまあまあ音声データは多いから使える気するで そんなお子様はとっととおうちに帰って suck your mama's tities!!! Pub: 01 Feb 2024 10:37 UTC
妙だな、、、 言う手持ってるエロゲサクレットの1個だけだけどためしてみるわさんくうー エロいこと言わせてシコってるだけなのにホンマ頭が上がらんな
ドチャクソエロいの作ったるで! エロゲってファイル名やフォルダで声優ごとに分けられてるからええよな シナリオファイル読み込めればセリフも抜いてこれるしな >>833
こうやって見ると人の声は数珠繋ぎに類似点が存在するんだなぁ
同じ顔の人間が3人いるとかドッペルゲンガーとか思い出した
近似するサンプルで作ったモデル同士をマージすれば違和感も減るか? FANZAのエロソシャゲから持ってくるのもありかな、寝室は大体単一話者だし うーんそれも音声抜きがなあ
なんかいい方法ないかな
素人エロチャで一通り喋らせてからオナニーさせるとか…
あれはあれで高いけど… Applio 3.0.5キタで ようやく3.0以前と同じ機能になったかなってレベルや
ライブラリサイズが小さくなってるから前のと置き換えてもそろそろいい頃
https://github.com/IAHispano/Applio/releases/tag/3.0.5 Bert-VITS2のJapanese-Extra、なかなか良さげやで。学習回していくとあった声のガタツキが少なくなってるっぽい。
あと日本語g2pが修正されたからイントネーションやアクセントも違和感少なくなってる気がするけどプラセボかもしらん。 pytorchのバージョンが2.2.0になった影響でWindowsでは学習がうまくいかんっぽいから、
Windowsユーザーは
https://pytorch.org/get-started/previous-versions/#linux-and-windows-1
でtorchいれる必要があるっぽいことに注意 Applioと>>415でモデル作り直してみたが、うーん
良くなったような気もするけどプラセボな気がしないでもない
そんでも本家より使いやすいしv3出るまで(出るのか?)使ってみるかな こっちも>>415で学習させてみたけどあんまり良くなった様には感じないわ
同じ素材で比較した限りだと既存のモデルの方がクリアに聴こえる(気がする
個人の環境にもよるだろうけど >>833
>>803 でリクエストした者です。こんな丁寧に作って頂いてありがとうございます! Applio3.0.4にOv2superやったけどRVCからザラザラ感が減った気がするかもしれないくらいでほぼ一緒だった
学習スピードはApplioの方が30~40%早いけど Applioだから速かったのか、superだから速かったのか
どちらにせよ明確な差は速度だけってことかな
なんだかんだでボイチャならRVCが一番精度高いからもっとバージョンアップして欲しいんだがなぁ >>858
そんな早くなっとるのに品質変わらんのか…
どんな原理なんや?? そもそも本家のRVCはコードがぐちゃぐちゃでかなり無駄が多いらしいよ
だだぱん氏もそれがイヤで書き直してたぐらいだし Style-Bert-VITS2にJapanese-Extra搭載待ち JP-Extra、かなり音質の自然性が増してアクセント抑揚も自然になる気がする。どこまでがプラセボか判断できんけどたぶんめっちゃよくなっとる。
ただ英語中国語が話せなくなるから、トリリンガルの売りは消えるな。
無理やり英語中国語のモデルから取ってきてマージして喋らせるということもできはしそうやけどちょっと無理がありそう
まあこのスレの人らなら日本語オンリーでもええやろ >>867
JP-Extra使うならそっちのセルを実行しろ(train_ms_jp_extra.pyて書いてある方)ってことやけど、それでもエラー出る? >>869
まずはJP-Extraなしで学習したい JP-Extra
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory ./slm/wavlm-base-plus.
リポジトリ見てもそんなファイルないんだがどうすればいい? >>871
今回のアップデート専用のbat使ったか?
もしくは手動で仮想環境からpython initialize.pyをやる >>870
構造がいろいろ違うから、無しなら無しの設定で最初から最後までやらんとだめやで。それでエラー出たら報告して。 >>863
新しい物の開発に加えてサポートまで取り組んでくれるなんて
ほんま神やわ
あなたが神か まだJapanese-Extra搭載のアプデはしてないStyle-Bert-VITS2だけど、「もう疲れちゃって、全然動けなくてェ…」で音声合成したらエラー吐いた
自分のクソモデルが悪いのかと思ったけどjvnvの4モデル全部で出た
テキストを削っていったら「んう」周りが怪しいと思った、だがその他一切のことはわかりません!
https://i.imgur.com/5d80Gl7.png >>876
すまんな「んう」とかの「ん+母音」で(読みがな取得の時)エラーが起きるっぽいバグがあった
今回の2.0でのアプデでそこも直っとるはずやから試してみてくれ(以前のモデルも動く) 「ん」の「n」がナ行になる読みの修正も今回でちゃんとされたはず(読み記号にNを使うようにした) 昔の中国語訛りっぽい日本語もそれはそれで味があったな
>>879
やったぜ、家帰ったら試す! うーん、確かに調教にかかる時間が当社比で半分くらいになった気がするので精度上がったんだろうな
なんならもう調教しなくてもいいくらいやな
ただ、どうしようもないんだろうけど、漢字の読み間違いが結構あるやね
パンツの柄をえと言ったり 読み間違えはなー。原理的には内部をいじれば感じそのままで読みのみを手動修正はできると思うんやけど、
UIでうまく実装するのが難しそうや アップデートしたけど「○ん○」が直らない...
念のため新規で作り直したけど駄目だった、おま環かな? >>885
ある特定の単語や並びによって駄目とかありそうやから、どの単語が具体的にエラーでたか報告してくれると助かる >>886
推論はエラーなくできるんですけど上で修正してもらった「ん」の「n」がナ行になる読みの修正の部分、
カンウ、コンイ、などの発音が「かんぬ」「こんに」になってしまいます
母音以外の「ん〇」だと問題なく発音してくれます >>887
すみません、間違えました
「かぬ」「こに」になってしまいます間違えました >>887
あーなるほど、推論はエラーはなくてアクセントのところの読みも間違ってないけど「懇意」の生成された発音が「こんに」とかになるってことかな
旧verモデルは、「懇意」の音素列が「k o n i」として処理されてて「ん」とナ行の区別がついてないから、それはたぶん旧verやとどうにもならん点やな
(事前学習モデルがそもそも「ん」を「n」で学習されていたことの弊害)
その意味でもJP-Extraのほうがええな >>889
了解です、JP-Extraの方で新しく学習して確認してみます
いつも回答していただきありがとうございます JP-Extraは1ステップごとに経過が出るのかよ >>852
さっそくいれてみたで
教えてくれてサンガツ!! ネタで作ったチンピラモデルが意外とちゃんとチンピラになって楽しいw
エロいことに使いやすいしなかなか笑える
https://files.catbox.moe/zdkvgy.mp4 https://i.imgur.com/WAaGcqU.jpg
あれ?もう10年以上mate使ってるが
もしかしてこのスレに関してだけはPCで見た方が楽なのでは… NVAと間違たごめんちゃい
でもアクセラレーターさんダウンロード待ちなしで聞けたわ >>863
早い対応でめっちゃ助かるで
JP-Extraでサンプル台詞読ませると明らかに違うな
棒読み感が無くなって声色もしっかり変わってる VR機器本体のマイクで使ってたりするんだけど普通のボイスチェンジャーと違ってオーディミキサーとかマイクを使うことで遅延とかが改善されるとかはRVCでもあるのかな? 遅延は純粋にマイクの遅延分が影響しそう。遅延よりもマイクの音質による質の差がありそう 『普通のボイスチェンジャー』が何を指しているのかがまずわからん
察するに、quest2とかをPCに繋いでVRchatでボイチェンしたいのだが、quest2のマイクを通すよりPCのマイク直のほうが遅延は少ないのか?みたいな疑問かね
だとしたらもちろんそうだろうな、と
でもそれ以上にRVCの設定を詰めたりグラボ新調したほうが効果は大きいかな、と 基本的にバッファを少なくした方が即応的になる
でもバッファが少ないとガビるから4090みたいな上位機種に買い替えてパワーで処理するしかない
安く済ますなら専用チップの載ったボイチェンインターフェースを買うのが待ち時間がない 遅延は入力遅延+ボイチェン処理の遅延+出力遅延
>オーディミキサーとかマイクを使うことで遅延とかが改善される
これで改善されるのは入力遅延と出力遅延
いまRVCの遅延がどのくらいあるかわからんけどRVCの遅延の方が遙かにデカイから
RVCの遅延を詰めれてないならオーディオインターフェース変えても大して変わらんと思う JP-Extraの学習で共有メモリの消費激しいのって仕様なんかな? 構造が一部ver 2.3みたいになっとるし、VRAM使用量増加とかはそれが原因やろうな バッチサイズ2でVRAMと共有合わせて16GB超えるくらい派手にメモリ使うで… Extraでの学習し直し、まだ手つけてないけどそんなメモリ使うのか… データ量にもよるから一概には言えんで、ワイのとこじゃ今までと同じバッチサイズで問題なく学習できとる 場合によるけどVRAMあふれてても速度低下はないから心配する必要はないで
とはいえ8GB勢ワイはVRAM不足で若干遅くなる時あって気になったから4ステップごとにempty_cacheさせてる Styleの方は設定変えたりBatch size2でもメモリ不足になるようになったから本家の方で学習してる
この前までBatch size8でも出来てたんだけどなんでか急に出来なくなっちまったわ 本家JP-Extraと構造は同じ(というよりむしろ小さくなってる)はずなんやがなんだろうなあ…… 自分で音源抜いて学習テストしようとして文字起こしかけたらダミーのデータまで抜いちゃったらしくてめっちゃ時間かかるわ学習にも使えないわで辛えわ Extraだと学習が1ステップずつ表示されるのって変えられないの gc.collect()とtorch.cuda.empty_cache()って効果あるんかね
本家が消してたから消しちゃったけど復活させて試してみるか RVCでもstyleのような声質とかの階層マージできるようにならないかな
ddpn版は互換が無いし 画像生成AIみたいに学習元の声をプロンプトで呼び出したいわ
いずれは全て統合されてそうなるのだろうけどまだ先だろうな >>918
学習元の声を呼び出す?
テキスト入力するなり喋るなりで元々学習元の声を呼び出してるのがこのソフトだよ ddpn版で一応マージは本家RVCでも機能するで。
ただ階層マージ若干実験したことはあるんやけど、明確にどこになにが入ってるかとかはようわからんかった。
前書いた実験レポ
https://rentry.co/dkirg TTSモデルは声音やら感情表現やらテンポやらと明確に構成要素があるからそれぞれがある場所が分かれてるってのは分かるけど、
RVCはボイチェンやからせいぜい「声音」「どの高さの入力に感度がいいか」「音質?」くらいしか要素がなくて、
それぞれがちゃんと分かれてるかもちょっと微妙という感じやった >>919
そういう意味ではないよ
画像の学習のように、沢山の人の様々な声を学習させ、その時々で好きな声を呼び出したり混ぜたり出来たらいいのにな、という話さ
いずれは可能になるだろうがね とにかくRVCのモデルが増えすぎて困ってんだよね
しかもこれ精度上がったらまた学習し直しだもんな
マジで気が滅入る
マージとか出来たら最高なのに Applio 3.0.5も3.0.4で学習させた後別のモデル学習させたら学習終わった瞬間ブルスクなるんだけどおま環?
最後のエポックは破損しててインデックスは生成されてない Style-Bert-VITS2の学習中のログ生成とログ用のlossの計算消したら速くなるな(1.44it/s→1.65it/s) JP-ExtraをきっかけにStyle-Bert-VITS2を入れて素材の用意から生成実行までこなしたけどテキスト入れるだけでかなり自然な音声出るの凄いわ
環境整えてくれてるニキサンガツ Style-Bert-VITS2の自動前処理が1000秒以上経過しても画像のまま永遠に終わらないんだけどなんぜ?
VRAMが8Gだから?
https://imgur.com/a/8Cz0pDe Style-Bert-VITS2の自動前処理が1000秒以上経過しても画像のまま永遠に終わらないんだけどなんぜ?
VRAMが8Gだから?
https://imgur.com/a/8Cz0pDe 前処理のresampleにはグラボ関係ないからCPUの性能やろな
詳細設定のところに「プロセス数」ってのがあるからそれを下げてからやり直せばいける(最悪別に1でもそこまで遅くはないと思う) 机で作業してる環境音とかが混じった合計40分の音声使ってbf16で学習させたら
2500step位で急激にloss/g/totalが40から170までブチ上がって
どんなテキスト入れてもビーー!!っていう機械音しか出なくなったわ
bf16オフにしたら同じ素材で100epochの3800stepとかでも問題無かったけど
bf16のせいなのかたまたまノイズが学習されすぎて発散したのかは検証してないから謎や
それとbf16オフにした場合ってfp16学習になるんか?
文字起こしの精度はbf16からfp32に変えると分かりやすく改善されるから
fp32で学習してみたいんやがどうなんや moisesの質落ちたな
声が微かに残るようになった >>936
同じ状況や
1000stepのはまあまあまともだったけど2000step以降は何をテキストに入れても全部音量振り切ってビーー!って機械音になる
まだ赤ちゃんだから何が原因かわからんが少なくとも数日前まではまともに学習できてたんや
別フォルダに新しくインストールし直した環境でもなったからなんだかようわからん うーんワイもまさに同じ状況になっとる、bf16をオフにしたほうが安全かもしらん
bf16オフにしたらfp32になるはずやで ちなみにワイもbf16をオフにしたら今のところよさそうや。
デフォルトでオンにしとるけどオフに変えたほうがいい気がするな……原因はよう分からんけど(たぶん学習が発散しとる) 何入力してもブザー音になるバグの人は、「bfloat16を使う」のチェックを外して試してみてな
学習元素材の音質とかによるんかなあ ちなみに書き忘れとったけどワイはJP-Extraオンのver 2.0環境での出来事やな
JP-Extraのモデルの影響もあるんかな
bf16オフだとfp32になるんやなサンガツ
とりあえずオフなら問題無さそうだからこれで行くわ 画像は16ビットでも平気だけど音声は32ビットやないとダメなんやな… ワイのグラボ古すぎてfp32しか対応してないでちょうど良かったわ https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.1
Style-Bert-VITS2バージョン上げ
bf16をデフォルトで無効に、あと学習使用メモリも減らそうとちょっと調整してみた なんやろな
16bit音源や24bit音源が混ざるとアカンのか ミルクボーイモデル作りたいから早く複数話者で推論できるようにならんかな >>948
そんなウンチ出たみたいに報告されても… すまんcolab確かにbert生成部分で失敗するな、チェックしとらんのが悪かった
何か並列処理が何故か悪さをしとるっぽかったのでたぶん直した
いま更新したからもう一回確かめてみてくれ VITSのテキストを用意するのが面倒なんですが
音声ファイル用意するだけで何とか学習してもらえないでしょうか >>954
自動で書き起こししてくれる機能あるよ
複数話者は出来ないけど >>955
無音をカットした大量のwavファイルだけはあるのですが
そこから、何を使って学習させるかを教えてください。 >>956
Dataset.batで文字起こし出来る >>956
style bert vitsをインストールします
inputsフォルダに音声ファイルを置きます
Dataset.batを立ち上げます
あとは画面の指示に従え >>957
あざす、VITSの存在は知っていたのですが文字お越しが面倒でやっていませんでした
学習モデルを作るのにStyle-Bert-VITS2が今一番おすすめですか? >>959
他は知らないけど使い勝手をよく考えてくれているから使いやすいよ それにいいアイデアがあればここに書いたら
できる範囲で改良してくれるフットワークの軽さもやり手やで 作者さんには足を向けて寝られないぐらい感謝してるで
どこ住か分からんけどな
垂直に寝るかw というか文字起こしはもうテンプレ入れたほうがいいかもな
気づかないやつ多すぎ 喘ぎ声とか含まれるnsfw音声やと文字起こしされなかったりするのは人力で頑張るしかないんかな 喘ぎ声特化の文字起こしAIがあればええんやけどな……ワイも苦労しとる
initial promptにそれっぽい喘ぎ声の書き起こしを入れるとちょっとはマシになるけど、唐突に謎言語やら絵文字やらが書き起こしに出てきて笑ってまうわ そういえばJP EXTRAにするもんで作り直したらNSFWモデル無くなってて泣いた 言わせたい単語は、単語で正しいイントネーションで学習させた方がいいのでしょうか? 学習データにある単語や文章が言いやすくなるのはあるから、含められるなら含めたほうがええで
既存のVITSのCOEIROINKとかでも挨拶文やらキャラ名をめっちゃいれたコーパス使ってたりとかあるからな エロゲの音声も良いけどASMRの音声もかなり学習素材に良い感じ
背景音声除去版とか提供してくれてるところも結構あるしシリーズものだと同一キャラのデータかなり多くて良き ASMRはささやき声とか耳舐め音とか多すぎなんだよなあ
ひたすら淫語と喘ぎ声を出してほしいだけなんだが
そう考えるとnsfwコーパスみたいなのがあればいいのかもね JP-Extra版って笑い声ない話者でもある程度笑えるようになってるな
逆に笑い声ある話者だと劣化してるようなしてないような… 最新のにアップデートしたら文字起こしがエラー吐いて機能しなくなっちまったんだが
0からインストールしなおしても同じだし、何がいけないんだろうか
ログにはtranscribe.pyがエラーを吐いている事しかでていない ただ単にErrorとだけ出ててValueErrorとかのpythonのエラーメッセージが一切でてないなら正常やで
最新版はなぜかtranscribe.pyの終了コードがおかしくなってエラー扱いになるみたい 喋り方よく真似出来てると思う、すごいわ
ここまでできるなら歌手の歌い方とかも真似できそうだな webuiの結果にはerror表示のみコンソールは出力先とか読込先等の情報がでるだけで進行しないんだ
esdlistは生成されるけど中身は空のまま、JP-Extra版以前までは特に問題なかったんだけどな Dataset.batたまーにCannot read発生して止まるときある
esd.list開いて手動で修正してるけど1200分超えだと大変
>ValueError: Cannot read: 々 in:
>何々の......ふふっ さすがに歌声は音程の情報とかいるやろうし難しそうやなぁ
RVCで歌声データベース作って 途中送信した
歌声データベース作ってNNSVSだのDiffsingerだのでAIシンガー作った方が扱いやすそう
Style-Bert-VITS2内でもRVCみたいな一括でのピッチ変更あったらいいなとは思うが >>972
懐かしいなw
阿久女イクをベースにしたらnsfw台詞の制度上がりそう >>979
なんやろ、データセットづくりのところは以前から何も変えてないんやけどなあ、CUDAバージョン違いエラーとかやろうか
直接python transcribe.py経由で実行したら何かエラー出ない? 最近はVOICEVOXが謎技術で歌えるようになったらしいけど、さすがに歌は無理やな
きりたんの歌唱データベースで学習させとる人おったけど、めっちゃ音痴で適当なメロディーで歌うTTSモデルになって、あれはあれでおもしろかったで >>986
何を起動するかによる(音声合成ならApp.bat、データセット作りならDataset.bat、学習ならTrain.bat、マージならMerge.bat、スタイル分けならStyle.bat) 作ったモデルをHugging Faceなどにおいて音声合成はできるのでしょうか 自分でspaces作ればいけるで(何人か公開しとる人おるな) 今までVITSについて教えてくれる人がいなかったので非常に助かります。 Part5にして初めてスレの完走か・・・
これも職人さんが定期的に新技術を後悔してくれるおかげやな 毎回途中でスクリプト爆撃されるから純粋に完走はできてないかもなw NVA部は二日で完走するのでここは二カ月もかかったんやな… このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 66日 3時間 0分 28秒 5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。
▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/
▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login レス数が1000を超えています。これ以上書き込みはできません。