なんJRVC部★7
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
スレ立てのときは↑の!extend::vvvvv:1000:512を3行ぐらいに増やしてな
RVCとTTSとかの情報交換とかのスレ
ボイスチェンジャーで誰でも完璧に別人になりきることはできません。ボイストレーニングが必要です。
wiki: https://seesaawiki.jp/rvc_ch/
※前スレ
【ボイスチェンジャー】なんJRVC部 6
https://fate.5ch.net/test/read.cgi/liveuranus/1707472445/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured データセットとしてノベルゲー音声はやっぱり一番やな
RVCだと逆に演技音声だと、こちらがちゃんと演技をしないと性能引き出せないって点で、素の雑談配信のほうがいいみたいなのはあるっぽいが >>412
それ大事なのプロのスタジオだけじゃないかな・・・ ユーチューバーの配信とかが一番簡単に素材化できるんだけど、モデル化してみると活舌悪くて何言ってるかわからんって経験がある。
やっぱボイストレーニングしてるプロはすげーんだわ >>410
同じ声優が声色変えててもあんまり影響ない印象だな
特定のキャラに似せたいって場合はやや特徴がぼけやるかもだけど RVCのgo-webで、自分の声録音mp3に対して適当なモデル(pth)の声を少しだけブレンドしたいのですが、
簡単にできそうな方法はありませんか?
ちゃんと自分の声のモデルを作成して、ckptファイルの処理からAモデルBモデルとして
混ぜるしかないでしょうか 手持ちの発声部分が1時間くらいのデータを学習するとき4000〜2万ステップくらいまでは殆ど差がなかった
そこからずっと続けて5万ステップ超えてくるとほんの少しずつ学習元にないセリフの結果も改善していく
中国語なまりがきつ過ぎる人は素材の不足か学習時間の不足があるかも知れない https://files.catbox.moe/a6cbwa.mp4
あかん
ママ系の音声作品をデータセットとして学習させたら です・ます のほとんどを でちゅ・まちゅ で読み上げる謎TTSモデルができてしまった
失敗なのか成功なのかわからんぞ >>420
それにしても発音とか凄い自然に聞こえるね、データの時間はどれくらいで何stepくらい学習してるの? >>420
狙ってできるようになれば革命じゃないかこれ >>424
データセット:30分くらい
スライス後:282ファイル
バッチサイズ;4
38000ステップ (rtx3060で12時間) のウェイトを使った
https://files.catbox.moe/hpy6td.jpg
書き起こしはWhisper large v2でやってみたけどエッチなセリフもなにもかもマジで全部書いてくれてビビるわ
ちなみに通常のトーンまで汚染してほしくなかったから「んんっ♥」とか「~でちゅね♥」とか♥つくようにプロンプトで指示して書き起こしして記号に紐づかないかと実験してみたけどマジでなんも意味なかった つまりある程度特徴的語尾なんかもサンプル次第で学習可能ってことだよな しばらく離れてたんだけど今はRVCとVITS2が主流なの?
音声→音声がRVCで 文字→音声がVITS2の認識で合ってる? >>431
記号は通常の記号以外(絵文字とか含めて全部)は正規化の段階で消されるで
「'」とか「-」が残るからそれを使うといいかも 学習データによって「私」を「あたし」や「わたくし」と読んだり、「えっと」「あの」たたまに自動的に挿入されるようになったりもするけど、
ここまでピンポイントに発音曲げられるもんなんやな RVCの方は学習にマルチGPU対応してるから、いいんだけどVITS2の学習をマルチGPU対応させてほしい。
というか作者もやろうとしてるのは分かるんだけど、道半ばね >>433
VITS2なんてものは無い
Style-Bert-VITSが2ってだけ
Style-Bert-VITS2はlitaginさんが日本人向けに使いやすくしてくれてるから日本人は使いやすいけど
RVCチームが作ったGPT-SoVITSとか上に出てるFish Speechとかがあるから主流がどれってのは無い それらのVITSって学習済みモデルに互換性あったりしないですか? やっぱちゃんとした声優さんの音声だと文字起こしも間違いが少ないな Ninjaで俺も前のセッション残ってる?ってバグに遭遇したわ
koboldCppでちゃんとセッションクリアしてるのに前の履歴を引きずったみたいな挙動をして
何度も繰り返してるうちに日本語崩壊して普通に会話しようとするだけで↓みたいなことしか言わなくなる
「 甘いMAXネガスむらんだ出帽子予約をすっかるサマを即座席から選手市からアパレクティラティ」 一応やけどVITS2というものはあるで(アーキテクチャの名前)
VITSの改善版がVITS2で、それの実装にBERT(言語モデル)を組み合わせた実装がBert-VITS2(Bert-VITSがあってその2番目、というわけではない)
Style-Bert-VITS2はBert-VITS2にスタイル入れたやつ(なのでStyle-Bert-VITSがあってその2番目ではない) Style-Bert-VITS2を4ヶ月ぶりに使って学習して生成してみたけど
めっちゃ性能上がってへん?捗って助かるわ~ style-bert-vits2の学習から作成したpthファイルを
RVC WebUIでも使用することはできますか?
vits2上では問題なく使用できるのですが
試しにmodelフォルダにある生成されたD_やG_やWD_のpthファイルをRVC WebUIに読み込ませてもエラーが表示されまして >>447
その2つはまったく違うタイプのアプリだから無理
モデルも共有できん >>449
そうなのですね・・・使い分けします
教えて頂きありがとうございます GPT-SoVITSとStyle-Bert-VITS2のモデルは互換性ないですか? RVCのベースモデルって学習時に差し替える認識だけど
再生時?変換時?はベースモデル指定する必要ないのでしょうか なんでそんなみんな互換性あるって思うのかな、って思ったら、拡張子が両方ともpthで同じだからか ベースモデルに声色を載せたpthがあるからベースモデルはいりません >>455
ありがとう
ptnのサイズやたら小さいから差分かと思ってたんだけど違うんだね 円安落ち着いたらゲーミングPC買ってRVC+エペしたいと思ってるんだが、好きなキャラクターの声になれるってことでいいんだよな? >>457
なれるけどそう簡単なもんでもないし、バレずにやるとしたら難易度は上がる
男が女声に変換するとしたらボイトレも必要
別にバレずにやるつもりってわけじゃなく同性の声なら概ね好きなキャラにはなれる 学習させた声に近い声になる
自分の声と相性が良ければ異性でもほぼ同じになれる >>458
え、
金積めばなれるもんだと思ってたよ… 自分と相性のいいモデルを使って、かつ話し方も工夫すれば男が女のふりをすることは可能
ただボイチェン特有の声の歪みを100%無くすのは難しいからそのうちボロが出る
あとボイチェンの知識がある相手にはバレやすい ボイチェンの天敵はボボボーボ・ボーボボ、この話題振られたらかなり上手く喋らないと変換されない 男でもボイトレ頑張れば自然な萌えボイスに変換できるような声を出せるが
それができるんであれば既存のピッチ調整するようなボイチェンでもできるしな
RVCは特定のキャラやら声優やらの声を真似するって用途のもん 声を瞬時に変換する画期的な技術だと思ってたんだが違うんだな
結局その声に寄せないと行けないと… ボーボボもいえる最近の低遅延ボイチェンだとSupershiftが質高いで
https://www.nicovideo.jp/watch/sm43613806
学習はできんけどな。ピッチも保たれて、強豪のいろんなCPUボイチェンとは頭一つ抜けとる気がする。 SupershiftやなくてSupertone shiftやな moisesの支払い出来なくなったから代用できるサイトないかな >>467
凄いけど商用利用不可によりyoutubeの動画には活かせず
殆どの人が望むであろう特定のキャラの声になりたいって要望にも応えられないから日本では流行らんだろうな それこそ声優学校に行って量産型の発声できるようになったらええんやな https://files.catbox.moe/vll6f7.png
AI愛好家(?)の一部のなかでPortalに出てくるGLaDOSを現実に実装するのが流行っているような気がして自分も天井からロボットアームとか生やしてGLaDOSちゃん稼働させてぇなと思ったので、とりあえずTTSモデルを学習させてみてモデルをhuggingfaceにおいてみた
Style-Bert_VITS2(英語のみ)とGPT-SoVITS(日英中)の2つがある サンプルはリポジトリ見てくれるとたすかる
https://huggingface.co/WarriorMama777/GLaDOS_TTS >>472
ゲームのキャラを現実にするみたいのかっこいいね すいません質問なんですがVITSのデータセット作成で
文字起こしが終わらずひたすらタイマーだけが進むのですが
初心者が陥りやすいミスとかあるのでしょうか なんJRVC部のはあるけどほぼ動いてないで
声づくり研究会のほうが活発なんやないか 歌枠の音源でstyle-bert-vits2の学習させるとミクさんっぽい喋り方になるね
通常の喋り声と合わせるか悩むところ 声づくりっていつもの反AIがどうこうとか法律がどうこうとか同じ事ずっと喋ってる人がいる感じなん?
AI関連のDiscordはあの人等が常駐してるから怖くて参加でけへんねんな ハリウッドのスト騒動は、ファンレベルのAI使用についてではなく、制作サイドが契約内容としてAIに学習させることを契約に入れたことが問題なんやで
味方と思ってた側の方が問題って話、日本は遅れてるから後から気づくんだろうな >>483みたいにRVCその他ボイチェンと何の関係もなく
聞いてもいないのに突然自分の結論ありきで語りだす人間の集団やで?
興味本位で少しでも見たら頭おかしくなるで ファンメイドはAIですって言ってフェイクではないことを名言しておけば、いいと思うわ
問題はビジネスとして、成り立たなくなることの方だろうし、ハリウッドを見ればこれから起こることも予測できる stabilltyAIの日本公式discordサーバStable Community Japanがあるのに
一切話題にならない時点でどんなのがいるのかなんて見なくても分かるやろ
それでも見たいなら音声AIチャンネルもあるしどうぞ 音声界隈素人だけどLLMや画像の大規模にSelf supervised trainingしたモデルに対応するものって音声にもあるの? >>489
俺ならUVRで分離したinstrumentalをspleeterに放り込む colabのUVRは複雑すぎ
RVCについてるやつみたいにもうちょっとわかりやすいのはないの >>490
UVR5のmdx-netのinst mainを使ってるんですが、そもそもinstにハモリが入らないんですよね 他のを使えば入るんですかね・・・ 音声の学習ってファイル数多いと逆に微妙っすねこれ……
あと音程が上がるとロボっぽくなるのは仕様でしょうか 皆んな曲のボーカルとかBGM+喋り声から喋り声を抽出する時は、何使ってるんや?ワイはUVRのKimvocal2か5_hpkaraokeなんやがこれより精度いいやつある? reactのフロントをcomfyuiみたいにしてみたいな エロ声ならStyle-Bert_VITS2が一番やろか? >>500
Style-Bert_VITS2ならAnneli-nsfwが簡単に試せるんで試してみたらええんちゃうかな
他でええのんあったら紹介してもろうて
Style-Bert_VITS2を気に入ったならApp.batでお好みの声を学習してもろうて RVCでボイチェンは動画に音声入れる程度のバレてもいい用途ならいいけど
AI音声聞きなれてる人間には一発でうわっAIじゃねぇかってバレるからまだあんま実用的じゃないのな GPT-4oの合成音声すげー、もう普通に会話できるじゃん
技術進化早すぎる Text to Speachじゃないからか笑い声とか無声音部分が自然よね
ピッチ変換とかも無いからケロケロしないし >>503
上手な人がやると男が女声してても自然でバレにくいよ
RVCを使ってるって教えてもらった後でも、本物の女が話してるとしか思えないレベルの人がVRChatにはたまにいる 綺麗に学習させたモデルで適切な声の出し方(高さは調整できるから違う)をすればRVCでも自然なTSボイスになるはず
違和感があるのはモデルの質か声の出し方が原因 GPT-4oはマルチモーダルで音声は音声のまま理解してるもんな、RVCとは次元の違う技術
人類マジ終わりだなって感じではあるけど
数年で99%の人間の仕事は代替出来るようになるね そのGPT-4oっていうのはリアルタイムできるの? BGM付き音声から声だけ抜き取りたくてMVSEP使ってみたけど
0%から動かなくて草
合計17時間あるからこれでどうにかするのは無理か… 既出な質問だったら申し訳ないのですが…
svc fork使っています。
例えばエポック100まで回してクオリティが微妙だなってなったときに素材を足そうと思ったら
素材を足してもう一回はじめからやったほうがいいか
足して(もしくはたさずに)継続したほうがいいかってわかりますか?
それと素材が200個程度ならエポック1200まで回したほうがいい。みたいな意見もあったんですけどみなさんはどのくらいで見切りつけてますか? >>509
これとかすごいね
ttps://twitter.com/Toshio_gamgpomg/status/1790203466138460180
https://twitter.com/thejimwatkins どうせ好きな音声では学習させてくれないしNSFW特化の音声や音合成もしないだろうから
ローカルしか勝たんで