X



なんJRVC部 2

■ このスレッドは過去ログ倉庫に格納されています
2023/05/24(水) 20:52:51.12ID:5hpMUIVw0
出力中の画面で止まる? 
2023/05/24(水) 20:57:57.05ID:+wzSOvMu0
>>36
export onnx file のまま放置してても生成されないんや
GPUメモリほぼ天井張り付いてるしRTX2080SPじゃきついんかな
v1ではできるんやけどな
2023/05/24(水) 22:12:26.10ID:esbHTqa50
onnx作るときだけcpuにすればいいぞ
2023/05/24(水) 22:37:21.40ID:+wzSOvMu0
>>38
ほんまやGPU-1にしたらonnxできたわ!!
サンガツ
2023/05/25(木) 06:55:02.36ID:B/372/bqd
ほんまにボイトレ必須なんか?
なんも考えずに喋って素材のまんまに変換されるんやけど
学習素材によるんじゃね?
2023/05/25(木) 08:30:20.12ID:zOdzi9wJM
>>40
おっさんの汚い声をアニメ声に変換すると破綻するって話やろうし
キレイで高めの声を一般女性の声にするのならそこまでボイトレはいらないかもね
もしくはボイチェンだとわからないレベルに男の声をアニメ声にするのにはボイトレ必須って事かも
2023/05/25(木) 10:11:55.28ID:C3+Pv22B0
単純なボイトレというか学習元の癖に合わせる技術のボイトレなのか。420の元の声が同じ癖があっただけかも
43今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b354-Edgm)
垢版 |
2023/05/25(木) 12:57:03.91ID:fEL9HENn0
歌モデル作る時に素材に吸気音いれてる?呼吸部分がノイズに変換されてうざいから消しちゃうんだけど素材にいれたらうまく変換してくれるとかはないよな
2023/05/25(木) 13:01:51.88ID:WCS4KzyGd
>>43
自分も気になってる
ふふふっみたいな笑い声が全部意味のない発話に変換されちゃって困るんだけど笑い声素材がそんなにないからどうせうまくいかないだろと試す気になれないんだよな
2023/05/25(木) 16:10:12.53ID:7V1DHkao0
ノイズ対策と自然さは割とトレードオフみたいな関係よなぁ
笑い声なんかはピッチを意識するといい結果を得られやすい。その辺は咳やくしゃみも一緒かと
音域外の変換はhubertやらモデルの方で何とかしないとって感じかね
2023/05/25(木) 17:09:59.05ID:3GBzvQGFM
AIが誰が聞いても違和感無い音に置き換えてくれるようになるまではボイチェンの域を出ないなー
2023/05/25(木) 19:19:36.24ID:MglJ2I3h0
indexアップロードした状態でonnx変換したやつってonnxファイルにindex組み込まれてるんか?
2023/05/26(金) 17:49:07.67ID:cDMmwSs10
急に所々機械音声みたいになったり掠れ声みたいになるんやがどうしようもないんかこれ
2023/05/26(金) 19:36:35.07ID:cDMmwSs10
分離のモデルをHP5にしたら良くなったわ
ただ子音が変わったり弱くなったりして外国人が歌ってる感じになるな
2023/05/27(土) 08:22:13.08ID:daEB1tNKa
今朝試しにやってみたけど全く上手く変換できないなーって感じ

解説サイト乗ってるのは1.5.2.2だったからそれに合わせてみたが、日本語ですらない何かになっちゃうなー…

環境はwin11のRTX4090でAG03にソニーのコンデンサーマイクつないでるが
2023/05/27(土) 08:23:07.14ID:aqJ6f/+za
あとモデルによっては常にモスキート音みたいなのが出てるのも気になった。元の音声はほぼノイズ無いんだが大声で話さないとだめなんか?
2023/05/27(土) 08:24:28.37ID:lDsC5IVea
あーごめんここRVC全般って認識でいいんかな?使ったのはVC Clientなんだけど
2023/05/27(土) 09:08:59.37ID:8RZBxwGe0
歌とか変換する場合、VCClientの音声ファイル読みこみ変換より、RVCについてる変換機能のほうがきれいに変換できるよ
モデルによってノイズが乗るのは学習が上手くいってない場合が多い気がする、過学習とか
2023/05/27(土) 09:36:20.30ID:8RZBxwGe0
あとはちゃんとindexファイルが読み込めてないとノイズのる気がする
55今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/27(土) 11:37:17.09ID:nWDaMZeva
いざ何か喋って試そうと思っても何しゃべればいいかわからんくなる
2023/05/27(土) 17:33:43.22ID:MiKAUf6pa
>>54
indexファイルって配布されてる?
2023/05/27(土) 18:49:09.40ID:B6n7/uo00
自作なら一緒に作られる
58今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スーップ Sdbf-9W4E)
垢版 |
2023/05/27(土) 19:13:05.20ID:Sw8aA+6kd
これって学習させるときは何度もコンバートするといいの?
59今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ df76-9W4E)
垢版 |
2023/05/27(土) 19:28:09.28ID:LlH14+Rs0
あと、購入したpthのデータを使いたいんだけど分からねえ。購入したpthデータをweightsファイルに入れて、その後にRVCの方で更新して先程入れたpthを選択して...そこからどうしたらいいかわからない....。
2023/05/27(土) 19:35:48.08ID:/R/CyM1Ga
配布物やと詰みなんか?
でも紹介されてるサイトだとpthファイルだけで良さげなんよなぁ…
2023/05/27(土) 19:37:28.28ID:zHuNcZ7v0
盛んに更新されていく中でアフターケアがない買い物をしてはいけない
62今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ df76-9W4E)
垢版 |
2023/05/27(土) 19:41:53.82ID:LlH14+Rs0
やっぱ買うべきじゃなかったのかな。1500円したよ...。学習済みpthの使い方っていうものだから買っちゃった...。使い方分からないのに買うのはねえ...。
2023/05/27(土) 19:47:41.68ID:x5xjCoUS0
vc clientならpthだけで変換できるよ
ファイルselectしてアップロードした後にモデルのドロップダウンにアップロードしたpthの名前があるからそれ選べばできるはず
64今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ df76-9W4E)
垢版 |
2023/05/27(土) 19:49:14.65ID:LlH14+Rs0
rvc webuiは無理そうですね...。
2023/05/27(土) 19:53:18.95ID:Eir8/hsV0
雑に作っても破綻しにくく自然に喋れたり気合入れて素材を弄ってもケロケロ声になったりで難しい
どういう素材を並べたら綺麗になるのか未だに分かってない
2023/05/27(土) 20:06:27.50ID:x5xjCoUS0
vc clientってリアルタイムじゃない変換できるんじゃなかったっけ?少なくとも録音して変換後を出力するのはできる
2023/05/27(土) 21:02:10.65ID:B6n7/uo00
>>62
とりあえず声変換したいだけなら、買ったそのweight(pth)だけでできるよ
indexあるなしで精度とかの問題はあるとしても、致命的な違いはないはず

道具が揃ってるならあとはおま環みたいなもんだから、状況を詳細に書かない事にはレスも誰も付けられないかと
まぁ開発者に直接問い合わせた方が早いけどね
68今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ df76-9W4E)
垢版 |
2023/05/27(土) 21:09:18.51ID:LlH14+Rs0
>>67
ありがとうございます...!indexは同封されておらず、pthデータのみでした...。使用しているパソコンはMacでだだっこぱんださんのrvc_webuiを使用しています。
69今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 4f09-szn+)
垢版 |
2023/05/28(日) 11:51:36.32ID:Nhs5x+cE0
YouTubeにあったウマ娘に言ってない台詞を言わせた動画、作者が非公開にしてた
信者からそうとう攻撃されたんだと推察
2023/05/28(日) 14:13:44.48ID:bliXp7HE0
https://uploader.cc/s/vmfdlg0vgyhn2oz2ukia6s5ef47ppijo9t5yu6mnvs4u6oo3hi64nsai2tfg913v.wav

リアルタイムボイチェンの結果
自分なりにかなりハキハキ喋ったんやがグニャグニャになってるな
・ノイズ消去
・音声分割して短すぎるデータとノイズ消せてないデータを破棄
とりあえずこれだけやったんやが他にクオリティ上げる方法あるか?
index指定したら何故かクオリティ下がった
2023/05/28(日) 15:01:55.23ID:qtw/0zVz0
もしうまく変換されないなら変調を上げ下げしてみると変わるかもしれない
72今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウクー MMcf-9phq)
垢版 |
2023/05/28(日) 15:57:26.44ID:2o1XQisZM
インデックスなし
https://uploader.cc/s/u0s8qo388yggrvu20tt00zfoz1xrv5yeja10if04ph451e62k50akzoyz4sm81hr.wav
2023/05/28(日) 16:49:58.88ID:bliXp7HE0
学習データ増やすのってどのくらい効果あるんだろうか
74今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ fbfd-BgAp)
垢版 |
2023/05/28(日) 18:14:56.25ID:kTylbH6i0
VC-clientとKoemake RVC Playerで試しにリアルタイムボイチェンだけやってみたんだけど、
主観的にバ美肉したい人からすると・遅延を限りなくゼロに近づける・自分の声を聞こえなくする の2つが解消されないと無理そうだな…

結局自分のおっさんボイスは聞こえるし、0.3秒の遅延は「自分のしゃべった声だ」と認識するにはだいぶ遅い。
どっちも技術的に難しそうだしそれこそ両声類になれるようボイトレをするしかなさそうだ。
75今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スーップ Sdbf-9W4E)
垢版 |
2023/05/28(日) 18:19:00.41ID:+5c0ItWLd
>>68の者です!一夜漬けして解決しました!macは難しいのでWindowsにしたところ簡単にいきました!やったー!
76今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ eb1e-9phq)
垢版 |
2023/05/28(日) 20:32:51.51ID:3WlsFu3Q0
リアルタイムの場合は変換後の音は本人が聞く必要ないから別にどうでも良いんじゃ?
普段通り喋ったらええだけや
2023/05/28(日) 20:34:39.60ID:fD2V+NqH0
ある種の没入感みたいな?
2023/05/28(日) 20:35:30.41ID:WUWn7Jvya
言わんとする事は分かる
2023/05/28(日) 20:48:56.04ID:fD2V+NqH0
ゴリゴリオッサンボイスが自分の耳に響いてくるのに
ネットの向こうでちゃんと女の子ボイスとして反応してくれてるかって
クッソ不安になるやろな
2023/05/28(日) 21:18:04.83ID:iGKmH5Uk0
とはいえ両方モニタリングしながらしゃべってると、結局トランシーバー会話になりがち
腹をくくるんだ
2023/05/28(日) 21:24:18.71ID:fD2V+NqH0
変換したボイスのスペクトラムとかだけ表示できる状態にしておくと安心感あがるんかな
82今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ fbfd-BgAp)
垢版 |
2023/05/28(日) 22:25:32.32ID:kTylbH6i0
ちゃうんよ
通話して相手に女の子ボイスを聞いてもらうんじゃなくて、ただ「わぁー俺女の子になってる〜」感を味わってみたいんよ
VRで女の子のアバター着てみてもそんなに感動せえへんかったから声が変わったら何か違うかなぁとと思ったんやけどもね…
それこそ無理だろうけどフルダイブVRでもできんと無理よなぁ
2023/05/28(日) 23:58:09.18ID:mj0HbODu0
このスレってVITSも管轄なんだろうか
ブルアカの音声変換とか出てるんだが

ttps://huggingface.co/spaces/zomehwh/vits-models
2023/05/29(月) 00:27:15.17ID:P56YVeky0
RVC webuiとbetaって性能に優劣ある?
webuiの方はやっとインストールできたけど今度はエラー出てなんも学習できんから気になる
2023/05/29(月) 06:19:50.34ID:7118AL4o0
>>1曰くオッサンボイスはRVCでも女の子ボイスになれんのやから0.3秒を縮めても無駄なんちゃうか
2023/05/29(月) 07:11:04.71ID:m03D2EXId
だからvは一人も使ってないだろ
2023/05/29(月) 21:53:13.27ID:tT7fdW2r0
colabでやってるんやがモデル推論harvestとcrepe選ぶと高確率でエラーになるんやがワイだけか?
数秒程度の台詞だと普通に通るんやが数分の長さの音源だとほぼエラーや
pmは問題無い
88今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウクー MMcf-9phq)
垢版 |
2023/05/30(火) 07:03:18.30ID:pMchdXw+M
なにかひとつのおっさんボイスをどれだけ上手く変換かけられるかってやった方がクオリティの比較はしやすそうだけど
2023/05/30(火) 08:15:11.60ID:/Yf8SbVQ0
確かにベンチマークテスト用の標準音声みたいなのあると良いな
90今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スッププ Sd7f-LO04)
垢版 |
2023/05/30(火) 09:40:35.16ID:8SKBlSQkd
昨日触り始めただけど学習用の音声データって一つにまとめた方がいいのかな?
ボーカル抽出→Audacityでまとめて分割、そのまま連番で書き出したのをフォルダにぶっ込んで学習ってやってるだけど総ファイル数2600とかでこれでちゃんと学習出来てるのかわからん
2023/05/30(火) 10:15:09.79ID:d257NxkX0
>>90
一つの音声ファイルに結合したほうがいいかということならわざわざそんなことする必要ないと思う
step2aの段階で自動で無音部分をカットして切り分けてるみたいやからそうなる
92今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スッププ Sd7f-LO04)
垢版 |
2023/05/30(火) 11:13:19.34ID:suBwLRNDd
>>91
ありがとう

息がかかった音声や高音、吐息?部分に機械的なノイズが入るのは学習データが悪いんかな>>72みたいに自然な感じにならない
2023/05/30(火) 11:36:32.97ID:8I+5Qs3t0
ノベルゲーからボイス抽出するために10年以上ぶりにwestsideのツール使ったで
94今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/30(火) 11:56:03.48ID:WqZVe+fZa
>>92
吐息に関してはマイクにポップガード付けてるから多少汚さが抑制されてるのはあるかもしれない
2023/05/30(火) 12:05:17.92ID:oIwjBAPwd
変換前も聞かないと変換がうまくいってるのか録音がうまくいってるから変換後も自然な音声になってるのかわからんよな
96今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/30(火) 12:09:18.92ID:WqZVe+fZa
けど流石に元声のせる勇気はなかなか出せない
2023/05/30(火) 12:12:48.85ID:hNyHYTTU0
リアルタイムで配信やりまーす! とかじゃなきゃNVIDIA broadcastくらいは
試してみていいんじゃねえの

っていうか配信やるのでもダブルで噛ましたらいかんのかな?
2023/05/30(火) 12:17:19.53ID:mciJ1HuK0
遅延とか音質考えるなら、その辺よりまずUSBマイクじゃなくてオーディオインターフェースとコンデンサーマイクでASIOにしてみたほうがいい気もする
99今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/30(火) 12:26:21.59ID:WqZVe+fZa
USBマイクも相当遅延少ないんじゃなかったっけ?
今までのボイチェンだとボイチェンソフトを使わずにオーディオインターフェース側でボイチェン制御した方が遅延が少なかったから重宝されてたと思うけどRVCだと結局ソフト通さないといけないから

間違ったこと言ってたらすまん
2023/05/30(火) 12:29:57.45ID:Z+TmTYphr
雑音も声っぽく変換しちゃうからちゃんとしたマイク必須かな
ノイズカットだけじゃ環境音拾いまくる
2023/05/30(火) 12:31:11.18ID:hNyHYTTU0
ぶっちゃけただコメント欄を相手にVのガワでトークするだけなら遅延1秒あっても
リップシンクが不自然になる程度の話だと思う

激しいゲーム実況するとか歌を音源と合わせるとかになるとそうもいかない
2023/05/30(火) 12:38:38.72ID:Z+TmTYphr
動画とデスクトップ音声(マイク音声以外)を0.3秒ほど遅延させれば行けそう、って思ったけどそういうの意外と難しいんだな
OBSだけじゃできないっぽい?
103今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/30(火) 12:40:06.59ID:WqZVe+fZa
麻雀アプリとか程度ならやれそうVのガワはAIイラストで作ってデビューするか
2023/05/30(火) 12:42:23.65ID:oIwjBAPwd
リアルタイム配信じゃなきゃ変換後の音声からノイズ手でとったり不自然な音声をカットしたりしてなんとかバレずにできないだろうか……
2023/05/30(火) 12:43:05.89ID:Z+TmTYphr
そのまま使ったらやっぱバレるんかねー
マージ必須?
106今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/30(火) 12:44:00.01ID:WqZVe+fZa
まだ試してないけどワザとちょっとだけ環境音混ざったデータセット学習させたら環境音を声じゃない感じにできないかなと思ってる
2023/05/30(火) 12:45:23.64ID:oIwjBAPwd
声に環境音が混ざるだけと見た
もしやってみたら結果教えてほしい
2023/05/30(火) 12:58:11.12ID:Z+TmTYphr
2人の声データ混ぜたらどうなるんやろ?
2023/05/30(火) 18:04:51.79ID:pzc0y7Sm0
声色が違う二人の雑談を学習させたけどミックスした中間の声は出なかった
自声の高さの近い方を選んで発音するようだ
声色の似た二人なら違和感はないかもしれない
2023/05/30(火) 18:07:55.92ID:UZx6FSOa0
RVCの性質に特化したノイキャンがあるとええんやがな
2023/05/30(火) 18:09:56.96ID:pzc0y7Sm0
つまり低い声と高い声を使い分けられたら一人で二役発音できるw
2023/05/30(火) 18:45:18.76ID:WfKpSIqI0
まずはええマイクを準備や
Sphere L22買って声優現場デファクトスタンダードのU87モードで録るんや
USBオーディオインターフェイスはUNIVERSAL AUDIO apolloのQUADええの買っとけ
2023/05/30(火) 18:51:58.00ID:UZx6FSOa0
歌の収録とかするわけでもないならそこそこのでええよ
1万以下の安物とかは避けた方がええけど
2023/05/30(火) 18:55:35.29ID:hNyHYTTU0
3000円くらいの定番マイクにポップガードだけつけて
NVIDIA broadcastにノイキャンしてもらえばいいでしょ
2023/05/30(火) 23:43:30.53ID:IIJ4DBju0
音の処理はなんだかんだで初手アナログ相手なものやからフィルタ活かすも殺すも全ては最初のソース次第やで
ちな歌用はさらに値が張る
2023/05/31(水) 03:09:35.25ID:BbFpB6yc0
MMVCしか触ったことないけどどの手法でもお手軽に自然な女の子ボイス出せるようにならないのな
2023/05/31(水) 03:31:08.94ID:BX6HlRTq0
元の声質にもよるし地声ベースだと相性の良し悪しはかなりあるからね
ピンポイントで狙った声に変えるには、そっちにできるだけ寄せて喋る(歌う)訓練が必要やな

同性同士でこもった声をクリアにしたいとかの用途なら多少ハードルは下がると思う
2023/05/31(水) 04:13:16.47ID:ZLANITsRM
>>112
誰がそんなクソたけぇマイク買うんだよ( 'д'⊂彡☆))Д´) パーン
119今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/31(水) 06:43:15.35ID:j52W+T4Aa
ワイの声や喋り方の問題やろうけど言葉の最後がやけに機械音やざらつく
「お疲れさまでした゛」みたいな
2023/05/31(水) 10:08:14.19ID:i2s4Y+LM0
目標サンプリングレートはデフォルトの40Kしか試したことないけど48Kにしたら質上がるんかな
2023/05/31(水) 11:23:31.35ID:elmy9JGH0
いまはまだ40kしかv2モデルじゃなかった気がするから質はさがるんじゃないけ?
2023/05/31(水) 11:48:00.16ID:m5jzZBvb0
ほんとだ、48kだとv2って選択肢でないのね
123今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウクー MMcf-9phq)
垢版 |
2023/05/31(水) 12:32:37.72ID:3YsWF51NM
VCCはいつv2に対応するんやろ
124今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スッププ Sd7f-LO04)
垢版 |
2023/05/31(水) 15:28:03.36ID:4hRR55P6d
出力した音声で用意した音声ファイルとは別の何かを後ろで言葉喋ってるように聞こえるのは学習回数が少ないのが原因かな?
2023/05/31(水) 15:35:10.89ID:47VQN9fs0
好きなキャラに好きな曲歌わせたいって理由で手出したけどこれまず学習元の音声最低20分分用意するのが割と難易度高いな
2023/05/31(水) 16:01:22.12ID:Nzy/MkC80
配信者とか声優だと楽だ🤗
アニメキャラとかだと発話分割して手作業で分けるのかな🤔
2023/05/31(水) 16:12:00.74ID:BX6HlRTq0
学習は自動で放置できても結局はそれなんよね
学習元データの準備から始まり、選別、加工でそれなりに時間拘束されるからなかなか捗らん
AIなんだしゆくゆくは全自動でやれるようになるかもしれんけど
2023/05/31(水) 16:17:31.47ID:4BOwRBWzd
今まで吐息とか笑い声カットしてたんやけど、そのまま入れた方が良い説もあるんやな
喘ぎ声や吐息が謎言語になる現象がマシになるならやるけどどうやろ
2023/05/31(水) 16:32:13.23ID:hSYc7fOaa
前スレではカットした方が良い論者の方が多かったような
曰くpthじゃない元のモデルに入ってない音はそもそも出せない云々
2023/05/31(水) 16:55:33.91ID:BX6HlRTq0
誤変換は余計なデータ多かったり過学習によるものもあるだろうから
シンプルな学習で意外とノイズレスに収まるケースもあるよね
131今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (オッペケ Srcf-9zNc)
垢版 |
2023/05/31(水) 16:57:03.05ID:JAn39DGQr
笑い声入れてると無音部分にノイズ乗るで
132今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/05/31(水) 17:47:33.31ID:Xi5IA6Cha
吐息ってのは普通に結構な音にのる「ふーー」みたいな奴のこと?
2023/05/31(水) 18:10:28.72ID:oxr9Jh++d
笑い声入れとけば「ふふっ」みたいな声が意味不明な音声の羅列に変換されちゃう問題も解決するんじゃないかと期待してたけどそんな甘くないか
134今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2b54-LO04)
垢版 |
2023/05/31(水) 21:43:36.49ID:UVPGUqhQ0
自分用に作ったやつやけどせっかくだからお裾分け
ボイスピークで適当に早口言葉を言わせただけの内容や
https://uploader.cc/s/pyty0n64o2e80poovx68fz4oxivkpoqow2mva0rxy7xm2wxwv4kl8iwrp28eo4u1.zip
135今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ eb1e-9phq)
垢版 |
2023/05/31(水) 22:00:42.76ID:WycGEAj70
あんま笑い声とか試してなかったけどははって笑うとふぇぁふぁみたいになるな確かに
2023/05/31(水) 22:14:04.01ID:sIUf3JgSM
>>134
すまん
説明が無いとこれがなんなのかわからん…
ボイスピの声を学習させてこのセリフをあなたが直接喋ってるって事?
137今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2b54-LO04)
垢版 |
2023/06/01(木) 00:03:21.19ID:hCUfgAQB0
>>136
ただ単に学習した音声の具合を雑音無しで確認する為だけに作ったやつや
早口だと上手く喋ってくれない事とかあったから連続した音声にしてる
2023/06/01(木) 02:38:58.79ID:WVMyT9VE0
これはt2s音声読み上げサービスのやつやないの?定番の男女と幼女の声やし
139今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウアー Sa7f-9phq)
垢版 |
2023/06/01(木) 07:34:59.06ID:5giTApMla
短い音源を使ってモデル1を作る→モデル1に何か適当な相性のいい発話音源を読み込ませて音源1を作る→元の短い音源に追加で音源1も含めたもので学習してモデル2を作って完成
2023/06/01(木) 09:28:34.58ID:tU6hv4Bp0
>>138
もちろんYou Tubeとかでたまに聞くあの声ではあるけど
単に生成した音声をこのスレで上げる意味もないし自分で喋ってるんだと思うよ
2023/06/01(木) 21:13:50.01ID:fpZQyMSo0
歌を歌わせたいんだけどボーカルリムーバーで歌をボーカルだけにしてRVCかけてるんだけど歌がハモってるところがテンでダメなんだよなぁ…

ハモリやエコー消す方法ってある?
142今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2b54-Osqg)
垢版 |
2023/06/02(金) 01:14:16.40ID:uNO4GxQh0
UVR5のリバーブHQでエコーは多少マシになるけど 声重なってる系の曲は俺もどうしようもないわ コーラス消せればなんでもできるんだけどな
143今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ df38-9zNc)
垢版 |
2023/06/02(金) 01:24:50.71ID:gGDcNCv80
UVR-MDX-NET Karaokeはハモリ消してくれるで
2023/06/02(金) 05:00:58.91ID:YrtOWSto0
>>142
なるほどこれでリバーブ消えるのか
でもハモリがあると拾っちゃうんだよな……ツラミ。
>>143
fmfmこれでハモリが消えるのか……
リバーブが残ってると雑音入っちゃうんだよなぁ……悲しみ。

………ん?
2023/06/02(金) 11:32:03.36ID:K/eltgv30
リアルタイムに発音をラッピングするのはすごいけど
やっぱり地声と違うボイスはガビガビするな
2023/06/02(金) 11:33:09.62ID:K/eltgv30
自分では普通に話してても滑舌が悪いのを思い知らされたわ
2023/06/02(金) 17:30:09.64ID:lbG8iYKK0
RVC1ヶ月追ってないけど、楽曲放り投げて一発でモデル作れるようになった?
2023/06/03(土) 18:49:58.30ID:bC7KDeWF0
>>142
>>143
なるほど2つかけたらいい所まで消せたよ。これはすごく捗るよ
ありがとうm(_ _)m
149今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b954-zBVQ)
垢版 |
2023/06/03(土) 20:47:56.25ID:2OygoSnF0
v2って結構大幅に変わった?同じ条件で学習してもv1の時より滑舌悪くなってロボット感が増したわ
2023/06/03(土) 21:09:58.41ID:AhBhBvnIr
多分過学習
151今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b954-zBVQ)
垢版 |
2023/06/03(土) 21:22:25.06ID:2OygoSnF0
>>150
さんがつ エポック減らしてまたやってみるわ
152今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c6ba-5HXu)
垢版 |
2023/06/03(土) 21:50:04.07ID:Obg4o3rG0
loliを追い求めてマージを繰り返すあまりjcくらいのが出なくなることあるわね…
153今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c6ba-5HXu)
垢版 |
2023/06/03(土) 21:50:52.23ID:Obg4o3rG0
すまん誤爆
154今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b954-zBVQ)
垢版 |
2023/06/04(日) 01:20:02.65ID:zZRyJhZO0
作りたいモデルの歌声素材がない場合どうしてる?喋り声でモデル作って歌わせた声を素材にすればいいのかね
2023/06/04(日) 12:18:17.63ID:/niVPpKkp
喋り声だけだと多分高音域のデータ足りなくてがびると思う

しかし喋る方はまだまだかもしれないが歌はもう生身と区別つかないレベルまできてるな
まあ歌は変換後の作業が大事で
Mix、マスタリング辺りの知識と技術が必要でそれがクオリティに直結するからお手軽とはいかないが
2023/06/04(日) 16:28:25.67ID:FBQLeJui0
逆に言えば編集作業でコンプレッサーやマキシマイザやらリ細いのを太くしたりバーブピッチ修正やらで質は伸ばせるけど
会話とかリアルタイム変換は誤魔化しが効かないから大変やで
2023/06/04(日) 17:01:53.02ID:l7ZD7ZCS0
久々に素のRVC入れてみたらなんか学習は出来たけど変換エラー出て出来ないや
まあweb-uiの方では出来たんやけど
2023/06/04(日) 18:22:15.40ID:Br0Tnoe/0
リアルタイムで違和感なく、ってレベルになるにはあとどんくらい掛かるんやろうか
意外と近い気もする
2023/06/04(日) 19:13:32.18ID:jPw4paWR0
ボソボソ喋る滑舌が悪い奴が使っても駄目だな
2023/06/04(日) 19:33:10.71ID:PxqlNxYS0
滑舌良くもなんか不自然になるんだよな
2023/06/04(日) 22:03:17.43ID:8HIXpNPd0
コンプレッサーとかマスタリングで調整するなんてアイドルソングとかなら当たり前なんだから、そこまできてるってことでもある
2023/06/05(月) 16:28:23.65ID:deZ/F2L20
まぁアイドルだとか声優だとかは声だけじゃなく付加価値路線で売ってるようなもんだから
2023/06/06(火) 23:50:55.28ID:ICg+Gd0u0
ボーカルとコーラス分離できるやつでDemix pro以外でオススメある?
Demixはrvcに付いてるやつより質良くてコーラス含めて変換できるレベルだけど有料なんだよな
2023/06/07(水) 09:45:22.93ID:QITdrBuF0
歌声りっぷとかWebUIのやつじゃダメなんか?
2023/06/07(水) 10:28:40.57ID:z5DzAkiIM
Demix proとiZotope RX10ってどっちが分離上手なんだろう
比較動画が見当たらなかった
2023/06/08(木) 16:43:15.40ID:sPPjCSdSa
体験版でちょっと試してみた
元音源:YouTubeにあった蛍の光
https://uploader.cc/s/887ar565myfmf40nzp7vfbnp19gzlqkmi1yb43a18vzprgd80obl21z46v4hlbf3.wav
ボーカル(vocalremover.org)
https://uploader.cc/s/130tl6jjbioyflzn15s5nrfn3sc9uxpoe9e7pgpzyelwtzjjjpi1fzz6h9p1750t.wav
インスト(vocalremover.org)
https://uploader.cc/s/1mwavgb4cgjydrm16xbx6r3tz41a7ie0xor945juhksriivg6fh4owb3hgqowgk5.wav
ボーカル(RX10)
https://uploader.cc/s/x8zz58bxb78pg559m03nb0yjfjhqg6tca2nnbhl2j2te7roo5g4i8j8jezosoflw.wav
インスト(RX10)
https://uploader.cc/s/2pznmsjlxh1sohfauv3xtlsgrh482xsi2d606f6shg9ehuykggurbu2axa57b4j0.wav
2023/06/08(木) 16:45:54.07ID:sPPjCSdSa
ボーカル全部(DeMIX Pro)
https://uploader.cc/s/465kpgrxbt7bir8vm6g329vsa6etkmokrb323qi8erum7wthz9t32glqwq75wjz2.wav
リードボーカルのみ(DeMIX Pro)
https://uploader.cc/s/9d4p202p4fkadgfa5yypyvsfxdk0efnn3suetbz6kv8s80mrshhp9zi9kkn0hrf9.wav
リードボーカル以外(DeMIX Pro)
https://uploader.cc/s/xm6sksxgm9zfiplil59px2knv0qjn9gf1un00eyyu2qnncooa57dmjbiad6w726o.wav
インスト(DeMIX Pro)
https://uploader.cc/s/co2gf0emf39ei122sae06yuqd6uowd2z2tumf4kg2uq7bd6iqnlawixaa8qaz5t5.wav

ボーカル抜くならDeMIX Proの方がいいかなぁインストはRXの方がきれいに抜けてるけど後半の低音部分が残ってるとこ有るね
DeMIX Proのリードボーカル抜ける機能はいいけど、値段が高いのがネックか
今のとこDeMIX Proのみだけどそのうち他のとこも追従して実装しそうな気がするUVR5はうちの環境で利用できなかったからどっちが優秀かわからん
168今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b954-zBVQ)
垢版 |
2023/06/08(木) 23:42:03.11ID:tc0/m7Xr0
UVR5でやってみたで
ボーカル全部
https://uploader.cc/s/763pq6w4vyzmjszfk632a3w7i369evsu0xtz9vj6y44emu8c6fodi8uyxvqejrf9.wav
インスト
https://uploader.cc/s/lxzl4pf7p5t8g0eseybvbswcukoorhkyt1ow8y1i6crx1nczi1me5n8ukizwjjdp.wav
リードボーカルのみ
https://uploader.cc/s/vusqk6z12a1ztdee7r9wem47sad6dsx9pbt260dcfw290cvq45fxeac72e87sk1q.wav
設定は前スレで紹介されてたやつでやった。ハモリ除去は5_HP-karaoke-UVR使ったけど全然駄目だな。ハモリだけ抜くやり方は分からん
2023/06/09(金) 07:35:04.58ID:rVgKZ0Ha0
ボーカル全体抜いてからリードボーカル抜けばハモリ抜けるよ
2023/06/09(金) 17:38:43.98ID:ljxnnF0+0
割とマジで突き詰めていくと学習データはかなりいいとは思うがそれに対する入力環境(ワイらのマイク・喋り方)がダメってことになってくよな
喋り方はともかく、環境は一朝一夕じゃどうにもならんからなぁ
2023/06/09(金) 18:16:49.64ID:9GTu0hR/0
ぼそぼそしゃべる声を変換するなら、ぼそぼそ喋る音声学習しないとダメだわな
誰それが演じた声を変換するなら、やっぱり自分も演じないとだめよ
2023/06/09(金) 18:54:09.99ID:PdshmGND0
喋り方も難しそうだけど発音はどの辺りまで吸収してくれるかだよな。ぼそぼそは母音を弱化してるのか子音が異なるのかどっちもかな
173今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 5954-S9UQ)
垢版 |
2023/06/10(土) 00:34:43.85ID:jMzE9Fc00
クオリティ高い声優のpth持ってる奴いる?
2023/06/10(土) 10:59:39.73ID:sYheQav00
うんこもらした
2023/06/10(土) 10:59:53.67ID:sYheQav00
↑ミス
2023/06/10(土) 12:09:30.05ID:y3QGqJQr0
それは明らかにミスだな
2023/06/11(日) 07:52:27.34ID:7Qt0Zf+Hd
RVCで作ったpth使って
moegoeでTTSできた人います?
RVC側のjsonとか流用して試したけど出来ませんでした
178今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b3e8-X5Gp)
垢版 |
2023/06/11(日) 11:04:40.65ID:iGj7g6ln0
歌わせるの楽しすぎてお絵描きAIに全然手がつけられなくなってしもた😣
2023/06/11(日) 16:32:04.14ID:gzrMaLdN0
>>177
そもそも学習方式は色々乱立してて基本的に互換性も無くてその都度変わるから
サポートをうたってるものは別としても基本的にはそう単純な話ではないよ
同じプログラムでさえバージョン上がって前のは使えなくなりましたなんてのもザラだし
2023/06/12(月) 11:37:07.59ID:nA1qbk48M
RVCv2の学習もとデータってサンプリングレート40kで用意するの?
事前学習のファイル名が40kてなってるので気になって。
2023/06/12(月) 16:41:31.43ID:EU+oRoUj0
v2のpretrainedモデル、latestがないやつとあるやつ(pretrained_v2/f0G40k-latest.pth)
があるけど、どっちの方が最新版なんだろう
2023/06/12(月) 16:43:13.77ID:TzL3JL0E0
今まで特徴抽出→モデルのトレーニング→特徴インデックスのトレーニングって操作してたけど、
ふと隣にあるワンクリックトレーニングボタンが気になって調べたらこれを押すだけで良かったと知り泣きたくなった
2023/06/14(水) 21:21:47.68ID:NJYtZtz40
VCclientなんか常に送受信してるけどオフラインで使えないんですかね?
184今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 317b-s+nx)
垢版 |
2023/06/15(木) 10:04:41.82ID:yHrXHKip0
「いまイラストAIさわってるやつは遅い。次はRVCだ。今はオタクした触ってないからチャンスだ、急げ!」
とか意識高い系ツイッタラーが煽ってたはずなのに閑散としてるの面白くてすき
5月28日に0528v2がアップされて「無声子音と呼吸保護モードを追加」とcrepeっていうピッチ推論の方法が選べるようになったぽいな
今から試すぞ
185今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 317b-s+nx)
垢版 |
2023/06/15(木) 10:05:35.33ID:yHrXHKip0
そういやちらっと検索でBoothのRVCモデルみたんだけど、あっ売るんだっていう(クソ高い)
声の出処も出所不明だし。ここのニキらはまぁ買わんだろうが……
186今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 317b-s+nx)
垢版 |
2023/06/15(木) 10:21:39.76ID:yHrXHKip0
夏目漱石『吾輩は猫である』⑴ (192kbit_AAC)_04.mp3"
内容:12:02分
▼Crepe
Time:
npy:4.688856601715088s, f0:62.89345026016235s, infer:14.791491031646729s
=80s

▼Harvest
Time:
npy:5.395530462265015s, f0:280.4101469516754s, infer:14.024797677993774s
=299s
お~Crepe早いわ。GPU使うらしいのでつよければつよいほど早いっぽい、しらんけど。
2023/06/15(木) 10:24:24.51ID:KpvoD8EYd
ぶっちゃけモデルを売るよりも素材加工から学習・変換までの流れを教えるサービス始めた方が売れそう
権利的にも問題ないからそこに関してはトラブルになりにくいだろうし
2023/06/15(木) 10:27:51.43ID:KpvoD8EYd
NS1みたいなノイキャン通すとリアルタイム変換の品質上がるのかなあ
189今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 317b-s+nx)
垢版 |
2023/06/15(木) 10:54:49.42ID:yHrXHKip0
2時間超えの朗読ぶちこんでも落ちずに変換してくれた。とはいえ10分超えはつらいのでやっぱトリムしてテストしたほうがええわ
夏目漱石『坊ちゃん』(前編) (192 kbps).mp3"
2時間16分44秒
Time:
npy:48.670037508010864s, f0:670.937814950943s, infer:154.397399187088s
=872
2023/06/15(木) 11:55:01.12ID:IyhL2qXS0
イラストAIと違ってそこまで拘れるとこ無いんよな
ノイズ除去と、こだわる人は発話分割して学習に向いてない音声除去した後学習させるだけ
呪文やらも無いから情報交流もそこまで要らない
2023/06/15(木) 11:56:21.73ID:IyhL2qXS0
あと成果物見せるとき貼りづらいのもあるな

この辺のせいで過疎ってるのかも
192今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 5954-LDn/)
垢版 |
2023/06/15(木) 12:19:26.10ID:pdHdha0T0
イラストと違って今の時点でそこそこ完成してるから試行錯誤とかそういうのない
2023/06/15(木) 12:43:14.46ID:Z3n1Rqbg0
モデルとプロンプトだけでハイクオリティイラストガチャ楽しめるAIイラストと違ってAI音声は出力用の音声も自分で用意しなきゃならないから面倒だし楽しさに欠けるんだよね
2023/06/15(木) 13:06:28.13ID:daSzPWf80
成果物貼って反応聞きたいって気持ちはあるんだけど、どのろだ使えばいいかわからん
195今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 317b-s+nx)
垢版 |
2023/06/15(木) 14:13:09.73ID:yHrXHKip0
そういわれてみればイラストのほうは0→1ができるけどRVCは今のとこ変換だけだからか
Barkとか拡散モデルで音声生成できるから面白そうなんだけど、なんか進展あるかと思って覗いてみたらいまだに音声学習は対応してないしつまらんな
196今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スププ Sd33-ltN6)
垢版 |
2023/06/15(木) 14:27:35.09ID:LqJHXtv1d
ワイの使ってるヘッドセットやとノイズ鳴るみたいや
録音に使う機材はそれなりのグレードいるんやろか…1万円前後のマイク調べればええか?
2023/06/15(木) 14:45:29.36ID:daSzPWf80
ワイは手作り感満歳だけど自作のコンデンサマイクとストッキング製ポップガードでうまく録れてる気がする、費用300円くらい
2023/06/15(木) 15:59:12.15ID:rVtkcKUU0
声のリアルタイム変換は一度やって満足しちゃうと、応用思いつかないとかで飽きる人多そうだしなぁ
そもそも一人暮らしじゃないと活用しにくいよねってのもあるから、需要あるとしたらインドアゲーマーや配信者とかくらいじゃないかな

>>196
コンデンサマイク使えば音質はヘッドセットのそれとはかなり変わるだろうけど、
結局ノイズは更に拾いやすくなるから、環境音色々入る場所では使いにくいよ
2023/06/15(木) 16:03:36.60ID:olmPB1zc0
まずDSP入りのオーディオインターフェイス買え
thresholdをエフェクターのゲートで設定しろ
マイクはshure WL184以上の奴を買ってこい
2023/06/15(木) 18:28:37.57ID:IyhL2qXS0
VCclientのノイズゲートと酷すぎないマイクでいいよ
2023/06/15(木) 19:13:16.52ID:X+AMnTWa0
作ったモデルのクオリティチェックにちょうど良い音源ないかなあ
2023/06/15(木) 19:54:27.75ID:n8vxxC1Ed
しゃべらせるなら前スレにあった石鹸のやつとかでいいんじゃない?
2023/06/16(金) 07:57:21.06ID:TZjRNyZD0
voicemeeter bananaとか使うと、PCで再生した音をそのままリアルタイムボイチェンに渡せるのでオススメ
2023/06/16(金) 07:59:16.64ID:rgGmSoBL0
夏になって気がついたが扇風機やエアコンの音をマイクで拾うと謎言語で勝手に喋りだすなw
2023/06/16(金) 09:22:38.44ID:22MYOYX9d
喘ぎ声変換してみたが吐息で謎言語になって笑ってしまう
「あんっ♡はぁ…はぁ…もうだめぇ〜♡」→「あんっ♡ボァホフ…エォンリ…もうだハヘェ……♡」
2023/06/16(金) 09:31:32.15ID:FyiUYFIQ0
サ行が全部スになって田舎臭くなってまう
2023/06/16(金) 09:31:53.70ID:XwPCLMcJ0
本当なんだすか?
2023/06/16(金) 17:52:26.57ID:MI+1IvQp0
>>202
ありがとう今度やってみる
2023/06/16(金) 18:37:11.61ID:Kt7+PGm80
田舎なまりというか
トレーニングに使用したモデル次第で中国人ぽい発音になる事は結構あるね
2023/06/16(金) 22:52:21.18ID:zFzKn4Vx0
さすがに吐息や喘ぎ声は無理やろな・・・
2023/06/17(土) 00:26:39.60ID:H9M5Em9I0
エロ音声変換は自分もやってみようとしたことあるけどチュパ音とか水音も潰れちゃうから実用性低いよね
SE入ってるやつだとSEまで謎言語に変換されちゃうし
2023/06/17(土) 00:45:23.51ID:tIqaXJef0
普通に喋って後でフリーの水音やチュパ音足すとか?
いやーだりいな
2023/06/17(土) 01:19:11.40ID:LbvZ8C7L0
実際のアフレコだと腕とか指を吸ったりして出してるから、学習させてれば同じやり方で出せるかな?
2023/06/17(土) 01:28:40.41ID:mZPXYlPu0
全ての音が謎言語に変換されることを逆に利用して淫夢語録全部突っ込んで適当な楽曲変換すれば音MAD出力できる?
2023/06/17(土) 11:58:00.49ID:ne+7r3NU0
セリフ以外の効果音や喘ぎはサンプラーとかで鳴らしてミキサー通せば行ける?
2023/06/17(土) 14:17:26.11ID:tIqaXJef0
好きな声を2つマージして最強の声を作ろうとしたけど2つの良さが消えて下位互換になるなこれ
2023/06/17(土) 15:13:18.35ID:Ig6DMrwf0
hubertモデル使ってる以上は色々限界あるでしょ
2023/06/17(土) 15:46:04.23ID:tIqaXJef0
jp-hubert系って効果あるのかな?
2023/06/17(土) 17:47:54.34ID:R7GxDOg80
ttps://youtu.be/aOqwCQignwA
こういうネタもあるやね

ってか委員長、見ってる~~?
(多分見てない)
2023/06/17(土) 20:13:34.05ID:Ig6DMrwf0
jp-hubert系効果あるって人と良く分からんて人おるね
声質や相性次第なとこもあるんかもしれないけど、自分で試すのが早いと思うで

>>219
当然だけど同性変換(特に声のピッチ帯が同じ場合)の方がハードル低いで
2023/06/18(日) 09:02:57.56ID:Fr1r2osZ0
>>219
こういうので認知度が上がって触る人が増えると技術も進歩するからありがたい
2023/06/19(月) 00:28:29.07ID:YWB+d00C0
石鹸のやつ教えてくれた人サンガツ

音程の高低が全然再現されないし品質も悪いな、元の声と二重にかぶさって聞こえるし
学習素材は足りてるとおもうんだけどなぁ
ちなみにパラメータはピッチ変更0, 検索特徴率0.93, その下のパラメータは0, 1
https://uploader.cc/s/k6kprhvqjqzzy12zzm8yaenzfxyd2mnrafek8dkxlrxhzopm0k0gf2dhrv5fcl61.wav
2023/06/19(月) 15:10:58.53ID:WfCLv2A70
どうしてこうなったみたいな事になっとるねw
何かやり方を根本的に間違えてるか、学習がうまく回ってない気がする
2023/06/19(月) 15:48:02.23ID:/uxCMVVa0
ピッチ変更って意味ある?
高音出てないorガビるからピッチ下げるかって下げても全体の音程下がるだけで高いとこは変わらず出ないわ
2023/06/19(月) 16:01:03.90ID:WfCLv2A70
原理として変換前の主音声のピッチを上げ下げして変換されやすいようにするためのものであって、変換後の音声を補正してくれるものではないよ
大抵は、男⇔女 でピッチが1オクターブ違うからその補正では効果が分かりやすい

当然高いピッチの素材用意して学習してないと変換対象が分からずガビる
延々と同じピッチで喋る(歌う)素材ばかり用意してもそれほど意味が無く、高低様々な音域でデータを用意することが大事
2023/06/19(月) 16:01:59.06ID:3g8Hrzzg0
クオリティ低いモデルでもクオリティ高めのモデルと7:3くらいでマージすると声の特徴をある程度保ったまま安定して動くようになると分かった
2023/06/19(月) 16:04:49.80ID:WfCLv2A70
要は、男→女のケースで見た場合、
元々女性並みに声の高い男性や裏声で喋り続けられるならピッチ処理は必要無いって事やな
2023/06/19(月) 17:01:32.48ID:hpAzRMjeM
元音声をハードウェアのピッチシフターで1オクターブ上げた方がいいとか?
2023/06/19(月) 19:29:22.30ID:3S+tCMFs0
8割方入力の声で決まるな キモい話し方でしっかりマイクに入れた方が結果ええな
https://uploader.cc/s/l93vb4pgfrug26tlj5g2cmwygbodc8eox5kbw656poyiren3jbjgmd5yde9g7op2.mp4
2023/06/19(月) 21:03:07.34ID:YWB+d00C0
同じ素材でもepoch数変えるとクオリティ変わる?
2023/06/19(月) 21:42:17.87ID:I58o689F0
V2でも48kで学習できるようになってるけど40kの方が荒出にくい気がする
2023/06/19(月) 22:10:41.12ID:3g8Hrzzg0
過学習と学習不足にならない限りはそこまで変わらん印象
2023/06/19(月) 23:21:17.29ID:O9ceqHNf0
全然関係ない話なんだけど
ガビるって表現はなんか凄いな 初めて聞いた
2023/06/19(月) 23:55:30.27ID:YWB+d00C0
ライ虐?
235今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a2e8-c9QJ)
垢版 |
2023/06/20(火) 01:59:47.59ID:zz2sHjUy0
Ai絵スレではよく使われるな
しょっちゅうガビるから
2023/06/20(火) 03:05:22.26ID:VP2Sdqw3M
例えば合計10分ほどの素材として
過学習って何epoch以上なのかな?
個人的には50以下は荒く学習不足な感じがするんだけども
2023/06/20(火) 07:57:35.41ID:tQRJZJkc0
みんなうまく行かなかったら過学習だ学習不足だって後付してるだけで明確な数字があるわけではないよ
最適数はソースによるからパターン出しして比べるしかない
238今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (アウアウウー Sacd-UmNC)
垢版 |
2023/06/20(火) 15:37:42.34ID:Bt3Rwzqva
tensorboardで目視、ヨシッ
2023/06/20(火) 17:44:47.44ID:+kk/nrkH0
RVCverup来てたからやってみたらガビガビになってあれと思ったらクライアントがまだ対応してないんかな
ただ何故かピッチ変更が反映されない
2023/06/20(火) 20:56:05.36ID:++bvTXcP0
https://twitter.com/YamimakiReru/status/1647203035498819584
https://twitter.com/5chan_nel (5ch newer account)
241今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 8154-XdGS)
垢版 |
2023/06/20(火) 22:34:30.63ID:2KpV7Zhh0
エポックは最初に100と200でやって微調整してたけど、なんだかんだ100が1番バランス良かったから100でしかやってない
242今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 8154-XdGS)
垢版 |
2023/06/20(火) 23:04:07.80ID:2KpV7Zhh0
UVR5のMDX-NET karaokeでハモリ除去すると、メインボーカルまで削れちゃう時あるんだけどこれより精度いいやつある?
2023/06/21(水) 07:52:28.18ID:yHH0QTXJa
UVR5で他にいい方法があるかはわからんけど、ハモリに対応しているのはDeMIX Proくらいかな?
少し上の方にちょうど比較したのがあるし気になるなら体験版で使ってみたらいいんじゃない?
2023/06/21(水) 08:46:59.12ID:82ENASaN0
素材のノイキャンって何使ってる?歌以外
2023/06/21(水) 09:54:47.30ID:pecbBsJ30
ノイズの入っている素材を使わない、これに限る
2023/06/21(水) 11:50:04.90ID:+n+pvQM3d
英語圏でのRVC学習ガイド見つけたから貼っとくで
https://docs.google.com/document/d/13ebnzmeEBc6uzYCMt-QVFQk-whVrK4zw8k7_Lw3Bv_A/edit
2023/06/21(水) 16:57:52.74ID:wyMFGeEdM
うわあアメリカ語だ助けてAIえもん
2023/06/21(水) 17:36:37.41ID:aJosktKC0
狸つ Google翻訳こんにゃ~く!
2023/06/22(木) 21:55:02.51ID:8ixJAWQL0
トレーニング終了してもpthファイャ汲ェどこにも出bトこないんだけbヌなにがおかしb「か分からん
all processes have been completed!って出てるんだけどindexファイルしかない、助けてくれ
2023/06/23(金) 08:44:31.76ID:ENx0+bvE0
VC Clientはkoemakeみたいにオフラインで使えないんですかね?
2023/06/23(金) 08:51:13.68ID:12vvPKi60
その質問をするということはまだインストールしてないんですかね?
インストールしてみては?
2023/06/23(金) 08:58:46.80ID:ENx0+bvE0
>>251
インストールですか?batファイルから起動して動作はしています
すみません、もう少し詳しくお願いできますか・・・
2023/06/23(金) 09:36:48.66ID:mcJ8cnrA0
ローカルホストって知ってる?
2023/06/23(金) 09:47:58.10ID:ENx0+bvE0
>>253
すみません・・・なんとなくしかわかりませんがこのPCの事ですか?
batファイルから起動してオンライン状態ではVC Clientでリアルタイム変換は問題なく使えております
ネット環境が無い場所では使えないって事でしょうか?
2023/06/23(金) 12:34:38.11ID:tA/nnEZHM
2023/06/23(金) 12:36:33.95ID:tA/nnEZHM
あ、ブラウザで起動してるからオンライン必須と勘違いしてるてことか?
2023/06/23(金) 14:16:39.87ID:mcJ8cnrA0
>>254
そう、そのPCのこと。つまり外には出ていなくて既にオフラインで動いていたってこと
2023/06/23(金) 14:48:42.69ID:9QcyNnqP0
それくらいの基本のキきくらいは聞いてまわるんじゃなく自力で学んだらどうなのよ
ググれば秒で分かることだろうし、最近話題のチャットGPTが親切丁寧に教えてくれるだろ

基本オープンソースなんて環境次第で起動したらラッキー程度のものだし、試行錯誤の経験はあった方が良いぞ
2023/06/23(金) 16:21:55.13ID:YHtTPql00
LANケーブル引き抜いてもちゃんと動くか確かめればいい定期
2023/06/23(金) 16:33:55.19ID:F1A8dXThr
普通にネット切ればええやん🥺
2023/06/23(金) 21:32:56.42ID:ENx0+bvE0
レスありがとうございます
なんとなく理解しました、OSの設定でマザーボードのLANポート無効にすると起動しなく
LANポート有効ならケーブル抜けていても(ネット接続なし)起動するのでどうなってるのか
わからなくなっていました。
あと起動時に常にLANポートにアクセスしているのもネット必要と勘違いしていました
2023/06/24(土) 10:24:19.71ID:U83J7fPT0
よーし最初はよく分からんかったけどだんだん勝手が分かってきたで
2023/06/24(土) 18:49:29.33ID:e4Fv8ZGFM
試しにcpuで変換してみたけどわりとできるもんだね
2023/06/26(月) 00:19:43.97ID:uDkeErmK0
あまりプログラミングの知識ないんだけどpythonとかでキーボード打音とかの雑音をシャットすることは可能?
2023/06/26(月) 00:23:46.04ID:Bh55n5Zv0
信号数学とかやればできなくもないだろうが
その位のが作れるならVTSとかのプラグインとして売れるレベルだな
2023/06/26(月) 00:30:04.71ID:3sXVyzca0
既存ライブラリがあると思うけど
UVRとかパイソンから動かせないんだっけ?
2023/06/26(月) 00:51:54.81ID:Bh55n5Zv0
1. LPCMからSFFTでスペクトログラム作成
2. 打鍵音のノイズ分布している辺りのレベルを0.0dbに塗り潰す
3. 逆SFFTでLPCMに戻す

細かい前処理に辺り窓掛けとかエンファシスとかあるんだが置いといて
打鍵音のノイズ分布は特定の周波数域に一定にならんだろうからこれをトラッキングするアルゴリズムが肝となる
倍音とか扱わないからここさえできちまえば初歩の信号処理

ちなAdobe Audition使えば手動で同じ事を試す事ができる
2023/06/26(月) 01:36:51.41ID:WvEoiVlu0
ノイキャンをリアルタイムでやるとどうしてもタイムラグの問題がつきまとうからなぁ
どうせならAIで学習したものを予め用意する形で
よさげなオープンソースとかあればあるいは既存のモノに組み込めるんだろうけどね

NVIDIAのBroadcastとかでええやんって人もおるけどあの辺はバッサリ切りすぎてる感あるから、独自の環境音をリファレンスとして取り込みたい気持ちも分かる
269今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (オッペケ Sr81-ZZXD)
垢版 |
2023/06/27(火) 14:25:18.11ID:+C9qYCBSr
過疎スレなんだね。
ラップなんかを置き換えると楽しいね。
2023/06/27(火) 14:45:09.36ID:4sByuSp/r
ラップとかあんまり早口の音源変換するとグニャらない?
モデルのクオリティの問題かな?
2023/06/27(火) 15:47:25.87ID:ZRZshmyv0
ベースモデルがラップというか早口を学習してないとね
中国人は早口だからそっち系のモデル使えば強いだろうけど、そもそも日本語じゃなくなって聴き取れなくなったりするw
英語にしてもネイティブかといえばやっぱ不自然よな
2023/06/27(火) 19:53:29.20ID:7SeWYzOR0
歌手の声学習させるときってリバーブとか削除してやったほうが良い?
3回くらい作ってみたけど全然上手くいかなくて困ってるわ
2023/06/27(火) 23:18:27.81ID:AvbvZIW+0
ここは学習に関する話題が中心なのかな。 もしご存じで、気が向いたら教えて欲しいのだけど、boothで売られてるモデルではどれがオススメっつーかクオリティ高いとかありますかね。5000円とかするやつに手を出すか迷ってる。
用途は日常会話で、ボイチェンっぽい違和感が少ないものがいいなっつって。
学習までは手を出すかどうかわからないけど、ちょっとお手軽にいろいろ試してみたい。
2023/06/28(水) 00:19:08.38ID:0TJXPUyg0
Boothの有料モデルとかは知らないけど
Mahiro Pth&ONNX Voice Modelてのがチビタイにあるからそれ試してみれば?
2023/06/28(水) 01:43:19.70ID:vF8urR5/0
5000円とかのに手を出すなら上のみたいなフリーので十分じゃない?質も割といいのあったよね。
RVCのバージョンアップによる学習やり直しなんかにもサポートしてくれるかどうかもわからんし

商用だったりオリジナリティが欲しいならやっぱ自作するか、学習環境が無いなら依頼するしかないわな
2023/06/28(水) 01:46:49.83ID:7/JWJWl20
有料で売られてる学習済みモデルって権利関係クリアになってんのかな
2023/06/28(水) 02:36:32.16ID:vF8urR5/0
しっかりした記載が無く曖昧なものの出どころは、モデルにしろ学習データにしろ拾いの前提で扱った方がええで
2023/06/28(水) 07:13:05.79ID:q2BONXgFM
>>273
俺と使用用途似てるし気になった
boothの有料モデル持ってるからよかったら実際に通話するなりして聞いてみますか?
こっちも他人の聞こえ方とか気になるとこだし
よかったらメアドに連絡ください
2023/06/28(水) 09:24:12.83ID:wdNlGxKeM
boothで売ってるやつ数万円は買ってみた経験から言うと、サンプルに変換前の声入ってない奴は地雷度高い(とはいえ全てが地雷ではない)
5000円とかのお高めな商品にその価値あるかというと微妙
自分でどっかから拾った音源で学習させた奴よりノイズ少なくて良いなと思ったのもあるし逆にこれで金取るのかと思ったのもある
自分の地声との相性もあるから特定のをオススメするのは難しい
2023/06/29(木) 06:32:38.47ID:wxf9ntd0M
>>279
声質にもよるだろうけど、これはクオリティ的におすすめできるってのあったら俺も聞きたい
2023/06/30(金) 11:18:09.80ID:J3FaTZO+0
絵と違ってなかなかいっぱつ簡単綺麗とはいかないし
アップデートも緩やかだからいろいろまだ厳しいな
あまり情報も蓄積されていかない
2023/06/30(金) 18:25:59.31ID:4TsIcD8U0
絵と違って主観的+目に見えないから評価が難しいんよねぇ
2023/06/30(金) 23:14:25.42ID:G/p5ApqH0
それはわかる
ある程度事情知ってる人に聞いてもらって判断するのがいいよね
だから本当はここの人とディスコとかで繋がれたらと思うんだが
2023/07/01(土) 02:34:46.69ID:YzCCmp+E0
単体で「いい絵できたー」で完結できるイラストAIと違ってできた学習データでVRチャットだのバ美肉だのネトゲだのもう一段階やらないと作る意味あんまりないから流行らない
俺は「俺のキモいおっさん声が別人になる」てのが面白くて買ったり学習させたりして何も活用してないけどね陰キャ無口だし
2023/07/01(土) 02:43:07.94ID:YzCCmp+E0
>>283
ちょっと前にも売ってる学習データ気になってる人いたし日時決めてディスコード建てて買った奴とか自分で学習させた奴とか持ち寄って品評会でもする?
俺以外に2~3人集まれるようなら準備するけど
2023/07/01(土) 06:52:03.13ID:jmnXFvhy0
2ヶ月ぶりに触ったけどcrepeめっちゃええな
吐息とかがかなり改善されたわ
2023/07/01(土) 07:48:56.59ID:adASNC4j0
>>285
善は急げと思ってとりあえずサバ立ち上げた
みんなよかったらきてや
https://discord.gg/XppP7cN4
2023/07/01(土) 10:02:07.72ID:iebodVOe0
>>286
これRVCの話?インストールしなおさないとダメ?
2023/07/01(土) 13:55:06.83ID:cHwIyrkg0
おもろそうや
2023/07/01(土) 13:57:50.87ID:YzCCmp+E0
ググル検索からきただけの部外者でなんJ民じゃないからなんか入りづらいな
2023/07/01(土) 14:47:57.04ID:GSTARIdE0
オリジナルとた゛た゛っこは゜んた゛版とどっちがいいのかな?
2023/07/01(土) 15:32:40.71ID:gIhsoFXh0
だだぱん版の方が分かりやすいし使いやすい
オリジナルはUIがクソだけど
分離機能があったり連続変換できたり高機能
そんな感じ
2023/07/01(土) 15:46:19.87ID:GSTARIdE0
>>292
とりあえず両方入れてみた
だだぱん版の学習にhubert-base-japaneseってのは日本語に最適化されてるのかな・・・
今から両方で同じデータ学習させてみますわ
2023/07/01(土) 15:49:06.24ID:GSTARIdE0
あとアップデートする場合オリジナルの方はgithubから落としてきて上書きでいけそうだけど
だだぱんさんの方はupdate.batクリックとかでやるんですかね?
295今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 12e8-YDru)
垢版 |
2023/07/01(土) 17:31:56.47ID:dAofCP4e0
本家で作ったモデルはだだぱん版で使えるんだけど
だだぱん版で作ったモデルを本家で使う方法がわからない😭
あとなぜか本家の方だとharvestで同じ音声を連続で変換(別モデル)すると爆遅だったのが爆速になる
2023/07/01(土) 18:01:22.54ID:zUgDbC+lM
>>290
建てた自分が言うのも何だが私もそんなもんだよ
2023/07/01(土) 21:16:28.79ID:84s/1wChM
だだぱんのはおま環なのかエラー多くてオリジナルに落ち着いた
2023/07/02(日) 00:24:06.52ID:IJAtnQe90
hubert_base.ptていわゆる指定のやつのほうがいいのかRinnaの日本語特化版のほうがいいのかいまいちわからん
なんならRinnaでやったほうがクオリティ低く感じたし
2023/07/02(日) 01:03:51.92ID:4sLeMpQk0
いくつかモデル作成したけど、どれも音飛びがひどい
2023/07/02(日) 01:07:38.86ID:kcLwNPQS0
>>290
人の少ない過疎スレじゃそんな排他的な感じないから気にせんでええ
無理に猛虎弁使う必要もない
気軽に参加して情報交換とか色々やろう
2023/07/02(日) 01:19:34.75ID:IJAtnQe90
ラジオボイスを整理して約1時間分を数秒ごとに分割、epoch40でそこそこ聞けるレベルのモデルが出来た
下手なモノマネよりも本物っぽい

で、あとどこを詰めればいいんだ?
もっとepoch回せばいいのか、素材を厳選したらいいのか、もっと素材を増やせばいいのか
それともここが限界なのか
めちゃくちゃ完成度高いヤツが聞けたらモチベも上がるんだがなぁ
2023/07/02(日) 02:41:23.70ID:7k9pl4TR0
次は発音者のボイトレだ
モデルデータが良くても発音者の滑舌が悪いと台無しだ
他人が聞いてキモい喋り方を治すだけでいい
303今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ eb3c-hRAP)
垢版 |
2023/07/02(日) 02:55:10.58ID:W/hNNlII0
わたモテのもこっちボイスならキモくてもOKなのでは
2023/07/02(日) 03:10:21.37ID:jn9qMRJu0
とりあえず、epochは一定回数ごとに保存できるから100とか200に設定して、たとえば10刻みで保存されたモデル全部試せばいいんじゃない?
2023/07/02(日) 11:36:21.99ID:IJAtnQe90
うーん
素材を増やしてe200まで回したがクオリティは上がらなかった
素材も多ければいいってもんでもないのか
目的の喋り方や雰囲気の声のみで構成したほうがいいのかな
色んな方向性の喋りを混在させるのは今のバージョンでは厳しいのかもしれん
2023/07/02(日) 13:54:46.97ID:bFWcWo5p0
最適なデータセットの時間とエポック数がわからん、雰囲気で学習している
2023/07/02(日) 14:01:57.86ID:IJAtnQe90
個人的メモ
目指すキャラ特性の喋り(30~60分)を満遍なく入れてe50程度で回した結果がわりといい感じ
素材が多かったせいかe200まで回したら逆に劣化した
演技幅の広い人を対象にする場合はキャラごとに分けて学習したほうがいいかもしれない
おそらくラジオの林原めぐみを学習しても綾波レイは出来ない
そもそもラジオのゆるい素のトークとかはあまり入れないほうがいいっぽい

演技は必要
恥は捨てる
2023/07/02(日) 15:53:23.43ID:zFu+ZNak0
結局のところRVCはhubertベースに衣装変えるだけの「声質」の変換や補完であって、丸々変えてるわけじゃないからね
自分の声を変えたゆるいトーク目的ならラジオでいいけど、キャラ声にする場合はどうしたって中の人の演技力が要求されるな

あとはT2S的なアプローチを目指すならそもそもRVCじゃないだろって話になるし、
現時点では万能ってわけじゃないから目的に沿ったツールの選択をするしかないで
2023/07/02(日) 16:12:36.65ID:IJAtnQe90
>>308
現時点でも充分楽しいけどな
来年あたり、いや年内にもっと簡単に完璧に模倣出来るようになっているだろうな
2023/07/02(日) 18:31:29.33ID:bFWcWo5p0
モデル集(サンプル付き)を供養しとくで
使用は自己責任でな
https://huggingface.co/litagin/rvc_okiba
2023/07/02(日) 21:58:04.96ID:jn9qMRJu0
学習データの質量どれくらいなのか気になる
312今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ cb7b-c6L3)
垢版 |
2023/07/03(月) 05:55:37.24ID:B/Vx4Oo/0
>>310
いいやん。落としたわ
あとで試してみる
確認しておきたいけどこれは音声作品/アニメ・ゲーム/VTuber周辺とかから学習したものということでOK?
2023/07/03(月) 07:13:09.14ID:6XuKjY5s0
でどころを聞くのは野暮ってやつか
2023/07/03(月) 11:33:58.11ID:PvN7hciN0
indexってこんなにバカでかかったっけ?とおもったらv2だとサイズでかいのね
素材量とかエポック数とかでも変わるんだろうか
2023/07/03(月) 13:04:36.12ID:+5ET9hSP0
インデックスは学習元データの量にだいたい比例するんやと思っとるで
316今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ cb7b-c6L3)
垢版 |
2023/07/03(月) 16:34:40.65ID:B/Vx4Oo/0
野暮といえばまそうなんだけど、結構寛容なライセンスで公開されているコーパスとかもあるからそこからトレーニングした可能性も微レ存かと思ってな
2023/07/03(月) 17:02:40.55ID:ZwRg6yPb0
安定しててそこそこ音質のいいトーク素材30~60分でe100ってとこか
今んとここのぐらいのクオリティが限界なのかな
2023/07/03(月) 17:19:21.31ID:uTrx/Roj0
素材が時間が少ない場合は多く回す方がいいのかな?
2023/07/03(月) 17:30:40.07ID:+5ET9hSP0
素材時間少ないとすぐ学習し切って、あんま回しても意味ないか逆効果になることが多い気がする
何となくloss/mel眺めてあんま下がらなくなったらそれ以上やっても意味なくて、18くらいで安定したらいい感じになることが多い気がするで
根拠は知らん(loss見ても意味ないと言う意見もあるらしい)
2023/07/03(月) 18:00:08.68ID:3eKo6oJ+M
ほんとすごい時代やで
俺の中の女が暴れそうや
2023/07/03(月) 18:43:38.39ID:3QVKLVkI0
素材次第では過学習はガビるというかノイズに敏感になる傾向が強い感じはあるね
逆に防音スタジオとかノイズに対してクリーンな環境では精度は高くなるのかもしれないけど、現状のRVC的な用途とでは実用的ではない感じ
なんでepoc増やせば増やすほど必ずしも良い結果が得られるって事は無いね
2023/07/03(月) 19:41:46.38ID:3QVKLVkI0
売れなきゃ下がる
為替云々はオマケ
2023/07/03(月) 20:32:46.30ID:3QVKLVkI0
すまん誤爆した
2023/07/03(月) 21:38:54.00ID:vGYQ4Cl80
曲から音声だけ抜き出すのはどの方法が一番いいんだろうか
ガビガビになってしまうのは音源が悪いのか学習モデルが悪いのかわかんねえ
325今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ cb7b-c6L3)
垢版 |
2023/07/04(火) 03:39:33.17ID:c3Noy1+h0
備え付けのBGM除去かDemucusかUVRか
いずれにしても歌モノから声取って学習するのはつらそうではある
音声のみ作品で若干アンビエントBGMがほわほわ鳴ってるのをデータセットとして使ったことがあったけど、それですらできあがった学習モデルにかなり影響を与えてきたことがあった
2023/07/04(火) 08:00:55.57ID:uHhnWw8r0
おかしな部分を消したり、ノイズ取ったり、エコーやハモり部分は削除したりってのは最低限やらんとな
それを数曲分
2023/07/04(火) 08:22:34.49ID:hoPtZcY7M
何曲分くらい素材用意するとまともになりますか?
2023/07/04(火) 08:49:08.33ID:ROtGGvly0
学習の結果をエポックごとに耳で聞き比べる作業(耳で聴くxyplot)が一番大変やわ
画像の時みたいに目でパッとどれがいいかわからん上にプラセボの影響受けやすい気がする
2023/07/04(火) 08:50:27.67ID:uHhnWw8r0
正解はわからん
体感、30分~60分、アルバム2~3枚
極端に方向性が違うものは混ぜない
激しい歌とバラードもモデルを分けたほうがいいかもしれん
音声分離後、ハモリ、エコー、コーラス、とにかく声以外の音がある部分は全て消す
2023/07/04(火) 12:06:03.16ID:yBfVUpJw0
ワイは明瞭な発話のみのセリフデータからだけど、それでもある程度の事前選別は重要やと思うわ。
同じ声優でも違うキャラを混ぜるのはあまり良くなくて、あと電話越しの声とか、変な声とか泣き声とか叫び声とか、
そこら辺をフィルタリングしてやっとる。
本当は感情によって分けたりとかした方が精度は高くなる気もするけど、そこまで分類する気力はない
2023/07/04(火) 12:28:51.61ID:hoPtZcY7M
>>329
教えてくれてありがとう
アイドルゲームのキャラあたりならなんとかなりそうだけどキャラソンシングル1枚しか無いようなマイナーアニメでは難しそうだ
2023/07/04(火) 13:05:01.71ID:Kn+C0xTPd
audacityとかでちょっと音程変えて素材をかさ増ししたら精度向上しないかなあ
自然言語処理だと機械翻訳・逆翻訳で素材増やして精度あげる手法あったはずだけど音声だと無理か?
333今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 86a4-fcgQ)
垢版 |
2023/07/04(火) 13:08:32.45ID:aSmcARuM0
相当うまくやらない限り無意味または精度下がると思うぞ
2023/07/04(火) 13:17:11.12ID:PVM/oBN+0
歌手の場合ライブのMCとかyoutubeから拾ったほうが良さそうな気がする
MCのときは歌声と同じように喋ること多いし
2023/07/04(火) 14:21:27.44ID:EgHVFUIw0
色んな音声ごちゃまぜにした方が色んな音声に対応できると思ってあえて選別してなかったけどやっぱ選別した方がいいのか
2023/07/04(火) 15:28:23.48ID:XjzIwtQ8d
データの種類にもよるだろうし、ひたすら試行錯誤あるのみや
337今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 12e8-YDru)
垢版 |
2023/07/04(火) 15:30:27.07ID:zUQfJUm30
激戦した中からさらにクオリティ高めの素材をちょっとだけ長さ変えたりしてそのまま増やしてるけど効果があるのか分からん
2023/07/04(火) 15:50:24.92ID:cZ1rWdxc0
同じ人間の学習でもシチュエーションによってモデルを変えた方が良い場合はあるね
何でも万能を求めて一つで済まそうとすると結局精度が落ちるし、その試行錯誤自体が相当コスパ悪い
2023/07/04(火) 17:08:24.93ID:4TjhikoBd
VOICEVOX的なのにぶち込んだらttsとして動作するようなプラグインとか作りたいけどそもそもの知識が無さすぎてどこから勉強したらええんかすら分からんすぎる
2023/07/04(火) 17:31:05.53ID:eG5bq7cT0
>>310
結構よくできてんな 40k e300~100辺りでindexのサイズから察するに4時間近いデータで回しとんのか
俺はMMVCのおまけでついてくるレベルより少し良くなっただけで満足してたわ
2023/07/04(火) 18:05:33.29ID:U6BrgLGAM
>>339
ttps://book.impress.co.jp/books/1120101073
2023/07/04(火) 18:06:18.23ID:FgUaTFrU0
>>340
サンガツ
データ量はモデル一つにつき大体(数秒単位の44khzのwav複数で)合計1時間やで。
2023/07/05(水) 18:38:52.40ID:J3G0HjHk0
wiki放置されまくりやったから、学習のやり方のとこをバージョン2用に適当に書き直したで。
みんなも協力してや
https://seesaawiki.jp/rvc_ch/d/RVC%c6%b3%c6%fe%a4%c8%a5%a2%a5%c3%a5%d7%a5%c7%a1%bc%a5%c8%ca%fd%cb%a1
2023/07/06(木) 07:42:59.35ID:6A7pAFd+0
なぜ流行らないんだろう
みんな声には興味ないんか
2023/07/06(木) 08:42:39.82ID:a0PDIyCy0
AI絵は一日で飽きたけどこっちはハマった俺
2023/07/06(木) 08:44:12.60ID:tdbz8f1B0
絵に比べるとトレーニング教材を用意する手間が面倒くさいからじゃないかな
2023/07/06(木) 08:46:52.75ID:Frwzb5MlM
流行ってほしいですね
やっぱり自分の演技力や滑舌、あとは異性やキャラの喋り方するの恥ずかしいとかが理由で流行らないのかな
そういうの気にしない人はVRチャットみたいな閉じたとこに行っちゃってるイメージ
2023/07/06(木) 09:43:30.87ID:9dKyOGry0
>>344
ネット上に特定のアニメキャラに別のキャラの歌を歌わせてみたみたいなのもチラホラ出てきたよ
今はみんな使い方を模索してる時期かもね
2023/07/06(木) 09:49:45.95ID:uLc+5X4hd
画像生成に比べて目に見える成果が得られにくいし、良し悪しの判断も難しいしな。
とりあえずみんな学習モデル共有しようや。
2023/07/06(木) 09:54:51.28ID:J8Jc5BcCM
>>344
画像生成と違って0から音声データが出てくるわけじゃないのがね
画像生成は「かわいい声 女 子供 ツンデレ」って指示でそのままデータが出てくるレベルだし
2023/07/06(木) 09:58:41.77ID:LtOlBz3Fd
面白いツールなんだけど友人とやるだけだと一発ネタでしかなくて何回もできないのがなぁ
2023/07/06(木) 11:03:09.82ID:Frwzb5MlM
>>349
上の方の凄いクオリティの配ってるの見てしまうと俺の雑なデータなんて共有できないな恥ずかしくて
2023/07/06(木) 12:23:13.17ID:oMciqLNt0
自分の声やフリーの学習モデルならまだしもそれ以外だと特定しやすい分共有は難しいかもね
2023/07/06(木) 12:24:46.68ID:+t2Ke/t6r
ずんだもんの作ってみたけどやけに声が震えてて、pthが悪いのか俺を声とか喋り方が悪いのかマイクの環境が悪いのか判断つきづらい
2023/07/06(木) 12:38:05.13ID:lz8jIrwy0
勝手に他人の声学習させて他人の音源を変換してこっそり遊んでるだけだからな
そのへん画像より露骨だから成果物を共有しようと思わない
したとしても画像みたいに手軽に上げられず瞬時に良し悪しが判断できない
あとは画像ほど試行錯誤する余地が無い
精々素材の選別とかする程度
2023/07/06(木) 12:51:28.35ID:qO/yl0g00
学習も時間かかるし選別も時間かかるから面倒
2023/07/06(木) 14:34:21.26ID:KQhZOzM30
AI生成音声は同人動画に使ってるが、そもそも音声は画像みたいに掲示板で共有したりしない
2023/07/06(木) 15:39:55.84ID:yOE3dnHC0
絵と比べてそれだけで完結しにくいというか、声のみとかだとなかなか公開したりする作品にはなりづらいからなぁ
あくまで作品を補完するような一部でしかないからね
学習もグレー素材使ってるとピンポイントで誰か分かっちゃうから、公で使いづらいってのもあるね
2023/07/06(木) 15:49:20.96ID:yOE3dnHC0
目先で見ればボイチェン需要はLGBT界隈中心にあると思う、というか鼻の良い人は既に飛びついてるはず。
今後サブカルとかで広がってくるかどうかはわからんけど(ありのままの自分を表現するという意味では真逆の方向か?)、
公共や教育での読み上げは別としても、流行として官推奨や官主導みたいなのは絶対に流行らんと思う

結局旗振り役がデメリット先行の「気持ち悪さ」「危険視」「AI反対」みたいなのを煽ってる現状ではなかなか先に進まないわな
その点中国はかなりフリーダムに先行してるイメージで、少なくとも極端に保守的な日本より業界に若さがあるよね。RVCはじめほとんどが中国からの輸入品だしね
2023/07/06(木) 16:01:36.44ID:9dKyOGry0
>>357
同人動画に使うのはいいな
今までは声優さんにキャラの声真似させるのが精一杯だったのがより再現できるわけか
2023/07/06(木) 16:27:14.50ID:KQhZOzM30
>>360
うむ。同人声優に頼むより良い感じに出来る
ただ広まると絶対に問題になるのでアピールはしていない
2023/07/06(木) 16:32:20.32ID:vQEdO2fH0
バレないもんなんだな
2023/07/06(木) 16:33:01.23ID:vQEdO2fH0
つーか今後は2022年以前から活動していた声優の名前が出てる作品以外
絶対買わねえ みたいな奴が出てきそうw
2023/07/06(木) 16:56:07.28ID:Frwzb5MlM
>>354
判断してあげるからupして
2023/07/06(木) 17:15:49.04ID:XeJlRf3g0
だからー絵と違ってPromptスタートじゃなくて音声入力スタートなんだからアナログ信号扱う以上良いマイク買えやL22とか
あとDSP入ってるオーディオインターフェイスとDAWも買っとけな?DAW迷ったら無料版StudioOneでええから触っとけ
DAWもなしで音声いじるとかphotoshopどころかクリスタもなしに絵いじるようなもんやぞ
2023/07/06(木) 17:38:31.28ID:Frwzb5MlM
そのご立派な機材で作ったすごい音声が聞きたいなー
2023/07/06(木) 19:26:14.92ID:MB/Unx8X0
テキストとRVCモデルから直接音声が作れるような機能を追加するRVC本家改造を作ったやで。
間にvoicevoxをかませて、voicevoxからの音声をRVCに打ち込むと言うだけの単純な原理や。
このinfer-web.pyをRVC本家フォルダの中のやつと置き換えるだけでいけるはず。
https://26.gigafile.nu/1014-d5b80c9873de64ab717a30af9385b2141
(RVC-beta.7zから導入したと言う前提や。git clone経由やとエラー出る気がするがまあそんなおらんやろ。)
正直手動でvoicevoxの調声がんばってやるほうがまあ質は高いと思うが、手軽に遊べるのは確かや。
2023/07/06(木) 21:04:47.51ID:g3g04mci0
完成度高いの出来てもがっつり声優の声だからアップできんわ
上の方で上げてたヤツやばくね?アレ
普通に誰かわかるレベルやろ
ワイも同じぐらいのモデル作ったが怖くてうpとかできん

どっかでみんなで喋りながら品評会トーク出来るのがベターやな
2023/07/06(木) 21:16:32.25ID:yOE3dnHC0
まぁ別に誰の声とか書いてないしな
現状似てる似てないは個人的な推測でしかないし
2023/07/06(木) 21:18:54.47ID:yOE3dnHC0
>>367
サンガツ
面白そうだから試してみるわ
2023/07/06(木) 21:55:25.94ID:g3g04mci0
>>369
まぁそう言っちゃそうだな
音紋に同一性が認められるレベルになるまでは大丈夫か
2023/07/07(金) 10:47:25.26ID:hZ6KwPG30
まあ去年のMoeGoeの時点で堂々と声優名(キャラ名だっけ?)出して大々的にデータ配布とかやってたからな
2023/07/07(金) 10:52:49.01ID:PhfLCmibM
声真似とかしちゃいけないのかって話になってくるし
2023/07/07(金) 10:55:48.77ID:8aow+3pJ0
結局売っているかどうか、アングラかどうかがでかいと思う

今だってTwitterとかでフォロワー1000とかいる奴が
名前出してデータ配布したら炎上するだろ
2023/07/07(金) 11:46:59.67ID:hZ6KwPG30
>>368
そこでdiscordなんやないの、知らんけど
2023/07/07(金) 13:51:04.60ID:f8xFf25f0
ディスコであくまでプライベート配布のていで、研究目的扱いにするのが無難そうだな
研究目的ならある程度は著作権問題が緩和できるし
2023/07/07(金) 16:11:21.98ID:u0h2UztU0
あかん今のVC Client(MMVCServerSIO)
新規で取ってくると、モデルを一回変更しただけで固まるな
v.1.5.3.7~v.1.5.3.8aまで全滅やから
使ってるモジュールのアップデートで不整合起こしたか何かか
イシューも上がっとる
https://github.com/w-okada/voice-changer/issues/407
https://github.com/w-okada/voice-changer/issues/403
2023/07/07(金) 16:24:31.89ID:hZ6KwPG30
wslでやるとギップルでアプデできたりモデルスロット数を10スロットからいくらでも変えたりできるから便利やで
2023/07/07(金) 16:52:47.49ID:/3RXXt/Z0
少し見てない間にそんなにバージョン上がってたのか・・・
とりあえずv.1.5.3.5aからv.1.5.3.8aに更新してみたけど今んとこ不都合起きてないな・・・
気のせいかもしれないけどv.1.5.3.5aの方がレイテンシーつめても途切れない気がする
2023/07/07(金) 17:51:22.23ID:eEkfmUvAM
文章生成AIをリアルタイムで自然に読み上げてくれたらなあ
2023/07/07(金) 18:00:37.47ID:GcrNXR410
>>380
別にそれだけなら既存の技術でできるんじゃないの?
そもそも読み上げはこのスレの内容とは関係ないが
2023/07/07(金) 19:01:43.49ID:hZ6KwPG30
画像生成AIのモデルはcivitaiなりhuggingfaceなりに無料公開が多いけど、RVCのモデルはboothとかで有料販売が多い気がするのは、文化の違いなんやろか
2023/07/07(金) 19:11:14.33ID:Dikbzftf0
ai-hubに山程あるやろ
384今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ブーイモ MM93-aidM)
垢版 |
2023/07/07(金) 19:17:52.80ID:ZqAW15xOM
>>382
人口が桁違いに多いから無料で公開する人も多い
みんなは無料で公開されてるものしか見ないから
有料の物に気づかないだけ
385今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 12e8-YDru)
垢版 |
2023/07/07(金) 19:25:18.86ID:q2uigHCC0
歌唱させるのに今までずっとRVCを使ってたんだが
sovitsを使ってみたら明らかにクオリティが高かった
なんでRVCのがこんなに流行ってるんや?
2023/07/07(金) 19:48:57.78ID:hZ6KwPG30
sovits-svc、学習を二つ回さなきゃだったり、それぞれにそれなりに時間かかったり(短くてもいいのかもだけど2つのエポック数変えながら最適探る検証はしんどい)、webuiなかったり、ボイチェンの質だと別にRVCとそこまで変わんなくね?ってなって、結局すぐお手軽なRVCに戻ってきた。歌わせるのにはそんな興味ないからなあ。
387今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 12e8-YDru)
垢版 |
2023/07/07(金) 19:57:46.21ID:q2uigHCC0
みんなコスパ重視なのか
2023/07/07(金) 19:59:18.49ID:6jUwY8Eq0
moegoe、sovitsも去年の話やしね
何度も言われてるけど目的や用途がそれぞれ微妙にベクトル違うとしか言えんわな

あとはやっぱ内容が分かりやすくバズったという意味ではリアルタイムボイチェに需要があったんやろなぁ。コナンの蝶ネクタイといえば分かりやすいし
2023/07/07(金) 20:12:32.86ID:r+t4fuwR0
普通に女の子になりたいやつが多かったんやよ
2023/07/07(金) 20:32:32.41ID:8aow+3pJ0
女・・・男になっちゃう(痛恨のミス)
2023/07/08(土) 01:48:41.37ID:/w6e7rqw0
は?イケボのほうが憧れるだろうが
2023/07/08(土) 13:46:42.89ID:XxkbkbA50
>>387
歌わせることより喋りたい人間のほうが多いからに決まってるだろ
2023/07/08(土) 13:54:08.93ID:tGYHKVLV0
実際にイケボに変換してる例が聞きたい
恥ずかしいと思うけどできれば変換前の声も聞きたいな
比較して聞きたいから
2023/07/08(土) 15:11:54.97ID:1cxgIOCs0
イケボ風不自然な喋りかたと本当のイケボの区別が難しい
2023/07/08(土) 15:17:14.75ID:/w6e7rqw0
>>393
元声聞いてもあんま意味ないぞ
tuneさえ調整すれば男がやっても女がやってもガチで同じ声になる

しいていえば、そこそこ大きい声で、意識してハッキリゆっくりしゃべるってだけ
2023/07/08(土) 15:22:40.88ID:QgqMuj7h0
子供の頃から鼻声だけどそのせいで割と声の大きさ・滑舌は意識するようになったし
聞き取りやすい・わかりやすい(・時々うるさい)って言われるんよな

今度何かモデル落として試してみようかな
鼻声なのは残らんよな?
2023/07/08(土) 15:28:21.18ID:/w6e7rqw0
上であがってた男モデル数種はわりとキャラ特化で学習されてるっぽいから、多分どんな声でも大丈夫なんじゃないかな
設定はindex 0.5 chunk256~512ぐらいじゃないと滑舌厳しいかも
2023/07/08(土) 15:30:07.48ID:1cxgIOCs0
日本語は声を和らげるのに鼻を使うから鼻子音の前後の母音は軽い母音の鼻音化が起きてるよ。撥音の前だとさらに鼻音化してる
2023/07/08(土) 15:30:43.99ID:QgqMuj7h0
あーそういうのは残らざるを得ないのか
2023/07/08(土) 15:43:09.15ID:/w6e7rqw0
ひとまず試してみりゃいいじゃん
2023/07/08(土) 17:07:39.88ID:z4xE5v2y0
https://huggingface.co/litagin/rvc_okiba
上の置き場モデルやけど、歌唱サンプル追加して、発話も自然な発話サンプルに置き換えたで。
歌ではほぼチェックしてないので出来は知らん。
(モデルは随時追加しとって、しばらくはまだ増える予定や)
2023/07/08(土) 17:51:20.30ID:1cxgIOCs0
ちゃんと聞けてないけど男性の自然な発話が自然に聞こえないのは何だろう。意識して自然に喋るって難しいんだよな。ストレートナレーションとしても違和感がある。
2023/07/08(土) 19:06:54.52ID:+hdVOO/Pd
データセットの問題もあるやろな。
演技した声優の声と、ナレーションみたいな読み上げ声と、一般人の普段の会話声と、ボソボソした独り言みたいな声は、全然特性が違うやろうし。
2023/07/08(土) 21:21:18.01ID:szf1YVcB0
男声自分もソシャゲのぶっこ抜きボイスから数人分作ったけど何故かボイス量やエポック数同じなのに自然に聞こえるやつとクオリティ低いやつの差がすごいわ
2023/07/08(土) 21:49:51.61ID:/w6e7rqw0
基本的に強い抑揚はあんま再現出来ないな
ハイテンションキャラとかは再現度いまいちだったわ
2023/07/08(土) 21:59:08.58ID:/w6e7rqw0
ドスの効いた大きな声で『無断ァ!』って言っても不自然にならないモデルが作りたいのに
素材多いから簡単かと思ったら案外そうでもないんだよなぁ
こう、なんか弱々しいというか
似てんだけど落ち着いた声しか出せん
2023/07/08(土) 21:59:35.36ID:QgqMuj7h0
無断であることに怒っていてワロタ
2023/07/09(日) 08:45:21.65ID:EyZOvoTK0
ドスの利いた声だけで学習させたらなにしゃべってもドスの利いた声に出力されるのかな?
2023/07/09(日) 13:35:44.59ID:L2tA0JafM
そういうことになるね
2023/07/09(日) 13:46:10.12ID:TPqe6LPOd
>>367
最強のやつがおった
サンガツ
2023/07/10(月) 18:40:21.41ID:cKq+iXX40
専ブラ死んだ模様
2023/07/10(月) 23:49:28.03ID:16+39ZPY0
見えてるやつ向けに貼っとくで
なんJNVA部★防弾U
http://sannan.nl/test/read.cgi/liveuranus/1679606639/
2023/07/10(月) 23:51:28.42ID:16+39ZPY0
mateから書くだけならできるんやな
見るのはchromeから
原因はともかく現在API鯖死んでるので不具合発生している状況
414今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ bf25-N1DR)
垢版 |
2023/07/11(火) 01:58:07.15ID:lIwR034Y0
API鯖死んでるというかそれどころじゃないおおごとになってるで
2023/07/11(火) 09:12:21.51ID:huaNQs5r0
なんか知らんがクーデター終わったらしいな。
ここでええんか?
2023/07/12(水) 00:06:33.27ID:Lk9dcw9d0
ここでええっていうかあっち誰もおらんやんw
2023/07/12(水) 01:21:25.05ID:EVhmk12D0
ここもあっちも誰もいない
2023/07/12(水) 04:24:02.72ID:eV6yvth40
現状説明と対策書いといたからこっち見といて
なんJNVA部★234
https://fate.5ch.net/test/read.cgi/liveuranus/1689057599/
419今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1728-rqKn)
垢版 |
2023/07/12(水) 20:24:44.94ID:TCBmy5tE0
>>410
これの作者なんUにおったんか
めちゃくちゃクオリティ高いから参考にしたいんやけど、元が一時間の音声ファイルって大体どれぐらいの数のファイルに分割して学習させてる?
あとトレーニング設定のGPUごとのバッチサイズの数値も教えてほしい
420今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 1728-rqKn)
垢版 |
2023/07/12(水) 20:25:58.23ID:TCBmy5tE0
安価ミス
>>401宛てです
2023/07/12(水) 20:30:44.13ID:P2Y7iSLud
なんか10分ぐらいの音声をエポック数160で学習実行するだけで完了まで12時間ぐらいかかるわ
ニキらもこれぐらいかかってるんか?
2023/07/12(水) 21:00:58.01ID:UFf1Vldj0
なんか知らんがクーデター終わったらしいな。
ここでええんか?
2023/07/12(水) 21:07:52.52ID:UFf1Vldj0
前書き込みんだときのURL開いちゃってミスったすまん
>>419
元データがもともと、4秒以上で長くて10数秒くらいのwavファイルが500ファイルぐらいあって合計1時間くらい、て状況やから、
さらに分割なり結号なりの処理はせずにそのまま突っ込んどるだけやで。
元データが一つのファイルやったら多分流石に数秒単位に分割した方がええんやなかったっけ。
(でもRVCの処理で確かそもそもぶちぶちに数秒に勝手に分割されるはずやから、
そこまで気にせんでもええ気がする)
2023/07/12(水) 21:16:31.48ID:UFf1Vldj0
>>419
バッチサイズ忘れとったわ。
VRAMからはみ出ないように(共有メモリとやらに行かないように)かつ多めて感じで決めとる
自分のVRAM12の環境だと1時間のデータセットでだいたいいつもバッチ12で回しとる。
バッチサイズは質には関係なくて学習速度のみに関係するはずやからまあ適当でええんやない
2023/07/13(木) 01:15:45.86ID:6NC+sx/m0
>>419
ここじゃないっていうとどこで見つけたんだ?
2023/07/13(木) 02:15:33.50ID:OKSUv4GwM
talkの方でしょ
2023/07/13(木) 18:50:06.80ID:XYzRAE9J0
だいたい20~40分の素材を50epoch程度でわりとそこそこな出来になるっていう認識でやってるけど300とか500とか回すのって意味あるの?
素材によりけりなのかな
明らかにちがう!ってんならやろうと思うけど
428今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 3763-F13i)
垢版 |
2023/07/13(木) 20:49:09.28ID:Ljtw08qe0
正解はないんやからとりあえずやってみたらええんちゃう
公式のFAQには「質が低い(音質悪かったりノイズあり)データセット20-30で十分、質が高い(音質良くてノイズ無し)なら200とかでもよい」
とか書いてある。
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/FAQ-(Frequently-Asked-Questions)#q9how-many-total_epoch-are-optimal
ワイは何回か500・1000エポック寝ながら回して結果を検証したんやけど、300エポック以降は変化が聞き取れんけど
50と100と200は質の差が感じられることが多かったから、100-300くらいでやっとる。
一回VOICEVOXから出力させたのを学習させたときは30エポックくらいで頭打ちでそれ以降どんどん悪くなったから、
エポック数はデータセット依存が大きそうな気するで。
2023/07/13(木) 22:06:12.67ID:1VG+7uxV0
参考になる検証おつやで
ほならオレは40~50のままでええかな
音源はだいたいyoutubeから持ってきてて、ノイズリダクションとノーマライズ、波形見つつ余計な音は全て削除して品質はなるだけ揃えるようにはしてるけど、そんでもちゃんと録音したデータには遠く及ばないだろう
50epochなら30分程度だから仕事から帰ってからでもちゃちゃっと音集めてサクッと楽しめるし

ソフトウェア側でのさらなるバージョンアップに期待かな
2023/07/14(金) 11:58:28.32ID:CF1IUhYo0
MMVC使ってるけどスロット枠が足りない人へのお役立ち情報
wsl経由で使うと(導入が面倒やけど)、
https://github.com/w-okada/voice-changer/blob/ad013bf4d3a78e542405d5f0843ddb89df534c98/server/const.py#L170
のところの10を書き換えることで、モデルのスロット数がいくらでも増える
2023/07/14(金) 12:44:47.02ID:enxLumna0
>>430
スロットはせめて倍の20は欲しいな・・・
wsl経由ってのがよくわからなくてできない俺が泣ける
432今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ササクッテロラ Sp0b-DHPl)
垢版 |
2023/07/14(金) 13:29:51.21ID:qhWAUGV7p
エポック回しすぎたら過学習にならんのかな
2023/07/14(金) 13:33:53.60ID:onL9JDSv0
>>430
まさに欲しかった情報だわサンクス
ていうかそんなサクッと変更出来るなら本家に要望出そうかな
434今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b77b-kkOg)
垢版 |
2023/07/14(金) 16:17:54.80ID:uh3mPKDF0
RVCは一通り履修したからTTS作りたいんだが
VitsでTTSはあるんだがwsl前提だし手つかずや
Windows10,WSL2でESPNetのVITS学習レシピを実行する【音声合成】 - Qiita - https://qiita.com/seichi25/items/bde466744f9b3190b0d3#2-vits%E3%82%92%E3%83%95%E3%82%A1%E3%82%A4%E3%83%B3%E3%83%81%E3%83%A5%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E3%83%81%E3%83%A5%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B
2023/07/14(金) 17:51:46.11ID:UJWjyjV+M
>>433
要望よろ(他力本願)
2023/07/14(金) 18:14:40.41ID:CF1IUhYo0
何度も宣伝すまんやで
上のモデル(女性29男5)で一人で録音してボイチェンした結果をサンプルとしてまとめといた
https://huggingface.co/litagin/rvc_okiba/blob/main/voice-change-samples/samples.md
ボイチェン声聞きすぎてどういう声がいい声かが分からんくなってきた
437今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b77b-kkOg)
垢版 |
2023/07/14(金) 18:55:38.82ID:uh3mPKDF0
上のQiita記事見ると、voice_text.txtに「音声ファイル名(.wavは書かない):発話内容」の形式で記述~
って書いてあったからコーパスとかはどうなってんのか調べてみた
JVSコーパスダウンロードしてあったからのぞいてみたら(jvs_ver1\jvs001\parallel100)
 VOICEACTRESS100_006:ツュレンハルト領は、ヴュルテンベルク領に編入された。
って感じで対応書式で書かれたtranscripts_utf8.txtと音声ファイルがあったので使えそう
JVSは100人分あってparallel100はすべて同じ台本なので、RVCでしっくりくるのもあるやろ
これのparallel100文の音声をRVCで変換して音声データセットを作成して、ESPNET2であれこれすればオレオレTTS作成できるのかもしれんな。あるいはWhisperとかで文字起こししてテキストデータ作成すれば生音声でも学習できるか
2023/07/14(金) 19:00:03.87ID:/2HP5o/od
ttsは、ガチでそれで商売したり開発してるボイスロイドやらA.I.VOICEやらVOICEVOXの質に勝てる気がせんから、そこの既存のttsとRVCなりとの合成を考えたほうが個人的にはよさそうな気がしてる
(仕組みどうなっとるんか気になるし勉強はしてみたいけども)
439今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b77b-kkOg)
垢版 |
2023/07/14(金) 19:05:03.41ID:uh3mPKDF0
>>436
労作おつ
AAとかかわいいと思うし、男性モデルとか激渋でおもしろいわ
440今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b77b-kkOg)
垢版 |
2023/07/14(金) 19:10:44.29ID:uh3mPKDF0
TTSは色々調べたけどESPnetという音声処理ライブラリをベースにいろいろやってるようやな
ドキュメントの整備具合がよくないからか理解不能なんだが、ネットに転がってるハウツーをなぞれば完走できそうな気もしないでもない
2023/07/14(金) 23:12:59.48ID:YdwMpFXZ0
>>433
>>435
作者らしきTwitter見てきたがあまり触らないほうが良さそうだぞ
修正要望やらDMやら来まくっててだいぶキレてるっぽい
2023/07/15(土) 02:27:22.90ID:xBf4RL/60
こないだ作者にコーヒー代送ったがそんなイラついてるならまたコーヒー奢るか
2023/07/15(土) 05:42:00.36ID:WXhnHbGa0
( ´⊿`)y-~~
2023/07/15(土) 05:45:32.11ID:+nwWQSZI0
TTSはまた話が違ってVITSがさいつよかと思ったらそうでもないんやな
ESPnetを使って学習しているシロワニさんのcoeiroinkは VITSなんかを試した後 tacotron2に落ち着いとるようだし
https://shirowanisan.com/entry/2021/08/07/172736
https://zenn.dev/kun432/scraps/8e963a8a4948b2
445今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 5c54-NBo5)
垢版 |
2023/07/15(土) 13:26:49.19ID:eXhsV83s0
データセットは基本4秒〜10秒ってのが現在の最適解みたいになってるけど、4秒間息継ぎも無音も無しに喋る素材って歌以外だとほとんどないよな
ぶっちゃけ2秒位の素材を集めたセットでもそんな変化ない気がするけど、素材の秒数ってそんな重要なんかな?
詳しくないから分からんけど、素材の秒数が短いと学習に良くないとかあるの?
2023/07/15(土) 13:58:52.42ID:fTEXiO4h0
あんま無音なしにこだわらんでもええんやないっけ、むしろRVCの学習だと意図的に無音状態も学習させてるとか聞いた(logsのなかのmuteフォルダ)
あとlogsのフォルダの中のwavのぞけば、実際に学習のときには、元データからかなり機械的にぶつ切りにされた状態のwavで学習されるっぽいから、
ファイルあたり秒数も関係ないような気する

ワイは(無音等含めて)4秒以上の音声で学習しとるけど、その理由は、前段階で複数話者から話者識別したりするからある程度の秒数がないと識別できなかったり、
そもそも短い秒数のセリフだとあんまり発話時間が多くないし、必然的に音程やら音素やらも少なそうやから排除しとる、ってだけやな
447今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 5c54-NBo5)
垢版 |
2023/07/15(土) 14:40:24.54ID:eXhsV83s0
>>446
なるほど!めっちゃ参考になるわ
V2から息継ぎが潰れにくくなったけど、息継ぎは学習素材に入れた方がええんやろうか?
2023/07/16(日) 10:38:34.30ID:XxQccoVz0
>>441
声づくりディスコでスロット数の質問に答えとるのみたけど、
「スロット数上げるとユーザーがいっぱいモデルをアップしちゃって、そうするとユーザー側が移行が面倒で
新しいバージョン出てもバージョンアップしてくれなさそうだから、
今のところはあんま上げる気がない」
て感じの返答やった
2023/07/16(日) 11:28:04.80ID:ZSKNBWyG0
>>448
意味がわからん
フォルダそのまま移動で移行出来るやん
2023/07/16(日) 11:31:06.14ID:XxQccoVz0
>>449
バージョンアップによってはモデルフォルダの中身の構造が変わるようで互換性は保証されてないっぽくて、
どう変わるかのパターンもいっぱいあるから駄目らしいで
これ以上は本人に言ってや
2023/07/16(日) 11:32:28.57ID:ZSKNBWyG0
>>450
変なこと気にしてんだなぁ
とりまサンクス
直接聞くわ
2023/07/16(日) 12:10:27.62ID:zkBTtbcF0
ライト層向けはkoemakeが流行ってきてるっぽいし、普通に住み分け出来ると思うんだがねぇ
2023/07/16(日) 13:29:42.90ID:XxQccoVz0
既存のTTS、VOICEVOXのAPI使わなくてもedge-ttsっていうのがあるんやな
https://github.com/rany2/edge-tts
2023/07/16(日) 22:17:17.38ID:P5OHnIKFM
スロット100とかなら知らんけど倍くらいなら全然面倒じゃないけどな
バージョンアップ版試したい欲求のほうが大きいから心配しないでもう少し増やしてよ
2023/07/16(日) 23:42:45.42ID:QBTjUPTw0
WSLなら増やせるんならそれ使えばいいでしょ
2023/07/17(月) 01:38:18.17ID:9DP0cSVL0
>>455
めんどくさいわ
そもそも普通に考えて10は少なすぎる
2023/07/17(月) 13:09:36.92ID:9nf9yylj0
WSLすらめんどいとか言うお客様根性の怠け者が要望出すようになるんだから作者がキレるのもわかるわ
2023/07/17(月) 13:41:34.31ID:9DP0cSVL0
いやさすがにWSL導入は普通に面倒だし怠け者扱いも意味不明だわ
あと別に作者は要望やDMの数にびっくりしてるという趣旨の発言はしてるが別にキレてないぞ
2023/07/17(月) 13:44:45.82ID:G9Qx9/PN0
不満気味ではなく前向きな要望に見せておこうぜ
あとは出来る範囲で効率的に頑張ってる姿とか見せておくといいぜ
2023/07/17(月) 13:47:40.98ID:9DP0cSVL0
あと一応言っておくがオレ別に要望出してないからな
思い込みでキレるやつうざいわ
2023/07/17(月) 14:07:59.59ID:O9jPm0aJ0
夏は暑いしイライラするよな!
アイスコーヒーでも飲んでのんびりしようや
koemakeならスロット制限ないやで
ただ細かい設定はまったく出来ない
どちらも一長一短やな
2023/07/17(月) 14:45:49.06ID:W4Clx85v0
テキストからRVCの声で読み上げさせるやつ作ったで
https://github.com/litagin02/rvc-tts-webui
edge-ttsと組み合わせただけ
謎言語で喋らせると楽しい

🤗上のデモ(CPUで動くので遅い)
https://huggingface.co/spaces/litagin/rvc_okiba_TTS
2023/07/17(月) 18:53:25.44ID:gjBwWlZE0
>>462
これ凄いな、読み上げもめっちょ自然だ
2023/07/18(火) 00:00:36.14ID:yRtaWMvN0
>>462
え、すごくね
とんでもなく自然じゃん
2023/07/18(火) 00:01:18.92ID:jtUYhzb90
これ使って歌わせようとしてるんだけど、
いろいろ聞きたいことがある。

高音が結構キツくなったりするんだけど、
バッチ数とかエポック数とか増やしたらなんとかなる?
学習の素材は、歌モノのノイズとかコーラスは極力消してる。
歌モノの素材は1曲単位でデータとして置いてる。
話し声も10分ぐらいの中に何個も声があるデータを2個ほど使ってる。

歌わせる元の音源に癖とかも同じになって、
デュエットさせようとすると、声は違うのに癖が同じせいで1人で歌ってるみたいになっちゃうのどうにかならないんだろうか。
2023/07/18(火) 09:52:13.44ID:z5qnpDbM0
>>465
歌はあんまやったことないから分からんけど、元データにない音域は(高くても低音くても)かすれたりノイズが多いのはしょうがない気がする。
逆に元データにあるくらいの高さだったら、エポック回すとよくなる可能性はありそう(バッチはあんま関係なさそう)。
(ピッチ上げ下げしたのをかさ増ししたらいいかもだけど試したこと無し)

元音源からの差は、とりあえずindex使用率を1に上げるくらいしか分からんな
2023/07/18(火) 10:34:28.70ID:yRtaWMvN0
>>462
ERROR: Exception in ASGI applicationやら出て動かんかったわ
venvアクチ忘れとかミスはしていない
2023/07/18(火) 11:48:55.39ID:z5qnpDbM0
>>467
自分のところでもvenv作り直したらエラー出て、
Gradioのバージョンアップが原因ぽくて、gradio-clientのバージョン指定をしなおしたら動いた。
requirements.txtを更新したのでもう一度git pullでpip install -r requirements.txtでおなしゃす
2023/07/18(火) 12:06:31.46ID:yRtaWMvN0
>>468
素早い対応サンガツやで!
ギップルvenvアクチpip requireだとダメだったのでvenv作り直したら上手く行った
これは日本語テキストからの変換です。がクセになる
2023/07/18(火) 12:34:08.72ID:xNWh78X2p
>>465
自分の場合、歌わせたいアーティストのアルバムを1枚分、約30分ほどからボーカルのみ(コーラスは除去済み)を引っこ抜いた素材で200エポックで回してる。これでだいたいの高低音は出せると思う。ただあまりにも高音過ぎたりシャウトだったりは無理。

1つの音源を2人に歌わせるのは、仕様上難しいかなと思って諦めてる。一人には主旋を、もう一人にはコーラスパートを歌わせるみたいな楽しみ方しかできないんじゃないかな。有名曲だったらカバーなり歌ってみた動画なりから別のボーカル素材を持ってきてそれを変換する、とかどう?
2023/07/18(火) 13:00:12.48ID:gbWvfTHsr
>>462
天才かな?
2023/07/18(火) 23:50:58.24ID:jtUYhzb90
>>470
なるほど。
やはり200ぐらいは必要なんですね。
1エポック1分ぐらいだから結構かかりそうですねw

なるほど!!
カバーとか歌ってみたの手がありましたね!!
ありがとうございます。
2023/07/19(水) 10:24:51.11ID:85gzDtdJ0
>>462
サンガツおもろい
edge ttsに抑揚とかあればもっとええんやけど
https://uploader.cc/s/apldns6jnwwj02d2hjoob8b98tihx2cg0lf2112qtfr4q5ndwgrf6w8liwo7o2p7.mp3
2023/07/19(水) 12:47:06.69ID:+1U4WQJMM
似た歌声使わないと出力がペラペラになるのかな?
合う声だと鳥肌モノでよいんだけど合わないと芯がなくてフニャフニャ声に
学習ソース変えるべきか元歌ソースを加工するか
index下げても元歌に近づくわけでもないっぽい?
その右の息?スライダーは0にしてるんだけどこっち触るといいのかな
2023/07/19(水) 13:04:55.97ID:ooCW5ao30
>>473
まあ抑揚やらアクセントやらにこだわろうとするとボイボなりボイロなりから手動変換するのには勝てへんやろうからなあ
476今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a688-/jfo)
垢版 |
2023/07/19(水) 17:31:16.29ID:NJcG8osk0
https://video.twimg.com/ext_tw_video/1680016450881490944/pu/vid/1280x720/smJdSyAahpShZQzW.mp4?tag=12
まだあったんだ一応記念にDrop
477今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a688-/jfo)
垢版 |
2023/07/19(水) 17:32:31.27ID:NJcG8osk0
>>474
コンプとかで整音した後スペクトルノイズ除去系のエフェクトかけるの試してみて
2023/07/19(水) 21:33:09.22ID:aZbsceNg0
RVCって普通のやつ?(と言っていいのかわからない)か、だだっこぱんださん版?
というのどっちでやってますか?
違いがあるならどっちでやった方がいいとかあれば知りたいです。
2023/07/19(水) 21:41:34.48ID:ooCW5ao30
なんだかんだ本家のほうが複数人で計画的に更新されとる気がして、あとたまにちゃんと新機能出とるからそっち使っとる
学習の質では本家がv2になってからはそんな変わらんのやなかろうか(日本語hubertが質がいい説があるがどなんやろ?)
推論はrmvpeとprotectのやつが使えるので本家がいい気がする
2023/07/20(木) 03:38:13.46ID:HD152u/+M
だだぱんは俺の環境では不安定過ぎた
481今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ b01e-dl21)
垢版 |
2023/07/20(木) 06:13:40.56ID:SfRxz6KN0
>>462
これってインストールの手順にあるやつやればそれで起動できるようになるん?
2023/07/20(木) 07:58:48.05ID:YWxvH/Mo0
>>481
なるはずやで
483今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 247b-/jfo)
垢版 |
2023/07/20(木) 11:35:00.59ID:CN/4DW7a0
>>462
ええやん!🤗スペースでだけど試したで
これ聞くとわざわざオレオレTTSつくらんくても出来のいいTTSを介して好きな声に変換するほうがスマートに思えてきたわ
2023/07/20(木) 12:13:51.05ID:NqKDDqnKr
RVC学習で、epocどのくらい回すと良いか客観評価したいんだけど、何か良い手法かツール知ってる人いる?
2023/07/20(木) 12:25:28.72ID:1k1n5o4JM
>>477
ありがとうございます
ノイズ除去系は音楽ソフト上で元から入れてあったので効果あまり感じられずでしたが
元の音声データ(録音状態良)に追加でノイズ除去かけて学習させたら、かなりよくなった気がします
2023/07/20(木) 12:49:25.42ID:oGsEJ3pS0
だだぱんのやつ自分の環境だとRVCだけじゃなくてStableDiffusionのやつも上手く動かないから相性悪いんだよな
487今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 247b-/jfo)
垢版 |
2023/07/20(木) 12:56:43.51ID:CN/4DW7a0
>>484
今試してみたけどTensorBoardで見れた
1. python -m venv venv
2. .\venv\Scripts\activate
3. pip install tensorboard
4. tensorboard --logdir=C:AI\RVC\logs
みたいな。SCALARSでLOSSとか見れるっぽい
https://i.imgur.com/0cxBXI9.png
2023/07/20(木) 13:03:15.12ID:jU6ubS7ar
TBのログ出てるの知らんかったわ
2023/07/20(木) 13:25:19.41ID:YWxvH/Mo0
ワイはいつもtensorboardでloss/g/melとloss/g/total見ながら回しとるで
体感やがmelが18くらいで落ち着くといい感じのときが多い、20あたりだとうまく学習できてなくて16くらいだと過学習
490今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ササクッテロレ Sp10-tdBp)
垢版 |
2023/07/20(木) 14:16:44.80ID:Pm80RjKwp
だだぱん版がうまく機能しないの自分だけだと思ってたからなんか安心したわ
本家の方と同じ素材と条件で学習させてもなんかうまく学習出来んのよな
2023/07/20(木) 18:10:50.99ID:oWa66EJBM
だだぱん版はインストール方法もオリジナルと違うし取っつきにくいな
2023/07/20(木) 19:15:44.78ID:9KL2Gt4k0
音声データ、まるごとぶち込んでも学習時に3秒ごとにブツ切りにされるやん?
今まで律儀に数秒の発話ごとに分けてたけどもう全部長いままぶち込むでもいいんかな
素材が『言葉』になってることって実は重要じゃないのでは?と思い始めてきたわ
2023/07/21(金) 00:10:43.66ID:VnWpOY+F0
>>487
あーなるほど(あーなる
494今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 5c54-8lAv)
垢版 |
2023/07/21(金) 00:12:39.90ID:b5uyMn080
ニキ達は音声素材用意してカットした後イコライザーとコンプかけてる?cakewalk使ってるんだが1000個以上あるクリップをまとめて1つのトラックにぶち込む方法あったら教えて欲しい
2023/07/21(金) 11:44:08.84ID:gKelnhMH0
https://www.kits.ai/
ライト層向けの、学習とかもやってくれてモデル共有もできるオンラインプラットフォームらしい
誰か人柱たのむ
2023/07/21(金) 17:10:20.05ID:gKelnhMH0
VC Clientのピッチ推定にrmvpeが(開発版に)来てたから試してみたけど、やっぱharvestよりめっちゃええな。かすれが減って自然に聞こえる。
497今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2954-39eQ)
垢版 |
2023/07/21(金) 19:00:19.09ID:AHym/7wp0
>>462
インストールのコマンドをコピペして実行したら
ERROR: Could not build wheels for fairseq, which is required to install pyproject.toml-based projects
とエラー出るわ・・・。bingに「pip install wheels」せえと言われたのでやってみたがアカン。
分かるニキ助けてクレメンス。
498今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ e988-XAQO)
垢版 |
2023/07/21(金) 19:36:18.53ID:QzVhY8RU0
>>497
Microsoft Visual C++ Build Toolsインストールしてる?
もしインストールしてるならパス設定が間違ってるかもしれへんな
2023/07/21(金) 19:36:59.09ID:gKelnhMH0
>>497
エラーのもうちょい上にC++がどうとか書かれたら、ビルドツール
https://visualstudio.microsoft.com/ja/visual-cpp-build-tools/
がいるかもしらん、試してみてくれ
2023/07/21(金) 20:14:36.81ID:gKelnhMH0
>>499
>>497
すまんさっきのURLのやつだとVisual Studioのバージョンが新しすぎてダメかも知らん
これを参考にどうぞ
https://postgresweb.com/python-error-which-is-required-to-install-pyproject-toml-based-projects
501今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2954-39eQ)
垢版 |
2023/07/21(金) 22:21:10.87ID:AHym/7wp0
>>498>>499
サンガツ!よく見たらページの一番下に書いとったんやな・・・。スマンやで!
2023/07/22(土) 07:59:38.20ID:gv3KmFz4a
>>494
cubaseは取り込むときに選択肢が出て来たけどCakewalkでのやり方は分からなかった
2023/07/22(土) 16:50:44.66ID:s2LXkrOf0
まだ48kはいまいちかな
微妙にノイジーになる
というかノイズが目立つというか
2023/07/23(日) 00:31:01.06ID:J1D9qRfU0
30kと40kと48kとで前に実験したけど、なんだかんだ40kが一番ええな
48kはたぶん変なところを学習して結果として微妙になる気する(LoRAのdimを上げすぎたときみたいな?)
2023/07/23(日) 03:24:41.64ID:JuEqgeoh0
音質いいとか素材が長いってだけじゃダメやな
色んな喋り方を満遍なく集めないと結果が偏るわ
あと、素材を発話ごとに切り分けた場合と長尺を無音カットした素材数個をそのままぶち込んだ場合で結果にたいした差は出なかった
なんだったんや今までの苦労は
2023/07/23(日) 09:45:44.91ID:J1D9qRfU0
子音のsにノイズが乗りやすいのはしょうがないんかな
学習データによってはノイズほぼ目立たないのもあるけど、どういうデータでノイズ乗るか・乗らないかの感覚がまだ分かってない
2023/07/23(日) 11:14:51.15ID:nVJiNW+f0
wikiに乗せてるWSLのdocker版がrmvpeに対応しました
手順は変わらないけどdocker作るときに内部的にコピーしています
2023/07/23(日) 13:16:17.96ID:2ZlXHLmP0
>>506
語末の「です」「ます」とか、スの後ろがカ・キャ・サ・シャ・タ・チャ・ハ・ヒャ・ファ・パ・ピャ行の場合は母音の無声化が起きてsは母音がほぼ消えてる。人によってはア行、ヤ行、ワも無声化する。まぁ東京方言と共通語に起きやすい現象なので、それらを除けばいいんじゃないかな
2023/07/23(日) 13:46:03.31ID:J1D9qRfU0
>>508
あー、学習データに無声化sがあるかって違いなのかな。
人によって無声化の度合いが違うから、無声化しない人だとデータに無声sがあまりないからノイズが起きるって感じなんかな。
ボイチェンなら喋るときに無声化しないよう気をつけてしゃべればええんかもな。
2023/07/23(日) 14:32:28.00ID:JuEqgeoh0
完成したモデルを本人の音源で変換するとほぼ正確にトレース出来るぐらいの完成度にはなったが、自分で喋る場合も本人同様の演技力が問われるという新たな問題が発生
汎用性を上げ過ぎても逆に使いづらい…
2023/07/23(日) 19:02:57.76ID:J1D9qRfU0
https://github.com/Mangio621/Mangio-RVC-Fork
英語圏で本家よりも使われとるやつらしいけど、使ってみたことあるニキおる?
本家と比べてどうなんやろ
2023/07/23(日) 19:35:24.05ID:JuEqgeoh0
だだぱん氏も言ってたけど本家はコードがクソ汚いらしいから、それを整理したとかそういうのじゃね?
2023/07/23(日) 20:21:13.10ID:rc62JqyEM
みんな詳しいんだな・・・本家みたいにZIPで固めてないのはよくわからないわ
2023/07/23(日) 23:38:39.13ID:J1D9qRfU0
https://docs.google.com/document/d/1heKuaedmHNBTXvOnTNpwj-w2Djbk4kndXsZ2Vx_Zkxc/edit
何か例の英語圏のガイド(上のMangio-RVC-Fork使ったやつ)を誰かが丁寧に日本語機械翻訳してくれたっぽいのがあったわ
基本的な違いは学習時のピッチ推定にharvest以外にもcrepeやらcrepe亜種やらrmvpeやらが使える、ってくらいっぽい
2023/07/23(日) 23:41:43.19ID:J1D9qRfU0
なーんかデータセットも推論も楽曲からのボーカルを前提としてるっぽいのがワイとの文化というか目的意識のズレを感じるな
こっちはデータセットも全部声優のセリフやし使用もボイチェン用途しか考えとらん
516今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ a744-/dWn)
垢版 |
2023/07/24(月) 00:40:57.07ID:cJR/F7rf0
ホワイトノイズ消す良い方法ある?
2023/07/24(月) 01:19:24.32ID:aXz9H4QBM
Izotope RX10
SoundForge
2023/07/24(月) 02:05:20.58ID:9XN2hB8b0
>>509
ただ声優とかだと無声化って基礎の基礎だからやらないのはよほど癖のある演技するか、関西弁の演技とかだから学習データにあまりないってのも逆に難しい気もするね
2023/07/24(月) 08:28:40.36ID:nkIa2LbJ0
>>515
AI Hubでもそうだけどそもそも海外だと歌わせる勢のほうが多数派っぽいな
日本のオタクは生まれ変わり願望が強いからボイチャのほうが主力になりそうだが
2023/07/24(月) 10:47:55.95ID:GydO8e+wd
>>514
こっちもdockerで動かせるようにしてみたいな
2023/07/24(月) 13:32:01.81ID:/8xbvGlA0
vcclientをdocker起動する場合ってアップロードしたモデルは再起動都度読み込み直し?
2023/07/24(月) 15:40:02.20ID:GKVtE/k90
>>521
モデルディレクトリを起動時の変数で指定しとるからそこが読み込まれるんやないの?Dockerわからんけど
2023/07/26(水) 12:54:36.63ID:L1MMESnm0
AI HUBから大量にお客さんが来たのか、RVC開発者側にくだらん質問が来まくるようになって開発者と喧嘩になっててワロタ
2023/07/26(水) 17:21:38.25ID:FTtS84EB0
AI HUB無法地帯やんな
声優や歌手のモデルもどんどんアップしてるし、規制が無いからってやりたい放題よ
2023/07/27(木) 17:01:15.54ID:034DMUpt0
VCC、近々モデルスロットを増やすらし
各方面から言われまくったらしいわ
そもそも、モデルなんてどんどん更新されるんだし『モデルの移行作業が面倒でアプデしない人がいそう』だからスロットは増やさないって発想はちょっとズレてんよな
頭のいい人ってそういうもんかね
2023/07/27(木) 18:53:50.97ID:S4CV6rAo0
本家に学習時のrmvpeでのピッチ推定が実装されたので、mangio-forkとやらの存在理由がよく分からんくなった
527今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 0738-onGn)
垢版 |
2023/07/28(金) 00:27:09.52ID:ZMRJNQry0
VCCのリアルタイム変換の精度思ってたより悪いな
試しにRVCの付属のほう使ってみたら明らかに精度がよかった
2023/07/28(金) 02:02:00.18ID:J3hhbfUuM
本家の学習でrmvpeが無いんですが
7月17日版が最新ですよね?
2023/07/28(金) 10:16:58.21ID:S7X0V9JD0
>>527
そんな変わるか?逆にワイはRVC付属のリアルタイム変換はまともに動いたこと無い。
RVCで録音ファイル入れて変換したのと、VCClientでリアルタイムで変換したのと、聞こえる差は感じないけどなあ。
chunkとかのパラメータの問題じゃない?
チュートリアルやとdioでchunk48とかいうとんでもない設定になっとるけど、
rmvpeで192以上くらいはいるで。

>>528
GitHub上ではあるで。
zip版はそのうち更新されるやない?
2023/07/28(金) 10:24:19.12ID:9uFZsOeh0
だだぱん版はTrain終了(エラー終了含む)してもGPUのメモリ解放されないんだな
2023/07/28(金) 12:29:21.59ID:S7X0V9JD0
VC Client、次回のリリースでデフォルトスロット上限が100か200くらいまで増える予定らしいで
https://github.com/w-okada/voice-changer/issues/554#issuecomment-1653932986
532今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7fa4-ls9p)
垢版 |
2023/07/28(金) 12:33:42.94ID:6qKj8WKo0
やけくそな増やしかたで草
2023/07/28(金) 13:45:05.14ID:ffX1qClvM
>>529
了解です やってみます
2023/07/28(金) 14:13:23.74ID:nJaT9gwe0
デフォスロット改善はいいけどデフォモデルいらないわ
初回起動で毎回落としにいくのうざいわ
そもそも完成度低いの多いし
535今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ be2d-PHz4)
垢版 |
2023/07/29(土) 11:45:27.10ID:VFekmnyt0
https://github.com/w-okada/voice-changer/commit/73203a13e339bc5293fdd462cc9c2684297adf44
ほんとにスロット数200になってて笑った
536今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ササクッテロラ Sp33-p6kH)
垢版 |
2023/07/29(土) 12:18:37.62ID:6FG/Rlipp
>>519
日本語は音節が単純やから昔からボカロとかあるけど英語とか発音の複雑な言語やと歌わせるだけでも大変やからな
2023/07/29(土) 12:31:34.08ID:o+h4ywKy0
>>511
これwslのdockerにできるか試したけどwindows用のライブラリ参照してるっぽいので無理だった
2023/07/30(日) 10:17:00.55ID:h5oO4sDy0
>>535
やけくそワロタ
でもこれならもう誰も文句言わんやろ
グッジョブや
2023/07/31(月) 12:25:02.90ID:1Jhl7em10
いつのまにか学習デフォ設定がfp32になってたと思ったら、いつのまにかfp16になってた。
バッチサイズを盛れるようになって学習もかなり早くなったのはいいが、fp32かfp16かで品質に差があるのかが気になる。
誰か試してないかしら。
540今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 2354-V0M5)
垢版 |
2023/07/31(月) 19:04:14.73ID:vT+1i8Vd0
新しく追加されたrmvpeってどういう特徴があるんや?英文でも中文でもいいから解説書いてるとこない?
2023/07/31(月) 20:10:23.58ID:JfmcqXTL0
なんか、性能、いいらしい
2023/08/01(火) 01:24:01.45ID:XZyjsGWI0
使ってみたら分かるけどグラボで動いてharvestやcrepeより速い上に質もやたら高い(harvestだとピッチ推定に失敗してかすれる声もちゃんと変換される)
2023/08/01(火) 01:27:02.14ID:R4ULE8vT0
それは使えばわかるけど、問題は学習時の影響よな
2023/08/01(火) 02:33:55.53ID:HQXuUj+30
>>514
歌で使うとかすれとかロボットというかガラガラ声みたいになるのが少なくなるね
2023/08/01(火) 10:07:41.67ID:+7tGQrze0
crepeよりも性能がいいとかマジか
久しぶりに更新してみるかな
2023/08/01(火) 10:44:31.09ID:C69ucoVD0
かなりの速度でRVC本体もVCCも進化してるから中々取っつきにくいんだよな
あとやっぱcmd前提だから、exeでサクッと起動するkoemakeのが性能はともかくライト層には手を出しやすい
2023/08/01(火) 11:05:52.81ID:XZyjsGWI0
あんま人増えすぎても治安悪化やら批判やらあるしアングラな感じでええ、
と思ったけど、そもそもが人少なすぎるからな……
2023/08/01(火) 11:34:00.30ID:+7tGQrze0
rmvpe使ってみてcrepeより変換早かったけど質が上かと言うとようわからんかった
2023/08/01(火) 12:47:17.58ID:XZyjsGWI0
ボイチェンやとだいぶなめらかになるで(個人の感想)
歌やともともとがピッチ推定しやすくてcrepeでも十分精度高いから変わらんかも知らん
(そもそもボイチェンだとcrepeはかなり失敗してharvestじゃないと厳しい状況やったと思う)
2023/08/01(火) 14:27:57.82ID:+7tGQrze0
>>549
サンガツや
ボイスデータの変換しかしないから早いrmvpeこれから使ってくで
2023/08/03(木) 14:10:08.97ID:GRA04GcW0
誰かモデルマージ試して実験しとるニキおらん?
知見がまったくない
552今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ f388-Xk46)
垢版 |
2023/08/03(木) 21:34:26.51ID:BxSvk2s40
音声ファイルの長短はどっちでもええし無音部分も自動でカットされるそうやけど
ノイズ除去した素材の無音に等しい部分は人力カットした方ええんか?
2023/08/03(木) 23:51:56.58ID:qsFmkXhJ0
ワイは3秒以上の無音は切っとるな
フレーズとフレーズのちょっとした無音くらいならそのままにしてる
554今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ca59-CF7t)
垢版 |
2023/08/04(金) 13:53:03.09ID:hhNHJFdj0
Nectar Elementsが無償配布
https://www.izotope.jp/jp/news/vocal-mix-sale-2023/
こいつのメリットはDe-essでノイズの元になる歯擦音をちょっとだけ緩和できること
喋りの時に使うのもヨシ、加工時に使うのもヨシ
2023/08/04(金) 18:00:51.71ID:59IIehke0
アリアルさん・ミリアルさんのとこのボイチェン
https://twitter.com/coefont/status/1687297305744138240
RVCが内部で動いてそうな気配あるけど仕組みどうなってるんやろ
https://twitter.com/5chan_nel (5ch newer account)
2023/08/05(土) 13:19:44.77ID:DNb5pjiw0
しかし盛り上がってないな
画像生成で言えばLoRA作るのがメインみたいな状況だと参入者も限られるのかね
結果やスゴさを提示しづらい部分も大きいし
2023/08/05(土) 14:13:41.54ID:LQ4A8WgA0
スレが立った最初の頃はだいぶ盛り上がってたんだけど
大半の人の需要は理想的なアニメ声に手軽になりたいって感じだったけど
それにはボイトレが必要でどうやってもAIでは不可能って判明してから一気に熱が冷めてった感じ
2023/08/05(土) 14:15:58.67ID:nvuw7R950
質のいいモデルと適切なチューン設定で、ボイチェン後の声を聴きながら、ゆっくり高低をはっきりさせながらしゃべることを意識すれば、それなりに聞こえるとは思うけどな
2023/08/05(土) 14:53:07.39ID:NJkkKr3I0
ナレーションライクならそこそこ
叫んだり変わった喋り方するとロボ感出る
2023/08/05(土) 15:19:02.65ID:4xZRqCq10
riffusionいじりたい
561今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 6b59-c/5M)
垢版 |
2023/08/05(土) 15:20:16.65ID:Ptu3DKZ60
RVCの学習がそもそもピッチ依存性が高いものだからな
だから歌えるんだけど 感情表現すると学習ラインから外れやすくなる
画像生成のCLIPみたく一度テキストエンコーダ挟んだ方がええかもな
2023/08/05(土) 15:21:32.89ID:lBz/kVKlM
文章から音声データ出力してくれるとか
AIが自然な発声に変換してくれるとかじゃないと画像生成ほどは広まらないだろうな
2023/08/05(土) 16:35:57.90ID:DNb5pjiw0
>>557
そこそこ喋りの技術がいるのは確かだがボイトレレベルは必要ないだろ
どんだけ普段しゃべってないんだよ

>>559
それは学習内容が足りてないだけだな
叫び声や高音を学習させれば普通に対応できるぞ

なるほどな
ちゃんとしたモデルを作れてなくて、実際の能力を知らないまま辞めちゃってんのか
もったいないな
564今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ブーイモ MMb3-tYOr)
垢版 |
2023/08/05(土) 16:47:33.37ID:bQehwn1dM
>>563
理想的なアニメ声ってのが、女性声優みたいな女のアニメ声ってのなら必要だよ
多分一番多いのはそういう需要だと思う
広く世間に受け入れられるには質の高さより手軽さだよ
2023/08/05(土) 16:53:01.86ID:hFhjs/FE0
求めるレベルによるよな
ここに上がってた音声も演技と言う面ではプロの声優に程遠いが、同人作品やアマチュア実況にはまぁまぁ使えるレベルと思った
2023/08/05(土) 16:53:30.96ID:nvuw7R950
そこまで演技をせずに素の感じで女性のアニメ声でしゃべってる感じなら(演技をしない女性V・YouTuberみたいな感じなら)、そんなに技術はいらん気が
もちろんアニメやセリフの吹き替えを自分でできるレベルってなると別だろうけど

>>562
文章から音声データ出すのはそれこそ結月ゆかりとかからの長い歴史あって、そこは最近の生成AIでもあんま進化してない感じするから、
それは今更って感じなんじゃないかなあ
2023/08/05(土) 17:00:51.44ID:nvuw7R950
もともとボイチェンでワイワイする文化があるVRCの人たちとかが、前より質の高いボイチェンって感じで(自分で学習はせずに)RVCを使ってる感じはあるけど、
適度な質のボイチェンがもう出来てしまったらそれで満足して使い続けて終わり(新しくスレとかに浮上もせずユーザーとして潜るだけ)ってパターンもありそう
2023/08/05(土) 18:43:37.42ID:4xZRqCq10
>>562
あるで>>367
569今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (スップ Sddb-YP4D)
垢版 |
2023/08/05(土) 19:17:49.67ID:dkLJd42Md
ttsなら>>462もやな
2023/08/05(土) 23:01:17.46ID:DNb5pjiw0
オレとしては充分『お手軽にキャラなりきり』という認識で楽しめてるが、お前らを満足させるにはさらにもっと簡単で精度が高くないとダメってことか
571今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ササクッテロロ Sp6f-70Ey)
垢版 |
2023/08/05(土) 23:05:44.29ID:P2C0z6oCp
RVCの学習について調べてるとバッチサイズは高ければ高いほどいいみたいな事書いてあるんだけど、バッチってモデルのクオリティに関係するの?学習スピードが早くなるだけじゃないんか?
2023/08/05(土) 23:28:31.40ID:lllasU4R0
ワイもバッチサイズが関係するのは学習スピードだけって認識やで
その分いろいろと試行錯誤がしやすいし、速いに越したことはないから、OOMする限界くらいの数値でだいたい調整しとる
理論上は学習の質や出来にも影響は与えるだろうけど、そこまで聞いて分かるほど違いがあるとは思えん
2023/08/06(日) 00:48:16.02ID:dfpbY1Mg0
>>563
データ集めがね...
配信者とかは簡単にコピーできるけどアニメキャラとか色んな声集めるのめんどい

あとささやきとか声ガラガラさせると普通に変換されなくない?
2023/08/06(日) 00:49:15.62ID:dfpbY1Mg0
人と喋ってねーとか使いこなせてないバカとか2ターン目で人を馬鹿にするモードに入るのキツイわ
2023/08/06(日) 01:44:28.14ID:Agq5OHHh0
上の煽りカスも言ってるけどクオリティ低いのは単純に素材不足が原因だから現状クオリティ上げるにはテクニックとか工夫とかもなくただ素材増やすしかなくてそもそも素材が足りないキャラや人はその時点で詰むし一度完成品作っちゃったらもうやれることも語ることもなくなるんよね
576今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ブーイモ MMb3-tYOr)
垢版 |
2023/08/06(日) 01:51:20.88ID:idlTSd7JM
素材さえ足りてれば誰でも満足できるレベルになんてならんよ
このスレや界隈が全然盛り上がってないのがその証拠やん
577今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ササクッテロロ Sp6f-70Ey)
垢版 |
2023/08/06(日) 02:07:28.65ID:dIRWIPdZp
>>572
さんがつ だよな俺もあんまり変化感じなかった
2週間前はバッチ16で回せてたのに、5/28からしてなかったアプデしたらバッチサイズ8が限界なんだがグラボ死んだのかな?
グラボはRTX3080vram10GBで、データセットはイコライザーとコンプかけただけで同じなんやが
2023/08/06(日) 02:20:43.01ID:HHgysahT0
盛り上がってないのは絵や文章と違って一般人はボイチェンなんて興味ないからだと思う・・・
まぁ俺も現状で誰でも簡単に満足できるレベルになれるもんだとは思ってないから、素材不足だけが原因とは思わんけど
2023/08/06(日) 05:17:42.71ID:J9P6yeXN0
ワイは歌わせるの好きだからいろんな好きな歌手に好きな歌歌わせて楽しんでるわ
試しに自分で歌ってみると声質だけではどうにもならんのやなって気付ける
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況