なんJRVC部 2

2023/05/24(水) 20:52:51.12

出力中の画面で止まる？　

2023/05/24(水) 20:57:57.05

>>36
export onnx file のまま放置してても生成されないんや
GPUメモリほぼ天井張り付いてるしRTX2080SPじゃきついんかな
v1ではできるんやけどな

2023/05/24(水) 22:12:26.10

onnx作るときだけcpuにすればいいぞ

2023/05/24(水) 22:37:21.40

>>38
ほんまやGPU-1にしたらonnxできたわ！！
サンガツ

2023/05/25(木) 06:55:02.36

ほんまにボイトレ必須なんか？
なんも考えずに喋って素材のまんまに変換されるんやけど
学習素材によるんじゃね？

2023/05/25(木) 08:30:20.12

>>40
おっさんの汚い声をアニメ声に変換すると破綻するって話やろうし
キレイで高めの声を一般女性の声にするのならそこまでボイトレはいらないかもね
もしくはボイチェンだとわからないレベルに男の声をアニメ声にするのにはボイトレ必須って事かも

2023/05/25(木) 10:11:55.28

単純なボイトレというか学習元の癖に合わせる技術のボイトレなのか。420の元の声が同じ癖があっただけかも

2023/05/25(木) 12:57:03.91

歌モデル作る時に素材に吸気音いれてる？呼吸部分がノイズに変換されてうざいから消しちゃうんだけど素材にいれたらうまく変換してくれるとかはないよな

2023/05/25(木) 13:01:51.88

>>43
自分も気になってる
ふふふっみたいな笑い声が全部意味のない発話に変換されちゃって困るんだけど笑い声素材がそんなにないからどうせうまくいかないだろと試す気になれないんだよな

2023/05/25(木) 16:10:12.53

ノイズ対策と自然さは割とトレードオフみたいな関係よなぁ
笑い声なんかはピッチを意識するといい結果を得られやすい。その辺は咳やくしゃみも一緒かと
音域外の変換はhubertやらモデルの方で何とかしないとって感じかね

2023/05/25(木) 17:09:59.05

AIが誰が聞いても違和感無い音に置き換えてくれるようになるまではボイチェンの域を出ないなー

2023/05/25(木) 19:19:36.24

indexアップロードした状態でonnx変換したやつってonnxファイルにindex組み込まれてるんか？

2023/05/26(金) 17:49:07.67

急に所々機械音声みたいになったり掠れ声みたいになるんやがどうしようもないんかこれ

2023/05/26(金) 19:36:35.07

分離のモデルをHP5にしたら良くなったわ
ただ子音が変わったり弱くなったりして外国人が歌ってる感じになるな

2023/05/27(土) 08:22:13.08

今朝試しにやってみたけど全く上手く変換できないなーって感じ

解説サイト乗ってるのは1.5.2.2だったからそれに合わせてみたが、日本語ですらない何かになっちゃうなー…

環境はwin11のRTX4090でAG03にソニーのコンデンサーマイクつないでるが

2023/05/27(土) 08:23:07.14

あとモデルによっては常にモスキート音みたいなのが出てるのも気になった。元の音声はほぼノイズ無いんだが大声で話さないとだめなんか？

2023/05/27(土) 08:24:28.37

あーごめんここRVC全般って認識でいいんかな？使ったのはVC Clientなんだけど

2023/05/27(土) 09:08:59.37

歌とか変換する場合、VCClientの音声ファイル読みこみ変換より、RVCについてる変換機能のほうがきれいに変換できるよ
モデルによってノイズが乗るのは学習が上手くいってない場合が多い気がする、過学習とか

2023/05/27(土) 09:36:20.30

あとはちゃんとindexファイルが読み込めてないとノイズのる気がする

2023/05/27(土) 11:37:17.09

いざ何か喋って試そうと思っても何しゃべればいいかわからんくなる

2023/05/27(土) 17:33:43.22

>>54
indexファイルって配布されてる？

2023/05/27(土) 18:49:09.40

自作なら一緒に作られる

2023/05/27(土) 19:13:05.20

これって学習させるときは何度もコンバートするといいの？

2023/05/27(土) 19:28:09.28

あと、購入したpthのデータを使いたいんだけど分からねえ。購入したpthデータをweightsファイルに入れて、その後にRVCの方で更新して先程入れたpthを選択して...そこからどうしたらいいかわからない....。

2023/05/27(土) 19:35:48.08

配布物やと詰みなんか？
でも紹介されてるサイトだとpthファイルだけで良さげなんよなぁ…

2023/05/27(土) 19:37:28.28

盛んに更新されていく中でアフターケアがない買い物をしてはいけない

2023/05/27(土) 19:41:53.82

やっぱ買うべきじゃなかったのかな。1500円したよ...。学習済みpthの使い方っていうものだから買っちゃった...。使い方分からないのに買うのはねえ...。

2023/05/27(土) 19:47:41.68

vc clientならpthだけで変換できるよ
ファイルselectしてアップロードした後にモデルのドロップダウンにアップロードしたpthの名前があるからそれ選べばできるはず

2023/05/27(土) 19:49:14.65

rvc webuiは無理そうですね...。

2023/05/27(土) 19:53:18.95

雑に作っても破綻しにくく自然に喋れたり気合入れて素材を弄ってもケロケロ声になったりで難しい
どういう素材を並べたら綺麗になるのか未だに分かってない

2023/05/27(土) 20:06:27.50

vc clientってリアルタイムじゃない変換できるんじゃなかったっけ？少なくとも録音して変換後を出力するのはできる

2023/05/27(土) 21:02:10.65

>>62
とりあえず声変換したいだけなら、買ったそのweight(pth)だけでできるよ
indexあるなしで精度とかの問題はあるとしても、致命的な違いはないはず

道具が揃ってるならあとはおま環みたいなもんだから、状況を詳細に書かない事にはレスも誰も付けられないかと
まぁ開発者に直接問い合わせた方が早いけどね

2023/05/27(土) 21:09:18.51

>>67
ありがとうございます...！indexは同封されておらず、pthデータのみでした...。使用しているパソコンはMacでだだっこぱんださんのrvc_webuiを使用しています。

2023/05/28(日) 11:51:36.32

YouTubeにあったウマ娘に言ってない台詞を言わせた動画、作者が非公開にしてた
信者からそうとう攻撃されたんだと推察

2023/05/28(日) 14:13:44.48

https://uploader.cc/s/vmfdlg0vgyhn2oz2ukia6s5ef47ppijo9t5yu6mnvs4u6oo3hi64nsai2tfg913v.wav

リアルタイムボイチェンの結果
自分なりにかなりハキハキ喋ったんやがグニャグニャになってるな
・ノイズ消去
・音声分割して短すぎるデータとノイズ消せてないデータを破棄
とりあえずこれだけやったんやが他にクオリティ上げる方法あるか？
index指定したら何故かクオリティ下がった

2023/05/28(日) 15:01:55.23

もしうまく変換されないなら変調を上げ下げしてみると変わるかもしれない

2023/05/28(日) 15:57:26.44

インデックスなし
https://uploader.cc/s/u0s8qo388yggrvu20tt00zfoz1xrv5yeja10if04ph451e62k50akzoyz4sm81hr.wav

2023/05/28(日) 16:49:58.88

学習データ増やすのってどのくらい効果あるんだろうか

2023/05/28(日) 18:14:56.25

VC-clientとKoemake RVC Playerで試しにリアルタイムボイチェンだけやってみたんだけど、
主観的にバ美肉したい人からすると・遅延を限りなくゼロに近づける・自分の声を聞こえなくする　の2つが解消されないと無理そうだな…

結局自分のおっさんボイスは聞こえるし、0.3秒の遅延は「自分のしゃべった声だ」と認識するにはだいぶ遅い。
どっちも技術的に難しそうだしそれこそ両声類になれるようボイトレをするしかなさそうだ。

2023/05/28(日) 18:19:00.41

>>68の者です！一夜漬けして解決しました！macは難しいのでWindowsにしたところ簡単にいきました！やったー！

2023/05/28(日) 20:32:51.51

リアルタイムの場合は変換後の音は本人が聞く必要ないから別にどうでも良いんじゃ？
普段通り喋ったらええだけや

2023/05/28(日) 20:34:39.60

ある種の没入感みたいな？

2023/05/28(日) 20:35:30.41

言わんとする事は分かる

2023/05/28(日) 20:48:56.04

ゴリゴリオッサンボイスが自分の耳に響いてくるのに
ネットの向こうでちゃんと女の子ボイスとして反応してくれてるかって
クッソ不安になるやろな

2023/05/28(日) 21:18:04.83

とはいえ両方モニタリングしながらしゃべってると、結局トランシーバー会話になりがち
腹をくくるんだ

2023/05/28(日) 21:24:18.71

変換したボイスのスペクトラムとかだけ表示できる状態にしておくと安心感あがるんかな

2023/05/28(日) 22:25:32.32

ちゃうんよ
通話して相手に女の子ボイスを聞いてもらうんじゃなくて、ただ「わぁー俺女の子になってる～」感を味わってみたいんよ
VRで女の子のアバター着てみてもそんなに感動せえへんかったから声が変わったら何か違うかなぁとと思ったんやけどもね…
それこそ無理だろうけどフルダイブVRでもできんと無理よなぁ

2023/05/28(日) 23:58:09.18

このスレってVITSも管轄なんだろうか
ブルアカの音声変換とか出てるんだが

ttps://huggingface.co/spaces/zomehwh/vits-models

2023/05/29(月) 00:27:15.17

RVC webuiとbetaって性能に優劣ある？
webuiの方はやっとインストールできたけど今度はエラー出てなんも学習できんから気になる

2023/05/29(月) 06:19:50.34

>>1曰くオッサンボイスはRVCでも女の子ボイスになれんのやから0.3秒を縮めても無駄なんちゃうか

2023/05/29(月) 07:11:04.71

だからvは一人も使ってないだろ

2023/05/29(月) 21:53:13.27

colabでやってるんやがモデル推論harvestとcrepe選ぶと高確率でエラーになるんやがワイだけか？
数秒程度の台詞だと普通に通るんやが数分の長さの音源だとほぼエラーや
pmは問題無い

2023/05/30(火) 07:03:18.30

なにかひとつのおっさんボイスをどれだけ上手く変換かけられるかってやった方がクオリティの比較はしやすそうだけど

2023/05/30(火) 08:15:11.60

確かにベンチマークテスト用の標準音声みたいなのあると良いな

2023/05/30(火) 09:40:35.16

昨日触り始めただけど学習用の音声データって一つにまとめた方がいいのかな？
ボーカル抽出→Audacityでまとめて分割、そのまま連番で書き出したのをフォルダにぶっ込んで学習ってやってるだけど総ファイル数2600とかでこれでちゃんと学習出来てるのかわからん

2023/05/30(火) 10:15:09.79

>>90
一つの音声ファイルに結合したほうがいいかということならわざわざそんなことする必要ないと思う
step2aの段階で自動で無音部分をカットして切り分けてるみたいやからそうなる

2023/05/30(火) 11:13:19.34

>>91
ありがとう

息がかかった音声や高音、吐息？部分に機械的なノイズが入るのは学習データが悪いんかな>>72みたいに自然な感じにならない

2023/05/30(火) 11:36:32.97

ノベルゲーからボイス抽出するために10年以上ぶりにwestsideのツール使ったで

2023/05/30(火) 11:56:03.48

>>92
吐息に関してはマイクにポップガード付けてるから多少汚さが抑制されてるのはあるかもしれない

2023/05/30(火) 12:05:17.92

変換前も聞かないと変換がうまくいってるのか録音がうまくいってるから変換後も自然な音声になってるのかわからんよな

2023/05/30(火) 12:09:18.92

けど流石に元声のせる勇気はなかなか出せない

2023/05/30(火) 12:12:48.85

リアルタイムで配信やりまーす！　とかじゃなきゃNVIDIA broadcastくらいは
試してみていいんじゃねえの

っていうか配信やるのでもダブルで噛ましたらいかんのかな？

2023/05/30(火) 12:17:19.53

遅延とか音質考えるなら、その辺よりまずUSBマイクじゃなくてオーディオインターフェースとコンデンサーマイクでASIOにしてみたほうがいい気もする

2023/05/30(火) 12:26:21.59

USBマイクも相当遅延少ないんじゃなかったっけ？
今までのボイチェンだとボイチェンソフトを使わずにオーディオインターフェース側でボイチェン制御した方が遅延が少なかったから重宝されてたと思うけどRVCだと結局ソフト通さないといけないから

間違ったこと言ってたらすまん

2023/05/30(火) 12:29:57.45

雑音も声っぽく変換しちゃうからちゃんとしたマイク必須かな
ノイズカットだけじゃ環境音拾いまくる

2023/05/30(火) 12:31:11.18

ぶっちゃけただコメント欄を相手にVのガワでトークするだけなら遅延1秒あっても
リップシンクが不自然になる程度の話だと思う

激しいゲーム実況するとか歌を音源と合わせるとかになるとそうもいかない

2023/05/30(火) 12:38:38.72

動画とデスクトップ音声(マイク音声以外)を0.3秒ほど遅延させれば行けそう、って思ったけどそういうの意外と難しいんだな
OBSだけじゃできないっぽい？

2023/05/30(火) 12:40:06.59

麻雀アプリとか程度ならやれそうVのガワはAIイラストで作ってデビューするか

2023/05/30(火) 12:42:23.65

リアルタイム配信じゃなきゃ変換後の音声からノイズ手でとったり不自然な音声をカットしたりしてなんとかバレずにできないだろうか……

2023/05/30(火) 12:43:05.89

そのまま使ったらやっぱバレるんかねー
マージ必須？

2023/05/30(火) 12:44:00.01

まだ試してないけどワザとちょっとだけ環境音混ざったデータセット学習させたら環境音を声じゃない感じにできないかなと思ってる

2023/05/30(火) 12:45:23.64

声に環境音が混ざるだけと見た
もしやってみたら結果教えてほしい

2023/05/30(火) 12:58:11.12

2人の声データ混ぜたらどうなるんやろ？

2023/05/30(火) 18:04:51.79

声色が違う二人の雑談を学習させたけどミックスした中間の声は出なかった
自声の高さの近い方を選んで発音するようだ
声色の似た二人なら違和感はないかもしれない

2023/05/30(火) 18:07:55.92

RVCの性質に特化したノイキャンがあるとええんやがな

2023/05/30(火) 18:09:56.96

つまり低い声と高い声を使い分けられたら一人で二役発音できるｗ

2023/05/30(火) 18:45:18.76

まずはええマイクを準備や
Sphere L22買って声優現場デファクトスタンダードのU87モードで録るんや
USBオーディオインターフェイスはUNIVERSAL AUDIO apolloのQUADええの買っとけ

2023/05/30(火) 18:51:58.00

歌の収録とかするわけでもないならそこそこのでええよ
1万以下の安物とかは避けた方がええけど

2023/05/30(火) 18:55:35.29

3000円くらいの定番マイクにポップガードだけつけて
NVIDIA broadcastにノイキャンしてもらえばいいでしょ

2023/05/30(火) 23:43:30.53

音の処理はなんだかんだで初手アナログ相手なものやからフィルタ活かすも殺すも全ては最初のソース次第やで
ちな歌用はさらに値が張る

2023/05/31(水) 03:09:35.25

MMVCしか触ったことないけどどの手法でもお手軽に自然な女の子ボイス出せるようにならないのな

2023/05/31(水) 03:31:08.94

元の声質にもよるし地声ベースだと相性の良し悪しはかなりあるからね
ピンポイントで狙った声に変えるには、そっちにできるだけ寄せて喋る（歌う）訓練が必要やな

同性同士でこもった声をクリアにしたいとかの用途なら多少ハードルは下がると思う

2023/05/31(水) 04:13:16.47

>>112
誰がそんなクソたけぇマイク買うんだよ( 'д'⊂彡☆))Д´) ﾊﾟｰﾝ

2023/05/31(水) 06:43:15.35

ワイの声や喋り方の問題やろうけど言葉の最後がやけに機械音やざらつく
「お疲れさまでした゛」みたいな

2023/05/31(水) 10:08:14.19

目標サンプリングレートはデフォルトの40Kしか試したことないけど48Kにしたら質上がるんかな

2023/05/31(水) 11:23:31.35

いまはまだ40kしかv2モデルじゃなかった気がするから質はさがるんじゃないけ？

2023/05/31(水) 11:48:00.16

ほんとだ、48kだとv2って選択肢でないのね

2023/05/31(水) 12:32:37.72

VCCはいつv2に対応するんやろ

2023/05/31(水) 15:28:03.36

出力した音声で用意した音声ファイルとは別の何かを後ろで言葉喋ってるように聞こえるのは学習回数が少ないのが原因かな？

2023/05/31(水) 15:35:10.89

好きなキャラに好きな曲歌わせたいって理由で手出したけどこれまず学習元の音声最低20分分用意するのが割と難易度高いな

2023/05/31(水) 16:01:22.12

配信者とか声優だと楽だ🤗
アニメキャラとかだと発話分割して手作業で分けるのかな🤔

2023/05/31(水) 16:12:00.74

学習は自動で放置できても結局はそれなんよね
学習元データの準備から始まり、選別、加工でそれなりに時間拘束されるからなかなか捗らん
AIなんだしゆくゆくは全自動でやれるようになるかもしれんけど

2023/05/31(水) 16:17:31.47

今まで吐息とか笑い声カットしてたんやけど、そのまま入れた方が良い説もあるんやな
喘ぎ声や吐息が謎言語になる現象がマシになるならやるけどどうやろ

2023/05/31(水) 16:32:13.23

前スレではカットした方が良い論者の方が多かったような
曰くpthじゃない元のモデルに入ってない音はそもそも出せない云々

2023/05/31(水) 16:55:33.91

誤変換は余計なデータ多かったり過学習によるものもあるだろうから
シンプルな学習で意外とノイズレスに収まるケースもあるよね

2023/05/31(水) 16:57:03.05

笑い声入れてると無音部分にノイズ乗るで

2023/05/31(水) 17:47:33.31

吐息ってのは普通に結構な音にのる「ふーー」みたいな奴のこと？

2023/05/31(水) 18:10:28.72

笑い声入れとけば「ふふっ」みたいな声が意味不明な音声の羅列に変換されちゃう問題も解決するんじゃないかと期待してたけどそんな甘くないか

2023/05/31(水) 21:43:36.49

自分用に作ったやつやけどせっかくだからお裾分け
ボイスピークで適当に早口言葉を言わせただけの内容や
https://uploader.cc/s/pyty0n64o2e80poovx68fz4oxivkpoqow2mva0rxy7xm2wxwv4kl8iwrp28eo4u1.zip

2023/05/31(水) 22:00:42.76

あんま笑い声とか試してなかったけどははって笑うとふぇぁふぁみたいになるな確かに

2023/05/31(水) 22:14:04.01

>>134
すまん
説明が無いとこれがなんなのかわからん…
ボイスピの声を学習させてこのセリフをあなたが直接喋ってるって事？

2023/06/01(木) 00:03:21.19

>>136
ただ単に学習した音声の具合を雑音無しで確認する為だけに作ったやつや
早口だと上手く喋ってくれない事とかあったから連続した音声にしてる

2023/06/01(木) 02:38:58.79

これはt2s音声読み上げサービスのやつやないの？定番の男女と幼女の声やし

2023/06/01(木) 07:34:59.06

短い音源を使ってモデル1を作る→モデル1に何か適当な相性のいい発話音源を読み込ませて音源1を作る→元の短い音源に追加で音源1も含めたもので学習してモデル2を作って完成

2023/06/01(木) 09:28:34.58

>>138
もちろんYou Tubeとかでたまに聞くあの声ではあるけど
単に生成した音声をこのスレで上げる意味もないし自分で喋ってるんだと思うよ

2023/06/01(木) 21:13:50.01

歌を歌わせたいんだけどボーカルリムーバーで歌をボーカルだけにしてRVCかけてるんだけど歌がハモってるところがテンでダメなんだよなぁ…

ハモリやエコー消す方法ってある?

2023/06/02(金) 01:14:16.40

UVR5のリバーブHQでエコーは多少マシになるけど声重なってる系の曲は俺もどうしようもないわコーラス消せればなんでもできるんだけどな

2023/06/02(金) 01:24:50.71

UVR-MDX-NET Karaokeはハモリ消してくれるで

2023/06/02(金) 05:00:58.91

>>142
なるほどこれでリバーブ消えるのか
でもハモリがあると拾っちゃうんだよな……ツラミ。
>>143
ｆｍｆｍこれでハモリが消えるのか……
リバーブが残ってると雑音入っちゃうんだよなぁ……悲しみ。

………ん？

2023/06/02(金) 11:32:03.36

リアルタイムに発音をラッピングするのはすごいけど
やっぱり地声と違うボイスはガビガビするな

2023/06/02(金) 11:33:09.62

自分では普通に話してても滑舌が悪いのを思い知らされたわ

2023/06/02(金) 17:30:09.64

RVC1ヶ月追ってないけど、楽曲放り投げて一発でモデル作れるようになった？

2023/06/03(土) 18:49:58.30

>>142
>>143
なるほど２つかけたらいい所まで消せたよ。これはすごく捗るよ
ありがとうm(_ _)m

2023/06/03(土) 20:47:56.25

v2って結構大幅に変わった？同じ条件で学習してもv1の時より滑舌悪くなってロボット感が増したわ

2023/06/03(土) 21:09:58.41

多分過学習

2023/06/03(土) 21:22:25.06

>>150
さんがつエポック減らしてまたやってみるわ

2023/06/03(土) 21:50:04.07

loliを追い求めてマージを繰り返すあまりjcくらいのが出なくなることあるわね…

2023/06/03(土) 21:50:52.23

すまん誤爆

2023/06/04(日) 01:20:02.65

作りたいモデルの歌声素材がない場合どうしてる？喋り声でモデル作って歌わせた声を素材にすればいいのかね

2023/06/04(日) 12:18:17.63

喋り声だけだと多分高音域のデータ足りなくてがびると思う

しかし喋る方はまだまだかもしれないが歌はもう生身と区別つかないレベルまできてるな
まあ歌は変換後の作業が大事で
Mix、マスタリング辺りの知識と技術が必要でそれがクオリティに直結するからお手軽とはいかないが

2023/06/04(日) 16:28:25.67

逆に言えば編集作業でコンプレッサーやマキシマイザやらリ細いのを太くしたりバーブピッチ修正やらで質は伸ばせるけど
会話とかリアルタイム変換は誤魔化しが効かないから大変やで

2023/06/04(日) 17:01:53.02

久々に素のRVC入れてみたらなんか学習は出来たけど変換エラー出て出来ないや
まあweb-uiの方では出来たんやけど

2023/06/04(日) 18:22:15.40

リアルタイムで違和感なく、ってレベルになるにはあとどんくらい掛かるんやろうか
意外と近い気もする

2023/06/04(日) 19:13:32.18

ボソボソ喋る滑舌が悪い奴が使っても駄目だな

2023/06/04(日) 19:33:10.71

滑舌良くもなんか不自然になるんだよな

2023/06/04(日) 22:03:17.43

コンプレッサーとかマスタリングで調整するなんてアイドルソングとかなら当たり前なんだから、そこまできてるってことでもある

2023/06/05(月) 16:28:23.65

まぁアイドルだとか声優だとかは声だけじゃなく付加価値路線で売ってるようなもんだから

2023/06/06(火) 23:50:55.28

ボーカルとコーラス分離できるやつでDemix pro以外でオススメある？
Demixはrvcに付いてるやつより質良くてコーラス含めて変換できるレベルだけど有料なんだよな

2023/06/07(水) 09:45:22.93

歌声りっぷとかWebUIのやつじゃダメなんか？

2023/06/07(水) 10:28:40.57

Demix proとiZotope RX10ってどっちが分離上手なんだろう
比較動画が見当たらなかった

2023/06/08(木) 16:43:15.40

体験版でちょっと試してみた
元音源：YouTubeにあった蛍の光
https://uploader.cc/s/887ar565myfmf40nzp7vfbnp19gzlqkmi1yb43a18vzprgd80obl21z46v4hlbf3.wav
ボーカル(vocalremover.org)
https://uploader.cc/s/130tl6jjbioyflzn15s5nrfn3sc9uxpoe9e7pgpzyelwtzjjjpi1fzz6h9p1750t.wav
インスト(vocalremover.org)
https://uploader.cc/s/1mwavgb4cgjydrm16xbx6r3tz41a7ie0xor945juhksriivg6fh4owb3hgqowgk5.wav
ボーカル(RX10)
https://uploader.cc/s/x8zz58bxb78pg559m03nb0yjfjhqg6tca2nnbhl2j2te7roo5g4i8j8jezosoflw.wav
インスト(RX10)
https://uploader.cc/s/2pznmsjlxh1sohfauv3xtlsgrh482xsi2d606f6shg9ehuykggurbu2axa57b4j0.wav

2023/06/08(木) 16:45:54.07

ボーカル全部(DeMIX Pro)
https://uploader.cc/s/465kpgrxbt7bir8vm6g329vsa6etkmokrb323qi8erum7wthz9t32glqwq75wjz2.wav
リードボーカルのみ(DeMIX Pro)
https://uploader.cc/s/9d4p202p4fkadgfa5yypyvsfxdk0efnn3suetbz6kv8s80mrshhp9zi9kkn0hrf9.wav
リードボーカル以外(DeMIX Pro)
https://uploader.cc/s/xm6sksxgm9zfiplil59px2knv0qjn9gf1un00eyyu2qnncooa57dmjbiad6w726o.wav
インスト(DeMIX Pro)
https://uploader.cc/s/co2gf0emf39ei122sae06yuqd6uowd2z2tumf4kg2uq7bd6iqnlawixaa8qaz5t5.wav

ボーカル抜くならDeMIX Proの方がいいかなぁインストはRXの方がきれいに抜けてるけど後半の低音部分が残ってるとこ有るね
DeMIX Proのリードボーカル抜ける機能はいいけど、値段が高いのがネックか
今のとこDeMIX Proのみだけどそのうち他のとこも追従して実装しそうな気がするUVR5はうちの環境で利用できなかったからどっちが優秀かわからん

2023/06/08(木) 23:42:03.11

UVR5でやってみたで
ボーカル全部
https://uploader.cc/s/763pq6w4vyzmjszfk632a3w7i369evsu0xtz9vj6y44emu8c6fodi8uyxvqejrf9.wav
インスト
https://uploader.cc/s/lxzl4pf7p5t8g0eseybvbswcukoorhkyt1ow8y1i6crx1nczi1me5n8ukizwjjdp.wav
リードボーカルのみ
https://uploader.cc/s/vusqk6z12a1ztdee7r9wem47sad6dsx9pbt260dcfw290cvq45fxeac72e87sk1q.wav
設定は前スレで紹介されてたやつでやった。ハモリ除去は5_HP-karaoke-UVR使ったけど全然駄目だな。ハモリだけ抜くやり方は分からん

2023/06/09(金) 07:35:04.58

ボーカル全体抜いてからリードボーカル抜けばハモリ抜けるよ

2023/06/09(金) 17:38:43.98

割とマジで突き詰めていくと学習データはかなりいいとは思うがそれに対する入力環境(ワイらのマイク・喋り方)がダメってことになってくよな
喋り方はともかく、環境は一朝一夕じゃどうにもならんからなぁ

2023/06/09(金) 18:16:49.64

ぼそぼそしゃべる声を変換するなら、ぼそぼそ喋る音声学習しないとダメだわな
誰それが演じた声を変換するなら、やっぱり自分も演じないとだめよ

2023/06/09(金) 18:54:09.99

喋り方も難しそうだけど発音はどの辺りまで吸収してくれるかだよな。ぼそぼそは母音を弱化してるのか子音が異なるのかどっちもかな

2023/06/10(土) 00:34:43.85

クオリティ高い声優のpth持ってる奴いる？

2023/06/10(土) 10:59:39.73

うんこもらした

2023/06/10(土) 10:59:53.67

↑ミス

2023/06/10(土) 12:09:30.05

それは明らかにミスだな

2023/06/11(日) 07:52:27.34

RVCで作ったpth使って
moegoeでTTSできた人います？
RVC側のjsonとか流用して試したけど出来ませんでした

2023/06/11(日) 11:04:40.65

歌わせるの楽しすぎてお絵描きAIに全然手がつけられなくなってしもた😣

2023/06/11(日) 16:32:04.14

>>177
そもそも学習方式は色々乱立してて基本的に互換性も無くてその都度変わるから
サポートをうたってるものは別としても基本的にはそう単純な話ではないよ
同じプログラムでさえバージョン上がって前のは使えなくなりましたなんてのもザラだし

2023/06/12(月) 11:37:07.59

RVCv2の学習もとデータってサンプリングレート40kで用意するの？
事前学習のファイル名が40kてなってるので気になって。

2023/06/12(月) 16:41:31.43

v2のpretrainedモデル、latestがないやつとあるやつ（pretrained_v2/f0G40k-latest.pth）
があるけど、どっちの方が最新版なんだろう

2023/06/12(月) 16:43:13.77

今まで特徴抽出→モデルのトレーニング→特徴インデックスのトレーニングって操作してたけど、
ふと隣にあるワンクリックトレーニングボタンが気になって調べたらこれを押すだけで良かったと知り泣きたくなった

2023/06/14(水) 21:21:47.68

VCclientなんか常に送受信してるけどオフラインで使えないんですかね？

2023/06/15(木) 10:04:41.82

「いまイラストAIさわってるやつは遅い。次はRVCだ。今はオタクした触ってないからチャンスだ、急げ!」
とか意識高い系ﾂｲｯﾀﾗｰが煽ってたはずなのに閑散としてるの面白くてすき
5月28日に0528v2がアップされて「無声子音と呼吸保護モードを追加」とcrepeっていうピッチ推論の方法が選べるようになったぽいな
今から試すぞ

2023/06/15(木) 10:05:35.33

そういやちらっと検索でBoothのRVCモデルみたんだけど、あっ売るんだっていう(クソ高い)
声の出処も出所不明だし。ここのニキらはまぁ買わんだろうが……

2023/06/15(木) 10:21:39.76

夏目漱石『吾輩は猫である』⑴ (192kbit_AAC)_04.mp3"
内容：12：02分
▼Crepe
Time:
npy:4.688856601715088s, f0:62.89345026016235s, infer:14.791491031646729s
=80s

▼Harvest
Time:
npy:5.395530462265015s, f0:280.4101469516754s, infer:14.024797677993774s
=299s
お～Crepe早いわ。GPU使うらしいのでつよければつよいほど早いっぽい、しらんけど。

2023/06/15(木) 10:24:24.51

ぶっちゃけモデルを売るよりも素材加工から学習・変換までの流れを教えるサービス始めた方が売れそう
権利的にも問題ないからそこに関してはトラブルになりにくいだろうし

2023/06/15(木) 10:27:51.43

NS1みたいなノイキャン通すとリアルタイム変換の品質上がるのかなあ

2023/06/15(木) 10:54:49.42

2時間超えの朗読ぶちこんでも落ちずに変換してくれた。とはいえ10分超えはつらいのでやっぱトリムしてテストしたほうがええわ
夏目漱石『坊ちゃん』（前編） (192 kbps).mp3"
2時間16分44秒
Time:
npy:48.670037508010864s, f0:670.937814950943s, infer:154.397399187088s
=872

2023/06/15(木) 11:55:01.12

イラストAIと違ってそこまで拘れるとこ無いんよな
ノイズ除去と、こだわる人は発話分割して学習に向いてない音声除去した後学習させるだけ
呪文やらも無いから情報交流もそこまで要らない

2023/06/15(木) 11:56:21.73

あと成果物見せるとき貼りづらいのもあるな

この辺のせいで過疎ってるのかも

2023/06/15(木) 12:19:26.10

イラストと違って今の時点でそこそこ完成してるから試行錯誤とかそういうのない

2023/06/15(木) 12:43:14.46

モデルとプロンプトだけでハイクオリティイラストガチャ楽しめるAIイラストと違ってAI音声は出力用の音声も自分で用意しなきゃならないから面倒だし楽しさに欠けるんだよね

2023/06/15(木) 13:06:28.13

成果物貼って反応聞きたいって気持ちはあるんだけど、どのろだ使えばいいかわからん

2023/06/15(木) 14:13:09.73

そういわれてみればイラストのほうは0→1ができるけどRVCは今のとこ変換だけだからか
Barkとか拡散モデルで音声生成できるから面白そうなんだけど、なんか進展あるかと思って覗いてみたらいまだに音声学習は対応してないしつまらんな

2023/06/15(木) 14:27:35.09

ワイの使ってるヘッドセットやとノイズ鳴るみたいや
録音に使う機材はそれなりのグレードいるんやろか…1万円前後のマイク調べればええか？

2023/06/15(木) 14:45:29.36

ワイは手作り感満歳だけど自作のコンデンサマイクとストッキング製ポップガードでうまく録れてる気がする、費用300円くらい

2023/06/15(木) 15:59:12.15

声のリアルタイム変換は一度やって満足しちゃうと、応用思いつかないとかで飽きる人多そうだしなぁ
そもそも一人暮らしじゃないと活用しにくいよねってのもあるから、需要あるとしたらインドアゲーマーや配信者とかくらいじゃないかな

>>196
コンデンサマイク使えば音質はヘッドセットのそれとはかなり変わるだろうけど、
結局ノイズは更に拾いやすくなるから、環境音色々入る場所では使いにくいよ

2023/06/15(木) 16:03:36.60

まずDSP入りのオーディオインターフェイス買え
thresholdをエフェクターのゲートで設定しろ
マイクはshure WL184以上の奴を買ってこい

2023/06/15(木) 18:28:37.57

VCclientのノイズゲートと酷すぎないマイクでいいよ

2023/06/15(木) 19:13:16.52

作ったモデルのクオリティチェックにちょうど良い音源ないかなあ

2023/06/15(木) 19:54:27.75

しゃべらせるなら前スレにあった石鹸のやつとかでいいんじゃない？

2023/06/16(金) 07:57:21.06

voicemeeter bananaとか使うと、PCで再生した音をそのままリアルタイムボイチェンに渡せるのでオススメ

2023/06/16(金) 07:59:16.64

夏になって気がついたが扇風機やエアコンの音をマイクで拾うと謎言語で勝手に喋りだすなｗ

2023/06/16(金) 09:22:38.44

喘ぎ声変換してみたが吐息で謎言語になって笑ってしまう
「あんっ♡はぁ…はぁ…もうだめぇ～♡」→「あんっ♡ﾎﾞｧﾎﾌ…ｴｫﾝﾘ…もうだﾊﾍｪ……♡」

2023/06/16(金) 09:31:32.15

サ行が全部スになって田舎臭くなってまう

2023/06/16(金) 09:31:53.70

本当なんだすか？

2023/06/16(金) 17:52:26.57

>>202
ありがとう今度やってみる

2023/06/16(金) 18:37:11.61

田舎なまりというか
トレーニングに使用したモデル次第で中国人ぽい発音になる事は結構あるね

2023/06/16(金) 22:52:21.18

さすがに吐息や喘ぎ声は無理やろな・・・

2023/06/17(土) 00:26:39.60

エロ音声変換は自分もやってみようとしたことあるけどチュパ音とか水音も潰れちゃうから実用性低いよね
SE入ってるやつだとSEまで謎言語に変換されちゃうし

2023/06/17(土) 00:45:23.51

普通に喋って後でフリーの水音やチュパ音足すとか？
いやーだりいな

2023/06/17(土) 01:19:11.40

実際のアフレコだと腕とか指を吸ったりして出してるから、学習させてれば同じやり方で出せるかな？

2023/06/17(土) 01:28:40.41

全ての音が謎言語に変換されることを逆に利用して淫夢語録全部突っ込んで適当な楽曲変換すれば音MAD出力できる？

2023/06/17(土) 11:58:00.49

セリフ以外の効果音や喘ぎはサンプラーとかで鳴らしてミキサー通せば行ける？

2023/06/17(土) 14:17:26.11

好きな声を2つマージして最強の声を作ろうとしたけど2つの良さが消えて下位互換になるなこれ

2023/06/17(土) 15:13:18.35

hubertモデル使ってる以上は色々限界あるでしょ

2023/06/17(土) 15:46:04.23

jp-hubert系って効果あるのかな？

2023/06/17(土) 17:47:54.34

ttps://youtu.be/aOqwCQignwA
こういうネタもあるやね

ってか委員長、見ってる～～？
(多分見てない)

2023/06/17(土) 20:13:34.05

jp-hubert系効果あるって人と良く分からんて人おるね
声質や相性次第なとこもあるんかもしれないけど、自分で試すのが早いと思うで

>>219
当然だけど同性変換（特に声のピッチ帯が同じ場合）の方がハードル低いで

2023/06/18(日) 09:02:57.56

>>219
こういうので認知度が上がって触る人が増えると技術も進歩するからありがたい

2023/06/19(月) 00:28:29.07

石鹸のやつ教えてくれた人サンガツ

音程の高低が全然再現されないし品質も悪いな、元の声と二重にかぶさって聞こえるし
学習素材は足りてるとおもうんだけどなぁ
ちなみにパラメータはピッチ変更0, 検索特徴率0.93, その下のパラメータは0, 1
https://uploader.cc/s/k6kprhvqjqzzy12zzm8yaenzfxyd2mnrafek8dkxlrxhzopm0k0gf2dhrv5fcl61.wav

2023/06/19(月) 15:10:58.53

どうしてこうなったみたいな事になっとるねｗ
何かやり方を根本的に間違えてるか、学習がうまく回ってない気がする

2023/06/19(月) 15:48:02.23

ピッチ変更って意味ある？
高音出てないorガビるからピッチ下げるかって下げても全体の音程下がるだけで高いとこは変わらず出ないわ

2023/06/19(月) 16:01:03.90

原理として変換前の主音声のピッチを上げ下げして変換されやすいようにするためのものであって、変換後の音声を補正してくれるものではないよ
大抵は、男⇔女でピッチが1オクターブ違うからその補正では効果が分かりやすい

当然高いピッチの素材用意して学習してないと変換対象が分からずガビる
延々と同じピッチで喋る（歌う）素材ばかり用意してもそれほど意味が無く、高低様々な音域でデータを用意することが大事

2023/06/19(月) 16:01:59.06

クオリティ低いモデルでもクオリティ高めのモデルと7:3くらいでマージすると声の特徴をある程度保ったまま安定して動くようになると分かった

2023/06/19(月) 16:04:49.80

要は、男→女のケースで見た場合、
元々女性並みに声の高い男性や裏声で喋り続けられるならピッチ処理は必要無いって事やな

2023/06/19(月) 17:01:32.48

元音声をハードウェアのピッチシフターで1オクターブ上げた方がいいとか？

2023/06/19(月) 19:29:22.30

8割方入力の声で決まるなキモい話し方でしっかりマイクに入れた方が結果ええな
https://uploader.cc/s/l93vb4pgfrug26tlj5g2cmwygbodc8eox5kbw656poyiren3jbjgmd5yde9g7op2.mp4

2023/06/19(月) 21:03:07.34

同じ素材でもepoch数変えるとクオリティ変わる？

2023/06/19(月) 21:42:17.87

V2でも48kで学習できるようになってるけど40ｋの方が荒出にくい気がする

2023/06/19(月) 22:10:41.12

過学習と学習不足にならない限りはそこまで変わらん印象

2023/06/19(月) 23:21:17.29

全然関係ない話なんだけど
ガビるって表現はなんか凄いな　初めて聞いた

2023/06/19(月) 23:55:30.27

ライ虐？

2023/06/20(火) 01:59:47.59

Ai絵スレではよく使われるな
しょっちゅうガビるから