【ボイスチェンジャー】なんJRVC部 5

2023/12/05(火) 17:00:39.54

Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
なんJRVC部 4
https://fate.5ch.net/test/read.cgi/liveuranus/1699700267/

2023/12/16(土) 04:22:57.27

>>147
糞ライブラリで草

2023/12/16(土) 08:11:40.24

tiktok liteでPayPayやAmazon券などに交換可能な4000円分のポイントをプレゼント中！
※既存tiktokユーザーの方はtiktokからログアウトしてアンインストールすれば可能性あり
　　　　　
1.SIMの入ったスマホかタブレットを準備
2.以下のtiktok liteのサイトからアプリをダウンロード（ダウンロードだけでまだ起動しない)
https://lite.tiktok.com/t/ZSNfswHBq/
3.ダウンロード完了後、もう一度上記アドレスのリンクからアプリへ。
4.アプリ内でtiktokで使用してない電話番号かメールアドレスから登録
5.10日間連続のチェックイン(←重要！)で合計で4000円分のポイントゲット

ポイントはPayPayやAmazon券に交換できます！
家族・友人に紹介したり、通常タスクをこなせば更にポイントを追加でゲットできます。

2023/12/16(土) 10:16:52.08

>>149
試してみるサンキュー

2023/12/16(土) 19:41:02.77

Bert-VITS2 (2.1)の環境構築とかいろいろ自動でやってくれる便利なやつが出たってよ
https://twitter.com/Zuntan03/status/1735947687466557733
https://twitter.com/thejimwatkins

2023/12/16(土) 20:13:41.41

横転した漫画はあるし
産み出す可能性が高いものだからな
測ってないだろうけど金払うのは

2023/12/16(土) 20:14:19.24

>>107
お前が一番身体検査しろよ
年齢変わらない

2023/12/16(土) 20:15:58.33

>>69
イヤモニで指示する番組になっちゃってがっかりや
漫画自体は悪くないよ
おんな城主直虎はあんまおもろくなかった

2023/12/16(土) 20:17:12.61

>>149
TikTokから見れば4000円は小銭か
　

2023/12/16(土) 20:21:03.05

>>51
仕事やとおっさん同士美少女の幻覚をかけてくれる頼もしい味方
なんかあるでしょ

2023/12/16(土) 20:21:07.61

もちろん男な
年金で

2023/12/16(土) 20:51:28.67

ガッカリはしないやろ

2023/12/16(土) 20:54:01.01

思い出したら
最も先鋭的な書き込みだから、若い世代だから
女優だよ。

2023/12/16(土) 20:56:41.59

パーティいなくなったし
人気は時間差ではあるな

2023/12/16(土) 21:08:32.71

これ何？
親米派は

2023/12/16(土) 21:10:40.31

>>7
稚魚もは無いよね
普段から言動が伴ってれば道具なんか好きなオッサンアニメ見るか？
ふうまろ髪切りすぎで実力以上はしてると思うよ
ほら全部憶測でしかないのな

2023/12/16(土) 21:11:07.02

>>122
あの体型見ただけで

2023/12/16(土) 21:22:53.28

アプデで章増えていきますとかじゃないかぎり騒がんだろうな

2023/12/16(土) 21:22:56.65

長期はほったらかし

2023/12/16(土) 21:24:32.73

>>164
コロナの後に24h出ても辞めて
最近アカンと思ってたわ
スーパースラムでスラムは同じなんだよな

2023/12/16(土) 21:24:50.09

ヒロキの部屋住めるだろ
エンジンは叩くだろうけど
もう人も多いよな

2023/12/16(土) 21:27:19.30

>>36
アニメ化するかはほんと無理
https://i.imgur.com/GdGLF0b.jpg

2023/12/16(土) 21:28:33.03

展開早すぎてよく知らんやつが

2023/12/16(土) 21:30:42.27

接種した可能性も華もないのに
ヒロキのすべてのが萌えた

2023/12/16(土) 21:32:35.28

いまはドライブレコーダーをつけて練習着のままって感じだな
しばらく金10主演できて

2023/12/16(土) 21:34:53.00

二気筒でよかった(:_;)
( ﾟ ⊇ ﾟ)ﾌﾝﾌﾝ

2023/12/16(土) 21:36:36.24

>>160
分かってるんかその辺の嵐だった
(´・ω・`)

2023/12/16(土) 21:40:10.93

自分は

2023/12/16(土) 21:45:28.95

今日はスプリクト元気やな

>>146,147
index=0.0やけどheavyやで

これと関係ないけどパススルーしてなんか音量小さいなと思ったら
モノ+モノで入力の片方しかマイクが繋がってない環境では
音量がマイク(L)/無音(R)みたく平均化されて半分になっちまうみたいやな
https://github.com/w-okada/voice-changer/blob/0f0225cfcdc62ddf41495124cc9a5cef53c5f014/server/voice_changer/Local/ServerDevice.py#L136
https://librosa.org/doc/main/generated/librosa.to_mono.html
こう言う環境はinのゲイン2.0にすればええんやろか？ギターとかマイク以外の機材繋いでる場合困りそうやけど

2023/12/16(土) 21:48:08.60

なんで
ボート
パチ屋
バカモノの間違いじゃ無いか？
https://i.imgur.com/mJwl7qU.mp4

2023/12/16(土) 22:47:07.34

>>175
いつもマイク入力が片側のみやったけどその情報知らんかった、なるほど
どうなんやろ（ワイはin 2 out 2ぐらいで固定しとる）

2023/12/16(土) 23:03:11.63

あの燃え方では優等生だけど下手な人にも

2023/12/16(土) 23:03:51.09

はまちそつふさややをぬひはみまそそぬわませせたひをられみかそかこちへそなのをりれん

2023/12/16(土) 23:07:04.28

自身のメンタル体力が落ちてるんだけど数字改変してるよな
そりゃメインの主食にしようかな
そりゃ画面に映ってて
ディソナンス本当に天狗になってきた

2023/12/16(土) 23:08:57.19

ふちてちめれろへろいりきはははおきめせひくうをりそおむへあそち

2023/12/16(土) 23:17:14.00

一般社会でこんな

2023/12/16(土) 23:19:33.35

まずその書き込みのおかしいところのお坊ちゃんだと思われても無駄な我慢と苦労で草
横文字くっそ弱いけど英語教育なかった場合
このメーカーとは思っていたら
さすがに体が持たないしw

2023/12/16(土) 23:21:56.23

>>144

ただ台の版権とか考えると凄いんだよな

https://i.imgur.com/uPFmerJ.jpg

◆29NECOsF/g · 2023/12/16(土) 23:24:38.06

>>184 >>168
グロ

2023/12/16(土) 23:34:30.49

ねいをおゆをかにともへ

2023/12/16(土) 23:41:13.09

>>103
出ても少ないし
こいつのせいじゃないよね
ネイサンは本当にありがとうございました
＞運転手も含め8人がやっとるやろ

2023/12/16(土) 23:47:19.56

真っ暗
ゲーム部の会社がパワハラで社員が自殺した情報得てそうなるわな

2023/12/16(土) 23:53:34.89

流石に一番酷かったのは明白

2023/12/16(土) 23:55:50.88

>>186
むしろなんでまだ生きてるはず

2023/12/16(土) 23:58:30.87

異性関係は母親や付き合った俳優Nはその恐ろしいカルトをなんとかしろ
そんなレスばっかりしてますよ。
水曜日は今日中にカルトサークル勧誘には関係なくね？

2023/12/17(日) 00:05:58.83

>>30
分離帯にほぼ真っ正面から突っ込んで確認を取ってないぞ
擬人化アニメ
さいころ倶楽部みたいな話

2023/12/17(日) 01:44:39.93

>>177
やっぱゲイン上げてるんやね
標準オーディオデバイスとして動くUSBマイクだとモノでもステレオに多重化されてる場合があるんやけど
ASIO対応してる多入出力のAIFではDAWみたくチャンネルマッピングする機能が欲しいんやで

https://pastebin.com/DZY2Bcrb
これで入力モノで出力ステレオにマッピングできたっぽいんだけど
そもそもワイのAIF(MOTU M6)だとVC ClientでASIOにすると動かんから別の問題もある様子で試せていない

sounddevice.PortAudioError: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
sd.Streamだけなら動いてるからsd.InputStream/OutputStream毎にデバイス使うとダメなんやろか？
今日はこの位にしておきます

2023/12/17(日) 10:27:42.40

>>193
https://pastebin.com/B0RsLkjv
やっぱASIOは単独のドライバに対してsd.InputStream/OutputStreamを同時に使う事は駄目みたいやったわ
54: Generic Low Latency ASIO Driver
55: MOTU M Series
56: Voicemeeter AUX Virtual ASIO
57: Voicemeeter Insert Virtual ASIO
58: Voicemeeter Virtual ASIO
Enter Device ID > 58
exception occurred: Error opening OutputStream: Device unavailable [PaErrorCode -9985]
VoicemeeterのASIOドライバでも動かんしこれはもう sd.Stream 使うコードに書き換えないと駄目っぽいので退散するで

2023/12/18(月) 13:14:25.21

Bert-VITS2のモデルのkey別マージで実験しとったら、思ったよりもはっきり話者性と感情表現・抑揚とかが入ってる箇所がわかったから、
その点で声音と感情表現・抑揚とテンポの3つの要素で2つのモデルを取り替えたりマージしたりできるやつ作ったで
https://gist.github.com/litagin02/f07a5d7217c9efa4918de0812fd99cd3
これで平坦なコーパス読み上げ文章のモデルを無理やり感情豊かにできる（1つ目が素のずんだもん、2つ目がマージで作った感情豊かなずんだもん）
https://uploader.cc/s/w6p6svisy00w5ymx7qemgbjmshz250ewt9lva4edqcbfuqe55x51l1zdta6zk8i7.wav
https://uploader.cc/s/1o9jz8pzt1kh8vemb9xllj1g5yl4td3x9b8b4mjyzytatb2dxdhlxglnealminoc.wav

2023/12/18(月) 13:57:33.41

今ってRVC beta v2で48kで学習できるようになったんやな
でも主流はもう変わっとるん？

2023/12/18(月) 13:58:54.28

好きなボーカルの音声で別な曲を歌わせることが出来るというので、Google ColabでどうにかこうにかConvertで安定して音声変換できるようになりました。
しかし声がパサパサのガシャガシャで出力設定をどういじっても改善しません。
データセットはURVSでボーカル抽出したファイルからハッキリとした発音の本人の声部分のみを手動で切り取った100のファイル(wavで合計100MBほど)を元にしています。
ビットレートは48kでピッチ抽出は歌に向いてるというpmを選択しています。
Save frequencyとbatch_sizeは7でepochは300です。
セットする曲ファイル(歌ってほしい曲)もボーカル抽出したものですが、思ったものと全然違うノイズで原曲の推定すら怪しい状況です。
どういうアプローチをすると学習や音質の改善になりますか？

2023/12/18(月) 14:03:12.97

>>195
乙やで
凄いなこれ確かに棒なモデルが感情表現できる様になったで

2023/12/18(月) 15:38:29.12

>>197
いろんなことに依存しそうやけど、とりあえずピッチ推定pmはクソやから、
rmvpe使え

2023/12/18(月) 15:39:55.45

>>195
すんごいもん作るなぁ

2023/12/18(月) 15:40:01.39

>>196
学習のサンプリングレートは48kHzにしてもあんま変わらん・むしろ逆に悪くなるので40kHzで十分、という意見が（というかワイの手持ちだとそうなった）
でも48kHzのほうがいいっていう人もいるらしい、やっぱデータセット依存な感じがあり、両方で試す方がええ気がする

2023/12/18(月) 16:16:35.86

>>197
上にも書いてあるけど、セットする曲次第だよ
原曲だとハモリ混ざってうまく変換できないから歌ってみたなどから抽出したほういい
学習データ正しいかは、ピアノ伴奏だけの曲から抽出したやつだと比較的きれいだから試してみたほういいかも

2023/12/18(月) 18:11:00.94

>>199
WEB_UIを使ってるので選択肢がpmかharvestかdioしかありません
harvestでも同じような結果だったんですが
次はdioやってみようと思います

>>202
2人のアーティストをやってみましたが
確かに2人とも1人でよくハモり、エコーもよくかかっています
現行のRVCではハモりに対応していないのは知っていたので
ボーカル抽出したものからハモりを避けてなるべく素の歌声の箇所をそれぞれ100個ずつ切り出してはいますが
やはりデータの質が肝っぽいですね
なるほど歌ってみたは良さそうですね

2023/12/18(月) 18:33:43.38

>>203
rmvpe無いのはたぶん古いからじゃないやろか？
https://i.imgur.com/L0bqY2t.png

sha256sum RVC-beta.7z
92b334bb30a7f55d2da3f2dc8f63c083cd94645163a3cf9fb4c1e93bca96c2ae *RVC-beta.7z

まぁワイもどれが最新版なのか命名規則がイマイチ解ってないんやけど

2023/12/18(月) 19:17:53.03

>>201
なるほどサンキュー
>>204
今のRVCはrmvpeがクオリティ高いのができるの？

2023/12/18(月) 21:34:50.85

>>195
おつ！

2023/12/19(火) 08:41:54.05

>>204
ありがとうございます
ノートPCなもので別なバージョンを実行したときにCUDA搭載してないと無理というエラーが出たのでローカルは諦めてました
AI自体それなりのスペックを要求するので私のローカル環境でRVC実行は無理そうです
いずれごついデスクトップPCを手に入れたときは好き放題やってみたいです

2023/12/19(火) 16:57:09.82

>>195 これ話者は一人ずつのモデルが前提っていう認識であっとる？

同一モデル内で話者同士のマージとかできるんやろか

2023/12/19(火) 17:30:40.32

>>208
あー話者idが0同士のマージしか想定してないわ、複数話者がいた場合にどうなるかは試しとらん
同一モデル内でも原理的にはできそうだけど話者idがどうやって使われてるかいまいちよく分かっとらんからすぐにはできんな……

2023/12/19(火) 20:47:06.62

>>209 サンガツ
今までなんとなく複数話者を1つのモデルに詰め込んでたから、話者ごとのモデルに作り直して試してみるわ

2023/12/19(火) 20:59:05.59

すげぇどうでもいい事なんだけど「安倍晋三」って何や？
中国でも人気なんやろか？
https://github.com/fishaudio/Bert-VITS2/blob/76653b5b6d657143721df2ed6c5c246b4b1d9277/default_config.yml#L153

2023/12/19(火) 22:48:47.90

乙zennにも記事乗っけたんね
RCVの学習は脳死でrmvpe選んどけばいいんだけど
声優のスタジオクオリティで取ったデッドなしっかりした録音素材レベルだと
harvestアルゴリズムの素性の良さからそっちの方がいい例外が一部だけはある
VC Clientの時選ぶのはマイク入力のピッチ推定に使う方なのでノイズに強いrmvpe選んどけばいい

2023/12/20(水) 09:58:42.76

https://github.com/fishaudio/Bert-VITS2/releases/tag/v2.3
Bert-VITS2の2.3来たで、最終リリースらしい
感情制御がCLAP使うのじゃなくてBertで別のセリフを混ぜるやつになって、これは体感だと結構効く気がする

2023/12/20(水) 10:35:39.23

もう2.3来たのか
昨日2.2でやっと学習を試したところだったのに早い

2023/12/20(水) 11:04:25.08

https://github.com/KoeAI/LLVC/issues/5
VCCがLLVCに対応してくれそう
トレーニングに時間がかかるらしいから気軽にモデル作成するのは難しいらしいけど面白そう

2023/12/20(水) 12:21:19.59

歌ってみたからボーカル抽出しようと思ったらことごとくそいつらもハモってて、歌ってみたの人も頑張ってるなと思った（小並感）
もうワイが…歌うしかないんか？ヴォエ！駄目だやっぱ！（迫真音痴部）

2023/12/20(水) 15:08:17.60

EasyBertVits2 で2.3にも対応してくれないかなぁ。
ワクテカして待とう。

2023/12/20(水) 15:45:25.79

Bert-VITS2.3 webui_preprocess使ったんだけど指定の事前学習モデルが中国SMS使えないと落せねぇ…

と思ったらここに書いてあった
https://qiita.com/seichi25/items/e6133c5209e2d65b377a

Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_v', 'encoder.pos_conv_embed.conv.weight_g']

なんか学習中に警告出るわ一応推論できてるけど

2023/12/20(水) 18:36:40.24

2人以上の長文から音声書き起こししたいんだけど
pyannote使えば良いのかな

2023/12/20(水) 19:26:06.71

Bert-VITS2、2.3微妙だ感がある、結局2.1が一番良かったのではという説
いろいろ実験してみるしかないかー

2023/12/20(水) 21:55:26.18

>>217
trunkに仮対応入れといたで
https://github.com/Zuntan03/EasyBertVits2/blob/main/src/Install-EasyBertVits2.bat
のRawを右クリックからダウンロードでいけるはずや。

>>220
みたくv2.1にlitaginニキのStyle Textパッチ当てたのが最善となるやもしらんが

2023/12/20(水) 21:59:35.13

>>221
外付けSSDに対応作業したばかりだというのに
2.3への迅速な対応凄いです
お疲れ様であります

2023/12/20(水) 22:36:07.92

試しにv2.3でbf16で学習してみたモデルも置いときま
https://huggingface.co/Zuntan/JVNV-F2_Bert-VITS2_v2.3-Test

普通の読み上げは普通やが喘ぎ声とかは2.1のほうがマシな印象や

2023/12/21(木) 06:43:44.22

https://twitter.com/izutorishima/status/1737544667015913862
何かできたらしいで
https://twitter.com/thejimwatkins

2023/12/21(木) 21:03:21.84

https://uploader.cc/s/vriub4zusemgnlf2ncfppetiyy9uv8roofj4huz5y7pbo1byp8r4cha81q9ic1jd.wav
https://uploader.cc/s/m5ylnb12uo56a7q6es2agnzcii5dl6j4hultjojmhxrgtlhwf39v81ys7acgjml8.wav
Bert-VITS2を喘ぎ声オンリーで学習させてみたやつ（複数話者混じってるので声音は安定しないかも？普通の文章もしゃべれるはしゃべれるけどちょっとガビる）
https://huggingface.co/litagin/bert-vits2-nsfw

2023/12/21(木) 21:08:21.53

自然な笑い声が学習できなくて難しい

2023/12/21(木) 21:17:21.55

>>225
凄い・・・
AI絵も組み合わせればエロゲー作れてまうやん

2023/12/21(木) 21:48:42.77

EasyBertVits2に
>>225
を一括ダウンロードするDownload-litagin-bert-vits2-nsfw.batを追加しといたで

2023/12/21(木) 22:42:11.12

>>225
これは可能性を感じるな

2023/12/22(金) 00:26:50.94

>>225
とりあえずはこれに更にRVC被せればいろんな声で色々できそうやね
RVC経由で増やした喘ぎ声をvits2のデータセットに入れてみるのも楽しそう

2023/12/22(金) 07:04:01.36

>>224
Linux…

2023/12/22(金) 09:10:42.51

>>195
すっごい初歩的かもだけど、zuntanニキのEasyBertVits2を使ってる場合これでマージしたやつはどうすればいいんだ？
出来上がった.pthとモデルAの.jsonをDataフォルダにおいてもロードできない(認識はされてる)

2023/12/22(金) 09:56:29.24

>>232
HiyoriUIを使う場合よな？
コード見たらpthファイルの最初が"G_"から始まらないと駄目っぽかったからそうリネームしてくれ
それでも駄目だったらコマンドプロンプトにどんなエラーログが出てるか教えて

2023/12/22(金) 10:19:13.51

最近流行ってるAIカバーソングってどうやって作ったらいいの？
米津玄師がYOASOBI歌う、みたいなの

2023/12/22(金) 10:29:03.22

>>234
米津玄師の歌のボーカル部だけを抜き出して学習させる
↓
米津玄師のボイスモデルができる
↓
そのモデルを使って自分でYOASOBIの歌を歌う
もしくは
YOASOBIの歌のボーカル部だけを抜き出して、それを入力し米津玄師のモデルを通して出力

2023/12/22(金) 10:33:54.00

カバーとかは作っても貼らない方が良さそう
絵以上に本気出されたらヤバそう

2023/12/22(金) 12:45:59.82

>>235
歌ったりモデルを通すっていうのはRVCっていうの使えばいいの？
何もわかってなくてゴメン
ボーカル抜き出しとかはできるけどそこから先が何すればいいかわかんない

2023/12/22(金) 13:07:04.04

>>237
RVCはボイチェン（セリフや歌ボーカルを入力したらその声を別の人の声に変える）やからそういうことやな
RVCで歌わせたい人の声を学習して、そのボイチェンを通して自分が歌ったりボーカル部分を通したりすれば、歌わせたい人の声で歌わせられる

2023/12/22(金) 14:00:35.59

>>237
RVCの使い方とかそういう話であれば
「RVC　使い方」とかでググった方がいい
>>1のwikiのRVCの導入とかも参考にはなる
それと、PCにグラボ付いてないとそもそもできないよ

2023/12/22(金) 14:10:11.92

ありがとう！
グラボはあるから調べてみる！

2023/12/22(金) 14:21:25.24

NVIDIAのグラボな
ほとんど全部がCUDAで記述されてるからAMD やIntel はまともに使えない

2023/12/22(金) 15:20:09.99

>>233
ワイのようなエロ利用したいだけのダンゴムシを相手にしてくれてありがとうやで
そして.jsonファイルを違うファイルと取り違えてただけやった
スマンやで
しかし、完成度高いモデルにnsfwモデル混ぜたら完成度高いまま喘がせられるかと思ったけど、なかなか思うようにはいかないな

2023/12/22(金) 17:41:59.20

ワイもダンゴムシや
正月に覚えたいと思ってromってる

2023/12/23(土) 07:00:34.29

>>234
>>236
sunoAIでオリジナル楽曲作ってもらって声を米津に変えるとかもあり

てかsunoAI米津っぽい曲歌声も出せるらしいね
ガチャだけど
sunoくんはアーティストのタグ効くようにしてくれればより細く欲しい曲のイメージを指定できて覇権取れるだろうなぁ

2023/12/23(土) 17:16:54.27

bert vits2はrvcみたいに音声データを読み込ませてそのまま変換するみたいなことはできない感じかね？

2023/12/23(土) 17:51:07.54

ボイチェン（音声を入れたら音声が返ってくる）とテキスト読み上げ（テキストを入れたら音声が返ってくる）は違うから、その目的ならRVCじゃね

2023/12/23(土) 18:24:03.30

>>245
RVCがVoice Conversion(音声変換)でVITSがText to Speech(テキスト読み上げ)でそれぞれ全くの別物やで