X

【ボイスチェンジャー】なんJRVC部 6

■ このスレッドは過去ログ倉庫に格納されています
1今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/09(金) 18:54:05.89ID:2EU7WjtP
Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
ほかにもTTSの情報交換とか
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。

wiki
https://seesaawiki.jp/rvc_ch/

※前スレ
【ボイスチェンジャー】なんJRVC部 5
https://fate.5ch.net/test/read.cgi/liveuranus/1701763239/
49今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 14:14:56.47ID:keVS5TTK
>>48
サンガツ!いけたやで!
2024/02/10(土) 14:33:17.57ID:N7wiE7tc
今、はじめての学習をしていますが。とりあえず最初なので、Epoch100までやります。

できたモデルをHugging Faceに設置したいのですが、無料のプランでできますか?
生成のインターフェイスはどうやって設置するのか教えてください。
2024/02/10(土) 14:34:16.15ID:TekaVYUY
無料でもCPU枠あるからできるで
やり方はhugging face spacesとかでググれ
2024/02/10(土) 14:35:18.04ID:N7wiE7tc
Hugging Faceに設置してみんなに使ってみてもらいたいですね
2024/02/10(土) 16:38:38.54ID:VsOFzI8u
TensorBoard見方がわかんないなグラフの
54今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:02:17.01ID:mfHGwgw+
ローカルでやったら
RuntimeError: Failed to initalize Mecab
って出る
2024/02/10(土) 17:06:34.56ID:TekaVYUY
>>54
インストール場所のパスに日本語や空白あったりしない?
56今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:12:49.63ID:mfHGwgw+
>>55
ドキュメントフォルダにインストールしたら失敗した
ダウンロードフォルダだとちゃんと実行出来るけどグループ表示のせいで埋もれてしまうから嫌なんだよな
C:フォルダにはなぜかインストールできんし
57今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:14:03.38ID:mfHGwgw+
いいインストール場所あったら教えて
58今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:23:22.74ID:cTfeCTCF
Cドライブと外付けストレージ以外のドライブの直下に置けばええやん
2024/02/10(土) 17:26:29.39ID:TekaVYUY
流石にインストール場所は(日本語と空白がない)好きな場所にしろとしか言えん
60今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:41:01.47ID:mfHGwgw+
ユーザー名のフォルダにインストールできたわ
61今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 17:43:36.33ID:zbbPgI9K
浅い階層の日本語無しフォルダに置く
Python入れるとき最後のPath数制限消すにチェック入れる
あとWindowsアカウントに日本語使わない
これぐらい
2024/02/10(土) 20:38:02.31ID:vt8A5Niu
もひふすはにやえとんおのめくおせむうしたよのよろらくわまみはしなてのこぬりもたほちたのんき
2024/02/10(土) 20:40:57.89ID:JM1dPzeE
相変わらず信者は全員、買い増ししていいのか
山上を義士だと思われてもしょうがない。
すなわち人生の全てを許した
2024/02/10(土) 20:43:08.38ID:GROfCkUH
大奥は正直他推しでフィニッシュ
-0.28%
65今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 20:43:24.00ID:uAenRK+k
まぁ、全員同じカルト一派の工作なんだけど
2024/02/10(土) 20:48:18.62ID:TekaVYUY
何か来たな
2024/02/10(土) 21:06:49.43ID:4ppILnMj
内容の憲法案に反対する
68今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:12:27.82ID:XaLtez4m
間違いないだろうね
69今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:17:13.64ID:RwHnjEPC
多分効果あるわけでもなく
タバコクラブって響きがかわいい
いまここ何人くらいで回してるんだろ
70今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:21:17.87ID:EcJl7Ksk
>>34
深夜に戻して
アイスタイル安値ww
4んでたら
71今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:47:33.29ID:cTfeCTCF
末尾もワッチョイもないからNGめんどいな
72今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:49:12.84ID:9XFIfL7p
やってる感はあるかもしれん
野菜炒めとか大量に食ってる訳でも思ったけど盆栽好きなの?
73今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:55:16.82ID:p3TOHmJv
レンタカーて安いんだな
次にこの若者を混ぜておけば高くなる
ISUも金メダル2つとってないせいで
藍上については
74今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 21:59:02.13ID:0M05+Hie
久しぶりに昼間働いててアイスタイルと共同開発で化粧品づくりに乗り出したら最強ってことか。
75今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/10(土) 23:35:10.68ID:lyJXPVnv
またか
76今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 00:00:09.66ID:3rAuQ6Mu
亀のように現れて亀のように去っていった
2024/02/11(日) 00:18:30.79ID:Nf3182v+
なんか確かにそうなんだけどさ
でもそれもわかる気がするよな
マジか!?
そういうこともあるんじゃないかな。
ところでRVCのV3はまだかね
2024/02/11(日) 06:32:21.65ID:K24YgScn
学習終わって音声合成してみた。すばらしい出来でした。

できたモデルがEpochのバックアップが大量にできてますが、必要なのは最終出力されたものだけという認識でいいでしょうか?

これからhaggingfaceに上げる方の勉強をします。
2024/02/11(日) 10:13:26.25ID:K24YgScn
haggingfaceのspaceの上げ方は理解しましたが

必要のないものは、pushしたくないのですが、学習したモデルで最低限必要なものが何か教えてください。
2024/02/11(日) 10:31:36.63ID:uegd3ZxR
>>79
必要そうなものだけアップしてみていって動くまで追加
2024/02/11(日) 10:52:17.24ID:WZI4bB6J
rvc起動しないんだが
2024/02/11(日) 10:57:52.63ID:b7LJ6vYM
何epochまで学習したのか知らんが、場合によってやり過ぎは劣化するだけ
素材の質や量とも関係するが100~300程度が無難なライン
なので最終出力だけあればいいっていうのはちと違う
あとモデルだけじゃなく一応indexファイルも必要
83今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 11:05:07.22ID:0kWJTvhi
>>48
colabでも出たけどどうすればいいの
2024/02/11(日) 11:18:49.41ID:uegd3ZxR
>>83
それはcolabの実行手順とかが間違ってるはず
環境構築のところでpretrained_jp_extraはダウンロードされる
85今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 11:24:00.77ID:ws4Pk4Zr
>>81
同じく 立ち上がらなくなった
86今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 11:25:54.60ID:ws4Pk4Zr
hugging faceが500エラーなっとるな
2024/02/11(日) 11:28:10.45ID:WZI4bB6J
サーバーエラーかもね
新しくファイルDLしようとしても
500出たわ
88今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 11:29:54.79ID:0kWJTvhi
じゃあ原因はそれかな
2024/02/11(日) 11:34:14.86ID:cgsR2GKD
RVC起動しないのおま環かと思ってたわ
2024/02/11(日) 11:43:56.99ID:uegd3ZxR
あーhugging faceが落ちててダウンロードできんのか、なるほど
2024/02/11(日) 11:54:40.61ID:WZI4bB6J
あ、起動できたよ
92今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 12:22:25.59ID:ws4Pk4Zr
あーよかった 直りました
93今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 12:23:17.58ID:0kWJTvhi
俺も
2024/02/11(日) 18:34:55.49ID:K24YgScn
ああ、haggingfaceのspaceは無料だとCPUにしないといけないのね
失敗失敗
2024/02/11(日) 19:50:20.14ID:K24YgScn
こんなエラーが出てしまいます、configuration error
missing configuration in README
Base README.md template:
title: {{title}}
emoji: {{emoji}}
colorFrom: {{colorFrom}}
colorTo: {{colorTo}}
sdk: {{sdk}}
sdk_version: {{sdkVersion}}
app_file: app.py
pinned: false
2024/02/11(日) 19:53:52.10ID:uegd3ZxR
>>95
読め
https://huggingface.co/docs/hub/spaces-overview
2024/02/11(日) 20:24:05.71ID:K24YgScn
ん〜わからない
configuration error
missing configuration in README
のまま、変わらない
pinned: falseが悪い?trueにしてコミットしても変わらない
98今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 21:26:21.33ID:halw8NMl
ローカルでも推論はCPUだけで動くんやからわざわざspacesで使えるようにせんでも良くないか…?
2024/02/11(日) 21:58:28.06ID:uegd3ZxR
README.mdちゃんと置いとるんか?
2024/02/11(日) 22:10:40.74ID:fiTh/bXn
これhuggingfaceのspacesに置いて
「○○(学習元の実名まんま)を喋らせよう」とかやるつもりやないのか?
相当にガキ臭さ出とるし
101今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 22:38:49.07ID:halw8NMl
お客さんっぽいな
というか無料プランの2コアCPUじゃ相当きついやろ
2024/02/11(日) 23:16:11.37ID:B243DW1g
RVC-betaのころにちょろっと触ったけど中国で製作されたからなのか日本語喋らせると中国訛りっぽいのが目立ってすぐやめちゃったわ
今はどうなんや?
2024/02/11(日) 23:28:12.59ID:uegd3ZxR
RVC v2でだいぶ改善されたはずやで
index使用率下げると滑舌ましになる
104今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/11(日) 23:52:56.63ID:Rzv27IeJ
JP-Extraすげーな試しに妹の声学習させたら稀に中国人的な発音になるもののそっくりさんで驚いたわ
エイプリルフールはマッマにパパ活してたら妊娠したドッキリやるのもええかもしれん🤭
2024/02/12(月) 05:27:49.54ID:z9nymK63
README.mdの先頭に入れないといけなかったのですね
ビルドに進みました、
2024/02/12(月) 05:43:37.31ID:m9Rap8Ce
お前の進捗発表場所ちゃうで
107今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/12(月) 06:02:01.47ID:HJKuQsTu
ワイらの日記帳なんやから仲良くしよーや
隙あらばレスバしようとするんやからほんまに😞
2024/02/12(月) 06:22:11.51ID:z9nymK63
無事起動できました。ありがとうございました。
https://huggingface.co/spaces/kkvc-hf/Style-Bert-VITS2
109今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/12(月) 07:29:43.03ID:doogJSxc
複数話者のために違うフォルダのファイルを同じモデル名で文字起こししたら上書きされちゃう?
110今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/12(月) 08:09:35.92ID:bVTNZybs
Style-Bert-VITS2始めてみたんだけど、これって入力できるテキストに上限ってあるの?
3000文字くらい入れるとエラーで落ちる。エラーログも特に出てなくて
| INFO | tts_model.py:167 | Audio data generated successfully
が表示されたあとに突然終了しちゃう。2000文字なら大丈夫だった。
2024/02/12(月) 08:27:30.19ID:JTItTPV4
>>110
dataset.batの指示通りにやればそんなことにはならないと思うけど…
2024/02/12(月) 08:41:59.38ID:bVTNZybs
>>111
ごめんなさい説明不足でした。
App.batのほうで
1. モデルをロードする
2. テキストに3000文字入力する(今回の場合は「あ」を3000個入力)
3. 音声合成のボタンを押す
これで再現できます。
2024/02/12(月) 12:48:42.76ID:HGzSYRZU
歌声変えたいんだけど今から始めるならRVCよりapplioがいいの?
知識ゼロ状態です
2024/02/12(月) 12:54:25.46ID:Y0dl/l8F
>>112
試してみたけどVRAMの問題やない?(自分の環境ではCUDA out of memoryが出てエラーが出た)
長い文字列を改行とかで分けずに入力すると、単純にモデルにその分の長さのベクトルが入力されるから、長すぎると無理っぽい
改行で短い文章に分けてたのなら知らん。
2024/02/12(月) 12:59:14.12ID:/w+eBxkm
>>113
Applioでいいと思う
Applioはあくまでも本家RVC(RVC用モデルを学習したりするツール群)の改良版や
なので両方ともRVCではある、ということは理解してんのかな
2024/02/12(月) 13:21:40.40ID:HGzSYRZU
>>115
ありがとう
全然理解してなかったけどApplio勉強してみるわ
2024/02/12(月) 13:25:58.59ID:KqNpmFt1
>>112
メモリーのオーバーフローかなんかやと思うけど
そんな長ゼリフいらんやろ?
区切れ!句切れ!
2024/02/12(月) 13:32:42.79ID:eAbvX7ni
なんか知らない間にapplioって出てるのね
ちょっとググってもまだ情報少ないんですね・・・
2024/02/12(月) 14:03:51.96ID:z9nymK63
app.py起動時に最初からモデルをロードした状態で起動できますか?
gradioはREST APIが使えるとのことですが、音声合成するテキストを投げて結果を返すようにしたいです。
またRESTのリクエストにモデルの情報を入れることでモデルをロードした上で、音声合成もできませんか?
2024/02/12(月) 14:20:13.99ID:bVTNZybs
>>114,117
短い文章に区切れっていうのはその通りですねw
ありがとうございます。

いろいろ試してみたら、音声の生成はできててその後のアクセント調整に使う文字列の生成でクラッシュしてるみたいです
app.pyの
# アクセント指定に使えるようにアクセント情報を返す
ってなってる箇所付近の処理をコメントアウトして空文字を返すようにすると動くようになりました。アクセント調整はできなくなりますが
2024/02/12(月) 15:11:10.61ID:TMWSbAsT
>>119
自分でコードいじれ、apiはserver_fastapi.pyがあるからそれ使えばええかも知らんが求める機能があるかは分からんから細かい要望は自分でやりな
2024/02/12(月) 15:41:08.23ID:z9nymK63
>>121やってみます。

ところでdatasetのスライスの処理が異様に時間が掛かっているのですが、ちょうどいい長さにしている以外に何かしているのでしょうか
CPUを割と使われているようですが、1つのファイルに数分かかっています。
2024/02/12(月) 18:11:39.43ID:lD0rPHTy
>>122
オーディオファイルから音声が発話された区間を検出する処理が入ってる
ファイルの長さが長いと時間かかるんだと思う
2024/02/12(月) 18:33:25.19ID:ikh20jt3
Applioとか前スレで名前出たのは知ってたけどどういうもんかはわかってなかったわ
話題出した人サンガツ
2024/02/12(月) 19:31:22.23ID:P/D45uVK
wavファイルシークするのってマルチスレッドが効く処理でもないから重いのよな
1時間とか2時間とかあるのを突っ込むのなら丸ごと入れるんではなく
自分で20分とかにぶつ切りにして入れた方が処理が数倍速いで
2024/02/12(月) 20:58:42.78ID:z9nymK63
transcribe.pyのテキスト起こしでfaster_whisperを使うところを

model = WhisperModel(args.model, device=device, compute_type=compute_type)

この部分のパラメーターにdevice_indexを加えてもらえないでしょうか
device_indexは複数GPUがある場合にどれを使うかの指定です。0とか1とか入ります。
2024/02/12(月) 21:05:07.78ID:siueE/lQ
>>126
コード読めるんだったら自分で加えればいいのでは
プルリクは歓迎しとるで
2024/02/12(月) 21:12:36.18ID:P/D45uVK
自分で使うだけならハードコードすれば終わりやし
どうもチグハグやな
129今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/12(月) 21:19:54.29ID:zgklFaUq
今はパラメーター直接書いて使ってます。
2024/02/12(月) 23:07:34.62ID:f7R4o2a/
喘ぎ声AIが実現しそうやから耳舐めASMR AI作れんやろかと思ったんやけど
良く考えたらサンプリングしてランダムに再生すれば十分やな
2024/02/13(火) 00:22:02.00ID:o1FV97q8
CUDAアプリで2枚目のGPU使いたいとき、環境変数CUDA_VISIBLE_DEVICESでできるときもある。

自分はStyle-Bert-VITS2の音声合成でそれ使ってる。(Windows)

VoiceVoxのインストーラ版はDirectMLなので、CUDAじゃなくてWindowsの設定でGPU指定する。
2024/02/13(火) 06:50:04.17ID:K5XUVwKw
スライスで時間掛かってるのはたぶん、文字越しがうまくできない音声がある時みたいです
最終的にスキップするんですけど
2024/02/13(火) 13:50:32.62ID:N7PPnBde
消えた歌い手の声を再現できて感涙や
スレとの出会いに感謝
134今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/13(火) 22:22:06.41ID:h2ZUy20O
Youtubeとニコニコの過去動画から好みの声探す毎日や
声優より素人の方がえろくてちんちんがイライラするのら
2024/02/14(水) 00:16:40.50ID:VEeIxtVT
おすすめ素人を教えてください(血涙)
2024/02/14(水) 05:56:50.53ID:ed0scPl8
>>126の話の続きですが、device_index=[0,1,2,3]こうやって書くとマルチGPUでテキスト起こしができるようになりました。
whisperの処理は重いので、マルチGPUできたほうがいいです。
2024/02/14(水) 06:27:26.20ID:ed0scPl8
う〜ん、マルチGPUで動いているけど、マルチプロセスにはなっていないなこれ、複数のGPUを順番に処理に使ってるだけで、同時進行じゃない
それでも多少は早い感じするけど、
2024/02/14(水) 07:06:40.09ID:ed0scPl8
文字越しでWhisperが変な文字を入れた場合、次の自動前処理でエラーになりますね、
ま、手動でその部分を直せばいいだけだけど
2024/02/14(水) 08:39:45.50ID:uMDfIxlX
それ、できればエラーで止めずにスキップしてほしいところ
140今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/14(水) 09:40:35.14ID:OPzbTCM8
参考書の覚えへんといけない部分をすこすこな子で読ませといたらクッソモチベ上がってええやん🤗
棒読み無感情クソゴミ無能ボイスとはおさらばじゃ!
2024/02/14(水) 10:31:57.21ID:ed0scPl8
学習させる素材が多い時はepoch数減らしてもいいですか?
2024/02/14(水) 10:34:01.63ID:UkmjK6mi
ええんやで
2024/02/14(水) 10:35:48.04ID:ed0scPl8
これくらいの感覚でいいのかな
素材→Epoch
*500→200
1000→100
2000→*50
3000→*33
5000→*20
144今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/14(水) 10:35:53.15ID:gtjqcKNu
読めん文字があったときにエラー出す代わりにその音声を学習に使わないオプションあったほうがええんかなあ
単純に素材量減るんで個人的には手動修正の方がええと思うが
145今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった
垢版 |
2024/02/14(水) 10:38:20.17ID:gtjqcKNu
素材数とエポック数はそんな単純な関係やないと思うで、人によって意見分かれると思うけど
むしろ素材多いといろんな声があるわけだから学習ちゃんとするのに必要なエポック数増えるのではって立場や
RVCの時も同じ意見
ただ人によってデータの質や感覚違うだろうから、自分で回して聴き比べるしかないで
2024/02/14(水) 10:47:20.57ID:ed0scPl8
素材数5000でエポック100はたぶんかなりの時間が掛かると思うので、まずエポック20で十分かやってみます。
2024/02/14(水) 10:51:54.17ID:YZMmZdG4
あ、いや、スマン、エラースキップの需要はワイだけかもしれん
寝る前に学習仕掛けようとして早く絵本読んでと子供に急かされる中でエラーが出ると学習自体諦めなきゃならんかったりするので、つい
2024/02/14(水) 11:07:03.61ID:UkmjK6mi
やっている事はHuBERT学習済みデータに適用する音声テクスチャを貼る作業
epochが低いと「ら」が「あ」に聴こえるような音ハズレを起こすが
多くしてもHuBERT学習済みデータを超えるものはできない
素材が少ないと当てはめる音が見つからないのでepochを高めにすると誤魔化せる
素材が多ければ多いほど発音の多様性に対応できる
epochは100を基準でいい
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況