なんJRVC部★7

2024/03/31(日) 17:28:56.06

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
スレ立てのときは↑の!extend::vvvvv:1000:512を3行ぐらいに増やしてな

RVCとTTSとかの情報交換とかのスレ
ボイスチェンジャーで誰でも完璧に別人になりきることはできません。ボイストレーニングが必要です。

wiki: https://seesaawiki.jp/rvc_ch/
※前スレ
【ボイスチェンジャー】なんJRVC部 6
https://fate.5ch.net/test/read.cgi/liveuranus/1707472445/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

2024/04/19(金) 07:27:14.19

Style-Bert-VITS2の分割機能は使ってない
マルチプロセスで無音分解のpythonにやらせた方が早い

警備員[Lv.6][新][苗] (ﾜｯﾁｮｲ 7fe7-29lp) · 2024/04/19(金) 10:32:19.12

レスに"マルチ"って入ってる場合内容は全部嘘
NVAの日本語苦手と同じでPC持ってるかも怪しいレベル

警備員[Lv.4][新][苗] (ﾜｯﾁｮｲ d778-cORm) · 2024/04/19(金) 13:54:45.40

>>313
最初にinputフォルダに音声入れて、ボタンポチポチ押すだけだったよ

2024/04/19(金) 21:00:32.41

>>313
音声スライスの段階で勝手に分割してくれる

2024/04/19(金) 21:03:21.40

生成と学習ができるのはみんな知ってるけど、そのためのデータ処理も全部してくれるって事は知らない人が定期的に現れるんだよなあ

警備員[Lv.6][新][苗] (ﾜｯﾁｮｲ d7ad-cORm) · 2024/04/19(金) 21:06:00.70

俺は土日で喘ぎ声からスタイルを抽出してムフフな事をしたいんだ、マルチムフフを目指すぞ

2024/04/19(金) 21:52:34.68

喘ぎ声は意外とできるが、通常のしゃべりがややおかしくなる

警備員[Lv.24][苗] (ﾜｯﾁｮｲ 5754-/8Es) · 2024/04/20(土) 03:06:04.95

>>316
>>317
サンガツ
WebUIのタブを順番に読んでいけば良かったのね
faster-whisperも入ってるとは知らず単体の動作環境作るのに四苦八苦してたわ

2024/04/20(土) 17:16:14.30

歌声とかささやき声、あえぎ声なんかはかなり進歩して違和感なくなって来たな
普通の雑談みたいのが一番難しい

2024/04/20(土) 18:30:32.31

声を学習しても喋り方ってのは別個なんだなってボイチェンもくせがでてしまう

2024/04/21(日) 01:00:23.48

Style-Bert-VITS2の日本語特化版凄いな
抑えた喋り方ならかなり学習して再現できる

2024/04/22(月) 01:22:21.92

RVCでSnowieV3試してる奴おる？
48kのプリトレインモデルが新しく出たからこれで48kの出来も良くなってるとええんじゃが
https://huggingface.co/MUSTAR

2024/04/22(月) 14:20:19.94

そもそものV3はまだなんかなRVC
もうどっかの企業が買い取っちまったのかねぇ

警備員[Lv.11][苗][芽] (ﾜｯﾁｮｲ 1e3e-TxeL) · 2024/04/22(月) 16:58:53.84

applioが企業っぽい動きしてるしRVCのメンバーが起業したのかもな
別に作者が儲けに走るのは全然ええんやけど
問題はapplioがRVCv2から音質部分で目立った進歩がない所なんやな…

2024/04/22(月) 17:32:09.61

大量に色んな音声食わせて学習させたらアクセントの不自然さはある程度抑えられるけど
そうするとキャラ再現が弱くなるんだよな…
キャラ再現重視するとアクセントが外れやすくなる
事前学習モデルがもっと改善されないと限界があるっぽい

2024/04/22(月) 18:49:29.54

どうでもいいけどRVCって機械学習アルゴリズムの中では珍しく論文先行じゃないんだな
研究者が論文書いてついでにデモプログラム公開してそれを有志でつかいやすくしましたってのが多い印象

2024/04/22(月) 20:34:06.62

中華コミュニティ産は論文先行じゃない印象

警備員[Lv.12][苗][芽] (ﾜｯﾁｮｲ 0e4a-cK01) · 2024/04/22(月) 21:36:46.23

Bert-VITS2もたぶん直接的な論文はまだ出とらんで

警備員[Lv.12][苗][芽] (ﾜｯﾁｮｲ 0e4a-cK01) · 2024/04/22(月) 21:37:19.69

applioようしらんけどAI HUBのメンバーたちの起業っぽい気する（RVC Bossにタダ乗りしてる感じがしていい印象はあまりない）

2024/04/22(月) 22:02:22.26

苦手な発音あるよな
わいが滑舌悪いのか

2024/04/23(火) 14:36:36.49

Bert-VITS2で好みの同人音声学習させて、自分の名前言わせたり淫語足したりして元の音声アレンジするのたまらんな
ちんぽ枯れるわ

あとは喘ぎ声とかができれば完璧なんだが

2024/04/23(火) 20:55:10.22

>>334
お前天才かよ
ちょっとちんこ枯らしてくるわ

2024/04/24(水) 15:27:03.62

Bert-VITS2もMoe TTSみたいなの欲しいぞ

警備員[Lv.1][新][苗][芽] (ﾜｯﾁｮｲ 667b-IV2N) · 2024/04/24(水) 15:39:02.09

Moe TTSって懐かしい単語だな
なんか優れてた点あったっけ？

2024/04/24(水) 16:08:44.14

色んなキャラがいたよ

警備員[Lv.12][苗][芽] (ﾜｯﾁｮｲ 0e4a-cK01) · 2024/04/24(水) 19:35:42.87

いろんなキャラを学習させればええんやで
moe-speechでも使いな
https://huggingface.co/datasets/litagin/moe-speech

2024/04/24(水) 19:40:48.91

音声サンプルはどこで聞けるの

2024/04/24(水) 20:29:33.30

>>339
そこリクエストしても全然承認されないじゃん、面倒くさ過ぎるわ

2024/04/24(水) 20:56:51.95

RVCのモデル学習で240ステでも1000ステでも素材の特徴を捉えてないというか
同じ人の声に聞こえない結果になるんだけどこれはもっと声の調子の上下幅を
少ない物をチョイスしたほうがいいのかな？

警備員[Lv.5][新][苗][芽] (ｽｯｯﾌﾟ Sd94-Wa0z) · 2024/04/24(水) 21:02:36.94

>>342
試しに短いサンプル上げてもらえるといいかも

2024/04/24(水) 21:21:53.30

>>342
いろんな理由があるな
素材が短すぎるとか、音質が悪いとか
声幅はそこそこ広くてもカバー出来る
素材次第だが、元気な林原とダウナーな林原を同じモデルで再現出来る
あと、モデルは出来てるが運用を失敗してるパターンもありそう

2024/04/24(水) 23:44:29.32

koboldcppの生成結果をsyle bert VITS2で読み上げられるようにした
やっぱ好きな声優の声で読み上げて貰うと世界が変わるな

2024/04/25(木) 05:10:56.70

>>345
それやりたいから詳細よろ

2024/04/25(木) 18:56:29.70

syle bert VITS2のAPIサーバを立ち上げておけば
koboldcppのAPIが返して来たテキストをpostで投げて音声データに変換できる
コピペで済むとはいえコーディングがいるからkoboldcppに対応して貰えるのが一番いいけどな

警備員[Lv.13][苗][芽] (ﾜｯﾁｮｲ 0e4a-cK01) · 2024/04/25(木) 19:24:02.53

>>341
ちゃんと何に使うか書けば承認するで

2024/04/25(木) 19:48:02.41

わしもまだ承認されてないよ

警備員[Lv.1][新][苗][芽] (ﾜｯﾁｮｲ 1e95-IV2N) · 2024/04/25(木) 22:17:18.25

ライセンスに沿った承認に足る理由では無かったってだけなのでは…

警備員[Lv.13][苗][芽] (ﾜｯﾁｮｲ 3a28-vdLX) · 2024/04/25(木) 22:58:00.27

laughter-collectorで喘ぎ声抜き出せるかなーって思ったが、なかなか難しいなこれ

警備員[Lv.13][苗][芽] (ｽｯﾌﾟ Sd9e-Wa0z) · 2024/04/26(金) 09:17:01.28

whisperを喘ぎ声でfinetuning出来ないだろうか

2024/04/26(金) 09:51:52.44

辞書登録ではないの

警備員[Lv.14][初] (ﾜｯﾁｮｲ 0e4a-cK01) · 2024/04/26(金) 21:13:44.26

ちょっとやってみたけどwhisperファインチューニングはまあまあできそうやで
喘ぎ声以外の性能下がりそうやけどな
時間あったらちゃんとやってみる

2024/04/26(金) 22:23:59.03

TTSのファインチューニングってどういうこと？辞書とかmecabが分かち書きがトークンがとかじゃないのか

2024/04/27(土) 13:32:25.86

同人音声作品やゲームはセリフが偏り過ぎてて学習には不向きっぽいな
ちょっとでも元データにないセリフを話させると破綻する
Vtuberの実況音声とかだと色んな単語を使って話してるからある程度汎化した学習ができる

2024/04/27(土) 18:43:26.34

感情表現自体は学習済みベースモデルに任せるのが理想だよなあ
というかそれがgovitsなのかな？

2024/04/27(土) 20:13:49.51

style-bert-vits2のWhisperで文字起こしした文章の中に″々″があると自動前処理でエラー出るんだが皆も都度文章を修正してるの？

2024/04/27(土) 20:41:39.81

そうだよ、辞書登録とかもできるよ

2024/04/27(土) 22:43:40.97

リアルタイムではなく録音の自分の男声を微妙に違和感なく別人の男声にしたいのですが
その場合はどういったソフトがポピュラーになるでしょうか？

警備員[Lv.13][初] (ﾜｯﾁｮｲ 4659-Wa0z) · 2024/04/27(土) 22:52:54.01

>>360
RVCが良いと思います

2024/04/28(日) 01:27:15.14

なんか色々言われてるけど
まだasmrはバレてないな🤣

2024/04/28(日) 06:03:44.53

>>362
RVCスレの初期の方で既にバレてたよ

2024/04/28(日) 06:10:03.29

遅ればせながらstyle-bert-vits2試したけど、まじで至れり尽くせりで1日で推論・学習とやって調整したり遊べるようになって感謝しかねぇ
20分くらいの音声をデータセット作成タブでスライスして150くらいのファイルになったのをバッチサイズ4で回して1000エポックまわしてみた
正直やりすぎかもしれんけどLossは素直に下がっていったし、過学習的な破綻もないから時間あるなら一晩回してもいいかもしれんね
https://i.imgur.com/r8jOAQw.jpeg

警備員[Lv.15][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/04/28(日) 07:15:32.96

>>358
読めない文字はスキップするオプションがあるはずだが
（々が出てきても読めるやつは読める）

警備員[Lv.15][初] (ﾜｯﾁｮｲ ff1d-y8PE) · 2024/04/28(日) 12:37:49.85

>>362
割れファイル置いてるだけのやつならURLまで貼ってくれた人がいるけど
ASMRを作れるやつがあるなら教えてくれ

2024/04/28(日) 15:26:57.86

実況動画とかアニメから学習させてる人は声以外の音とかどうしてんの？そのまま使うの？

2024/04/28(日) 15:37:32.35

分離できるよ！

2024/04/28(日) 15:50:13.90

BGMとかSE除去してもちょっと変だから使わないな

警備員[Lv.15][初] (ﾜｯﾁｮｲ ff1d-y8PE) · 2024/04/28(日) 16:35:37.47

>>367
万能のUVR5
時間が異常に掛かるが強いとされるMVSEP-MDX23
現時点で最強らしいけどそのままでは実行できないBS-Roformer

好きなのを選べ
RVCに同梱されてるやつでもいい、UVR5で選べるのと同じモデル使ってる

2024/04/28(日) 19:57:17.91

>>370
ありがとねぇ
色々試してみるわ

2024/04/28(日) 23:34:30.72

style-bert-vits2なんですけど2000文字くらい一気に読ませることはできないんでしょうか
あっという間にVRAM食われて500文字もよませられないのです

2024/04/29(月) 01:31:33.95

>>361
ありがとうございます

RVC Clientをインストールして一通りできるようになったのですが
自分の声を録音したmp3を載せ、それを別の声に変換する、といった機能はなさそうでしょうか
あくまでもリアルタイム用になりますか？
できるとしたら、REC.のstartをしつつ、自分の録音をリアルタイムでPC内に流すといった方法でしょうか

警備員[Lv.18][初] (ﾜｯﾁｮｲ ff1d-y8PE) · 2024/04/29(月) 02:26:41.19

go-realtime-gui.batがリアルタイム用
go-web.batがmp3含む音声ファイルの変換用

2024/04/29(月) 03:00:34.21

>>372
改行で分けて生成にチェックいれる

2024/04/29(月) 07:19:12.71

>>374
録音ファイルを別の声に変換できるようになりました！
教えて頂きありがとうございましたm(_ _)m

2024/04/29(月) 11:14:12.25

音声ファイルの変換でささやきや息づかいが伸びると
ブレるというか崩れるのって検索特徴率以外の4つパタメータいじっての改善って見込めますか？

2024/04/29(月) 13:54:13.06

moisesの支払い出来なくなったから代用できるサイト教えて

2024/04/29(月) 23:15:55.03

もう外患誘致罪適用でGASYLEサーバーに直接保存（されてる議員については
既に悲惨なことになるかくるみばあばになるの？
おうてんしただけ」なの？

2024/04/29(月) 23:32:28.07

>>159
海外ペンこういう時は100円かな
クリノッペまだあるぞていうなら
都合の悪いことはないしまだ若いんだから焦る必要もないってこった

2024/04/29(月) 23:43:27.37

つーかあいつは引退まで求めていることができたみたいね

2024/04/29(月) 23:48:43.96

このレス覚えといてタイトル見てないのが信じられない
-200から-400万でひーひー言ってるので

2024/04/29(月) 23:49:06.74

ジェイクが一番って思ってなかった時点で
おすすだぞ

2024/04/30(火) 01:03:54.09

正しいことを自覚しているときには、国のトップつかまえてお布施しないもんに月額課金続けてる
空振りとれん
5月以降出番無くなってる意味を分かってないのか
ここで痩せるか太るかで

2024/04/30(火) 01:12:08.97

「#やっぱこれタダなのー？」
「#だって油豚のそれが政治とどう関係あるんや？

2024/04/30(火) 02:14:08.01

気がするけど来年も火曜なのかな
これは
自分の立場だったら本格的にムリやねんけど4コマやと自分が王様になり

2024/04/30(火) 02:32:30.04

>>51
WAR4の近本いないと痩せる訳ないとは
そもそも試合で一回も成功しなさそう
ジェイク特に中止にしたら負け数も抜かれちゃったね

2024/04/30(火) 02:43:03.95

人気ないと痩せるだろ
無いからな

2024/04/30(火) 02:50:26.90

この辺対して圧縮により燃焼させる
コロナにかかってるからこいつもクソしょうもないだろうな

2024/04/30(火) 02:51:55.09

要するによくのうのうとツイートなんてよくないていう
理由だけで後付けでどうとでも見るのはガチだと思うけどな
ムーブキャンパスとかいう便利なカードを発見できたことも知らない

2024/04/30(火) 03:05:33.99

なら通学選べば良かったな。

2024/04/30(火) 04:34:47.80

珍さんは去年全くコロナ被害が起こるまで気がする

2024/04/30(火) 04:56:46.74

あったらお得意の建前至上主義で
https://i.imgur.com/1K6017v.jpg

2024/04/30(火) 05:31:49.17

いつものメンバーじゃないの？

2024/04/30(火) 05:36:03.67

【社会】ずっと子供部屋にいるのは年寄りがみてたからか

2024/04/30(火) 05:39:57.52

新たにも撃たれた奴いるだろ
ヒロキは通勤時間は戻ってないよね
パーマあてたりしないのはキンプリだろうね

2024/04/30(火) 06:03:07.34

今は違う
いつもの野菜炒めが少し上手くやりますとしか聞こえないわ

警備員[Lv.18][苗] (ﾜｯﾁｮｲ 6733-NzXl) · 2024/04/30(火) 08:46:15.74

どんぐりつけようね

警備員[Lv.15][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/04/30(火) 20:12:14.36

Fish Speechのv1.0.0が来たで
https://github.com/fishaudio/fish-speech/releases/tag/v1.0.0
デモつき
https://huggingface.co/spaces/fishaudio/fish-speech-1

**sage** (ﾜｯﾁｮｲ 87f3-y8PE) · 2024/05/01(水) 09:33:01.44

ddPn08のRVC使う意味っていまあるの？

2024/05/01(水) 10:00:07.27

>>399
サンプル聞くかぎりではStyleBertVITS2とかと比べて顕著に優位な感じはない……か?
何が進化したんだろ
15万時間の事前学習済みはすごいンゴねぇ
https://speech.fish.audio/en/samples/

2024/05/01(水) 10:25:24.08

govitsと比較するべきでは？

警備員[Lv.14][初] (ﾜｯﾁｮｲ ffc7-y8PE) · 2024/05/01(水) 10:49:10.23

>>400
１年近く一切更新がないのと
使ってる人が少ない＝報告もされないから未知の不具合が存在するかもしれない
でもソース公開されてるし問題ないと判断したなら使えばいいんじゃねって感じ

2024/05/01(水) 15:07:16.03

60分のデータで100エポックの75000ステップ？がクソ古いPCで50時間以上かかりそうなんだけどこんなにやらなくていい…？

警備員[Lv.7][初] (ﾜｯﾁｮｲ 077b-R43V) · 2024/05/01(水) 15:52:10.64

75000ステップは多すぎというか、データセット60分というのがデカいせいでそうなってると思われ
まだボイスタイプ2種類しか学習させたことないけど、データセット10分～でおおむねデフォルトで入ってるモデルでも採用されてる14000～17000ステップくらいあれば単純に喋らせる用途なら十分な気がする
学習時間短縮させるにはデータセットの量を維持したままエポックを減らすか、データセットの量を減らしてエポック維持するかだけど、どっちがいいのかはわからん

2024/05/01(水) 15:55:23.26

60分なら12000ステップぐらいじゃね

2024/05/01(水) 16:09:39.93

半分の50エポック(35000ステップ前後)で切り上げちゃっても十分すぎるくらいなのかな…？
お二方ともありがとうございます

2024/05/01(水) 17:07:44.38

俺も普通は2万ステップくらいで十分だと思う
それより学習元データの質のが圧倒的に重要
出来るだけ色んな感情やテンポで沢山の単語が含まれてる方が上手くいく
同じ喋り方してる素材だけベースにすると中国語なまりが全然抜けない

警備員[Lv.16][初] (ﾜｯﾁｮｲ 674a-b946) · 2024/05/01(水) 19:36:08.50

>>400
階層マージがあるくらいしか取り柄はないしメンテはされてないので今はあまり意味がなさそう

2024/05/01(水) 19:48:53.26

>>408
色々試行錯誤してるけどたしかに単純に似た音声増やしても中国人訛り抜けないんだよな
声優とかだとキャラによって声変えてたりするけど、そういうのって混ぜても大丈夫？

2024/05/01(水) 19:51:06.60

いろんな学習したけど、プロ声優はやっぱり少ない学習でもちゃんとできるイメージがある

2024/05/01(水) 19:59:37.32

生成AI台頭前から手動で音声加工してきたけど、加工元音源が低クオリティだと後工程のクオリティもガクッと落ちるよね
その点で「プロの声優」が「プロのスタジオ」を使って「プロのエンジニア」が制作した音声は申し分ないということだろう

2024/05/01(水) 20:12:46.63

ゲームから抜き出した音声が一番使いやすいな
BGMと分離されてて音質も一定以上で特定キャラの演技だから声質も揃ってる音声が大量に手に入る