なんJRVC部★7
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
スレ立てのときは↑の!extend::vvvvv:1000:512を3行ぐらいに増やしてな
RVCとTTSとかの情報交換とかのスレ
ボイスチェンジャーで誰でも完璧に別人になりきることはできません。ボイストレーニングが必要です。
wiki: https://seesaawiki.jp/rvc_ch/
※前スレ
【ボイスチェンジャー】なんJRVC部 6
https://fate.5ch.net/test/read.cgi/liveuranus/1707472445/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured Style-Bert-VITS2の分割機能は使ってない
マルチプロセスで無音分解のpythonにやらせた方が早い レスに"マルチ"って入ってる場合内容は全部嘘
NVAの日本語苦手と同じでPC持ってるかも怪しいレベル >>313
最初にinputフォルダに音声入れて、ボタンポチポチ押すだけだったよ >>313
音声スライスの段階で勝手に分割してくれる 生成と学習ができるのはみんな知ってるけど、そのためのデータ処理も全部してくれるって事は知らない人が定期的に現れるんだよなあ 俺は土日で喘ぎ声からスタイルを抽出してムフフな事をしたいんだ、マルチムフフを目指すぞ 喘ぎ声は意外とできるが、通常のしゃべりがややおかしくなる >>316
>>317
サンガツ
WebUIのタブを順番に読んでいけば良かったのね
faster-whisperも入ってるとは知らず単体の動作環境作るのに四苦八苦してたわ 歌声とかささやき声、あえぎ声なんかはかなり進歩して違和感なくなって来たな
普通の雑談みたいのが一番難しい 声を学習しても喋り方ってのは別個なんだなってボイチェンもくせがでてしまう Style-Bert-VITS2の日本語特化版凄いな
抑えた喋り方ならかなり学習して再現できる RVCでSnowieV3試してる奴おる?
48kのプリトレインモデルが新しく出たからこれで48kの出来も良くなってるとええんじゃが
https://huggingface.co/MUSTAR そもそものV3はまだなんかなRVC
もうどっかの企業が買い取っちまったのかねぇ applioが企業っぽい動きしてるしRVCのメンバーが起業したのかもな
別に作者が儲けに走るのは全然ええんやけど
問題はapplioがRVCv2から音質部分で目立った進歩がない所なんやな… 大量に色んな音声食わせて学習させたらアクセントの不自然さはある程度抑えられるけど
そうするとキャラ再現が弱くなるんだよな…
キャラ再現重視するとアクセントが外れやすくなる
事前学習モデルがもっと改善されないと限界があるっぽい どうでもいいけどRVCって機械学習アルゴリズムの中では珍しく論文先行じゃないんだな
研究者が論文書いてついでにデモプログラム公開してそれを有志でつかいやすくしましたってのが多い印象 Bert-VITS2もたぶん直接的な論文はまだ出とらんで applioようしらんけどAI HUBのメンバーたちの起業っぽい気する(RVC Bossにタダ乗りしてる感じがしていい印象はあまりない) Bert-VITS2で好みの同人音声学習させて、自分の名前言わせたり淫語足したりして元の音声アレンジするのたまらんな
ちんぽ枯れるわ
あとは喘ぎ声とかができれば完璧なんだが >>334
お前天才かよ
ちょっとちんこ枯らしてくるわ Bert-VITS2もMoe TTSみたいなの欲しいぞ Moe TTSって懐かしい単語だな
なんか優れてた点あったっけ? >>339
そこリクエストしても全然承認されないじゃん、面倒くさ過ぎるわ RVCのモデル学習で240ステでも1000ステでも素材の特徴を捉えてないというか
同じ人の声に聞こえない結果になるんだけどこれはもっと声の調子の上下幅を
少ない物をチョイスしたほうがいいのかな? >>342
試しに短いサンプル上げてもらえるといいかも >>342
いろんな理由があるな
素材が短すぎるとか、音質が悪いとか
声幅はそこそこ広くてもカバー出来る
素材次第だが、元気な林原とダウナーな林原を同じモデルで再現出来る
あと、モデルは出来てるが運用を失敗してるパターンもありそう koboldcppの生成結果をsyle bert VITS2で読み上げられるようにした
やっぱ好きな声優の声で読み上げて貰うと世界が変わるな syle bert VITS2のAPIサーバを立ち上げておけば
koboldcppのAPIが返して来たテキストをpostで投げて音声データに変換できる
コピペで済むとはいえコーディングがいるからkoboldcppに対応して貰えるのが一番いいけどな ライセンスに沿った承認に足る理由では無かったってだけなのでは… laughter-collectorで喘ぎ声抜き出せるかなーって思ったが、なかなか難しいなこれ whisperを喘ぎ声でfinetuning出来ないだろうか ちょっとやってみたけどwhisperファインチューニングはまあまあできそうやで
喘ぎ声以外の性能下がりそうやけどな
時間あったらちゃんとやってみる TTSのファインチューニングってどういうこと?辞書とかmecabが分かち書きがトークンがとかじゃないのか 同人音声作品やゲームはセリフが偏り過ぎてて学習には不向きっぽいな
ちょっとでも元データにないセリフを話させると破綻する
Vtuberの実況音声とかだと色んな単語を使って話してるからある程度汎化した学習ができる 感情表現自体は学習済みベースモデルに任せるのが理想だよなあ
というかそれがgovitsなのかな? style-bert-vits2のWhisperで文字起こしした文章の中に″々″があると自動前処理でエラー出るんだが皆も都度文章を修正してるの? リアルタイムではなく録音の自分の男声を微妙に違和感なく別人の男声にしたいのですが
その場合はどういったソフトがポピュラーになるでしょうか? なんか色々言われてるけど
まだasmrはバレてないな🤣 遅ればせながらstyle-bert-vits2試したけど、まじで至れり尽くせりで1日で推論・学習とやって調整したり遊べるようになって感謝しかねぇ
20分くらいの音声をデータセット作成タブでスライスして150くらいのファイルになったのをバッチサイズ4で回して1000エポックまわしてみた
正直やりすぎかもしれんけどLossは素直に下がっていったし、過学習的な破綻もないから時間あるなら一晩回してもいいかもしれんね
https://i.imgur.com/r8jOAQw.jpeg >>358
読めない文字はスキップするオプションがあるはずだが
(々が出てきても読めるやつは読める) >>362
割れファイル置いてるだけのやつならURLまで貼ってくれた人がいるけど
ASMRを作れるやつがあるなら教えてくれ 実況動画とかアニメから学習させてる人は声以外の音とかどうしてんの?そのまま使うの? BGMとかSE除去してもちょっと変だから使わないな >>367
万能のUVR5
時間が異常に掛かるが強いとされるMVSEP-MDX23
現時点で最強らしいけどそのままでは実行できないBS-Roformer
好きなのを選べ
RVCに同梱されてるやつでもいい、UVR5で選べるのと同じモデル使ってる style-bert-vits2なんですけど2000文字くらい一気に読ませることはできないんでしょうか
あっという間にVRAM食われて500文字もよませられないのです >>361
ありがとうございます
RVC Clientをインストールして一通りできるようになったのですが
自分の声を録音したmp3を載せ、それを別の声に変換する、といった機能はなさそうでしょうか
あくまでもリアルタイム用になりますか?
できるとしたら、REC.のstartをしつつ、自分の録音をリアルタイムでPC内に流すといった方法でしょうか go-realtime-gui.batがリアルタイム用
go-web.batがmp3含む音声ファイルの変換用 >>374
録音ファイルを別の声に変換できるようになりました!
教えて頂きありがとうございましたm(_ _)m 音声ファイルの変換でささやきや息づかいが伸びると
ブレるというか崩れるのって検索特徴率以外の4つパタメータいじっての改善って見込めますか? moisesの支払い出来なくなったから代用できるサイト教えて もう外患誘致罪適用でGASYLEサーバーに直接保存(されてる議員については
既に悲惨なことになるかくるみばあばになるの?
おうてんしただけ」なの? >>159
海外ペンこういう時は100円かな
クリノッペまだあるぞていうなら
都合の悪いことはないしまだ若いんだから焦る必要もないってこった つーかあいつは引退まで求めていることができたみたいね このレス覚えといてタイトル見てないのが信じられない
-200から-400万でひーひー言ってるので ジェイクが一番って思ってなかった時点で
おすすだぞ 正しいことを自覚しているときには、国のトップつかまえてお布施しないもんに月額課金続けてる
空振りとれん
5月以降出番無くなってる意味を分かってないのか
ここで痩せるか太るかで 「#やっぱこれタダなのー?」
「#だって油豚のそれが政治とどう関係あるんや? 気がするけど来年も火曜なのかな
これは
自分の立場だったら本格的にムリやねんけど4コマやと自分が王様になり >>51
WAR4の近本いないと痩せる訳ないとは
そもそも試合で一回も成功しなさそう
ジェイク特に中止にしたら負け数も抜かれちゃったね この辺対して圧縮により燃焼させる
コロナにかかってるからこいつもクソしょうもないだろうな 要するによくのうのうとツイートなんてよくないていう
理由だけで後付けでどうとでも見るのはガチだと思うけどな
ムーブキャンパスとかいう便利なカードを発見できたことも知らない 【社会】ずっと子供部屋にいるのは年寄りがみてたからか 新たにも撃たれた奴いるだろ
ヒロキは通勤時間は戻ってないよね
パーマあてたりしないのはキンプリだろうね 今は違う
いつもの野菜炒めが少し上手くやりますとしか聞こえないわ >>399
サンプル聞くかぎりではStyleBertVITS2とかと比べて顕著に優位な感じはない……か?
何が進化したんだろ
15万時間の事前学習済みはすごいンゴねぇ
https://speech.fish.audio/en/samples/ >>400
1年近く一切更新がないのと
使ってる人が少ない=報告もされないから未知の不具合が存在するかもしれない
でもソース公開されてるし問題ないと判断したなら使えばいいんじゃねって感じ 60分のデータで100エポックの75000ステップ?がクソ古いPCで50時間以上かかりそうなんだけどこんなにやらなくていい…? 75000ステップは多すぎというか、データセット60分というのがデカいせいでそうなってると思われ
まだボイスタイプ2種類しか学習させたことないけど、データセット10分~でおおむねデフォルトで入ってるモデルでも採用されてる14000~17000ステップくらいあれば単純に喋らせる用途なら十分な気がする
学習時間短縮させるにはデータセットの量を維持したままエポックを減らすか、データセットの量を減らしてエポック維持するかだけど、どっちがいいのかはわからん 半分の50エポック(35000ステップ前後)で切り上げちゃっても十分すぎるくらいなのかな…?
お二方ともありがとうございます 俺も普通は2万ステップくらいで十分だと思う
それより学習元データの質のが圧倒的に重要
出来るだけ色んな感情やテンポで沢山の単語が含まれてる方が上手くいく
同じ喋り方してる素材だけベースにすると中国語なまりが全然抜けない >>400
階層マージがあるくらいしか取り柄はないしメンテはされてないので今はあまり意味がなさそう >>408
色々試行錯誤してるけどたしかに単純に似た音声増やしても中国人訛り抜けないんだよな
声優とかだとキャラによって声変えてたりするけど、そういうのって混ぜても大丈夫? いろんな学習したけど、プロ声優はやっぱり少ない学習でもちゃんとできるイメージがある 生成AI台頭前から手動で音声加工してきたけど、加工元音源が低クオリティだと後工程のクオリティもガクッと落ちるよね
その点で「プロの声優」が「プロのスタジオ」を使って「プロのエンジニア」が制作した音声は申し分ないということだろう ゲームから抜き出した音声が一番使いやすいな
BGMと分離されてて音質も一定以上で特定キャラの演技だから声質も揃ってる音声が大量に手に入る