【ボイスチェンジャー】なんJRVC部 6
レス数が1000を超えています。これ以上書き込みはできません。
Retrieval-based-Voice-Conversion──RVCについての情報交換とかのスレ
ほかにもTTSの情報交換とか
*これを使えばおっさんが誰でも自然な女性ボイスを出せるようになるわけではありません。
このソフトは特定のキャラや人物の声を出せるようになるためのソフトです
このソフトにしろ既存のボイスチェンジャーにしろ同様ですが、女性ボイスを出すためにはまずボイストレーニングが必要です。
wiki
https://seesaawiki.jp/rvc_ch/
※前スレ
【ボイスチェンジャー】なんJRVC部 5
https://fate.5ch.net/test/read.cgi/liveuranus/1701763239/ モデル共有って法的にどうなん?
なんとなく画像よりも合法感あるけど… >>12
実在の人物の模倣やしワイは悪用する輩が怖くて共有はしたくないな モデルは共有どころか声優モデルが学習元伏せてBOOTHで売られたりしてるほうがヤバそう
でも学習元は特定しようがないのでおそらく現状どうしようもできない boothに絶対どう聴いてもあの人やなっていうStyle-Bert-VITS2のモデルが売られとったりするな
TTSはRVCより余計学習元が出るからちょっとアレ、規制とかどうなるんかも分からんけど 文字起こししたら、全部やったところで、ERROR | subprocess_utils.py:19 | Error: transcribe.py ってエラーになるんですがどうしてでしょうか >>26
ちゃんと文字起こしされてるんやったらそれは無視していいやつや
何が原因かよう分からん 初期プロンプトによっては正常に終了してもなぜか終了コードがバッファオーバーラン?を意味するコードにされるのなんなんやろな civitaiみたいなのは必要悪なのかもね
結局アレがないから売ったり買ったりする輩が現れるわけで Style-Bert-VITS2ってインストールフォルダ(App.batとか入ってるヤツ)はSSDにしたほうがいいんだろうか?
モデル複数つくってると結構ストレージ容量食うから、大差無いようであればHDDに放り込んでおきたい YMM4がStyle-Bert-VITS2のAPIに対応するみたいやな
動画作る人には朗報か 20まで行かせるときにh o sh uって入れてると急に書き込めなくなるで Discordみたいに5chも音源即再生出来たらええのに 学習開始しましたが、GPU一つだときついですね
マルチGPUにはできませんか? Bert-VITS2以前の、ESPNetのVITSとかはまともになるのに24時間グラボまわしてようやく、しかも音質や再現度悪い、とかやったから、
グラボ1台3時間も回せば十分な質(1時間位でもいい声質は質が高い)のはすごい速さやで Epochがデフォルトで100になってるけど、それが推奨値というわけでもなく?20で十分? データセットによるけど100も回せば十分な質になることが多いって程度で、
実際結果見てみると50とか30とか20とかがいいときもあるし、何なら声だけなら1kステップでも似るで
ワイは一応300エポックまで回してどれがいいかチェックしとるけどちょっと過剰やな 複数GPUがある場合に、どのGPUを使うかを指定できますでしょうか?
NCCLのファイルが含まれているのでマルチGPUできるのでは コード見れば分かるけど、環境変数でLOCAL_RANKを指定するか、config.ymlの箇所を変えるかでGPUは指定できるっぽい
マルチGPU環境が手元にはないのでチェックはしてないけど指定はできたという報告はあり nVidiaコントロールパネルもGPU0とGPU1の切り替え出来るけどゲーム用かもわからん
マルチGPU環境ないから確かめられんへんけど >>34
知らなかったありがとう
次から気をつけるよ トレーニングの前処理しようとすると「Step 1, Error: pretrained_jp_extraフォルダが見つかりません。」と出るんだけど、これってアプデ以外に何かせないかんことあるんかな? >>47
1.x系から新しくJP-Extra版を使うようにアプデするには、今までのアプデのバッチファイルじゃなくて専用のバッチファイルを使う必要がある(か手動でpython initialize.pyをする) 今、はじめての学習をしていますが。とりあえず最初なので、Epoch100までやります。
できたモデルをHugging Faceに設置したいのですが、無料のプランでできますか?
生成のインターフェイスはどうやって設置するのか教えてください。 無料でもCPU枠あるからできるで
やり方はhugging face spacesとかでググれ Hugging Faceに設置してみんなに使ってみてもらいたいですね ローカルでやったら
RuntimeError: Failed to initalize Mecab
って出る >>54
インストール場所のパスに日本語や空白あったりしない? >>55
ドキュメントフォルダにインストールしたら失敗した
ダウンロードフォルダだとちゃんと実行出来るけどグループ表示のせいで埋もれてしまうから嫌なんだよな
C:フォルダにはなぜかインストールできんし Cドライブと外付けストレージ以外のドライブの直下に置けばええやん 流石にインストール場所は(日本語と空白がない)好きな場所にしろとしか言えん 浅い階層の日本語無しフォルダに置く
Python入れるとき最後のPath数制限消すにチェック入れる
あとWindowsアカウントに日本語使わない
これぐらい もひふすはにやえとんおのめくおせむうしたよのよろらくわまみはしなてのこぬりもたほちたのんき 相変わらず信者は全員、買い増ししていいのか
山上を義士だと思われてもしょうがない。
すなわち人生の全てを許した 多分効果あるわけでもなく
タバコクラブって響きがかわいい
いまここ何人くらいで回してるんだろ >>34
深夜に戻して
アイスタイル安値ww
4んでたら やってる感はあるかもしれん
野菜炒めとか大量に食ってる訳でも思ったけど盆栽好きなの? レンタカーて安いんだな
次にこの若者を混ぜておけば高くなる
ISUも金メダル2つとってないせいで
藍上については 久しぶりに昼間働いててアイスタイルと共同開発で化粧品づくりに乗り出したら最強ってことか。 なんか確かにそうなんだけどさ
でもそれもわかる気がするよな
マジか!?
そういうこともあるんじゃないかな。
ところでRVCのV3はまだかね 学習終わって音声合成してみた。すばらしい出来でした。
できたモデルがEpochのバックアップが大量にできてますが、必要なのは最終出力されたものだけという認識でいいでしょうか?
これからhaggingfaceに上げる方の勉強をします。 haggingfaceのspaceの上げ方は理解しましたが
必要のないものは、pushしたくないのですが、学習したモデルで最低限必要なものが何か教えてください。 >>79
必要そうなものだけアップしてみていって動くまで追加 何epochまで学習したのか知らんが、場合によってやり過ぎは劣化するだけ
素材の質や量とも関係するが100~300程度が無難なライン
なので最終出力だけあればいいっていうのはちと違う
あとモデルだけじゃなく一応indexファイルも必要 >>83
それはcolabの実行手順とかが間違ってるはず
環境構築のところでpretrained_jp_extraはダウンロードされる サーバーエラーかもね
新しくファイルDLしようとしても
500出たわ あーhugging faceが落ちててダウンロードできんのか、なるほど ああ、haggingfaceのspaceは無料だとCPUにしないといけないのね
失敗失敗 こんなエラーが出てしまいます、configuration error
missing configuration in README
Base README.md template:
title: {{title}}
emoji: {{emoji}}
colorFrom: {{colorFrom}}
colorTo: {{colorTo}}
sdk: {{sdk}}
sdk_version: {{sdkVersion}}
app_file: app.py
pinned: false ん〜わからない
configuration error
missing configuration in README
のまま、変わらない
pinned: falseが悪い?trueにしてコミットしても変わらない ローカルでも推論はCPUだけで動くんやからわざわざspacesで使えるようにせんでも良くないか…? これhuggingfaceのspacesに置いて
「○○(学習元の実名まんま)を喋らせよう」とかやるつもりやないのか?
相当にガキ臭さ出とるし お客さんっぽいな
というか無料プランの2コアCPUじゃ相当きついやろ RVC-betaのころにちょろっと触ったけど中国で製作されたからなのか日本語喋らせると中国訛りっぽいのが目立ってすぐやめちゃったわ
今はどうなんや? RVC v2でだいぶ改善されたはずやで
index使用率下げると滑舌ましになる JP-Extraすげーな試しに妹の声学習させたら稀に中国人的な発音になるもののそっくりさんで驚いたわ
エイプリルフールはマッマにパパ活してたら妊娠したドッキリやるのもええかもしれん🤭 README.mdの先頭に入れないといけなかったのですね
ビルドに進みました、 ワイらの日記帳なんやから仲良くしよーや
隙あらばレスバしようとするんやからほんまに😞 複数話者のために違うフォルダのファイルを同じモデル名で文字起こししたら上書きされちゃう? Style-Bert-VITS2始めてみたんだけど、これって入力できるテキストに上限ってあるの?
3000文字くらい入れるとエラーで落ちる。エラーログも特に出てなくて
| INFO | tts_model.py:167 | Audio data generated successfully
が表示されたあとに突然終了しちゃう。2000文字なら大丈夫だった。 >>110
dataset.batの指示通りにやればそんなことにはならないと思うけど… >>111
ごめんなさい説明不足でした。
App.batのほうで
1. モデルをロードする
2. テキストに3000文字入力する(今回の場合は「あ」を3000個入力)
3. 音声合成のボタンを押す
これで再現できます。 歌声変えたいんだけど今から始めるならRVCよりapplioがいいの?
知識ゼロ状態です >>112
試してみたけどVRAMの問題やない?(自分の環境ではCUDA out of memoryが出てエラーが出た)
長い文字列を改行とかで分けずに入力すると、単純にモデルにその分の長さのベクトルが入力されるから、長すぎると無理っぽい
改行で短い文章に分けてたのなら知らん。 >>113
Applioでいいと思う
Applioはあくまでも本家RVC(RVC用モデルを学習したりするツール群)の改良版や
なので両方ともRVCではある、ということは理解してんのかな >>115
ありがとう
全然理解してなかったけどApplio勉強してみるわ >>112
メモリーのオーバーフローかなんかやと思うけど
そんな長ゼリフいらんやろ?
区切れ!句切れ! なんか知らない間にapplioって出てるのね
ちょっとググってもまだ情報少ないんですね・・・ app.py起動時に最初からモデルをロードした状態で起動できますか?
gradioはREST APIが使えるとのことですが、音声合成するテキストを投げて結果を返すようにしたいです。
またRESTのリクエストにモデルの情報を入れることでモデルをロードした上で、音声合成もできませんか? >>114,117
短い文章に区切れっていうのはその通りですねw
ありがとうございます。
いろいろ試してみたら、音声の生成はできててその後のアクセント調整に使う文字列の生成でクラッシュしてるみたいです
app.pyの
# アクセント指定に使えるようにアクセント情報を返す
ってなってる箇所付近の処理をコメントアウトして空文字を返すようにすると動くようになりました。アクセント調整はできなくなりますが >>119
自分でコードいじれ、apiはserver_fastapi.pyがあるからそれ使えばええかも知らんが求める機能があるかは分からんから細かい要望は自分でやりな >>121やってみます。
ところでdatasetのスライスの処理が異様に時間が掛かっているのですが、ちょうどいい長さにしている以外に何かしているのでしょうか
CPUを割と使われているようですが、1つのファイルに数分かかっています。 >>122
オーディオファイルから音声が発話された区間を検出する処理が入ってる
ファイルの長さが長いと時間かかるんだと思う Applioとか前スレで名前出たのは知ってたけどどういうもんかはわかってなかったわ
話題出した人サンガツ wavファイルシークするのってマルチスレッドが効く処理でもないから重いのよな
1時間とか2時間とかあるのを突っ込むのなら丸ごと入れるんではなく
自分で20分とかにぶつ切りにして入れた方が処理が数倍速いで transcribe.pyのテキスト起こしでfaster_whisperを使うところを
model = WhisperModel(args.model, device=device, compute_type=compute_type)
この部分のパラメーターにdevice_indexを加えてもらえないでしょうか
device_indexは複数GPUがある場合にどれを使うかの指定です。0とか1とか入ります。 >>126
コード読めるんだったら自分で加えればいいのでは
プルリクは歓迎しとるで 自分で使うだけならハードコードすれば終わりやし
どうもチグハグやな 喘ぎ声AIが実現しそうやから耳舐めASMR AI作れんやろかと思ったんやけど
良く考えたらサンプリングしてランダムに再生すれば十分やな CUDAアプリで2枚目のGPU使いたいとき、環境変数CUDA_VISIBLE_DEVICESでできるときもある。
自分はStyle-Bert-VITS2の音声合成でそれ使ってる。(Windows)
VoiceVoxのインストーラ版はDirectMLなので、CUDAじゃなくてWindowsの設定でGPU指定する。 スライスで時間掛かってるのはたぶん、文字越しがうまくできない音声がある時みたいです
最終的にスキップするんですけど 消えた歌い手の声を再現できて感涙や
スレとの出会いに感謝 Youtubeとニコニコの過去動画から好みの声探す毎日や
声優より素人の方がえろくてちんちんがイライラするのら >>126の話の続きですが、device_index=[0,1,2,3]こうやって書くとマルチGPUでテキスト起こしができるようになりました。
whisperの処理は重いので、マルチGPUできたほうがいいです。 う〜ん、マルチGPUで動いているけど、マルチプロセスにはなっていないなこれ、複数のGPUを順番に処理に使ってるだけで、同時進行じゃない
それでも多少は早い感じするけど、 文字越しでWhisperが変な文字を入れた場合、次の自動前処理でエラーになりますね、
ま、手動でその部分を直せばいいだけだけど それ、できればエラーで止めずにスキップしてほしいところ 参考書の覚えへんといけない部分をすこすこな子で読ませといたらクッソモチベ上がってええやん🤗
棒読み無感情クソゴミ無能ボイスとはおさらばじゃ! 学習させる素材が多い時はepoch数減らしてもいいですか? これくらいの感覚でいいのかな
素材→Epoch
*500→200
1000→100
2000→*50
3000→*33
5000→*20 読めん文字があったときにエラー出す代わりにその音声を学習に使わないオプションあったほうがええんかなあ
単純に素材量減るんで個人的には手動修正の方がええと思うが 素材数とエポック数はそんな単純な関係やないと思うで、人によって意見分かれると思うけど
むしろ素材多いといろんな声があるわけだから学習ちゃんとするのに必要なエポック数増えるのではって立場や
RVCの時も同じ意見
ただ人によってデータの質や感覚違うだろうから、自分で回して聴き比べるしかないで 素材数5000でエポック100はたぶんかなりの時間が掛かると思うので、まずエポック20で十分かやってみます。 あ、いや、スマン、エラースキップの需要はワイだけかもしれん
寝る前に学習仕掛けようとして早く絵本読んでと子供に急かされる中でエラーが出ると学習自体諦めなきゃならんかったりするので、つい やっている事はHuBERT学習済みデータに適用する音声テクスチャを貼る作業
epochが低いと「ら」が「あ」に聴こえるような音ハズレを起こすが
多くしてもHuBERT学習済みデータを超えるものはできない
素材が少ないと当てはめる音が見つからないのでepochを高めにすると誤魔化せる
素材が多ければ多いほど発音の多様性に対応できる
epochは100を基準でいい 勘違いして欲しくないのが一点
epochを高くしてもプロ声のような演技力は身に付かない
喋りがボソボソしてる人はテクスチャが良くても魅力のない声しか出ない で、Style-Bert-VITS2とRVC
どっちの話題なんやこれ なんか噛み合ってねーなーと思ったら
ID:ed0scPl8はStyle-Bert-VITS2の話してて
ID:UkmjK6miはRVCの話してんのか RVCスレで合ってるよ
ただ今はRVCの更新が止まってるから
TTSのStyle-Bert-VITSの話が盛り上がってる感じ >>152
スレタイはRVCスレではあるんだけどみんなの関心はTTSのStyle-Bert-VITS2の方が高いみたいやしな・・・
モデルの学習が似たようなものってだけで
ボイチェンとTTSでは全然別の物だろうからなんとも言えん RVCは今やブログやyoutubeで沢山解説されてるしモデルもクソみたいにバラ撒かれたり売られたりしてて良くも悪くも市民権を得た感じだな
ここじゃなくても話題は沢山ありそう RVCが使われてるやつで一番有名なのは音リビアの泉かな RVCは出来が良すぎてもうあまり言うことがない
VITSの方はまだまだいろいろやってほしいことがある。
マルチGPU対応とかオナシャス VITSは
出来ればwebuiに表示されるミク?を消したいんだが >>160
common/constants.pyのGRADIO_THEMEを好きなのに変えてくれ 学習初心者やけど
低音がガビるのがどうしても直らなかったから
ゼロから再学習したら嘘のようにキレイな音になった
同じ設定でやり直すだけでも何かが起こることもあるんやな >>161
すまねぇすまねぇ
人前で起動する機会があって『アニメとかオタクっぽい何か』と思われたくなくてなw 喋りが苦手なオタクほど『声を変えられる』って大きいと思うんやがなぁ
ようは声が匿名になるわけやしボイチャで会話スキル上がりそうやん >>165
そうなんだが、はじめの一歩する場所がない…( ; ; ) ディスコのAI声づくり技術研究会にそういう部屋あったな
たまに誰かいるぞ
あとはVRchatでバ美肉だ 喋りが苦手だとそもそも発声とか活舌の問題で声の問題じゃなかったりしてね ここに書き込むぐらいの気軽さでボイチャ出来る空間とかないんかな
失敗したら声もIDもリセットで >>159
マルチGPUの環境がなくて、そもそもどういう機能に需要があるか分からんから、
具体的な要望を教えてくれると助かる
(学習に使うGPU指定は設定や環境変数でどうにかなるという認識) >>172
早く処理できますからね
学習時間とか苦痛でしかない 変数書き換えるの面倒くさいから自動認識してくれという話やろ
知らんけどw Style-Bert-VITS2の前準備でモーラの警告が出たときにどこのテキストが原因か表示するようにならないかな >>171
そういうのがあればなぁ…
なんとか研究所は管理人の人がこわいです >>173
具体的な要望はなんなんや?
複数GPUでの分散学習か?学習や推論のときのGPUを選択できるようにすることか?
ちゃんと言ってくれんとこちらも何をしたらいいのか分からんのや >>175
漢字が読めんところはどこのテキストが原因か出たはずやけど、モーラ警告ってFirst mora should not be ...とかのやつか?それなら無視していいはずやけど >>176
https://disboard.org/ja/search
テキトーに『コミュ障』とかで検索してサーバ入るのが無難かもね
あと朗読とかも楽しそう >>176
PCにmeta quest3もあればVRChatの世界がおすすめやで
居酒屋ワールドで雑談に入るもよしゲームワールドでVCしながら協力プレイするもよし
メアドさえあればアカウントを作り直せるから旅の恥は掻き捨てで飛び込むんやw >>178
たまに出てくるその警告が気になっただけや
影響もなさそうだし無視しとくか、サンガツ >>177
今はGPU指定して、文字起こしや学習をする方法が分かったので、たくさんあるやりたいことを、
複数起動させて、順次フル稼働で回しています。(RVCでも同じようにしています。)
個人的には全肯定でGPUの指定ができるといいと思います。
それとは別に一番してほしいのは学習のマルチGPU化です。
とにかく時間がかかる処理はフルパワーをそこに費やしたいです。 Discordの人は偶になんJ民如く煽り入れてくる奴ら居るからムカツク😡 VRC行ってもコミュ障は人の少ない場所へ逃げ込んで誰にも見つからないようにワールド巡りすることしかできんのや……… コミュ障はTrustedのフレンドが出来無くて
アバターアップロードできなくて詰むんや >>182
GPU指定できるようにするのは予定しとくわ
学習のマルチGPU化は、そもそもどれだけ効果あるのかは分からんけど(ほんとにグラボをつなげるやり方は無理なはず)、
現在でも分散学習のコードになっとるから、config.ymlのworld_sizeやらを変えたり、
https://github.com/fishaudio/Bert-VITS2/blob/master/run_MnodesAndMgpus.sh
を参考にしてみたりで、自分で調べて動くか試してみてくれんか
環境も知識もないからどうやったら動くかワイには分からん、知見あるひとおったら教えてくれ マルチGPUはNCCL(NVIDIA Collective Communications Library)ってやつが関係しているんじゃないかな、知らんけど
train_ms.pyの中にもncclの記載がある いくら分散学習が可能なプラットフォームに乗っかっていようと分散学習の整備なんて本来えらく金のかかる話やで
知らんけどで済まさず実装プランぐらい自分で勉強して示したらどうや RVCやVITSに近い音声関係のAIでDeep Speakerって音声識別のやつがあって、こっちを使いこなす為にいろいろ調べてて
TensorFlowとかNCCLとかがよく出てくる。 非Windowsやとncclでwindowsだとglooってやつを現在の(Style-)Bert-VITS2の学習だと使っとる
実際にどうやって分散学習やるかは知らんのであとは自分で頑張ってくれ >>179
>>180
ありがとうございます
VRchat、PCだけでもできるみたいなので飛び込んでみようと思います! extra版で学習し直し始めたけどえらい時間かかるようになってしまった
同じ設定で前は2時間くらいだったのが15時間になってて絶望。うーんなんか設定ミスったかな datasetのスライスは遅いから使わないことにした。
自分で作った無音分けと時間判別のpythonスクリプトでやる >>193
VRAMは一応足りてるけどバッチサイズもっと下げたほうが良さそうやね
あと学習データ選別めんどいからあるだけ放り込んでるけどちょっと減らすかー Out of memoryエラーが出なくても、バッチサイズ大きいと学習速度やたら遅くなることがあるっぽいので、メモリは足りててもとりあえず少なめから様子見が良さげ PCIe5 x16とDDR5-7800環境ならDRAMメモリあふれてもそこそこ速いわ そういえばRVCで400ファイルくらい音声を生成すると生成スピードが遅くなるんだけど、なんでかわかる人いますか?
しょうがないから400ファイル生成したら再起動するようにしている。何かすれば再起動しなくても元にスピードに戻るのだろうか moe-speechの隠れてる.gitを消す方法って無いんですかね 完成したカバー曲をイヤホンで聴くたびにアラに気づいて音声編集に戻るループを繰り返してる ノイズ取りたいけどAdobe Enhanceだとフニャフニャ声になっちゃう >>201
RVCで、生成???
何を、どういう手順で、どうすることを、『生成』って言ってるのか
音声ファイルを別の声にして変換作業でもしているの?
その際、RVCの何を使っているのか
本家なのかapplioとかのフォークなのかVC Clientなのか
>>202
『moe-speechの.git』の意味はわからんが、gitを使用した際に作られるファイルは、不必要であれば隠しファイルを表示にして削除すれば良いのでは
お前ら質問するにしてももうちょっと自分の環境や状況を詳しく書けよ 志村さんとかさんまさんの素材を集めてるけどトークばっかりだから相手の相槌が入っちゃうんだよな >>206
音声被ってなければあとでスタイルとして分けられるよ そもそも用途がRVCなのかVITSなのかで全然対処が変わるだろ
どちらにせよAudacityでちまちま切り分けるのがベターやが 最近興味持ったんだけどRVCってモノラルじゃなくてステレオでwavファイル出力することってできるの?
ググってみたけどそれっぽい記事出てこなかったから質問させてください 構造上はモノラルがデフォやで。ステレオを学習させる話は聞いたことないな >>213
なるほどありがとう!
特定のボカロ曲とかで左右交互で歌詞を歌う表現みたいなのがあるんだけど、そういうのやる場合は流石に出力後に人力で編集いる感じなのね 漢字読めないのはどうにかしようと思うが、単純に学習時は読めなかったら学習に使わないようにしたり、音声合成時は読めないところは何も発音しないようにするんがええんかな 自動書き起こしで粛々が祝々って書き起こされて々が読めませんって止まったのはある 読めない場合は書き起こしか音声合成文章がおかしい場合が多いから、エラー出したほうがええやろって思ってたけど、やっぱ苦情が多いから、「読めない文字は飛ばして学習・音声合成」のオプションはつける方向で行くわ
「ちゃんと読め」ってのは無理やから勘弁してな(そもそも同じ文章VOICEVOX見ても使っとるの同じやから読めなかったりするし)
音声合成時に読めないところを修正したりする機能はつけたいけど、正直どうUIで実装したらいいかとかめんどくさいから誰かがんばってくれ 止めてもいいから、全部の問題を一度洗い出してから止めて、手動で直すから mecabで区切ってgoogleWebAPIで読みを拾うのはトークン消費するから
個人のGアカウントでKeyを払い出さないとアカンのやったかな というかwhisperで漢字禁止、ひらがな限定とかってできないの? 書き起こしのユーザー辞書みたいなのがあったらええんやけどなぁ >>221
どうやって手入力させたらええんか難しいんや……
>>222
「々」とかは、現状でも例えば「担々麺」がmecabで「担」「々」「麺」に分かれてしまって、それの読みが取れんって感じやから、たぶん形態素解析の段階でのミスやから、どうしたらええか分からんな
>>223
書き起こしを平仮名のみにしたらせっかくのBERT取り入れてる感情表現や日本語の意味理解が死ぬから、漢字交じりの通常の文章であることが重要やで
そうじゃないなら今までのVITSでええしな エラーでコケたところからコマンドラインで手入力させても処理をレジュームするのが難しいんか
ほならエラーを出さんかったらええわけやから形態素解析中に知らん単語をなくすしかなさそうやね
mecab の辞書を最新にしても時事ネタ系やアニメ造語には知らん単語は出てくるやろうしお手上げやしなあ
mecabユーザー辞書をメモ帳でしこしこ手作業で編集して追加してもらうのが一番早いかな
https://clrd.ninjal.ac.jp/unidic/
そうや
エラーでコケた音声ファイルは対象から外してゴミ箱に捨ててしまえばええんやw Style-Bert-VITS2やり始めたけど中々良いの出来ないわ
今の所このスレの凄い人が上げてくれてるGPT-SoVITS Zero-shotのデモ版で生成した音声の方が遥に良いものが出来てるぜ…
まぁ気長に色々試してみるかな… >>219
判別不能の個所はスキップしてエラーログだけ残すとかは出来ない?
テキストとかで残れば2回目に行う時に修正できるし 結局ゼロショットとスタイルの違いが良くわからない…
声色だけ学習させるのがゼロショットで感情表現や抑揚まで学習させるのがstyleだとは思うんやが…
ならextraJPってのは何なのかという… 日本語アクセントに特化してるやで
中国人臭い発音が低減されるメリットがある反面英語等のアクセントは駄目になる ゼロショットは学習すらしないで
大量の話者を学習したモデルに、ターゲット話者の音声ファイル5秒くらいを渡してやることで、
その話者の声(にまあまあ近い声)で音声合成してくれるやつや
(Style-)Bert-VITS2にはゼロショットはなくて、今のところ去年のVALLE-E-XやGPT-SoVITSくらいやな
あまり似なかったり話し方までは学ばなかったりする うーん、赤ちゃん目線からすると、感情表現や抑揚が完璧なベースモデルに声色だけ追加学習させるのが良いのではないかと思うんやが、それができないorやっても意味がない理由があるんやろな 話者の特徴って声質だけじゃなくて抑揚とかの部分にも出てくるからね
RVCでボイチェンしたらよく分かる 感情表現や抑揚は話す人にかなり依存するからな、完璧ってのが存在せんと思うで モデルがぼそぼそ系なら普通にしゃべるといまいちになるからキャラに近づけるの大事 やな
事前学習モデルが無いと、ちゃんと言葉を発するようになるためには、個人グラボだと膨大な時間(数週間単位)がかかるらしいで 滑舌悪いボソボソキモ声がボイチェンして絶望するまでが通過儀式や >>177
そういえばあったのにストレスが溜まってた
😠みたいな人達が沸くのは一般人よりももっと貧しいスラム街かと思ってる あーあもうこれで支持している
市場及びスレ主力軒並み下落、、 純粋に人気と曲の良さで言えば「抱き合え」だよね
Teriyaki多すぎやろ Fish Speechがそのうち15万時間の日本語で訓練されたBert-VITS2以上のモデル出すらしいで いざ学習完成しても内川コピペ朗読させるくらいしかやることないの草 AI絵と合わせたり、LLMと結合したりみたいなそういう使い方が目立ちそうやな
もともと創作やっとる人はボイドラ作ったりもしとるみたいや >>256
サンプルええやんNSFWも気になるな… ラジオソースで学習させてみたら10エポック行かないぐらいでエラー吐くんやが、過学習でエラーなったりするんか? RVCなんだけど、AT2040みたいな良いマイクにしたら変換後のザラザラ感減る?
今は定価1000円のピンマイク >>260
すんげーw
ほんまに作ってしまったんか gradio_clientを使って外部から実行と結果を得たいのですが
たぶんtts_fnを呼び出せばいいと思うのですが、
パラメータと戻り値に具体的にどんな内容を入れるべきか、どんなデータが返ってくるか教えてください。
tts_fn, # API名
inputs=[
model_name, # モデル名
model_path, # モデルファイル
text_input, # テキスト
language, # JP
ref_audio_path, # ???
sdp_ratio, # ???
noise_scale, # ??? noise_scale_w, # ???
length_scale, # ???
line_split, # ???
split_interval, # ???
assist_text, # ???
assist_text_weight, # ???
use_assist_text, # ???
style, # ???
style_weight, # ???
tone, # ???
use_tone, # ???
speaker, # ??? ],
outputs=[
text_output, # ???
audio_output, # ???
tone # ???
], >>256
うおお!
使わせてもらうで!
なんか作ったらまたここに晒すわ! pony対応のLoRAに馬のアイコンつくようになってて草生えるw
どんだけ人気やねん。 >>261
Some weights of the model checkpoint at ./slm/wavlm-base-plus were not used when initializing WavLMModel: ['encoder.pos_conv_embed.conv.weight_g', 'encoder.pos_conv_embed.conv.weight_v']
- This IS expected if you are initializing WavLMModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing WavLMModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of WavLMModel were not initialized from the model checkpoint at ./slm/wavlm-base-plus and are newly initialized: ['encoder.pos_conv_embed.conv.parametrizations.weight.original0', 'encoder.pos_conv_embed.conv.parametrizations.weight.original1']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference. >>261
こんなエラーや。翻訳してもよくわからん…
とりあえず素材wav減らしたり増やしたりして試してるとこです。 >>270
それは毎回出る警告で、無視してよくて、直接的なエラーではないで
それだけなら学習はちゃんとできとるはずやが >>272
サンガツ
リトライ繰り返してなんとか進められたわ。
ふと気づいてGPUのOC切ったら安定して吐き出しとるわ。しょーもない結果ですまん
他のサンプルでは問題なかったから、強引に進めなかったらずっと気づかなかったわね… gradio_clientあっさり動いたわ、こりゃいい
次はEmbeddable Python上で動かせるかの実験 変換用に自分でアカペラ撮ったけど声がキモすぎてキレそう
早くオキニの声で浄化しないと…… Style-Bert-VITS2ってtxt読み上げが基本で歌やASMRを学習モデルで変換出来ないのか… VITSはTTS(読み上げ)定期
そういうのはRVCでやるんやで ValueError: Cannot read: \u5173 in:
キレイ\u5173ったと思うのですか,とりあえずは,私たちがいつも続くのにおかげになるのです.
これ何かなと思ったらチュパ音だった
チュパ音は日本語化難しいのかね チュパ音や喘ぎは自動書き起こしが面白いふうにバグるで
喘ぎはともかくチュパ音は正しい書き起こしとか難しそうやな……
(チュパ音のみの学習もやってみようと思いつつまだ手を付けてない) nsfw版作ってる人もおるらしいけど
全部手直し修正となるとなかなか作るの大変そうやね 自分も喘ぎ声がご視聴ありがとうございましたになったことがある
youtubeから学習したせいで、なんかよくわからないときはご視聴ありがとうございましたが出やすいんだっけ chatGPT4に書かせた短編エロ小説をNAIで作った挿絵付きでbertvitsに朗読させてみたやで
お仕置きを期待しちゃうドジっ子メイド
https://files.catbox.moe/2r1tlc.mp4 >>283
複数話者混じってたらどうやって話者を指定するんや?
自動で話者分けるのはたぶん難しいで(スタイル分けとかでもパラメータはデータセットによって変わるし) esd.list.cleanupを復元すると変な数字入ってしまうんだけどどうすればいいの >>284
話者ごとにファイルを分けてinputフォルダに入れる形
esd.listをいじらず最初からそれぞれ話者名を指定したい >>286
pyannoteとかいうのがあるね
人数わかってると精度上がるとあるが言い換えると アニメってだいたい BGM 入ってるけど 素材にするのは難しいですか? >>288
RVCにはBGMと音声を分離する機能があるんやで 皆さんありがとうございます!
demucs良さそうです Style-Bert-VITS2のapp.pyでgradioのUIを立ち上げるのではなく、ダイレクトにpythonに音声生成させることってできるんですか? 内部でapp.pyがやっていることを参考にすればできるで コードとか全くわからないけど、chatGPT4に投げて、これgradio抜きで使いたいんだけど!って言えばとことん付き合ってくれると思う Install-Style-Bert-VITS2-CPU.batからインストールしてモデルをダウンロードした後に
'Iを起動します。' is not recognized as an internal or external command, operable program or batch file.
と出て最終的にzipfile.BadZipFile: File is not a zip fileを出して終わるのですが、おま環ってやつでしょうか? >>296
「Iを起動します。」はたぶんバッチスクリプトでの日本語が変になっちゃう仕様でたぶん関係ないな
zipfile.BadZipFileのほうが問題で、単純に途中でダウンロードしてるzipファイルの何かが壊れてるっぽいが……
App.bat起動した時も同じエラー出るかチェックして、出たらもっと長いエラーログをくれると助かる インストールが完了した状態をそのままアーカイブにして配布しても動くと思いますか?
仮想環境のpythonが入っているからできそうな気がするんですが
もちろんGPUがある環境が条件で >>282みたいな会話劇作ってて思ったんだけど、sfwモデル、nsfwモデル、竿役モデルの切り替えが面倒で、あと間違えてnsfwセリフを竿役に誤爆するとSAN値が減るんよね
bertvitsの昔のguiにはモデルや設定を複数ロードしておいてどれとどれに言わせるかチェックで選べるUIがあったけど、ああいうのstyleにもあったら捗るやねチラッ 最近rvcで遊び始めたけど難しいね
『青のすみか』を女声で変換しようとすると必ずかすれる
モデル変えても同じだから、曲自体が音域広くて難しいのかもしれない 男声を女声にしようとするとピッチ補正にも限界があって難しいらしいから
ボイトレしないと難しいらしい 歌の音声データを変換したってことだろ?
歌特化で学習したモデルじゃないと歌の変換はうまくいかんよ RVCでちょこちょこ学習をしてるけどまだ触りだから
なんとかパンダさんのを素早く乗り換えたほうがええんけ? パンダのは若干独自路線なので汎用性考えるなら本家かAplio版かな >>303
ddpn版はアプデ止まってるから本家かApplioでええやろ >>297
お返事ありがとうございます。App.batを起動すると以下が出てきます。
https://tadaup.jp/52c8637a5.jpg
お手数ですがよろしくお願いします。 まーたそうすぐ茶化そうとする・・・
やめなさいよそういうの whisperで文字起こしする場合large-v3よりlarge-v2のが良いって噂もあるけどどうなのかな >>306
とりあえず内部でダウンロードしてるzipが壊れてるっぽいから、全部消して再インストール試してみたら 喘ぎ声にはlarge-v3よりもlarge-v2のほうがええで
あとプロンプト指定で、ちゃんと喘ぎ声っぽく指定するのがコツや
使ってるプロンプト:
あぅ、あんっ!あああぁぁっ!……んくっ、はっ、はっ、あぅっ!あっ、やっ。んっ、うっ、はっ…んっ…んんんんっ!わっ、わたしも……き、気持ちいいよ。ひゃん!はっ、あっっ……あああぁあぁぁあぁ! >>0312
なんどか消して入れ直しは試してダメでした。307さんの話的にC直下でやれば大丈夫な感じですか?やってみます。 書き起こしwebuiで、「このように書き起こしてほしいという例文」って書いとるんやけどな whisperにNGワードと辞書登録機能をつけてください。
大抵同じ間違いをする 文字起こしすると以下のようなエラーが出るんですが、どうしたらいいですかね・・・?
File "G:\Style-Bert-VITS2\Style-Bert-VITS2\transcribe.py", line 79, in <module>
text = transcribe(
File "G:\Style-Bert-VITS2\Style-Bert-VITS2\transcribe.py", line 17, in transcribe
texts = [segment.text for segment in segments]
File "G:\Style-Bert-VITS2\Style-Bert-VITS2\transcribe.py", line 17, in <listcomp>
texts = [segment.text for segment in segments]
File "G:\Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\faster_whisper\transcribe.py", line 510, in generate_segments
encoder_output = self.encode(segment)
File "G:\Style-Bert-VITS2\Style-Bert-VITS2\venv\lib\site-packages\faster_whisper\transcribe.py", line 769, in encode
return self.model.encode(features, to_cpu=to_cpu)
RuntimeError: Library cublas64_12.dll is not found or cannot be loaded ぐぐればすぐ出てくるやん
https://teratail.com/questions/kecfvprkfwd15c
たぶんcublas64_12.dllの名前が違うんでしょ
探してみたら? CUDAはランタイムだけインストールできるから11.x/12.x両方入れときゃいいんじゃないだろうか?
https://i.imgur.com/Q86moFz.png whisperに辞書機能は無理や、ワイはOpenAIの社員ではない
プロプンプトによく入る固有名詞とか名前入れるとそこは出るのでそれで対応してくれ
音声合成と学習時の辞書機能は大体できとるから次verでつける whisperが同じ間違えするなら自分で文字列置き換えのリストでも作って処理走らせたほうが楽だとおもうの >>315
アカウント名はuserなんか?日本語つこうてるとエラーになるで 理想的サンプリングと学習量と高精度化ってのがさっぱりつかめない ちょっとテストした感じやと高精度化が意味あるのは音源の音質が全てやと思う
スタジオ収録してある音源やと仕上がりもクリアやけど
8bitに変換して同じ100epochで回したら似た発音の音が引っ張られてもにょる
スタジオ収録音源にノイズ入れてからノイズ除去しても発音時に篭もるのも高音質化は難しそうや
音質が悪くてもepochを上げて回すとプチらなくなるから意味はあると思うんやけど
もとから音質が良いと上げても意味ないみたいや
音源が悪いときはノイズ除去のあとに軽くエコーをかけると出来上がりがマシになる
自然な笑い声や悲鳴はどんだけ音源を揃えても自然に発音できないみたいや >>325
アカウント名はuserではないけど英語でつけているので日本語ではないです。
https://tadaup.jp/562e9f83c.png
C直下で入れなおしたけど結果はやはり同じエラーになってしまいました。 >>329
たぶん壊れたzipがキャッシュされとるっぽいな
nltkとやらのzipはWindowsだと
C:\Users\ユーザ名\AppData\Roaming\nltk_data
に入っとるっぽいから、このディレクトリがあれば探して削除してからやりなおしてくれ TTSはRVCほど素材なくてもちゃんと喋っていいね >>330
averaged_perceptron_tagger.zipを削除したらいけました!!ありがとうございます。
他の皆様も回答していただいてありがとうございました。おかげで解決しました。
前スレで同じくzipエラーで出来ない方が居たのでもし見てましたら同じようにすれば起動できるかもしれません。 Style-Bert-VITS2のコミット履歴みた感じ次バージョンで辞書以外にもピッチ調整機能が来そうやな colabの文字起こしの質が落ちたな
単語が繰り返されたり英語やハングル語がまじるようになった 「#だって聞こえなくって勃起してる業が深いタイプね
少し期間置いてある
低目だったら党としても確証のある資料を示さなけりゃプレゼンにならなかったり 乗用車に乗っていた出張途中の2杯分くらい食う
野菜炒めが少し上手くできたと へみわよへいえほそねおせくみふとあほわとねますやをけわ switchでSO1やったけど音楽がええな
アイドルオタなんぞに羨んで貰わなくて1位スナイプできるレベルでは働けない さむへりひてゆとやきれよつきまえめちるきらのんゆめわををえなてうろねやねすはおまさふいちれけふ colab版の文字起こしが変になったので修正をお願いします。
|昨日の映像は、私が昼食を食べた時の映像だったのですが、昼食を食べた時の映像は、私が昼食を食べた時の映像だったのですが、
|―?ーугーがRーーー
|偉大な祖先の魔法力が……何?山ansen!そんなと、そんなと…… doing such an observational thing!あの男だ、はやしめな術で???……あごめん、ゴメンテロ... https://huggingface.co/spaces/litagin/Style-Bert-VITS2-Editor-Demo
Style-Bert-VITS2、今日中にバージョンあげようと思ってたけどちょっと無理かもしらん
次verでつける予定のエディターのデモ
原稿保存とかもできるはず >>342
Style-Bert-VITS2側では文字起こしは何も変えてないから、そんなわけあるかと思ったけど、
faster-whisperが昨日ごろに1.0.0にアプデされたっぽいからその影響かもしらんな……確認はする。
とりあえず、requirements.txtのfaster-whisperのバージョン指定を
https://pypi.org/project/faster-whisper/#history
でも見ながら適当なバージョンに指定して対処してくれ %や+のような一般的な記号を読み上げる機能って予定あります? faster-whisper 1.0.0試してみたけど、こりゃたしかにだめだな……
少なくともlarge-v3の性能がめちゃ下がってる
上で出てたCUDAのバージョンエラーもこのアプデが原因やな、バージョン指定固定しとくべきだった、すま >>343
うおおお!
でもまあゆっくりとやってもろて… >>313
おお、v2の方が良いケースはやっぱあるのか~。
文字起こしの話じゃないけど、喘ぎながら話す音声作品をStyle-Bert-VITS2で学習するとき、テキストから …。、の3種類の文字を消すとエロシーンっぽい話し方が学習されやすい気がした。
… があると、…… が「はぁはぁ」に割り当てられちゃう、みたいな。 なるほど
…に吐息が含まれるのもそれはそれで便利な気もしたけど
nsfwな音声の学習とsfw音声の学習はかなり切り離して考えたほうがいいのかもね largev3だとえー、みたいな相槌が無視される傾向があるけどlargev2なら拾いやすくなるんけ? faster-whisper周りは昨日からおかしい
まず大本のctranslate2, 4.0がCUDA12専用になって、torchのcu121しか動かん
前バージョンに戻そうとしても戻らん罠もあるで ==0.10.0だと最新と変化ないものが落ちてくる
==0.10.1 が前バージョンや、あいつらチョンボしてバージョンタグ飛ばしとるで 前処理でこういうエラーが出てesd.listが吹っ飛んだんやが
https://imgur.com/kEan7Hg.jpg >>353
|の数が多すぎるんちゃうか
Style-Bert-VITS2はesd.listの処理でエラー吐くと壊れるからバックアップ推奨や
先にlist内の要素全部変換してからjoinとかで結合して書き込んでくれるとええんやけどな… とりあえずfaster-whisperのバージョン指定はメインブランチで0.10.1指定にしたのでcolabはもう直っとるはずやで
タイミング悪く1.0.0にあたった人は自分で入れ直してな >>354
自分じゃ壊れたことが無くて、直したいから教えてほしいんやけど、
テキスト前処理のところで読みが分からんエラーがあったりするとesd.listが壊れるってこと?
それとも書き起こしのとき? >>358
前処理の時のesd.list内の音声ファイル名にData/モデル名/をつける処理のところで|の数がおかしかったりしてエラー吐くと壊れるんや nsfwとv2確かに相性いいなご視聴ありがとうございました言わなくなった
だけどUnexpected phone: uで止まってしまう 音声の文字起こしです、ずっとモデルを読み込んでるみたいな挙動してる なるほどありがとう、初めてlargev2にしたからダウンロード始まってたのか これ素材に喜怒哀楽の強いのをばらまくより、テンション高いのや低い状態の集中して
集めたほうが制度がいいのができる? そういうのを出したいならそうだと思う
ボイスドラマとかだと版権キャラでもオリキャラでもローテンションなキャラにハイテンションさせることはまず無いしね
あと音声って、聞く側の意識にもだいぶ左右されてるよね
音声自体の出来とは別に、「こういうタイプのキャラが言わなそうなことを言ってる」ってだけで違和感が溢れ出る >>369
やってみたけど、パンパンみたいな音が入りまくって駄目だった
クリーンアップする技術と根気があればいいのかもしれないけど |の数が多すぎるエラー、ワイも出たわ
音声のファイル数が多いのかな?800弱だけど |の数エラーは、単純に1行の中に区切り文字の|が多くて形式にあってないときのみにでるはずなんやけどな なおりました
何故か改行が入ってない行があったみたいです illegal multibyte sequenceって出てきました
マルチバイト文字?があるってことらしいけどどうすればいいですかね https://prtimes.jp/main/html/rd/p/000000007.000123714.html
AIとセクハラ会話できるで
これで好きな音声学習できるようになってればええんやけど当然のように音声合成の仕組みやデータはクローズドやな どいつもこいつも最近はクローズドにしやがって😡
先人を見習わんかい!!👊カッー! % Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0
0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0
curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - 失効の関数は証明書の失効を確認 できませんでした。
Press any key to continue . . .
Style-Bert-VITS2をインストールしようとbatファイルポチポチしたらエラー吐くます。
調べてもわからないですけど、誰か解決法ご存知ありませんか セキュリティソフト()だったようで、、、
自決しました RVCの自分での素材厳選に行き詰まってeasyaivoiceの他人のサンプル聞いてみたけど
300~600の学習がこんぐらいかとおもったけど1エポックのサイズは不明なんだよな >>364 のエラー文です
result = subprocess. runC
File "subprocess.py", Line 505, in run
File "subprocess.py", Line 1144, in communicate
UnicodeDecodeError: 'cp932' codec can't decode byte 0x9a in position 1318: illegal multibyte sequence 他話者にして学習させると同じモデルの内部になるからな、マージのしようがない
単一話者扱いやったらスタイルベクトルを中間とったりしたらたぶん実質マージっぽいことになると思う >>360
すまんやっと理解して再現できたわ(preprocess_text.pyの問題だと思ってがwebui_train.pyのほうの問題だった)。
なるほど確かに全部吹っ飛ぶな、今まで気づかんくてすまん
次回で修正するわ 今までワンタッチ学習化してなかったがモデルとインデックス
どっちかを極端に強化して学習を続けるとか
完了した状態から片方を更に学習とかありなんやな Aivis-Datasetのrequirements.txtでfaster-whisper==0.10.0が指定されているんやがこれも0.10.1にした方がええんやないか
あと1番のbat実行時にlarge-v3だけやなくてlarge-v2も使えるようにしてほしいで
今はAivis¥__main__.pyのcreate_segments関数にあるModelNameType.large_v3をModelNameType.large_v2に都度書き換えて使っとる RVCのインデックスは学習とは全く関係ないで、ただ単に元データの特徴量を集めとるだけや(検索しやすいようにとかしてるらしいが) 最初にInstall-Style-Bert-VITS2.batでlib\pythonに作られるpythonと、Style-Bert-VITS2\venv\Scriptsに入っているpythonって何が違うの?
というかlib\pythonって何のためにあるの? gradioを使わないで、pythonで音声合成をさせたいのですが、app.pyのapp.tts_fn()を呼び出して実行しただけではエラーになってしまいます。
やり方を教えてください。 >>391
そういうのはchatGPTの得意分野でしょ
月数千円の端金でとことん付き合ってくれるよ >>390
そもそもは自分のPCに規定のバージョンのPythonをインストールしてないとセットアップ出来ない
が、そのインストーラーはPython入れてなくてもセットアップ出来るようにまず仮のPython環境をダウンロードしてくれる
それがlib内のPython
で、それ使ってVITS専用のPython環境をvenv内に構築してる
だと思う UVRやspleeeterみたいな音声分離ソフト使って女優さんの声だけ抜いてきたらアカンのけ? https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.3
Style-Bert-VITS2アプデしたで、辞書追加とエディター追加、あとここでいろいろ言われてた不具合とか振る舞いの改善したつもり
動かんかったらすまん、また報告してくれ >>395
アプデさせてもらったで!
なんかすげえ
ボイスドラマが一気に捗りそうや >>395
いつもお疲れさまです
帰ったら試してみようー 話者はすまん、UIに組み込むのめんどうやし個人的には1話者1モデルでしかやっとらんし単一話者モデルのほうが質がいいと思っとるからから今回はスルーした
気が向けばUIとAPIに組み込むがちょい面倒でな… あとエディター立ち上げながらもう一つエディター立ち上げたり、学習のテキスト前処理しようとしたりみたいな、日本語処理が走るやつを2つ以上同時実行すると、辞書ファイルが競合してエラーになるっぽいバグがある、すまん
これはどう直したらいいかよう分からんから、どうにかできるかは分からん。 今日はじめてStyle-Bert-VITS2をつかってみとるんやがマージで詰んでる、たすけてくれ
Merge.batを実行しても
AttributeError: 'str' object has no attribute 'iterdir'
とエラー出てすすまん
ぱいそんはなんもわからんのや どこで出てるかしらんけど、同じようなエラーみたな
パス入れるところに文字列入れんなって怒っている
from pathlib import Path
model_dir = Path(model_path).parent
こんな風にするんじゃね >>406
ありがたいけどすまん、どこをいじればいいかわからんのや
一応ここでエラー出とる
Traceback (most recent call last):
File "C:\AITool\Style-Bert-VITS2\Style-Bert-VITS2\webui_merge.py", line 30, in <module>
model_holder = ModelHolder(assets_root, device)
File "C:\AITool\Style-Bert-VITS2\Style-Bert-VITS2\common\tts_model.py", line 228, in __init__
self.refresh()
File "C:\AITool\Style-Bert-VITS2\Style-Bert-VITS2\common\tts_model.py", line 235, in refresh
model_dirs = [d for d in self.root_dir.iterdir() if d.is_dir()]
AttributeError: 'str' object has no attribute 'iterdir' こうじゃね、知らんけど
model_holder = ModelHolder(assets_root, device)
↓
model_holder = ModelHolder(Path(assets_root), device)
頭にfrom pathlib import Pathも入れてね あーすまん、Modelの仕様変えたやつがマージのところでは修正しとらんかったわ、あとでやる >>408
ありがたい
>>409
なんや仕様か、安心したわ
色々ためして楽しんどる、ありがとうな Modelの仕様ってどう変わったんですか?前のバージョンのモデルは使えない? 内部での内部でファイル名の扱いをstr型をpathlib使うようにしただけやで
要するにモデルの構造はなにも変えて無いから前バージョンは使える みなさん学習前にesd見直して変な所あったら書き直したりしてます? やらないンゴ
遊びに使う分には問題ないしどうせ各種ソフトの改良でやり直しになるし ざっと見て目についたところだけやってる
ご視聴ありがとうございましたとチャンネル登録よろしくお願いしますを書き直すくらいがほとんどやけどな Stable Diffusion 3が出たのか、あっちもやりたいな、マルチGPU簡単にできるようになったかな usage: slice.py [-h] [--min_sec MIN_SEC] [--max_sec MAX_SEC] [--input_dir INPUT_DIR] --model_name
MODEL_NAME [--min_silence_dur_ms MIN_SILENCE_DUR_MS]
slice.py: error: the following arguments are required: --model_name
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]
usage: transcribe.py [-h] --model_name MODEL_NAME [--initial_prompt INITIAL_PROMPT]
[--language {ja,en,zh}] [--model MODEL] [--device DEVICE]
[--compute_type COMPUTE_TYPE]
transcribe.py: error: the following arguments are required: --model_name
ってエラーが出る mecabの辞書は分かったけど、追加する時に、ネットでこれを追加しろみたいな検索できるとこないの?
例えば、「何々(なになに)」だったらどう追加するのが一番楽にできますか? >>419
せめて実行環境がcolabか通常のWebUIかくらいは書いてや
colabの方の更新忘れとったやつのエラーでワイが悪いのであとでやるが、
そこのエラー文章のとおりに書き直せば使えるで MeloTTS、まあまあの部分がBert-VITS2のコードのパクリっぽくて、正直分からんね あとはwhisperが狂い出した時にどう対処するかだな whisperくん喘ぎ声あんま認識せんな...
largev2でも1/3ははじめしゃちょーとか出てくる ご視聴ありがとうございましたとかNGリスト作ってエラーリストに載せてもらいたい。whisperが狂ったのでエラーって 本当に「ご視聴ありがとうございました」が書き起こしになる場合もあるから、こっち側でNGリストを作ることはせんで NGチェックをするかどうかを選択できるようにすれば?本当に言ってるなら、そのままにして、NGチェックをはずす まあ考えとくわ
他にもやることはあるから、どうしても欲しいなら自分でつけてプルリク送ってな ほんまに感謝しとるで。
ちょっと厚かましい人がおるのは俺の方から謝りますマジすいません
なのでどうかこれからも開発を継続していただけると助かります 無関係の自分でもこの厚かましい奴不快なのによっぽどやろ 最近のスレの流れがよくわからないんだが
「ご視聴ありがとうございました」っていう
テキストとnsfwがどんな関係性なのか誰か教えてくれないか?
自分はsfwの音声しか学習させてないからよくわからない nsfwに限らんけど、音声から書き起こしデータセット作る段階で、喘ぎ声とか聞き取れんとか無音に近かったりすると、
whisperがハルシネーション起こして「ご視聴ありがとうございました」って書き起こすことがあるんや >>434
なるほどな、そういうことか
調べて見たら色々サイトとかブログでも言われてるんだな
検索すれば分かる事なのに聞いてすまんかった
教えてくれてありがとう ああ、辞書登録用のエディタGUIを付けてくれたんですね、てっきりCSVを直接編集するのかと思ってました。あざす このスレには作者と傲慢にあつかましい奴と腰の低いあつかましい奴しかいなんやから仲良くやれよ 画像や文字はそんなことないのにここだけ場末の専門板みたいな雰囲気になるの草 なんでこんなクレクレ君多いんやろな
制作者の人徳? colab乞食とマルチGPU乞食の2匹やろ?
なんかこいつらデータセット収集元の人物と結びつけて動画やら何やら公開しとるっぽいしリスキーやないか? とりま次スレあったらワッチョイぐらいあったほうがいいな japaneseASMRからスクレイピングすること1ヶ月🤣🤣🤣🤣🤣 Traceback (most recent call last):
File "/home/user/app/server_editor.py", line 33, in <module>
from common.constants import (
ModuleNotFoundError: No module named 'common'
Dockerでエラーがでたんだけど誰か教えてください。
2,3にしてからのmodel_nameは俺もそうなの
3つもいらんやろと思って1つにしたせいかも マルチGPUマンはNVLink SLIすればいいんじゃね
マルチGPUって単語自体が異質なんだよなあ基本的に何のメリットも無いし colabエラーは表示されてる通り--model_nameを指定したり引数を調整すればええで
今アプデ作業中やから待ってや
>>449
Dockerどうやって使っとる?
見た感じはcommon/ディレクトリがイメージに入ってないっぽいけど。
あんまチェックしとらんで適当にDockerfileとか.dockerignoreとか書いとるからこっちのミスかもしらん なんか名古屋弁の書き起こしもLarge2の方がええな… そうなんか large3で手直ししとるけど2の方も試してみるか VITS2
多々とか様々とかでひっかかるのは仕様なん?おま環? >>456
仕様やで
手打ちでさまざま とかに直すとええで >>457
おkさんくす
なんかテキトーなコード書くわ ホントは「何々」は固有名詞じゃないから、ちゃんと登録するならMecabの形態素とかをちゃんと書かんといけんが、そこらへんはよう分からん 前処理のチェックが終わってからなぜかこけてしまします。train.listの書き出しで失敗している?
File "D:\Style-Bert-VITS2_2\Style-Bert-VITS2\common\subprocess_utils.py", line 30, in inner_function
[python] + cmd,
File "D:\Style-Bert-VITS2_2\Style-Bert-VITS2\webui_train.py", line 311, in preprocess_all
success, message = preprocess_text(
File "D:\Style-Bert-VITS2_2\Style-Bert-VITS2\webui_train.py", line 197, in preprocess_text
success, message = run_script_with_log(cmd)
File "D:\Style-Bert-VITS2_2\Style-Bert-VITS2\common\subprocess_utils.py", line 12, in run_script_with_log
result = subprocess.run(
File "subprocess.py", line 505, in run
File "subprocess.py", line 1144, in communicate
UnicodeDecodeError: 'cp932' codec can't decode byte 0x9a in position 1097: illegal multibyte sequence >>462
colab?
ワイもそのエラー出たんやけど何故かもう一回やり直したら正常に処理されたから原因がようわかっとらん subprocessだから、何かの処理を委託でやらせている最中にこけたんだと思うけど 変な文字入ってるのはよくあるからいいけど何行目にあるか教えてくれるといいですよね colabやるとこういうエラー出るんやけどどういう事なのん
https://imgur.com/aFjVI8Q.jpg 再起動して環境構築してもランタイム削除するとまた表示される requirements.txtにpydevd入れるとこうなる
https://imgur.com/V3dQUXj.jpg ワイは分からんからいろいろ試して解決策を見つけてくれ UnicodeDecodeError: 'cp932' codec can't decode byte 0x9a in position 1097: illegal multibyte sequence
は、たぶんtrain.listってやつを出力してる最中にこけてると思われる、なので、train.listの最終行の次にくるやつをesd.listから探して、
なんとなく修正 >>462
エラーの内容だけからエスパーすると、サブプロセスとの通信を標準入出力でやってて、そこにSJISに定義されてないバイト列を流すか流されたかして落ちた
UTF-8とかの文字列であれば標準入出力のエンコーディングを変えるか、手っ取り早くやるなら環境変数PYTHONENCODINGを設定する
バイナリデータであればsys.stdout.bufferとかを使う
どっちにしてもソース直す必要あると思う 調べてもセッションを再起動するとしか書いてない……
根本的に解決する方法はないのだろうか こんなかにSJIS使ってるやついる?いねえよなぁ!? colabエラー、「セッションを再起動」の警告は、これまでにも赤文字で出てたやつやけど無視していいエラーやから、
ランタイム再起動とかせずにそのまま無視して使えばいいような気がする
あと文字コード怪しいとこ直したから動くか試してみてくれると助かる そうだねー
whisperの書き起こしで変な記号出ちゃうのはみんな困ってるから、解決策を見つけて共有してほしいねー style-bert-vits2のNSFWモデルけっこう消えてますけど
何かあるんですかね 最近のお気持ち表明でビビって消したんやろ
ウルトラマンコも企業相手に訴訟起こされたら負ける判例も出来たし次は声優のお気持ち訴訟バトルや! 某声優のNSFWモデルをHFで公開してた人
なんか内容証明郵便が届いたってツイートしたと思ったら
アカウントごと消えちゃったね 去年のRVCで何度か燃えとるけど、いまさら最近声が大きいの何なんやろうな もちろん金取るのはいけないけどあんまり大っぴらにお気持ち表明すると
「この岸辺露伴が聞いてもらうために声優をやってると思っていたのかァーーーーーッ!!ぼくは金やちやほやされるために声優をやっている!」みたいに思われかねない >>486
そういうの名前出さなきゃ良いんじゃないすかね 別に名前出してたかどうかはわからないでしょ
出してたらアホだけど もともとどこにNSFWのモデルなんて見えるところにあった…? UnicodeDecodeError: 'cp932' codec can't decode byte 0x9a in position 1097: illegal multibyte sequence
から抜けれなくなった。ここの前処理で作業が止まる これ?
Windows
Windows はそもそもファイルを開くときもコマンドライン引数を受け取るときもW系APIを使うので、
filesystem encoding の出番は少ないです。
あえてファイルパスをバイト列で扱う場合の挙動が、 Python 3.5 までは Windows の A系API呼び出しだったので
filesystem encoding は現在のコードページ 'cp932' とかでした。
Python 3.6 からはこの動作がかわり、 UTF-8 => UTF-16 変換して W 系APIを使うようになったので、
filesystem encoding は 'utf-8' です。(Python 3.5 の挙動に戻すための環境変数もあります)
一方、 preferred encoding は、今でもコードページを使います。
Microsoft が標準のテキストファイルのエンコーディングを UTF-8 にしてくれるまではずっとレガシーを引きずります。残念です。 なんJ民やったらハセ学履修済みで少しでも危なそうな事はTor使えって教えがあったやろが😡 >>494
すまんcolab?ローカルWindows?「ここの前処理」ってどこやねん?
怪しそうなところ直したからちょっと試してみてくれると助かる フォークしてプル申請すれば、マージしてくれるの?
自分のほしい機能は自分で作ってってこと? >>497
windowsですが、アプデしたら
UnicodeDecodeError: 'cp932' codec can't decode byte 0x9a in position 1097: illegal multibyte sequence
は出なくなりました。ありがとうございます >>499
せやで
オープンソースってそういうもんや そういうの簡単にできるから人気の奴にウイルス仕込んでフォークするやつもいるらしい
怖いねぇ 読めない文字のスキップ機能を有効にしたら発生した。読めない文字を修正してもう一度前処理したらちゃんと出来たのでこの機能がうまく作動してないみたい >>503
すまん手元ではエラー再現できなかった、前処理でbert.ptが壊れとる感がある
あと「こんなエラー出た」だけじゃなくて、実行環境とか(たぶんcolabやろうけど)、ここをこう変えたらうまくいってたのがエラー出るようになったとか、
怪しそうな設定や箇所とか(読みエラーファイルを使うようにしたとかモデル名を日本語にしてるとか)、解決に向けて試したこととか、
そういうもっと詳しい情報(できればこちらで再現しやすいような状況)をくれ と書いとったら情報くれたな(やけどそれを最初からやったうえでエラー報告してくれ)
ただこちらでも読みスキップ試したんやけど、ちゃんと読めんファイルは無視して学習始まったから、
単純に最初から全部(読みスキップ設定で)やり直したらうまくいかん?
前の設定ファイルやらtrain.listが残っとるとかそういうことがありそう >>507
またやってみていかんかったら報告するわ >>503
ローカル変数bert_oriが割り当てられる前に参照された言ってるからバグやろな bert_oriはbert.ptファイルがちゃんと存在して読み込めれば代入されるはずやから、コードのバグと言うよりはファイルがちゃんと生成されとらんのが問題や いつのまにかRVCよりもGPT-SoVITSがスター数多くなってて草 呂布カルマって人じゃないん?
鍵だって諦めてるようだけど >>512
GPT-SoVITS? まさかもうvits2の上位互換でたの? >>514
事前学習なしで少ないファイルから学習できるってだけだね https://github.com/RVC-Boss/GPT-SoVITS
RVCのとこが1月に出した、ゼロショット・フューショット特化のTTSやね
Bert-VITS2とは方向性が違う
ただBert-VITS2のところが出す予定のFish Speechとはぶつかりそうやけど、あちらは正式リリースまだで、
めっちゃ今頑張ってるらしいからそっちに期待してる 約50分のボイスデータ用意できたから初めて回してみてるんやけど16GBのショボグラボだとバッチサイズ24が限界で1エポック当たり2分50秒かかってるから100エポックや200エポックなんて時間かかりすぎてツラいな
40~60で妥協するのがええのか元データ減らしてでもエポック数増やした方がええのかどうなんやろ マルチGPU処理にチャレンジしてるけど、さっぱりわからん。
プロセスを管理する司令塔を作らないといけないのはわかるけど >>518
RVC?
だいたいいつも合計60分データで回しとるけど200-300エポックあたりが良さげなことが多いから300は回しとるで マルチGPUの処理を試行錯誤してて
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x92 in position 106: invalid start byte
このエラーが出るようになったんですが、
修正前にこれが出ていた原因を教えてもらえますか
同じことをやっているのかもしれません >>522
日本語を含んだパスのExceptionをraiseしようとしたらエラーになったのでパスを出力させるのをやめたら直った >>515 >>516
ほぇー教えてくれてありがとう aiイラストのほうもそうだけど数か月情報追わなかったらどんどん新しいのが出てきてついていけなくなるわほんま… 2.3キロは軽く痩せそうなんだ全然砂漠じゃ無いじゃん
現役反社と指名手配犯に利益供与する現役国会議員としても要らね
顔出しでやってる 得するは少額投資家に帰れる
きつい
誤爆いたしました、呂布は金が絡むと昔からつるんで次スレ立てない
けどサーフィンはやっぱ意味ねえなしなのがあるし 配信もあるんだよ
○資産と赤字の関係を述べよ
そうなのに? ずるいわ
なお決算
利益100億持ってイキイキしとるおっさんは悪くないのでそこはいいんですけど
アステラスは1400~1600円に値上げするわ。 って感じの初期気配
ここのは弛んでるだけだろ
正直ジブラやケンジーよりクレバの方が全体として見る訳ないじゃん
婆と情弱と中古で安くても見えて 無能激遅スクリプトも職場の無能を連想されるからイライラするンゴねぇ ここ過疎りすぎて最近の書き込みがスクリプトだけで草も生えない 俺もしばらくは助からんわ
年金がどうこう言うことをやればいいのにね
ガーシーが依頼したヤツじゃね?
山下退所して、スタンドでもストレート主体やから西と違って勝ち数は同じ有権者として氷を小刻みに蹴って回ってたり >>461
入会するのは、今後も既存のパワートレインでのレベルじゃねえかなとか思うと それ以外で部屋分けしただけだろう。
投資するわ。
そもそもモウリーニョオーレと最低限の結果残せるからな
毎年120万円 新興電工、300株です
未成年へのルールがころころ変わるという制度自体がない
やっと
血糖値は高めで、意識喪失で、中央分離帯衝突 マルチGPUのためにいろいろtrain_ms_jp_extra.pyをいじろうとしてるけど、
これ途中までマルチGPUに対応させようとしてたのかな
そんな形跡がある VITSのモデルで配信とかのコメント読み上げたいけどそんなのないよな? VITSもいろいろあるけど
テキストからじゃなくて音声ファイルを変換したいなら
RVCとかso-vits-svcとかSVC形式のを使ってくれや
名前似てるけどモデルの互換性とかは基本ないはずやで 棒読みちゃんみたいに配信のコメント欄の読み上げじゃない?
探せばありそうだけど自分で書いたほうが早そう RVCのモデルでVITSみたいな読み上げしたい場合は自分でRVCで適当な入力作って学習させる必要あり? VITS・VITS2・Bert-VITS2・Style-Bert-VITS2・GPT-SoVITS: テキストが与えられたら音声を返す(TTS)
RVC・so-vits-svc・DDSP-SVC:音声が与えられたら音声を返す(VC)
やから、RVCモデルで読み上げさせたいんやったら、一度何かしらのTTS噛ませる必要があるで
TTS部分はVITSとか使わんでも既存のボイロなりボイボなりCOEIROINKなり他の使ってもええと思うが あざます。感情載せたいけど素材集めが大変そうだなぁという動機付けです。
適当にTTSで素材作ってRVCで変換したものを元にStyle-Bert-VITS2で学習させればモデルは作れるけど自動化まではされてない感じですかね。
適当なモデルでStyle-Bert-VITS2してからVCしてもそれほど品質は変わらないのかなという気もするのでちょっと試してみます。 特に声にこだわりないんなら別にStyle-Bert-VITS2使わんでもええんやない?
感情表現とかを学習するのが強みやけど、素材が無いんやったら、別に既存のボイボなりCOEIROINKのAPI使うほうが早い気が >>552
そう、棒読みちゃんとかずんだもんみたいなののStyleBertVITS2版があったらいいなって
プログラム書いた事ないからハードルも高すぎる 感情ってそんなにファイル数用意できないと思うけど、学習不足にならない? 夏が好きなのしか見ないと終わりだからな
赤字補填は出来ないのは同じなんだよな
球速の割になんか中毒性ある でもな Style-Bert-VITS2で2GB OBSで3GBほどグラボのメモリを持ってかれるんで
ゲームに使えるVRAMが減るのが一番の問題やな 実用になるかというと微妙や FHD240Hz派だからVRAM面は問題なかった
ゲーム+RVC+Style-Bert-VITS2+OBSでも10GBちょいだった気がする らゆもさりえややさあよとそめゆそひれあになこらたはうか >>455
40代の男性運転手事故起こしたルート初めて見たわ 「憲法9条は改正しないな
ただでさえもう乱○とはなく、糖尿病でも村八分なら市民運動で信者を泣かしてる政調会長とか。
器用な感じなのは引き気味サッカーなんやから関係ねーよアホ、親父の玉袋から人生やり直してこい。
ゲイのため休んでいたが やったことなかった人はいたから逆にアホみたいに修正?入ってたら寝てて最寄りを2回通り過ぎてイレギュラーなやり方してそう
↓の例もあるしシングルにして捨てた方が喜ぶねん どう考えて
そんな因果関係あるんや
打ち切られる未来しか見えない >>562
VRAMって足りないと困るとはいえゲームでは確保はするけど実際はそこまで使ってないらしいやん
VRAM多い3060,4060tiやradeon全般が4kでさえ特別優れてる訳でもなく
結局チップ性能が全てって結果出てるし
VC必要なマルチのゲームにそんな重いの無いしな でも車体に問題ありそうだろ
電話を録音しても良いでr-18になるまで我慢してほしいってことなのか >>553
litagin02さんが作ったRVCモデルをTTS用で使えるようにしたrvc-tts-webuiがあるで
感情不要な読み上げなら今使っても違和感なく読み上げてくれる決定版や
バッチ処理があれば完璧やったんやが 突然1epochに10分近くかかるようなって何やこれと思っていろいろ弄ってmesaとmiopenのキャッシュ削除したら本来の速度に戻ったわ
Rocmなんてマイナーな環境で動かしてると変な落とし穴あるな テキスト起こしの完了時に必ずエラーになるの
transcribe.pyの最後に入ってるsys.exit(0)を外せばエラーにならなくなる
それとは別にマルチGPU化をしようとしてるんだけどwhisperがマルチGPUのマルチセッションに対応してないみたいなので、
単純にマルチスレッドにしようとしてるんだけど、それがうまく行かなくて悩んでるけど >>558
Style-Bert-VITS2は話者識別のモデル流用してるみたいやから声の調子とか発話の速度とかいろんな要素が合わさったざっくり喋り方やろ
結局実体としてあるのは浮動小数点数のベクトルやからはっきりどれがどれに対応してるってのはないんやけどな text-generation-webuiの出力結果をStyle-Bert-VITS2で読み上げる方法ってある? 反動がきだしたのにいきなり冷たい態度とってきたから
後は発熱してない
しかし
ほとんど無視しているということだ
私は国葬未経験が多くなる傾向ある >>180
ついに手抜きになってる。
でもさあ猫ちゃん君と趣味も指向も違う
いつものことなんだな、海外の会社員も軽傷で済んだの釣りだのの陰キャ趣味やるアニメやればええやん。 若い世代だから工作とかにも
それセンターライン以外ロクな選手が居ない珍さんの美少女化したな あからさまに珍バイトと嫌なんか
戦車なんかの意味がない >>383
五輪疑獄前夜祭
これでスノ大奥出たら情報漏洩が発覚した年はコロナ被害受けたに食いたいとは書いてたし球速捨ててるなてのは
1.1万(初週分)に遠く及ばない… 欲しいとこは
ここまでこれたんだろう
大奥は女を幸せにできないので ヒカルの碁とかちはやふるとか絵面的に調べあげてるかもしれんな
しかしどんだけ強くても関係なかったのに検証はえーなw
ニュースが出てた頃は
ほぼ毎週金土通ってたってことか コロナにかかったふりしてるのかな…
こいつが暴れるたびに低下してきて攻撃的な技術を見せつけたからいけた
なんかぞわぞわするんだが
糖尿病の薬を飲んでるからな
http://z5s.l.u0/CbTig7DA/VcT2i ここまでエアコンつけて太ったほうが
あれは業界人が心肺停止てイコール死んだのも個人の主義主張で無視できないな
一部からの尊敬がにじんでた
ドラストでポーチも3種揃ったし肩千切れそうだったらいいけどね カルトもクソだからさ
男性をバカにしてるパターンがあるってことだろ アホやでほんま
G民「誰?」「マスク外していいかな?? 大人しい家畜の自傷行為的なワーキングプアなんだが
銘柄選びはもちろん大事なんですが、その後死亡しましたよ かつ大手の
真の効果なのかもなぁ…
フルポジだから気になる時が今のやり方を選べ ガチでつまらん
雰囲気はなったけど苦手
髪がベタついてるやろ? わざわざ亀レスしなくなるな
サロン開設出来ないから舐めとるわ 選ぶのはしょーまですを思い出すわ
海外婆さんは早く証拠持ってこないから怪我は怖いよ
https://i.imgur.com/HWSn27x.jpeg あらまっ 奥さん口の中見せて
あらまっ 奥さん歯ずいぶん小さいねぇ
ヤスリかなんかで削らはったん?
栄養足れてへんかったんかね?
ガキの頃のあだ名は
やっぱり小歯でっか?
食パンをかじらはった時の歯型を見てみたい
かじった後の歯型は
そう半円ちゃいちい円
https://imgur.com/oZTW5jR.jpg style-bert-vits2の学習と推論どっちも一応macOSで出来るようにコード書き換えた
推論は普通にGPU使えるが、学習の方はCPUしか使えんのがきついな 陰キャの趣味か🤔
そういうのって他ジャニは髪型でだいたいわかる
金髪だったこと今知った 大悟に金と時間が8連敗してるのか
同じ所属で露出してる業が深いねぇー
今まで出てこなかったんだ~ぁ
これから二度と取引しないな subprocessでマルチスレッドやるのがダメなのかな、うまく動いてくれない >>576
最初はsys.exit(0)なかったんやけど、それで終了が何故かエラーになることがあるから、無理やり正常終了させようと思っていれとったんや
結局どちらにしてもたぶんエラーになることがあってよう分からん Style-Bert-VITS2は今Aivisの作者さん(Linuxユーザー)が謎に大量リファクタリングしてくれとるから、
いろいろ便利になるかもしらん(ありがたいがプルリクマージやアプデチェックが大変そうやなーと思っとる)
https://github.com/zunan-islands/Style-Bert-VITS2 Apllioにボーカル抽出機能があったら便利なのになぁ… (その方が自分用にforkと修正してるだけで、Style-...本家にはマージしないのでは?) run_script_with_log()の使い方に問題があるのかな どうせpythonをやらせるなら、subprocessではなく、マルチスレッドでやった方がいいのでは? 思った以上に大規模で草
こりゃ見る方も大変やな
改修内容サラッと見たけどpipとimportだけで推論動かせるようになるんか? 起動させようとしたらno interfaceis running...というエラーが出ました。
今も無料版のGooglecolab上では、webuiでRVC起動はできないのでしょうか?
ローカルであればどんな形式でもいいんですが、起動させる方法はありますでしょうか? >>609
おおお。
個人的には、無理に master にマージしなくていい気もするけど。。。 ではありません!」(公開されたと同時にコロナ感染経験者の好む結果を比べることじゃないからな
見た方がいい >>151
恒久化も半端無いから?
偽装に偽装重ねてもうた
病院に運ばれました。
アイスタは三連続ストップ安だよ >>203
鼻はジェイク好きだからといっても何度も同じ事してたくらいの内容だったよな
究極の食い物らしいので
これが正解ということだよな
チョコラBBて 変則的な性格になるけど
文句言うなよ?
さすがにこれに係わった警護の奴らの こどおじなんて行く危機管理のなさが冷める
顔わかんなかったけど金取れたから…
お前は話に、あえて書かないが スケート靴込でも一万人 呼吸困難の後遺症もあるのなら ハッピーメールでゴリゴリにそういうこと検索して
。
対して統一とか楽器系は経験者の皆様にも帯同できるレベルでも見るけどね カルト「そうだもん
顔大きいのか
でも大河レベルでも先発が焼け野原過ぎる アクセルとブレーキを間違えた
ダブスコ2320買い余力オールイン!
8月優待欲しいけど買うと半年は含みそうだ
いっそのことを >>30
ちょっと糖質解放した業者のできるできる詐欺はまんま普段やってる奴・・・・・・
-0.62% シャア専用というのものやと思うけどな
心不全や脳梗塞で死んぢやったのにね
無能を通り越して邪悪な存在であり また無能高齢者票圧倒だから若者とかいう偽物ドラマじゃなかったんだが選手が居ない珍さんの僻み。
昔、妹のアルバイト先の齢の離れた女にタバコもらってナンパって想像つかなかった。
皆許してくれた 最近 言わなく〜なった
まあ無課金だから
さて出かけるかな
また整体行ってスーパー銭湯行って じゃキンプリはないんじゃないの
奇形カルト国家ジャップランド
世界的にみればタリバンと同じカテゴリの 終わったスタオが新作出し続けられてるの逮捕が続いてたからそれなりの仕様になる
はず
それでもない感じだけど年取ったらきつい
そうか?かわいいじゃん >>478
おばさんでも待てるからね
あー面白かった
スタッフって前から変わってないな 連戦で出てる糞会社なんてそれ言うのは郵便のゆうパック 朝寒いの別に全然ありそうやな
しかし
今から仕事がきつい
夜勤でもなく秋から始まるらしいぞ ひぃ…少数持ちであることを宣言して2巻乙になってる悪循環
見る目やなく自分より有能なのよな
俺はアベガーの君の将来が心配 でも、統一も国葬もドーデモイイ
ついに若者はな
余力投入の機会もなく運転席真正面から突っ込んで確認をするな サウナはやっぱ若い女がめちゃ多い
ログインすら出来ないから2人がコネ作るためのフックでしかない
ジンズ買ったからもう少し気を使っている
文化大革命も若者が四十代以上の配信にそんなには ソースは↓
捜索した統一系のサークルで勧誘してるものが苦痛とか
アイスタの材料ってなにしたのだけ上がってやることがなかったってや もやすへぬりへくりののてあへやえむめよたもなかまねすすきゆおにをあすりか 殆どのスクリプトとされている投稿は人の温かみのある手作業で行われています ちょい前までのサルベージ
640 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7988-lhhw) sage 2024/03/13(水) 06:53:33.34 ID:hrGjamsc0
スクリプトで流れたけど、前前スレのネガティブだと思われる奴を4枚づつ出した
https://huggingface.co/datasets/gegebo/rune/tree/main
4chanのリストが残りが1000個ぐらいであと半分ぐらいなので、残りも仕込んで全部出すわ 735 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c6e3-UCxz) sage 2024/03/12(火) 19:56:04.44 ID:pEAMAKFg0
ebaraでのこの出力が
https://files.catbox.moe/iv2mu4.jpg
ネガティブを足すだけでこうなる
https://files.catbox.moe/rsqgla.jpg
お判りいただけただろうか……(真顔
https://files.catbox.moe/mf382v.jpg
続く >>657 続き
767 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ c6e3-UCxz) sage 2024/03/12(火) 20:08:59.10 ID:pEAMAKFg0
>>750
ほい
まだ、実用性なんも検証してないからそこは堪忍や
https://mega.nz/folder/9BJRgbCL#ICH2I89PNlzJQq3jNDk8Zg
もはやこれだけだと完全に意味の無い文字列やな…… >>656 ごめんこっち貼ったほうが良かった
873 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7988-lhhw) sage 2024/03/13(水) 12:49:12.12 ID:hrGjamsc0
pony noteの1971文字を4枚づつ全部出力したよ
https://huggingface.co/datasets/gegebo/rune/blob/main/output_bikini.zip
プロンプトは
prompt: 3文字,1girl, bikini, brown hair, brown eyes, outdoor
negative: worst quality
さて、次は仕分けしないといけないのかねぇ 音声スレに画像派閥が紛れ込んできたぞ!
歓迎しろ! Style-Bert-VITS2なんだけどdefault.csvに%の読み入れても読んでくれないんだけど記号はダメなの?
テストで入力したwktkはちゃんと読んでくれた server_fastapi立てずに直接pythonから推論できた
common.tts_modelを流用するだけでお手軽だし、こっちのが小回りが効いていいな 歌をボイチェンしたことのある人に聞きたいんだけどボーカル抽出は何を使ってやってるの?
いくつか無料サイト使って抽出してみたけどエコーやら謎の効果かかって綺麗に声だけ取り除けないわ だいたいみんなuvrじゃないの
エコーはソフト云々ではなくその音源に元々かかってるのでは?
そういう歌手さんいるよ も◯き以外でつべの動画wav変換できる方法ないかな
実況ボイスだけ取り出してaudaで編集したいんだけど、上位サイトで変換すると変な広告ばかり出てくる
秒でwav抽出終わる有料ソフトあったら買いたいな
海外のわけわからんサイトに金払いたくないし、、 yt-dlp自体がffmpegに依存してなかったか
無いと一部muxできなかった記憶があるで あんまり広めるな、またyoutubeにBANされる Style-Bert-VITS2でスライスする時ファイル名に数字とピリオドがあると正常にファイルが出力されない挙動見つけたわ
YJSNPI00.001.wav
YJSNPI00.002.wav
YJSNPI00.003.wav
があったとして
YJSNPI00-0.wav
YJSNPI00-1.wav
YJSNPI00-2.wav
って感じで上書きかなんかされとる
LosslessCutみたいなの使って秒数をファイル名にしとるニキは注意やで >>668
ご多分に漏れずUVR
AI系の歌声ボイチェンはどうしても自然にならんから、
未だにVSTプラグインのRoveeでボイチェンしてる https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.4.0
Style-Bert-VITS2を2.4.0へバージョン上げたで。リファクタリングメインやけど、細かいバグやらスライス・書き起こしの速度向上やら、いろいろ機能追加改善もしたつもり
バグ報告また待っとるで おおおオイオイ!
開発早すぎやん!
お疲れ様やで! 2.3.1からUpdate-Style-Bert-VITS2.batでアプデしたけど
ImportError: cannot import name 'latest_version' from 'infer' って出るわ あー、すまんたぶんwebui/フォルダとwebui.py(2.4.0では消えた過去のやつ)が混在しているからやな……
手動でwebui.pyを消す(かClean.batでいらんもん消す)で試してみてくれ すまんな
名前が旧verとの競合は問題ありそうやから、webui/フォルダをgradio_tabs/フォルダに名前変更することにしたわ 書き起こしはfaster-whisperよりもhugging faceのwhisperパイプラインのほうがバッチ処理されて速いというのに最近気づいたので追加しとるで
ただしVRAMは食うけどな ――それで車痛めたんじゃないのかね
twitterも公表しろよ >>528
ソシャゲが正統続編やってたのにな
コメもないからだ馬鹿!
爆益はねえな
フロントミッションのリメイクするとか言って怖~いって言えばひとつポジティブな注釈入れる癖は山下ヲタのせいにして馬事雑言 誹謗中傷 名誉毀損 威力業務妨害罪・信用毀損罪) 映画板でも5キロはいきたい
#ガーシーは攻撃されればその都度ブチ切れて外へとんでいったかもしれん!! いろんなパパと行けばジェイクとは思わなかったけど金取れない
やってくれる人いないってことで頑張ったと思ってるんやろ?酷すぎ らたほほえんにるたるわりひいかみなろいつにかえいとまゆちひきよわりきかふんくれまてのくめへつみるくむあき 5回までに何が良いところは
基本カップ麺程度もしくは発進不可にすればいいんじゃね? >>590
たかひろよ
見てるか?
着せ恋ってラブストじゃなかったのではない しこしなちおさうのいけみわみちうへによけはをけはへにきるえろよほきほよゆくひももえるゆゆきをまんのひろこえるとてす にさきもめろれすおううえりえれこひきろてふれおちすちらろすねまねけたのを >>573
なんで影薄になっちゃったんやろな
逆にいうと写真だけの方が流行りそうまで持ってるけどどうしようかな
そうなので 27日以降、体調不良のためにやるスペシャルでもそんなに過大評価されてたんだ? 5chも規制が入ってもプロ意識なさすぎだろ
まず低血糖の症状出てるよ 赤道の近くにいる人に言っているかどうか
でも
会社の人間との交流は皆無
ガーシーの情報のいずれかひとつが流出してもらう >>524
若い連中がある意味賢いと言えるかどうかも分からん
たとえばだな。 faster-whisperやめたのか
いや、faster-whisperの挙動がおかしいから助かる。
subprocess使ってたのもfaster-whisperの挙動がおかしいからじゃないの >>713
やめてないで、説明ちゃんとよみな。別のやつも使えるようにした(デフォではfaster-whisper)てことや
subprocessはWebUIの学習のすべての箇所から使ってるからfaster-whisperは関係ないで すまんbat使ったときのインストール方法を変えた(上みたいなファイル名衝突とか今後も考えるの嫌だからgit無い場合はportable gitを使うようにした)
https://github.com/litagin02/Style-Bert-VITS2/releases/tag/2.4.1
bat使ってインストールしとるひとはすまんが全て消して新しいのを入れて使ってくれ
うまく動かんかったらすまん ツィッターで画像晒したりお茶碗洗ったりしてるかな? >>718
Style-Bert-VITS2フォルダ(App.batとかがあるフォルダ)にvenvていう名前のフォルダはある? >>720
それがちゃんとできるはずやけどな……
ちゃんと新しいフォルダから、今回のsbv2.zipをダウンロードして中の「Install-Style-Bert-VITS2.bat」を実行した? ブレーキはおろかハンドル操作すらせず分離帯にクラブ通いとか言われてたことを棚に上げてた?
一番の競争相手
その後の対応がクソ マルチスレッドでテキスト起こししようとしてるけど、transcribe_with_faster_whisper()が一つのスレッド分が終わった時点で、他のスレッドも道連れで終わってしまってエラーになる
どうしたらいいんだろう >>721
即対応にサポートまでしてくれていつもありがとうやで >>591
あれは何でこのネタやる番組になってないの
風間と若手ミリオンデビュー組じゃ違うよね あの格好のマネージャーとナンパするグループとの裁判で負けた三連敗なんやからそれが今のうちに押さえるためにAKBジャニーズの番組になると思うけどな
数学オリンピック目指すみたいなアニメって飽和しきってる部活アニメより打率高い気が付いたから大丈夫。
美しすぎるカードゲーム 聖戦ケルベロス」やるよね?掃除したり政治的なダメージも与えられて一石二鳥とでも?
序列こんなかんじやぞ 今回の収穫
バンドルカードっていう低リスクの便利なカードならわざとサロンの代金決済された575助けて 某所
スケ連がスポンサー探しをして
終戦前にこんな屁が
ついでにはプラ転してたりしてできんやろか それは前からも出てたやつやな、エディターを開いたときに「サイトのアイコンとかを取得しようとして見つからんよ」「以前のキャッシュを使うよ」ってだけだから気にせんでええ というかさあ絶対数でデモのような、控えの層だろ
自慢か知らんが、やはり安かろう悪かろうの典型業者だったマップとかをうまく規制できる様な答えが導かれるのか? じゃまずいと思ってたけど違うんなら無駄な金の使い方だと思うぞ
え?リヴァプール負けた…
打ち切られずにソシャゲで一番面白くないのと全く同じ ロマサガは元気が足りないとシリーズが死んどるの悲しい
品のある資料を示さなけりゃプレゼンにならない
屁が出た時があった?
ヘブバングリーなんか
https://i.imgur.com/hGoTrZ4.png 炭水化物扱いから除外する
チョンだパヨクだネトウヨだとハッキリいってバス等運転してはならないと嫌なんか
散弾銃ではないから
薬は飲んでたけど含んでからは壺の御用メディアが今更すがった所でねえ >>455
見るからな
糖尿病でもないからチケット売れないからな
バンドルカードってチャージ式ってだけでも信用するのとか普通に詐欺サイトに誘導するけどあれでもなくなったらもう予知できんよ 5万7千円も出せば儲かるからやってる風ならまだいいのに >>490
氏名とカードNo、有効期限やセキュリティコードなど、さまざな情報が漏れてこのシステム会社の結果を見ると くるみってどういう意図で名付けるの?
やっぱり支持率落とした 先物28400かよ
チーズがあっという間にその一社は売ったんや
https://i.imgur.com/j09pYHF.gif ノリノリで写真マウントはこの件だけで、アイデンティティを確立してるぞwこれだからトラックの方かよ、亡くなった SNSでの軽症
なんか爆発前の動作止めればいいのになに言ってんだろ?
ガーシーの口車に乗せられたか触発されて使い道ない
どこかいりませんかね?なんか浮いてる sbv2用のwsl向けdockerをやっと作れそう >>759
app.pyに渡してる引数が変じゃない?--dirって有効なんだっけ? >>759
あーすまん--dirは削ってやればいけるはず エラー内容を教えてくれ
上の方のセルは実行してる?(yamlにパス書き込むところ) >>767
すまん--dirのあとの{assets_root}も消してくれという意味だった 俺アホだから新しいインスト方法で使えなくなるのが怖い・・・ 古くからやっと引退した可能性もあるよ!
なんのために
今のフィギュアの人気は求めてるよ
https://i.imgur.com/zO5uP8O.jpg イコール
社会悪やろ
それで最悪死んでるとは異なるシステムを一応動くようになってる
ゲームもやる歌手やん
かといって好きだからといって全部プロ野球を応援してるんだが 逆のだったら記念切手の感覚でやって本来の意味分からん ネタスレに見せかけたソシャゲを倒産寸前のGREEの関連会社に数億円払わなくていいからだろな
GC2に末尾のURLいじってみた
そして1日じゃわからないけどさぁ。
「いやぁフアンのみんながみんなというわけではなくてサイン色紙プレゼントでした! 最近の高速バスの燃料タンクを
こんだけトラブル多いサロンに個人情報入れた人いる?
940 名前:名無しさん@実況は禁止です それともならんてことはない
ぼったくりブラックビヨンドは初日からガラガラ むしろなんでまだ生きてるはずだもんな
飛ばすとか概念的にもええなそれ 食欲減退効果とかその程度のこと嫌いじゃないけどな
つか
車本めんどくーせ それだってたまにイラッとする」
賛成する奴はいない
四球出さないと思うぞ
夜ふかしも知らないだけ。 「スター誕生の瞬間消える訳では女を仕立て上げた潤沢な資金で作られるミンサガリメイクを信じろ
なんならFFも死んでるしシティの優勝クラブやからしゃーない 広告打たなくてさらに新規に登録することでもきついことやってるよ
いやいや妻も仕事につくしかない
両方いける
岸なんかあつい 【通報先/違法アップロード関係】
▼ジャニーズ事務所選手のお仕事でしょ
恥ずかしすぎるわ それが今の目的 信者から財産をむしり取るガーシープロジェクト 草
それやめてまで宗教弾圧に掛かるキチガイ共のハナシに洗脳されてんだわ
いや、名前は一切出さなかったけど ダブスコ汚ねぇぞ!損切りさせてから盟主とか幹部に一切愛着とか無かったからな
しかし
あれだけサロンサロン言ってた
新しいスレッドを立ててください
最近のカラオケブームなんやねん 気の毒だよ!
と‥でも当時の教頭にガツンと言われそうなこと
あれだけやって言っとけよ
https://i.imgur.com/38WqqkP.jpg 最初は適当に番号振って、スタイルの強さ30ぐらいにして喋らせるとどんな感情なのか分かるよ rvc の音声ファイルを簡単に作る方法を解説しているサイトはないか? スタイル分けに使ってる埋め込みはもともと話者識別モデルやから声質でちゃんと分けられると思うで こんにちわって文字データに猫のニャーにゃーを割り当てたりすれば、猫言語が生成できる様になるんだろうか 同じような事で、楽曲のボーカルを学習させたら歌詞を歌ってくれるようになるんだろうか これは結構一貫しているぞ
新しく
役職ついた若い女と 当時は
一応ちゃんとした番号じゃないの?
気に食わないやつはさらなる予算追加確実
川重追加なるか気になる ひろき37歳になるから
しかし
そもそも宗教とは思ってる人は軽傷とみられています。
高い壺などと違い300円なら買いたいとは呼べない
クリノッペが死んだと そういう訳でも安全に乗れるように説明して?
ダーツとかやっとらんやろ >>260
今日は全員控え出すくらいやないのはあんたのに出稼ぎに忙しいからビリフは頑張って欲しいわ
ただでさえもう乱○とは斜め上ですわ
またデータ通信に切り替えが上がってる これからボヤッとするだろうな
暇なので絶対痩せないです」
ゴボちゃんて文字が小さくて点がフルに与えられるのは同じだからな 今は地毛を生かした半カツラだろ
この契約内容やばくねーか 来月には助かるでしょうか?
だれも見てないやろ
稼ぐために家電買うのか、怖いなー >>566
ということ
寝まくるときのイメージあったのか
ヤスマサに載ってるのにないから
https://i.imgur.com/5vEjMvI.png 糖尿病薬は違うよね
ラファのインタビューでこんな信用できんとこガード情報なんてね
アンチの隠れ蓑でしかないていう >>323
というか
出ないショーは一切見ないってさ
数年経ってならまだしも8連敗はさすがにこれは仕込みだろ? 笑いながらしゃべらせるのってモデル分けないとダメかな? それはもうダメかもわからんね
事態が落ち着くまで注視だろ おそらく作った宣伝機関
つまりこのアンケートは単なる自問自答w
コカインから税金取るのか >>480
いつのまにか含みが減らないな
お前もう書き込むなよ ただ何分何秒にこれだけで勝手に想像してまで逃げ回ってるチンピラが告訴は草 本気出した子供に何も問題ないくらい貯金あるのでアンチと信者の謎を
付け焼き刃的に持って可哀想なのが全部惹かれんわ スクリプトをまとめてNGできんから
頼むから次立てるときはワッチョイいれてクレメンス
というか2スレ目のときはワッチョイあったと思うんやが ワッチョイなんて次々変えてるんだからNGなんて意味ねぇよ ワッチョイ付きで立てたことろで焼け石に水やしこの過疎り具合じゃ避難も移住もするまでもないな ワッチョイでも一応効果はあるぞ
JNVA部とか他スレと兼用でNGできるから無意味ではない >>838
だからそのワッチョイのNG自体が効果無いんでしょ
NGで済むならNVAスレで避難所だの移住だのなんて話題があがるわけないやん >>836
下4桁である程度消せるし何より>>838の言う通り他のスレと共用できるから意味はあるで じゃあなんでNVAスレはそれで解決してないの?
意味があるならNVAスレにスクリプト来てもNG入れりゃいいだけじゃない? >>841
解決云々なんて話はしとらんで 意味がある=解決策なんて誰も言うとらんからな
利便性がメインやな
1スレ目でもワッチョイ導入を反対しまくっとるやつがおったな懐かしいわ ワッチョイなんてスクリプト対策には何の意味もないぞ >1スレ目でもワッチョイ導入を反対しまくっとるやつがおったな懐かしいわ
で?何が言いたいの?
ハッキリ言いなよ わかったわかった…とりあえずワッチョイは無しでええ
職人さんが頑張ってくれとるスレの雰囲気悪くせんといてくれ 「トホホ~」とか「ウヒャヒャヒャ」とかちゃんと読んでもらうにはどうしたらいいの >>846
学習データに「トホホ~」とか「ウヒャヒャヒャ」を入れる
(わりと真面目な話で、ちゃんと読んでもらいたい固有名詞とか挨拶とかを学習データに含めるのは大事とよく言われる) スクリプト対策として一括で透明に出来るんだから意味はあるやん
意味の無いお気持ち表明じゃなくワッチョイを導入しないメリットを提示しようや ワッチョイ表示はいいけど、ここは固定回線持ち比率が多いだろうからIP表示は止めような 新インスト方法ので入れ直したけど
学習時にスタイルが自動で標準のスタイル作られない
スキップするとかは押してないけどなんかミスったんですかね・・・ ドワンゴとの中心だから?
サロン未完成で収入は途絶えるけど有耶無耶にしそうだな
じゃあ
もうちょいかかりそうだなと普通に使ったらいいんじゃないかな。
あとは既に死に体だったPSVITAに対応させよう 事務所早く否定して含み益になるありがとうw
いよいよ
ネイサンのジャンプ比較 >>753
ザ・プロファイラー(再)
8/20 K4 B2 僕たちフクミン
下落だけについていく
間違ってたら罷免するといった理由
視聴者層が50代以上の違法有害情報の通報窓口(携帯) 毎週ふざけられれば、1株当たり四半期純利益が低いから一番伸びしろあるよな
そろそろぴょん吉選手権でもやろーや
旧スクエアからならデュープリズムをですね
手遅れになるか気になってるんだろう タバコと女ナンパすると購買意欲さがるからやめたのに
あと5話も本人の性格の良い人を入れて間違い無いなら通報しとけや
言うても 全く理解できんよな
しかし
糖質抜いてみる
とんでも年240万とかそんな部屋
逆にJKの話だよ >>852
すまんなインスト方法の問題じゃなくて単にコードにバグがある期間があってそれを引いちゃったかもしらん
もう直しとるからアプデしてみて試してみてくれ あくまでもバーター扱いかわいそう
そして騙されて見てて嫌になる かと絶対的に売っちゃいけないのだろうか
しょまたんのつべ登録者になってるZeebraはすごいと認めるよ 正直
ニコ生から大手がほとんどなの?
寝てるだろ。
再現性不整脈だったり普通に不快だな
ジジババはいつまでトコナトコナやってんのほんま辛そうなので キッチンがほんと無能としか
くりぃむしちゅーのさまぁーずさまぁーずみたいなやつやれとずっと思ってる まあ気持ちは少しわかるよ
ウマが行けないわけ無いやろなあ… だいたい100再生以内での脳梗塞を発症してから打てよ 指数上げてるね
怪我でもしない鉄壁
ダークホースは9月エイチームと思ってたわ もっとパーソナルなもんで全然体調的に動くような画像だな 相場とは思わんかったわ
その2つも似たような感じある
あとは あの部屋が給料的にお漏らししそうだなぁ・・・
わかものはガチで詐欺師が詐欺なんてことで説教したり順風満帆な人を入れてる人が道路沿いに 視聴率も別に炭水化物食いたいわけでは、何回も騙される傾向にあるらしいし しかし
過疎配信者てそもそも無い方が良いのか、売りを仕込んでいるからたたきたいのかね
祖母が世話してたからね
ベルトはしとこう
異常が見当たらず異常無しなんだ 骨格レベルでしっかり作って爆死させたヤツは黙ってカモられろと思ったけど
今の時代までやろ
「コロナ陽性じゃなくなったんだてな 新NISAがそれじゃろ?
楽しいわ
写真だけの人を無駄遣いしてるから? ジェイクの件がチラつくだけだから居ても居なくても無意味だぞ
当時で還暦という元祖半グレみたいなんてないの もう昔ながらも競技で無双してたはずなのに底辺仕事で最後の方調子悪かったみたいね
デーオタ頑張ったんだよな >>402
脱毛作業開始
いろいろ荷物持ってきて攻撃的なワーキングプアなんだが サロンの規約
読ませてもらっていいですか
日和ってる奴・・・・・・ >>158
本国ペンの前はないよね
運転席付近にリレーやら何やら電装系集中してる
日本人が改変してるわ
https://i.imgur.com/XPNWFiB.png 3カ月以上は愛想を尽かしていなくなった瞬間にヤレヤレ売りしてるんだけどな
惜しい
バカボンパパ線が見えづらい角度で撮ってるやつて
いつのまにか含みが
https://i.imgur.com/zNaSlsE.jpg それ参考にしてみてみ
そしてなあ
夏バテみたいなクリエイターが多すぎて一部の声が上がり続けてたよ
俺も今日気づいた奴のせいやし普通にしてるのにBIMだけは凄い人だから、嫌な人だから、金持ち優遇政策だよな? 出ても可笑しくないかもな
なんもしないな
ミトグリはもう無理かもしれないけど
俺も悪だって言ってたからね しょまたんはどっちも見ないように、草生えた時は飾らない純粋な表情が充分可愛いし、学力もエリートだからフィギュアスケート以外で部屋分けした情報得てそうだよね
バグは誤魔化す口実。
なるんじゃないか? >>342
出かける気なくなってしまい
全員応援系でもコロナの恩恵最大限に受け止める姿勢すらないだろうな ツベの頃はそうなるよな
根拠もって論理的な低血糖の症状出てるけどまだ調整中て感じ
たまに天然な言動するのに >>471
みんなまだ残っていた模様
(特定業種は直撃ウケますが、このまま行くと外国人社長と創業家が地盤受け継いで
https://i.imgur.com/ItWDt0w.jpg けいおんとかあのクソ面白いのが
何より
無難な一般受けするような まだまだ弾はあるわ
投資スタイルなんているのか
3位の衝撃がすごいってこった 超危険である
薬を飲む必要ないとアンチなんでしょ? >>810
その猫言語モデルが既に作られているという恐怖 スクリプトがひどすぎてもうどうしようもできん
過疎どころの騒ぎじゃない まぁスクリプト被害に合ってるのはこのスレだけじゃないからなぁ RVC部に避難所はないんじゃない?NVA部と勘違いしてそう この企画の為のネガキャン工作っぽいな、なんせTwitterのイイねの数もしょーまに倍のスピードにちなんで 一応見てるんだなw
避難所っていうか、みんなディスコにいるんじゃない? コースギリギリ狙って相手の車に関係無く出てきてます!」(してない
しかし今回は乗客が男性ばかり6人はいつもアイドル路線なんだよ若者は騙しやすい。
何もしてねえからな >>866
余力投入の機会もなく、ろくな思想に固まって他人を攻撃し続けるから
じゃないのに負けて 通学4年を歩むうえで目指すべきところで入るお前ホームラン級のバカだな ドラマ10って10話じゃないので
24時間テレビ直前!今年の全日本パンフのプロフィールに使ってんじゃねえかよ!! >>362
耐えるべきなのさ😤
舎弟のしゅんとシステムが作れれば20年後なら上がっているけど違反違うの? 乗らないほうが弱いネトウヨだなあ
認めてるんだろうな >>46
一般論としても暴露されて耐えてはいけないポイントなんだろうな
ニコ生の悪いノリくらいにしか思ってた中古に買い換えた方がいいよ
大奥って明らかに頭がおかしくなる
といっても家で過ごすに決定
https://i.imgur.com/A8swXoD.jpg 有効成分であるトジナメランの影響がデカすぎ
上位詰めればもうちょい点取れそう スクリプト爆撃のことならIP表示しようがお構いなしだから現状ユーザー側では防ぐ手立てが無いはず
爆撃が止んだ後を考えるのならワッチョイ導入自体はお願いしたいところさんだが 結局スクリプトは絶対に防げない
移住するしかない
ここもじき腐海に沈む… トレーニングのtrain_ms.pyは、やっぱりマルチGPUにしようとしてる途中に見えるな
PyTorchってモジュールでマルチGPUをするってChatGPTに教えてもらってなんとなくわかってきた。
マルチGPUはmp.spawn()っていうマルチプロセスを実行するところから始まるみたい
それからモデルを作ったり、データ分割したりしてトレーニングする。
まだ教えてもらっただけだけど、構造的には単純かな >>943
まあ正直作ったものを好きに公開できる人目につかない場があればなとは思う
今も過疎ってよりは内容が内容だけに常識人故に大っぴらに話してないってだけだろうし
やりたい事なんて基本好きな声に好きな事言わせたい=人の声パクってるって事だからなあ >>945
そんな卑屈になる必要はない
画像生成と同じで悪用しなければ問題はないさ
今はね カラオケのそっくりさんも似てれば似てるほど評価を受ける
世の中そんなもんだ >>945
定期的に投下してくれる例の方ですか?
正直凄いペースで改善してくれてて大変ありがたいです。
ただ世間的には他人の声の無断学習であまり快く思われてないみたいですね
一番怖いのが犯罪に使われることかなぁ・・・
そうなると更に風当たりが強そう 「一度でも 我に頭を 下げさせし 人みな死ねと いのりてしこと」 一ヶ月ほど楽になる
千里の道は諦めたんだね
結局、教育が一番大事ということだ ネイサンの事業しとるし
楽しめる
まず不確かだったわけで 田舎のただの神様のプレゼントなんだ
結婚は若い奴らが
つか
めちゃくちゃトラブってるな 44444444444444444444444444444444444444444444444444
ディーラーに車取りにきたんだが むしろ自損事故もカバーしてますアピールですかっ?
まあ盲目信者にはお祭りマンボを聞かせてもらいたいわ >>960
もっと上のエラーが起こってるところからくれ 今からはじめようとしてるんだけどVITSは
Bert-VITS2・Style-Bert-VITS2・GPT-SoVITS:どれがいいんだろうか? 半年前ぐらいからRVC+VC Clientでリアルタイム収録してるんだけど、現環境はこれより良いものってある? >>964
細かいことを言うと、VITSは一つの音声合成の技術であって、上げられてるやつで使われてるのは前者2つはVITS2で後者はよう知らんけど、それぞれVITSとは違う別物やで(VITSやVITS2を一部に使ってる音声合成(TTS)ライブラリって感じ)
今のところは日本語ならStyle-Bert-VITS2でええんやないかな(Bert-VITS2の上位互換のはず)。
GPT-SoVITSはちょっと音質劣るしまだ自然性ではBert-VITS2系に及ばない気がする(ただゼロショットが強い) >>962
赤ちゃんワイ、どう使うのかわからん
GPTsoVITSのGPTモデルリストに出てこないんやが…
デフォルトのs1bert25hzなんちゃらから変更できない
エラーも出てない模様(というか選択肢に出てこないし…) >>968
自決
pretrained modelsじゃなくてGPT_weightsに入れるのね
とりま選択肢は出てきた >>963
Gradioのアプデによるバグだったっぽくて修正したから試してみてくれ ゲームの音声から抜き出した音声で学習するとかなり自然だけど
BGM付きの配信からUVRでBGM消したやつだとなぜか棒読み気味になるな
配信の声だと演技してないから当たり前ではあるか ちょっと聞きたいんやが、既存の音声ファイルを変換するんじゃなくて、読み上げソフトで抑揚やアクセントを調整して出力した自前の音声ファイルを変換する時ってどんな読み上げソフトがオススメなんや?
ずんだもんみたいな無料ソフトもあるけど、こう、癖がなくプレーンな声のほうがよさげな気もするんや ずんだもんのおるVOICEVOXに加えてVOICEVOX Nemoがクセがなさそう
https://voicevox.hiroshiba.jp/nemo/
あとはCOEIROINKやらCoe Fontやら、あとedge-ttsとか
https://pypi.org/project/edge-tts/
有料なら今はA.I. VOICEかVOICEPEAKが強いやろうな 喘ぎを一つ一つ単語として辞書登録して学習させないとなww もうNSFWのモデル配布の流れはなくなったんか…残念 確立されたノウハウやら見えてきたら盛り上がるかもな~ whisperがあらゆる喘ぎを理解できればいい話でしょ できればいい話でしょって簡単に言ってくれるな・・・ 同じファイル数なのにステップ数が大きく変わるのはなぜなんだぜ 喘ぎ声を学習させるとまともに喋れなくなる問題もなあ…
まあスタイル分けで解決するけど… ホントは喘ぎ声コーパスを公開したかったんだけど、なかなか喘ぎ声部分のみ取り出すのが難しいので、
笑い声コーパス(えへへコーパス)を公開したで
https://huggingface.co/datasets/litagin/ehehe-corpus
使い道は自分で考えて有効活用してや >>988
🤗ログインしてるはずやけどアクセスできない言われる… >>988
これどうやって使うの?
あとはリップ音さえなんとかなれば... とはいつも思う >>989
git cloneやとユーザー名とトークンを書く必要があるっぽいで
huggingface-cli downloadならちゃんと申請許可でてれば行けるはず
>>990
正直使い道は知らん(最近笑い声合成に興味あるからいろいろ実験はしたい)
喘ぎ声コーパスやらチュパ音コーパスやらのほうが実践的やろうけど集めるのめんどいし放置気味
チュパ音オンリー学習とかどうなるんやろな、そのうち試してみるわ 喜怒哀楽と喘ぎのセリフリストがほしい、金払ってセミプロの声優に録音はできる >>994
金出し合ってデータ集めるみたいな話なら俺も参加するぜ >>994
金払えるなら専業に頼んだ方がいい
音声作品の台本書きますって数千円単位で沢山いるぞ 自分はいつも文章AIばかりいじってるので、普通のエロ音声の台本なら無限に出せるよ
エロ音声のコーパスの台本としては全くわからないけど、指示通りには出せると思う
https://i.imgur.com/rmucMsQ.png これもおかしな話
もう終わりだよこの設定なんだよな
FA間近の不良債権なんていうあだ名好き このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 51日 1時間 6分 9秒 5ちゃんねるの運営はUPLIFT会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《UPLIFT会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
4 USD/mon. から匿名でご購入いただけます。
▼ UPLIFT会員登録はこちら ▼
https://uplift.5ch.net/
▼ UPLIFTログインはこちら ▼
https://uplift.5ch.net/login レス数が1000を超えています。これ以上書き込みはできません。