Spaces:

rufflet17
/

amateur_voice

Runtime error

App Files Files Community

rufflet17 commited on Aug 10

Commit

8567af0

verified ·

1 Parent(s): cfcb574

Update gradio_tabs/single.py

Browse files

Files changed (1) hide show

gradio_tabs/single.py +32 -31

gradio_tabs/single.py CHANGED Viewed

@@ -15,7 +15,7 @@ import pyopenjtalk
 import io # メモリ上でのファイル操作用
 from pydub import AudioSegment # 結合機能のために追加
 import hashlib # メタデータハッシュ化用
-import math # ダミー計算用, 容量計算用
 import tempfile # 一時ファイル作成用
 import functools
 import uuid # 結合ファイルの一意な名前生成のために追加
@@ -576,10 +576,7 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                                      dummy_audio_item_columns.append(dummy_col)
                         with gr.Accordion("ステータス", open=True):
-                            # ▼▼▼ 修正 ▼▼▼
-                            # Textboxを複数行表示可能に変更
                             status_textbox = gr.Textbox(interactive=False, lines=1, max_lines=4, autoscroll=True, show_label=False, placeholder="ここにログが表示されます...")
-                            # ▲▲▲ 修正 ▲▲▲
                     with gr.Column(scale=1):
                         with gr.Row():
@@ -625,14 +622,15 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                     with gr.Column(scale=1):
                         with gr.Blocks():
                             # ▼▼▼ 変更 ▼▼▼
-                            # 結合UIを更新し、音量調整スライダーを追加
                             with gr.Row():
-                                with gr.Column(scale=1):
                                     first_audio_num_input = gr.Number(label="前半", value=1, minimum=1, step=1, precision=0, interactive=True)
-                                    volume_first_slider = gr.Slider(label="音量(dB)", minimum=-24, maximum=12, value=0, step=1, interactive=True)
-                                with gr.Column(scale=1):
                                     second_audio_num_input = gr.Number(label="後半", value=2, minimum=1, step=1, precision=0, interactive=True)
-                                    volume_second_slider = gr.Slider(label="音量(dB)", minimum=-24, maximum=12, value=0, step=1, interactive=True)
                             merge_pause_input = gr.Number(label="間のポーズ(ms)", value=DEFAULT_WORKBENCH_PAUSE, minimum=-10000, step=10, info="マイナスで重ね合わせ（オーバーレイ）", interactive=True)
                             # ▲▲▲ 変更 ▲▲▲
                             with gr.Row():
@@ -1065,15 +1063,22 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             return (final_status, updated_list) + ui_updates
         # ▼▼▼ 変更 ▼▼▼
-        # 関数のシグネチャに音量パラメータを追加
         def action_merge_preview(
             current_status: str,
-            first_audio_num: int, volume1_db: float,
-            second_audio_num: int, volume2_db: float,
             pause_ms: int, workbench_list: List[Dict],
             progress=gr.Progress(track_tqdm=True)
         ):
             log_messages = []
             def create_error_return():
                 if ENABLE_LOGGING:
                     final_status = (current_status + "\n" + "\n".join(log_messages)).strip()
@@ -1097,15 +1102,18 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             progress(0, desc="結合準備中...")
             try:
-                # pydubでファイルを読み込み、指定されたdB値で音量を調整
-                segment1 = AudioSegment.from_file(audio_path1) + float(volume1_db)
-                segment2 = AudioSegment.from_file(audio_path2) + float(volume2_db)
                 pause_duration = int(pause_ms)
                 if pause_duration >= 0:
                     combined_audio = segment1 + AudioSegment.silent(duration=pause_duration) + segment2
-                    # ログに音量情報を追加
-                    if ENABLE_LOGGING: log_messages.append(f"音声 #{first_audio_num}({volume1_db:+.1f}dB) と #{second_audio_num}({volume2_db:+.1f}dB) を {pause_duration}ms のポーズを挟んで結合しました。")
                 else:
                     overlap_duration = abs(pause_duration)
                     max_possible_overlap = min(len(segment1), len(segment2))
@@ -1114,31 +1122,24 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
                         overlap_duration = max_possible_overlap
                     combined_audio = AudioSegment.silent(duration=len(segment1) + len(segment2) - overlap_duration)
                     combined_audio = combined_audio.overlay(segment1, position=0).overlay(segment2, position=len(segment1) - overlap_duration)
-                    # ログに音量情報を追加
-                    if ENABLE_LOGGING: log_messages.append(f"音声 #{first_audio_num}({volume1_db:+.1f}dB) と #{second_audio_num}({volume2_db:+.1f}dB) を {overlap_duration}ms 重ねて（オーバーレイして）結合しました。")
                 progress(1, desc="結合完了")
             except Exception as e:
                 log_messages.append(f"❌ [結合プレビューエラー] 音声の結合または音量調整中にエラーが発生しました: {e}")
                 return create_error_return()
             # --- 新しいファイル名生成ロジック ---
-            # 1. モデル名の収集と結合
             original_models1 = item1.get('original_models', [])
             original_models2 = item2.get('original_models', [])
             all_original_models_set = set(original_models1 + original_models2)
             sorted_original_models = sorted(list(all_original_models_set))
             model_part = "_".join([sanitize_filename(name) for name in sorted_original_models])
-            # 2. テキストの収集と結合
-            text1 = item1.get('text', '')
-            text2 = item2.get('text', '')
             combined_text = f"{text1}_{text2}"
-            text_part = sanitize_filename(combined_text[:50]) # 50文字に制限
-            # 3. ベースファイル名の作成とフォールバック
             base_filename = f"{model_part}-{text_part}" if model_part and text_part else f"merged_{uuid.uuid4().hex[:8]}"
-            # 4. 一時ファイルのパスを決定（重複回避）
             temp_dir = Path(tempfile.gettempdir())
             wav_temp_path = temp_dir / f"{base_filename}.wav"
             count = 1
@@ -1150,7 +1151,8 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             combined_audio.export(wav_temp_path, format="wav")
             combined_audio.export(mp3_temp_path, format="mp3", bitrate="192k")
-            display_models1, display_models2 = item1.get('model', '').split(' | '), item2.get('model', '').split(' | ')
             all_display_models = {m.strip() for m in display_models1 + display_models2 if m.strip()}
             metadata = {
@@ -1171,7 +1173,6 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             return final_status, str(mp3_temp_path), gr.update(value=str(wav_temp_path), visible=True), metadata
         # ▲▲▲ 変更 ▲▲▲
         def action_add_merged_to_workbench(current_status: str, preview_data: Dict, current_workbench_list: List[Dict], delete_originals: bool, first_audio_num: int, second_audio_num: int) -> Tuple:
             log_messages = []
             safe_workbench_list = current_workbench_list or []
@@ -1308,7 +1309,7 @@ def create_synthesis_app(model_holder: TTSModelHolder) -> gr.Blocks:
             )
         # ▼▼▼ 変更 ▼▼▼
-        # クリックイベントのinputsに音量スライダーを追加
         merge_preview_button.click(
             fn=action_merge_preview,
             inputs=[

 import io # メモリ上でのファイル操作用
 from pydub import AudioSegment # 結合機能のために追加
 import hashlib # メタデータハッシュ化用
+import math # ダミー計算用, 容量計算用, 音量計算用
 import tempfile # 一時ファイル作成用
 import functools
 import uuid # 結合ファイルの一意な名前生成のために追加
                                      dummy_audio_item_columns.append(dummy_col)
                         with gr.Accordion("ステータス", open=True):
                             status_textbox = gr.Textbox(interactive=False, lines=1, max_lines=4, autoscroll=True, show_label=False, placeholder="ここにログが表示されます...")
                     with gr.Column(scale=1):
                         with gr.Row():
                     with gr.Column(scale=1):
                         with gr.Blocks():
                             # ▼▼▼ 変更 ▼▼▼
+                            # 結合UIを更新し、音量調整スライダーを倍率に変更しレイアウトを調整
+                            gr.Markdown("#### 音声の結合")
                             with gr.Row():
+                                with gr.Column(scale=1, min_width=160):
                                     first_audio_num_input = gr.Number(label="前半", value=1, minimum=1, step=1, precision=0, interactive=True)
+                                    volume_first_slider = gr.Slider(label="音量（倍率）", minimum=0.0, maximum=3.0, value=1.0, step=0.05, interactive=True)
+                                with gr.Column(scale=1, min_width=160):
                                     second_audio_num_input = gr.Number(label="後半", value=2, minimum=1, step=1, precision=0, interactive=True)
+                                    volume_second_slider = gr.Slider(label="音量（倍率）", minimum=0.0, maximum=3.0, value=1.0, step=0.05, interactive=True)
                             merge_pause_input = gr.Number(label="間のポーズ(ms)", value=DEFAULT_WORKBENCH_PAUSE, minimum=-10000, step=10, info="マイナスで重ね合わせ（オーバーレイ）", interactive=True)
                             # ▲▲▲ 変更 ▲▲▲
                             with gr.Row():
             return (final_status, updated_list) + ui_updates
         # ▼▼▼ 変更 ▼▼▼
+        # 関数のシグネチャとロジックを倍率ベースに変更
         def action_merge_preview(
             current_status: str,
+            first_audio_num: int, volume1_ratio: float,
+            second_audio_num: int, volume2_ratio: float,
             pause_ms: int, workbench_list: List[Dict],
             progress=gr.Progress(track_tqdm=True)
         ):
             log_messages = []
+            def ratio_to_db(ratio: float) -> float:
+                """倍率をdBに変換する。0以下の場合は-infを返す。"""
+                if ratio <= 0:
+                    return -float('inf')  # pydubでは-infで無音になる
+                return 20 * math.log10(ratio)
             def create_error_return():
                 if ENABLE_LOGGING:
                     final_status = (current_status + "\n" + "\n".join(log_messages)).strip()
             progress(0, desc="結合準備中...")
             try:
+                # pydubでファイルを読み込み、指定された倍率で音量を調整
+                segment1 = AudioSegment.from_file(audio_path1)
+                segment1 = segment1 + ratio_to_db(float(volume1_ratio))
+                segment2 = AudioSegment.from_file(audio_path2)
+                segment2 = segment2 + ratio_to_db(float(volume2_ratio))
                 pause_duration = int(pause_ms)
                 if pause_duration >= 0:
                     combined_audio = segment1 + AudioSegment.silent(duration=pause_duration) + segment2
+                    # ログに音量情報を倍率で表示
+                    if ENABLE_LOGGING: log_messages.append(f"音声 #{first_audio_num}({volume1_ratio:.2f}倍) と #{second_audio_num}({volume2_ratio:.2f}倍) を {pause_duration}ms のポーズを挟んで結合しました。")
                 else:
                     overlap_duration = abs(pause_duration)
                     max_possible_overlap = min(len(segment1), len(segment2))
                         overlap_duration = max_possible_overlap
                     combined_audio = AudioSegment.silent(duration=len(segment1) + len(segment2) - overlap_duration)
                     combined_audio = combined_audio.overlay(segment1, position=0).overlay(segment2, position=len(segment1) - overlap_duration)
+                    # ログに音量情報を倍率で表示
+                    if ENABLE_LOGGING: log_messages.append(f"音声 #{first_audio_num}({volume1_ratio:.2f}倍) と #{second_audio_num}({volume2_ratio:.2f}倍) を {overlap_duration}ms 重ねて結合しました。")
                 progress(1, desc="結合完了")
             except Exception as e:
                 log_messages.append(f"❌ [結合プレビューエラー] 音声の結合または音量調整中にエラーが発生しました: {e}")
                 return create_error_return()
             # --- 新しいファイル名生成ロジック ---
             original_models1 = item1.get('original_models', [])
             original_models2 = item2.get('original_models', [])
             all_original_models_set = set(original_models1 + original_models2)
             sorted_original_models = sorted(list(all_original_models_set))
             model_part = "_".join([sanitize_filename(name) for name in sorted_original_models])
+            text1, text2 = item1.get('text', ''), item2.get('text', '')
             combined_text = f"{text1}_{text2}"
+            text_part = sanitize_filename(combined_text[:50])
             base_filename = f"{model_part}-{text_part}" if model_part and text_part else f"merged_{uuid.uuid4().hex[:8]}"
             temp_dir = Path(tempfile.gettempdir())
             wav_temp_path = temp_dir / f"{base_filename}.wav"
             count = 1
             combined_audio.export(wav_temp_path, format="wav")
             combined_audio.export(mp3_temp_path, format="mp3", bitrate="192k")
+            display_models1 = item1.get('model', '').split(' | ') if item1.get('model') else []
+            display_models2 = item2.get('model', '').split(' | ') if item2.get('model') else []
             all_display_models = {m.strip() for m in display_models1 + display_models2 if m.strip()}
             metadata = {
             return final_status, str(mp3_temp_path), gr.update(value=str(wav_temp_path), visible=True), metadata
         # ▲▲▲ 変更 ▲▲▲
         def action_add_merged_to_workbench(current_status: str, preview_data: Dict, current_workbench_list: List[Dict], delete_originals: bool, first_audio_num: int, second_audio_num: int) -> Tuple:
             log_messages = []
             safe_workbench_list = current_workbench_list or []
             )
         # ▼▼▼ 変更 ▼▼▼
+        # クリックイベントのinputsを新しいUIコンポーネントとロジックに合わせる
         merge_preview_button.click(
             fn=action_merge_preview,
             inputs=[