Turing-test-web-en

Sleeping

App Files Files Community

intersteller2887 commited on Jul 7

Commit

fb691f0

verified ·

1 Parent(s): 03c4a10

Update app.py

Browse files

Files changed (1) hide show

app.py +100 -8

app.py CHANGED Viewed

@@ -11,6 +11,8 @@ dataset = load_dataset("intersteller2887/Turing-test-dataset", split="train")
 target_audio_dir = "/home/user/app/audio"
 os.makedirs(target_audio_dir, exist_ok=True)
 local_audio_paths = []
@@ -112,9 +114,49 @@ DIMENSIONS_DATA = [
 DIMENSION_TITLES = [d["title"] for d in DIMENSIONS_DATA]
-random.seed()
-selected_audio_paths = random.sample(all_data_audio_paths, 5)
-print(selected_audio_paths)
 QUESTION_SET = [
     {"audio": path, "desc": f"这是音频文件 {os.path.basename(path)} 的描述"}
@@ -291,8 +333,8 @@ def submit_question_and_advance(q_idx, d_idx, selections, final_choice, all_resu
             gr.update(), gr.update(),
         ) + (gr.update(),) * MAX_SUB_DIMS + (all_results, result_str)
-def save_all_results_to_file(all_results, user_data):
-    repo_id = "Hu6ery/Turing-Test-Submissions"
     username = user_data.get("age", "user")
     filename = f"submission_{username}_{pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')}.json"
     final_data_package = {
@@ -310,7 +352,7 @@ def save_all_results_to_file(all_results, user_data):
         api = HfApi()
         api.upload_file(
             path_or_fileobj=bytes(json_string, "utf-8"),
-            path_in_repo=f"data/{filename}",
             repo_id=repo_id,
             repo_type="dataset",
             token=hf_token,
@@ -319,7 +361,57 @@ def save_all_results_to_file(all_results, user_data):
         print(f"Successfully uploaded results to dataset: {repo_id}")
     except Exception as e:
-        print(f"Error uploading to Hugging Face Hub: {e}")
 def back_to_welcome():
     return (
@@ -396,7 +488,7 @@ with gr.Blocks(theme=gr.themes.Soft(), css=".gradio-container {max-width: 960px
         question_progress_text = gr.Markdown()
         test_dimension_title = gr.Markdown()
         test_audio = gr.Audio(label="测试音频")
-        gr.Markdown("--- \n ### 请为以下特征打分 (0-5分)")
         test_sliders = [gr.Slider(minimum=0, maximum=5, step=1, label=f"Sub-dim {i+1}", visible=False, interactive=True) for i in range(MAX_SUB_DIMS)]
         with gr.Row():
             prev_dim_btn = gr.Button("上一维度")

 target_audio_dir = "/home/user/app/audio"
 os.makedirs(target_audio_dir, exist_ok=True)
+COUNT_JSON_PATH = "/home/user/app/count.json"
+COUNT_JSON_REPO_PATH = "submission/count.json"
 local_audio_paths = []
 DIMENSION_TITLES = [d["title"] for d in DIMENSIONS_DATA]
+def load_or_initialize_count_json(audio_paths):
+    if os.path.exists(COUNT_JSON_PATH):
+        with open(COUNT_JSON_PATH, "r", encoding="utf-8") as f:
+            count_data = json.load(f)
+    else:
+        count_data = {}
+    updated = False
+    for path in audio_paths:
+        filename = os.path.basename(path)
+        if filename not in count_data:
+            count_data[filename] = 0
+            updated = True
+    if updated or not os.path.exists(COUNT_JSON_PATH):
+        with open(COUNT_JSON_PATH, "w", encoding="utf-8") as f:
+            json.dump(count_data, f, indent=4, ensure_ascii=False)
+    return count_data
+def sample_audio_paths(audio_paths, count_data, k=5, max_count=3):
+    eligible_paths = [p for p in audio_paths if count_data.get(os.path.basename(p), 0) < max_count]
+    if len(eligible_paths) < k:
+        raise ValueError(f"⚠️ 可用音频数量不足（只剩 {len(eligible_paths)} 条 count<{max_count} 的音频），无法抽取 {k} 条")
+    selected = random.sample(eligible_paths, k)
+    for path in selected:
+        filename = os.path.basename(path)
+        count_data[filename] += 1
+    with open(COUNT_JSON_PATH, "w", encoding="utf-8") as f:
+        json.dump(count_data, f, indent=4, ensure_ascii=False)
+    return selected, count_data
+"""random.seed()
+selected_audio_paths = random.sample(all_data_audio_paths, 5)"""
+# print(selected_audio_paths)
+count_data = load_or_initialize_count_json(all_data_audio_paths)
+selected_audio_paths, updated_count_data = sample_audio_paths(all_data_audio_paths, count_data, k=5)
 QUESTION_SET = [
     {"audio": path, "desc": f"这是音频文件 {os.path.basename(path)} 的描述"}
             gr.update(), gr.update(),
         ) + (gr.update(),) * MAX_SUB_DIMS + (all_results, result_str)
+"""def save_all_results_to_file(all_results, user_data):
+    repo_id = "intersteller2887/Turing-test-dataset"
     username = user_data.get("age", "user")
     filename = f"submission_{username}_{pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')}.json"
     final_data_package = {
         api = HfApi()
         api.upload_file(
             path_or_fileobj=bytes(json_string, "utf-8"),
+            path_in_repo=f"submissions/{filename}",
             repo_id=repo_id,
             repo_type="dataset",
             token=hf_token,
         print(f"Successfully uploaded results to dataset: {repo_id}")
     except Exception as e:
+        print(f"Error uploading to Hugging Face Hub: {e}")"""
+def save_all_results_to_file(all_results, user_data, count_data=None):
+    repo_id = "Hu6ery/Turing-Test-Submissions"
+    username = user_data.get("age", "user")
+    timestamp = pd.Timestamp.now().strftime('%Y%m%d_%H%M%S')
+    submission_filename = f"submission_{username}_{timestamp}.json"
+    final_data_package = {
+        "user_info": user_data,
+        "results": all_results
+    }
+    json_string = json.dumps(final_data_package, ensure_ascii=False, indent=4)
+    hf_token = os.getenv("HF_TOKEN")
+    if not hf_token:
+        print("HF_TOKEN not found. Cannot upload to the Hub.")
+        return
+    try:
+        api = HfApi()
+        # 上传 submission 文件
+        api.upload_file(
+            path_or_fileobj=bytes(json_string, "utf-8"),
+            path_in_repo=f"data/{submission_filename}",
+            repo_id=repo_id,
+            repo_type="dataset",
+            token=hf_token,
+            commit_message=f"Add new submission from {username}"
+        )
+        print(f"上传成功: {submission_filename}")
+        # 上传 count.json（如果提供）
+        if count_data:
+            with open(COUNT_JSON_PATH, "w", encoding="utf-8") as f:
+                json.dump(count_data, f, indent=4, ensure_ascii=False)
+            api.upload_file(
+                path_or_fileobj=COUNT_JSON_PATH,
+                path_in_repo=COUNT_JSON_REPO_PATH,
+                repo_id=repo_id,
+                repo_type="dataset",
+                token=hf_token,
+                commit_message=f"Update count.json after submission by {username}"
+            )
+            print("count.json 上传成功")
+    except Exception as e:
+        print(f"上传出错: {e}")
 def back_to_welcome():
     return (
         question_progress_text = gr.Markdown()
         test_dimension_title = gr.Markdown()
         test_audio = gr.Audio(label="测试音频")
+        gr.Markdown("--- \n ### 请为以下特征打分 (0-5分。0代表认为回应内容在该特征上完全表现出机器特征；5代表完全表现出人类特征)")
         test_sliders = [gr.Slider(minimum=0, maximum=5, step=1, label=f"Sub-dim {i+1}", visible=False, interactive=True) for i in range(MAX_SUB_DIMS)]
         with gr.Row():
             prev_dim_btn = gr.Button("上一维度")