Spaces:

agenticx
/

TxAgentRAOEval

Sleeping

App Files Files Community

shgao commited on Jun 3

Commit

2e80564

1 Parent(s): b3d2534

update

Browse files

Files changed (1) hide show

app.py +283 -271

app.py CHANGED Viewed

@@ -398,6 +398,37 @@ def validate_required_fields(name, email, evaluator_id, specialty_dd, years_exp_
     return None
 def go_to_page0_from_minus1():
     return gr.update(visible=False), gr.update(visible=True)
@@ -420,12 +451,13 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
                 validation_error,                   # page0_error_box
                 gr.update(visible=False),           # eval_progress_modal
                 "",                                 # page1_prompt
-                "",                                 # page1_reference_answer
                 "",                                 # page2_prompt
                 "",                                 # eval_progress_text
                 None,                               # user_info_state
                 None,                               # data_subset_state
-                None,                               # question_progress_state
                 None,                               # pairwise_state
                 [],                                 # chat_a_page1
                 [],                                 # chat_b_page1
@@ -439,8 +471,9 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
     gr.Info("Please wait for a few seconds as we are loading the data...", duration=5)
     # Get initial question and data
-    user_info, chat_a, chat_b, page1_prompt, page1_reference_answer, question_for_eval, remaining_count, progress_state = get_next_eval_question(
-        name, email, specialty_dd, subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id, evaluator_id, our_methods
     )
     if remaining_count == 0 or user_info is None:
@@ -457,12 +490,13 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
             message,                                      # page0_error_box
             gr.update(visible=False),                     # eval_progress_modal
             "",                                           # page1_prompt
-            "",                                           # page1_reference_answer
             "",                                           # page2_prompt
             "",                                           # eval_progress_text
             None,                                         # user_info_state
             None,                                         # data_subset_state
-            None,                                         # question_progress_state
             None,                                         # pairwise_state
             [],                                           # chat_a_page1
             [],                                           # chat_b_page1
@@ -475,7 +509,7 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
     # Use advance_workflow to get all UI updates
-    ui_updates = advance_workflow(progress_state, question_for_eval)
     print(f"\033[93mIn go_to_eval_progress_modal, using advance_workflow results: mode={progress_state.get('mode')}\033[0m")
@@ -488,12 +522,13 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
             "",                                                         # page0_error_box
             gr.update(visible=True),                                    # eval_progress_modal
             ui_updates.get('page1_prompt', ""),                         # page1_prompt
-            page1_reference_answer,                                     # page1_reference_answer
             ui_updates.get('page2_prompt', ""),                         # page2_prompt
             f"You are about to evaluate the next question. You have {remaining_count} question(s) remaining to evaluate.",  # eval_progress_text
             user_info,                                                  # user_info_state
-            question_for_eval,                                          # data_subset_state
-            ui_updates.get('progress_state', progress_state),           # question_progress_state
             progress_state.get('pairwise_results', {}),                 # pairwise_state
             ui_updates.get('chat_a_page1', []),                         # chat_a_page1
             ui_updates.get('chat_b_page1', []),                         # chat_b_page1
@@ -507,12 +542,12 @@ def go_to_eval_progress_modal(name, email, evaluator_id, specialty_dd, subspecia
 # Helper to fetch a specific question by ID for resuming progress
-# def proceed_from_eval_progress_modal(question_progress_state):
 #     """
 #     Proceed from eval progress modal to the appropriate page based on current workflow mode
 #     """
 #     # Determine which page to show based on the current mode in progress_state
-#     if question_progress_state and question_progress_state.get('mode') == 'scoring':
 #         # For scoring mode, show page2 and hide page1
 #         return (
 #             gr.update(visible=False),  # eval_progress_modal
@@ -686,7 +721,24 @@ def initialize_question_progress(models_list):
     }
-def get_next_eval_question(name, email, specialty_dd, subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id, evaluator_id, our_methods, return_user_info=True, include_correct_answer=True):
     """
     获取下一个评估问题及其初始状态。
     职责：
@@ -694,12 +746,37 @@ def get_next_eval_question(name, email, specialty_dd, subspecialty_dd, years_exp
     2. 加载问题数据
     3. 初始化/加载问题进度状态
     4. 调用 advance_to_next_step 获取 UI 渲染
     """
     # 1. 验证用户输入
     validation_error = validate_required_fields(
         name, email, evaluator_id, specialty_dd, years_exp_radio)
     if validation_error:
-        return None, gr.update(visible=True), gr.update(visible=False), None, "Wrong info.", None, 0, None
     # 2. 获取评估者问题映射
     question_map_path = hf_hub_download(
@@ -718,7 +795,7 @@ def get_next_eval_question(name, email, specialty_dd, subspecialty_dd, years_exp
     evaluator_directory = question_map.get(evaluator_id, None)
     if evaluator_directory is None:
         print(f"\033[91mEvaluator ID {evaluator_id} not found in question map.\033[0m")
-        return None, gr.update(visible=True), gr.update(visible=False), None, "Invalid Evaluator ID, please try again.", None, 0, None
     all_files = list_repo_files(
@@ -733,7 +810,7 @@ def get_next_eval_question(name, email, specialty_dd, subspecialty_dd, years_exp
         evaluator_id, all_files, evaluator_directory, our_methods)
     if len(full_question_ids_list) == 0:
-        return None, None, None, None, None, None, 0, None
     # 确定当前问题 ID 并收集模型数据
     full_question_ids_list = sorted(
@@ -796,52 +873,42 @@ def get_next_eval_question(name, email, specialty_dd, subspecialty_dd, years_exp
                 correct_answer = e.get("correct_answer")
             break
-    question_for_eval = {
         "question": question_text,
         "id": q_id,
         "models_full": models_full
     }
     if include_correct_answer:
-        question_for_eval["correct_answer"] = correct_answer
-    # 创建用户信息对象
-    user_info = {
-        'name': name,
-        'email': email,
-        'specialty': specialty_dd,
-        'subspecialty': subspecialty_dd,
-        'years_exp': years_exp_radio,
-        'exp_explanation': exp_explanation_tb,
-        'npi_id': npi_id,
-        'question_id': q_id,
-        'evaluator_id': evaluator_id
-    } if return_user_info else None
     # 4. 调用 advance_workflow 获取初始 UI 更新
-    ui_updates = advance_workflow(progress_state, question_for_eval)
-    # 插入包含正确答案的对象到返回值中的合适位置
-    page1_reference_answer = gr.Markdown(
-        correct_answer) if include_correct_answer else None
-    # 根据当前模式选择合适的内容
-    # 如果是 scoring 模式，使用 chat_a_page2 和 chat_b_page2
-    # 如果是 pairwise 模式，使用 chat_a_page1 和 chat_b_page1
-    chat_a_content = ui_updates.get('chat_a_page2') if progress_state.get(
-        'mode') == 'scoring' else ui_updates.get('chat_a_page1')
-    chat_b_content = ui_updates.get('chat_b_page2') if progress_state.get(
-        'mode') == 'scoring' else ui_updates.get('chat_b_page1')
-    page_prompt = ui_updates.get('page2_prompt') if progress_state.get(
-        'mode') == 'scoring' else ui_updates.get('page1_prompt')
-    # 返回用户信息和 UI 更新，使用上面选择的内容
     return (
-        user_info,
-        chat_a_content,  # 使用适合当前模式的内容
         chat_b_content,  # 使用适合当前模式的内容
         page_prompt,     # 使用适合当前模式的提示
-        page1_reference_answer,
-        question_for_eval,
         len(full_question_ids_list),
         ui_updates['progress_state']
     )
@@ -1498,24 +1565,28 @@ def submit_pairwise_scoring(progress_state, data_subset_state, user_info, *ratin
         # Determine modal visibility based on completion status
         all_scoring_done = (len(progress_state['scoring_done_pairs']) ==
                            len(progress_state['all_pairs']))
-        next_question_modal_visibility = gr.update(visible=all_scoring_done)
         return [
-            ui_updates.get('page1_visible'),
-            ui_updates.get('page2_visible'),
-            ui_updates.get('page1_prompt'),
-            ui_updates.get('page2_prompt'),
-            ui_updates.get('progress_state'),
-            ui_updates.get('chat_a_page1'),
-            ui_updates.get('chat_b_page1'),
-            ui_updates.get('chat_a_page2'),
-            ui_updates.get('chat_b_page2'),
-            *ui_updates.get('pairwise_radios'),
-            *ui_updates.get('pairwise_reasons'),
             *ui_updates.get('ratings_A'),
             *ui_updates.get('ratings_B'),
             *ui_updates.get('pairwise_results_for_display'),
-            next_question_modal_visibility
         ]
     # Initialize pairwise_scores as method-keyed dict if it doesn't exist
@@ -1555,62 +1626,119 @@ def submit_pairwise_scoring(progress_state, data_subset_state, user_info, *ratin
     # Determine modal visibility based on completion status
     all_scoring_done = (len(progress_state['scoring_done_pairs']) ==
                         len(progress_state['all_pairs']))
-    next_question_modal_visibility = gr.update(visible=all_scoring_done)
-    # advance_workflow handles all UI updates properly
-    # Return UI updates using advance_workflow results directly
-    return [
-        ui_updates.get('page1_visible'),                           # 5
-        ui_updates.get('page2_visible'),                           # 6
-        ui_updates.get('page1_prompt'),                            # 4
-        ui_updates.get('page2_prompt'),                            # 25
-        ui_updates.get('progress_state'),                           # 1
-        ui_updates.get('chat_a_page1'),                                  # 2
-        ui_updates.get('chat_b_page1'),                                  # 3
-        ui_updates.get('chat_a_page2'),                           # 23
-        ui_updates.get('chat_b_page2'),                           # 24
-        *ui_updates.get('pairwise_radios'),                        # 7-14
-        *ui_updates.get('pairwise_reasons'),                       # 15-22
-        *ui_updates.get('ratings_A'),
-        *ui_updates.get('ratings_B'),
-        *ui_updates.get('pairwise_results_for_display'),           # 26-33
-        next_question_modal_visibility                             # 34
-    ]
-def proceed_to_next_question(user_info):
-    # Fetch next question state
-    user_info_new, chat_a, chat_b, page1_prompt, page1_reference_answer, question_for_eval, remaining_count, progress_state = get_next_eval_question(
-        user_info['name'], user_info['email'], user_info['specialty'], user_info['subspecialty'],
-        user_info['years_exp'], user_info['exp_explanation'], user_info['npi_id'], user_info['evaluator_id'], our_methods
-    )
-    # 根据当前模式选择合适的内容，确保正确显示
-    chat_a_content = chat_a
-    chat_b_content = chat_b
-    page_prompt_content = page1_prompt
-    # Check the current mode to determine which page should be visible
-    current_mode = progress_state.get('mode')
-    page1_visible = gr.update(visible=(current_mode == 'pairwise'))
-    page2_visible = gr.update(visible=(current_mode == 'scoring'))
-    print(
-        f"\033[93mIn proceed_to_next_question, mode is {current_mode}, setting page1_visible={page1_visible['visible']}, page2_visible={page2_visible['visible']}\033[0m")
-    # Return exactly the elements bound in next_question_btn.click:
-    return [
-        user_info_new,
-        chat_a_content,  # 使用适合当前模式的内容
-        chat_b_content,  # 使用适合当前模式的内容
-        page_prompt_content,  # 使用适合当前模式的提示
-        page1_reference_answer,
-        question_for_eval,       # data_subset_state slot
-        progress_state,          # question_progress_state slot
-        page1_visible,  # page1 visibility based on mode
-        page2_visible,  # page2 visibility based on mode
-        gr.update(visible=False)  # next_question_modal hidden
-    ]
 # --- Define Callback Functions for Confirmation Flow ---
 def build_row_dict(
@@ -1656,64 +1784,6 @@ def build_row_dict(
     return row
-def final_submit(data_subset_state, user_info, pairwise, comparison_reasons, nonsense_btn_clicked, *args):
-    # --- Part 1: Submit the current results (Existing Logic) ---
-    row_dict = build_row_dict(data_subset_state, user_info,
-                                pairwise, comparison_reasons, nonsense_btn_clicked, *args)
-    append_to_sheet(user_data=None, custom_row_dict=row_dict, custom_sheet_name=str(
-        TXAGENT_RESULTS_SHEET_BASE_NAME + f"_{user_info['evaluator_id']}"), add_header_when_create_sheet=True)
-    # Get next question using dictionary values
-    user_info_new, chat_a, chat_b, page1_prompt, page1_reference_answer, question_for_eval, remaining_count, progress_state = get_next_eval_question(
-        user_info['name'],
-        user_info['email'],
-        user_info['specialty'],
-        user_info['subspecialty'],
-        user_info['years_exp'],
-        user_info['exp_explanation'],
-        user_info['npi_id'],
-        user_info['evaluator_id'],
-        our_methods
-    )
-    if remaining_count == 0:
-        return [
-            gr.update(visible=False),  # page0 (Hide)
-            gr.update(visible=False),  # page2 (Hide)
-            gr.update(visible=False),  # confirm_modal
-            gr.update(visible=False),
-            "",
-            gr.update(visible=True),   # final_page (Show)
-            "",
-            None,
-            None,
-            None,
-            None,
-            None,
-            user_info_new,
-            progress_state
-        ]
-    return [
-        gr.update(visible=False),  # page0 (Hide)
-        gr.update(visible=False),  # page2 (Hide)
-        gr.update(visible=False),  # confirm_modal (Hide)
-        gr.update(visible=True),   # eval_progress_modal (Show)
-        # eval_progress_text
-        f"Submission successful! You have {remaining_count} question(s) remaining to evaluate. You may exit the page and return later if you wish.",
-        gr.update(visible=False),  # final_page (Hide)
-        "",
-        chat_a,
-        chat_b,
-        page1_prompt,
-        page1_reference_answer,
-        question_for_eval,
-        user_info_new,
-        progress_state
-    ]
-def cancel_submission():
-    # Cancel final submission: just hide the confirmation modal.
-    return gr.update(visible=False)
 def reset_everything_except_user_info():
@@ -1829,7 +1899,7 @@ with gr.Blocks(css=centered_col_css) as demo:
     nonsense_btn_clicked = gr.State(False)
     unqualified_A_state = gr.State()
     data_subset_state = gr.State()
-    question_progress_state = gr.State()
     # Load specialty data
     specialties_path = "specialties.json"
@@ -2129,13 +2199,13 @@ with gr.Blocks(css=centered_col_css) as demo:
                 # wire each to re‐restrict the other on change
                 rating_a.change(
                     fn=restrict_choices,
-                    inputs=[question_progress_state, index_component,
                             rating_a, rating_b],
                     outputs=[rating_a, rating_b]
                 )
                 rating_b.change(
                     fn=restrict_choices,
-                    inputs=[question_progress_state, index_component,
                             rating_a, rating_b],
                     outputs=[rating_a, rating_b]
                 )
@@ -2165,18 +2235,18 @@ with gr.Blocks(css=centered_col_css) as demo:
         ok_btn.click(lambda: gr.update(visible=False), None, error_modal)
     # Confirmation Modal: Ask for final submission confirmation.
-    with Modal("Confirm Submission", visible=False, elem_id="confirm_modal") as confirm_modal:
-        gr.Markdown(
-            "Are you sure you want to submit? Once submitted, you cannot edit your responses.")
-        with gr.Row():
-            yes_btn = gr.Button("Yes, please submit")
-            cancel_btn = gr.Button("Cancel")
     # Add modal for proceeding to next question
-    with Modal("Next Question", visible=False, elem_id="next_question_modal") as next_question_modal:
-        gr.Markdown(
-            "You have completed this question. Click below to proceed to the next question.")
-        next_question_btn = gr.Button("Next Question")
@@ -2196,8 +2266,8 @@ with gr.Blocks(css=centered_col_css) as demo:
                 subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id],
         outputs=[
             page0, page1, page2, page0_error_box, eval_progress_modal,
-            page1_prompt, page1_reference_answer, page2_prompt, eval_progress_text,
-            user_info_state, data_subset_state, question_progress_state, pairwise_state,
             chat_a_page1, chat_b_page1, chat_a_page2, chat_b_page2,
             *ratings_A, *ratings_B,
             *pairwise_results_for_display
@@ -2207,7 +2277,7 @@ with gr.Blocks(css=centered_col_css) as demo:
     # eval_progress_proceed_btn.click(
     #     fn=proceed_from_eval_progress_modal,
-    #     inputs=[question_progress_state],
     #     outputs=[eval_progress_modal, page0, page1, page2],
     #     scroll_to_output=True
     # )
@@ -2230,12 +2300,12 @@ with gr.Blocks(css=centered_col_css) as demo:
     # Transition from Page 1 (Pairwise) to the combined Rating Page (Page 2).
     next_btn_1.click(
         fn=submit_pairwise_comparison,
-        inputs=[question_progress_state, data_subset_state,
                 user_info_state, *pairwise_radios, *pairwise_reasons],
         outputs=[
             page1, page2,
             page1_prompt, page2_prompt,
-            question_progress_state,
             chat_a_page1, chat_b_page1, chat_a_page2, chat_b_page2,
             *pairwise_radios,
             *pairwise_reasons,
@@ -2253,28 +2323,33 @@ with gr.Blocks(css=centered_col_css) as demo:
     # )
     # Wire up the modal button to proceed_to_next_question and reset all UI for the new question
-    next_question_btn.click(
-        fn=proceed_to_next_question,
-        inputs=[user_info_state],
-        outputs=[
-            user_info_state,
-            chat_a_page1, chat_b_page1, page1_prompt, page1_reference_answer,
-            data_subset_state, question_progress_state,
-            page1, page2, next_question_modal
-        ],
-        scroll_to_output=True
-    )
     submit_btn.click(
         fn=submit_pairwise_scoring,
-        inputs=[question_progress_state,
                 data_subset_state, user_info_state, *ratings_A, *ratings_B],
         outputs=[
             page1,                    # gr.update(visible=False)
             page2,                    # gr.update(visible=True)
             page1_prompt,             # None (page1_prompt)
             page2_prompt,             # page2_prompt_val
-            question_progress_state,  # progress_state
             chat_a_page1,                   # None (page1 chat_a)
             chat_b_page1,                   # None (page1 chat_b)
             chat_a_page2,            # chat_a_val (不是None!)
@@ -2283,72 +2358,9 @@ with gr.Blocks(css=centered_col_css) as demo:
             *pairwise_reasons,  # reset texts - 修复：不应该使用ui_updates
             *ratings_A, *ratings_B,
             *pairwise_results_for_display,  # pairwise results display
-            next_question_modal       # next question modal visibility
-        ],
-        scroll_to_output=True
-    )
-    # Finalize submission if user confirms.
-    question_submission_event = yes_btn.click(
-        fn=final_submit,
-        inputs=[data_subset_state, user_info_state, pairwise_state,
-                comparison_reasons, nonsense_btn_clicked, *ratings_A, *ratings_B],
-        outputs=[
-            page0,                 # Controlled by final_submit return value 1
-            page2,                 # Controlled by final_submit return value 2
-            confirm_modal,         # Controlled by final_submit return value 3
-            eval_progress_modal,   # Controlled by final_submit return value 4
-            eval_progress_text,    # Controlled by final_submit return value 5
-            final_page,            # Controlled by final_submit return value 6
-            page0_error_box,
-            chat_a_page1,
-            chat_b_page1,
-            page1_prompt,
-            page1_reference_answer,
-            data_subset_state,
-            user_info_state,
-            question_progress_state
         ],
         scroll_to_output=True
     )
-    # Cancel final submission.
-    cancel_btn.click(
-        fn=cancel_submission,
-        inputs=None,
-        outputs=confirm_modal
-    )
-    # Reset everything and evaluate another question button
-    question_submission_event.then(
-        fn=reset_everything_except_user_info,
-        inputs=[],
-        outputs=[
-            # states
-            # user_info_state,
-            pairwise_state,
-            scores_A_state,
-            comparison_reasons,
-            unqualified_A_state,
-            # data_subset_state,
-            # page0 elements that need to be reset
-            page0_error_box,
-            # page1 elements that need to be reset
-            page1_error_box,
-            # page2 elements that need to be reset
-            page2_prompt,
-            page2_reference_answer,
-            chat_a_page2,
-            chat_b_page2,
-            result_text,
-            # lists of gradio elements that need to be unrolled
-            *ratings_A,
-            *ratings_B
-        ]
-    )
 demo.launch(share=True, allowed_paths=["."])

     return None
+def create_user_info(name, email, specialty_dd, subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id, evaluator_id, question_id=None):
+    """
+    Create a user_info dictionary from individual user parameters.
+    Args:
+        name: User's name
+        email: User's email
+        specialty_dd: Primary medical specialty
+        subspecialty_dd: Medical subspecialty
+        years_exp_radio: Years of experience
+        exp_explanation_tb: Experience explanation
+        npi_id: NPI ID
+        evaluator_id: Evaluator ID
+        question_id: Question ID (optional, will be set later if None)
+    Returns:
+        dict: User information dictionary
+    """
+    return {
+        'name': name,
+        'email': email,
+        'specialty': specialty_dd,
+        'subspecialty': subspecialty_dd,
+        'years_exp': years_exp_radio,
+        'exp_explanation': exp_explanation_tb,
+        'npi_id': npi_id,
+        'evaluator_id': evaluator_id,
+        'question_id': question_id
+    }
 def go_to_page0_from_minus1():
     return gr.update(visible=False), gr.update(visible=True)
                 validation_error,                   # page0_error_box
                 gr.update(visible=False),           # eval_progress_modal
                 "",                                 # page1_prompt
                 "",                                 # page2_prompt
+                "",                                 # page1_reference_answer
+                "",                                 # page2_reference_answer
                 "",                                 # eval_progress_text
                 None,                               # user_info_state
                 None,                               # data_subset_state
+                None,                               # progress_state
                 None,                               # pairwise_state
                 [],                                 # chat_a_page1
                 [],                                 # chat_b_page1
     gr.Info("Please wait for a few seconds as we are loading the data...", duration=5)
     # Get initial question and data
+    user_info = create_user_info(name, email, specialty_dd, subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id, evaluator_id)
+    user_info, chat_a, chat_b, page1_prompt, data_subset_state, remaining_count, progress_state = get_next_eval_question(
+        user_info, our_methods
     )
     if remaining_count == 0 or user_info is None:
             message,                                      # page0_error_box
             gr.update(visible=False),                     # eval_progress_modal
             "",                                           # page1_prompt
             "",                                           # page2_prompt
+            "",                                           # page1_reference_answer
+            "",                                           # page2_reference_answer
             "",                                           # eval_progress_text
             None,                                         # user_info_state
             None,                                         # data_subset_state
+            None,                                         # progress_state
             None,                                         # pairwise_state
             [],                                           # chat_a_page1
             [],                                           # chat_b_page1
     # Use advance_workflow to get all UI updates
+    ui_updates = advance_workflow(progress_state, data_subset_state)
     print(f"\033[93mIn go_to_eval_progress_modal, using advance_workflow results: mode={progress_state.get('mode')}\033[0m")
             "",                                                         # page0_error_box
             gr.update(visible=True),                                    # eval_progress_modal
             ui_updates.get('page1_prompt', ""),                         # page1_prompt
             ui_updates.get('page2_prompt', ""),                         # page2_prompt
+            data_subset_state['reference_answer'],        # page1_reference_answer
+            data_subset_state['reference_answer'],        # page2_reference_answer
             f"You are about to evaluate the next question. You have {remaining_count} question(s) remaining to evaluate.",  # eval_progress_text
             user_info,                                                  # user_info_state
+            data_subset_state,                                          # data_subset_state
+            ui_updates.get('progress_state', progress_state),           # progress_state
             progress_state.get('pairwise_results', {}),                 # pairwise_state
             ui_updates.get('chat_a_page1', []),                         # chat_a_page1
             ui_updates.get('chat_b_page1', []),                         # chat_b_page1
 # Helper to fetch a specific question by ID for resuming progress
+# def proceed_from_eval_progress_modal(progress_state):
 #     """
 #     Proceed from eval progress modal to the appropriate page based on current workflow mode
 #     """
 #     # Determine which page to show based on the current mode in progress_state
+#     if progress_state and progress_state.get('mode') == 'scoring':
 #         # For scoring mode, show page2 and hide page1
 #         return (
 #             gr.update(visible=False),  # eval_progress_modal
     }
+def _create_reference_answer_component(correct_answer, include_correct_answer=True):
+    """
+    Helper function to create reference answer component.
+    This centralizes the reference answer creation logic for consistency
+    across different functions.
+    Args:
+        correct_answer: The correct answer text
+        include_correct_answer: Whether to include the correct answer
+    Returns:
+        gr.Markdown component with correct answer or None
+    """
+    return gr.Markdown(correct_answer) if include_correct_answer and correct_answer else None
+def get_next_eval_question(user_info, our_methods, return_user_info=True, include_correct_answer=True):
     """
     获取下一个评估问题及其初始状态。
     职责：
     2. 加载问题数据
     3. 初始化/加载问题进度状态
     4. 调用 advance_to_next_step 获取 UI 渲染
+    Args:
+        user_info (dict): User information dictionary containing:
+            - name: User's name
+            - email: User's email
+            - specialty: Primary medical specialty
+            - subspecialty: Medical subspecialty
+            - years_exp: Years of experience
+            - exp_explanation: Experience explanation
+            - npi_id: NPI ID
+            - evaluator_id: Evaluator ID
+            - question_id: Question ID (optional)
+        our_methods: List of our methods
+        return_user_info: Whether to return user info
+        include_correct_answer: Whether to include correct answer
     """
+    # Extract individual fields from user_info for compatibility
+    name = user_info.get('name')
+    email = user_info.get('email')
+    specialty_dd = user_info.get('specialty')
+    subspecialty_dd = user_info.get('subspecialty')
+    years_exp_radio = user_info.get('years_exp')
+    exp_explanation_tb = user_info.get('exp_explanation')
+    npi_id = user_info.get('npi_id')
+    evaluator_id = user_info.get('evaluator_id')
     # 1. 验证用户输入
     validation_error = validate_required_fields(
         name, email, evaluator_id, specialty_dd, years_exp_radio)
     if validation_error:
+        return None, gr.update(visible=True), gr.update(visible=False), "Wrong info.", None, 0, None
     # 2. 获取评估者问题映射
     question_map_path = hf_hub_download(
     evaluator_directory = question_map.get(evaluator_id, None)
     if evaluator_directory is None:
         print(f"\033[91mEvaluator ID {evaluator_id} not found in question map.\033[0m")
+        return None, gr.update(visible=True), gr.update(visible=False), "Invalid Evaluator ID, please try again.", None, 0, None
     all_files = list_repo_files(
         evaluator_id, all_files, evaluator_directory, our_methods)
     if len(full_question_ids_list) == 0:
+        return None, None, None, None, None, 0, None
     # 确定当前问题 ID 并收集模型数据
     full_question_ids_list = sorted(
                 correct_answer = e.get("correct_answer")
             break
+    data_subset_state = {
         "question": question_text,
         "id": q_id,
         "models_full": models_full
     }
     if include_correct_answer:
+        data_subset_state["correct_answer"] = correct_answer
+        # Store reference answer component data for later extraction
+        data_subset_state["reference_answer"] = _create_reference_answer_component(correct_answer, include_correct_answer)
+    else:
+        data_subset_state["reference_answer"] = _create_reference_answer_component(None, include_correct_answer)
+    # 创建用户信息对象 (update question_id if not already set)
+    if return_user_info:
+        updated_user_info = user_info.copy()
+        updated_user_info['question_id'] = q_id
+    else:
+        updated_user_info = None
     # 4. 调用 advance_workflow 获取初始 UI 更新
+    ui_updates = advance_workflow(progress_state, data_subset_state)
+    # 使用 advance_workflow 返回的模式适配内容，通过统一的键映射自动选择
+    # advance_workflow 内部通过 extract_ui_content_by_mode 已经处理了模式选择和内容准备
+    chat_a_content = ui_updates.get('chat_a_page1') or ui_updates.get('chat_a_page2', [])
+    chat_b_content = ui_updates.get('chat_b_page1') or ui_updates.get('chat_b_page2', [])
+    page_prompt = ui_updates.get('page1_prompt') or ui_updates.get('page2_prompt', "")
+    # 返回用户信息和 UI 更新，使用 advance_workflow 提供的内容
     return (
+        updated_user_info,
+        chat_a_content,  # 由 advance_workflow 提供的模式适配内容
         chat_b_content,  # 使用适合当前模式的内容
         page_prompt,     # 使用适合当前模式的提示
+        data_subset_state,
         len(full_question_ids_list),
         ui_updates['progress_state']
     )
         # Determine modal visibility based on completion status
         all_scoring_done = (len(progress_state['scoring_done_pairs']) ==
                            len(progress_state['all_pairs']))
+        # next_question_modal_visibility = gr.update(visible=all_scoring_done)
         return [
+            ui_updates.get('page1_visible'),                           # 5
+            ui_updates.get('page2_visible'),                           # 6
+            ui_updates.get('page1_prompt'),                            # 4
+            ui_updates.get('page2_prompt'),                            # 25
+            data_subset_state['reference_answer'], # page1_reference_answer
+            data_subset_state['reference_answer'], # page2_reference_answer
+            user_info,                                                  # user_info_state
+            data_subset_state,                                          # data_subset_state
+            ui_updates.get('progress_state'),                           # 1
+            progress_state.get('pairwise_results', {}),                 # pairwise_state
+            ui_updates.get('chat_a_page1'),                                  # 2
+            ui_updates.get('chat_b_page1'),                                  # 3
+            ui_updates.get('chat_a_page2'),                           # 23
+            ui_updates.get('chat_b_page2'),                           # 24
+            *ui_updates.get('pairwise_radios'),                        # 7-14
+            *ui_updates.get('pairwise_reasons'),                       # 15-22
             *ui_updates.get('ratings_A'),
             *ui_updates.get('ratings_B'),
             *ui_updates.get('pairwise_results_for_display'),
         ]
     # Initialize pairwise_scores as method-keyed dict if it doesn't exist
     # Determine modal visibility based on completion status
     all_scoring_done = (len(progress_state['scoring_done_pairs']) ==
                         len(progress_state['all_pairs']))
+    # next_question_modal_visibility = gr.update(visible=all_scoring_done)
+    if not all_scoring_done:
+        # advance_workflow handles all UI updates properly
+        # Return UI updates using advance_workflow results directly
+        return [
+            ui_updates.get('page1_visible'),                           # 5
+            ui_updates.get('page2_visible'),                           # 6
+            ui_updates.get('page1_prompt'),                            # 4
+            ui_updates.get('page2_prompt'),                            # 25
+            data_subset_state['reference_answer'], # page1_reference_answer
+            data_subset_state['reference_answer'], # page2_reference_answer
+            user_info,                                                  # user_info_state
+            data_subset_state,                                          # data_subset_state
+            ui_updates.get('progress_state'),                           # 1
+            progress_state.get('pairwise_results', {}),                 # pairwise_state
+            ui_updates.get('chat_a_page1'),                                  # 2
+            ui_updates.get('chat_b_page1'),                                  # 3
+            ui_updates.get('chat_a_page2'),                           # 23
+            ui_updates.get('chat_b_page2'),                           # 24
+            *ui_updates.get('pairwise_radios'),                        # 7-14
+            *ui_updates.get('pairwise_reasons'),                       # 15-22
+            *ui_updates.get('ratings_A'),
+            *ui_updates.get('ratings_B'),
+            *ui_updates.get('pairwise_results_for_display'),
+        ]
+    user_info, chat_a, chat_b, page1_prompt, data_subset_state, remaining_count, progress_state = get_next_eval_question(
+            user_info, our_methods
+        )
+    if remaining_count == 0: # code TODO
+        gr.Info("You have no more questions to evaluate. You may exit the page; we will follow-up if we require anything else from you. Thank you!")
+        return [
+            ui_updates.get('page1_visible'),                           # 5
+            ui_updates.get('page2_visible'),                           # 6
+            ui_updates.get('page1_prompt'),                            # 4
+            ui_updates.get('page2_prompt'),                            # 25
+            data_subset_state['reference_answer'], # page1_reference_answer
+            data_subset_state['reference_answer'], # page2_reference_answer
+            user_info,                                                  # user_info_state
+            data_subset_state,                                          # data_subset_state
+            ui_updates.get('progress_state'),                           # 1
+            progress_state.get('pairwise_results', {}),                 # pairwise_state
+            ui_updates.get('chat_a_page1'),                                  # 2
+            ui_updates.get('chat_b_page1'),                                  # 3
+            ui_updates.get('chat_a_page2'),                           # 23
+            ui_updates.get('chat_b_page2'),                           # 24
+            *ui_updates.get('pairwise_radios'),                        # 7-14
+            *ui_updates.get('pairwise_reasons'),                       # 15-22
+            *ui_updates.get('ratings_A'),
+            *ui_updates.get('ratings_B'),
+            *ui_updates.get('pairwise_results_for_display'),           # 26-33
+            # next_question_modal_visibility                             # 34
+        ]
+    # Use advance_workflow to get all UI updates
+    ui_updates = advance_workflow(progress_state, data_subset_state)
+    print(f"\033[93mIn submit_pairwise_scoring, using advance_workflow results: mode={progress_state.get('mode')}\033[0m")
+    gr.Info(f"You are about to evaluate the next question. You have {remaining_count} question(s) remaining to evaluate.")  # eval_progress_text
+    return (
+            ui_updates.get('page1_visible'),                           # 5
+            ui_updates.get('page2_visible'),                           # 6
+            ui_updates.get('page1_prompt'),                            # 4
+            ui_updates.get('page2_prompt'),                            # 25
+            data_subset_state['reference_answer'], # page1_reference_answer
+            data_subset_state['reference_answer'], # page2_reference_answer
+            user_info,                                                  # user_info_state
+            data_subset_state,                                          # data_subset_state
+            ui_updates.get('progress_state'),                           # 1
+            progress_state.get('pairwise_results', {}),                 # pairwise_state
+            ui_updates.get('chat_a_page1'),                                  # 2
+            ui_updates.get('chat_b_page1'),                                  # 3
+            ui_updates.get('chat_a_page2'),                           # 23
+            ui_updates.get('chat_b_page2'),                           # 24
+            *ui_updates.get('pairwise_radios'),                        # 7-14
+            *ui_updates.get('pairwise_reasons'),                       # 15-22
+            *ui_updates.get('ratings_A'),
+            *ui_updates.get('ratings_B'),
+            *ui_updates.get('pairwise_results_for_display'),
+            # next_question_modal_visibility
+        )
+# def proceed_to_next_question(user_info):
+#     """
+#     Refactored to reuse code from go_to_eval_progress_modal by implementing it using advance_workflow.
+#     This eliminates code duplication and ensures consistent UI behavior.
+#     """
+#     # Fetch next question state
+#     user_info_new, chat_a, chat_b, page1_prompt, data_subset_state, remaining_count, progress_state = get_next_eval_question(
+#         user_info['name'], user_info['email'], user_info['specialty'], user_info['subspecialty'],
+#         user_info['years_exp'], user_info['exp_explanation'], user_info['npi_id'], user_info['evaluator_id'], our_methods
+#     )
+#     # Use advance_workflow to get all UI updates (same pattern as go_to_eval_progress_modal)
+#     ui_updates = advance_workflow(progress_state, data_subset_state)
+#     print(f"\033[93mIn proceed_to_next_question, using advance_workflow results: mode={progress_state.get('mode')}\033[0m")
+#     # Return exactly the elements bound in next_question_btn.click:
+#     return [
+#         user_info_new,
+#         ui_updates.get('chat_a_page1', chat_a),      # 使用适合当前模式的内容
+#         ui_updates.get('chat_b_page1', chat_b),      # 使用适合当前模式的内容
+#         ui_updates.get('page1_prompt', page1_prompt), # 使用适合当前模式的提示
+#         page1_reference_answer,
+#         data_subset_state,                           # data_subset_state slot
+#         ui_updates.get('progress_state', progress_state), # progress_state slot
+#         ui_updates.get('page1_visible', gr.update(visible=True)),  # page1 visibility based on mode
+#         ui_updates.get('page2_visible', gr.update(visible=False)), # page2 visibility based on mode
+#         gr.update(visible=False)                     # next_question_modal hidden
+#     ]
 # --- Define Callback Functions for Confirmation Flow ---
 def build_row_dict(
     return row
 def reset_everything_except_user_info():
     nonsense_btn_clicked = gr.State(False)
     unqualified_A_state = gr.State()
     data_subset_state = gr.State()
+    progress_state = gr.State()
     # Load specialty data
     specialties_path = "specialties.json"
                 # wire each to re‐restrict the other on change
                 rating_a.change(
                     fn=restrict_choices,
+                    inputs=[progress_state, index_component,
                             rating_a, rating_b],
                     outputs=[rating_a, rating_b]
                 )
                 rating_b.change(
                     fn=restrict_choices,
+                    inputs=[progress_state, index_component,
                             rating_a, rating_b],
                     outputs=[rating_a, rating_b]
                 )
         ok_btn.click(lambda: gr.update(visible=False), None, error_modal)
     # Confirmation Modal: Ask for final submission confirmation.
+    # with Modal("Confirm Submission", visible=False, elem_id="confirm_modal") as confirm_modal:
+    #     gr.Markdown(
+    #         "Are you sure you want to submit? Once submitted, you cannot edit your responses.")
+    #     with gr.Row():
+    #         yes_btn = gr.Button("Yes, please submit")
+    #         cancel_btn = gr.Button("Cancel")
     # Add modal for proceeding to next question
+    # with Modal("Next Question", visible=False, elem_id="next_question_modal") as next_question_modal:
+    #     gr.Markdown(
+    #         "You have completed this question. Click below to proceed to the next question.")
+    #     next_question_btn = gr.Button("Next Question")
                 subspecialty_dd, years_exp_radio, exp_explanation_tb, npi_id],
         outputs=[
             page0, page1, page2, page0_error_box, eval_progress_modal,
+            page1_prompt, page2_prompt, page1_reference_answer, page2_reference_answer, eval_progress_text,
+            user_info_state, data_subset_state, progress_state, pairwise_state,
             chat_a_page1, chat_b_page1, chat_a_page2, chat_b_page2,
             *ratings_A, *ratings_B,
             *pairwise_results_for_display
     # eval_progress_proceed_btn.click(
     #     fn=proceed_from_eval_progress_modal,
+    #     inputs=[progress_state],
     #     outputs=[eval_progress_modal, page0, page1, page2],
     #     scroll_to_output=True
     # )
     # Transition from Page 1 (Pairwise) to the combined Rating Page (Page 2).
     next_btn_1.click(
         fn=submit_pairwise_comparison,
+        inputs=[progress_state, data_subset_state,
                 user_info_state, *pairwise_radios, *pairwise_reasons],
         outputs=[
             page1, page2,
             page1_prompt, page2_prompt,
+            progress_state,
             chat_a_page1, chat_b_page1, chat_a_page2, chat_b_page2,
             *pairwise_radios,
             *pairwise_reasons,
     # )
     # Wire up the modal button to proceed_to_next_question and reset all UI for the new question
+    # next_question_btn.click(
+    #     fn=proceed_to_next_question,
+    #     inputs=[user_info_state],
+    #     outputs=[
+    #         user_info_state,
+    #         chat_a_page1, chat_b_page1, page1_prompt, page1_reference_answer,
+    #         data_subset_state, progress_state,
+    #         page1, page2, next_question_modal
+    #     ],
+    #     scroll_to_output=True
+    # )
     submit_btn.click(
         fn=submit_pairwise_scoring,
+        inputs=[progress_state,
                 data_subset_state, user_info_state, *ratings_A, *ratings_B],
         outputs=[
             page1,                    # gr.update(visible=False)
             page2,                    # gr.update(visible=True)
             page1_prompt,             # None (page1_prompt)
             page2_prompt,             # page2_prompt_val
+            page1_reference_answer,                                     # page1_reference_answer
+            page2_reference_answer,                                    # page2_reference_answer
+            user_info_state,
+            data_subset_state,
+            progress_state,  # progress_state
+            pairwise_state,
             chat_a_page1,                   # None (page1 chat_a)
             chat_b_page1,                   # None (page1 chat_b)
             chat_a_page2,            # chat_a_val (不是None!)
             *pairwise_reasons,  # reset texts - 修复：不应该使用ui_updates
             *ratings_A, *ratings_B,
             *pairwise_results_for_display,  # pairwise results display
+            # next_question_modal_visibility       # next question modal visibility
         ],
         scroll_to_output=True
     )
 demo.launch(share=True, allowed_paths=["."])