Spaces:

MBZUAI-LLM
/

Mobile-MMLU-Challenge

Running

App Files Files Community

SondosMB commited on Dec 20, 2024

Commit

9f83fb9

verified ·

1 Parent(s): aaf50df

Create app,py

Browse files

Files changed (1) hide show

app,py +95 -0

app,py ADDED Viewed

	@@ -0,0 +1,95 @@

+import gradio as gr
+import pandas as pd
+import os
+import re
+from datetime import datetime
+# Leaderboard Data (example CSV file for leaderboard)
+LEADERBOARD_FILE = "leaderboard.csv"
+def clean_answer(answer):
+    if pd.isna(answer):
+        return None
+    answer = str(answer)
+    clean = re.sub(r'[^A-Da-d]', '', answer)
+    if clean:
+        first_letter = clean[0].upper()
+        if first_letter in ['A', 'B', 'C', 'D']:
+            return first_letter
+    return None
+def update_leaderboard(results):
+    # Append results to leaderboard file
+    new_entry = {
+        "Model Name": results['model_name'],
+        "Overall Accuracy": f"{results['overall_accuracy']:.2%}",
+        "Valid Accuracy": f"{results['valid_accuracy']:.2%}",
+        "Correct Predictions": results['correct_predictions'],
+        "Total Questions": results['total_questions'],
+        "Timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
+    }
+    leaderboard_df = pd.DataFrame([new_entry])
+    if os.path.exists(LEADERBOARD_FILE):
+        existing_df = pd.read_csv(LEADERBOARD_FILE)
+        leaderboard_df = pd.concat([existing_df, leaderboard_df], ignore_index=True)
+    leaderboard_df.to_csv(LEADERBOARD_FILE, index=False)
+def evaluate_predictions(prediction_file):
+    ground_truth_file = "ground_truth.csv"  # Specify the path to the ground truth file
+    if not prediction_file:
+        return "Prediction file not uploaded", None
+    if not os.path.exists(ground_truth_file):
+        return "Ground truth file not found", None
+    try:
+        predictions_df = pd.read_csv(prediction_file.name)
+        ground_truth_df = pd.read_csv(ground_truth_file)
+        filename = os.path.basename(prediction_file.name)
+        model_name = filename.split('_')[1].split('.')[0] if "_" in filename else "unknown_model"
+        merged_df = pd.merge(predictions_df, ground_truth_df, on='question_id', how='inner')
+        merged_df['pred_answer'] = merged_df['predicted_answer'].apply(clean_answer)
+        correct_predictions = (merged_df['pred_answer'] == merged_df['Answer']).sum()
+        total_predictions = len(merged_df)
+        overall_accuracy = correct_predictions / total_predictions
+        results = {
+            'model_name': model_name,
+            'overall_accuracy': overall_accuracy,
+            'correct_predictions': correct_predictions,
+            'total_questions': total_predictions,
+        }
+        update_leaderboard(results)
+        return "Evaluation completed successfully! Leaderboard updated.", LEADERBOARD_FILE
+    except Exception as e:
+        return f"Error: {str(e)}", None
+# Gradio Interface with Leaderboard
+def display_leaderboard():
+    if not os.path.exists(LEADERBOARD_FILE):
+        return "Leaderboard is empty."
+    leaderboard_df = pd.read_csv(LEADERBOARD_FILE)
+    return leaderboard_df.to_markdown(index=False)
+demo = gr.Blocks()
+with demo:
+    gr.Markdown("# Prediction Evaluation Tool with Leaderboard")
+    with gr.Tab("Evaluate"):
+        file_input = gr.File(label="Upload Prediction CSV")
+        eval_status = gr.Textbox(label="Evaluation Status")
+        eval_results_file = gr.File(label="Download Evaluation Results")
+        eval_button = gr.Button("Evaluate")
+        eval_button.click(
+            evaluate_predictions, inputs=file_input, outputs=[eval_status, eval_results_file]
+        )
+    with gr.Tab("Leaderboard"):
+        leaderboard_text = gr.Textbox(label="Leaderboard", interactive=False)
+        refresh_button = gr.Button("Refresh Leaderboard")
+        refresh_button.click(display_leaderboard, outputs=leaderboard_text)
+if __name__ == "__main__":
+    demo.launch()