jackhhao
/

jailbreak-classifier

Text Classification

prompt-injection

Model card Files Files and versions

jackhhao commited on Apr 5, 2024

Commit

771aa6f

·

verified ·

1 Parent(s): dc01ec4

Minor model card edits

Files changed (1) hide show

README.md +5 -4

README.md CHANGED Viewed

@@ -13,17 +13,18 @@ tags:
 - jailbreak
 - security
 - moderation
 ---
 # Jailbreak Classifier
-Classifies prompts as jailbreaks or benign. This is a fine-tune checkpoint of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.
 ## Training Details
 ### Training Data
-Fine-tuned on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataaset.
 ### Training Procedure
@@ -31,7 +32,7 @@ Fine-tuned on the [jailbreak-classification](https://huggingface.co/datasets/jac
 Fine-tuning hyper-parameters:
 - learning_rate = 5e-5
-- per_device_train_batch_size = 8
-- per_device_eval_batch_size = 8
 - lr_scheduler_type = linear
 - num_train_epochs = 5.0

 - jailbreak
 - security
 - moderation
+- prompt-injection
 ---
 # Jailbreak Classifier
+Classifies prompts as jailbreaks or benign. This is a fine-tune checkpoint of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataset.
 ## Training Details
 ### Training Data
+Fine-tuned on the [jailbreak-classification](https://huggingface.co/datasets/jackhhao/jailbreak-classification) dataset.
 ### Training Procedure
 Fine-tuning hyper-parameters:
 - learning_rate = 5e-5
+- train_batch_size = 8
+- eval_batch_size = 8
 - lr_scheduler_type = linear
 - num_train_epochs = 5.0