Kleo
/

meltemi_arg2kp_matcher

Text Classification

Model card Files Files and versions Community

Kleo commited on about 1 month ago

Commit

24ce2de

·

verified ·

1 Parent(s): 0c0c772

Update README.md

Files changed (1) hide show

README.md +16 -13

README.md CHANGED Viewed

@@ -145,7 +145,7 @@ Machine translated train set of [ArgKP_2021_GR](https://huggingface.co/datasets/
 |LoRA r          |  20                                 |
 |LoRA alpha      |  9                                  |
 |LoRA dropout    |0.0                                  |
-|LoRA bias       |‘none'                               |
 |target_modules  |q_proj, v_proj                       |
 |task_type       |"SEQ_CLS"                            |
 |Loss            |BCE                                  |
@@ -153,20 +153,23 @@ Machine translated train set of [ArgKP_2021_GR](https://huggingface.co/datasets/
 ### Training Procedure
 The following hyperparameters were used during training:
-learning_rate:  1e-4
-train_batch_size: 16
-eval_batch_size: 16
-seed: 42
-num_devices: 1
-gradient_accumulation_steps: 2
-optimizer: paged Adam optimizer
-lr_scheduler_type: linear
-Weight Decay: 0.01
-M. G. Norm: 0.3
-max_seq_length: 512
-num_epochs: 1
 #### Training hyperparameters

 |LoRA r          |  20                                 |
 |LoRA alpha      |  9                                  |
 |LoRA dropout    |0.0                                  |
+|LoRA bias       |'none'                               |
 |target_modules  |q_proj, v_proj                       |
 |task_type       |"SEQ_CLS"                            |
 |Loss            |BCE                                  |
 ### Training Procedure
 The following hyperparameters were used during training:
+|Hyperparameter              |   Value                             |
+|----------------------------|-------------------------------------|
+|l_r                         |  1e-4                               |
+|lr_scheduler_type           |linear                               |
+|train_batch_size            |  16                                 |
+|eval_batch_size             |16                                   |
+|seed                        |42                                   |
+|num_devices                 |1                                    |
+|gradient_accumulation_steps |2                                    |
+|optimizer                   |paged Adam                           |
+|Weight Decay                |  0.01                               |
+|max grad norm               | 0.3                                 |
+|max_seq_length              |512                                  |
+|num_epochs                  |1                                    |
 #### Training hyperparameters