vera-8
/

mT5-base-trimmed_deplain-apa

Text2Text Generation

Model card Files Files and versions Community

vera-8 commited on May 7, 2024

Commit

ce3974e

·

verified ·

1 Parent(s): 706df65

Update README.md

Files changed (1) hide show

README.md +6 -4

README.md CHANGED Viewed

@@ -28,20 +28,22 @@ Finetuned mT5-Model for German sentence-level text-simplification.
 ### Training Data
-[DEplain/DEplain-APA-sent](https://huggingface.co/datasets/DEplain/DEplain-APA-sent)
 ### Training Procedure
-Parameter-efficient Fine-Tuning with LoRA
 #### Training Hyperparameters
 * Batch Size: 16
 * Epochs: 1
-* Learning Rate: 0,001
 * Optimizer: Adafactor
 #### LoRA Hyperparameters
 * R: 32
 * Alpha: 64
-* Dropout:
 * Target modules: all linear layers

 ### Training Data
+[DEplain/DEplain-APA-sent](https://huggingface.co/datasets/DEplain/DEplain-APA-sent) \
+Stodden et al. (2023):[arXiv:2305.18939](arXiv:2305.18939)
 ### Training Procedure
+Parameter-efficient Fine-Tuning with LoRA. Vocabulary trimmed to 32.000 most frequent tokend for German.
 #### Training Hyperparameters
 * Batch Size: 16
 * Epochs: 1
+* Learning Rate: 0.001
 * Optimizer: Adafactor
 #### LoRA Hyperparameters
 * R: 32
 * Alpha: 64
+* Dropout: 0.1
 * Target modules: all linear layers