metadata

library_name: peft
base_model: katuni4ka/tiny-random-qwen1.5-moe
tags:
  - axolotl
  - generated_from_trainer
model-index:
  - name: e4e06d71-6c84-4d65-a613-92f9ec848826
    results: []

e4e06d71-6c84-4d65-a613-92f9ec848826

This model is a fine-tuned version of katuni4ka/tiny-random-qwen1.5-moe on the None dataset. It achieves the following results on the evaluation set:

Loss: 11.4859

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.000203
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 8
optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 50
training_steps: 500

Training results

Training Loss	Epoch	Step	Validation Loss
No log	0.0000	1	11.8944
11.7383	0.0019	50	11.6764
11.7062	0.0039	100	11.5779
11.6767	0.0058	150	11.5281
11.6397	0.0078	200	11.5140
11.6365	0.0097	250	11.5029
11.6227	0.0117	300	11.4941
11.6127	0.0136	350	11.4893
11.6097	0.0156	400	11.4868
11.6015	0.0175	450	11.4860
11.5952	0.0194	500	11.4859

Framework versions

PEFT 0.13.2
Transformers 4.46.0
Pytorch 2.5.0+cu124
Datasets 3.0.1
Tokenizers 0.20.1