GameRuiner commited on May 22

Commit

85d2392

0 Parent(s):

initial commit

Browse files

Files changed (21) hide show

.gitattributes +39 -0
.gitignore +174 -0
README.md +38 -0
checkpoint-530/config.json +40 -0
checkpoint-530/generation_config.json +12 -0
checkpoint-530/model.safetensors +3 -0
checkpoint-530/optimizer.pt +3 -0
checkpoint-530/rng_state.pth +3 -0
checkpoint-530/scheduler.pt +3 -0
checkpoint-530/special_tokens_map.json +17 -0
checkpoint-530/tokenizer.json +3 -0
checkpoint-530/tokenizer_config.json +3 -0
checkpoint-530/trainer_state.json +412 -0
checkpoint-530/training_args.bin +3 -0
config.json +40 -0
generation_config.json +12 -0
model.safetensors +3 -0
special_tokens_map.json +17 -0
tokenizer.json +3 -0
tokenizer_config.json +3 -0
training_args.bin +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,39 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer_config.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-530/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-530/tokenizer_config.json filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,174 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# UV
+#   Similar to Pipfile.lock, it is generally recommended to include uv.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#uv.lock
+# poetry
+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
+#poetry.lock
+# pdm
+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
+#pdm.lock
+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
+#   in version control.
+#   https://pdm.fming.dev/latest/usage/project/#working-with-version-control
+.pdm.toml
+.pdm-python
+.pdm-build/
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+# PyCharm
+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
+#.idea/
+# Ruff stuff:
+.ruff_cache/
+# PyPI configuration file
+.pypirc

README.md ADDED Viewed

	@@ -0,0 +1,38 @@

+---
+license: apache-2.0
+base_model: HKUSTAudio/Llasa-1B-Multilingual
+datasets:
+  - amu-cai/pl-asr-bigos-v2
+language:
+  - pl
+tags:
+  - speech
+  - audio
+  - polish
+  - llama
+  - tts
+  - fine-tuned
+  - text-to-speech
+model-index:
+  - name: From Llasa to Łazanki
+    results: []
+---
+# From Llasa to Łazanki: Fine-tuned Llasa-1B on Polish Speech
+This is a fine-tuned version of [`HKUSTAudio/Llasa-1B-Multilingual`](https://huggingface.co/HKUSTAudio/Llasa-1B-Multilingual), adapted for **Polish Text-to-Speech (TTS)**.
+It was fine-tuned on the [`pl-asr-bigos-v2`](https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2) dataset, specifically the `mozilla-common_voice_15-23` subset, which includes high-quality Polish speech recordings suitable for training TTS models.
+---
+## 🧠 Base Model
+[Llasa-1B-Multilingual](https://huggingface.co/HKUSTAudio/Llasa-1B-Multilingual) model developed by HKUST. The approach leverages the LLAMA-initialized text BPE tokenizer, which can handle multilingual text without the need to design language-specific G2P (grapheme-to-phoneme) systems.
+---
+## 🗣 Fine-tuning Details
+- **Dataset**: [PL-ASR-BIGOS-v2](https://huggingface.co/datasets/amu-cai/pl-asr-bigos-v2), `mozilla-common_voice_15-23` subset
+- **Language**: 🇵🇱 Polish
+- **Task**: Text to speech

checkpoint-530/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "HKUSTAudio/Llasa-1B-Multilingual",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.3",
+  "use_cache": true,
+  "vocab_size": 193800
+}

checkpoint-530/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.48.3"
+}

checkpoint-530/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd05ab97760fbc82c2216cc474d9b4aeaef7398f505336843fc1567e096d636
+size 2740113872

checkpoint-530/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6db470190e6dd274906201b0e78082ac0ac9ec6d70da5db94bd98139b4ee2387
+size 2783469178

checkpoint-530/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cf9097d4513154245c48236b6ec5137b7ee2a21c9f58f2cba798ea275c6026f
+size 14244

checkpoint-530/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2154c128f8be4cd95af425c31ed87f550f6eb515d99bf0ecda87df0720395913
+size 1064

checkpoint-530/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>"
+}

checkpoint-530/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71d92f3dbf3c23d734e6356241cef149b42fe79848176a54145b6f9a886fd73b
+size 29521206

checkpoint-530/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c51ef4d5bc8bb8449bc16cd24176a66e0edbea7cbd3d3dbe29f102686cb4068
+size 11710463

checkpoint-530/trainer_state.json ADDED Viewed

	@@ -0,0 +1,412 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9937264742785445,
+  "eval_steps": 1000,
+  "global_step": 530,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 8.071162223815918,
+      "eval_runtime": 2.2876,
+      "eval_samples_per_second": 5.246,
+      "eval_steps_per_second": 2.623,
+      "step": 0
+    },
+    {
+      "epoch": 0.037641154328732745,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.125e-05,
+      "loss": 7.955,
+      "step": 10
+    },
+    {
+      "epoch": 0.07528230865746549,
+      "grad_norm": 2.9375,
+      "learning_rate": 4.9992528946077346e-05,
+      "loss": 7.6295,
+      "step": 20
+    },
+    {
+      "epoch": 0.11292346298619825,
+      "grad_norm": 3.203125,
+      "learning_rate": 4.9908530862563093e-05,
+      "loss": 7.5144,
+      "step": 30
+    },
+    {
+      "epoch": 0.15056461731493098,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.9731510619790654e-05,
+      "loss": 7.4984,
+      "step": 40
+    },
+    {
+      "epoch": 0.18820577164366373,
+      "grad_norm": 3.34375,
+      "learning_rate": 4.9462129308745496e-05,
+      "loss": 7.4781,
+      "step": 50
+    },
+    {
+      "epoch": 0.2258469259723965,
+      "grad_norm": 4.125,
+      "learning_rate": 4.910139294746038e-05,
+      "loss": 7.4421,
+      "step": 60
+    },
+    {
+      "epoch": 0.26348808030112925,
+      "grad_norm": 3.046875,
+      "learning_rate": 4.865064872399048e-05,
+      "loss": 7.4148,
+      "step": 70
+    },
+    {
+      "epoch": 0.30112923462986196,
+      "grad_norm": 2.984375,
+      "learning_rate": 4.8111579965271914e-05,
+      "loss": 7.4157,
+      "step": 80
+    },
+    {
+      "epoch": 0.33877038895859474,
+      "grad_norm": 3.0625,
+      "learning_rate": 4.748619985065281e-05,
+      "loss": 7.391,
+      "step": 90
+    },
+    {
+      "epoch": 0.37641154328732745,
+      "grad_norm": 2.953125,
+      "learning_rate": 4.677684389357392e-05,
+      "loss": 7.3722,
+      "step": 100
+    },
+    {
+      "epoch": 0.41405269761606023,
+      "grad_norm": 2.921875,
+      "learning_rate": 4.598616121947642e-05,
+      "loss": 7.3537,
+      "step": 110
+    },
+    {
+      "epoch": 0.451693851944793,
+      "grad_norm": 3.46875,
+      "learning_rate": 4.51171046725099e-05,
+      "loss": 7.3362,
+      "step": 120
+    },
+    {
+      "epoch": 0.4893350062735257,
+      "grad_norm": 2.78125,
+      "learning_rate": 4.4172919787987646e-05,
+      "loss": 7.3172,
+      "step": 130
+    },
+    {
+      "epoch": 0.5269761606022585,
+      "grad_norm": 3.109375,
+      "learning_rate": 4.315713267177201e-05,
+      "loss": 7.3077,
+      "step": 140
+    },
+    {
+      "epoch": 0.5646173149309912,
+      "grad_norm": 2.9375,
+      "learning_rate": 4.207353683185503e-05,
+      "loss": 7.3343,
+      "step": 150
+    },
+    {
+      "epoch": 0.6022584692597239,
+      "grad_norm": 2.953125,
+      "learning_rate": 4.0926179011312346e-05,
+      "loss": 7.3015,
+      "step": 160
+    },
+    {
+      "epoch": 0.6398996235884568,
+      "grad_norm": 2.6875,
+      "learning_rate": 3.971934407553797e-05,
+      "loss": 7.3051,
+      "step": 170
+    },
+    {
+      "epoch": 0.6775407779171895,
+      "grad_norm": 2.875,
+      "learning_rate": 3.845753901019931e-05,
+      "loss": 7.284,
+      "step": 180
+    },
+    {
+      "epoch": 0.7151819322459222,
+      "grad_norm": 2.765625,
+      "learning_rate": 3.7145476089672884e-05,
+      "loss": 7.2721,
+      "step": 190
+    },
+    {
+      "epoch": 0.7528230865746549,
+      "grad_norm": 2.703125,
+      "learning_rate": 3.5788055278819096e-05,
+      "loss": 7.2775,
+      "step": 200
+    },
+    {
+      "epoch": 0.7904642409033877,
+      "grad_norm": 2.59375,
+      "learning_rate": 3.4390345933817326e-05,
+      "loss": 7.2813,
+      "step": 210
+    },
+    {
+      "epoch": 0.8281053952321205,
+      "grad_norm": 2.546875,
+      "learning_rate": 3.295756787040076e-05,
+      "loss": 7.2794,
+      "step": 220
+    },
+    {
+      "epoch": 0.8657465495608532,
+      "grad_norm": 2.46875,
+      "learning_rate": 3.1495071870192465e-05,
+      "loss": 7.2772,
+      "step": 230
+    },
+    {
+      "epoch": 0.903387703889586,
+      "grad_norm": 2.640625,
+      "learning_rate": 3.000831969794271e-05,
+      "loss": 7.274,
+      "step": 240
+    },
+    {
+      "epoch": 0.9410288582183187,
+      "grad_norm": 2.640625,
+      "learning_rate": 2.8502863704294235e-05,
+      "loss": 7.2748,
+      "step": 250
+    },
+    {
+      "epoch": 0.9786700125470514,
+      "grad_norm": 3.15625,
+      "learning_rate": 2.6984326090249974e-05,
+      "loss": 7.275,
+      "step": 260
+    },
+    {
+      "epoch": 1.015056461731493,
+      "grad_norm": 2.296875,
+      "learning_rate": 2.5458377910781118e-05,
+      "loss": 7.1885,
+      "step": 270
+    },
+    {
+      "epoch": 1.052697616060226,
+      "grad_norm": 2.546875,
+      "learning_rate": 2.3930717895987563e-05,
+      "loss": 7.0831,
+      "step": 280
+    },
+    {
+      "epoch": 1.0903387703889587,
+      "grad_norm": 2.59375,
+      "learning_rate": 2.2407051168904147e-05,
+      "loss": 7.0635,
+      "step": 290
+    },
+    {
+      "epoch": 1.1279799247176914,
+      "grad_norm": 2.578125,
+      "learning_rate": 2.0893067939432276e-05,
+      "loss": 7.0866,
+      "step": 300
+    },
+    {
+      "epoch": 1.165621079046424,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.9394422253965264e-05,
+      "loss": 7.0638,
+      "step": 310
+    },
+    {
+      "epoch": 1.2032622333751568,
+      "grad_norm": 2.4375,
+      "learning_rate": 1.7916710880068162e-05,
+      "loss": 7.0785,
+      "step": 320
+    },
+    {
+      "epoch": 1.2409033877038895,
+      "grad_norm": 2.515625,
+      "learning_rate": 1.6465452405068305e-05,
+      "loss": 7.0816,
+      "step": 330
+    },
+    {
+      "epoch": 1.2785445420326225,
+      "grad_norm": 2.484375,
+      "learning_rate": 1.504606662661378e-05,
+      "loss": 7.056,
+      "step": 340
+    },
+    {
+      "epoch": 1.3161856963613552,
+      "grad_norm": 2.484375,
+      "learning_rate": 1.3663854312166968e-05,
+      "loss": 7.0823,
+      "step": 350
+    },
+    {
+      "epoch": 1.353826850690088,
+      "grad_norm": 2.421875,
+      "learning_rate": 1.2323977403022316e-05,
+      "loss": 7.0715,
+      "step": 360
+    },
+    {
+      "epoch": 1.3914680050188206,
+      "grad_norm": 2.625,
+      "learning_rate": 1.1031439736777327e-05,
+      "loss": 7.0598,
+      "step": 370
+    },
+    {
+      "epoch": 1.4291091593475533,
+      "grad_norm": 2.46875,
+      "learning_rate": 9.791068360249819e-06,
+      "loss": 7.1039,
+      "step": 380
+    },
+    {
+      "epoch": 1.466750313676286,
+      "grad_norm": 2.53125,
+      "learning_rate": 8.607495502629193e-06,
+      "loss": 7.0684,
+      "step": 390
+    },
+    {
+      "epoch": 1.5043914680050188,
+      "grad_norm": 2.4375,
+      "learning_rate": 7.485141276183927e-06,
+      "loss": 7.0906,
+      "step": 400
+    },
+    {
+      "epoch": 1.5420326223337515,
+      "grad_norm": 2.46875,
+      "learning_rate": 6.428197169130346e-06,
+      "loss": 7.0594,
+      "step": 410
+    },
+    {
+      "epoch": 1.5796737766624842,
+      "grad_norm": 2.46875,
+      "learning_rate": 5.44061039230942e-06,
+      "loss": 7.0873,
+      "step": 420
+    },
+    {
+      "epoch": 1.617314930991217,
+      "grad_norm": 2.578125,
+      "learning_rate": 4.526069138129674e-06,
+      "loss": 7.0843,
+      "step": 430
+    },
+    {
+      "epoch": 1.6549560853199499,
+      "grad_norm": 2.390625,
+      "learning_rate": 3.6879888068274304e-06,
+      "loss": 7.0676,
+      "step": 440
+    },
+    {
+      "epoch": 1.6925972396486826,
+      "grad_norm": 2.484375,
+      "learning_rate": 2.9294992514831366e-06,
+      "loss": 7.0672,
+      "step": 450
+    },
+    {
+      "epoch": 1.7302383939774153,
+      "grad_norm": 2.484375,
+      "learning_rate": 2.2534330894278672e-06,
+      "loss": 7.0841,
+      "step": 460
+    },
+    {
+      "epoch": 1.767879548306148,
+      "grad_norm": 2.375,
+      "learning_rate": 1.6623151236916683e-06,
+      "loss": 7.0784,
+      "step": 470
+    },
+    {
+      "epoch": 1.805520702634881,
+      "grad_norm": 2.421875,
+      "learning_rate": 1.1583529139998578e-06,
+      "loss": 7.0761,
+      "step": 480
+    },
+    {
+      "epoch": 1.8431618569636137,
+      "grad_norm": 2.5,
+      "learning_rate": 7.434285325303908e-07,
+      "loss": 7.0788,
+      "step": 490
+    },
+    {
+      "epoch": 1.8808030112923464,
+      "grad_norm": 2.359375,
+      "learning_rate": 4.1909153522079193e-07,
+      "loss": 7.0586,
+      "step": 500
+    },
+    {
+      "epoch": 1.9184441656210791,
+      "grad_norm": 2.375,
+      "learning_rate": 1.8655317487370762e-07,
+      "loss": 7.0723,
+      "step": 510
+    },
+    {
+      "epoch": 1.9560853199498118,
+      "grad_norm": 2.46875,
+      "learning_rate": 4.6681877672488664e-08,
+      "loss": 7.0732,
+      "step": 520
+    },
+    {
+      "epoch": 1.9937264742785445,
+      "grad_norm": 2.40625,
+      "learning_rate": 0.0,
+      "loss": 7.0647,
+      "step": 530
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 530,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 999,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.559234065886085e+17,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-530/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2385a64eee32d54ec3e8e605589b6646e81f3573e8d4fbfe5b17b4826442f24
+size 5523622102

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "HKUSTAudio/Llasa-1B-Multilingual",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.3",
+  "use_cache": true,
+  "vocab_size": 193800
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.48.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd05ab97760fbc82c2216cc474d9b4aeaef7398f505336843fc1567e096d636
+size 2740113872

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71d92f3dbf3c23d734e6356241cef149b42fe79848176a54145b6f9a886fd73b
+size 29521206

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c51ef4d5bc8bb8449bc16cd24176a66e0edbea7cbd3d3dbe29f102686cb4068
+size 11710463

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2385a64eee32d54ec3e8e605589b6646e81f3573e8d4fbfe5b17b4826442f24
+size 5523622102