Frasa-1B-v0.1 (Not for Use)
Model Overview
Frasa-1B-v0.1
adalah model bahasa besar (LLM) yang merupakan hasil Continual Pretraining (CPT) dari model dasar Llama-3.2-1B-Instruct dengan fokus pada peningkatan pemahaman bahasa Indonesia. Model ini dilatih menggunakan subset 10% dari dataset Wikipedia berbahasa Indonesia (dengan hanya 120 steps), menjadikannya fondasi yang cukup kuat untuk tugas-tugas generatif dalam Bahasa Indonesia.
Model ini dibangun dengan framework Unsloth.ai untuk efisiensi pelatihan yang maksimal.
Bagaimana Model Ini Dibuat
Model Frasa-1B-v0.1
dihasilkan melalui proses Continual Pretraining (CPT) dengan langkah-langkah berikut:
- Base Model:
meta-llama/Llama-3.2-1B-Instruct
- Framework: Unsloth.ai
- Kuantisasi: 4-bit (via
load_in_4bit=True
) untuk efisiensi memori. - Teknik Fine-tuning: LoRA (Low-Rank Adaptation)
r = 128
lora_alpha = 32
target_modules
:["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "embed_tokens", "lm_head"]
(Modulembed_tokens
danlm_head
disertakan untuk adaptasi pengetahuan yang lebih dalam selama CPT).use_gradient_checkpointing = "unsloth"
use_rslora = True
- Dataset Pelatihan:
wikimedia/wikipedia
(versi20231101.id
, diambil 10% dari settrain
)
- Pemformatan Data: Setiap entri Wikipedia diformat menggunakan template spesifik untuk CPT:
Artikel Wikipedia ### Judul: [Judul Artikel] ### Artikel: [Isi Artikel]</s>
- Hyperparameter Pelatihan:
per_device_train_batch_size = 2
gradient_accumulation_steps = 8
(Effective batch size: 16)max_steps = 120
warmup_steps = 10
learning_rate = 5e-5
embedding_learning_rate = 1e-5
optim = "adamw_8bit"
lr_scheduler_type = "linear"
Potensi Penggunaan
- Dasar untuk Instruction Tuning: Model ini dapat digunakan sebagai base model untuk fine-tuning lebih lanjut dengan dataset instruksi Bahasa Indonesia (seperti Alpaca-GPT4-Indonesian atau ShareGPT-Indonesian yang diformat ChatML) untuk menciptakan asisten AI yang mampu berdialog.
- Penelitian dan Pengembangan: Dapat berfungsi sebagai checkpoint untuk eksplorasi lebih lanjut dalam continual pretraining bahasa Indonesia atau adaptasi domain.
Lisensi
Model ini dilisensikan di bawah Apache 2.0 License.
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support