Darija-LLM: Large Language Model for Moroccan Arabic
Overview
Al-Atlas-LLM is a 0.5B parameter language model specifically trained on Moroccan Darija, making it the first dedicated foundation model for Morocco's primary spoken dialect. The model was trained on a carefully curated dataset of 155M tokens, focusing exclusively on authentic Moroccan Darija content.
Key Features
- Dedicated Darija Model: First language model trained specifically for Moroccan Arabic dialect
- High-Quality Data: Curated dataset of 155M tokens from authentic Moroccan sources
- Cultural Understanding: Captures nuanced cultural context and local expressions
Dataset
Our training corpus consists of 155M tokens of pure Moroccan Darija content, sourced from:
- Social media conversations
- Transcribed spoken content
- Online forums and discussions
- Local news and media
- User-generated content
Each source was carefully vetted to ensure authentic representation of the dialect and remove any Modern Standard Arabic (MSA) or other Arabic dialect contamination.
Model Details
- Architecture: Transformer-based language model
- Parameters: 0.5B
- Context Window: 2048 tokens
- Training Data: 155M tokens of pure Darija content
Use Cases
- Chatbots for Moroccan users
- Content generation in Darija
- Text classification for Moroccan content
- Sentiment analysis for local markets
- Customer service automation
- Educational tools for Darija speakers
Getting Started
from transformers import AutoModelForCausalLM, AutoTokenizer
# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained("atlasia/Al-Atlas-LLM")
tokenizer = AutoTokenizer.from_pretrained("atlasia/Al-Atlas-LLM")
# Example usage
text = "الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=1024,
pad_token_id=generator.tokenizer.pad_token_id or generator.tokenizer.eos_token_id,
repetition_penalty=1.5,
num_beams=8,
top_p= 0.9,
top_k= 150,
do_sample= True,
early_stopping = True,
)
response = tokenizer.decode(outputs[0])
# response:
الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز گاع على تطوير الآلات اللي قادرة تدير مهام اللي عادة خاصها ذكاء بشري، بحال التعرف على الأنماط، حل المشاكل، اتخاذ القرارات، وفهم اللغة الطبيعية. الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا.
واحد من أهم التطبيقات ديال الذكاء الاصطناعي هو فالصحة. الذكاء الاصطناعي يقدر يعاون الطبة باش يشخصو الأمراض بدقة أكبر، يأوتوماتيزيو المهام الروتينية، ويحسنو نتائج المرضى. مثلا، الخوارزميات ديال الذكاء الاصطناعي تقدر تحلل الصور الطبية باش تكتاشف العلامات الحيوية اللي ممكن ما تكونش واضحة للفحص البشري. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الأطباء باش يصاوبو خطط علاج مخصصة حسب الاحتياجات الخاصة ديال كل مريض.
بالإضافة للصحة، الذكاء الاصطناعي عندو إمكانية باش يغير الطريقة اللي كنتفاعلو بيها مع التكنولوجيا. مثلا، الذكاء الاصطناعي يقدر يعاون الشركات باش يحسنو العمليات ديالهم، يأوتوماتيزيو المهام الروتينية، ويحسنو تجربة الزبون. زيادة على هادشي، الذكاء الاصطناعي يقدر يعاون الفلاحة باش يزيدو الإنتاجية، ينقصو التكاليف، ويحسنو جودة المحاصيل.
فالختام، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. من خلال تطوير أنظمة ذكاء اصطناعي متقدمة، نقدرو نحسنو الكفاءة، نحسنو جودة الحياة، ونخلقو عالم أحسن للأجيال الجاية. مع استمرار تطور الذكاء الاصطناعي، من المرجح أنه غادي يلعب دور أكثر أهمية فتشكيل مستقبل البشرية. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا. ولكن، خاصنا نكونو واعيين بالمخاطر والتحديات المرتبطة بالذكاء الاصطناعي باش نستافدو منو بأحسن طريقة. فالنهاية، الذكاء الاصطناعي عندو إمكانية باش يغير بزاف كيفاش كنعيشو، نخدمو، ونتفاعلو مع بعضياتنا
Future Work
- Scaling to larger model sizes
- Creating evaluation benchmarks for Darija
- Expanding the training dataset
- Developing task-specific fine-tuned versions
- SFT training
- Downloads last month
- 18
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
Model tree for BounharAbdelaziz/Al-Atlas-LLM-0.5B
Spaces using BounharAbdelaziz/Al-Atlas-LLM-0.5B 2
Collection including BounharAbdelaziz/Al-Atlas-LLM-0.5B
Collection
Language Models that speaks Moroccan darija (ary)
•
9 items
•
Updated
•
1