Magibu-64k-Qwen-Tokenizer (Optimized for Turkish)
Bu depo, Türkçe dili için devasa metin veritabanları (Cosmos, TDK vd.) üzerinden sık kullanılan kelimelerle zenginleştirilmiş özel bir alt-kelime (BPE) Tokenizer ve Processor modelidir. Orijinal olarak Qwen/Qwen3.5-27B tokenizer ağırlıklarını (ve birleştirme kurallarını) temel alan bu model, Hugging Face ve Llama.cpp (SentencePiece) tam donanımına sahiptir.
Genişletilmiş token kapasitesi (131k) sayesinde aynı Türkçe cümlenin çok daha az token harcayarak ifade edilmesine olanak tanır ve modelinizin bağlam penceresini (Context Window) dramatik ölçüde rahatlatır.
Not: Özel görsel, padding ve special tokenleri birebir koruyarak Qwen3VLProcessor ile tam yapısal uyumluluğunu muhafaza eder.
📈 Performans Göstergeleri
Tokenizer metriklerimiz, geniş kapsamlı saf Türkçe metin analizlerinden derlenmiştir:
- Toplam Vocabulary Size:
131,072Tokens - Ana Model / Teacher Bağlantısı: Yeni vokabülerin %66.56'sı (87,238 token) doğrudan orijinal Qwen tabanından gelmektedir. (Distilasyon veya fine-tune sırasında devredilecek embedding ağırlıkları bu korunan havuzdan çekilir.)
- Yeni Öğrenci (Özel) Türkçe Tokenleri: %33.44 (43,834 token) - Tamamıyla Türkçe metinlerde en çok tekrarlanan yapılar. (Örn:
Ġmerhaba,olarak) - Sıkıştırma Oranı (Compression Rate):
Bilkent WritingsveTDK Sözlükderlemleri üzerindeki ~20.000 metin testinde Qwen'in12.91Mtokene ihtiyaç duyduğu Türkçe veri kümeleri optimize tokenizer ile9.83Mtokene inmiştir. Bu %23.8'lik net bir token kullanım azalmasına denk gelir! (Metin başına decode sırasında sıfır kayıp).
🧰 Yapısal Değişim ve Methodoloji
Tokenizer genişletilirken yalnızca popüler Türkçe kelimeler birleştirilmemiştir. Öğrenci (Gemma vb.) modelden dahil edilen ▁ space haritaları arka planda Qwen'in GPT-2 utf-8 Byte Encoding (Ġ) formatına standartlaştırılarak dönüştürülmüş ve ilgili BPE Merges talimatları sisteme katılmıştır.
Bu sayede eklenen kelimeler 'ölü' veya 'ulaşılamaz' vocabulary nesneleri olarak kalmaz; subword parçalarına veya harflere bölünmeden hızlı tokenleştirilen tam nesneler halinde çekilirler.
🚀 Kullanım
Bu dizin bir Tokenizer yapılandırması olduğu kadar içerisinde chat_template.jinja ve video_preprocessor_config.json de barındıran eksiksiz bir "Processor" modelidir.
Modeli saf metin tokenizer'ı veya VLM tokenizer'ı olarak Hugging Face kütüphanesinden entegre edebilirsiniz:
from transformers import AutoTokenizer, Qwen2VLProcessor
# Sadece metin analizi veya LLM kullanımı için
tokenizer = AutoTokenizer.from_pretrained("bu-dizinin-yolu/new_qwen_tokenizer")
encoded = tokenizer.encode("Merhaba nasılsınız? Hello world!")
print(encoded)
print(tokenizer.decode(encoded))
# Çok modlu (Multimodal) VLM projelerinde kullanım (Vision-Language)
processor = Qwen2VLProcessor.from_pretrained("bu-dizinin-yolu/new_qwen_tokenizer")
📜 Çıktı Dosyaları İçeriği
tokenizer.json— Hugging Face BPE konfigürasyonu, vocab ağırlıkları ve tüm merges kuralları entegre edilmiş dosya.tokenizer.model— Llama.cpp ve türevleri ile kullanılacak SentencePiece formatında C++ motor dosyası. Byte-fallback yapısı öğretmen modeldeki gibi dizayn edilmiştir.tokenizer_config.json,special_tokens_map.json— Özel başlangıç/bitiş tokenleri haritalamaları.
Eğitim veya veri sentezi süreçlerinizde başarılar dileriz!