A R I A - P R O X I M A
A Progressive, Reflexive, Optimized, Hierarchical Intelligence & Memory Architecture
ARIA-PROXIMA, büyük dil modelleri evriminin bir sonraki adımıdır. Yoğun (Llama), düz uzmanlı (Mixtral) veya salt durum-uzay (Mamba) mimarilerinin sunduğu çözümlerin ötesinde, bu paradigmaların en güçlü yönlerini birleştiren ve zayıflıklarını ortadan kaldıran, kapalı kaynaklı, birleşik bir zeka mimarisidir. Bu belge, PROXIMA
sürümünün neden sadece bir alternatif değil, aynı zamanda yapay zeka alanında yeni bir kulvar açan devrimci bir yaklaşım olduğunu özetlemektedir.
Vizyonumuz: "Daha fazla parametre" veya "daha uzun bağlam" hedeflerinin sığlığından sıyrılarak, biyolojik zekanın temel verimlilik ve adaptasyon prensiplerini silikona dökmek.
PROXIMA
, kaba kuvvet yerine zarafet, homojenlik yerine hiyerarşi, statik akış yerine dinamik kontrol sunar.
🧠 Teknik Felsefe: Adaptif, Hiyerarşik ve Hibrit Zeka
ARIA-PROXIMA
, mevcut mimarilerin karşılaştığı temel çıkmazlara yanıt olarak dört temel ilke üzerine tasarlanmıştır:
Aşamalı Bilgi Filtreleme (Progressive Information Filtering): Bilgi, modelin katmanlarından ham bir şekilde akmaz. Proxima Gated Memory Cell (PGMC) adı verilen çift kapılı bir mekanizma, her işlem birimine giren ve çıkan bilgiyi dinamik olarak filtreler. Bu, modelin her adımda neyi düşüneceğini ve düşüncesini ne kadar güncelleyeceğini öğrenmesini sağlayarak, gürültüye karşı eşsiz bir direnç ve daha odaklı bir öğrenme süreci sunar.
Hiyerarşik Uzmanlaşma (Hierarchical Specialization): Milyarlarca parametre, Mixtral gibi düz bir havuzda değil, beyindeki kortikal hiyerarşiyi taklit eden organize bir yapıda ölçeklenir. Hiyerarşik Uzmanlar Karışımı (H-MoE), bilgiyi önce doğru uzman grubuna (örneğin; mantıksal akıl yürütme, yaratıcı yazım), ardından bu grup içindeki en yetkin alt uzmana yönlendirir. Bu yapı, devasa bir kapasiteyi verimli bir şekilde kullanırken, daha yorumlanabilir ve organize bir içsel bilgi temsili oluşturur.
Hibrit Bağlam Asimilasyonu (Hybrid Context Assimilation): Model, tek bir bağlam işleme yöntemine bağlı değildir. Kısa ve yoğun ilişkiler için optimize edilmiş Reflective Attention mekanizmasını kullanırken, binlerce token ötesindeki bilgiyi karesel maliyet artışı olmadan özümsemek için özel Long-Range State Assimilator (LRSA) bloklarını devreye sokar. Bu hibrit yapı, hem yüksek çözünürlüklü anlama hem de neredeyse sınırsız bir bağlam hafızası sağlar.
Yansımalı Odaklanma (Reflective Focus): Standart dikkat mekanizması, öğrenilebilir bir "yansıma kapısı" ile evrimleşmiştir. Bu kapı, modelin dikkat ağırlıklarını anlamsal öneme göre anında modüle etmesine olanak tanır. Sonuç, gürültüyü aktif olarak bastıran ve bağlamdaki en kritik sinyallere dinamik olarak kilitlenen bir odaklanma yeteneğidir.
⚔️ Rakip Mimarilere Karşı Stratejik Üstünlük: Neden PROXIMA?
PROXIMA
, mevcut SOTA (State-of-the-Art) mimarilerin çözemediği temel sorunlara meydan okumak için tasarlanmıştır.
Meydan Okuma | Geleneksel Çözümler ve Sınırlamaları | 👑 PROXIMA'nın Üstün Çözümü |
---|---|---|
Parametre Verimliliği | Llama (Yoğun): Her token, tüm parametreleri aktive eder. Muazzam hesaplama maliyeti. Mixtral (Düz MoE): Parametreler verimli kullanılır, ancak tüm uzmanlar aynı seviyededir. Organizasyon eksikliği ve uzmanlaşma sığ kalabilir. |
Hiyerarşik MoE (H-MoE): Parametreleri hem verimli kullanır hem de mantıksal gruplara ayırır. Bir "meta-yönlendirici" önce doğru beyin lobunu (uzman grubu), sonra doğru nöronu (uzman) seçer. Bu, daha derin ve organize bir uzmanlaşma sağlar. |
Bilgi Akışı Kontrolü | Tüm Transformer'lar: Basit bir artık bağlantı (x + F(x) ), bilginin katmanlar arasında kontrolsüz ve filtrelenmemiş akışına neden olur. Bu, eğitimde kararsızlıklara ve gürültü birikimine yol açabilir. |
Proxima Gated Memory Cell (PGMC): Her katmanda bilgiyi bilinçli bir şekilde filtreler. Sadece gerekli bilgi işlenir, gereksiz olan bastırılır. Bu, daha temiz sinyal iletimi ve daha stabil bir öğrenme demektir. |
Bağlam İkilemi | Llama/Mixtral (Salt Dikkat): Karesel maliyet nedeniyle pratik bağlam penceresi sınırlıdır. Uzun metinlerde performans düşer. Mamba (Salt SSM): Lineer ölçeklenir ancak bazı görevlerde Transformer'ların yüksek çözünürlüklü yerel anlama yeteneğinden yoksun olabilir. |
Hibrit (Transformer + SSM): İki dünyanın en iyisi. Yakın plan için "mikroskop" (Reflective Attention), uzak plan için "teleskop" (LRSA) kullanır. Tek bir mimaride hem anlık hassasiyet hem de uzun vadeli hafıza sunar. |
Eğitim Stratejisi | Standart Yaklaşım: Tüm veri setini, kolay veya zor ayırt etmeksizin, defalarca tekrar etmek. Bu, hesaplama kaynaklarının verimsiz kullanılmasına ve modelin zaten bildiği şeyleri tekrar öğrenmesine neden olur. | Döngüsel Pekiştirme: İnsan öğrenmesini taklit eder. Önce genel bir "keşif" yapılır, ardından modelin en çok zorlandığı, bilgi açısından en yoğun örneklere odaklanan bir "yoğunlaştırılmış ustalık" fazı uygulanır. Verimlilik ve derinlik maksimize edilir. |
🚀 Durum & Yol Haritası
- Mevcut Sürüm:
P R O X I M A (Progressive, Reflexive, Optimized, Hierarchical Intelligence & Memory Architecture)
- Durum: ✅ Referans implementasyon ve
v6.0
eğitim stratejisi tamamlandı. - Geliştirme: ⏳ Özel veri kümeleri üzerinde aktif ve kapalı devre eğitim süreci devam ediyor.
- Hedef Tarih:
2026-Q1
💬 Topluluk & İletişim
Bu proje kapalı kaynak kodlu olsa da, yapay zeka topluluğu ile fikir alışverişinde bulunmaktan ve gelecekteki potansiyel işbirliklerini değerlendirmekten heyecan duyarız.
- 👀 Gelişmeleri Takip Etmek İçin: Bu depoyu
Watch
butonuna tıklayarak izleyebilirsiniz. - 🤝 İşbirliği ve Erişim Talepleri İçin: Lütfen
[email protected]
adresinden bizimle iletişime geçin. - 🌐 Topluluk: Yakında duyurulacak Discord sunucumuz için takipte kalın.
📜 Lisans
Bu projenin mimarisi, yazılımı ve tüm materyalleri, ticari olmayan, yalnızca değerlendirme amaçlı kullanımı düzenleyen özel ve tescilli bir lisans altında korunmaktadır. Lisansın tam metni, projenin temel prensiplerini ve kullanım kısıtlamalarını detaylandırmaktadır.