Update README.md
Browse files
README.md
CHANGED
@@ -16,142 +16,72 @@ tags:
|
|
16 |
---
|
17 |
|
18 |
<div align="center">
|
19 |
-
<h1>A R I A -
|
20 |
-
<h3>A
|
21 |
-
<a href="mailto:[email protected]"><img alt="Contact: Email" src="https://img.shields.io/badge
|
|
|
|
|
|
|
22 |
</div>
|
23 |
|
24 |
-
**ARIA-HELIOS**, modern büyük dil modellerinin (LLM) karşılaştığı verimlilik, ölçeklenebilirlik ve bağlam uzunluğu zorluklarına çözüm olarak tasarlanmış, kapalı kaynaklı, son teknoloji bir transformer mimarisidir. Bu model kartı, mimarinin teknik dokümantasyonunu ve tasarım felsefesini özetlemektedir.
|
25 |
-
|
26 |
-
<a name="türkçe-versiyon"></a>
|
27 |
-
## 🇹🇷 Türkçe Versiyon
|
28 |
-
|
29 |
-
> **Not:** Bu depo, `ARIA-HELIOS` mimarisinin sağlanan Python kaynak koduyla uyumlu teknik dökümantasyonunu sunmaktadır. Bu belge, modelin felsefesini, temel bileşenlerini ve tasarım kararlarını detaylandırmak amacıyla oluşturulmuştur.
|
30 |
-
|
31 |
-
### 🧠 Teknik Felsefe: Otonom, Verimli ve Esnek Zeka
|
32 |
-
|
33 |
-
ARIA-Helios, günümüzün büyük dil modellerinin karşılaştığı verimlilik ve ölçeklenebilirlik zorluklarına yanıt olarak tasarlanmış, son teknoloji bir mimaridir. Geliştirmesi, üç temel ve birbiriyle sinerji içinde çalışan ilkeye dayanmaktadır:
|
34 |
-
|
35 |
-
1. **Kendi Kendini Düzenleyen Bilgi Akışı (Self-Regulating Information Flow):** Standart artık bağlantıları yerine, öğrenilebilir **Kapılı Bellek Birimleri (Gated Memory Units - GMU)** kullanılır. Bu kapılar modelin hangi bilgiyi koruyacağına ve hangisini entegre edeceğine dinamik olarak karar vermesini sağlayarak daha stabil bir eğitim ve daha zengin bir özellik öğrenimi sunar.
|
36 |
-
|
37 |
-
2. **Dinamik Bağlam Esnekliği (Dynamic Context Flexibility):** Modelin anlama kapasitesi, eğitim penceresiyle sınırlı olmamalıdır. **YaRN (Yet another RoPE extensioN method)**'dan ilham alan ölçeklendirme, modelin yeniden eğitime gerek kalmadan, eğitimde gördüğünün çok ötesindeki dizi uzunluklarını etkili bir şekilde işlemesine olanak tanır.
|
38 |
-
|
39 |
-
3. **Maksimum Donanım Verimliliği (Maximum Hardware Efficiency):** Mimarinin her katmanı, modern hızlandırıcılardan (GPU/TPU) maksimum verim almak ve VRAM kullanımını en aza indirmek için tasarlanmıştır. **Gradient Checkpointing, CPU Offloading** ve **FP8 Activation Storage** gibi tekniklerin entegre kullanımı, devasa modellerin daha erişilebilir donanımlarla eğitilmesini mümkün kılar.
|
40 |
-
|
41 |
-
### 🛠️ Mimari Planı ve Teknik Bileşenler
|
42 |
-
|
43 |
-
ARIA-Helios'un gücü, birbiriyle uyum içinde çalışan modern ve verimli bileşenlerin birleşiminden gelir.
|
44 |
-
|
45 |
-
* #### Gated Memory Units (GMU)
|
46 |
-
* **Ne yapar?** Standart artık bağlantıların yerini alır.
|
47 |
-
* **Nasıl çalışır?** Girdi ve katman dönüşümünü öğrenilebilir bir sigmoid kapısı ile dinamik olarak ağırlıklandırır. Eksi değer ile başlatılan kapılar, modelin önce stabil kimlik bağlantılarını öğrenmesini sağlar.
|
48 |
-
|
49 |
-
* #### Dynamic Context Scaling (YaRN-inspired)
|
50 |
-
* **Ne yapar?** Modelin eğitimde gördüğünden daha uzun metinleri işlemesini sağlar.
|
51 |
-
* **Nasıl çalışır?** RoPE pozisyonel gömmelerinin frekanslarını ve sorgu (query) vektörlerinin genliğini, bağlam genişletme faktörüne göre yeniden ölçekler.
|
52 |
-
|
53 |
-
* #### Grouped-Query Attention (GQA)
|
54 |
-
* **Ne yapar?** Çıkarım hızını artırır ve bellek bant genişliği ihtiyacını azaltır.
|
55 |
-
* **Nasıl çalışır?** Tam sayıda Sorgu (Query) başlığına karşılık daha az sayıda Anahtar (Key) ve Değer (Value) başlığı kullanarak KV-Cache boyutunu dramatik şekilde küçültür.
|
56 |
-
|
57 |
-
* #### Entegre Bellek ve Hesaplama Optimizasyonları
|
58 |
-
* **Ne yapar?** Sınırlı VRAM ile çok büyük modellerin eğitilmesini sağlar.
|
59 |
-
* **Nasıl çalışır?** `Gradient Checkpointing`, `CPU Offload` ve `FP8 Activation Storage` gibi tekniklerin sinerjik kullanımıyla GPU belleğini maksimum verimlilikle yönetir.
|
60 |
-
|
61 |
-
### ✨ Temel Farklılıklar ve Geliştirmeler
|
62 |
-
|
63 |
-
| Özellik | Standart Transformer Yaklaşımı | ✅ ARIA-HELIOS Yaklaşımı |
|
64 |
-
| ------------------------ | ----------------------------------------------- | ---------------------------------------------------------------------------------- |
|
65 |
-
| **Bilgi Akışı** | Statik Artık Bağlantı . | **Dinamik GMU** ile öğrenilebilir bilgi akış kontrolü. |
|
66 |
-
| **Bağlam Penceresi** | Eğitildiği uzunlukla (örn. 4K token) sınırlıdır. | **Dinamik Ölçekleme (YaRN)** ile çıkarımda bağlamı yeniden eğitime gerek kalmadan genişletebilir. |
|
67 |
-
| **Dikkat Mekanizması** | Multi-Head Attention (MHA). | **Grouped-Query Attention (GQA)** ile daha hızlı çıkarım ve düşük KV-cache boyutu. |
|
68 |
-
| **Donanım Verimliliği** | Yüksek VRAM tüketimi, pahalı donanım gerektirir. | **Checkpointing, Offload, FP8 Aktivasyonlar** ile entegre ve sinerjik bellek optimizasyonu. |
|
69 |
-
| **Çıkarım Hızı** | Standart PyTorch implementasyonları. | PyTorch 2.0+ **SDPA** (FlashAttention gibi) backend'lerini otomatik kullanarak maksimum hız. |
|
70 |
-
|
71 |
---
|
72 |
-
<br/>
|
73 |
-
|
74 |
-
<a name="english-version"></a>
|
75 |
-
## 🇬🇧 English Version
|
76 |
-
|
77 |
-
> **Note:** This repository provides the technical documentation for the `ARIA-HELIOS` architecture, consistent with the provided Python source code. This document is intended to detail the model's philosophy, core components, and design decisions.
|
78 |
|
79 |
-
|
80 |
|
81 |
-
**
|
82 |
|
83 |
-
|
84 |
-
## 🇬🇧 English Version
|
85 |
|
86 |
-
|
87 |
|
88 |
-
|
89 |
|
90 |
-
|
91 |
|
92 |
-
|
93 |
|
94 |
-
|
95 |
|
96 |
-
|
97 |
-
|
98 |
-
### 🛠️ Architecture Blueprint and Technical Components
|
99 |
-
|
100 |
-
The power of ARIA-Helios comes from the combination of modern and efficient components working in harmony.
|
101 |
-
|
102 |
-
* #### Gated Memory Units (GMU)
|
103 |
-
* **What it does:** Replaces standard residual connections.
|
104 |
-
* **How it works:** It dynamically weights the input and the layer transformation with a learnable sigmoid gate. The gates are initialized with a negative bias, encouraging the model to first learn stable identity connections.
|
105 |
-
|
106 |
-
* #### Dynamic Context Scaling (YaRN-inspired)
|
107 |
-
* **What it does:** Enables the model to process texts longer than those seen during training.
|
108 |
-
* **How it works:** It rescales the frequencies of RoPE positional embeddings and the magnitude of query vectors according to the context extension factor.
|
109 |
-
|
110 |
-
* #### Grouped-Query Attention (GQA)
|
111 |
-
* **What it does:** Increases inference speed and reduces memory bandwidth requirements.
|
112 |
-
* **How it works:** It dramatically reduces the KV-Cache size by using fewer Key (K) and Value (V) heads than the full number of Query (Q) heads.
|
113 |
|
114 |
-
|
115 |
-
* **What it does:** Enables the training of very large models with limited VRAM.
|
116 |
-
* **How it works:** It manages GPU memory with maximum efficiency through the synergistic use of techniques like `Gradient Checkpointing`, `CPU Offload`, and `FP8 Activation Storage`.
|
117 |
|
118 |
-
|
119 |
|
120 |
-
|
|
121 |
-
|
|
122 |
-
| **
|
123 |
-
| **
|
124 |
-
| **
|
125 |
-
| **
|
126 |
-
| **Inference Speed** | Standard PyTorch implementations. | Maximum speed by automatically using PyTorch 2.0+ **SDPA** backends (like FlashAttention). |
|
127 |
|
128 |
---
|
129 |
|
130 |
-
## 🚀
|
131 |
|
132 |
-
* **
|
133 |
-
* **
|
134 |
-
* **
|
135 |
-
* **
|
136 |
|
137 |
-
## 💬
|
138 |
|
139 |
-
|
140 |
|
141 |
-
* **👀
|
142 |
-
* **🤝
|
143 |
-
* **🌐
|
144 |
|
145 |
---
|
146 |
|
147 |
-
## 📜
|
148 |
-
|
149 |
-
> Copyright (c)
|
150 |
-
>
|
151 |
-
>
|
152 |
-
>
|
153 |
-
>
|
154 |
-
>
|
155 |
-
>
|
156 |
-
>
|
157 |
-
>
|
|
|
16 |
---
|
17 |
|
18 |
<div align="center">
|
19 |
+
<h1 style="font-size: 3em; font-weight: bold; letter-spacing: 5px; text-shadow: 2px 2px 8px #666;">A R I A - P R O X I M A</h1>
|
20 |
+
<h3 style="font-style: italic; color: #555;">A Progressive, Reflexive, Optimized, Hierarchical Intelligence & Memory Architecture</h3>
|
21 |
+
<a href="mailto:[email protected]"><img alt="Contact: Email" src="https://img.shields.io/badge/İletişim-E--posta-blue?style=flat-square&logo=gmail&logoColor=white"/></a>
|
22 |
+
<a href="#"><img alt="Status" src="https://img.shields.io/badge/Durum-Aktif%20Geliştirme-green?style=flat-square&logo=github&logoColor=white"/></a>
|
23 |
+
<a href="#"><img alt="License" src="https://img.shields.io/badge/Lisans-Kapalı%20Kaynak-red?style=flat-square"/></a>
|
24 |
+
<a href="#"><img alt="Version" src="https://img.shields.io/badge/Sürüm-PROXIMA%20(Rev%204)-purple?style=flat-square"/></a>
|
25 |
</div>
|
26 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
27 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
28 |
|
29 |
+
**ARIA-PROXIMA**, büyük dil modelleri evriminin bir sonraki adımıdır. Yoğun (Llama), düz uzmanlı (Mixtral) veya salt durum-uzay (Mamba) mimarilerinin sunduğu çözümlerin ötesinde, bu paradigmaların en güçlü yönlerini birleştiren ve zayıflıklarını ortadan kaldıran, kapalı kaynaklı, **birleşik bir zeka mimarisidir.** Bu belge, `PROXIMA` sürümünün neden sadece bir alternatif değil, aynı zamanda yapay zeka alanında yeni bir kulvar açan devrimci bir yaklaşım olduğunu özetlemektedir.
|
30 |
|
31 |
+
> **Vizyonumuz:** "Daha fazla parametre" veya "daha uzun bağlam" hedeflerinin sığlığından sıyrılarak, biyolojik zekanın temel verimlilik ve adaptasyon prensiplerini silikona dökmek. `PROXIMA`, kaba kuvvet yerine zarafet, homojenlik yerine hiyerarşi, statik akış yerine dinamik kontrol sunar.
|
32 |
|
33 |
+
## 🧠 Teknik Felsefe: Adaptif, Hiyerarşik ve Hibrit Zeka
|
|
|
34 |
|
35 |
+
`ARIA-PROXIMA`, mevcut mimarilerin karşılaştığı temel çıkmazlara yanıt olarak dört temel ilke üzerine tasarlanmıştır:
|
36 |
|
37 |
+
1. **Aşamalı Bilgi Filtreleme (Progressive Information Filtering):** Bilgi, modelin katmanlarından ham bir şekilde akmaz. **Proxima Gated Memory Cell (PGMC)** adı verilen çift kapılı bir mekanizma, her işlem birimine giren ve çıkan bilgiyi dinamik olarak filtreler. Bu, modelin her adımda *neyi düşüneceğini* ve *düşüncesini ne kadar güncelleyeceğini* öğrenmesini sağlayarak, gürültüye karşı eşsiz bir direnç ve daha odaklı bir öğrenme süreci sunar.
|
38 |
|
39 |
+
2. **Hiyerarşik Uzmanlaşma (Hierarchical Specialization):** Milyarlarca parametre, Mixtral gibi düz bir havuzda değil, beyindeki kortikal hiyerarşiyi taklit eden organize bir yapıda ölçeklenir. **Hiyerarşik Uzmanlar Karışımı (H-MoE)**, bilgiyi önce doğru uzman grubuna (örneğin; mantıksal akıl yürütme, yaratıcı yazım), ardından bu grup içindeki en yetkin alt uzmana yönlendirir. Bu yapı, devasa bir kapasiteyi verimli bir şekilde kullanırken, daha yorumlanabilir ve organize bir içsel bilgi temsili oluşturur.
|
40 |
|
41 |
+
3. **Hibrit Bağlam Asimilasyonu (Hybrid Context Assimilation):** Model, tek bir bağlam işleme yöntemine bağlı değildir. Kısa ve yoğun ilişkiler için optimize edilmiş **Reflective Attention** mekanizmasını kullanırken, binlerce token ötesindeki bilgiyi karesel maliyet artışı olmadan özümsemek için özel **Long-Range State Assimilator (LRSA)** bloklarını devreye sokar. Bu hibrit yapı, hem yüksek çözünürlüklü anlama hem de neredeyse sınırsız bir bağlam hafızası sağlar.
|
42 |
|
43 |
+
4. **Yansımalı Odaklanma (Reflective Focus):** Standart dikkat mekanizması, öğrenilebilir bir "yansıma kapısı" ile evrimleşmiştir. Bu kapı, modelin dikkat ağırlıklarını anlamsal öneme göre anında modüle etmesine olanak tanır. Sonuç, gürültüyü aktif olarak bastıran ve bağlamdaki en kritik sinyallere dinamik olarak kilitlenen bir odaklanma yeteneğidir.
|
44 |
|
45 |
+
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
46 |
|
47 |
+
## ⚔️ Rakip Mimarilere Karşı Stratejik Üstünlük: Neden PROXIMA?
|
|
|
|
|
48 |
|
49 |
+
`PROXIMA`, mevcut SOTA (State-of-the-Art) mimarilerin çözemediği temel sorunlara meydan okumak için tasarlanmıştır.
|
50 |
|
51 |
+
| Meydan Okuma | Geleneksel Çözümler ve Sınırlamaları | 👑 PROXIMA'nın Üstün Çözümü |
|
52 |
+
| ------------------------- | ----------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
53 |
+
| **Parametre Verimliliği** | **Llama (Yoğun):** Her token, tüm parametreleri aktive eder. Muazzam hesaplama maliyeti. <br/> **Mixtral (Düz MoE):** Parametreler verimli kullanılır, ancak tüm uzmanlar aynı seviyededir. Organizasyon eksikliği ve uzmanlaşma sığ kalabilir. | **Hiyerarşik MoE (H-MoE):** Parametreleri hem verimli kullanır hem de mantıksal gruplara ayırır. Bir "meta-yönlendirici" önce doğru beyin lobunu (uzman grubu), sonra doğru nöronu (uzman) seçer. Bu, daha derin ve organize bir uzmanlaşma sağlar. |
|
54 |
+
| **Bilgi Akışı Kontrolü** | **Tüm Transformer'lar:** Basit bir artık bağlantı (`x + F(x)`), bilginin katmanlar arasında kontrolsüz ve filtrelenmemiş akışına neden olur. Bu, eğitimde kararsızlıklara ve gürültü birikimine yol açabilir. | **Proxima Gated Memory Cell (PGMC):** Her katmanda bilgiyi bilinçli bir şekilde filtreler. Sadece gerekli bilgi işlenir, gereksiz olan bastırılır. Bu, daha temiz sinyal iletimi ve daha stabil bir öğrenme demektir. |
|
55 |
+
| **Bağlam İkilemi** | **Llama/Mixtral (Salt Dikkat):** Karesel maliyet nedeniyle pratik bağlam penceresi sınırlıdır. Uzun metinlerde performans düşer. <br/> **Mamba (Salt SSM):** Lineer ölçeklenir ancak bazı görevlerde Transformer'ların yüksek çözünürlüklü yerel anlama yeteneğinden yoksun olabilir. | **Hibrit (Transformer + SSM):** İki dünyanın en iyisi. Yakın plan için "mikroskop" (Reflective Attention), uzak plan için "teleskop" (LRSA) kullanır. Tek bir mimaride hem anlık hassasiyet hem de uzun vadeli hafıza sunar. |
|
56 |
+
| **Eğitim Stratejisi** | **Standart Yaklaşım:** Tüm veri setini, kolay veya zor ayırt etmeksizin, defalarca tekrar etmek. Bu, hesaplama kaynaklarının verimsiz kullanılmasına ve modelin zaten bildiği şeyleri tekrar öğrenmesine neden olur. | **Döngüsel Pekiştirme:** İnsan öğrenmesini taklit eder. Önce genel bir "keşif" yapılır, ardından modelin en çok zorlandığı, bilgi açısından en yoğun örneklere odaklanan bir "yoğunlaştırılmış ustalık" fazı uygulanır. Verimlilik ve derinlik maksimize edilir. |
|
|
|
57 |
|
58 |
---
|
59 |
|
60 |
+
## 🚀 Durum & Yol Haritası
|
61 |
|
62 |
+
* **Mevcut Sürüm:** `P R O X I M A (Progressive, Reflexive, Optimized, Hierarchical Intelligence & Memory Architecture)`
|
63 |
+
* **Durum:** ✅ Referans implementasyon ve `v6.0` eğitim stratejisi tamamlandı.
|
64 |
+
* **Geliştirme:** ⏳ Özel veri kümeleri üzerinde aktif ve kapalı devre eğitim süreci devam ediyor.
|
65 |
+
* **Hedef Tarih:** `2026-Q4`
|
66 |
|
67 |
+
## 💬 Topluluk & İletişim
|
68 |
|
69 |
+
Bu proje kapalı kaynak kodlu olsa da, yapay zeka topluluğu ile fikir alışverişinde bulunmaktan ve gelecekteki potansiyel işbirliklerini değerlendirmekten heyecan duyarız.
|
70 |
|
71 |
+
* **👀 Gelişmeleri Takip Etmek İçin:** Bu depoyu `Watch` butonuna tıklayarak izleyebilirsiniz.
|
72 |
+
* **🤝 İşbirliği ve Erişim Talepleri İçin:** Lütfen [`[email protected]`](mailto:[email protected]) adresinden bizimle iletişime geçin.
|
73 |
+
* **🌐 Topluluk:** Yakında duyurulacak Discord sunucumuz için takipte kalın.
|
74 |
|
75 |
---
|
76 |
|
77 |
+
## 📜 Lisans
|
78 |
+
|
79 |
+
> Copyright (c) 2026, ARIA Development Team
|
80 |
+
>
|
81 |
+
> Tüm hakları saklıdır.
|
82 |
+
>
|
83 |
+
> Bu depoda yer alan yazılım, dokümantasyon, mimari tanımlamalar ve diğer tüm içerikler dahil ancak bunlarla sınırlı olmamak üzere tüm materyaller, ARIA Geliştirme Ekibi'nin tescilli mülkiyetindedir.
|
84 |
+
>
|
85 |
+
> ARIA Geliştirme Ekibi'nin önceden yazılı izni olmaksızın, bu materyallerin hiçbir kısmı kopyalanamaz, çoğaltılamaz, değiştirilemez, dağıtılamaz, tersine mühendislik işlemine tabi tutulamaz veya herhangi bir biçimde veya yöntemle iletilemez.
|
86 |
+
>
|
87 |
+
> Bu materyallere erişim yalnızca bilgilendirme ve değerlendirme amaçlı olup, herhangi bir kullanım, lisans veya mülkiyet hakkı vermez.
|