File size: 1,208 Bytes
7b57dd5
 
 
 
9e3e0f4
 
7b57dd5
 
 
 
 
 
 
 
 
 
 
b833019
7b57dd5
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# RWKV-x060-Japanese-2.0B

## RWKV Architecture "Finch" based 2.0B Parameters Model.

トレーニング中です。実験なので性能評価はしていません。

   - "HANAKO"
   - Based on RWKV6-World v2.1 1.6b, we have applied a layer expansion approach and tuned it as a 32-layer, 2048-dimensional model.
   - I added 8 layers to the 24-layer model, froze layers 0 to 23, and continued pre-training layers 24 to 31, along with the Embedding and Head layers, using a Japanese corpus.
   - Since it is an experimental approach, it may exhibit unpredictable behavior.
   - RWKV6-World v2.1 1.6bをベースに、レイヤー拡張アプローチを適用し、32層2048次元モデルとしてチューニングしました。
   - 24層モデルに8層を追加し、0から23レイヤーまでを凍結し、24から31、Emb、Head層を日本語コーパスで継続事前学習を行いました。
   - 実験的アプローチなので、予測不可能な挙動をする可能性があります

## Training
   - using RWKV-LM-LISA Anarchy mode, Continuous Pre-traning
   - https://github.com/OpenMOSE/RWKV-LM-LISA
   - After 20epoch Changed LISA Mode 8layer/step to 4layer/step 

2024 OpenMOSE