|
--- |
|
license: apache-2.0 |
|
language: |
|
- ja |
|
--- |
|
# RWKV-x060-Japanese-11.2B |
|
|
|
## RWKV Architecture "Finch" based 11.2B Parameters Model. |
|
|
|
継続トレーニング中です。実験なので性能評価はしていません。 |
|
|
|
- "YORINOBU" |
|
- Based on RWKV6-World v2.1 7b 53% Model, we have applied a layer expansion approach and tuned it as a 48-layer, 4096-dimensional model. |
|
- I added 8 layers to the 40-layer model, froze layers 0 to 39, and continued pre-training layers 40 to 47, along with the Embedding and Head layers, using a Japanese corpus. |
|
- Since it is an experimental approach, it may exhibit unpredictable behavior. |
|
- RWKV6-World v2.1 7b 53% Modelをベースに、レイヤー拡張アプローチを適用し、48層4096次元モデルとしてチューニングしました。 |
|
- 40層モデルに8層を追加し、0から39レイヤーまでを凍結し、40から47、Emb、Head層を日本語コーパスで継続事前学習を行いました。 |
|
- 実験的アプローチなので、予測不可能な挙動をする可能性があります |
|
|
|
## Training |
|
- using RWKV-LM-LISA Anarchy mode, Continuous Pre-traning |
|
- https://github.com/OpenMOSE/RWKV-LM-LISA |
|
- Single A6000 LISA 4layer training each step |
|
|
|
2024 OpenMOSE |