File size: 2,126 Bytes

2495eb9
 
 
 
 
a753cda
2495eb9
 
 
 
 
 
b54dc8b
 
 
2495eb9
6ce6e0f
 
b54dc8b
 
6ce6e0f
 
8f2b253
 
6ce6e0f
 
b54dc8b
 
124dd5a
 
 
 
6ce6e0f
 
 
 
 
 
b54dc8b
6ce6e0f
2495eb9
 
8f2b253

---
language:
- ja
base_model:
- sbintuitions/modernbert-ja-130m
license: cc-by-nc-4.0
---

# ModernBERT_Japanese_MT_Bench_test

これはテスト的なモデルです。

[Nejumi LLMリーダーボード3](https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3--Vmlldzo3OTg2NjM2?accessToken=wpnwc9whr96pxm40dfe4k3xq513f9jc4yhj7q6pnvj4jtayoefbc77qhzbsrztgz)で公開されているJapanese MT Benchのroleplay, humanities, writingの結果を勝手にModernBERTに学習させたモデルです。

今後、自力でJapanese MT Benchをし直して使えるモデルにしていきたい。

## トレーニングの結果

トレーニングコードはChatGPTに書いてもらいました。自力で設計できるようになりたい…。

[training用のノートブック](https://huggingface.co/kurogane/ModernBERT_Japanese_MT_Bench_test/blob/main/train_jmtb_test_v6%20(%E3%82%B3%E3%83%94%E3%83%BC).ipynb)でfine tuningしました。

Japanese MT Benchの0~10の結果を1/10して、0~1.0の回帰タスクとして学習させています。

![training_log](https://huggingface.co/kurogane/ModernBERT_Japanese_MT_Bench_test/resolve/main/log_epochs.png)

やりすぎなのかもしれないし、どう改善したらいいんだろうか？

![](https://huggingface.co/kurogane/ModernBERT_Japanese_MT_Bench_test/resolve/main/dataset_distribution.png)

データセットの分布を見る限り、９の出力に偏りが多いので推測結果が高めに偏ってるのかもしれません。

## testデータとの差

[test用のnotebook](https://huggingface.co/kurogane/ModernBERT_Japanese_MT_Bench_test/blob/main/modernbert_run_test.ipynb)のコードで出力しました。

![test_check](https://huggingface.co/kurogane/ModernBERT_Japanese_MT_Bench_test/resolve/main/test_check.png)

予測できてる雰囲気だけど、低いやつをだいぶ予測ミスしてるから使い物にはならなそう。

## License

各モデルの継承ライセンスに従う必要があるので、基本的に使用不可と考えてください。

そのため、CC-BY-NC-4.0とします。