c14kevincardenas commited on 22 days ago

Commit

33b0a22

verified ·

1 Parent(s): 567e3e4

Training in progress, epoch 1

Browse files

Files changed (33) hide show

README.md +25 -28
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +2 -2
runs/Feb19_02-57-14_galactica.ad.cirange.net/events.out.tfevents.1739933839.galactica.ad.cirange.net.2734067.0 +3 -0
runs/Feb19_03-54-03_galactica.ad.cirange.net/events.out.tfevents.1739937248.galactica.ad.cirange.net.2752720.0 +3 -0
runs/Feb19_03-54-03_galactica.ad.cirange.net/events.out.tfevents.1739940943.galactica.ad.cirange.net.2752720.1 +3 -0
runs/Feb19_04-55-54_galactica.ad.cirange.net/events.out.tfevents.1739940960.galactica.ad.cirange.net.2771453.0 +3 -0
runs/Feb19_04-55-54_galactica.ad.cirange.net/events.out.tfevents.1739944602.galactica.ad.cirange.net.2771453.1 +3 -0
runs/Feb19_05-56-53_galactica.ad.cirange.net/events.out.tfevents.1739944619.galactica.ad.cirange.net.2790190.0 +3 -0
runs/Feb19_05-56-53_galactica.ad.cirange.net/events.out.tfevents.1739948266.galactica.ad.cirange.net.2790190.1 +3 -0
runs/Feb19_06-57-57_galactica.ad.cirange.net/events.out.tfevents.1739948282.galactica.ad.cirange.net.2819429.0 +3 -0
runs/Feb19_06-57-57_galactica.ad.cirange.net/events.out.tfevents.1739951967.galactica.ad.cirange.net.2819429.1 +3 -0
runs/Feb19_07-59-38_galactica.ad.cirange.net/events.out.tfevents.1739951984.galactica.ad.cirange.net.2838155.0 +3 -0
runs/Feb19_07-59-38_galactica.ad.cirange.net/events.out.tfevents.1739955603.galactica.ad.cirange.net.2838155.1 +3 -0
runs/Feb19_09-00-14_galactica.ad.cirange.net/events.out.tfevents.1739955625.galactica.ad.cirange.net.2856934.0 +3 -0
runs/Feb19_09-00-14_galactica.ad.cirange.net/events.out.tfevents.1739959252.galactica.ad.cirange.net.2856934.1 +3 -0
runs/Feb19_10-01-04_galactica.ad.cirange.net/events.out.tfevents.1739959269.galactica.ad.cirange.net.2875412.0 +3 -0
runs/Feb19_10-01-04_galactica.ad.cirange.net/events.out.tfevents.1739962891.galactica.ad.cirange.net.2875412.1 +3 -0
runs/Feb19_11-01-42_galactica.ad.cirange.net/events.out.tfevents.1739962907.galactica.ad.cirange.net.2894098.0 +3 -0
runs/Feb19_11-01-42_galactica.ad.cirange.net/events.out.tfevents.1739966536.galactica.ad.cirange.net.2894098.1 +3 -0
runs/Feb19_12-02-27_galactica.ad.cirange.net/events.out.tfevents.1739966552.galactica.ad.cirange.net.2912705.0 +3 -0
runs/Feb19_12-02-27_galactica.ad.cirange.net/events.out.tfevents.1739970145.galactica.ad.cirange.net.2912705.1 +3 -0
runs/Feb19_13-02-36_galactica.ad.cirange.net/events.out.tfevents.1739970161.galactica.ad.cirange.net.2931857.0 +3 -0
runs/Feb19_13-02-36_galactica.ad.cirange.net/events.out.tfevents.1739973785.galactica.ad.cirange.net.2931857.1 +3 -0
runs/Feb19_14-03-16_galactica.ad.cirange.net/events.out.tfevents.1739973802.galactica.ad.cirange.net.2950524.0 +3 -0
runs/Feb19_14-03-16_galactica.ad.cirange.net/events.out.tfevents.1739977526.galactica.ad.cirange.net.2950524.1 +3 -0
runs/Feb19_15-05-38_galactica.ad.cirange.net/events.out.tfevents.1739977543.galactica.ad.cirange.net.2969069.0 +3 -0
runs/Feb19_16-06-47_galactica.ad.cirange.net/events.out.tfevents.1739981213.galactica.ad.cirange.net.2987544.0 +3 -0
runs/Feb19_16-14-54_galactica.ad.cirange.net/events.out.tfevents.1739981699.galactica.ad.cirange.net.2991274.0 +3 -0
train_results.json +4 -4
trainer_state.json +244 -244
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -3,24 +3,21 @@ library_name: transformers
 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
-- image-regression
-- human-movement
-- vision
 - generated_from_trainer
 model-index:
-- name: limbxy_pose_2heads_1layers_8embeddim
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# limbxy_pose_2heads_1layers_8embeddim
-This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on the c14kevincardenas/beta_caller_284_limbxy_pose dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1391
-- Rmse: 0.3729
 ## Model description
@@ -53,26 +50,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rmse   |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.214         | 1.0   | 89   | 0.1933          | 0.4396 |
-| 0.161         | 2.0   | 178  | 0.1474          | 0.3839 |
-| 0.1634        | 3.0   | 267  | 0.1541          | 0.3925 |
-| 0.1547        | 4.0   | 356  | 0.1495          | 0.3867 |
-| 0.1674        | 5.0   | 445  | 0.1680          | 0.4098 |
-| 0.1644        | 6.0   | 534  | 0.1473          | 0.3838 |
-| 0.1459        | 7.0   | 623  | 0.1405          | 0.3748 |
-| 0.1544        | 8.0   | 712  | 0.1514          | 0.3891 |
-| 0.1531        | 9.0   | 801  | 0.1419          | 0.3767 |
-| 0.1468        | 10.0  | 890  | 0.1422          | 0.3770 |
-| 0.143         | 11.0  | 979  | 0.1447          | 0.3804 |
-| 0.1467        | 12.0  | 1068 | 0.1597          | 0.3996 |
-| 0.149         | 13.0  | 1157 | 0.1394          | 0.3733 |
-| 0.139         | 14.0  | 1246 | 0.1412          | 0.3758 |
-| 0.1433        | 15.0  | 1335 | 0.1397          | 0.3738 |
-| 0.1426        | 16.0  | 1424 | 0.1396          | 0.3736 |
-| 0.1403        | 17.0  | 1513 | 0.1396          | 0.3737 |
-| 0.1393        | 18.0  | 1602 | 0.1393          | 0.3733 |
-| 0.1426        | 19.0  | 1691 | 0.1391          | 0.3730 |
-| 0.1387        | 20.0  | 1780 | 0.1391          | 0.3729 |
 ### Framework versions

 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
 - generated_from_trainer
 model-index:
+- name: limbxy_pose_8heads_1layers_16embeddim
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# limbxy_pose_8heads_1layers_16embeddim
+This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1402
+- Rmse: 0.3745
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rmse   |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.3414        | 1.0   | 89   | 0.3311          | 0.5754 |
+| 0.1834        | 2.0   | 178  | 0.2026          | 0.4501 |
+| 0.1645        | 3.0   | 267  | 0.1491          | 0.3862 |
+| 0.1729        | 4.0   | 356  | 0.2542          | 0.5042 |
+| 0.1612        | 5.0   | 445  | 0.1539          | 0.3923 |
+| 0.1578        | 6.0   | 534  | 0.1464          | 0.3827 |
+| 0.1594        | 7.0   | 623  | 0.1860          | 0.4313 |
+| 0.1546        | 8.0   | 712  | 0.1433          | 0.3785 |
+| 0.1517        | 9.0   | 801  | 0.1416          | 0.3763 |
+| 0.1461        | 10.0  | 890  | 0.1576          | 0.3969 |
+| 0.1519        | 11.0  | 979  | 0.1623          | 0.4029 |
+| 0.1491        | 12.0  | 1068 | 0.1411          | 0.3756 |
+| 0.1489        | 13.0  | 1157 | 0.1416          | 0.3763 |
+| 0.1425        | 14.0  | 1246 | 0.1426          | 0.3776 |
+| 0.145         | 15.0  | 1335 | 0.1407          | 0.3751 |
+| 0.1418        | 16.0  | 1424 | 0.1443          | 0.3799 |
+| 0.1411        | 17.0  | 1513 | 0.1403          | 0.3745 |
+| 0.1398        | 18.0  | 1602 | 0.1403          | 0.3746 |
+| 0.143         | 19.0  | 1691 | 0.1405          | 0.3749 |
+| 0.1395        | 20.0  | 1780 | 0.1402          | 0.3745 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 20.0,
-    "eval_loss": 0.13906994462013245,
-    "eval_rmse": 0.37292084097862244,
-    "eval_runtime": 9.5722,
-    "eval_samples_per_second": 104.469,
-    "eval_steps_per_second": 1.672,
     "total_flos": 0.0,
-    "train_loss": 0.15599652267573924,
-    "train_runtime": 3320.1272,
-    "train_samples_per_second": 34.107,
-    "train_steps_per_second": 0.536
 }

 {
     "epoch": 20.0,
+    "eval_loss": 0.1402168720960617,
+    "eval_rmse": 0.37445545196533203,
+    "eval_runtime": 9.652,
+    "eval_samples_per_second": 103.605,
+    "eval_steps_per_second": 1.658,
     "total_flos": 0.0,
+    "train_loss": 0.16565035152971075,
+    "train_runtime": 3332.9842,
+    "train_samples_per_second": 33.976,
+    "train_steps_per_second": 0.534
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_loss": 0.13906994462013245,
-    "eval_rmse": 0.37292084097862244,
-    "eval_runtime": 9.5722,
-    "eval_samples_per_second": 104.469,
-    "eval_steps_per_second": 1.672
 }

 {
     "epoch": 20.0,
+    "eval_loss": 0.1402168720960617,
+    "eval_rmse": 0.37445545196533203,
+    "eval_runtime": 9.652,
+    "eval_samples_per_second": 103.605,
+    "eval_steps_per_second": 1.658
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f930902133dc7897c174a9ecf134fc548403da98da0e5b7ab54e179493ea62cb
-size 1216514232

 version https://git-lfs.github.com/spec/v1
+oid sha256:34ca9281913611c6dabda111c789e7183251607472342d6b77b16908077a9095
+size 1216102672

runs/Feb19_02-57-14_galactica.ad.cirange.net/events.out.tfevents.1739933839.galactica.ad.cirange.net.2734067.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:083c1df90e770553b1cbc1ec4236ed8471b565b24957337db6a35e742cfff98f
+size 27897

runs/Feb19_03-54-03_galactica.ad.cirange.net/events.out.tfevents.1739937248.galactica.ad.cirange.net.2752720.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de08cf834243ea9be39fe68fc8a007ed30f482981045fc8761092f1807b7bbc6
+size 27897

runs/Feb19_03-54-03_galactica.ad.cirange.net/events.out.tfevents.1739940943.galactica.ad.cirange.net.2752720.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9854903d30d50a32d347e9ef99ca01dd10f18b77297bd69b0b42823e335eb920
+size 407

runs/Feb19_04-55-54_galactica.ad.cirange.net/events.out.tfevents.1739940960.galactica.ad.cirange.net.2771453.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52338c6c8014cac3af12abb6c0a089a44ea63a40a7acbf41445aba3dd88f9024
+size 27896

runs/Feb19_04-55-54_galactica.ad.cirange.net/events.out.tfevents.1739944602.galactica.ad.cirange.net.2771453.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:912fb793845466b26a393df3a973dabac10bc45ba6122ce0502f9706eeda81b0
+size 407

runs/Feb19_05-56-53_galactica.ad.cirange.net/events.out.tfevents.1739944619.galactica.ad.cirange.net.2790190.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a89a2ed63ce74c3b38f9924ec3dba25021ba91a8e6be549b75abbdd8ebd8fae
+size 27897

runs/Feb19_05-56-53_galactica.ad.cirange.net/events.out.tfevents.1739948266.galactica.ad.cirange.net.2790190.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7004eb0e5b94605e043bf0cb4e48df317dc0ba2108f2655b1f1a61c95079924
+size 407

runs/Feb19_06-57-57_galactica.ad.cirange.net/events.out.tfevents.1739948282.galactica.ad.cirange.net.2819429.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:024af1f858d12e5f7b12de38c37b32224f1c236e62f059cb7e3b3a0b5ea9e22d
+size 27897

runs/Feb19_06-57-57_galactica.ad.cirange.net/events.out.tfevents.1739951967.galactica.ad.cirange.net.2819429.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4a017c0d7651db70a3ef3ef2b2d482349d014de3c5c8af992d45afcd17093b1
+size 407

runs/Feb19_07-59-38_galactica.ad.cirange.net/events.out.tfevents.1739951984.galactica.ad.cirange.net.2838155.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca2c397d94bd5023766ea9fb0897952fca04089e59466e88d58d6061e3dc5972
+size 27896

runs/Feb19_07-59-38_galactica.ad.cirange.net/events.out.tfevents.1739955603.galactica.ad.cirange.net.2838155.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:820971256c9c39f81b23da63a32e102499bc0271a24128744cfb6ab5469e632a
+size 407

runs/Feb19_09-00-14_galactica.ad.cirange.net/events.out.tfevents.1739955625.galactica.ad.cirange.net.2856934.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3ccbc97c62f6670b269ad0ec2160edfff91cc3e7e2a66c3ad43bc4dabfdece4
+size 27897

runs/Feb19_09-00-14_galactica.ad.cirange.net/events.out.tfevents.1739959252.galactica.ad.cirange.net.2856934.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f60df53da4af8480912dad62101e5f6fb47abdd554c4a863915103fccad085f
+size 407

runs/Feb19_10-01-04_galactica.ad.cirange.net/events.out.tfevents.1739959269.galactica.ad.cirange.net.2875412.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2052a4f66ec9d5f9385ec59efe9233474848655f2650408319e410cef42baca
+size 27897

runs/Feb19_10-01-04_galactica.ad.cirange.net/events.out.tfevents.1739962891.galactica.ad.cirange.net.2875412.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b443b2eb9fe23bffa7386c4fe14044de084a9a8e6dc608864891e99578cf721
+size 407

runs/Feb19_11-01-42_galactica.ad.cirange.net/events.out.tfevents.1739962907.galactica.ad.cirange.net.2894098.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e43d05b2adeaf4bdf820bda8352c467e9cbb287fb81796a0ea6d8834c23833ee
+size 27896

runs/Feb19_11-01-42_galactica.ad.cirange.net/events.out.tfevents.1739966536.galactica.ad.cirange.net.2894098.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0722843c8b72848a7bdc416c2e6d3b84533c624b79f9f79ca60395366e21ab
+size 407

runs/Feb19_12-02-27_galactica.ad.cirange.net/events.out.tfevents.1739966552.galactica.ad.cirange.net.2912705.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db36a5322e114742b2b0679bc52799905e4c6358f1c1af69202907693cacbd94
+size 27897

runs/Feb19_12-02-27_galactica.ad.cirange.net/events.out.tfevents.1739970145.galactica.ad.cirange.net.2912705.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e777ff322861f267149c32dff760db76541cb1893b1e9d33a58bd479a4295156
+size 407

runs/Feb19_13-02-36_galactica.ad.cirange.net/events.out.tfevents.1739970161.galactica.ad.cirange.net.2931857.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:953fc7534ef31c45d0af9f62aad250ff6f1f60eb5e065df2902cc055159011bf
+size 27897

runs/Feb19_13-02-36_galactica.ad.cirange.net/events.out.tfevents.1739973785.galactica.ad.cirange.net.2931857.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:158ec9fb65261394bdf4f802a4fb820697f3cbd229cb6b3cec7baff10353ef2e
+size 407

runs/Feb19_14-03-16_galactica.ad.cirange.net/events.out.tfevents.1739973802.galactica.ad.cirange.net.2950524.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7eb062f103adab23250585e761302ba65e68add5862e2e2000d667cbb3b9991a
+size 27896

runs/Feb19_14-03-16_galactica.ad.cirange.net/events.out.tfevents.1739977526.galactica.ad.cirange.net.2950524.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:940f8816ecfa3ea1b3551981558a2a0e359c7866badf92870754656c3896988d
+size 407

runs/Feb19_15-05-38_galactica.ad.cirange.net/events.out.tfevents.1739977543.galactica.ad.cirange.net.2969069.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a13e58db687d997262aeb0b120e96e40c6a7637fd2d55b4ca64e3d84d7de7fa
+size 27897

runs/Feb19_16-06-47_galactica.ad.cirange.net/events.out.tfevents.1739981213.galactica.ad.cirange.net.2987544.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9084b9bf6793d0973695fcc11ac85613037bf1b6faf78e484a10a4649e06a57
+size 8719

runs/Feb19_16-14-54_galactica.ad.cirange.net/events.out.tfevents.1739981699.galactica.ad.cirange.net.2991274.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3af983f73ae9542d8906d0eec536dc86745e3f17f2e0b5374e7d4410bbfe171
+size 7141

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
     "total_flos": 0.0,
-    "train_loss": 0.15599652267573924,
-    "train_runtime": 3320.1272,
-    "train_samples_per_second": 34.107,
-    "train_steps_per_second": 0.536
 }

 {
     "epoch": 20.0,
     "total_flos": 0.0,
+    "train_loss": 0.16565035152971075,
+    "train_runtime": 3332.9842,
+    "train_samples_per_second": 33.976,
+    "train_steps_per_second": 0.534
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.13906994462013245,
   "best_model_checkpoint": "limbxy_pose/checkpoint-1780",
   "epoch": 20.0,
   "eval_steps": 500,
@@ -10,689 +10,689 @@
   "log_history": [
     {
       "epoch": 0.2808988764044944,
-      "grad_norm": 8.567283167615347e-13,
       "learning_rate": 5e-06,
       "loss": 0.3282,
       "step": 25
     },
     {
       "epoch": 0.5617977528089888,
-      "grad_norm": 110866.890625,
       "learning_rate": 1e-05,
-      "loss": 0.2853,
       "step": 50
     },
     {
       "epoch": 0.8426966292134831,
-      "grad_norm": 1257591.75,
       "learning_rate": 1.5e-05,
-      "loss": 0.214,
       "step": 75
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.19327276945114136,
-      "eval_rmse": 0.4396279752254486,
-      "eval_runtime": 9.4099,
-      "eval_samples_per_second": 106.272,
-      "eval_steps_per_second": 1.7,
       "step": 89
     },
     {
       "epoch": 1.1235955056179776,
-      "grad_norm": 1151241.875,
       "learning_rate": 2e-05,
-      "loss": 0.1918,
       "step": 100
     },
     {
       "epoch": 1.404494382022472,
-      "grad_norm": 2122279.75,
       "learning_rate": 2.5e-05,
-      "loss": 0.1868,
       "step": 125
     },
     {
       "epoch": 1.6853932584269664,
-      "grad_norm": 2307076.25,
       "learning_rate": 3e-05,
-      "loss": 0.1788,
       "step": 150
     },
     {
       "epoch": 1.9662921348314608,
-      "grad_norm": 1163768.75,
       "learning_rate": 3.5e-05,
-      "loss": 0.161,
       "step": 175
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.14737975597381592,
-      "eval_rmse": 0.3839007019996643,
-      "eval_runtime": 9.5512,
-      "eval_samples_per_second": 104.698,
-      "eval_steps_per_second": 1.675,
       "step": 178
     },
     {
       "epoch": 2.247191011235955,
-      "grad_norm": 3384581.5,
       "learning_rate": 4e-05,
-      "loss": 0.1542,
       "step": 200
     },
     {
       "epoch": 2.5280898876404496,
-      "grad_norm": 5387857.0,
       "learning_rate": 4.5e-05,
-      "loss": 0.1643,
       "step": 225
     },
     {
       "epoch": 2.808988764044944,
-      "grad_norm": 2503687.0,
       "learning_rate": 5e-05,
-      "loss": 0.1634,
       "step": 250
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.15408433973789215,
-      "eval_rmse": 0.3925357758998871,
-      "eval_runtime": 9.5151,
-      "eval_samples_per_second": 105.096,
-      "eval_steps_per_second": 1.682,
       "step": 267
     },
     {
       "epoch": 3.0898876404494384,
-      "grad_norm": 1989428.125,
       "learning_rate": 4.918300653594771e-05,
-      "loss": 0.1626,
       "step": 275
     },
     {
       "epoch": 3.370786516853933,
-      "grad_norm": 2154801.5,
       "learning_rate": 4.8366013071895424e-05,
-      "loss": 0.1588,
       "step": 300
     },
     {
       "epoch": 3.6516853932584272,
-      "grad_norm": 1134807.0,
       "learning_rate": 4.7549019607843135e-05,
-      "loss": 0.1532,
       "step": 325
     },
     {
       "epoch": 3.932584269662921,
-      "grad_norm": 2527826.5,
       "learning_rate": 4.673202614379085e-05,
-      "loss": 0.1547,
       "step": 350
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.1495393067598343,
-      "eval_rmse": 0.38670313358306885,
-      "eval_runtime": 9.5702,
-      "eval_samples_per_second": 104.491,
-      "eval_steps_per_second": 1.672,
       "step": 356
     },
     {
       "epoch": 4.213483146067416,
-      "grad_norm": 830469.375,
       "learning_rate": 4.5915032679738564e-05,
-      "loss": 0.1496,
       "step": 375
     },
     {
       "epoch": 4.49438202247191,
-      "grad_norm": 823327.75,
       "learning_rate": 4.5098039215686275e-05,
-      "loss": 0.1554,
       "step": 400
     },
     {
       "epoch": 4.775280898876405,
-      "grad_norm": 1184849.0,
       "learning_rate": 4.4281045751633986e-05,
-      "loss": 0.1674,
       "step": 425
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.1679653525352478,
-      "eval_rmse": 0.4098357558250427,
-      "eval_runtime": 9.3594,
-      "eval_samples_per_second": 106.845,
-      "eval_steps_per_second": 1.71,
       "step": 445
     },
     {
       "epoch": 5.056179775280899,
-      "grad_norm": 169527.875,
       "learning_rate": 4.3464052287581704e-05,
-      "loss": 0.1676,
       "step": 450
     },
     {
       "epoch": 5.337078651685394,
-      "grad_norm": 1563091.5,
       "learning_rate": 4.2647058823529415e-05,
-      "loss": 0.1821,
       "step": 475
     },
     {
       "epoch": 5.617977528089888,
-      "grad_norm": 1015313.25,
       "learning_rate": 4.1830065359477126e-05,
-      "loss": 0.176,
       "step": 500
     },
     {
       "epoch": 5.898876404494382,
-      "grad_norm": 2744912.25,
       "learning_rate": 4.101307189542484e-05,
-      "loss": 0.1644,
       "step": 525
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.14729027450084686,
-      "eval_rmse": 0.3837841749191284,
-      "eval_runtime": 9.5398,
-      "eval_samples_per_second": 104.824,
-      "eval_steps_per_second": 1.677,
       "step": 534
     },
     {
       "epoch": 6.179775280898877,
-      "grad_norm": 116897.2265625,
       "learning_rate": 4.0196078431372555e-05,
-      "loss": 0.1588,
       "step": 550
     },
     {
       "epoch": 6.460674157303371,
-      "grad_norm": 1905296.75,
       "learning_rate": 3.9379084967320266e-05,
-      "loss": 0.1517,
       "step": 575
     },
     {
       "epoch": 6.741573033707866,
-      "grad_norm": 2599395.75,
       "learning_rate": 3.8562091503267977e-05,
-      "loss": 0.1459,
       "step": 600
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.1404775083065033,
-      "eval_rmse": 0.3748033046722412,
-      "eval_runtime": 9.6349,
-      "eval_samples_per_second": 103.79,
-      "eval_steps_per_second": 1.661,
       "step": 623
     },
     {
       "epoch": 7.022471910112359,
-      "grad_norm": 2782315.75,
       "learning_rate": 3.774509803921569e-05,
-      "loss": 0.1479,
       "step": 625
     },
     {
       "epoch": 7.303370786516854,
-      "grad_norm": 1166099.875,
       "learning_rate": 3.6928104575163405e-05,
-      "loss": 0.1553,
       "step": 650
     },
     {
       "epoch": 7.584269662921348,
-      "grad_norm": 2184319.0,
       "learning_rate": 3.611111111111111e-05,
-      "loss": 0.1522,
       "step": 675
     },
     {
       "epoch": 7.865168539325842,
-      "grad_norm": 1279161.625,
       "learning_rate": 3.529411764705883e-05,
-      "loss": 0.1544,
       "step": 700
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.15137900412082672,
-      "eval_rmse": 0.38907453417778015,
-      "eval_runtime": 9.1535,
-      "eval_samples_per_second": 109.248,
-      "eval_steps_per_second": 1.748,
       "step": 712
     },
     {
       "epoch": 8.146067415730338,
-      "grad_norm": 2559078.25,
       "learning_rate": 3.447712418300654e-05,
-      "loss": 0.1521,
       "step": 725
     },
     {
       "epoch": 8.426966292134832,
-      "grad_norm": 257444.171875,
       "learning_rate": 3.366013071895425e-05,
-      "loss": 0.143,
       "step": 750
     },
     {
       "epoch": 8.707865168539326,
-      "grad_norm": 927010.125,
       "learning_rate": 3.284313725490196e-05,
-      "loss": 0.1477,
       "step": 775
     },
     {
       "epoch": 8.98876404494382,
-      "grad_norm": 159431.078125,
       "learning_rate": 3.202614379084967e-05,
-      "loss": 0.1531,
       "step": 800
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.14193063974380493,
-      "eval_rmse": 0.3767368197441101,
-      "eval_runtime": 9.5112,
-      "eval_samples_per_second": 105.139,
-      "eval_steps_per_second": 1.682,
       "step": 801
     },
     {
       "epoch": 9.269662921348315,
-      "grad_norm": 1847863.875,
       "learning_rate": 3.120915032679739e-05,
-      "loss": 0.1485,
       "step": 825
     },
     {
       "epoch": 9.55056179775281,
-      "grad_norm": 952230.1875,
       "learning_rate": 3.0392156862745097e-05,
-      "loss": 0.154,
       "step": 850
     },
     {
       "epoch": 9.831460674157304,
-      "grad_norm": 88050.4765625,
       "learning_rate": 2.957516339869281e-05,
-      "loss": 0.1468,
       "step": 875
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.14216481149196625,
-      "eval_rmse": 0.37704750895500183,
-      "eval_runtime": 9.4123,
-      "eval_samples_per_second": 106.244,
-      "eval_steps_per_second": 1.7,
       "step": 890
     },
     {
       "epoch": 10.112359550561798,
-      "grad_norm": 837362.1875,
       "learning_rate": 2.8758169934640522e-05,
-      "loss": 0.1504,
       "step": 900
     },
     {
       "epoch": 10.393258426966293,
-      "grad_norm": 1949830.125,
       "learning_rate": 2.7941176470588236e-05,
-      "loss": 0.1456,
       "step": 925
     },
     {
       "epoch": 10.674157303370787,
-      "grad_norm": 3423746.0,
       "learning_rate": 2.7124183006535947e-05,
-      "loss": 0.1445,
       "step": 950
     },
     {
       "epoch": 10.955056179775282,
-      "grad_norm": 267509.53125,
       "learning_rate": 2.630718954248366e-05,
-      "loss": 0.143,
       "step": 975
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.14469632506370544,
-      "eval_rmse": 0.3803896903991699,
-      "eval_runtime": 9.2725,
-      "eval_samples_per_second": 107.846,
-      "eval_steps_per_second": 1.726,
       "step": 979
     },
     {
       "epoch": 11.235955056179776,
-      "grad_norm": 1893457.375,
       "learning_rate": 2.5490196078431373e-05,
-      "loss": 0.14,
       "step": 1000
     },
     {
       "epoch": 11.51685393258427,
-      "grad_norm": 1374771.875,
       "learning_rate": 2.4673202614379087e-05,
-      "loss": 0.1458,
       "step": 1025
     },
     {
       "epoch": 11.797752808988765,
-      "grad_norm": 2660207.0,
       "learning_rate": 2.38562091503268e-05,
-      "loss": 0.1467,
       "step": 1050
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.1596774458885193,
-      "eval_rmse": 0.39959660172462463,
-      "eval_runtime": 9.2164,
-      "eval_samples_per_second": 108.502,
-      "eval_steps_per_second": 1.736,
       "step": 1068
     },
     {
       "epoch": 12.07865168539326,
-      "grad_norm": 4057213.75,
       "learning_rate": 2.303921568627451e-05,
-      "loss": 0.1556,
       "step": 1075
     },
     {
       "epoch": 12.359550561797754,
-      "grad_norm": 551497.625,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.1514,
       "step": 1100
     },
     {
       "epoch": 12.640449438202246,
-      "grad_norm": 61427.015625,
       "learning_rate": 2.1405228758169934e-05,
-      "loss": 0.1446,
       "step": 1125
     },
     {
       "epoch": 12.921348314606742,
-      "grad_norm": 789958.0,
       "learning_rate": 2.058823529411765e-05,
-      "loss": 0.149,
       "step": 1150
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.1393509805202484,
-      "eval_rmse": 0.37329748272895813,
-      "eval_runtime": 9.3848,
-      "eval_samples_per_second": 106.556,
-      "eval_steps_per_second": 1.705,
       "step": 1157
     },
     {
       "epoch": 13.202247191011235,
-      "grad_norm": 1956022.25,
       "learning_rate": 1.977124183006536e-05,
-      "loss": 0.1439,
       "step": 1175
     },
     {
       "epoch": 13.48314606741573,
-      "grad_norm": 1201509.0,
       "learning_rate": 1.895424836601307e-05,
-      "loss": 0.1423,
       "step": 1200
     },
     {
       "epoch": 13.764044943820224,
-      "grad_norm": 1603021.5,
       "learning_rate": 1.8137254901960785e-05,
-      "loss": 0.139,
       "step": 1225
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.14120306074619293,
-      "eval_rmse": 0.3757699429988861,
-      "eval_runtime": 9.4961,
-      "eval_samples_per_second": 105.307,
-      "eval_steps_per_second": 1.685,
       "step": 1246
     },
     {
       "epoch": 14.044943820224718,
-      "grad_norm": 750973.0625,
       "learning_rate": 1.7320261437908496e-05,
-      "loss": 0.1442,
       "step": 1250
     },
     {
       "epoch": 14.325842696629213,
-      "grad_norm": 380421.21875,
       "learning_rate": 1.650326797385621e-05,
-      "loss": 0.1413,
       "step": 1275
     },
     {
       "epoch": 14.606741573033707,
-      "grad_norm": 451599.53125,
       "learning_rate": 1.568627450980392e-05,
-      "loss": 0.141,
       "step": 1300
     },
     {
       "epoch": 14.887640449438202,
-      "grad_norm": 1830802.625,
       "learning_rate": 1.4869281045751634e-05,
-      "loss": 0.1433,
       "step": 1325
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.13972964882850647,
-      "eval_rmse": 0.3738043010234833,
-      "eval_runtime": 9.4238,
-      "eval_samples_per_second": 106.114,
-      "eval_steps_per_second": 1.698,
       "step": 1335
     },
     {
       "epoch": 15.168539325842696,
-      "grad_norm": 241513.265625,
       "learning_rate": 1.4052287581699347e-05,
-      "loss": 0.142,
       "step": 1350
     },
     {
       "epoch": 15.44943820224719,
-      "grad_norm": 1214894.5,
       "learning_rate": 1.323529411764706e-05,
       "loss": 0.145,
       "step": 1375
     },
     {
       "epoch": 15.730337078651685,
-      "grad_norm": 692089.5625,
       "learning_rate": 1.2418300653594772e-05,
-      "loss": 0.1426,
       "step": 1400
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.13960076868534088,
-      "eval_rmse": 0.37363186478614807,
-      "eval_runtime": 9.48,
-      "eval_samples_per_second": 105.485,
-      "eval_steps_per_second": 1.688,
       "step": 1424
     },
     {
       "epoch": 16.01123595505618,
-      "grad_norm": 21341.8984375,
       "learning_rate": 1.1601307189542485e-05,
-      "loss": 0.1419,
       "step": 1425
     },
     {
       "epoch": 16.292134831460675,
-      "grad_norm": 361124.03125,
       "learning_rate": 1.0784313725490197e-05,
-      "loss": 0.1409,
       "step": 1450
     },
     {
       "epoch": 16.573033707865168,
-      "grad_norm": 563769.3125,
       "learning_rate": 9.96732026143791e-06,
-      "loss": 0.1427,
       "step": 1475
     },
     {
       "epoch": 16.853932584269664,
-      "grad_norm": 67665.75,
       "learning_rate": 9.150326797385621e-06,
-      "loss": 0.1403,
       "step": 1500
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.13963405787944794,
-      "eval_rmse": 0.3736764192581177,
-      "eval_runtime": 9.4904,
-      "eval_samples_per_second": 105.37,
-      "eval_steps_per_second": 1.686,
       "step": 1513
     },
     {
       "epoch": 17.134831460674157,
-      "grad_norm": 661210.5625,
       "learning_rate": 8.333333333333334e-06,
       "loss": 0.1424,
       "step": 1525
     },
     {
       "epoch": 17.415730337078653,
-      "grad_norm": 708130.875,
       "learning_rate": 7.5163398692810456e-06,
-      "loss": 0.1424,
       "step": 1550
     },
     {
       "epoch": 17.696629213483146,
-      "grad_norm": 93833.1875,
       "learning_rate": 6.699346405228758e-06,
-      "loss": 0.139,
       "step": 1575
     },
     {
       "epoch": 17.97752808988764,
-      "grad_norm": 154237.1875,
       "learning_rate": 5.882352941176471e-06,
-      "loss": 0.1393,
       "step": 1600
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.139328271150589,
-      "eval_rmse": 0.3732670545578003,
-      "eval_runtime": 9.2376,
-      "eval_samples_per_second": 108.253,
-      "eval_steps_per_second": 1.732,
       "step": 1602
     },
     {
       "epoch": 18.258426966292134,
-      "grad_norm": 451971.6875,
       "learning_rate": 5.065359477124184e-06,
-      "loss": 0.1388,
       "step": 1625
     },
     {
       "epoch": 18.53932584269663,
-      "grad_norm": 516973.15625,
       "learning_rate": 4.2483660130718954e-06,
-      "loss": 0.1383,
       "step": 1650
     },
     {
       "epoch": 18.820224719101123,
-      "grad_norm": 111973.78125,
       "learning_rate": 3.431372549019608e-06,
-      "loss": 0.1426,
       "step": 1675
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.13913311064243317,
-      "eval_rmse": 0.3730055093765259,
-      "eval_runtime": 9.3902,
-      "eval_samples_per_second": 106.494,
-      "eval_steps_per_second": 1.704,
       "step": 1691
     },
     {
       "epoch": 19.10112359550562,
-      "grad_norm": 390392.875,
       "learning_rate": 2.6143790849673204e-06,
-      "loss": 0.1404,
       "step": 1700
     },
     {
       "epoch": 19.382022471910112,
-      "grad_norm": 167872.421875,
       "learning_rate": 1.7973856209150326e-06,
-      "loss": 0.1402,
       "step": 1725
     },
     {
       "epoch": 19.662921348314608,
-      "grad_norm": 446064.03125,
       "learning_rate": 9.80392156862745e-07,
-      "loss": 0.14,
       "step": 1750
     },
     {
       "epoch": 19.9438202247191,
-      "grad_norm": 133050.875,
       "learning_rate": 1.6339869281045752e-07,
-      "loss": 0.1387,
       "step": 1775
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.13906994462013245,
-      "eval_rmse": 0.37292084097862244,
-      "eval_runtime": 9.3255,
-      "eval_samples_per_second": 107.233,
-      "eval_steps_per_second": 1.716,
       "step": 1780
     },
     {
       "epoch": 20.0,
       "step": 1780,
       "total_flos": 0.0,
-      "train_loss": 0.15599652267573924,
-      "train_runtime": 3320.1272,
-      "train_samples_per_second": 34.107,
-      "train_steps_per_second": 0.536
     }
   ],
   "logging_steps": 25,

 {
+  "best_metric": 0.1402168720960617,
   "best_model_checkpoint": "limbxy_pose/checkpoint-1780",
   "epoch": 20.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.2808988764044944,
+      "grad_norm": 1.4306482431017398e-12,
       "learning_rate": 5e-06,
       "loss": 0.3282,
       "step": 25
     },
     {
       "epoch": 0.5617977528089888,
+      "grad_norm": 7.286453206209118e-14,
       "learning_rate": 1e-05,
+      "loss": 0.3304,
       "step": 50
     },
     {
       "epoch": 0.8426966292134831,
+      "grad_norm": 1.7020333059614146e-11,
       "learning_rate": 1.5e-05,
+      "loss": 0.3414,
       "step": 75
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.33112141489982605,
+      "eval_rmse": 0.5754314661026001,
+      "eval_runtime": 9.461,
+      "eval_samples_per_second": 105.697,
+      "eval_steps_per_second": 1.691,
       "step": 89
     },
     {
       "epoch": 1.1235955056179776,
+      "grad_norm": 4.0378258462508976e-13,
       "learning_rate": 2e-05,
+      "loss": 0.3408,
       "step": 100
     },
     {
       "epoch": 1.404494382022472,
+      "grad_norm": 38181.53515625,
       "learning_rate": 2.5e-05,
+      "loss": 0.2674,
       "step": 125
     },
     {
       "epoch": 1.6853932584269664,
+      "grad_norm": 1195767.75,
       "learning_rate": 3e-05,
+      "loss": 0.1862,
       "step": 150
     },
     {
       "epoch": 1.9662921348314608,
+      "grad_norm": 4560497.0,
       "learning_rate": 3.5e-05,
+      "loss": 0.1834,
       "step": 175
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.2025543600320816,
+      "eval_rmse": 0.4500603973865509,
+      "eval_runtime": 9.155,
+      "eval_samples_per_second": 109.23,
+      "eval_steps_per_second": 1.748,
       "step": 178
     },
     {
       "epoch": 2.247191011235955,
+      "grad_norm": 2378441.75,
       "learning_rate": 4e-05,
+      "loss": 0.1947,
       "step": 200
     },
     {
       "epoch": 2.5280898876404496,
+      "grad_norm": 1214816.375,
       "learning_rate": 4.5e-05,
+      "loss": 0.1846,
       "step": 225
     },
     {
       "epoch": 2.808988764044944,
+      "grad_norm": 596520.4375,
       "learning_rate": 5e-05,
+      "loss": 0.1645,
       "step": 250
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.14911922812461853,
+      "eval_rmse": 0.38615959882736206,
+      "eval_runtime": 9.1063,
+      "eval_samples_per_second": 109.815,
+      "eval_steps_per_second": 1.757,
       "step": 267
     },
     {
       "epoch": 3.0898876404494384,
+      "grad_norm": 789416.375,
       "learning_rate": 4.918300653594771e-05,
+      "loss": 0.1692,
       "step": 275
     },
     {
       "epoch": 3.370786516853933,
+      "grad_norm": 3581939.75,
       "learning_rate": 4.8366013071895424e-05,
+      "loss": 0.1954,
       "step": 300
     },
     {
       "epoch": 3.6516853932584272,
+      "grad_norm": 2062457.125,
       "learning_rate": 4.7549019607843135e-05,
+      "loss": 0.1924,
       "step": 325
     },
     {
       "epoch": 3.932584269662921,
+      "grad_norm": 2538814.0,
       "learning_rate": 4.673202614379085e-05,
+      "loss": 0.1729,
       "step": 350
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.2542487680912018,
+      "eval_rmse": 0.5042308568954468,
+      "eval_runtime": 9.4787,
+      "eval_samples_per_second": 105.5,
+      "eval_steps_per_second": 1.688,
       "step": 356
     },
     {
       "epoch": 4.213483146067416,
+      "grad_norm": 5207696.0,
       "learning_rate": 4.5915032679738564e-05,
+      "loss": 0.1845,
       "step": 375
     },
     {
       "epoch": 4.49438202247191,
+      "grad_norm": 2629999.75,
       "learning_rate": 4.5098039215686275e-05,
+      "loss": 0.1854,
       "step": 400
     },
     {
       "epoch": 4.775280898876405,
+      "grad_norm": 764233.0625,
       "learning_rate": 4.4281045751633986e-05,
+      "loss": 0.1612,
       "step": 425
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.15393178164958954,
+      "eval_rmse": 0.39234140515327454,
+      "eval_runtime": 9.1662,
+      "eval_samples_per_second": 109.097,
+      "eval_steps_per_second": 1.746,
       "step": 445
     },
     {
       "epoch": 5.056179775280899,
+      "grad_norm": 5359111.0,
       "learning_rate": 4.3464052287581704e-05,
+      "loss": 0.1679,
       "step": 450
     },
     {
       "epoch": 5.337078651685394,
+      "grad_norm": 5016195.0,
       "learning_rate": 4.2647058823529415e-05,
+      "loss": 0.1658,
       "step": 475
     },
     {
       "epoch": 5.617977528089888,
+      "grad_norm": 1101185.75,
       "learning_rate": 4.1830065359477126e-05,
+      "loss": 0.1567,
       "step": 500
     },
     {
       "epoch": 5.898876404494382,
+      "grad_norm": 2115526.0,
       "learning_rate": 4.101307189542484e-05,
+      "loss": 0.1578,
       "step": 525
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.14643920958042145,
+      "eval_rmse": 0.38267379999160767,
+      "eval_runtime": 9.2072,
+      "eval_samples_per_second": 108.61,
+      "eval_steps_per_second": 1.738,
       "step": 534
     },
     {
       "epoch": 6.179775280898877,
+      "grad_norm": 1441159.25,
       "learning_rate": 4.0196078431372555e-05,
+      "loss": 0.1535,
       "step": 550
     },
     {
       "epoch": 6.460674157303371,
+      "grad_norm": 1516853.375,
       "learning_rate": 3.9379084967320266e-05,
+      "loss": 0.164,
       "step": 575
     },
     {
       "epoch": 6.741573033707866,
+      "grad_norm": 668387.4375,
       "learning_rate": 3.8562091503267977e-05,
+      "loss": 0.1594,
       "step": 600
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.18601085245609283,
+      "eval_rmse": 0.43128976225852966,
+      "eval_runtime": 9.5674,
+      "eval_samples_per_second": 104.522,
+      "eval_steps_per_second": 1.672,
       "step": 623
     },
     {
       "epoch": 7.022471910112359,
+      "grad_norm": 3315089.5,
       "learning_rate": 3.774509803921569e-05,
+      "loss": 0.1673,
       "step": 625
     },
     {
       "epoch": 7.303370786516854,
+      "grad_norm": 178060.9375,
       "learning_rate": 3.6928104575163405e-05,
+      "loss": 0.1514,
       "step": 650
     },
     {
       "epoch": 7.584269662921348,
+      "grad_norm": 924463.8125,
       "learning_rate": 3.611111111111111e-05,
+      "loss": 0.1454,
       "step": 675
     },
     {
       "epoch": 7.865168539325842,
+      "grad_norm": 44355.859375,
       "learning_rate": 3.529411764705883e-05,
+      "loss": 0.1546,
       "step": 700
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.14328204095363617,
+      "eval_rmse": 0.37852615118026733,
+      "eval_runtime": 9.3971,
+      "eval_samples_per_second": 106.416,
+      "eval_steps_per_second": 1.703,
       "step": 712
     },
     {
       "epoch": 8.146067415730338,
+      "grad_norm": 2000040.75,
       "learning_rate": 3.447712418300654e-05,
+      "loss": 0.1503,
       "step": 725
     },
     {
       "epoch": 8.426966292134832,
+      "grad_norm": 1668223.5,
       "learning_rate": 3.366013071895425e-05,
+      "loss": 0.1469,
       "step": 750
     },
     {
       "epoch": 8.707865168539326,
+      "grad_norm": 969523.8125,
       "learning_rate": 3.284313725490196e-05,
+      "loss": 0.1525,
       "step": 775
     },
     {
       "epoch": 8.98876404494382,
+      "grad_norm": 399384.6875,
       "learning_rate": 3.202614379084967e-05,
+      "loss": 0.1517,
       "step": 800
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.14162829518318176,
+      "eval_rmse": 0.37633535265922546,
+      "eval_runtime": 9.2193,
+      "eval_samples_per_second": 108.468,
+      "eval_steps_per_second": 1.735,
       "step": 801
     },
     {
       "epoch": 9.269662921348315,
+      "grad_norm": 1699236.625,
       "learning_rate": 3.120915032679739e-05,
+      "loss": 0.1475,
       "step": 825
     },
     {
       "epoch": 9.55056179775281,
+      "grad_norm": 200852.296875,
       "learning_rate": 3.0392156862745097e-05,
+      "loss": 0.1481,
       "step": 850
     },
     {
       "epoch": 9.831460674157304,
+      "grad_norm": 837677.625,
       "learning_rate": 2.957516339869281e-05,
+      "loss": 0.1461,
       "step": 875
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.15756502747535706,
+      "eval_rmse": 0.3969446122646332,
+      "eval_runtime": 9.8254,
+      "eval_samples_per_second": 101.777,
+      "eval_steps_per_second": 1.628,
       "step": 890
     },
     {
       "epoch": 10.112359550561798,
+      "grad_norm": 1678043.0,
       "learning_rate": 2.8758169934640522e-05,
+      "loss": 0.1571,
       "step": 900
     },
     {
       "epoch": 10.393258426966293,
+      "grad_norm": 417715.75,
       "learning_rate": 2.7941176470588236e-05,
+      "loss": 0.1508,
       "step": 925
     },
     {
       "epoch": 10.674157303370787,
+      "grad_norm": 296561.8125,
       "learning_rate": 2.7124183006535947e-05,
+      "loss": 0.1456,
       "step": 950
     },
     {
       "epoch": 10.955056179775282,
+      "grad_norm": 1708742.5,
       "learning_rate": 2.630718954248366e-05,
+      "loss": 0.1519,
       "step": 975
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.1622958481311798,
+      "eval_rmse": 0.4028595983982086,
+      "eval_runtime": 9.6192,
+      "eval_samples_per_second": 103.958,
+      "eval_steps_per_second": 1.663,
       "step": 979
     },
     {
       "epoch": 11.235955056179776,
+      "grad_norm": 923283.0,
       "learning_rate": 2.5490196078431373e-05,
+      "loss": 0.1527,
       "step": 1000
     },
     {
       "epoch": 11.51685393258427,
+      "grad_norm": 78371.8671875,
       "learning_rate": 2.4673202614379087e-05,
+      "loss": 0.1499,
       "step": 1025
     },
     {
       "epoch": 11.797752808988765,
+      "grad_norm": 1358486.375,
       "learning_rate": 2.38562091503268e-05,
+      "loss": 0.1491,
       "step": 1050
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.14110486209392548,
+      "eval_rmse": 0.37563925981521606,
+      "eval_runtime": 9.459,
+      "eval_samples_per_second": 105.719,
+      "eval_steps_per_second": 1.692,
       "step": 1068
     },
     {
       "epoch": 12.07865168539326,
+      "grad_norm": 677287.375,
       "learning_rate": 2.303921568627451e-05,
+      "loss": 0.1458,
       "step": 1075
     },
     {
       "epoch": 12.359550561797754,
+      "grad_norm": 1671154.75,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.1446,
       "step": 1100
     },
     {
       "epoch": 12.640449438202246,
+      "grad_norm": 1566995.875,
       "learning_rate": 2.1405228758169934e-05,
+      "loss": 0.1449,
       "step": 1125
     },
     {
       "epoch": 12.921348314606742,
+      "grad_norm": 457053.46875,
       "learning_rate": 2.058823529411765e-05,
+      "loss": 0.1489,
       "step": 1150
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.1416008174419403,
+      "eval_rmse": 0.3762988746166229,
+      "eval_runtime": 9.5408,
+      "eval_samples_per_second": 104.813,
+      "eval_steps_per_second": 1.677,
       "step": 1157
     },
     {
       "epoch": 13.202247191011235,
+      "grad_norm": 1004067.375,
       "learning_rate": 1.977124183006536e-05,
+      "loss": 0.1459,
       "step": 1175
     },
     {
       "epoch": 13.48314606741573,
+      "grad_norm": 2169427.0,
       "learning_rate": 1.895424836601307e-05,
+      "loss": 0.1453,
       "step": 1200
     },
     {
       "epoch": 13.764044943820224,
+      "grad_norm": 408455.125,
       "learning_rate": 1.8137254901960785e-05,
+      "loss": 0.1425,
       "step": 1225
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.14256992936134338,
+      "eval_rmse": 0.3775843381881714,
+      "eval_runtime": 9.5439,
+      "eval_samples_per_second": 104.779,
+      "eval_steps_per_second": 1.676,
       "step": 1246
     },
     {
       "epoch": 14.044943820224718,
+      "grad_norm": 582970.4375,
       "learning_rate": 1.7320261437908496e-05,
+      "loss": 0.147,
       "step": 1250
     },
     {
       "epoch": 14.325842696629213,
+      "grad_norm": 524589.5625,
       "learning_rate": 1.650326797385621e-05,
+      "loss": 0.1424,
       "step": 1275
     },
     {
       "epoch": 14.606741573033707,
+      "grad_norm": 1342928.875,
       "learning_rate": 1.568627450980392e-05,
+      "loss": 0.1433,
       "step": 1300
     },
     {
       "epoch": 14.887640449438202,
+      "grad_norm": 1165010.25,
       "learning_rate": 1.4869281045751634e-05,
+      "loss": 0.145,
       "step": 1325
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.14070571959018707,
+      "eval_rmse": 0.37510761618614197,
+      "eval_runtime": 9.3011,
+      "eval_samples_per_second": 107.514,
+      "eval_steps_per_second": 1.72,
       "step": 1335
     },
     {
       "epoch": 15.168539325842696,
+      "grad_norm": 1536645.125,
       "learning_rate": 1.4052287581699347e-05,
+      "loss": 0.1397,
       "step": 1350
     },
     {
       "epoch": 15.44943820224719,
+      "grad_norm": 121041.3984375,
       "learning_rate": 1.323529411764706e-05,
       "loss": 0.145,
       "step": 1375
     },
     {
       "epoch": 15.730337078651685,
+      "grad_norm": 850638.375,
       "learning_rate": 1.2418300653594772e-05,
+      "loss": 0.1418,
       "step": 1400
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.144333153963089,
+      "eval_rmse": 0.37991204857826233,
+      "eval_runtime": 9.7712,
+      "eval_samples_per_second": 102.342,
+      "eval_steps_per_second": 1.637,
       "step": 1424
     },
     {
       "epoch": 16.01123595505618,
+      "grad_norm": 1658046.0,
       "learning_rate": 1.1601307189542485e-05,
+      "loss": 0.1432,
       "step": 1425
     },
     {
       "epoch": 16.292134831460675,
+      "grad_norm": 291296.34375,
       "learning_rate": 1.0784313725490197e-05,
+      "loss": 0.1422,
       "step": 1450
     },
     {
       "epoch": 16.573033707865168,
+      "grad_norm": 71275.6953125,
       "learning_rate": 9.96732026143791e-06,
+      "loss": 0.1429,
       "step": 1475
     },
     {
       "epoch": 16.853932584269664,
+      "grad_norm": 717235.9375,
       "learning_rate": 9.150326797385621e-06,
+      "loss": 0.1411,
       "step": 1500
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.1402604728937149,
+      "eval_rmse": 0.3745136559009552,
+      "eval_runtime": 9.4156,
+      "eval_samples_per_second": 106.207,
+      "eval_steps_per_second": 1.699,
       "step": 1513
     },
     {
       "epoch": 17.134831460674157,
+      "grad_norm": 956427.5625,
       "learning_rate": 8.333333333333334e-06,
       "loss": 0.1424,
       "step": 1525
     },
     {
       "epoch": 17.415730337078653,
+      "grad_norm": 391686.90625,
       "learning_rate": 7.5163398692810456e-06,
+      "loss": 0.1434,
       "step": 1550
     },
     {
       "epoch": 17.696629213483146,
+      "grad_norm": 178194.640625,
       "learning_rate": 6.699346405228758e-06,
+      "loss": 0.1396,
       "step": 1575
     },
     {
       "epoch": 17.97752808988764,
+      "grad_norm": 315803.8125,
       "learning_rate": 5.882352941176471e-06,
+      "loss": 0.1398,
       "step": 1600
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.14033755660057068,
+      "eval_rmse": 0.37461650371551514,
+      "eval_runtime": 9.5116,
+      "eval_samples_per_second": 105.135,
+      "eval_steps_per_second": 1.682,
       "step": 1602
     },
     {
       "epoch": 18.258426966292134,
+      "grad_norm": 201845.0,
       "learning_rate": 5.065359477124184e-06,
+      "loss": 0.1396,
       "step": 1625
     },
     {
       "epoch": 18.53932584269663,
+      "grad_norm": 346229.6875,
       "learning_rate": 4.2483660130718954e-06,
+      "loss": 0.1386,
       "step": 1650
     },
     {
       "epoch": 18.820224719101123,
+      "grad_norm": 75540.28125,
       "learning_rate": 3.431372549019608e-06,
+      "loss": 0.143,
       "step": 1675
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.14052481949329376,
+      "eval_rmse": 0.37486639618873596,
+      "eval_runtime": 9.3754,
+      "eval_samples_per_second": 106.662,
+      "eval_steps_per_second": 1.707,
       "step": 1691
     },
     {
       "epoch": 19.10112359550562,
+      "grad_norm": 240692.8125,
       "learning_rate": 2.6143790849673204e-06,
+      "loss": 0.1409,
       "step": 1700
     },
     {
       "epoch": 19.382022471910112,
+      "grad_norm": 214180.84375,
       "learning_rate": 1.7973856209150326e-06,
+      "loss": 0.141,
       "step": 1725
     },
     {
       "epoch": 19.662921348314608,
+      "grad_norm": 108064.1484375,
       "learning_rate": 9.80392156862745e-07,
+      "loss": 0.1407,
       "step": 1750
     },
     {
       "epoch": 19.9438202247191,
+      "grad_norm": 161086.03125,
       "learning_rate": 1.6339869281045752e-07,
+      "loss": 0.1395,
       "step": 1775
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.1402168720960617,
+      "eval_rmse": 0.37445545196533203,
+      "eval_runtime": 9.6855,
+      "eval_samples_per_second": 103.247,
+      "eval_steps_per_second": 1.652,
       "step": 1780
     },
     {
       "epoch": 20.0,
       "step": 1780,
       "total_flos": 0.0,
+      "train_loss": 0.16565035152971075,
+      "train_runtime": 3332.9842,
+      "train_samples_per_second": 33.976,
+      "train_steps_per_second": 0.534
     }
   ],
   "logging_steps": 25,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a833d6b8877da24229a846f77bfc460ab88620d8d896555622b43c3b2361c829
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:05c8cfbfdac1a6fbec5f480d224bdc6c1661cce2f8a79aa338338c61cdc82d55
 size 5240