Ivanrs commited on
Commit
1e5dae9
·
verified ·
1 Parent(s): 77d3d05

CV-INSIDE/vit-base-kidney-stone

Browse files
README.md ADDED
@@ -0,0 +1,93 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ base_model: google/vit-base-patch16-224-in21k
4
+ tags:
5
+ - generated_from_trainer
6
+ datasets:
7
+ - imagefolder
8
+ metrics:
9
+ - accuracy
10
+ - precision
11
+ - recall
12
+ - f1
13
+ model-index:
14
+ - name: vit-base-kidney-stone
15
+ results:
16
+ - task:
17
+ name: Image Classification
18
+ type: image-classification
19
+ dataset:
20
+ name: imagefolder
21
+ type: imagefolder
22
+ config: default
23
+ split: test
24
+ args: default
25
+ metrics:
26
+ - name: Accuracy
27
+ type: accuracy
28
+ value: 0.8616666666666667
29
+ - name: Precision
30
+ type: precision
31
+ value: 0.8822395663345405
32
+ - name: Recall
33
+ type: recall
34
+ value: 0.8616666666666667
35
+ - name: F1
36
+ type: f1
37
+ value: 0.862283860702826
38
+ ---
39
+
40
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
41
+ should probably proofread and complete it, then remove this comment. -->
42
+
43
+ # vit-base-kidney-stone
44
+
45
+ This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
46
+ It achieves the following results on the evaluation set:
47
+ - Loss: 0.4868
48
+ - Accuracy: 0.8617
49
+ - Precision: 0.8822
50
+ - Recall: 0.8617
51
+ - F1: 0.8623
52
+
53
+ ## Model description
54
+
55
+ More information needed
56
+
57
+ ## Intended uses & limitations
58
+
59
+ More information needed
60
+
61
+ ## Training and evaluation data
62
+
63
+ More information needed
64
+
65
+ ## Training procedure
66
+
67
+ ### Training hyperparameters
68
+
69
+ The following hyperparameters were used during training:
70
+ - learning_rate: 0.0002
71
+ - train_batch_size: 32
72
+ - eval_batch_size: 8
73
+ - seed: 42
74
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
75
+ - lr_scheduler_type: linear
76
+ - num_epochs: 1
77
+ - mixed_precision_training: Native AMP
78
+
79
+ ### Training results
80
+
81
+ | Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision | Recall | F1 |
82
+ |:-------------:|:-----:|:----:|:---------------:|:--------:|:---------:|:------:|:------:|
83
+ | 0.207 | 0.33 | 100 | 0.5822 | 0.8237 | 0.8413 | 0.8237 | 0.8268 |
84
+ | 0.1275 | 0.67 | 200 | 0.5722 | 0.8267 | 0.8338 | 0.8267 | 0.8287 |
85
+ | 0.0313 | 1.0 | 300 | 0.4868 | 0.8617 | 0.8822 | 0.8617 | 0.8623 |
86
+
87
+
88
+ ### Framework versions
89
+
90
+ - Transformers 4.37.2
91
+ - Pytorch 2.1.1
92
+ - Datasets 3.1.0
93
+ - Tokenizers 0.15.2
all_results.json ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "eval_accuracy": 0.8616666666666667,
4
+ "eval_f1": 0.862283860702826,
5
+ "eval_loss": 0.4867922067642212,
6
+ "eval_precision": 0.8822395663345405,
7
+ "eval_recall": 0.8616666666666667,
8
+ "eval_runtime": 42.1824,
9
+ "eval_samples_per_second": 56.896,
10
+ "eval_steps_per_second": 7.112,
11
+ "train_loss": 0.2792618449529012,
12
+ "train_runtime": 263.2327,
13
+ "train_samples_per_second": 36.47,
14
+ "train_steps_per_second": 1.14
15
+ }
config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "google/vit-base-patch16-224-in21k",
3
+ "architectures": [
4
+ "ViTForImageClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "encoder_stride": 16,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.0,
10
+ "hidden_size": 768,
11
+ "id2label": {
12
+ "0": "MIX-Subtype_IVa",
13
+ "1": "MIX-Subtype_IVa2",
14
+ "2": "MIX-Subtype_IVc",
15
+ "3": "MIX-Subtype_IVd",
16
+ "4": "MIX-Subtype_Ia",
17
+ "5": "MIX-Subtype_Va"
18
+ },
19
+ "image_size": 224,
20
+ "initializer_range": 0.02,
21
+ "intermediate_size": 3072,
22
+ "label2id": {
23
+ "MIX-Subtype_IVa": "0",
24
+ "MIX-Subtype_IVa2": "1",
25
+ "MIX-Subtype_IVc": "2",
26
+ "MIX-Subtype_IVd": "3",
27
+ "MIX-Subtype_Ia": "4",
28
+ "MIX-Subtype_Va": "5"
29
+ },
30
+ "layer_norm_eps": 1e-12,
31
+ "model_type": "vit",
32
+ "num_attention_heads": 12,
33
+ "num_channels": 3,
34
+ "num_hidden_layers": 12,
35
+ "patch_size": 16,
36
+ "problem_type": "single_label_classification",
37
+ "qkv_bias": true,
38
+ "torch_dtype": "float32",
39
+ "transformers_version": "4.37.2"
40
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4db40a86ba1fd0e32267b43f9124056d79ff2f5f33d83255f91fdb563f0056aa
3
+ size 343236280
preprocessor_config.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "do_rescale": true,
4
+ "do_resize": true,
5
+ "image_mean": [
6
+ 0.5,
7
+ 0.5,
8
+ 0.5
9
+ ],
10
+ "image_processor_type": "ViTFeatureExtractor",
11
+ "image_std": [
12
+ 0.5,
13
+ 0.5,
14
+ 0.5
15
+ ],
16
+ "resample": 2,
17
+ "rescale_factor": 0.00392156862745098,
18
+ "size": {
19
+ "height": 224,
20
+ "width": 224
21
+ }
22
+ }
test_results.json ADDED
@@ -0,0 +1,11 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "eval_accuracy": 0.8616666666666667,
4
+ "eval_f1": 0.862283860702826,
5
+ "eval_loss": 0.4867922067642212,
6
+ "eval_precision": 0.8822395663345405,
7
+ "eval_recall": 0.8616666666666667,
8
+ "eval_runtime": 42.1824,
9
+ "eval_samples_per_second": 56.896,
10
+ "eval_steps_per_second": 7.112
11
+ }
train_results.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 1.0,
3
+ "train_loss": 0.2792618449529012,
4
+ "train_runtime": 263.2327,
5
+ "train_samples_per_second": 36.47,
6
+ "train_steps_per_second": 1.14
7
+ }
trainer_state.json ADDED
@@ -0,0 +1,426 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.4867922067642212,
3
+ "best_model_checkpoint": "./vit-base-kidney-stone\\checkpoint-300",
4
+ "epoch": 1.0,
5
+ "eval_steps": 100,
6
+ "global_step": 300,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.02,
13
+ "learning_rate": 0.00019666666666666666,
14
+ "loss": 1.7127,
15
+ "step": 5
16
+ },
17
+ {
18
+ "epoch": 0.03,
19
+ "learning_rate": 0.00019333333333333333,
20
+ "loss": 1.4819,
21
+ "step": 10
22
+ },
23
+ {
24
+ "epoch": 0.05,
25
+ "learning_rate": 0.00019,
26
+ "loss": 1.196,
27
+ "step": 15
28
+ },
29
+ {
30
+ "epoch": 0.07,
31
+ "learning_rate": 0.0001866666666666667,
32
+ "loss": 0.9416,
33
+ "step": 20
34
+ },
35
+ {
36
+ "epoch": 0.08,
37
+ "learning_rate": 0.00018333333333333334,
38
+ "loss": 0.7936,
39
+ "step": 25
40
+ },
41
+ {
42
+ "epoch": 0.1,
43
+ "learning_rate": 0.00018,
44
+ "loss": 0.7043,
45
+ "step": 30
46
+ },
47
+ {
48
+ "epoch": 0.12,
49
+ "learning_rate": 0.00017666666666666666,
50
+ "loss": 0.8164,
51
+ "step": 35
52
+ },
53
+ {
54
+ "epoch": 0.13,
55
+ "learning_rate": 0.00017333333333333334,
56
+ "loss": 0.6153,
57
+ "step": 40
58
+ },
59
+ {
60
+ "epoch": 0.15,
61
+ "learning_rate": 0.00017,
62
+ "loss": 0.5327,
63
+ "step": 45
64
+ },
65
+ {
66
+ "epoch": 0.17,
67
+ "learning_rate": 0.0001666666666666667,
68
+ "loss": 0.5316,
69
+ "step": 50
70
+ },
71
+ {
72
+ "epoch": 0.18,
73
+ "learning_rate": 0.00016333333333333334,
74
+ "loss": 0.442,
75
+ "step": 55
76
+ },
77
+ {
78
+ "epoch": 0.2,
79
+ "learning_rate": 0.00016,
80
+ "loss": 0.4206,
81
+ "step": 60
82
+ },
83
+ {
84
+ "epoch": 0.22,
85
+ "learning_rate": 0.00015666666666666666,
86
+ "loss": 0.3947,
87
+ "step": 65
88
+ },
89
+ {
90
+ "epoch": 0.23,
91
+ "learning_rate": 0.00015333333333333334,
92
+ "loss": 0.3422,
93
+ "step": 70
94
+ },
95
+ {
96
+ "epoch": 0.25,
97
+ "learning_rate": 0.00015000000000000001,
98
+ "loss": 0.3973,
99
+ "step": 75
100
+ },
101
+ {
102
+ "epoch": 0.27,
103
+ "learning_rate": 0.00014666666666666666,
104
+ "loss": 0.302,
105
+ "step": 80
106
+ },
107
+ {
108
+ "epoch": 0.28,
109
+ "learning_rate": 0.00014333333333333334,
110
+ "loss": 0.2885,
111
+ "step": 85
112
+ },
113
+ {
114
+ "epoch": 0.3,
115
+ "learning_rate": 0.00014,
116
+ "loss": 0.1784,
117
+ "step": 90
118
+ },
119
+ {
120
+ "epoch": 0.32,
121
+ "learning_rate": 0.00013666666666666666,
122
+ "loss": 0.2273,
123
+ "step": 95
124
+ },
125
+ {
126
+ "epoch": 0.33,
127
+ "learning_rate": 0.00013333333333333334,
128
+ "loss": 0.207,
129
+ "step": 100
130
+ },
131
+ {
132
+ "epoch": 0.33,
133
+ "eval_accuracy": 0.82375,
134
+ "eval_f1": 0.8267992833893669,
135
+ "eval_loss": 0.582241415977478,
136
+ "eval_precision": 0.8413405833504677,
137
+ "eval_recall": 0.82375,
138
+ "eval_runtime": 40.0025,
139
+ "eval_samples_per_second": 59.996,
140
+ "eval_steps_per_second": 7.5,
141
+ "step": 100
142
+ },
143
+ {
144
+ "epoch": 0.35,
145
+ "learning_rate": 0.00013000000000000002,
146
+ "loss": 0.1732,
147
+ "step": 105
148
+ },
149
+ {
150
+ "epoch": 0.37,
151
+ "learning_rate": 0.00012666666666666666,
152
+ "loss": 0.2279,
153
+ "step": 110
154
+ },
155
+ {
156
+ "epoch": 0.38,
157
+ "learning_rate": 0.00012333333333333334,
158
+ "loss": 0.1756,
159
+ "step": 115
160
+ },
161
+ {
162
+ "epoch": 0.4,
163
+ "learning_rate": 0.00012,
164
+ "loss": 0.143,
165
+ "step": 120
166
+ },
167
+ {
168
+ "epoch": 0.42,
169
+ "learning_rate": 0.00011666666666666668,
170
+ "loss": 0.2222,
171
+ "step": 125
172
+ },
173
+ {
174
+ "epoch": 0.43,
175
+ "learning_rate": 0.00011333333333333334,
176
+ "loss": 0.1897,
177
+ "step": 130
178
+ },
179
+ {
180
+ "epoch": 0.45,
181
+ "learning_rate": 0.00011000000000000002,
182
+ "loss": 0.2283,
183
+ "step": 135
184
+ },
185
+ {
186
+ "epoch": 0.47,
187
+ "learning_rate": 0.00010666666666666667,
188
+ "loss": 0.1815,
189
+ "step": 140
190
+ },
191
+ {
192
+ "epoch": 0.48,
193
+ "learning_rate": 0.00010333333333333334,
194
+ "loss": 0.174,
195
+ "step": 145
196
+ },
197
+ {
198
+ "epoch": 0.5,
199
+ "learning_rate": 0.0001,
200
+ "loss": 0.1429,
201
+ "step": 150
202
+ },
203
+ {
204
+ "epoch": 0.52,
205
+ "learning_rate": 9.666666666666667e-05,
206
+ "loss": 0.0953,
207
+ "step": 155
208
+ },
209
+ {
210
+ "epoch": 0.53,
211
+ "learning_rate": 9.333333333333334e-05,
212
+ "loss": 0.1442,
213
+ "step": 160
214
+ },
215
+ {
216
+ "epoch": 0.55,
217
+ "learning_rate": 9e-05,
218
+ "loss": 0.1944,
219
+ "step": 165
220
+ },
221
+ {
222
+ "epoch": 0.57,
223
+ "learning_rate": 8.666666666666667e-05,
224
+ "loss": 0.1636,
225
+ "step": 170
226
+ },
227
+ {
228
+ "epoch": 0.58,
229
+ "learning_rate": 8.333333333333334e-05,
230
+ "loss": 0.1008,
231
+ "step": 175
232
+ },
233
+ {
234
+ "epoch": 0.6,
235
+ "learning_rate": 8e-05,
236
+ "loss": 0.1728,
237
+ "step": 180
238
+ },
239
+ {
240
+ "epoch": 0.62,
241
+ "learning_rate": 7.666666666666667e-05,
242
+ "loss": 0.0754,
243
+ "step": 185
244
+ },
245
+ {
246
+ "epoch": 0.63,
247
+ "learning_rate": 7.333333333333333e-05,
248
+ "loss": 0.0634,
249
+ "step": 190
250
+ },
251
+ {
252
+ "epoch": 0.65,
253
+ "learning_rate": 7e-05,
254
+ "loss": 0.0519,
255
+ "step": 195
256
+ },
257
+ {
258
+ "epoch": 0.67,
259
+ "learning_rate": 6.666666666666667e-05,
260
+ "loss": 0.1275,
261
+ "step": 200
262
+ },
263
+ {
264
+ "epoch": 0.67,
265
+ "eval_accuracy": 0.8266666666666667,
266
+ "eval_f1": 0.8287125800085143,
267
+ "eval_loss": 0.572192907333374,
268
+ "eval_precision": 0.8337568888460007,
269
+ "eval_recall": 0.8266666666666667,
270
+ "eval_runtime": 40.0669,
271
+ "eval_samples_per_second": 59.9,
272
+ "eval_steps_per_second": 7.487,
273
+ "step": 200
274
+ },
275
+ {
276
+ "epoch": 0.68,
277
+ "learning_rate": 6.333333333333333e-05,
278
+ "loss": 0.0879,
279
+ "step": 205
280
+ },
281
+ {
282
+ "epoch": 0.7,
283
+ "learning_rate": 6e-05,
284
+ "loss": 0.0707,
285
+ "step": 210
286
+ },
287
+ {
288
+ "epoch": 0.72,
289
+ "learning_rate": 5.666666666666667e-05,
290
+ "loss": 0.0993,
291
+ "step": 215
292
+ },
293
+ {
294
+ "epoch": 0.73,
295
+ "learning_rate": 5.333333333333333e-05,
296
+ "loss": 0.0539,
297
+ "step": 220
298
+ },
299
+ {
300
+ "epoch": 0.75,
301
+ "learning_rate": 5e-05,
302
+ "loss": 0.0641,
303
+ "step": 225
304
+ },
305
+ {
306
+ "epoch": 0.77,
307
+ "learning_rate": 4.666666666666667e-05,
308
+ "loss": 0.0443,
309
+ "step": 230
310
+ },
311
+ {
312
+ "epoch": 0.78,
313
+ "learning_rate": 4.3333333333333334e-05,
314
+ "loss": 0.0532,
315
+ "step": 235
316
+ },
317
+ {
318
+ "epoch": 0.8,
319
+ "learning_rate": 4e-05,
320
+ "loss": 0.0562,
321
+ "step": 240
322
+ },
323
+ {
324
+ "epoch": 0.82,
325
+ "learning_rate": 3.6666666666666666e-05,
326
+ "loss": 0.0919,
327
+ "step": 245
328
+ },
329
+ {
330
+ "epoch": 0.83,
331
+ "learning_rate": 3.3333333333333335e-05,
332
+ "loss": 0.0582,
333
+ "step": 250
334
+ },
335
+ {
336
+ "epoch": 0.85,
337
+ "learning_rate": 3e-05,
338
+ "loss": 0.0633,
339
+ "step": 255
340
+ },
341
+ {
342
+ "epoch": 0.87,
343
+ "learning_rate": 2.6666666666666667e-05,
344
+ "loss": 0.0591,
345
+ "step": 260
346
+ },
347
+ {
348
+ "epoch": 0.88,
349
+ "learning_rate": 2.3333333333333336e-05,
350
+ "loss": 0.039,
351
+ "step": 265
352
+ },
353
+ {
354
+ "epoch": 0.9,
355
+ "learning_rate": 2e-05,
356
+ "loss": 0.0323,
357
+ "step": 270
358
+ },
359
+ {
360
+ "epoch": 0.92,
361
+ "learning_rate": 1.6666666666666667e-05,
362
+ "loss": 0.0513,
363
+ "step": 275
364
+ },
365
+ {
366
+ "epoch": 0.93,
367
+ "learning_rate": 1.3333333333333333e-05,
368
+ "loss": 0.0829,
369
+ "step": 280
370
+ },
371
+ {
372
+ "epoch": 0.95,
373
+ "learning_rate": 1e-05,
374
+ "loss": 0.0354,
375
+ "step": 285
376
+ },
377
+ {
378
+ "epoch": 0.97,
379
+ "learning_rate": 6.666666666666667e-06,
380
+ "loss": 0.0667,
381
+ "step": 290
382
+ },
383
+ {
384
+ "epoch": 0.98,
385
+ "learning_rate": 3.3333333333333333e-06,
386
+ "loss": 0.0408,
387
+ "step": 295
388
+ },
389
+ {
390
+ "epoch": 1.0,
391
+ "learning_rate": 0.0,
392
+ "loss": 0.0313,
393
+ "step": 300
394
+ },
395
+ {
396
+ "epoch": 1.0,
397
+ "eval_accuracy": 0.8616666666666667,
398
+ "eval_f1": 0.862283860702826,
399
+ "eval_loss": 0.4867922067642212,
400
+ "eval_precision": 0.8822395663345405,
401
+ "eval_recall": 0.8616666666666667,
402
+ "eval_runtime": 40.1988,
403
+ "eval_samples_per_second": 59.703,
404
+ "eval_steps_per_second": 7.463,
405
+ "step": 300
406
+ },
407
+ {
408
+ "epoch": 1.0,
409
+ "step": 300,
410
+ "total_flos": 7.43949770489856e+17,
411
+ "train_loss": 0.2792618449529012,
412
+ "train_runtime": 263.2327,
413
+ "train_samples_per_second": 36.47,
414
+ "train_steps_per_second": 1.14
415
+ }
416
+ ],
417
+ "logging_steps": 5,
418
+ "max_steps": 300,
419
+ "num_input_tokens_seen": 0,
420
+ "num_train_epochs": 1,
421
+ "save_steps": 100,
422
+ "total_flos": 7.43949770489856e+17,
423
+ "train_batch_size": 32,
424
+ "trial_name": null,
425
+ "trial_params": null
426
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:471cc49716b6ab271a0f32070cdaedac19120ba2261dd678da46afb3ab6bcac0
3
+ size 4728