Mitchins
/

tinybytecnn-fiction-classifier

@@ -18,13 +18,13 @@ metrics:
 - f1
 - roc_auc
 model-index:
-- name: TinyByteCNN-Fiction-Detector
   results:
   - task:
       type: text-classification
       name: Fiction vs Non-Fiction Classification
     dataset:
-      name: Custom Fiction/Non-Fiction Dataset
       type: custom
       split: validation
     metrics:
@@ -37,6 +37,20 @@ model-index:
     - type: roc_auc
       value: 99.99
       name: ROC AUC
 ---
 # TinyByteCNN Fiction vs Non-Fiction Detector
@@ -131,17 +145,42 @@ The model was trained on a diverse dataset of 85,000 samples (60k train, 15k val
 | ROC AUC | 0.9999 |
 | Loss | 0.1194 |
-### Test Samples by Category (12 curated samples)
-| Category | Samples | Accuracy | Avg Confidence |
-|----------|---------|----------|----------------|
-| General Fiction | 3 | 100% | 91.4% |
-| Textbook | 3 | 100% | 97.8% |
-| News Articles | 3 | 100% | 97.9% |
-| Journal Articles | 3 | 100% | 97.6% |
-| **Overall** | **12** | **100%** | **96.2%** |
-The model achieved perfect classification across all categories, including diverse journal types (financial news, scientific research, and personal travel logs).
 ### Detailed Test Results

 - f1
 - roc_auc
 model-index:
+- name: TinyByteCNN-Fiction-Classifier
   results:
   - task:
       type: text-classification
       name: Fiction vs Non-Fiction Classification
     dataset:
+      name: Custom Fiction/Non-Fiction Dataset (85k samples)
       type: custom
       split: validation
     metrics:
     - type: roc_auc
       value: 99.99
       name: ROC AUC
+  - task:
+      type: text-classification
+      name: Curated Test Samples
+    dataset:
+      name: 18 Diverse Fiction/Non-Fiction Samples
+      type: curated
+      split: test
+    metrics:
+    - type: accuracy
+      value: 100.0
+      name: Test Accuracy
+    - type: confidence_avg
+      value: 96.3
+      name: Average Confidence
 ---
 # TinyByteCNN Fiction vs Non-Fiction Detector
 | ROC AUC | 0.9999 |
 | Loss | 0.1194 |
+### Detailed Test Results on 18 Curated Samples
+The model achieved **100% accuracy** across all categories, but shows interesting confidence patterns:
+| Category | Sample Title/Type | True Label | Predicted | Confidence | Analysis |
+|----------|------------------|------------|-----------|------------|----------|
+| **FICTION - General** | | | | | |
+| Literary | Lighthouse Keeper Storm | Fiction | Fiction | **79.8%** | ⚠️ **Lowest confidence** - realistic setting |
+| Sci-Fi | Time Travel Bedroom | Fiction | Fiction | 97.2% | ✅ Clear fantastical elements |
+| Mystery | Detective Rose Case | Fiction | Fiction | 97.3% | ✅ Strong narrative structure |
+| **FICTION - Children's** | | | | | |
+| Animal Tale | Benny's Carrot Problem | Fiction | Fiction | 97.1% | ✅ Clear storytelling markers |
+| Fantasy | Princess Luna's Paintings | Fiction | Fiction | 97.3% | ✅ Magical elements detected |
+| Magical | Tommy's Dream Sprites | Fiction | Fiction | **96.0%** | ⚠️ Lower confidence - whimsical tone |
+| **FICTION - Fantasy** | | | | | |
+| Epic Fantasy | Shadowgate & Void Lords | Fiction | Fiction | 97.4% | ✅ High fantasy vocabulary |
+| Magic System | Moonlight Weaver Elara | Fiction | Fiction | 96.8% | ✅ Complex world-building |
+| Urban Fantasy | Dragon Memory Markets | Fiction | Fiction | 97.3% | ✅ Supernatural commerce |
+| **NON-FICTION - Academic** | | | | | |
+| Biology | Photosynthesis Process | Non-Fiction | Non-Fiction | 97.8% | ✅ Technical terminology |
+| Mathematics | Calculus Theorem | Non-Fiction | Non-Fiction | 97.8% | ✅ Mathematical concepts |
+| Economics | Market Equilibrium | Non-Fiction | Non-Fiction | 97.9% | ✅ Economic theory |
+| **NON-FICTION - News** | | | | | |
+| Financial | Federal Reserve Decision | Non-Fiction | Non-Fiction | 97.8% | ✅ Factual reporting style |
+| Local Gov | Homeless Crisis Plan | Non-Fiction | Non-Fiction | 97.9% | ✅ Policy announcement format |
+| Science | Exoplanet Discovery | Non-Fiction | Non-Fiction | 97.9% | ✅ Research reporting |
+| **NON-FICTION - Journals** | | | | | |
+| Financial | Wall Street Journal Market | Non-Fiction | Non-Fiction | 97.7% | ✅ Professional journalism |
+| Scientific | Nature Research Report | Non-Fiction | Non-Fiction | 97.7% | ✅ Academic publication style |
+| Personal | Kyoto Travel Log | Non-Fiction | Non-Fiction | **97.5%** | ⚠️ Slightly lower - personal narrative |
+### Key Insights:
+- **Weakest Performance**: Realistic literary fiction (79.8% confidence) - the lighthouse story lacks obvious fantastical elements
+- **Strongest Performance**: Academic/news content (97.8-97.9% confidence) - clear technical/factual language
+- **Edge Cases**: Personal narratives and whimsical children's stories show slightly lower confidence
+- **Perfect Accuracy**: 18/18 samples correctly classified despite confidence variations
 ### Detailed Test Results