Regolarizzazione con L2 e dropout
L2 penalizza i pesi elevati, riducendo l’overfitting. Il dropout randomizza la disattivazione di neuroni durante il training, forzando il modello a non dipendere da singoli percorsi.
Entrambe le tecniche si integrano con la cross‑entropy senza alterarne la forma matematica, ma migliorano la generalizzazione.
Scheduling del learning rate
Ridurre gradualmente il learning rate (es. cosine annealing) permette al modello di stabilizzarsi nella fase finale dell’addestramento, evitando oscillazioni e convergenza in minimi locali.
Validazione con hold‑out e early stopping
- Separare un set di validazione per monitorare la loss reale.
- Interrompere l’addestramento quando la perdita non migliora per N epoche.