Ottimizzare la cross‑entropy: tecniche avanzate per il training

Regolarizzazione con L2 e dropout

L2 penalizza i pesi elevati, riducendo l’overfitting. Il dropout randomizza la disattivazione di neuroni durante il training, forzando il modello a non dipendere da singoli percorsi.

Entrambe le tecniche si integrano con la cross‑entropy senza alterarne la forma matematica, ma migliorano la generalizzazione.

Scheduling del learning rate

Ridurre gradualmente il learning rate (es. cosine annealing) permette al modello di stabilizzarsi nella fase finale dell’addestramento, evitando oscillazioni e convergenza in minimi locali.

Validazione con hold‑out e early stopping

Separare un set di validazione per monitorare la loss reale.
Interrompere l’addestramento quando la perdita non migliora per N epoche.