Softmax: trasformare logits in probabilità
La softmax normalizza l’output di un modello, trasformando vettori non limitati (logits) in una distribuzione di probabilità che somma a 1. La formula è softmax(z_i)=e^{z_i}/\sum_j e^{z_j}.
L’utilizzo con la cross‑entropy permette di calcolare gradiente chiaro, essenziale per l’addestramento tramite backpropagation.
Esempio pratico
Supponiamo un modello con 3 classi. I logits sono [2.0, 1.0, 0.1]. La softmax produce circa [0.71, 0.24, 0.05]; se la vera classe è la prima, la loss sarà -log(0.71)≈0.34.
Vantaggi combinati
- Riduzione del rischio di saturazione dei gradienti
- Migliore interpretabilità delle predizioni
- Compatibilità con algoritmi di ottimizzazione come Adam e RMSprop