Softmax: trasformare logits in probabilità

La softmax normalizza l’output di un modello, trasformando vettori non limitati (logits) in una distribuzione di probabilità che somma a 1. La formula è softmax(z_i)=e^{z_i}/\sum_j e^{z_j}.

L’utilizzo con la cross‑entropy permette di calcolare gradiente chiaro, essenziale per l’addestramento tramite backpropagation.

Esempio pratico

Supponiamo un modello con 3 classi. I logits sono [2.0, 1.0, 0.1]. La softmax produce circa [0.71, 0.24, 0.05]; se la vera classe è la prima, la loss sarà -log(0.71)≈0.34.

Vantaggi combinati

  • Riduzione del rischio di saturazione dei gradienti
  • Migliore interpretabilità delle predizioni
  • Compatibilità con algoritmi di ottimizzazione come Adam e RMSprop