Classificazione multiclasse

SVM ritorna una funzione obiettivo $f(\mathbf{x}_i, \mathbf{W}, b) = \mathbf{W} \mathbf{x}_i + b$ il cui valore assoluto non ha un vero significato in quanto è un uscita non calibrata. L'estensione al caso multiclasse è difficile in quanto le differenti funzioni obiettivo per ogni classe non sono tra loro direttamente confrontabili.

Il concetto di hinge loss può però essere esteso al caso multiclasse. In questo caso viene definita una SVM Loss del tipo

$\begin{displaymath} \ell_i = \sum_{j \neq y_i} \begin{cases} 0, & \text{if }... ... \end{cases} = \sum_{j \neq y_i} \max (0, s_j - s_{y_i} +1 ) \end{displaymath}$

(4.41)

dove con $s_j = f_j(\mathbf{x}_i)$ è stato indicato, per semplicità, la funzione obiettivo associato alla classe

per il campione

-esimo.

Un'altra metrica simile è la squared hinge loss:

$\begin{displaymath} \ell_i = \sum_{j \neq y_i} \max \left(0, s_j - s_{y_i} + 1 \right)^{2} \end{displaymath}$

(4.42)

Viene infine definita una funzione perdita sull'intero dataset come media

$\begin{displaymath} \mathcal{L} = \frac{1}{n} \sum^{n}_{i=1} \ell_i + \lambda R(\mathbf(W)) \end{displaymath}$

(4.43)

con l'opzionale termine di regolarizzazione sui pesi.

Una metrica differente, estesa al caso multiclasse, è la funzione esponenziale normalizzata Softmax:

$\begin{displaymath} \ell_i = - \log \frac{e^{s_{y_i} }}{\sum_j e^{s_j} } = - s_{y_i} + \log \sum_j e^{s_j} \end{displaymath}$

(4.44)

La funzione obiettivo

può essere interpretata come una probabilità non normalizzata logaritmica per ogni classe e perciò si può sostituire la funzione perdita cardano con la funzione perdita entropia incrociata (cross-entropy loss). Un classificatore Softmax minimizza l'entropia incrociata tra le classi e siccome minimizza la negative log likelihood della classe corretta può essere visto come uno stimatore a massima verosimiglianza. Nel caso Softmax il termine di regolarizzazione $R(\mathbf(W))$ può essere visto, da un punto di vista statistico, come un prior sui pesi: in questo caso è una stima Maximum a posteriori (MAP).

Paolo medici
2025-03-12