Minimizzazione Empirica del Rischio

Il vincolo Soft Margin (4.26) può essere riscritto come
\begin{displaymath}
y_i f(\mathbf{x}_i) \ge 1 - \xi_i
\end{displaymath} (4.37)

dove $f(\mathbf{x}_i)$ può essere anche la generica funzione kernel. Questa disequazione è equivalente a
\begin{displaymath}
\xi_i \geq \max \left(0, 1 - y_i f(\mathbf{x}_i) \right)
\end{displaymath} (4.38)

siccome $\xi_i \ge 0$. La funzione di perdita (4.38) è chiamata funzione perdita cardine (Hinge Loss)
\begin{displaymath}
\ell(y, \hat{y}) = \max(0, 1 - y \hat{y} )
\end{displaymath} (4.39)

e ha il vantaggio di essere convessa e non differenziabile solo in 1. La hinge loss è sempre maggiore della funzione perdita 0/1.

Il problema di addestramento di SVM nel caso non linearmente separabile è equivalente a un problema di ottimizzazione, non vincolato, su $\mathbf{w}$ del tipo

\begin{displaymath}
\min_{\mathbf{w} \in \mathbb{R}^{d}} \Vert \mathbf{w} \Vert^2 + C \sum_i^{N} \ell \left( y_i, f(\mathbf{x}_i) \right)
\end{displaymath} (4.40)

La funzione obiettivo continua ad essere descritta in due parti chiaramente distinte: la prima è la regolarizzazione di Tikhonov e la seconda è la minimizzazione del rischio empirica con la funzione di perdita Cardine. SVM può essere pertanto visto come un classificatore lineare che ottimizza la funzione di perdita Cardine con una regolarizzazione L2.

I dati di ingresso $\mathbf{x}_i$ possono cadere in 3 diverse categorie:

Paolo medici
2025-03-12