Il teorema di Bayes

La definizione di probabilità condizionata ci permette di ottenere immediatamente il seguente fondamentale

Teorema 2 (di Bayes)   Sia $\{\Omega,\mathcal{Y},p\}$ uno spazio probabilizzato. Siamo gli eventi $y=y_i$ (abbreviato con $y_i$) con $i=1..n$ un sistema completo di eventi di $\Omega$ e $p(y_i)>0 \; \forall i=1..n$.

In questo caso $\forall y_i \in \mathcal{Y}$ con $p(y_i)>0$ si avrà che:

\begin{displaymath}
p(y_i\vert x)=\frac{p(y_i)p(x\vert y_i)}{\sum_{j=1}^n p(y_j)p(x\vert y_j)}
\end{displaymath} (4.7)

e questo $\forall i=1..n$.

Il teorema di Bayes costituisce uno degli elementi fondamentali dell'approccio soggettivista, o personale, alle probabilità e all'inferenza statistica. Il sistema di alternative $y_i$ con $i=1..n$ viene spesso interpretato come un insieme di cause e il teorema di Bayes, note le probabilità iniziali delle diverse cause, permette di assegnare probabilità alle cause dato un effetto $x$. Le probabilità $p(y_i)$ con $i=1..n$ possono essere interpretate come le conoscenze a priori (solitamente indicate con $\pi_i$), ossia quelle che si hanno prima di effettuare un esperimento statistico. Le probabilità $p(x\vert y_i)$ con $i=1..n$ vengono interpretate come la verosimiglianza o informazione relativa a $x$ acquisibile eseguendo un opportuno esperimento statistico. La formula di Bayes suggerisce dunque un meccanismo di apprendimento dall'esperienza: coniugando alcune conoscenze a priori sull'evento $y_i$ date da $p(y_i)$ con quelle acquisibili da un esperimento statistico date da $p(x\vert y_i)$ si perviene ad una migliore conoscenza data da $p(x_i\vert y)$ dell'evento $x_i$ detta anche probabilità a posteriori dopo aver eseguito l'esperimento.

Possiamo avere, per esempio, la distribuzione di probabilità per il colore delle mele, cosı come quella per le arance. Per usare la notazione introdotta in precedenza nel teorema, chiamiamo $y_{1}$ lo stato in cui la frutta sia una mela, $y_{2}$ la condizione in cui la frutta sia un'arancia e sia la $x$ una variabile casuale che rappresenti il colore della frutta. Con questa notazione, $p(x\vert y_1)$ rappresenta la funzione densità per l'evento colore $x$ subordinato al fatto che lo stato sia mela, $p(x\vert y_2)$ che sia arancia.

In fase di addestramento è possibile costruire la distribuzione di probabilità di $p(x\vert y_i)$ per $i$ mela o arancia. Oltre a questa conoscenza sono sempre note le probabilità a priori $p(y_{1})$ e $p(y_{2})$, che rappresentano semplicemente il numero totale di mele contro il numero di arance.

Quello che stiamo cercando è una formula che dica quale è la probabilità di una frutta di essere mela o un'arancia, avendo osservato un certo colore $x$.

La formula di Bayes (4.7) permette proprio questo:

\begin{displaymath}
p(y_i\vert x) = \frac{p(x\vert y_i)p(y_i)}{p(x)}
\end{displaymath} (4.8)

date le conoscenze a priori, permette di calcolare la probabilità a posteriori che lo stato della frutta sia $y_i$ data la feature misurata $x$. Pertanto, osservato un certo $x$ sul nastro trasportatore, calcolati $p(y_1\vert x)$ e $p(y_2\vert x)$, si sarà inclini a decidere che la frutta è una mela se il primo valore sarà maggiore del secondo (o viceversa):

\begin{displaymath}
p(y_1\vert x) > p(y_2\vert x)
\end{displaymath}

ovvero:

\begin{displaymath}
p(x\vert y_1)p(y_1) > p(x\vert y_2)p(y_2)
\end{displaymath}

In generale per $n$ classi lo stimatore bayesiano si può definire come una discrimant function:

\begin{displaymath}
f(x) = \hat{y}(x) = \argmax_i p(y_i\vert x) = \argmax_i p(x\vert y_i) \pi_i
\end{displaymath} (4.9)

È anche possibile calcolare un indice, data la conoscenza a priori del problema, di quanto questo ragionamento sarà soggetto ad errori. La probabilità di compiere un errore data una feature osservata $x$ sarà dipendente dal valore massimo delle $n$ curve della distribuzione in $x$:

\begin{displaymath}
p(error\vert x) = 1 - \max \left[ p(y_1\vert x), p(y_2\vert x), \dots, p(y_n\vert x) \right]
\end{displaymath} (4.10)

Paolo medici
2025-03-12