Il Maximum Likelihood estimator

Da un punto di vista statistico il vettore dei dati $\mathbf{x} = \left\{ x_1 \ldots x_n \right\}$ sono realizzazioni di una variabile aleatoria di una popolazione sconosciuta. Il compito dell'analisi dei dati è quella di individuare la popolazione che più probabilmente ha generato quei campioni. In statistica, ogni popolazione è identificata da una corrispondente distribuzione di probabilità e associata a ogni distribuzione di probabilità c'è una parametrizzazione unica $\boldsymbol\vartheta$: variando questi parametri deve essere generata una differente distribuzione di probabilità.

Sia $f( \mathbf{x} \vert \boldsymbol\vartheta)$ la funzione di densità di probabilità (PDF) che indica la probabilità di osservare $\mathbf {x}$ data una parametrizzazione $\boldsymbol\vartheta$. Se le osservazioni singole $x_i$ sono statisticamente indipendenti una dall'altra la PDF di $\mathbf {x}$ può essere espressa come prodotto delle singole PDF:

\begin{displaymath}
f( \mathbf{x} = \left\{ x_1 \ldots x_n \right\} \vert \bold...
...oldsymbol\vartheta) \ldots f_n(x_n \vert \boldsymbol\vartheta)
\end{displaymath} (2.53)

Data una parametrizzazione $\boldsymbol\vartheta$ è possibile definire una specifica PDF che mostra la probabilità di comparire di alcuni dati rispetto ad altri. Nel caso reale abbiamo esattamente il problema reciproco: i dati sono stati osservati e c'è da individuare quale $\boldsymbol\vartheta$ ha generato quella specifica PDF.

Definizione 9   Per risolvere il problema inverso, definiamo la funzione $\mathcal{L}: \boldsymbol\vartheta \mapsto [0, \infty)$, funzione di verosimiglianza (likelihood), definita come
\begin{displaymath}
\mathcal{L}(\boldsymbol\vartheta \vert \mathbf{x} ) = f (\m...
...rtheta) = \prod_{i=1}^{n} f_i (x_i \vert \boldsymbol\vartheta)
\end{displaymath} (2.54)

nel caso di osservazioni statisticamente indipendenti.

$\mathcal{L}( \boldsymbol\vartheta \vert \mathbf{x} )$ indica la verosimiglianza del parametro $\boldsymbol\vartheta$ a seguito della osservazione degli eventi $\mathbf {x}$.

Il principio dello stimatore a massima verosimiglianza (MLE) $\hat{\boldsymbol\vartheta}_{MLE}$, sviluppato originariamente da R.A. Fisher negli anni '20 del novecento, sceglie come migliore parametrizzazione quella che fa adattare meglio la distribuzione di probabilità generata con i dati osservati.

Nel caso di distribuzione di probabilità gaussiana è utile una ulteriore definizione.

Definizione 10   Sia $\ell$ la funzione di verosimiglianza logaritmica (log likelihood) definita come
\begin{displaymath}
\ell = \log \mathcal{L}(\boldsymbol\vartheta \vert x_1 \ldo...
..._n) = \sum_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta)
\end{displaymath} (2.55)

avendo sfruttato le proprietà del logaritmo.

La miglior stima dei parametri del modello è quella che massimizza la verosimiglianza, ovvero la verosimiglianza logaritmica

\begin{displaymath}
\hat{\boldsymbol\vartheta}_{ML} = \argmax_{\boldsymbol\vart...
...heta} \sum_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta)
\end{displaymath} (2.56)

siccome il logaritmo è una funzione monotona crescente.

È possibile trovare in letteratura, come stimatore ottimo, invece del massimo della funzione di verosimiglianza, il minimo dell'opposta

\begin{displaymath}
\hat{\boldsymbol\vartheta}_{ML} = \argmin_{\boldsymbol\vart...
...um_{i=1}^{n} \log f_i (x_i \vert \boldsymbol\vartheta) \right)
\end{displaymath} (2.57)

ovvero il minimo del negative log likelihood.

Questa formulazione risulta molto utile quando la distribuzione del rumore è gaussiana. Siano $(x_i,y_i)$ le realizzazioni della variabile aleatoria. Nel caso infatti di una generica funzione $y_i = g(x_i ; \boldsymbol\vartheta) + \epsilon$ con rumore a distribuzione normale, tempo costante e media nulla, la Likelihood è

\begin{displaymath}
\mathcal{L}(\boldsymbol\vartheta \vert \mathbf{x} ) = \prod...
...- g(x_i; \boldsymbol\vartheta ) \right)^2}{2 \sigma^2} \right)
\end{displaymath} (2.58)

e pertanto la MLE stimata attraverso il minimo della negative log likelihood si scrive come
\begin{displaymath}
\hat{\boldsymbol\vartheta}_{ML} = \argmin_{\boldsymbol\vart...
...=1}^{n} \left( y_i - g(x_i ; \boldsymbol\vartheta ) \right)^2
\end{displaymath} (2.59)

ovvero la tradizionale soluzione ai minimi quadrati è lo stimatore alla massima verosimiglianza in caso di rumore additivo gaussiano a media nulla.

Ora, le $m$ derivate parziali della log-verosimiglianza formano un vettore $m \times 1$

\begin{displaymath}
\mathbf{u}(\boldsymbol\beta) = \dfrac{\partial \ell(\boldsy...
...dots  \dfrac{\partial \ell} {\partial \beta_m}
\end{bmatrix}\end{displaymath} (2.60)

Il vettore $\mathbf{u}(\boldsymbol\beta)$ è chiamato score vector (o Fisher's score function) della log-verosimiglianza. Se la log-verosimiglianza è concava, lo stimatore alla massima verosimiglianza individua pertanto il punto per il quale
\begin{displaymath}
\mathbf{u}( \hat{ \boldsymbol\beta } ) = \mathbf{0}
\end{displaymath} (2.61)

I momenti di $\mathbf{u}(\boldsymbol\beta)$ soddisfano pertanto importanti proprietà: come abbiamo visto poco sopra la media di $\mathbf{u}(\boldsymbol\beta)$ calcolata nel punto di massima verosimiglianza è uguale a zero e la matrice di varianza-covarianza è
\begin{displaymath}
\var \left( \mathbf{u}(\boldsymbol\beta) \right) = \E \left[...
...ta_j \partial \beta_k} \right] = \mathcal{I}(\boldsymbol\beta)
\end{displaymath} (2.62)

La matrice $\mathcal{I}$, definita come il negativo dell'Hessiana, è chiamata expected Fisher information matrix e la sua inversa observed information matrix.



Subsections
Paolo medici
2025-03-12