Valutazione dei parametri del modello

Trascurando la presenza di outlier nei dati in ingresso su cui eseguire la regressione, rimangono come importanti questioni aperte sia quella di dare un giudizio su quanto è buono il modello ottenuto e allo stesso tempo fornire un indice su quanto tale stima sia distante dal modello vero, a causa degli errori sui dati in ingresso.

In questa sezione viene trattato ampiamente il caso non-lineare: il caso lineare è equivalente usando al posto dello Jacobiano $\mathbf{J}$ la matrice dei parametri $\mathbf{X}$ in parte già affrontato in sezione 2.7.

Sia $\mathbf{y}=\left(y_1, \ldots, y_n \right)^{\top}$ un vettore di realizzazioni di variabili aleatorie statisticamente indipendenti $y \in \mathbb{R}$ e $\boldsymbol\beta \in \mathbb{R}^m$ parametri del modello. Uno stimatore intuitivo della bontà del modello è il root-mean-squared residual error (RMSE), chiamato anche standard error of the regression:

\begin{displaymath}
s = \sqrt{ \frac{ \sum^{n}_{i=1} \left( y_{i} - \hat{y}_{i} \right)^{2} } {n} }
\end{displaymath} (3.67)

con $\hat{y}_i = f(\mathbf{x}_i, \hat{\boldsymbol\beta} )$ valore stimato grazie al modello $f$ da cui sono stati ricavati i parametri $\hat{\boldsymbol\beta}$. Normalmente si è già vista questa funzione espressa sotto forma del residuo $r_i = \mathbf{y}_i - \hat{\mathbf{y}}_i$. Se lo stimatore non è effetto da bias (come accade per esempio nella regressione ai minimi quadrati) $\E [ r_i ] = 0$. Pertanto nel caso in cui il rumore sulle osservazioni sia gaussiano a media nulla il valore di $s \geq \sigma$ e i due valori sono uguali quando il modello è ottimo.

Questo tuttavia non è un indice diretto della bontà della soluzione individuata ma solo quanto il modello trovato combacia con i dati in ingresso: si pensi ad esempio al caso limite dei sistemi non sovradimensionati dove il residuo sarà sempre zero, indipendentemente dalla quantità di rumore che agisce sulle singole osservazioni.

L'indice più adatto a stimare il modello è la matrice di varianza-covarianza dei parametri (Parameter Variances and Covariances matrix).

La propagazione in avanti della covarianza (covariance forward propagation) è stata già mostrata nella sezione 2.6 e, facendo un veloce rimando, esistono 3 metodi per eseguire tale operazione: `il primo è basato sulla approssimazione lineare del modello e coinvolge l'uso dello Jacobiano, il secondo è basato sulla più generica tecnica della simulazione Monte Carlo, e infine una via moderna alternativa, media tra le prime due, è la Unscent Transformation (sezione 2.12.5) che permette, empiricamente, stime fino al terzo ordine in caso di rumore gaussiano.

Il voler valutare la bontà dei parametri individuati $\hat{\boldsymbol\beta}$ data la covarianza del rumore stimata (Covariance Matrix Estimation) è esattamente il caso opposto perché richiede di calcolare la propagazione all'indietro della varianza (backward propagation). Infatti, ottenuta tale matrice di covarianza, è possibile definire un intervallo di confidenza nell'intorno di $\hat{\boldsymbol\beta}$.

Tale bontà della stima dei parametri $\hat{\boldsymbol\beta}$, nel caso non-lineare, può essere valutata in prima approssimazione attraverso l'inversione della versione linearizzata del modello (ma anche in questo caso tecniche come la Montecarlo o la UT possono essere utilizzate per stime più rigorose).

È possibile individuare la matrice di covarianza associata alla soluzione proposta $\hat{\boldsymbol\beta}$ nel caso in cui la funzione $f$ sia biunivoca e derivabile nell'intorno di tale soluzione. Sia pertanto $f : \mathbb{R}^m \to \mathbb{R}^n$ funzione multivariata multidimensionale, è possibile stimare il valor medio $\bar{\mathbf{r}} = \E \left[\mathbf{y} - f(\hat{\boldsymbol\beta}) \right] \approx \mathbf{0}$ e la matrice di cross-covarianza $\boldsymbol\Sigma_r$ dei residui allora la trasformazione inversa $f^{-1}$ avrà valor medio $\hat{\boldsymbol\beta}$ e matrice di covarianza

\begin{displaymath}
\Sigma_{\boldsymbol\beta} = (\mathbf{J}^{\top} \Sigma_r^{-1} \mathbf{J})^{-1}
\end{displaymath} (3.68)

con $\mathbf{J}$ Jacobiano del modello $f$ calcolato nel punto $\hat{\boldsymbol\beta}$:
\begin{displaymath}
J_{i,j} = \frac{\partial r_i}{\partial \beta_j } (\hat{\bold...
...frac{\partial f_i}{\partial \beta_j } (\hat{\boldsymbol\beta})
\end{displaymath} (3.69)

L'equazione (3.68) si ricava manipolando l'equazione (2.34), equazione che calcola la propagazione in avanti dell'incertezza.

Si noti che questo (l'inverso della matrice dell'informazione) è il limite inferiore di Cramer-Rao sulla covarianza che può avere uno stimatore corretto del parametro $\boldsymbol\beta$.

Nei casi in cui la trasformazione $f$ sia sottodeterminata, il rango dello Jacobiano $d$, con $d<m$, è chiamato numero dei parametri essenziali (essential parameters). In caso di trasformazione $f$ sottodeterminata la formula (3.68) non è invertibile ma è possibile dimostrare che la migliore approssimazione della matrice di covarianza può essere ottenuta attraverso l'uso della pseudo-inversa:

\begin{displaymath}
\Sigma_{\boldsymbol\beta} = (\mathbf{J}^{\top} \Sigma_r^{-1} \mathbf{J})^{+}
\end{displaymath}

Alternativamente è possibile eseguire una decomposizione QR con Pivot dello Jacobiano, individuare le colonne linearmente dipendenti (attraverso l'analisi della diagonale della matrice R) e rimuoverle durante l'inversione stessa della matrice.

Nel caso invece molto comune in cui $f$ sia una funzione scalare e il rumore di osservazione sia indipendente di varianza costante, la matrice di covarianza stimata asintoticamente (Asymptotic Covariance Matrix) si può scrivere in maniera più semplice come

\begin{displaymath}
\Sigma_{\boldsymbol\beta} = ( \mathbf{J}^{\top}\mathbf{J})^{-1} \sigma^{2}
\end{displaymath} (3.70)

con $\sigma^2$ varianza del rumore di osservazione avendo applicato l'ipotesi $\boldsymbol \Sigma_r = \sigma^2 \mathbf{I}$ valida in caso di realizzazioni indipendenti. Siccome $\mathbf{J}$ è funzione solo della geometria del problema, la matrice $( \mathbf{J}^{\top}\mathbf{J})^{-1}$ è anche essa sola funzione del problema e non delle osservazioni. Asintoticamente la stima tende a $\boldsymbol\beta = \mathcal{N} \left( \hat{\boldsymbol\beta}, \Sigma_{\boldsymbol\beta} \right)$. La matrice dello Jacobiano, in quanto indica quanto le uscite sono suscettibili dai parametri, è anche chiamata sensitivity matrix.

La stima del rumore di osservazione può essere empirica, ipotizzando per la legge dei grandi numeri $\sigma = s$, calcolata attraverso

\begin{displaymath}
\sigma^{2} \approx \frac{\sum_{i=1}^{n} r_i^2}{n-m}
\end{displaymath} (3.71)

`usando le statistiche a posteriori dell'errore sui dati $r_i$. Il denominatore $n-m$ rappresenta i gradi di libertà statistici del problema: in questo modo la varianza stimata è infinita quando il numero di incognite del modello equivale al numero di dati raccolti.

Lo stimatore di covarianza di Eicker-White è leggermente differente e viene lasciato al lettore il suo studio.

La matrice di varianza-covarianza dei parametri rappresenta l'elissoide dell'errore.

Una metrica utile per dare un voto al problema è la configurazione D-ottima (D-optimal design):

\begin{displaymath}
\det \left( \mathbf{J}^{\top}\mathbf{J} \right)^{-1}
\end{displaymath} (3.72)

che minimizza il determinante della matrice di varianza-covarianza, o nel caso opposto, che massimizza la matrice dell'informazione di Fisher:
\begin{displaymath}
\det \mathbf{F}\left( \boldsymbol\beta \right)
\end{displaymath} (3.73)

Geometricamente questo approccio minimizza il volume dell'elissoide dell'errore.

Altre metriche sono per esempio la configurazione E-ottima (E-optimal design) che consiste nel massimizzare il minimo autovalore della matrice di Fisher ovvero minimizzare il più grande autovalore della matrice di varianza-covarianza. Geometricamente questo minimizza il massimo diametro dell'elissoide.

Paolo medici
2025-03-12