Regressione lineare ai minimi quadrati

Quando $f$ è una funzione lineare rispetto ai parametri $\boldsymbol\beta$ si parla di regressione lineare ai minimi quadrati (Linear Least Squares o Ordinary Least Squares OLS). Tale funzione può essere rappresentata nella forma di sistema lineare

\begin{displaymath}
y_i = \mathbf{x}_i \boldsymbol\beta + \varepsilon_i
\end{displaymath} (3.12)

dove $\boldsymbol\beta$ sono i parametri sconosciuti da ricavare e $\varepsilon_i$ è rumore additivo gaussiano bianco a media nulla. I parametri $\boldsymbol\beta$ sono i coefficienti della regressione: permettono di misurare l'associazione tra la variabile $\mathbf {x}$ e la variabile $y$.

Ogni osservazione è un vincolo e tutti i singoli vincoli possono essere raccolti in forma matriciale

\begin{displaymath}
\mathbf{y} = \mathbf{X} \boldsymbol\beta + \boldsymbol\varepsilon
\end{displaymath} (3.13)

$\mathbf{y} \in \mathbb{R}^n$ è il vettore delle risposte (variabili dipendenti), la matrice $\mathbf{X} \in \mathbb{R}^{n \times m}$ che raccoglie le variabili indipendenti (explanatory variables) viene chiamata design matrix, e infine $\boldsymbol\varepsilon$ è il vettore del rumore additivo a media nulla $\E[\boldsymbol\varepsilon]=0$ e varianza $\boldsymbol\Sigma$. Il vettore dei parametri $\boldsymbol\beta$ è chiamato Linear Projection Coefficient o Linear Predictor. La variabile casuale $\mathbf{y}$ è pertanto formata da una parte deterministica e da una parte stocastica.

L'obiettivo è quello di trovare l'iperpiano $\boldsymbol\beta$ in $m$ dimensioni che meglio si adatta ai dati $(\mathbf{y},\mathbf{X})$.

Il valore $\boldsymbol\beta$ che minimizza la funzione costo definita in equazione (3.6), limitatamente al caso di rumore sull'osservazione a valor medio nullo e varianza costante fra tutti i campioni, di fatto è il miglior stimatore lineare che minimizza la varianza (Best Linear Unbiased Estimator BLUE).

Definizione 11   Il Best Linear Unbiased Estimate (BLUE) di un parametro $\boldsymbol\beta$ basato su un set di dati $Y$ è
  1. una funzione lineare di $Y$, in modo che lo stimatore possa essere scritto come $\hat{\boldsymbol\beta} = \mathbf{A} Y$;
  2. deve essere unbiased ( $\E [\mathbf{A} Y]=0$),
  3. fra tutti gli stimatori lineari possibili è quello che produce la varianza minore.

Il teorema di Gauss-Markov dimostra che uno stimatore ai minimi quadrati è la miglior scelta tra tutti gli stimatori a minima varianza BLUE quando la varianza sull'osservazione è costante (homoscedastic).

La miglior stima ai minimi quadrati $\hat{\boldsymbol\beta}$ che minimizza la somma dei residui è la soluzione del problema lineare

\begin{displaymath}
\hat{\boldsymbol\beta} = \argmin_\mathbf{b} \Vert \boldsymbo...
...mathbf{X}^{\top} \mathbf{X})^{-1} \mathbf{X}^{\top} \mathbf{y}
\end{displaymath} (3.14)

Lo stesso risultato era già pervenuto nella sezione 1.1 riguardante la pseudoinversa di una matrice: una decomposizione SVD della matrice $\mathbf{X}$ ritorna anche la soluzione migliore dal punto di vista della propagazione degli errori di calcolo.

La matrice $\mathbf{P}$, definita come

\begin{displaymath}
\mathbf{P} = \mathbf{X} (\mathbf{X}^{\top} \mathbf{X} )^{-1} \mathbf{X}^{\top}
\end{displaymath} (3.15)

è una matrice di proiezione (projection matrix) che trasforma le uscite (response vector) $\mathbf{y}$ nella loro stima $\hat{\mathbf{y}}$ (stima dell'osservazione senza rumore):
\begin{displaymath}
\mathbf{P}\mathbf{y}_i = \mathbf{x}_i \hat{\boldsymbol\beta} = \hat{\mathbf{y}}_i
\end{displaymath} (3.16)

Grazie a questa proprietà, $\mathbf{P}$ è chiamata hat matrix.

Nel caso di rumore a varianza non costante tra i campioni osservati (heteroscedastic) la regressione a minimi quadrati pesata è la scelta BLUE

\begin{displaymath}
w_i = \frac{1}{\sigma_i}
\end{displaymath} (3.17)

con $w_i > 0$ che tengono conto le varie incertezze legate ad ogni osservazione $y_i$ così che $1/w_i$ sia la deviazione standard della misura i-esima. Inseriti i pesi $w_i$ in una matrice diagonale $\mathbf{W}$ si ottiene un nuovo sistema lineare dove ogni riga di fatto ha la medesima varianza di osservazione. La soluzione che minimizza $\boldsymbol\varepsilon$, può sempre essere espressa come
\begin{displaymath}
\hat{\boldsymbol\beta} = (\mathbf{W}\mathbf{X})^{+} \mathbf{W} \mathbf{y}
\end{displaymath} (3.18)

con $\mathbf{W}=\boldsymbol\Sigma^{-1}$.

Generalizzando ulteriormente, nel caso di rumore con varianza non costante tra i campioni osservati e tra loro correlato, la miglior stima BLUE nel caso lineare deve tenere conto della covarianza del rumore $\boldsymbol\Sigma$:

\begin{displaymath}
\hat{\boldsymbol\beta} = (\mathbf{X}^{\top} \boldsymbol\Sigm...
...hbf{X})^{-1} \mathbf{X}^{\top}\boldsymbol\Sigma^{-1}\mathbf{y}
\end{displaymath} (3.19)

Tale estimatore è chiamato Generalized Least Squares (GLS).

Tale sistema minimizza la varianza

\begin{displaymath}
Var[\hat{\boldsymbol\beta}_{GLS}] = (\mathbf{X}^{\top} \boldsymbol\Sigma^{-1} \mathbf{X})^{-1}
\end{displaymath} (3.20)

Paolo medici
2025-03-12