Quando
è una funzione lineare rispetto ai parametri
si parla di regressione lineare ai minimi quadrati (Linear Least Squares o Ordinary Least Squares OLS).
Tale funzione può essere rappresentata nella forma di sistema lineare
 |
(3.12) |
dove
sono i parametri sconosciuti da ricavare e
è rumore additivo gaussiano bianco a media nulla.
I parametri
sono i coefficienti della regressione: permettono di misurare l'associazione tra la variabile
e la variabile
.
Ogni osservazione è un vincolo e tutti i singoli vincoli possono essere raccolti in forma matriciale
 |
(3.13) |
è il vettore delle risposte (variabili dipendenti),
la matrice
che raccoglie le variabili indipendenti (explanatory variables) viene chiamata design matrix, e infine
è il vettore del rumore additivo a media nulla
e varianza
.
Il vettore dei parametri
è chiamato Linear Projection Coefficient o Linear Predictor.
La variabile casuale
è pertanto formata da una parte deterministica e da una parte stocastica.
L'obiettivo è quello di trovare l'iperpiano
in
dimensioni che meglio si adatta ai dati
.
Il valore
che minimizza la funzione costo definita in equazione (3.6), limitatamente al caso di rumore sull'osservazione a valor medio nullo e varianza costante fra tutti i campioni, di fatto è il miglior stimatore lineare che minimizza la varianza (Best Linear Unbiased Estimator BLUE).
Definizione 11
Il Best Linear Unbiased Estimate (BLUE) di un parametro
basato su un set di dati
è
- una funzione lineare di
, in modo che lo stimatore possa essere scritto come
;
- deve essere unbiased (
),
- fra tutti gli stimatori lineari possibili è quello che produce la varianza minore.
Il teorema di Gauss-Markov dimostra che uno stimatore ai minimi quadrati è la miglior scelta tra tutti gli stimatori a minima varianza BLUE quando la varianza sull'osservazione è costante (homoscedastic).
La miglior stima ai minimi quadrati
che minimizza la somma dei residui è la soluzione del problema lineare
 |
(3.14) |
Lo stesso risultato era già pervenuto nella sezione 1.1 riguardante la pseudoinversa di una matrice: una decomposizione SVD della matrice
ritorna anche la soluzione migliore dal punto di vista della propagazione degli errori di calcolo.
La matrice
, definita come
 |
(3.15) |
è una matrice di proiezione (projection matrix) che trasforma le uscite (response vector)
nella loro stima
(stima dell'osservazione senza rumore):
 |
(3.16) |
Grazie a questa proprietà,
è chiamata hat matrix.
Nel caso di rumore a varianza non costante tra i campioni osservati (heteroscedastic) la regressione a minimi quadrati pesata è la scelta BLUE
 |
(3.17) |
con
che tengono conto le varie incertezze legate ad ogni osservazione
così che
sia la deviazione standard della misura i-esima.
Inseriti i pesi
in una matrice diagonale
si ottiene un nuovo sistema lineare dove ogni riga di fatto ha la medesima varianza di osservazione.
La soluzione che minimizza
, può sempre essere espressa come
 |
(3.18) |
con
.
Generalizzando ulteriormente, nel caso di rumore con varianza non costante tra i campioni osservati e tra loro correlato, la miglior stima BLUE nel caso lineare deve tenere conto della covarianza del rumore
:
 |
(3.19) |
Tale estimatore è chiamato Generalized Least Squares (GLS).
Tale sistema minimizza la varianza
![\begin{displaymath}
Var[\hat{\boldsymbol\beta}_{GLS}] = (\mathbf{X}^{\top} \boldsymbol\Sigma^{-1} \mathbf{X})^{-1}
\end{displaymath}](img837.png) |
(3.20) |
Paolo medici
2025-03-12