Media e Varianza

È facile supporre che la nozione della media tra numeri sia un concetto conosciuto a tutti, almeno da un punto di vista puramente intuitivo. In questa sezione ne viene comunque fatto un breve riassunto, ne vengono date le definizioni e verranno sottolineati alcuni aspetti interessanti.

Per $n$ campioni di una quantità osservata $x$ la media campionaria sample mean si indica $\bar{x}$ e vale

\begin{displaymath}
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
\end{displaymath} (2.1)

La media campionaria, per definizione, è una quantità empirica.

Se si potessero campionare infiniti valori di $x$, $\bar{x}$ convergerebbe al valore teorico, atteso (expected value). Questa è la legge dei grandi numeri (Law of Large Numbers).

Il valor medio atteso (expectation, mean) di una variabile casuale $X$ si indica con $\E[X]$ o $\mu$ e si può calcolare da variabili aleatorie discrete attraverso la formula

\begin{displaymath}
\E[X] = \mu_x = \sum_{-\infty}^{+\infty} x_i p_X(x_i)
\end{displaymath} (2.2)

e per le variabili continue attraverso
\begin{displaymath}
\E[X] = \mu_x = \int_{-\infty}^{+\infty} x p_X(x) dx
\end{displaymath} (2.3)

data la conoscenza della distribuzione di probabilità $p_X(x)$.

Introduciamo ora il concetto di media di una funzione di variabile aleatoria.

Definizione 5   Sia X una variabile aleatoria con funzione di probabilità $p_X(x)$ e $g(x)$ una generica funzione misurabile in $x$. Se assolutamente convergente l'integrale
\begin{displaymath}
\E[g(X)] = \sum_{-\infty}^{+\infty} g(x_i) p_i \qquad \E[g(X)] = \int_{-\infty}^{+\infty} g(x) p_X(x) dx
\end{displaymath} (2.4)

prende il nome di “valor medio della variabile aleatoria $Y = g(X)$”.

Esistono alcune funzioni la cui media assume un significato notevole. Quando $g(x)=x$ si parla di statistiche di primo ordine (first statistical moment), e in generale quando $g(x)=x^{k}$ si parla di statistiche di $k$-ordine. Il valor medio è pertanto la statistica di primo ordine e un'altra statistica di particolare interesse è il momento di secondo ordine:

\begin{displaymath}
\E[X^{2}] = \int_{-\infty}^{+\infty} x^{2} p_X(x) dx
\end{displaymath} (2.5)

Tale statistica è importante perché permette di stimare la varianza di $X$.

La varianza è definita come il valore atteso del quadrato della variabile aleatoria $X$ a cui viene tolto il suo valor medio, ovvero momento di secondo ordine della funzione $g(X)= X-\E[X]$:

\begin{displaymath}
\text{var}(X) = \sigma^{2}_X = \E[ (X - \E[X])^{2} ]
\end{displaymath} (2.6)

e, supponendo $X$ e $\E[X]$ processi indipendenti, si ottiene la forma più semplice e ampiamente usata della varianza
\begin{displaymath}
\text{var}(X) = \sigma^{2}_X = \E[X^{2}] - \E[X]^{2}
\end{displaymath} (2.7)

La radice quadrata della varianza è conosciuta come deviazione standard (standard deviation) e ha il vantaggio di avere la stessa unità di misura della grandezza osservata:

\begin{displaymath}
\sigma_X = \sqrt{ \text{var}(X) }
\end{displaymath} (2.8)

Estendiamo i concetti visti finora al caso multivariabile. Il caso multivariabile può essere visto come estensione a più dimensioni dove ad ogni dimensione è associata una diversa variabile.

La matrice delle covarianze $\Sigma$ è l'estensione a più dimensioni (o a più variabili) del concetto di varianza. È costruita come

\begin{displaymath}
\Sigma_{ij} =\text{cov}(X_i,X_j)
\end{displaymath} (2.9)

dove ogni elemento della matrice contiene la covarianza tra le varie componenti del vettore aleatorio $X$. La covarianza indica come le differenti variabili aleatorie che compongono il vettore $X$ sono tra loro legate.

I possibili modi di indicare la matrice di covarianza sono

\begin{displaymath}
\Sigma = \E \left[ (X - \E[X])(X - \E[X])^{\top} \right] = \text{var}(X) = \text{cov}(X) = \text{cov}(X,X)
\end{displaymath} (2.10)

La notazione della cross-covarianza è invece univoca

\begin{displaymath}
\text{cov}(X,Y) = \E \left[ (X - \E[X])(Y - \E[Y])^{\top} \right]
\end{displaymath} (2.11)

generalizzazione del concetto di matrice delle covarianze. La matrice di cross-covarianza $\boldsymbol\Sigma$ ha come elementi nella posizione $(i,j)$ la covarianza tra la variabile aleatoria $X_i$ e la variabile $Y_j$:
\begin{displaymath}
\boldsymbol\Sigma = \begin{bmatrix}
\text{cov}(X_1,Y_1) & \...
...cov}(X_1,Y_m) & \cdots & \text{cov}(X_n,Y_m) \\
\end{bmatrix}\end{displaymath} (2.12)

La matrice di covarianza $\text{cov}(X,X)$ è conseguentemente simmetrica.

La matrice di covarianza, descrivendo come le variabili sono tra di loro in relazione e di conseguenza quanto sono tra loro slegate, è anche chiamata matrice di dispersione (scatter plot matrix). L'inversa della matrice di covarianza si chiama matrice di concentrazione o matrice di precisione.

La matrice di correlazione $\mathbf{r}(X,Y)$ è la matrice di cross-covarianza normalizzata rispetto alle matrici di covarianza:

\begin{displaymath}
\mathbf{r}(X,Y) = \frac{\text{cov}(X,Y) } {\sqrt{\text{var}(X) \text{var}(Y) } }
\end{displaymath} (2.13)

Questa matrice ha valori sempre nell'intervallo $[-1,1]$ o $[-100\%,100\%]$.

Paolo medici
2025-03-12