Questo capitolo tratta in generale gli algoritmi che coinvolgono l'analisi di immagini provenienti da più di una camera con particolare attenzione al caso di visione steroscopica.
La visione stereoscopica (stereopsi) è il processo attraverso il quale è possibile stimare distanze e posizioni di oggetti osservati da due sensori visivi e attraverso queste informazioni poter ricostruire la scena osservata. Tale discorso è facilmente estendibile al caso in cui la scena sia osservata non da due ma da più camere (multiple view geometry).
Queste viste possono essere temporalmente coincidenti (per esempio nel caso della coppia di camere che formano una stereocamera) o possono osservare la scena in punti dello spazio e del tempo differenti come accade per esempio quando si processano immagini della stessa camera che si sposta nello spazio (motion stereo, structure from motion).
L'analisi stereoscopica può essere implementata principalmente attraverso due tecniche:
Condizione necessaria per attuare una ricostruzione tridimensionale completa della scena osservata, attraverso l'analisi di più immagini acquisite da punti di vista differenti, è la conoscenza dei parametri intrinseci delle camere coinvolte e la posa relativa tra di esse.
Se non si conosce la posa relativa questa può essere stimata attraverso l'analisi stessa delle immagini ma, come si vedrà in seguito, la distanza tra le camere sarà ricavata a meno di un fattore moltiplicativo e di conseguenza anche la ricostruzione tridimensionale sarà conosciuta a meno di tale fattore.
Se non si conoscono neanche i parametri intrinseci è sempre possibile mettere in relazione punti omologhi tra le due immagini e grazie a questo processo accelerare il confronto tra KeyPoint ma non sarà possibile dire nulla sulla ricostruzione tridimensionale della scena osservata (la ricostruzione è conosciuta a meno di una trasformazione affine).