Ensemble Learning

Il concetto di addestramento Ensemble richiama l'utilizzo di diversi classificatori, differenti, uniti in un certo modo per riuscire a massimizzare le prestazioni usando i punti di forza di ognuno e limitando le debolezze dei singoli.

Alla base del concetto di Ensemble Learning ci sono i classificatori deboli (weak classifier): un classificatore debole riesce a classificare almeno il $50\%+1$ dei campioni di un problema binario. Sommati in un certo modo tra di loro, i classificatori deboli permettono di costruire un classificatore forte, risolvendo allo stesso tempo problemi tipici dei classificatori tradizionali (overfitting in primis).

L'origine dell'Ensemble Learning, del concetto di classificatore debole e in particolare il concetto di probably approximately correct learning (PAC) sono stati per primi introdotti da Valiant (Val84).

Di fatto le tecniche di Ensemble Learning non forniscono classificatori general purpose, ma indicano solo il modo ottimo per unire più classificatori tra loro.

Esempi di tecniche di Ensemble Learning sono

Decision Tree: gli Alberi di Decisione, essendo costruiti da tanti Decision Stump in cascata sono un primo esempio di Ensemble Learning;
Bagging: il BootStrap AGGregatING prova a ridurre i problemi di overfitting addestrando diversi classificatori su sottoparti del training set ed eseguendo infine una votazione per maggioranza;
Boosting: Invece che prendere sottoparti del training set puramente casuali vengono, in parte, usati i campioni che rimangono non classificati correttamente;
AdaBoost: l'ADAptive BOOSTing (sezione 4.6.2) è l'algoritmo di Ensemble Learning più conosciuto e progenitore della famiglia molto florida di classificatori AnyBoost;
Random Forest^TM: è un BootStrap Aggregating (bagging) su Decison Tree, Ensemble Classifier composto da diversi alberi di decisione, ognuno creato su un sottoinsieme dei dati di addestramento e delle caratteristiche da analizzare, che votano per maggioranza;

e molti altri ancora.

Esempi di classificatori deboli ampiamente usati in letteratura sono i Decision Stump (AL92) associati alle feature di Haar (sezione 6.1). Il Decision Stump è un classificatore binario nella forma

$\begin{displaymath} h(\mathbf{x}) = \left\{ \begin{array}{ll} +1 & \quad \t... ...ta \\ -1 & \quad \text{otherwise} \\ \end{array}\right. \end{displaymath}$

(4.45)

dove $f(\mathbf{x})$ è una funzione che estrae uno scalare dal campione da classificare, $p=\{ +1, -1 \}$ è una parità che serve per indicare la direzione della diseguaglianza e $\theta$ è la soglia di decisione (figura 4.4).

Subsections

Paolo medici
2025-03-12