Boosting

BOOSTING

Aprendizaje Automtico 1

Como funciona boosting?

Boosting construye un nico clasificador fuerte como

adicin de mltiples clasificadores dbiles.

Ahora el peso de los datos originales, cambia despus de cada

iteracin de la secuencia, es decir antes de ajustar cada nuevo

clasificador dbil.

En Bagging cada rbol se ajusta a una muestra distinta y

se promedian: Disminucin de Varianza

En Boosting se construye un nico clasificador de forma

secuencial a partir de todas las muestras, mejorando en

cada paso: Disminucin de Sesgo


Boosting

Ada Boost.M1

The most popular boosting algorithm Fruend and Schapire (1997)

Consider a two-class problem, output variable coded as Y

{-1,+1}

For a predictor variable X, a weak classifier G(X) produces

predictions that are in {-1,+1}

The error rate on the training sample is

N

1iii))x(Gy(I

N

1err

Ada Boost.M1 (Contd)

Sequentially apply the weak classification to repeatedly

modified versions of data

produce a sequence of weak classifiers Gm(x) m=1,2,..,M

The predictions from all classifiers are combined via

majority vote to produce the final prediction

Algorithm AdaBoost.M1

Some slides borrowed from http://www.stat.ucl.ac.be/

Example: Adaboost.M1 (Contd)

Que minimiza AdaBoost?

Exponential Loss:

(, ) = exp( )

La imagen adjunta muestra como Adaboost NO minimiza el criterio Error de Training

La funcin que minimiza Exponential Loss sigue decreciendo despus de que el error de training sea cero.

El error de test tambin sigue decreciendo.

AdaBoost tiene un equivalente como modelo probabilistico


Boosting en regresin


Boosting en regresin: Parmetros

Hay que fijar tres parmetros: El nmero de rboles B ( si es muy grande podra sobre-ajustar). Se

puede estimar por validacin-cruzada.

El valor del parmetro de amortiguacin . Valores entre 0.01 y 0.001 son tpicos. Si el valor de es muy pequeo podemos necesitar un valor de B muy grande.

El nmero de particiones del rbol d que controla la complejidad de cada uno de los rboles individuales. Normalmente d=1 y tenemos rboles con una sola particin (stump) En el caso d=1 tenemos un modelo que solo usa 1 variable en cada paso y por

tanto ajusta un modelo aditivo ( fcilmente interpretable!)

El parmetro d se denomina profundidad-de-interaccin ya que d particiones podran hacer participar a d variables distintas.

Aunque d=1 funciona bien en muchas aplicaciones, en general 2

Comparativa RF vs Boosting


Conjunto de datos de

expresiones genticas de

15 -clases

Boosting

Documents

Transcript of Boosting