Boosting
-
Upload
samuel-carrasco -
Category
Documents
-
view
214 -
download
0
description
Transcript of Boosting
-
BOOSTING
Aprendizaje Automtico 1
-
Como funciona boosting?
Boosting construye un nico clasificador fuerte como
adicin de mltiples clasificadores dbiles.
Ahora el peso de los datos originales, cambia despus de cada
iteracin de la secuencia, es decir antes de ajustar cada nuevo
clasificador dbil.
En Bagging cada rbol se ajusta a una muestra distinta y
se promedian: Disminucin de Varianza
En Boosting se construye un nico clasificador de forma
secuencial a partir de todas las muestras, mejorando en
cada paso: Disminucin de Sesgo
Aprendizaje Automtico 2
-
Boosting
-
Ada Boost.M1
The most popular boosting algorithm Fruend and Schapire (1997)
Consider a two-class problem, output variable coded as Y
{-1,+1}
For a predictor variable X, a weak classifier G(X) produces
predictions that are in {-1,+1}
The error rate on the training sample is
N
1iii))x(Gy(I
N
1err
-
Ada Boost.M1 (Contd)
Sequentially apply the weak classification to repeatedly
modified versions of data
produce a sequence of weak classifiers Gm(x) m=1,2,..,M
The predictions from all classifiers are combined via
majority vote to produce the final prediction
-
Algorithm AdaBoost.M1
Some slides borrowed from http://www.stat.ucl.ac.be/
-
Example: Adaboost.M1 (Contd)
-
Que minimiza AdaBoost?
Exponential Loss:
(, ) = exp( )
La imagen adjunta muestra como Adaboost NO minimiza el criterio Error de Training
La funcin que minimiza Exponential Loss sigue decreciendo despus de que el error de training sea cero.
El error de test tambin sigue decreciendo.
AdaBoost tiene un equivalente como modelo probabilistico
Aprendizaje Automtico 8
-
Boosting en regresin
Aprendizaje Automtico 9
-
Boosting en regresin: Parmetros
Hay que fijar tres parmetros: El nmero de rboles B ( si es muy grande podra sobre-ajustar). Se
puede estimar por validacin-cruzada.
El valor del parmetro de amortiguacin . Valores entre 0.01 y 0.001 son tpicos. Si el valor de es muy pequeo podemos necesitar un valor de B muy grande.
El nmero de particiones del rbol d que controla la complejidad de cada uno de los rboles individuales. Normalmente d=1 y tenemos rboles con una sola particin (stump) En el caso d=1 tenemos un modelo que solo usa 1 variable en cada paso y por
tanto ajusta un modelo aditivo ( fcilmente interpretable!)
El parmetro d se denomina profundidad-de-interaccin ya que d particiones podran hacer participar a d variables distintas.
Aunque d=1 funciona bien en muchas aplicaciones, en general 2
-
Comparativa RF vs Boosting
Aprendizaje Automtico 11
Conjunto de datos de
expresiones genticas de
15 -clases