Boosting

11
BOOSTING Aprendizaje Automático 1

description

Introduccion al Boosting en Machine learning para la Universidad de granada

Transcript of Boosting

  • BOOSTING

    Aprendizaje Automtico 1

  • Como funciona boosting?

    Boosting construye un nico clasificador fuerte como

    adicin de mltiples clasificadores dbiles.

    Ahora el peso de los datos originales, cambia despus de cada

    iteracin de la secuencia, es decir antes de ajustar cada nuevo

    clasificador dbil.

    En Bagging cada rbol se ajusta a una muestra distinta y

    se promedian: Disminucin de Varianza

    En Boosting se construye un nico clasificador de forma

    secuencial a partir de todas las muestras, mejorando en

    cada paso: Disminucin de Sesgo

    Aprendizaje Automtico 2

  • Boosting

  • Ada Boost.M1

    The most popular boosting algorithm Fruend and Schapire (1997)

    Consider a two-class problem, output variable coded as Y

    {-1,+1}

    For a predictor variable X, a weak classifier G(X) produces

    predictions that are in {-1,+1}

    The error rate on the training sample is

    N

    1iii))x(Gy(I

    N

    1err

  • Ada Boost.M1 (Contd)

    Sequentially apply the weak classification to repeatedly

    modified versions of data

    produce a sequence of weak classifiers Gm(x) m=1,2,..,M

    The predictions from all classifiers are combined via

    majority vote to produce the final prediction

  • Algorithm AdaBoost.M1

    Some slides borrowed from http://www.stat.ucl.ac.be/

  • Example: Adaboost.M1 (Contd)

  • Que minimiza AdaBoost?

    Exponential Loss:

    (, ) = exp( )

    La imagen adjunta muestra como Adaboost NO minimiza el criterio Error de Training

    La funcin que minimiza Exponential Loss sigue decreciendo despus de que el error de training sea cero.

    El error de test tambin sigue decreciendo.

    AdaBoost tiene un equivalente como modelo probabilistico

    Aprendizaje Automtico 8

  • Boosting en regresin

    Aprendizaje Automtico 9

  • Boosting en regresin: Parmetros

    Hay que fijar tres parmetros: El nmero de rboles B ( si es muy grande podra sobre-ajustar). Se

    puede estimar por validacin-cruzada.

    El valor del parmetro de amortiguacin . Valores entre 0.01 y 0.001 son tpicos. Si el valor de es muy pequeo podemos necesitar un valor de B muy grande.

    El nmero de particiones del rbol d que controla la complejidad de cada uno de los rboles individuales. Normalmente d=1 y tenemos rboles con una sola particin (stump) En el caso d=1 tenemos un modelo que solo usa 1 variable en cada paso y por

    tanto ajusta un modelo aditivo ( fcilmente interpretable!)

    El parmetro d se denomina profundidad-de-interaccin ya que d particiones podran hacer participar a d variables distintas.

    Aunque d=1 funciona bien en muchas aplicaciones, en general 2

  • Comparativa RF vs Boosting

    Aprendizaje Automtico 11

    Conjunto de datos de

    expresiones genticas de

    15 -clases