Tesis de Licenciatura Clasi caci on no supervisada: El m...

41
UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Exactas y Naturales Departamento de Matem´ atica Tesis de Licenciatura Clasificaci´ on no supervisada: El m´ etodo de k–medias Yanina Gimenez Director: Ricardo Fraiman Fecha de Presentaci´ on: 23 de marzo de 2010

Transcript of Tesis de Licenciatura Clasi caci on no supervisada: El m...

Page 1: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Page 1 of 1

01/03/2010http://cms.dm.uba.ar/academico/carreras/licenciatura/tesis/uba2.jpg

UNIVERSIDAD DE BUENOS AIRES

Facultad de Ciencias Exactas y Naturales

Departamento de Matematica

Tesis de Licenciatura

Clasificacion no supervisada: El metodo de k–medias

Yanina Gimenez

Director: Ricardo Fraiman

Fecha de Presentacion: 23 de marzo de 2010

Page 2: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse
Page 3: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Dedicatoria y agradecimientos

A mis padres por apoyarme en mis decisiones y alegrarse por cada uno de mis logros.A mi papa por compartir conmigo el gusto por las matematicas. A mi mama por todoel carino que me brindo intentando siempre ayudarme de algun modo.

A Marisol, mi hermana, quien me acompano en el dıa a dıa compartiendo todoconmigo dandome lo mejor de ella y haciendo que todo sea mas sencillo.

A Maury por su amor y por su paciencia, porque siempre busco y encontro comoayudarme dando hasta su aporte en mi tesis. Por estar siempre a mi lado.

A Ricardo Fraiman por ser mi director, por transmitirme sus conocimientos contanta alegrıa y entusiasmo.

A Marce por responder todas mis preguntas siempre con la mejor predisposicion.

A todos los profesores que contribuyeron a mi formacion durante mis cursos deLicenciatura. En especial a Miguel por la paciencia que ha tenido frente a mis consultasfrecuentes.

A las Monis por ser mis amigas de la vida, porque nada hubiese sido igual sin sucontinua amistad. Por saber que ellas siempre estan.

A mis amigos de la facultad, entre los que quiero destacar a Quimey, Julian, Xime,Vero, Martın y Lucas. Por las horas de estudio y las largas charlas. Por escuchar misdudas y mis preocupaciones y aconsejarme del mejor modo.

Page 4: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse
Page 5: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Indice

1. Introduccion 1

2. Metodos de Analisis de cluster 22.1. Las matrices de proximidad . . . . . . . . . . . . . . . . . . . . . . . . 22.2. Desemejanzas basadas en atributos . . . . . . . . . . . . . . . . . . . . 32.3. Desemejanzas entre objetos . . . . . . . . . . . . . . . . . . . . . . . . 42.4. Ejemplo: Chips de ADN y los tumores humanos . . . . . . . . . . . . . 7

3. Consistencia de k–medias 11

4. El metodo combinatorio 21

5. Clases de conjuntos con discriminacion polinomial 25

6. Apendice 306.1. Demostracion de una ley de los grandes numeros uniforme . . . . . . . 306.2. Demostracion de una desigualdad exponencial . . . . . . . . . . . . . . 31

Page 6: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse
Page 7: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

1. Introduccion

En esta monografıa estudiamos uno de los metodos de “cluster analysis” mas uti-lizados en la practica: el metodo de k–medias.

El termino cluster analysis (usado por primera vez por Tryon, 1939) se refiere a difer-entes metodos para agrupar objetos de tipo similar en categorıas. Mas recientementese le suele llamar clasificacion no supervisada.

Es una tecnica de analisis exploratorio que intenta ordenar diferentes objetos engrupos, de forma que el grado de asociacion entre dos objetos sea maximo si pertenecenal mismo grupo.

Esta formulacion es claramente vaga, y dependera de la forma con la que optemospor considerar que un determinado procedimiento cumple con estos requerimientos.¿Entonces, como sabremos si el procedimento considerado cumple con los objetivosplanteados? En algun sentido, cada metodo tiene una funcion objetivo poblacional quesera en definitiva la que responda a esta pregunta. En este marco, no encontraremos unprocedimiento optimo para todo tipo de datos, sino que cada metodo de cluster estadisenado de alguna forma (a traves de su funcion objetivo) para cierto tipo de datos.

Cluster analysis se usa para encontrar estructuras en los datos sin proveer una expli-cacion/interpretacion. Cluster analysis simplemente descubre estructuras en los datossin explicar en principio por que existen. Sera el analista quien a posteriori interpretelos posibles motivos de esa estructura.

Hemos organizado esta monografıa de la siguiente forma. En la Seccion 2 describimosalgunos metodos de cluster, introducimos el metodo de k-medias y damos un ejemplode aplicacion a datos de chips de ADN de tumores humanos. En la Seccion 3 estudiamosel problema de la consistencia casi segura del metodo de k-medias. Esta demostracionhace uso de tecnicas de procesos empıricos que han demostrado ser muy utiles para lateorıa asintotica en estadıstica. Eso motiva considerar en las Secciones 4 y 5 algunosresultados generales de convergencia uniforme para procesos empıricos. Finalmente enel Apendice incluımos la demostracion de algunos resultados que hemos utilizado en lademostracion de los resultados de las secciones previas.

1

Page 8: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

2. Metodos de Analisis de cluster

Los metodos de cluster, tambien llamados segmentacion de datos, tienen una granvariedad de objetivos. Todos relacionados con agrupar o segmentar una coleccion deobjetos en subconjuntos o “clusters”, de manera que dentro de cada grupo estan masestrechamente relacionados entre sı que con los que estan en diferente grupo.

Un objeto puede ser descripto por un conjunto de medidas, o por su relacion conotro objeto. A veces el objetivo es organizar a los conjuntos en una jerarquıa (metodosjerarquicos). Esto implica agrupar sucesivos clusters de modo tal que en cada nivel dela jerarquıa los clusters que estan dentro de un mismo grupo son mas similares entreellos que con los que pertenecen a un grupo diferente.

El analisis de cluster tambien es usado en la estadıstica descriptiva para determinarsi los datos pertenecen o no a distintos subgrupos, donde cada grupo representa objetoscon propiedades sustancialmente distintas. Este objetivo final requiere de informacionrespecto al grado de diferencia entre objetos asignados a distintos clusters.

Como mencionamos en la introduccion, un aspecto central de cada procedimientode cluster es la nocion de grado de semejanza (o diferencia) entre los objetos que vana ser agrupados. Los metodos de cluster intentan agrupar los objetos basandose en ladefinicion de semejanza que hay entre ellos. Esta definicion se construira en base a losaspectos propios del problema, y deberıa ser independiente del metodo de clustering ensı.

2.1. Las matrices de proximidad

A veces los datos estan representados directamente en terminos de proximidad (se-mejanza o afinidad) entre pares de objetos. Esto puede ser, o bien por similitudes odisimilitudes (la diferencia o la falta de afinidad). Por ejemplo, en experimentos deciencias sociales, los participantes tienen que juzgar en cuanto ciertos objetos difierenentre si. La desemejanza puede ser entonces computada como el promedio de la colec-cion de tales juicios. Este tipo de datos puede ser representado con una matriz D deN×N , donde N es el numero de objetos, y cada elemento dii′ representa la proximidadentre el objeto i y el objeto i′. Esta matriz es entonces el input del algoritmo de cluster.

La mayorıa de los algoritmos presumen una matriz de desemejanzas con enteros nonegativos y ceros en los elementos de la diagonal: dii = 0, i = 1, 2, . . . , N . Si los datosoriginales son tomados como semejantes una adecuada funcion monotona decrecientepuede convertirlos en desemejantes. Por tanto, la mayorıa de los algoritmos asumenmatrices simetricas desemejantes, y si la matriz original D es no simetrica va a serreemplazada por (D+DT )/2. Subjetivamente, las diferentes opiniones rara vez estan tandistanciadas como las distancias en el sentido estricto, ya que la desigualdad triangulardii′ ≤ dik +di′k, ∀k ∈ {1, . . . , N} no se sostiene. Por eso algunos algoritmos asumen quela distancia no puede ser usada como un dato.

2

Page 9: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

2.2. Desemejanzas basadas en atributos

Mas a menudo tenemos medidas xij para i = 1, 2, . . . , N , con variables j = 1, 2, . . . p(tambien llamadas atributos). Dado que la mayorıa de los mas populares algoritmosde cluster toman una matriz de desemejanzas como su input, tenemos que en primerlugar construir pares de diferencias entre las observaciones. En los casos mas comunesdefinimos la desemejanza dj(xij, xi′j) entre valores del atributo j y luego definimos

D (xi, xi′) =

p∑j=1

dj (xij, xi′j) , (1)

como la desemejanza entre el objeto i e i′. Por lejos la mas comun de las elecciones esla distancia cuadratica

dj (xij, xi′j) = (xij − xi′j)2 .

Sin embargo, otras elecciones son posibles y pueden llevar a potencialmente difer-entes resultados. Para atributos no cuantitativos (ej. datos categoricos), la distanciacuadratica no es la apropiada. Ademas, a veces se prefiere darle diferente pesos a dis-tintos atributos antes de darle el mismo peso a todos como en (1).

Primero discutamos diferentes alternativas en terminos de los diferentes tipos deatributos:• Variables cuantitativas. Mediciones de este tipo de variables o atributos son rep-

resentados con valores reales continuos. Es natural definir el “error” entre ellos comouna funcion monotona creciente de la diferencia de sus valores absolutos

d (xi, xi′) = l (|xi − xi′ |) .

Ademas de la funcion cuadratica l(u) = u2 (que da origen a la distancia Euclideana),una eleccion frecuente es l(u) = u que da origen a la distancia L1. Una alternativa esque la agrupacion este basada en la correlacion

ρ (xi − xi′) =

∑j (xij − xi) (xi′j − xi′)√∑

j (xij − xi)2∑j (xi′j − xi′)2

,

con xi =∑

j xij/p. Notemos que este promedio es sobre variables, no sobre observa-ciones. Si al input primero lo estandarizamos, entonces∑

j

(xij − xi′j)2 ∝ 2 (1− ρ (xi,xi′)) .

Por lo tanto la agrupacion basada en correlacion (de semejanza) es equivalente a labasada en distancia cuadratica (de desemejanzas).

3

Page 10: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

• Variables ordinales. El valor de este tipo de variables esta mayormente repre-sentado con enteros contiguos, y los valores realizados son considerados un conjuntoordenado. Ejemplo de esto son los grados academicos (A, B, C, D, E, F) y grados depreferencias (no puedo soportar, me disgusta, esta bien, me gusta, me encanta). Elrango de datos es un tipo especial de datos ordinales. Errores de medicion de variablesordinales son generalmente definidos reemplazando su valor original M con

i− 1/2

M, i = 1, . . . ,M

en los ordenes prescriptos de sus valores originales. Son entonces tratados como variablescuantitativas en esta escala.•Variables categoricas. Con un desorden categorico (tambien llamado nominal) de

las variables, el grado de diferencia entre pares de valores tiene que ser definido ex-plıcitamente. Si la variable toma M valores distintos, entonces puede ser organizadocon una matriz simetrica de M ×M con elementos Lrr′ = Lr′r, Lrr = 0, Lrr′ ≥ 0. Laeleccion mas comun es Lrr′ = 1 para todo r 6= r′, porque la perdida de la igualdadpuede ser usada para enfatizar mas un error que otro.

2.3. Desemejanzas entre objetos

Ahora definamos un procedimiento que combina los p-individuales atributos de dese-mejanzas dj (xij, xi′j) , j = 1, 2, . . . , p con una medida global de desemejanzas D (xi, xi′)entre dos objetos u observaciones (xi, xi′) que poseen los valores de atributos respectivos.Esto es casi siempre hecho por medio de una media ponderada

D (xi, xi′) =

p∑j=1

wj · dj (xij, xi′j) ;

p∑j=1

wj = 1. (2)

Aca wj es el peso asignado a la atribucion j regulando la influencia relativa de esavariable para determinar la diferencia total entre objetos. Esta eleccion debe ser basadaen la importancia que se le de a cada variable.

Es importante darse cuenta que asignar el mismo peso wj a todos los valores decada variable (es decir, wj = 1 ∀j), no necesariamente le da a todos los atributos igualinfluencia. La influencia del atributo j, en el objeto de desemejanzas D (xi, xi′) (2),depende, su relativa contribucion, de la medida promedio del objeto de desemejanzassobre todos los pares de observaciones del conjunto de datos

D =1

N2

N∑i=1

N∑i′=1

D (xi, xi′) =

p∑j=1

wj · dj,

con

dj =1

N2

N∑i=1

N∑i′=1

dj (xij, xi′j) , (3)

4

Page 11: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

el promedio de desemejanzas en el atributo j. Ası, la influencia relativa de la variable jes wj · dj, y poniendo wj ∼ dj darıa a todos los atributos la misma influencia en la car-acterizacion general entre objetos. Por ejemplo, con p variables cuantitativas y usandola distancia del error cuadratico para cada coordenada, entonces (2) es la cuadraticadistancia Euclidea

DI (xi, xi′) =

p∑j=1

wj · (xij − xi′j)2 ,

entre pares de puntos en Rp, con las variables cuantitativas como ejes. En este caso (3)serıa

dj =1

N2

N∑i=1

N∑i′=1

(xij − xi′j)2 = 2 · varj,

donde varj es la estimacion de la muestra de V ar (Xj). Ası, la importancia relativade cada una de dichas variables es proporcional a la variacion en el conjunto de datos.En general poner peso wj = 1/dj a todos los atributos, independiente del tipo, va aprovocar que cada uno de ellos tenga la misma influencia sobre la diferencia total entrelos pares de objetos (xi, xi′). A pesar de que parezca ser razonable, y es en muchoscasos recomendado, puede ser altamente contraproducente. Si el objetivo es segmentarlos datos en grupos de objetos similares, todos los atributos no pueden tener la mismainfluencia. Algunas diferencias en los valores de los atributos pueden reflejar una mayordesigualdad en el contexto del objeto real del problema.

Si el objetivo es descubrir grupos naturales en los datos, algunos atributos debendemostrar una mayor tendencia a agrupar que otros. A las variables que son mas rele-vantes para separar los grupos, se les deberıa de asignar un mayor peso en la definicionde desemejanzas entre objetos. Darle a todos los atributos el mismo peso en este casoproducirıa una tendencia a ocultar los grupos de puntos donde los algoritmos de clusterno pueden acceder. Aunque las elecciones individuales del atributo para las deseme-janzas dj (xij, xi′j) y de sus pesos wj pueden ser una herramienta adecuada, no hay unsustituto para el pensamiento cuidadoso que se debe tener en el contexto de cada prob-lema. Especialmente una apropiada medida de desemejanzas es a menudo mucho masimportante para obtener un resultado exitoso con cluster que la eleccion del algoritmo.Finalmente, muchas observaciones tienen valores faltantes en uno o mas atributos. Elmetodo mas comun para incorporar estos valores faltantes en el calculo de desemejanzas(2) es omitir de cada par de observaciones al menos un valor xij, xi′j, cuando se com-puta la diferencia entre las observaciones xi e xi′ . Este metodo puede fallar si se danlas circunstancias de que ambas observaciones no tienen valores medibles en comun.En este caso ambas observaciones pueden ser eliminadas del analisis. Otra alternativaes incorporar los valores faltantes como input usando la media o la mediana de cadaatributo sobre los datos no faltantes. Para variables categoricas uno puede considerarel valor “faltante” como otro valor categorico, si fuera razonable considerar que dosobjetos son semejantes si ambos tienen valores faltantes en la misma variable.

5

Page 12: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

K-MediasEl algoritmo de las k-medias es uno de los mas populares iterativos descendentes

metodos de cluster. Esta destinado a situaciones en las cuales todas las variables sondel tipo cuantitativo, y la distancia cuadratica Euclidea

d (xi, xi′) =

p∑j=1

(xij − xi′j)2 = ‖xi − xi′‖2 ,

es elegida como medida de diferencia. Notemos que los pesos en la distancia Euclideapueden ser usados redefiniendo los valores xij.

Los puntos de dispersion pueden ser escritos como

W (C) =K∑k=1

∑C(i)=k

∑C(i′)=k

‖xi − xi′‖2

=K∑k=1

Nk

∑C(i)=k

‖xi − xk‖2 ,

donde xk = (x1k, . . . , xpk), es el vector de medias asociado con el k-esimo cluster, y

Nk =∑N

i=1 I (C (i) = k) . Ası, el criterio es asignar las N observaciones a los K clustersde modo que dentro de cada cluster el promedio de las diferencias de cada observaciona la media del cluster, definido por los puntos del cluster, sea mınima.

6

Page 13: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

2.4. Ejemplo: Chips de ADN y los tumores humanos

Apliquemos k-medias a los datos de chips de ADN de tumores humanos.Describamos de que se trata:La celula es la unidad basica de vida. Un componente escencial de la misma son las

proteınas, las cuales tienen funciones de lo mas diversas, tales como formar el esqueletopropio de la celula o servir de receptor para senales hormonales (entre muchas otras).

La estructura particular de cada proteına es la que le da su funcion caracterıstica.Cada proteına esta compuesta por una cadena de aminoacidos (moleculas biologicas derelativa simplicidad) y la estructura depende de los aminoacidos que la componen.

La informacion de la secuencia de aminoacidos que compone cada proteına esta con-tenida en el ADN. La cadena ADN es una molecula de gran complejidad formada por 4nucleotidos (abreviados con las letras A, C, G y T) que se alternan uno tras otro forman-do un verdadero codigo (el genoma). En este codigo esta comprendida la informacionde la secuencia de aminoacidos que compone cada proteına del cuerpo.

Para que el codigo del genoma se transforme en una proteına, son necesarios variospasos (ver Figura 1). Primero una molecula llamada transcriptasa lee el codigo delADN y forma otra molecula mas corta y manejable, llamada ARN mensajero (ARNm)conteniendo el fragmento del codigo del ADN necesario para formar la proteına encuestion. A la informacion necesaria para crear una proteına se la denomina gen. Luegoeste ARNm es usado por otras moleculas llamadas ribosomas que leen el codigo delARNm y lo traducen a aminoacidos que se van pegando uno tras otro. Cuando unacelula fabrica cierta proteına, se dice que el gen de esa proteına se expresa en esa celula.

centdog.gif (208x288x256 gif)

Figura 1: Etapas para la transformacion del codigo del genoma en proteınas.

Los chips de ADN son diminutas placas que sirven para verificar la presencia de

7

Page 14: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

determinadas proteınas en una celula contando los ARN mensajeros presentes en lamisma (ver Figura 2).

3045984463_cd837e0669_o.jpg (450x162x16M jpeg)

Figura 2: Imagen de un chip de ADN

Los chips de ADN contienen una microgrilla en la cual cada cuadrado tiene adosadodistintas secuencias de ADN ya conocidas por el fabricante. Cada una de estas secuen-cias es un fragmento correspondiente unicamente a un gen.

Ademas de la muestra celular a ser estudiada (muestra objetivo) se usa otra muestracelular de referencia. Las celulas de ambas muestras son destruıdas liberando todo elcontenido celular (proteınas, ADN, ARNm, y muchos otras moleculas) en sus respectivosrecipientes. La muestra de referencia tiene un contenido de proteınas (y sus respectivosARNm) ya conocido por el biologo. Cada una de las muestras es tenida con un colorantediferente (rojo y verde por ejemplo). Luego el chip de ADN se expone a cada una de lasmuestras. Si algun ARNm contenido en las muestras corresponde al ADN de alguno delos cuadrados del chip, estos se acoplaran fuertemente (un proceso llamado hibridacion).Luego se remueven todos los excedentes celulares del chip, dejando unicamente losARNm que se hayan hibridizado a algun cuadrado.

Despues se registra la intensidad de rojo/verde en cada cuadrado del chip midiendoası cuanto ARNm se ha hibridizado en cada sitio.

La fluoroscopıa da como resultado numeros, que normalmente estan entre -6 y 6,midiendo la cantidad de cada ARNm en la muestra objetivo en comparacion con lamuestra de referencia. Los valores positivos indican una mayor expresion en la muestraobjetivo en comparacion con la referencia, y valores negativos lo contrario.

En un conjunto de datos de estudios con chips de ADN, cada columna representauna muestra celular estudiada y en las filas se colocan los genes de las proteınas demayor relevancia. En el ejemplo particular de la Figura 3 hay 6830 genes (filas) y 64muestras (columnas), aunque por mayor claridad solo una muestra aleatoria de 100 filases mostrada. La figura expone el conjunto de datos como un mapa de calor, con unagama de colores que va del verde (para los valores negativos, es decir con menos de esaproteına que en la muestra de referencia) al rojo (para los valores positivos, con masde esa proteına que en la muestra de referencia). Las muestras son de 64 tumores decancer de diferentes pacientes.

8

Page 15: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

tum

ores

.jpg

(169

5x28

00x1

6M jp

eg)

Figura 3: Vista parcial de datos de un chip (microarray) de DNA. Es una matriz con6830 filas (genes) y 64 columnas (muestras) para datos de tumores humanos. Se mues-tran 100 columnas elegidas al azar.

El desafio es entender como los genes y las muestras se organizan. Entre las preguntastıpicas estan incluidas:

(a) ¿que tumores son mas similares a cuales, en terminos de la expresion a travesde sus genes?

(b) ¿que genes son mas similares a cuales, segun su aparicion en las distintas mues-tras?

(c) ¿que genes aparecen mucho o poco en cierto tipo de muestras de cancer?Podrıamos ver estas preguntas como un problema de regresion, con dos categoric-

as variables predictoras (genes y muestras), siendo la variable de respuesta el nivel deexpresion. Sin embargo, probablemente sea mas util verlo como un problema de apren-dizaje no supervisado. Por ejemplo para la pregunta (a), podemos pensar a las muestrascomo 6830 puntos en el espacio que queremos agrupar de cierto modo.

Esto es un ejemplo de un cluster de alta dimension. Los datos son una matrizreal de tamano 6830 × 64, cada numero representa cuanto se expresa un gen (fila)

9

Page 16: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

en determinada muestra (columna). Agrupamos las muestras de manera que cada unaes un vector de tamano 6830, correspondiendo al valor de la expresion de cada unode los 6830 genes. Cada muestra esta etiquetada: mama (para el cancer de mama),melanoma, y ası sucesivamente; no usamos estas etiquetas para el cluster, pero vamosa examinar despues cual etiqueta cae en que cluster.

Aplicamos k-medias con k = 3, obteniendo los siguientes 3 clusters:

Cluster Mamas CNS Colon K562 Leucemia MCF71 3 5 0 0 0 02 2 0 0 2 6 23 2 0 7 0 0 0

Cluster Melanoma NSCLC Ovarios Prostata Renal Desconocido1 1 7 6 2 9 12 7 2 0 0 0 03 0 0 0 0 0 0

Podemos observar que el procedimiento es exitoso agrupando muestras de un mismocancer. De hecho, los dos cancer de mamas que fueron ubicados en el cluster 2, luegose descubrio que habıan sido diagnosticados mal y que en realidad eran melanomas quetuvieron metastasis.

10

Page 17: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

3. Consistencia de k–medias

Expliquemos lo que vamos a hacer en este capıtulo. El analisis de cluster por k-medias prescribe un criterio de como partir un conjunto de puntos en k-grupos. Paradividir los puntos X1, . . . , Xn de Rs acordes a este criterio, primero tenemos que elegirlos centros de los cluster de modo que minimicen

Wn =1

n

n∑i=1

mın1≤j≤k

‖Xi − aj‖2 ,

donde ‖·‖ denota la usual norma Euclidea, luego asignamos cada Xi al cluster cuyocentro este mas cercano. De esta manera, cada centro aj adquiere un subconjunto Cjde los X ′s en su cluster. La media de los puntos en Cj tiene que ser aj, sino podemosachicar a Wn reemplazando a aj por la media de este cluster, si es necesario reasignamosalgunos X ′s a nuevos centros. El crieterio es, por lo tanto, equivalente a minimizar lasuma de cuadrados dentro de cada cluster.

Vamos a asumir que {X1, . . . , Xn} es una muestra de observaciones independientes eidenticamente distribuidas con cierta distribucion P . Vamos a pedir ciertas condicionesque aseguren la convergencia casi segura a los centros de los clusters cuando el tamanode la muestra crece. Esto generaliza uno de los resultados de Hartigan (1978), quienhace un analisis detallado de la fragmentacion de observciones en una dimencion endos clusters, el prueba convergencia en probabilidad de los puntos definiendo la optimaparticion.

MacQueen (1967) obtenıa resultados debiles de consistencia para algoritmos de k-medias que distribuıan los puntos X1, X2, . . . sequencialmente en k-clusters. Con estealgoritmo los centros no son elegidos para minimizar Wn; sin embargo, cada Xn esasignado al cluster con el centro mas cercano, luego este centro es movido a la mediadel cluster. MacQueen prueba que el correspondiente Wn converge casi seguramente; elno prueba convergencia de los centros de los clusters.

Por las dificultades que pueden surgir por ambiguedades en la asignacion de lospuntos X1, . . . , Xn a los centros a1, . . . , ak, es ventajoso considerar Wn como una funcionde los conjuntos de centros de clusters y de la medida empırica Pn obtenida de la muestraal colocarle peso n−1 a cada X1, . . . , Xn. Esto es el problema de minimizar

W (A,Pn) :=

∫mına∈A‖x− a‖2 Pn(dx),

sobre todas las posibles elecciones del conjunto A que contenga k (o menos) puntos.Para cada A la ley fuerte de los grandes numeros dice que

W (A,Pn)→ W (A,P) :=

∫mına∈A‖x− a‖2P(dx), cs.

11

Page 18: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Se espera por lo tanto que An, el conjunto de los optimos centros de la muestra, este cer-ca de A, el conjunto de centros que minimiza W (·,P), siempre que A este unıvocamentedeterminado. Con una apropiada definicion de cercano, este es el resultado que vamosa probar. Esto implica que hay una asignacion an1, an2, . . . , ank de los puntos de An, yuna asignacion a1, . . . , ak de los puntos de A, tal que anl → al cs. Este enfoque tambienevita problemas con la posible coincidencia de dos de los centros de los clusters; unaposibilidad que le ocasionaba mucho problema a MacQueen(1967).

En la practica, encontrar un A para el cual W (·, Pn) alcanza su mınimo globalinvolucra una cantidad prohibida de calculos, excepto en el caso de dimencion 1 (s = 1).Este problema ha sido discutido por Hartigan. Sin embargo, existen algoritmos eficientesque encuentran localmente particiones optimas para la muestra de puntos en k clusters.

Nuestro metodo de prueba esta basado en repetir aplicaciones de la ley de losgrandes numeros; los argumentos se aplican a casi toda la muestra de puntos ω. Primeromostraremos que la muestra optima de centros del cluster An esta en una region com-pacta de Rs. La prueba de esto es inductiva empezando por el simple caso de 1-media.Una vez que esta establecida la consistencia para (k−1)-medias , el caso de k-medias estratado primero mostrando que existe una bola compacta B(M) que contiene al menosun punto del optimo An, para n suficientemente grande. Si esto no fuera ası, W (·, Pn)podrıa decrecer (cuando n es suficientemente grande) moviendo todos los centros delos clusters a un solo punto. Luego mostraremos que la bola compacta B(5M) contienetodos los puntos de An. Es mas, B(5M) puede ser agrandada tanto que cualquier pun-to de An que se encuentre fuera de la B(5M) puede ser borrado sin que W (An, Pn)aumente. Esto darıa un conjunto de como mucho k − 1 puntos para el cual si n es losuficientemente grande, W (·, Pn) es menor que el mınimo valor para k − 1 medias; yesto es una contradiccion.

El segundo paso en la prueba involucra mostrar la convergencia uniforme casi segurade W (A,Pn)−W (A,P) sobre los subconjuntos de la B (5M) que contienen k o menospuntos.

Funciones objetivo poblacional y empırica. Dada una medida de probabilidadQ en Rs para cada conjunto finito A de Rs definimos:

Φ(A,Q) :=

∫mına∈A‖x− a‖2Q(dx), (4)

ymk(Q) := inf{Φ(A,Q) : A contiene k o menos puntos}.

La funcion objetivo poblacional correspondera a tomar Q = P en (4), mientras quela empırica lo hara para Q = Pn.

Para un dado k, el conjunto An = An(k) de los optimos centros de la muestratiene que ser elegido tal que Φ(An, Pn) = mk(Pn); el conjunto poblacional de los

12

Page 19: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

centros A = A(k) satisface Φ(A,P) = mk(P). El objetivo es mostrar que An → Acasi seguramente.

La convergencia de conjuntos va a ser tomada de manera tal que sea determinadapor la distancia de Hausdorff H(·, ·), que esta definida para subconjuntos compactosA, B de Rs del siguiente modo: H(A,B) < δ si y solo si todo punto de A esta a unadistancia menor a δ de al menos un punto de B y viceversa.

Mas precisamente

H(A,B) = {ınfε : A ⊂ Bε y B ⊂ Aε},

siendo Aε = {x : d(x,A) < ε}.Supongamos que A contiene exactamente k puntos distintos y que δ es elegido menor

que la mitad de la mınima distancia entre puntos de A. Entonces si B es un conjuntode k o menos puntos del cual H(A,B) < δ tiene que contener exactamente k puntosdistintos los cuales estan a una distancia menor a δ de algun punto de A.

Observacion 1 Si∫‖x‖2P(dx) <∞ entonces Φ(A,P) < ∞ para cada A.

En efecto, como Φ(A,P) :=∫

mına∈A‖x− a‖2P(dx) y para cada a ∈ Rs :∫

‖x− a‖2P(dx) ≤∫

(‖x‖+ ‖a‖)2P(dx)

≤∫‖x‖≤‖a‖

(‖x‖+ ‖a‖)2P(dx) +

∫‖x‖≥‖a‖

(‖x‖+ ‖a‖)2P(dx)

≤ (2‖a‖)2 +

∫‖x‖≥‖a‖

(2‖x‖)2P(dx)

≤ (2‖a‖)2 + 4

∫(‖x‖)2P(dx).

El siguiente Teorema muestra la consistencia fuerte de los centros de la versionempırica a los poblacionales ası como la convergencia de las funciones objetivo empıricasa la poblacional. La demostracion se hace en dos etapas. En la primera se muestra quelos centros optimos muestrales An = An(k) estan ultimamente en un compacto. Lasegunda etapa utiliza una ley fuerte de grandes numeros uniforme sobre conjuntosde k o menos puntos contenidos en el compacto hallado en la primera etapa. Estorequerira del estudio de algunos resultados de procesos empıricos.

Teorema 1 (Consistencia) Supongamos que∫‖x‖2P(dx) <∞ y que para cada j =

1, 2, ..., k hay un unico conjunto A(j) para el cual Φ(A(j),P) = mj(P).Entonces An → A(k) c.s. y Φ(An, Pn)→ mk(P) c.s.

13

Page 20: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Observacion 2 La unicidad de los A(j)’s implica que m1(P) > m2(P) > . . . > mk(P).Pues si mj−1(P) = mj(P) para algun j, entonces A(j − 1) puede ser aumentado porun punto arbitrario para dar un NO unico conjunto A, de no mas de j puntos distin-tos, para el cual Φ(A,P) = mj(P). Similares condiciones implican que A(j) contieneexactamente j puntos distintos. Pues si A(j) contiene j − 1 o menos puntos distintosentonces A(j − 1) (que contiene los j − 1 o menos puntos distintos de A(j)) puede seraumentado por un punto arbitrario para dar un NO unico conjunto A(j).Como las conclusiones del teorema estan en terminos de una convergencia casi segura,va a haber conjuntos ω’s de medida cero en los cuales no va a converger.

Demostracion. Primer etapa. Queremos encontrar una bola suficientemente grande(que no dependa de ω) de modo que si n es suficientemente grande los centros empıricosoptimos esten contenidos en ella. Este primer paso lo haremos en dos pasos.

En el primer paso encontraremos M (que no dependa de ω) de modo que si n essuficientemente grande, al menos uno de los centros empıricos optimos este contenido enla bola centrada en 0 de radio M , B(M) (alguno de los puntos de An este en B(M)). Enel segundo paso probaremos que para n suficientemente grande, la bolaB(5M), centradaen el origen de radio 5M contiene a todos los centros empıricos optimos (An ⊂ B(5M)).

Primer paso. Primer etapa.Sea r tal que la bola K de radio r centrada en el origen tenga medida positiva P .Va a ser suficiente para ello que (M − r)2P(K) >

∫‖x‖2P(dx) para garantizarlo,

lo que siempre es posible tomando M suficientemente grande, pues∫‖x‖2P(dx) < ∞

y la funcion cuadratica es estrictamente creciente para R>0 .Para los siguientes pasos requeriremos mas condiciones a M .Busquemos M tal que para n suficientemente grande al menos un punto de An

esta contenido en la bola cerrada B(M).Asumimos Φ(An, Pn) ≤ Φ(A0, Pn) para cualquier conjunto A0 que contenga como

mucho k puntos (pues An es el conjunto de los optimos centros de la muestra). ElegimosA0 que contenga un unico punto en el origen.

Entonces, Φ(A0, Pn) =∫‖x‖2Pn(dx)→

∫‖x‖2P(dx) c.s. (Por la Ley de los Grandes

Numeros).Si para infinitos valores de n, ningun punto de An, esta contenido en B(M), entonces

lım supn→∞

Φ(An, Pn) ≥ lımn→∞

(M − r)2Pn(K) = (M − r)2P(K) c.s.,

14

Page 21: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

pues,

Φ(An, Pn) :=

∫mına∈An

‖x− a‖2Pn(dx)

≥∫K

mına∈An

‖x− a‖2Pn(dx)

≥ ınfa∈An, x∈K

‖x− a‖2Pn(K)

≥ (M − r)2Pn(K) ∀n;

y (M − r)2P(K) >∫‖x‖2P(dx), lımn→∞Φ(A0, Pn) =

∫‖x‖2P(dx) c.s.

Entonces Φ(An, Pn) > Φ(A0, Pn) para infinitos valores. Esto indica que llegamos auna contradiccion.

Luego sin perdida de generalidad vamos a asumir que An siempre contiene comomınimo un punto en B(M).

Segundo paso. Primer etapa.

Si k = 1 como An contiene un solo punto entonces por lo anteriormente demostra-do la bola cerrada B(M) contiene todos los puntos.

Si k > 1 veamos que para n suficientemente grande la bola cerrada B(5M) con-tiene todos los puntos de An.

Para demostrarlo vamos a usar un metodo inductivo. Supongamos que el teoremaes valido para 1, 2, . . . , k − 1 centros de clusters.

Si An no esta contenido en B(5M), los centros de los clusters que estan fuera dela B(5M) pueden ser eliminados, obteniendo k − 1 (o menos) centros, para los cualesΦ (·, Pn) estarıa por debajo de su mınimo sobre todos los conjuntos de k− 1 puntos. Locual serıa una contradiccion.

En efecto, bastarıa con elegir M tal que

4

∫‖x‖≥2M

‖x‖2P(dx) < ε,

donde ε > 0 es elegido para satisfacer ε+mk(P) < mk−1(P). Este es el segundo requisitopedido de M .

Supongamos que An contiene al menos un punto fuera de B(5M). ¿Cual serıa elefecto sobre Φ(An, Pn) de eliminar esos puntos como centros de clusters? En el peorde los casos el centro a1 que era conocido por pertenecer a la B(M) va a tener queaceptar a su cluster todos los puntos que fueron asignados a clusters cuyos centros se

15

Page 22: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

encontraban fuera de la B(5M). Estos puntos tienen que haber estado como mınimoa una distancia 2M del origen, sino hubiesen estado mas cerca de a1 que de cualquierotro centro ubicado fuera de la B(5M). La contribucion extra de Φ(·, Pn) al borrar loscentros que se encuentran fuera de la B(5M) es como mucho∫

‖x‖≥2M

‖x− a1‖Pn(dx) ≤∫‖x‖≥2M

(‖x‖+ ‖a1‖)2Pn(dx)

≤∫‖x‖≥2M

(2‖x‖)2Pn(dx)

≤ 4

∫‖x‖≥2M

‖x‖2Pn(dx).

El conjunto A∗n obtenido al eliminar de An todos los centros que se encontrabanfuera de la B(5M) es un candidato para minimizar Φ(·, Pn) en los conjuntos de k − 1o menos centros. Sea Bn el optimo con k − 1 centros.

Entonces Φ(A∗n, Pn) ≥ Φ(Bn, Pn)→ mk−1(P) c.s. (por la hipotesis inductiva).Si An * B(5M) en una subsecuencia {nl} de valores de n, entonces

mk−1(P) ≤ lımi→∞

ınf Φ(A∗ni, Pn) c.s.

≤ lımn→∞

sup[Φ(An, Pn) + 4

∫‖x‖≥2M

‖x‖2Pn(dx)],

como Φ(An, Pn) = mk(Pn) := ınf {Φ(A,Pn) : A contiene k o menos puntos}, luego,Φ(An, Pn) ≤ Φ(A,Pn) para cualquier conjunto con k o menos puntos y, por la LGN,tenemos que 4

∫‖x‖≥2M

‖x‖2Pn(dx)→ 4∫‖x‖≥2M

‖x‖2P(dx) c.s. Por lo tanto,

mk−1(P) ≤ lımn→∞

sup[Φ(An, Pn) + 4

∫‖x‖≥2M

‖x‖2Pn(dx)]

≤ lımn→∞

sup Φ(A,Pn) + 4

∫‖x‖≥2M

‖x‖2P(dx)c.s.,

para cualquier conjunto A con k o menos puntos.Elegimos A = A(k), el conjunto optimo de k centros de Φ(·, Pn), entonces,

mk−1(P) ≤ lımn→∞

sup Φ(A,Pn) + 4

∫‖x‖≥2M

‖x‖2P(dx)

< Φ(A(k),P) + ε = mk(P) + ε < mk−1(P),

entonces: mk−1(P) < mk−1(P) lo cual es una contradiccion.

16

Page 23: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Segunda etapa.Ahora sabemos que para n suficientemente grande es suficiente chequear An en la

clase de los conjuntos

Ek := {A ⊆ B(5M) : A contiene k o menos puntos}.

Como requisito final de M , asumimos que M es suficientemente grande como paraasegurar que Ek contiene a A(k).

Luego la funcion Φ(·,P) alcanza su unico mınimo en Ek en A(k). Con la metricade Hausdorff Ek es un compacto (esto se sigue de la compacidad de la B(5M)) y laasignacion A→ Φ(A,P) es continua en Ek (lo probaremos mas adelante). Por tanto, secumple que para cualquier entorno N de A(k) ∃ un η > 0 que depende de N, tal que,

Φ(A,P) ≥ Φ(A(k),P) + η ∀A ∈ Ek\N.

La prueba puede ahora ser completada probando una ley de los grandes numerosuniforme

supA∈Ek

|Φ(A,Pn)− Φ(A,P)| → 0 c.s.,

(este resultado lo probaremos mas adelante).

Necesitamos mostrar que An esta ultimamente en el entorno N. Para ello, es sufi-ciente chequear que Φ(An, P) < Φ(A(k),P) + η ultimamente.

Sabemos queΦ(An, Pn) ≤ Φ(A(k), Pn).

Y por la ley de los grandes numeros uniforme tenemos que

supA∈Ek

|Φ(A,Pn)− Φ(A,P)| → 0 c.s.,

y An ∈ Ek, entonces tomando A = An,

Φ(An, Pn)− Φ(An,P)→ 0 c.s.

YΦ(A(k), Pn)− Φ(A(k),P)→ 0 c.s.

por la ley fuerte de los grandes numeros.Luego,

Φ(An,P) < Φ(A(k),P) + η,

que es lo mismo que Φ(An, P) < mk(P) + η .Por lo tanto An → A(k) c.s. con la metrica de Hausdorff.

17

Page 24: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Veamos ahora que,

Φ(An, Pn) = ınf{Φ(A,Pn) : A ∈ Ek} → ınf{Φ(A,P) : A ∈ Ek} = mk(P)c.s.

Sabemos que

Φ(An, Pn) ≤ Φ(A(k), Pn)→ Φ(A(k),P) = mk(P)c.s.

por la ley fuerte de los grandes numeros.Y por la ley de los grandes numeros uniforme tenemos que

supA∈Ek

|Φ(A,Pn)− Φ(A,P)| → 0 c.s.,

y An ∈ Ek, entonces tomando A = An,

|Φ(An, Pn)− Φ(An,P)| → 0 c.s.

Entonces, ∀ε > 0 Φ(An, Pn) + ε ≥ Φ(An,P) para n suficientemente grande c.s.Y Φ(An,P) ≥ Φ(A(k),P) = mk(P).Luego, ∀ε > 0 mk(P) ≤ Φ(An, Pn) + ε ≤ mk(P) + 2ε para n suficientemente grande

c.s.Por lo tanto queda demostrado que

Φ(An, Pn) = ınf{Φ(A,Pn) : A ∈ Ek} → ınf{Φ(A,P) : A ∈ Ek} = mk(P)c.s.

Resta probar la ley de los grandes numeros uniformes y la continuidad de Φ(·,P).Demostracion.

Veamos quesupA∈Ek

|Φ(A,Pn)− Φ(A,P)| → 0 c.s.

SeaG la familia de funciones P-integrables en Rs de la forma gA(x) := mına∈A

φ(‖x−a‖),donde A es cualquier subconjunto de Ek que contiene k o menos puntos. Y φ(r) := r2

si r ≥ 0 y φ(r) := 0 si r < 0.Necesitamos probar una ley de los grandes numeros uniforme:

supg∈G|∫gdPn −

∫gdP| → 0 c.s.

Una condicion suficiente es: para cada ε > 0 existe una clase finita Gε de funciones

tales que para cada g ∈ G, existen funciones◦g, g ∈ Gε tales que

◦g ≤ g ≤ g y

∫(g − ◦g)dP < ε.

18

Page 25: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

La demostracion de este resultado se encuentra en el Apendice.Para encontrar un apropiado Gε, sea Dδ un subconjunto finito de B(5M) tal que

cada punto de B(5M) tiene al menos un punto en Dδ a distancia ≤ δ.Sea Ek,δ := {A ∈ Ek, A ⊆ Dδ}.Sea Gε la clase de funciones de la forma

mına∈A′

φ(‖x− a‖+ δ)

omına∈A′

φ(‖x− a‖ − δ),

donde A′ ∈ Ek,δy φ(r) := r2 si r ≥ 0, φ(r) := 0 si r < 0.Dado A = {a1, a2, ..., ak} ∈ Ek, existe A′ = {a′1, a′2, ..., a′k} ∈ Ek,δ con H(A,A′) < δ

(simplemente eligiendo a′i ∈ Dδ con ‖ai − a′i‖ < δ ∀i ).Para gA ∈ G, tomamos:

gA := mına∈A′

φ(‖x− a‖+ δ)

y◦gA := mın

a∈A′φ(‖x− a‖ − δ),

donde φ(r) := r2 si r ≥ 0 y φ(r) := 0 si r < 0.Como φ es monotona creciente y

‖x− a′i‖ − δ ≤ ‖x− ai‖ ≤ ‖x− a′i‖+ δ ∀i, ∀x ∈ Rs,

entonces◦gA ≤ gA ≤ gA.

19

Page 26: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Luego si R es mas grande que 5M + δ∫gA(x)− ◦

gA(x)P(dx) ≤∫ k∑

i=1

[φ(‖x− a′i‖+ δ)− φ(‖x− a′i‖ − δ)]P(dx)

=

∫‖x‖≤R

k∑i=1

[φ(‖x− a′i‖+ δ)− φ(‖x− a′i‖ − δ)]P(dx)

+

∫‖x‖≥R

k∑i=1

[φ(‖x− a′i‖+ δ)− φ(‖x− a′i‖ − δ)]P(dx)

≤ k sup‖x‖≤R

supa∈B(5M)

[φ(‖x− a‖+ δ)− φ(‖x− a‖ − δ)]

+

∫‖x‖≥R

k∑i=1

[φ(‖x‖+ ‖a′i‖+ δ)− φ(‖x‖+ ‖a′i‖ − δ)]P(dx)

≤ k sup‖x‖≤R

supa∈B(5M)

[φ(‖x− a‖+ δ)− φ(‖x− a‖ − δ)]

+k

∫‖x‖≥R

8φ(‖x‖)P(dx),

donde en la ultima desigualdad usamos que ‖a′i‖+δ ≤ R ≤ ‖x‖ pues ‖a′i‖ ≤ 5M ≤ R−δentonces φ(‖x‖ + ‖a′i‖ + δ) ≤ φ(2‖x‖) ≤ 4φ(‖x‖) y ‖a′i‖ − δ ≤ R ≤ ‖x‖, por lo tanto,φ(‖x‖+ ‖a′i‖ − δ) ≤ 4φ(‖x‖).

El segundo termino es menor a ε/2 si elegimos R suficientemente grande. Luego porla continuidad uniforme de φ sobre conjuntos acotados, podemos encontrar δ > 0 losuficientemente chico para que el primer termino sea menor a ε/2.

Un argumento similar puede ser utilizado para probar la continuidad de la asignacionA→ Φ(A,P) en Ek.

Si A, B ∈ Ek y H(A,B) < δ entonces para todo b ∈ B existe un punto a(b) ∈ A talque ‖b− a(b)‖ < δ.

Entonces

Φ(A,P)− Φ(B,P) =

∫mına∈A‖x− a‖2 −mın

b∈B‖x− b‖2P(dx)

≤∫

maxb∈B

[ ‖x− a(b)‖2 − ‖x− b‖2 ]P(dx)

≤∫ ∑

b∈B

[(‖x− b‖+ δ)2 − ‖x− b‖2]P(dx),

que es menor que ε si δ es elegido como antes.La otra desigualdad necesaria para probar la continuidad se obtiene intercambiando

los roles de A y B.

20

Page 27: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

4. El metodo combinatorio

Teorema 2 (Glivenko-Cantelli) El Teorema de Glivenko-Cantelli (o Teorema Fun-damental de la Estadıstica) afirma que para toda distribucion P en R,

supt|Pn(−∞, t]− P(−∞, t]| → 0 casi seguramente,

cuando la medida empırica Pn proviene de una muestra independiente de P.

En lo que sigue denotaremos por ‖ · ‖ al supremo sobre la clase F de intervalos (−∞, t],para −∞ < t < ∞. Vamos a poder restringir al supremo sobre los racionales parapoder asegurar medibilidad.

Para facilitar la lectura dividiremos la demostracion del Teorema de Glivenko-Cantelli en 5 etapas.

Demostracion.Primera etapa: Primera simetrizacionEn vez de comparar a Pn con su distribucion P , miremos la diferencia entre Pn

y una copia independiente de el mismo que llamaremos P ′n. La diferencia Pn − P ′nesta determinada por un conjunto de 2n puntos (tomados al azar) de la linea real.

Lema 3 (simetrizacion) Sean {Z(t) : t ∈ T} y {Z ′(t) : t ∈ T} procesos estocasticosindependientes que comparten un conjunto T . Supongamos que existen constantes α > 0y β > 0 tales que P {|Z ′(t)| ≤ α} ≥ β para todo t en T . Entonces:

P

{supt|Z(t)| > ε

}≤ β−1P

{supt|Z(t)− Z ′(t)| > ε− α

}.

Demostracion. Sea τ una variable aleatoria para la cual |Z(τ)| > ε en el conjunto{sup |Z(t)| > ε}. Como τ es determinado por Z, es independiente de Z ′. Se comportacomo un ındice de valores fijos si condicionamos con Z:

P {|Z ′(τ)| ≤ α|Z} ≥ β.

Entonces:

βP

{supt|Z(t)| > ε

}≤ P {|Z ′(τ)| ≤ α|Z}P

{supt|Z(t)| > ε

}≤ P {|Z ′(τ)| ≤ α|Z}P {|Z(τ)| > ε}≤ P {|Z ′(τ)| ≤ α, |Z(τ)| > ε}≤ P {|Z(τ)− Z ′(τ)| > ε− α}

≤ P

{supt|Z(t)− Z ′(t)| > ε− α

}.

21

Page 28: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Si se observa con detalle la demostracion se puede ver que ciertas sutilezas teoricasfueron ignoradas. Pero, para nuestro objetivo es suficiente asumir que T es numerable ypara esta clase de conjuntos la demostracion esta bien hecha. Vamos a reemplazar supre-mo sobre todos los intervalos (−∞, t) por supremo sobre los intervalos con t racional.

Para un t fijo, Pn(−∞, t] es un promedio de n variables aleatorias independientes deI{ξi≤t}, cada una con valor esperado de P(−∞, t], y varianza P(−∞, t]− (P(−∞, t])2,que es menor a uno. Utilizando la desigualdad de Tchebychev:

P

{|P ′n(−∞, t]− P(−∞, t]| ≤ 1

}≥ 1− (P(−∞, t]− (P(−∞, t])2)/n(

12ε)2

= 1− 4

ε2

(P(−∞, t]− (P(−∞, t])2)

n

≥ 1

2si n ≥ 8ε−2.

Aplicando el lema de simetrizacion para Z = Pn−P y Z ′ = P ′n−P , con F un conjuntofijo, α = 1

2ε, y β = 1

2.

P {‖Pn − P‖ > ε} ≤ 2P

{‖Pn − P − (P ′n − P)‖ > ε− 1

}= 2P

{‖Pn − P ′n‖ >

1

}si n ≥ 8ε−2.

Segunda etapa: Segunda simetrizacionLa diferencia Pn − P ′n depende de 2n observaciones. El tamano doble de la muestra

crea una molestia menor al menos en la notacion. Puede ser evitada con un truco deun segunda simetrizacion, con el costo de una disminucion de ε. Independientemente delas observaciones ξ1, . . . , ξn, ξ

′1, . . . , ξ

′n para las cuales la medida empırica fue construıda,

generamos variables aleatorias independientes σ1, . . . , σn para las cuales P {σi = 1} =P {σi = −1} = 1/2. Las variables aleatorias simetricas I{ξi≤t}−I{ξ′i≤t}, para i = 1, . . . , n

y −∞ < t < ∞, tienen la misma distribucion conjunta que las variables aleatorias

σi

[I{ξi≤t} − I{ξ′i≤t}

].

22

Page 29: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Entonces:

P

{‖Pn − P ′n‖ >

1

}= P

{supt

∣∣∣∣∣n−1

n∑i=1

σi

[I{ξi≤t} − I{ξ′i≤t}

]∣∣∣∣∣ > 1

}

≤ P

{supt

∣∣∣∣∣n−1

n∑i=1

σiI{ξi≤t}

∣∣∣∣∣ > 1

}

+ P

{supt

∣∣∣∣∣n−1

n∑i=1

σiI{ξ′i≤t}

∣∣∣∣∣ > 1

}.

Escribamos P 0n para la medida que le da peso n−1σi a I{ξi≤t}.

Entonces

P {‖Pn − P‖ > ε} ≤ 2P

{‖Pn − P ′n‖ >

1

}(5)

≤ 4P

{‖P 0

n‖ >1

}.

Para controlar el termino de la derecha, le vamos a agregar condiciones a las obser-vaciones.

Tercera etapa: Desigualdad MaximalUna vez que la localizacion de las obervaciones ξ esta fija, el supremo de ‖P 0

n‖ sereduce al maximo tomado sobre un conjunto estrategico de intervalos Ij = (−∞, tj],para j = 0, 1, . . . , n. Por supuesto que la eleccion de los intervalos depende de lasobservaciones ξ; necesitamos un tj entre cada par de observaciones adyacentes (t0 y tnno son realmente necesarios). Con el numero de intervalos reducidos tan drasticamentepodemos plantear una cota drastica para el supremo.

P

{‖P 0

n‖ >1

4ε|ξ}≤

n∑j=0

P

{∣∣P 0nIj∣∣ > 1

4ε|ξ}

(6)

≤ (n+ 1)maxjP

{∣∣P 0nIj∣∣ > 1

4ε|ξ}.

Esta cota va a ser adecuada para el presente caso, porque las probabilidades condi-cionales disminuyen exponencialmente con n; gracias a la desigualdad de Hoeffding parasumas de variables aleatorias independientes y acotadas.

23

Page 30: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Cuarta etapa: Cota exponencialSean Y1, . . . , Yn variables aleatorias independientes, cada una con media cero y un

rango acotado: ai ≤ Yi ≤ bi. Para cada η > 0, la desigualdad de Hoeffding dice:

P {|Y1 + . . .+ Yn| ≥ η} ≤ 2 exp

[−2η2/

n∑i=1

(bi − ai)2

].

Esta desigualdad la demostraremos en el apendice.Apliquemos la desigualdad para Yi = σiI{ξi≤t}. Dado ξ la variable aleatoria Yi toma

solamente los valores ±I{ξi≤t}, cada uno con probabilidad 12. Luego −1 ≤ Yi ≤ 1

P

{∣∣P 0n(−∞, t]

∣∣ ≥ 1

4ε|ξ}

= P

{∣∣∣∣∣n−1

n∑i=1

σiI{ξi≤t}

∣∣∣∣∣ ≥ 1

4ε|ξ

}

= P

{∣∣∣∣∣n∑i=1

σiI{ξi≤t}

∣∣∣∣∣ ≥ nε

4|ξ

}

≤ 2 exp

[−2(nε

4

)2

/n∑i=1

(1− (−1))2

]≤ 2 exp(−nε2/32),

Usemos esto para cada Ij en la desigualdad (6) .

P

{‖P 0

n‖ >1

4ε|ξ}≤ 2(n+ 1) exp(−nε2/32). (7)

Notemos que el lado derecho ahora no depende de ξ.

Quinta etapa: IntegracionLuego tomando esperanza respecto a ξ y usando las dos desigualdades (5) y (7),

obtenemos:P {‖Pn − P‖ > ε} ≤ 8(n+ 1) exp(−nε2/32).

Esto da una muy rapida convergencia en probabilidad, tan rapida que∞∑n=1

P {‖Pn − P‖ > ε} <∞,

para cada ε > 0. Luego por el lema de Borel-Cantelli la convergencia es casi segura,quedando demostrado el teorema de Glivenko-Cantelli.

24

Page 31: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

5. Clases de conjuntos con discriminacion polino-

mial

Para probar el Teorema de Glivenko-Cantelli, hemos utilizado muy pocas propiedadesde los intervalos. El principal requerimiento para la ecuacion (6) era que se puede ele-gir como mucho n + 1 subconjuntos de cualquier conjunto de n puntos. El resto dela demostracion vale para otras familias mas generales de conjuntos con ligeras modi-ficaciones. Esto motiva cosiderar otras familias de conjuntos para los cuales se puedaobtener una cota polinomial en (6) que nos llevarıa a cambiar en (7) (n + 1) por unpolinomio para el caul aun vale el argumento que sigue a (7). Por ejemplo, cuadrantesde la forma (−∞, t]× (−∞, s] en R2 pueden elegir como mucho (n+ 1)2 diferentes sub-conjuntos de un conjunto de n puntos en el plano (hay como mucho n+1 lugares dondeubicar el lımite vertical y n+ 1 lugares donde ubicar el lımite horizontal). Reemplazan-do n + 1 por (n+ 1)2 podemos repetir los argumentos que utilizamos al demostrar elteorema de Glivenko-Cantelli. La cota exponencial controla a (n + 1)2 ası como con-trolaba a n+ 1. Es mas, controlarıa a cualquier polinomio. Los argumentos sirven paraintervalos, cuadrantes y cualquier otra clase de conjuntos para los cuales se pueda elegiruna cantidad polinomial de subconjuntos.

Definicion 4 Sea D la clase de subconjuntos de cierto espacio S. Se dice que tienediscriminacion polinomial (de grado υ) si existe un polinomio ρ (·) (de grado υ) talque, para cualquier conjunto de N puntos en S, se puede elegir como mucho ρ (N)subconjuntos distintos. Formalmente, si S0 contiene N puntos, entonces hay como mu-cho ρ (N) conjuntos distintos de la forma S0 ∩ D con D en D. LLamemos ρ (·) a ladiscriminacion polinomial de D.

Para acortar el nombre llamemos a “la clase que tiene discriminacion polinomial”,“clase polinomial” y adoptemos la misma terminologıa para polinomios de menor grado.Por ejemplo, los intervalos de la linea real tienen discriminacion lineal (los llamaremosclase lineal) y los cuadrantes en el plano tienen discriminacion cuadratica (los llamare-mos clase cuadratica). Por supuesto hay clases que no tienen discriminacion polinomial.Por ejemplo, para toda coleccion de N puntos ubicados en la circunferencia de un cırcu-lo de R2 la clase de conjuntos cerrados convexos puede elegir 2N subconjuntos, y 2N

crece mucho mas rapido que cualquier polinomio.El metodo de la demostracion anterior se puede aplicar a cualquier clase polinomial

de conjuntos, pero pueden surgir problemas de medibilidad. Las clases que no tiene estosproblemas son llamadas permisibles. Cualquier clase especıfica que encontremos va aser permisible. Asique, ignoremos estos problemas a partir de ahora, pero utilicemos eltermino permisible para recordar que cierta condicion de regularidad es necesaria.

25

Page 32: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Teorema 5 Sea P una medida de probabilidad de un espacio S. Para toda clase per-misible D de subconjuntos de S con discriminacion polinomial,

supD|PnD − PD| → 0 cs.

Demostracion. La demostracion es igual a la de Glivenko-Cantelli, cambiando F porD y cambiando n+ 1 por el polinomio que corresponda a D, y tachando las referenciasa intervalos y a la linea real.

¿Que clases tiene discriminacion polinomial? Ya sabemos de intervalos y cuad-rantes; equivalentes con dimensiones mayores tienen las mismas propiedades. Otrasclases pueden ser construıdas a partir de estas.

Lema 6 Si C y D tienen discriminacion polinomial, entonces tambien:(i) {Dc : D ∈ D} ;(ii) {C ∪D : C ∈ C y D ∈ D} ;(iii) {C ∩D : C ∈ C y D ∈ D} .

Demostracion. Sean c(·) y d(·) las discriminaciones polinomiales. Podemos suponerque ambas son funciones crecientes de N.

De un conjunto S0 que contiene N puntos, supongamos que D elige los subconjuntosS ′1, . . . , S

′l con l ≤ d(N). Entonces la clase de (i) elige los subconjuntos S ′c1 , . . . , S

′cl . Como

l ≤ d(N) esto da la cota d(N) para el tamano de la clase de (i). Esto prueba (i).De un conjunto S0 que contiene N puntos, supongamos que C elige los subconjuntos

S1, . . . , Sk con k ≤ c(N). Y D elige los subconjuntos S ′1, . . . , S′l con l ≤ d(N). Entonces

la clase de (ii) elige los subconjuntos S1 ∪ S ′1, . . . , S1 ∪ S ′l, . . . , Sk ∪ S ′1, . . . , Sk ∪ S ′l, estoda la cota c(N)d(N). Esto prueba (ii) .

De un conjunto S0 que contiene N puntos, supongamos que C elige los subconjuntosS1, . . . , Sk con k ≤ c(N). Supongamos que Si contiene Ni puntos. La clase D elige comomucho d(Ni) distintos subconjuntos de Si. Esto da la cota d(N1) + . . .+ d(Nk) para eltamano de la clase de (iii). La suma es menor que c(N)d(N). Esto prueba (iii).

El lema puede ser aplicado repetidamente para generar cada vez mas clases polinomi-ales. Igual deberıamos de ponerle un lımite al numero de operaciones permitidas. Pues,por ejemplo, la clase de todos los conjuntos de un solo elemento tiene discriminacionlineal, pero con una cantidad arbitraria de uniones finitas podemos elegir cualquierconjunto finito.

Usando este lema muy rapidamente construımos clases de poco interes. Afortunada-mente hay otros sistematicos metodos para encontrar clases polinomiales.

Los polinomios crecen mucho mas lento que las funciones exponenciales. Para Nsuficientemente grande, una clase polinomial tiene que no contener como mınimo uno delos 2N subconjuntos de cada coleccion de N puntos. Sorprendentemente esto caracterizaa la dicriminacion polinomial. Una clase D se dice que fragmenta un conjunto de puntosF si puede seleccionar cualquier subconjunto posible (incluyendo el conjunto vacio y el

26

Page 33: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

conjunto F ) ; esto quiere decir, D fragmenta F si cualquier subconjunto de F tiene laforma D ∩ F para algun D en D.

Por ejemplo, la clase de los discos cerrados de R2 puede romper cualquier conjunto de3 puntos siempre que no esten alineados. Pero para los conjuntos de 4 puntos, no importacual sea su configuracion solo va a poder elegir 15 de los posibles 16 subconjuntos. Eldisco fragmenta algunos conjuntos de tres puntos pero no fragmenta de 4 puntos.

Teorema 7 Sea S0 un conjunto de N puntos en S. Supongamos que existe un enteroV ≤ N tal que D no fragmenta ningun conjunto de V puntos de S0. Entonces D nopuede elegir mas de

(N0

)+(N1

)+ · · ·+

(NV−1

)subconjuntos de S0.

Demostracion. Sean F1, . . . , Fk la coleccion de todos los subconjuntos de V elementosde S0. Es claro que k =

(NV

). Por supuesto, cada Fi tiene un subconjunto “escondido”

Hi que D pasa por alto: D ∩ Fi 6= Hi para todo D en D. Esto quiere decir que todoslos conjuntos de la forma D ∩ S0, con D en D, pertenecen a

C0 = {C ⊆ S0 : C ∩ Fi 6= Hi para cada i} .

Va a ser suficiente encontrar una cota superior para el tamano de C0.En un caso especial va a ser posible contar el numero de conjuntos de C0 directa-

mente. Si Hi = Fi para cada i, entonces ningun C en C0 puede contener un Fi; es decir,ningun C puede contener un conjunto de V puntos. En otras palabras, miembros de C0consisten en 0, 1, . . . ,o V − 1 puntos. Entonces la suma de los coeficientes binomialesda el numero de conjuntos de esta forma.

Jugando con los conjuntos escondidos podemos reducir el caso general al caso espe-cial recien tratado. Etiquetemos los puntos de S0 como 1, . . . , N. Para cada i definamosH ′i = (Hi ∪ {1}) ∩ Fi; esto quiere decir, aumentamos Hi con el punto 1, siempre ycuando esto pueda ser hecho sin violar la restriccion de que el conjunto escondido estecontenido en Fi. Definimos la correspondiente clase:

C1 = {C ⊆ S0 : C ∩ Fi 6= H ′i para cada i} .

La clase C1 no tiene nada mas que ver con la clase C0. La unica coneccion es quetodos los conjuntos ocultos, que el conjunto pasa por alto, son mas grandes. Veamos queesto implica que C1 tiene un cardinal mas grande que C0. (Observamos que no estamosdiciendo que C0 ⊂ C1).

Chequeemos que la asignacion C −→ C\ {1} es una a una de C0\C1 a C1\C0.Comencemos con algun C en C0\C1. Por definicion, C ∩ Fi 6= Hi para todo i, peroC ∩ Fj = H ′j para al menos un j. Luego Hj 6= H ′j, por lo que 1 pertenece a C, a Fj y aH ′j, pero no a Hj. ¿Por que deberıa C\ {1} pertenecer a C1\C0? Observemos que

(C\ {1}) ∩ Fj = H ′j\ {1} = Hj,

27

Page 34: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

por lo tanto C\ {1} no pertenece a C0. Luego, si Fi contiene al 1, H ′i tambien lo tieneque contener, pero C\ {1} logicamente no puede, por lo tanto si Fi no contiene al 1entonces

(C\ {1}) ∩ Fi = C ∩ Fi 6= Hi = H ′i.

En ambos casos (C\ {1})∩Fi 6= H ′i, luego, C\ {1} pertenece a C1. Luego el cardinalde C1 es mas grande que el cardinal de C0.

Repitiendo el proceso, empezando con los nuevos conjuntos escondidos y con 2 enlugar de 1, definimos H ′′i = (H ′i ∪ {2})∩Fi y C2 = {C ⊆ S0 : C ∩ Fi 6= H ′′i para cada i}.El cardinal de C2 es mas grande que el cardinal de C1. Otras N − 2 repeticiones gene-rarıan las clases C3, C4, . . . , CN cuyos cardinales van creciendo. Y ademas los conjuntosescondidos de CN serıan todos los Fi; y estarıamos en el caso especial.

Corolario 8 Si una clase no fragmenta ningun conjunto de V puntos, entonces tienediscriminacion polinomial de grado menor o igual a V − 1.

Todo lo que nos falta ahora es un buen metodo para identificar las clases que tienenproblemas para elegir subconjuntos de conjuntos de puntos suficientemente grandes.

Lema 9 Sea G un espacio vectorial de dimension finita de funciones reales de S. Laclase de conjuntos de la forma {g ≥ 0}, con g en G, tiene discriminacion polinomial degrado menor o igual a la dimension de G.

Demostracion. Sea V − 1 la dimension de G. Elijamos una coleccion {s1, . . . , sV } depuntos distintos de S. (Todo es trivial si S contiene V o menos puntos.) Definamos unaasignacion lineal L de G en RV por

L(g) = (g(s1), . . . , g(sV )).

Como LG es un subespacio lineal de RV de dimension como mucho V − 1, existe enRV un vector no nulo γ ortogonal a LG. Esto quiere decir que∑

i

γig(si) = 0 para cada g en G,

o ∑{+}

γig(si) =∑{−}

γig(si) para cada g. (8)

Aca {+} se refiere a los conjuntos de los i para los cuales γi ≥ 0, y {−} para loscuales γi ≤ 0. Reemplazando γ por −γ si es necesario, podemos asumir que {−} no esvacio.

Supongamos que existe una g para la cual {g ≥ 0} elige precisamente aquellos puntossi con i en {+} . Para estos g, la parte izquierda de (8) va a ser ≥ 0 pero la parte derechaes < 0. Luego encontramos un conjunto que no puede ser elegido.

28

Page 35: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Muchas clases familiares de objetos geometricos caen dentro del lema. Por ejemplo,la clase de subconjuntos del plano generados por la forma cuadratica ax2 + bxy+ cy2 +dx+ ey+ f incluye todos los discos cerrados, elipsoides, y (como caso degenerado) lossemiespacios. Regiones mas complicadas pueden ser construıdas usando el lema. Estose puede aplicar en los teoremas, obteniendo ası generalizaciones del teorema clasico deGlivenko-Cantelli.

29

Page 36: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

6. Apendice

6.1. Demostracion de una ley de los grandes numeros uniforme

En esta seccion F va a ser la clase de funciones medibles en un conjunto S con unaσ−algebra que tiene medida de probabilidad P . La medida empırica Pn es construıdaa partir de un muestreo de P . Asumimos P|f | <∞ para cada f en F. Si F fuese finito,la convergencia de Pnf a Pf asegurada por la ley fuerte de los grandes numeros serıauniforme en f . Si F puede ser aproximado por una clase finita (no necesariamente unasubclase de F) de modo tal que los errores por la aproximacion sean uniformementepequenos, la uniformidad se trasladarıa a F. El metodo directo logra esto requiriendoque cada elemento de F este rodeado por un par de funciones tomadas de la clase finita.

Teorema 10 Si para cada ε > 0 existe una clase finita Fε que contenga una inferior yuna superior aproximacion para cada f en F, para el cual

fε,L ≤ f ≤ fε,U y P(fε,U − fε,L) < ε

Entonces supF|Pnf − Pf | → 0 casi seguramente.

Demostracion. Para probar la convergencia, basta demostrar :

lım ınf ınfF

(Pnf − Pf) ≥ 0

ylım sup sup

F(Pnf − Pf) ≤ 0,

o, equivalentemente,lım ınf ınf

F(Pn(−f)− P(−f)) ≥ 0.

Primero veamos quelım ınf ınf

F(Pnf − Pf) ≥ 0.

Para todo ε > 0,

lım ınf ınfF

(Pnf − Pf) ≥ lım ınf ınfF

(Pnfε,L − Pf) pues fε,L ≤ f

≥ lım ınf

(ınfF

(Pnfε,L − Pfε,L) + ınfF

(Pfε,L − Pf)

)≥ 0 + (−ε) pues Pfε,L > Pfε,U − ε ≥ Pf − ε

casi seguramente cuando Fε es finito.Y

lım ınf ınfF

(Pn(−f)− P(−f)) ≥ 0,

30

Page 37: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

pues para todo ε > 0,

lım ınf ınfF

(Pn(−f)− P(−f)) ≥ lım ınf ınfF

(Pn(−fε,U)− P(−f))

≥ lım ınf ınfF

(Pn(−fε,U)− P(−fε,U))

+ınfF

(P(−fε,U)− P(−f))

≥ 0 + (−ε), c.s. cuando Fε es finito.

Donde en la primer desigualdad hemos usado que−fε,U ≤ −f y en la ultima desigualdadhemos usado que P(−fε,U) > P(−fε,L)− ε ≥ P(−f)− ε.

Se puede notar que la independencia es solo utilizada para garantizar la convergenciacasi segura de Pnfε a Pfε para cada aproximacion fε. Hipotesis mas debiles comoestacionariedad y ergodicidad podrian remplazar la independencia.

6.2. Demostracion de una desigualdad exponencial

Probemos la siguinte desigualdad:Sean Y1, . . . , Yn variables aleatorias independientes, cada una con media cero y un

rango acotado: ai ≤ Yi ≤ bi. Para cada η > 0:

P {|Y1 + . . .+ Yn| ≥ η} ≤ 2 exp

[−2η2/

n∑i=1

(bi − ai)2

]. (9)

Para eso primero probemos el siguiente Lema:

Lema 11 Desigualdad de Hoeffding:Sea Y una variable aleatoria con media cero, a ≤ Y ≤ b. Entonces para s > 0,

E[esY]≤ es

2(b−a)2/8. (10)

Demostracion. Por convexidad

etY ≤ eta(b− Y )

(b− a)+ etb

(Y − a)

(b− a),

pues (b−Y )(b−a) + (Y−a)

(b−a) = 1.

Como E(Y ) = 0,

E(etY ) ≤ etab

(b− a)− etb a

(b− a),

31

Page 38: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

sea α = 1− β = −a(b−a) y u = t(b− a), entonces β = 1 + a

(b−a) = b(b−a) , y

ta =u

(b− a)(−α)(b− a) = −αu, tb =

u

(b− a)β(b− a) = βu.

Notemos que α > 0 porque a < 0 < b pues media de Y es cero.

logE(etY ) ≤ log(βe−αu + αeβu

)= log

(e−αu

(β + αe(β+α)u

))(obs: β + α = 1)

= −αu+ log (β + αeu) .

Sea L(u) = −αu+ log (β + αeu). Luego,

L′(u) = −α +1

β + αeuαe−u = −α +

α

α + βe−u.

L′′(u) =−α

(α + βe−u)2βe−u(−1) =

α + βe−u

] [βe−u

α + βe−u

].

Como x(1− x) ≤ 14

para todo 0 ≤ x ≤ 1, sea x = αα+βe−u , entonces

1− x =α + βe−u − αα + βe−u

=βe−u

α + βe−u= β

e−u

α + βe−u, 0 ≤ x ≤ 1.

Por lo tanto, L′′(u) ≤ 14. Por el teorema de Taylor

L(u) = L(0) + uL′(0) +1

2u2L′′(u∗)

≤ log(β + α) + u

(−α +

α

α + β

)+

1

2u2 1

4

=1

8u2

=1

8t2(b− a)2.

Entonces

logE(etY ) ≤ 1

8t2(b− a)2,

luegoE(etY ) ≤ et

2(b−a)2/8.

32

Page 39: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Demostracion. de (9). La desigualdad de Markov dice que para toda variable aleatoriaY no negativa, y η > 0,

P (Y ≥ η) ≤ E(Y )

η.

Se sigue de la desigualdad de Markov que si φ es estrictamente monotona crecientepara los valores no negativos, entonces para cualquier variable aleatoria Y y cualquiernumero real η,

P (Y ≥ η) = P (φ(Y ) ≥ φ(η)) ≤ E(φ(Y ))

φ(η).

Una aplicacion de esto con φ(x) = x2 es la desigualdad de Chebyshev’s: si Y es unavariable aleatoria arbitraria y t > 0, entonces

P {|Y − E(Y )| ≥ η} = P{|Y − E(Y )|2 ≥ η2

}≤

E[|Y − E(Y )|2

]η2

=V ar(Y )

η2.

Una generalizacion es tomando φ(x) = xq (x ≥ 0), para cualquier q > 0 tenemos

P {|Y − E(Y )| ≥ η} ≤ E [|Y − E(Y )|q]ηq

.

En casos especıfico uno elige el valor de q para minimizar la cota. Una idea rela-cionada es la base del metodo de la cota de Chernoff. Tomando φ(x) = esY donde ses un numero positivo arbitrario, para cualquier variable aleatoria Y , para cualquierη > 0, tenemos

P {Y ≥ η} = P{esY ≥ esη

}≤E[esY]

esη.

En el metodo de Chernoff’s, encontramos un s > 0 que minimiza la cota superior ohace la cota superior pequena.

Recordemos algunas simples desigualdades de variables aleatorias independientes.Estamos principalmente interesados en cotas superiores para las probabilidades de lasdesviaciones de la media, esto es, para obtener desigualdades de P {Sn − E (Sn) ≥ η},con Sn =

∑ni=1 Yi, donde Y1, . . . , Yn son variables aleatorias independientes evaluadas

en los reales.La desigualdad de Chebychev e independencia implican

P {|Sn − E(Sn)| ≥ η} ≤ V ar {Sn}η2

=

∑ni=1 V ar {Yi}

η2.

33

Page 40: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

El metodo de la cota de Chernoff’s es especialmente conveniente para cotas deprobabilidad de sumas de variables aleatorias independientes. Esto se debe a que losvalores esperados de un producto de variables aleatorias independientes es igual alproducto de los valores esperados, los lımites Chernoff serıan

P {Sn − E(Sn) ≥ η} ≤ e−sηE

[exp

(s

n∑i=1

(Yi − E(Yi))

)]

= e−sηn∏i=1

E[es(Yi−E(Yi))

](bajo independencia).

Aplicando (10) y usando que en nuetro caso E(Yi) = 0 (luego tambien la E(Sn) = 0)tenemos

P {Sn ≥ η} ≤ e−sη∏

es2(bi−ai)

2/8

= exp

[−sη +

1

8s2

n∑i=1

(bi − ai)2

].

Sea s = 4η/∑n

i=1 (bi − ai)2 para minimizar la funcion cuadratica entonces

P {Sn ≥ η} ≤ exp

[− 4η2∑n

i=1 (bi − ai)2 +2η2∑n

i=1(bi − ai)2

]

= exp

[− 2η2∑n

i=1 (bi − ai)2

].

Aplicando el mismo argumento a −Y1, . . . ,−Yn obtenemos

P {Sn ≤ −η} ≤ exp

[− 2η2∑n

i=1 (bi − ai)2

].

Luego

P {|Y1 + . . .+ Yn| ≥ η} ≤ 2 exp

[−2η2/

n∑i=1

(bi − ai)2

],

que es lo que querıamos probar.

34

Page 41: Tesis de Licenciatura Clasi caci on no supervisada: El m ...cms.dm.uba.ar/academico/carreras/licenciatura/tesis/2010/Gimenez... · A mis padres por apoyarme en mis decisiones y alegrarse

Referencias

[1] Boucheron, S., Lugosi, G. and Bousquet O. (2004), “Concentration Inequalities”,in O. Bousquet, U.v. Luxburg, and G. Ratsch (editors), Advanced Lectures inMachine Learning, Springer, pp. 208–240. Vol 9 No 1, 135–140.

[2] Hastie, T., Tibshirani, R., Friedman, J.(2001), “ The Elements of Statistical Learn-ing”. Springer Series in Statistics.

[3] Pollard, D. (1981), “Strong Consistency of K-Means Clustering”. The Annals ofStatistics, Vol 9 No 1, 135–140.

[4] Pollard, D.(1984), “Convergence of Stochastic Processes”. Springer–Verlag, NewYork.

35