Cart

27
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción ESTADÍSTICA MULTIVARIADA Nancy Lacourly 1 (versión preliminar) Ultima versión: 7 de julio de 2010 Departamento de Ingeniería Matemática Centro de Modelamiento Matemático (CNRS UMI 2807) Facultad de Ciencias Físicas y Matemáticas Universidad de Chile. Proyecto FONDEF D05I-10211 Documento de trabajo 1 Mail: [email protected] 1

description

cart model

Transcript of Cart

Page 1: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

ESTADÍSTICA MULTIVARIADA

Nancy Lacourly 1

(versión preliminar)Ultima versión: 7 de julio de 2010

Departamento de Ingeniería MatemáticaCentro de Modelamiento Matemático (CNRS UMI 2807)

Facultad de Ciencias Físicas y MatemáticasUniversidad de Chile.

Proyecto FONDEF D05I-10211

Documento de trabajo

1Mail: [email protected]

1

Page 2: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

2

Este documento de trabajo ha sido realizado en el proyecto FONDEF D05I-10211Herramientas para la formación de profesores, el cual comenzó en Marzo del

2007 y finaliza en Junio del 2009. El objetivo de este proyecto Fondef esfortalecer la formación inicial de profesores de matemáticas de enseñanza media,

en particular se crearía una colección de monografías para estudiantes depedagogía en matemáticas.

El presente documento es un borrador de la monografía que sería sujeto arevisión y evaluación por parte de expertos, profesores y estudiantes, con elobjeto de afianzar su pertinencia y calidad. Las modificaciones necesarias se

incorporarán durante el año 2009. Este documento es sólo para revisión y estáprohibida su reproducción parcial o total.

Page 3: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Índice general

Índice de figuras 5

Capítulo 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN 11.1. ¿Qué es un árbol de decisión? 11.2. División a partir de la variable de segmentación 41.3. Construcción del árbol de regresión 41.4. Construcción del árbol de clasificación 81.5. Resumen de la terminología 131.6. Ejercicios 14

Bibliografía 17

Indice de nombres propios 19

Indice analítico 21

3

Page 4: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Page 5: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Índice de figuras

1.1. Ejemplos de árboles 31.2. División con variables no binarias 51.3. Árboles del ejemplo de la cosecha de naranjas 51.4. Árboles podados 71.5. Árboles del ejemplo de los consumidores 81.6. División con variables no binarias 91.7. Gráficos de dispersión de los iris 131.8. Árbol de los iris 13

5

Page 6: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Las cifras no mienten, pero los mentirosos también usan cifrasAnónimo

PREFACIO

La introducción de las Probabilidades y Estadística en la Enseñanza Media no ha sido fácil paralos profesores de Matemática. Es posible que la dificultad emane, precisamente, de una formaciónbasada en la concepción de la matemática como una ”ciencia exacta”, reducible en último términoa la aplicación de algoritmos.

La necesidad de una interdisciplinariedad en la formación del profesor de la Enseñanza Mediasurgió hace algunos años, dejando atrás el carácter teórico y descontextualizado, para dejar lugara un conocimiento práctico y contextualizado. La estadística puede permitir el encuentro de lasmatemáticas con otras disciplinas como la biología o las ciencias sociales.

En la monografía “Introducción a la Estadística” 2 el lector descubrió el pensamiento estadísticoy, a través de muchas ilustraciones y ejemplos, los conceptos básicos de la estadística. En estamonografía se refuerza los conceptos de la teoría de tests de hipótesis entregando más justificacionesmatemáticas y nuevas distribuciones de probabilidad. Se centra la monografía en métodos paradatos multivariados.

Si bien esta monografía es más avanzada que la Introducción a la Estadística, tiene el mismoespíritu, prefiriendo explicar los conceptos de la estadística y la interpretación de los resultadossobre las demostraciones matemáticas de teoremas, que aún si no son ausentes, pueden saltarlasen una primera lectura. En el Capítulo 1, presentamos el análisis en componentes principales,el método más simple y más importante del análisis descriptivo multivariado, que se basa enresultados del Algebra Lineal. El Capítulo 2 contiene la teoría de tests estadísticos para mediasy proporciones basándose en el modelo Normal. Se presentan varias aplicaciones, en particularpara comparar más de dos poblaciones (ANOVA). En el capítulo 3 se presenta la regresión linealmúltiple. En el capítulo 4, se describe un método de predicción alternativo a la regresión lineal y alANOVA: los árboles de clasificación y regresión (CART). Es un método no lineal, que usa criteriospresentados en los dos capítulos anteriores y permite una visualización del modelo, que lo hacemuy interesante.

Se sugiere bajar de Internet el sofware estadístico gratuito R que se encuentra en www.r-project.org/.

Hemos intercalado referencias históricas cuando eso nos pareció relevante, y agregado ejercicios deautoevaluación para ayudar a la comprensión del texto. La solución de los ejercicios se encuentranen anexo.

Por su ayuda en las varias fases de este libro, me gustaría agradecer en especial a Lorena Cerda.Por su ayuda en la elaboración de los ejercicios, gracias a Andrés Iturriaga.

Agradezco a Juan Muñoz, mi esposo, quien siempre me prestó apoyo y sabe lo importante que hasido para mí escribir este texto.

Finalmente, con una inmensa alegría, dedico este trabajo especialmente a mis hijos queridos.

Nancy Lacourly 2009

2N. Lacourly, Introducción a la Estadística, Editorial JC. Sáez, Santiago, 2009.

Page 7: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Capítulo 1

ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

Los árboles de clasificación y de regresión (CART) tienen el mismo propósito que la regresión lineal,en el sentido que busca relacionar una variable respuesta (a explicar) a partir de un conjunto devariables explicativas. Pero difiere en varios aspectos:

Las relaciones son no lineales,Visualiza las relaciones,Puede usar cualquier tipo de variables, nominales o numéricas, tanto para la variablerespuesta que las variables explicativas.

CART es un método que, mediante un árbol de decisión, permite mostrar como se relacionanvariables explicativas con la variable respuesta. Define subgrupos de la población en estudio apartir de segmentaciones. Cada subgrupo define un perfil de sujetos de la población utilizando lasvariables explicativas de tal manera que estos sujetos toman valores parecidos sobre la variablerespuesta.

Los modelos subyacentes no son tan simples como un modelo de regresión lineal múltiple. Es-ta metodología requiere un software ad-hoc, tal que “R”, que se puede bajar gratuitamente deInternet1.

Presentamos en primer lugar los árboles de decisión mediante dos ejemplos. Después definimos loscriterios de construcción de los árboles para seleccionar las variables explicativas más importantesque explican la variable respuesta.

1.1. ¿Qué es un árbol de decisión?

En términos generales, un árbol de decisión es el resultado gráfico de un método que permite tomar“buenas” decisiones involucrando “riesgos” y “costos”. Utiliza un enfoque visual de agrupamientos dedatos mediante reglas fáciles de entender. En nuestro caso, los miembros de los agrupamientos, queson definidos a partir de valores de las variables explicativas, se construyen mediante segmentacionesde la población. Además en cada grupo, se estudia las características de la variable respuesta. Si,dentro cada grupo, la variable respuesta es homogénea y, de un grupo a otro, toma valores diferentes,podemos detectar un cierto efecto de las variables explicativas sobre la variable respuesta. Estasvariables explicativas, que identifican los miembros de los grupos, permitirán hacer predicciones dela variable respuesta. Llamaremos variables de segmentación a las variables explicativas.

El uso de árboles de decisión tuvo su origen en las ciencias sociales con los trabajos de J. Sonquisty J. Morgan (1964) de la Universidad de Michigan y al programa AID (Automatic InteractionDetection), que fue uno de los primeros métodos de ajuste de los datos basados en árboles declasificación.

En estadística, Robert Kass (1980) introdujo un algoritmo recursivo de clasificación no binario, lla-mado CHAID (Chi-square automatic interaction detection). Más tarde, L. Breiman, J. Friedman,

1R es un sofware gratuito especializado en métodos estadísticos. Se puede implementar la regresión múltiple oel análisis en componentes principales también. Se encuentra en www.r-project.org/

1

Page 8: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

2 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

R. Olshen y C. Stone (1984) introdujeron un nuevo algoritmo para la construcción de arboles y losaplicaron a problemas de regresión y clasificación. El método es conocido como CART (Classifica-tion and regression trees) por sus siglas en inglés. 2

El método CART es parte de lo que se llama “Data Mining” o “Minería de Datos” que se puso demoda en muchos tipos de instituciones y empresas. Por ejemplo, los registros de un banco contienenmuchas informaciones de sus clientes. Puede usarlas para determinar el perfil de los clientes morososy decidir si conceder o no un crédito a un nuevo solicitante. El Servicio de Impuestos Internos puedetratar de caracterizar las empresas que hacen fraudes fiscales. El departamento de recursos humanosde una multitienda puede examinar los procesos de contrataciones pasadas y determinar reglas dedecisión que hará más eficiente los procesos de contrataciones futuras.

Antes de presentar los criterios que permiten construir un árbol de decisión, describimos aquí loselementos que lo componen, utilizando dos ejemplos simples. Dependiendo de la variable respuesta,se distingue el árbol de regresión del árbol de clasificación.

1.1.1. Descripción de un árbol binario de regresión. En una zona agrícola se observala cosecha de 480 naranjos, junto con el fertilizante utilizado y el tipo de suelo donde fueronplantados. Dos fertilizantes (F1 y F2) y dos tipos de suelo (S1 y S2) fueron considerados. Estas dosvariables son binarias. Queremos ver como el fertilizante y el suelo influyen sobre la cosecha de losnaranjos. El conjunto de los 480 naranjos pueden dividirse en 4 subgrupos o segmentos cruzandolos dos fertilizantes y los dos tipos de suelos. Podemos llegar a los 4 subgrupos en dos etapas. Sedivide primero en dos grupos de suelo y después cada uno de estos dos grupos se divide en dosgrupos de fertilizantes (Figura 1.1(a)). Por otra parte, la cosecha tiene un rol distinto de las dosotras variables. Se busca determinar si el fertilizante o el tipo de suelo influyen sobre la cosecha.Se llama “variable respuesta” a la cosecha y “variables explicativas” o “variables de segmentación”al tipo de suelo y fertilizante.

El gráfico muestra un árbol jerárquico, que es un conjunto de nodos. Si se lee de arriba hacia abajo,la “raíz” es el nodo superior, que contiene la totalidad de los 480 naranjos. La raíz se divide en dosnodos, llamados “hijos”, según una regla de decisión, que corresponde a valores a una variable desegmentación, que es aquí el tipo de suelo. El nodo que contiene a los hijos se llama naturalmente“padre” de estos. En el hijo de la izquierda se tiene todos los naranjos con el suelo “S1” y en elhijo de la derecha se tiene los naranjos con el suelo “S2”. Cada uno de estos dos nodos se divide asu vez en dos nodos, uno con los naranjos con el fertilizante “F1” y el otro con el fertilizante “F2”.Los cuatro nodos obtenidos, que se llaman “nodos terminales”, contienen cada uno un solo tipo desuelo y un solo tipo de fertilizante.

En general, los nodos se dividen en dos grupos según una pregunta o variable de segmentación y laforma que usa la variable de segmentación para dividir un grupo en dos subgrupos corresponde auna regla de decisión. Para detectar si el fertilizante y el tipo de suelo tienen un efecto sobre lacosecha de naranjas y si el efecto es combinado, se pone en evidencia las características de cosechade cada nodo: el tamaño, que es la frecuencia de naranjos del nodo, la media y desviación estándarde la cosecha de los naranjos del nodo Se observa que en la primera segmentación obtenida conel suelo, no se observa una grande diferencia entre las medias de los dos grupos (141,4 y 149,3).Podemos decir, a primera vista que el tipo de suelo no tiene efecto sobre la cosecha3. En los nodosterminales obtenidos de la segmentación del fertilizante, se observa diferencias más importantes.Nos preguntamos entonces, si cambiando el orden de las variables de segmentación tendremos unárbol que permite una mejor interpretación.

2Casi al mismo tiempo el proceso de inducción mediante árboles de decisión comenzó a ser usado en “MachineLearning” en ciencias de la computación y en “Pattern Recognition” en ingeniería eléctrica.

3Podemos hacer un test de hipótesis de comparación de media para comprobarlo.

Page 9: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.1. ¿QUÉ ES UN ÁRBOL DE DECISIÓN? 3

Figura 1.1. Ejemplos de árboles

Se habla de árbol de regresión por la naturaleza de la cosecha, la variable respuesta, que esnumérica. Más adelante vamos a “optimizar” el orden de las variables de segmentación de maneraa jerarquizar las variables de segmentación en función de su impacto sobre la variable respuesta.Eliminaremos también las segmentaciones que no muestra una diferencia sobre la variable respuestaentre los dos grupos producidos.

1.1.2. Ejemplo de un árbol binario de clasificación. Una empresa quiere determinar elperfil de los consumidores de uno de sus productos, que llamamos P, para dirigir mejor su campañapublicitaria. El departamento de estudios de mercados aplica entonces una encuesta a 900 personascon tres preguntas:

(a) ¿Consuma el producto P? La respuesta, que es “SI” o “NO”, define la variable “Consumo”.(b) ¿Nivel socio-economico? La respuesta, que es “ABC1” o “C2-C3”, define la variable “NSE”.(c) ¿Clase de edad? La respuesta, que es “J”, si es menor de 35 años o “A” si tiene al menos

35 años, define la variable “Edad”.

Observamos que las respuestas a las tres preguntas son variables binarias, ya que tienen solamentedos alternativas. Considerando el estudio, la variable “Consumo” es la variable respuesta. Es lavariable que quisiéramos poder explicar a partir de la Edad y el NSE. Nuevamente tenemos 4grupos posibles combinando las dos alternativas de la Edad y las dos alternativas del NSE y, porel momento, podemos aplicar la segmentación con una variable u otra. Usamos primero el NSE(Figura 1.1(b)). Los nodos, “raíz” y nodos terminales se definen como en el ejemplo anterior. Sinembargo, las estadísticas del nodo a considerar son diferentes, pues la variable respuesta es binaria.Examinando las frecuencias de las dos alternativas “SI” y “NO” de la variable “Consumo” en losnodos, podemos determinar si existe un perfil de consumidores del producto P. Parecería que elconsumo del producto se relaciona con la la edad, pero que no es el caso del NSE.

Se habla de árbol de clasificación , por la variable respuesta, que permite clasificar los consumidoresdel producto P en dos grupos “SI” y “NO”.

Más adelante mostremos casos un poco más complejos, en particular un caso de clasificación con unavariable respuesta con tres categorías. Previamente presentamos la manera de “optimizar” el orden

Page 10: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

4 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

de las segmentaciones, mediante criterios de segmentación, para obtener nodos con homogeneidaddentro los nodos respecto de la variable respuesta y heterogeneidad entre los nodos.

En los dos ejemplos anteriores pudimos dividir fácilmente un grupo en dos subgrupos de maneranatural siendo que las variables de segmentación que utilizamos (fertilizante, suelo, edad y NSE)son binarias. Vemos como dividir un nodo en dos subgrupos con variable numericas o variablenominal con más de dos categorías.

1.2. División a partir de la variable de segmentación

Se distinguen las variables de segmentación nominales de las variables numéricas.

1.2.1. Variable de segmentación nominal. Supongamos ahora que tenemos tres fertili-zantes (F1,F2 y F3) en vez de dos en el ejemplo del párrafo 1.1.1. Para dividir un grupo en dossubgrupos a partir de la variable fertilizante, tenemos tres maneras de combinar las tres categorías:

Tabla 1.1

Grupo1 Grupo 2

Caso 1 F1 F2 y F3Caso 2 F2 F1 y F3Caso 3 F3 F1 y F2

En el caso 2, por ejemplo, no se puede distinguir los fertilizantes F1 y F3. Sin embargo, en unasegmentación posterior, se puede separar el grupo “F1-F3” en dos un subgrupos, uno con F1 y elotro con F2 (Figura 1.2(a)). En general, si la variable nominal tiene q categorías, se agrupan lascategorías en dos subgrupos excluyentes, que pueden subdividirse, a su vez, en dos subgrupos, etc..

1.2.2. Variable de segmentación numérica. Supongamos que tomamos la edad de losconsumidores en años en vez de las dos clases de edad “J: Menor de 35 años” y “A: Mayor o iguala 35 años” en el ejemplo del párrafo 1.1.2. Para dividir un grupo en dos subgrupos con la edad enaños, tenemos muchas posibilidades: “Menor que u” y ’Mayor que u” , donde u toma los valores delos distintos edades presentes en la muestra, por ejemplo, el corte es a 25 años en vez de 35 parael NSE “ABC1” y 40 años para el NSE “C2-C3” (Paso del nivel (2) al nivel (3) en el árbol de laFigura 1.2(b)).

1.3. Construcción del árbol de regresión

Vemos, que en el ejemplo del párrafo 1.1.1 con dos fertilizantes, podríamos intercambiar el ordende las variables de segmentaciones, suelo y fertilizante. En la Figura 1.3(a) se divide primero conel tipo de suelo y después con el tipo de fertilizante. En la Figura 1.3(b) se divide primero con eltipo de fertilizante y después con el tipo de suelo. Si queremos jerarquizar el efecto de las variablesde segmentación, parecería que la segunda figura es la más adecuada. En efecto, se observa nosolamente una mayor diferencia entre las medias de los dos grupos en la primera división, sinotambién, una disminución importante de las varianzas al interior de los subgrupos en la figura dela derecha. ¿Como podemos definir un criterio que permite elegir de manera automática en queorden usar las variables de segmentación y con divisiones que produzcan subgrupos diferentes entresí y que en sus interiores sean homogéneos?

Page 11: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.3. CONSTRUCCIÓN DEL ÁRBOL DE REGRESIÓN 5

Figura 1.2. División con variables no binarias

Figura 1.3. Árboles del ejemplo de la cosecha de naranjas

1.3.1. Criterio de segmentación. Acordamos en que el método ANOVA, presentado enel capitulo 2, definimos las varianzas intragrupos e intergrupos. El criterio natural que usamos esel cociente

η =V arianza intergrupo

V arianza total,

llamado “razón de correlación”.

(a) Dado los valores de la cosecha tomados por los naranjos en la raíz, se calcula para ca-da variable de segmentación y sus posibles división en dos subgrupos, el cociente η =V arianza intergrupos

V arianza total . En este ejemplo, para dividir los naranjos de la raíz en dos subgrupos,tenemos solamente dos situaciones a considerar dado que las dos variables de segmentaciónson binarias (Tabla 1.2). La diferencia entre los fertilizantes F1 y F2 es netamente mayorque la diferencia entre los suelos S1 y S2 y más aún en relación con la varianza total, quees lo que muestra el coeficiente η. Elegimos, entonces, dividir la raíz según el fertilizante.Además se calculo el valor de la F de Fisher del test ANOVA de comparación de medias.El p-valor es bastante menor en el caso del fertilizante que del suelo. Se rechaza la igualdad

Page 12: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

6 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

de las medias de los dos grupos de fertilizantes de manera mucho más clara que para elsuelo. s

(b) Siguiendo la segmentación en el árbol 1.3(b), tenemos que aplicar el criterio η a los dosnodos del nivel (2) (Figura 1.3(b)), definidos por el fertilizante F1 y el fertilizante F2.Aquí no tenemos muchas alternativas, pues nos queda solamente el suelo como variable desegmentación. Sin embargo, nos preguntamos si conviene dejar el nivel (3) del árbol con-siderando que los dos coeficientes η son pequeños (Tabla 1.3). A continuación, estudiamoscriterios para no seguir dividiendo en subgrupos cuando no aporta nada para entender lasrelaciones de las variables explicativas sobre la variable respuesta.

Tabla 1.2

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Suelo 480 15,26 1979,8 0,0077 3,71 0,054

Fertilizante 480 1624,3 1979,8 0,82 2184,0 0,000

Tabla 1.3

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Fertilizante F1 240 29,25 221,5 0,13 36,22 0,000

Fertilizante F2 240 5,78 489,5 0,012 2,84 0,093

1.3.2. Criterios de poda. ¿Cuándo detener la segmentación de un nodo en la construccióndel árbol de decisión? Obviamente, cuando no existen segmentaciones aplicable para todos losúltimos nodos hijos creados del árbol. Ahora bien, cuando hay muchas variables de segmentación yvarias divisiones binarias para cada uno, el árbol se pone muy grande y entonces se pone de difícilinterpretación. Es inútil recargar el árbol con muchos nodos y ramas, si algunos de estos no aportana la explicación de la variable respuesta. Hay que buscar una manera de parar la segmentación.Usualmente se construye un árbol más largo que necesario y se va eliminado nodos. Se habla de“poda” del árbol.

Acabamos de ver que en la tabla anterior que, al nivel (2) del árbol 1.3(b), el p-valor de la F delANOVA de la cosecha con el factor suelo del grupo de fertilizante F2 es igual a 0, 093 (Tabla 1.3).El suelo tiene un efecto poco significativo sobre la cosecha cuando el fertilizante es F2, mientrasque es significativo para el fertilizante F1. ¿Por qué entonces no eliminar, o sea podar los dos nodoscolgando del fertilizante F2?

El criterio natural para podar el árbol es el p-valor del ANOVA que se usa en cada nodo paradecidir si seguir la segmentación debajo del nodo. Se puede elegir, por ejemplo, un p-valor menorque 5%, como aplicamos aquí (Figura 1.4(a)).

Construyamos el árbol del ejemplo del párrafo 1.2.1. La Tabla 1.4 entrega el detalle del orden delas segmentaciones y el criterio de poda con un p-valor de 5%.

En esta tabla se denota “(F1)-(F2+F3)” la división que deja de un lado los naranjos tratados conel fertilizante F1 y del otro los naranjos tratados con los fertilizantes F2 o F3. A partir de la tabla,las decisiones se toman de la siguientes manera:

(a) Nivel (1) ->(2): A pesar que las cuatro segmentaciones posibles tienen un p-valor muypequeño, la segmentación Fertilizante (F2)-(F1+F3) es la que tiene el coeficiente η másgrande. Se elige dividir con esta última.

Page 13: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.3. CONSTRUCCIÓN DEL ÁRBOL DE REGRESIÓN 7

Tabla 1.4

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Nivel (1) ->(2) Raíz

Suelo 720 16,75 2288,4 0,0073 5,3 0,022

Fertilizante (F1)-(F2+F3) 720 197,2 2288,4 0,087 67,7 0,000Fertilizante (F2)-(F1+F3) 720 1845,0 2288,4 0,81 2988,2 0,000Fertilizante (F3)-(F1+F2) 720 835,9 2288,4 0,36 413,2 0,000

Nivel (2) ->(3) Nodo F2

Suelo 240 5,78 489,5 0,012 2,84 0,093

Nivel (2) ->(3) Nodo F1+F3

Suelo 480 24,39 420,2 0,06 29,45 0,000Fertilizante (F1 y F3) 480 309,5 420,2 0,74 170,7 0,000

Nivel (3) ->(4) Nodo F1

Suelo 240 28,3 221,4 0,13 36,22 0,000

Nivel (3) ->(4) Nodo F3

Suelo 240 19,96 397,8 0,05 12,58 0,000

(b) Nivel (2)->(3): Se examina entonces los dos nodos que podríamos colgar a la raíz. En elnodo formado de los naranjos con el fertilizante F2, es posible usar solamente el suelo.Como no tiene competidor, lo único que tenemos que considerar es el p-valor del ANOVA,que aquí es mayor que 5%. El nodo con el fertilizante F2 se determina como nodo terminal.Para el otro nodo con los fertilizantes F1y F3, tenemos dos candidatos, dividir entre losdos tipos de suelo o dividir entre los fertilizantes F1y F3. El suelo tiene un coeficiente ηmuy pequeño. Se elige dividir el nodo entre los fertilizantes F1 y F3, siendo el p-valor nulo.

(c) [Nivel (3)->(4): Queda por ver si el nodo con el fertilizante F1 y el nodo con el fertili-zante F3 pueden dividirse con el tipo de suelo. Los dos p-valores son nulos. Aplicamos lassegmentaciones con el suelo. Los 4 nodos obtenidos en el nivel (4) son terminales, puesno hay más divisiones posibles. Junto con el nodo terminal del nivel (2) tenemos 5 nodosterminales marcados en amarillo (Figura 1.4(b)).

Figura 1.4. Árboles podados

Page 14: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

8 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

1.3.3. Predicción. Un vez podado el árbol, concluimos que se puede hacer una partición delos 760 naranjos en 5 grupos perfectamente identificados por el tipo de suelo y el fertilizante. Los5 grupos tienen naranjos con cosecha diferentes entre sí, y al interior de cada grupo, los naranjostienen cosechas parecidas. Además podemos decir que las cosechas de los naranjos tratados confertilizante F2 no depende del tipo de suelo.

Finalmente, se puede usar fácilmente estos resultados para hacer predicciones de la cosecha denuevos naranjos usando las medias y desviaciones estándares. Por ejemplo, se espera que un naranjocon un suelo S1 y el fertilizante F1 tendrá en promedio una cosecha de 99,6 kg. Como todapredicción es sujeto a errores, podemos construir un intervalo de confianza ([7]) para la cosechaesperada del naranjo. Para un nivel de confianza de 95% obtenemos el intervalo:

IC95 % = [99, 6− 1, 96× 4, 9√120

, 99, 6 + 1, 96× 4, 9√120

] = [98, 72; 100, 48].

1.4. Construcción del árbol de clasificación

En el ejemplo del párrafo 1.1.2, la variable respuesta consumo es binaria. No podemos usar elcriterio η para elegir las segmentaciones del árbol. Pero, examinamos las estadísticas de los nodoscuando se divide la raíz con la variable NSE (Figura 1.5(a)) o con la variable Edad (Figura 1.5(b)).Observemos que cuando se divide la raíz con el NSE (Figura (a)), hay poca diferencias entre losdos grupos socioeconómicos. Tienen ambos valores cercanos al 50% de Si y de NO como en la raíz.Si dividimos la raíz con los dos grupos de edad (Figura (b)), se encuentra resultados distintos. Enel grupo “J” hay mucho más SI que NO y en el grupo “A” es lo contrario. Esta segmentación conla edad es claramente más interesante para el estudio de mercado de la empresa. Este comentarionos va a llevar a un criterio de segmentación.

Figura 1.5. Árboles del ejemplo de los consumidores

1.4.1. Criterio de segmentación. Para introducir un criterio, consideramos un caso ideal,cuyas variables de segmentación llamadas VAR1 y VAR2 son binarias (Figura 1.6(a)). En los nodosterminales aparece una situación extrema. Los nodos no tienen ningún “NO” o ningún ‘SI”. En estecaso, las variables VAR1 y VAR2 determinan perfectamente el perfil de los consumidores delproducto P. Los consumidores del producto tienen o bien el valor 1 en ambas variables o bientienen el valor 2 en ambas variables. Para estos nodos, se habla la pureza. Cuando hay “NO”y “SI” en un nodo, es impuro. Buscaremos entonces segmentaciones para obtener los grupos conel mínimo de impureza, o sea que los porcentajes de “SI” y “NO” en un nodo sean lo menosbalanceados posible.

Page 15: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.4. CONSTRUCCIÓN DEL ÁRBOL DE CLASIFICACIÓN 9

El tamaño del nodo a dividir no influye en la impureza, entonces, en vez de considerar las frecuenciasde “SI” y “NO”, consideramos los porcentajes o las proporciones de “SI” y “NO”. (Figura 1.6(b),para el ejemplo 1.1.2).

Figura 1.6. División con variables no binarias

Se puede construir varios índices de impureza. Definiremos dos. El más utilizado es el índice deGini4.

Examinamos el árbol del ejemplo 1.1.2 (Figura 1.6(b)). Si pN (t) y pS(t) son las proporciones de“SI” y “NO” en el nodo t, pS(t) = 1 − pN (t) y pS(t) × pN (t) = pS(t)(1 − pS(t)) toma el valor 0cuando pS(t) es nulo o vale 1 y toma el valor máximo 0,25, si pS(t) = pN (t) = 0, 5. El índice deGini del nodo t se define como:

γ(t) = pS(t)(1− pS(t)) + pN (t)(1− pN (t)) = 1− pS(t)2 − pN (t)2.

Por ejemplo, el nodo NSE=“ABC1” tiene un índice de Gini igual a: 1− 0, 482− 0, 522 = 0, 499 y sunodo hijo NSE=“ABC1” y EDAD=“J” tiene un índice de Gini igual a: 1− 0, 252 − 0, 752 = 0, 375.El índice del otro nodo hijo NSE=“ABC1” y EDAD=“A” vale 1− 0, 682 − 0, 322 = 0, 435. El nodopadre es más impuro que sus nodos hijos.

En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce lamayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dosnodos hijos t1 y t2:

G(t) =n1

nγ(t1) +

n2

nγ(t2)

donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.

En la tabla 1.5 se presentan los índices de Gini γ y G obtenidos con los tamaños de los nodos entreparentesis.

Desde la raíz, los índices G de la edad y el NSE son respectivamente 0,4196 y 0,499. Con el criteriode Gini, la mejor variable de segmentación desde la raíz es la edad. En el nivel 2, se calcula elíndice G para cada categoría de la edad. Los índices son menores que los anteriores.

Otro criterio, que se usa generalmente en la poda del árbol, se basa en los errores de clasificación.Conociendo la edad y el NSE de un nuevo sujeto, podemos “predecir” su respuesta es “SI” o “NO”.

4En economía se utiliza un índice de Gini para medir la desigualdad de los ingresos de una población.

Page 16: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

10 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

Tabla 1.5. Índices de Gini

Nivel Raíz NSE=“ABC1” NSE=“C2-C3” Índice G NSE

1 0,50 (900) 0,499 (420) 0,499 (480) 0,499

Nivel Raíz Edad=“J” Edad=“A” Índice G Edad

1 0,50 (900) 0,408 (420) 0,430 (480) 0,4196

Nivel Edad=“J” NSE=“ABC1” NSE=“C2-C3” Índice G NSE

2 0,408 (420) 0,375 (200) 0,434 (220) 0,406

Nivel Edad=“A’ NSE=“ABC1” NSE=“C2-C3” Índice G NSE

2 0,430 (480) 0,434 (220) 0,426 (260) 0,4296

Supongamos que usamos el árbol 1.6(b), entonces se espera que un sujeto “J” y “ABC1” responde“SI”, pues el grupo al cual pertenece tiene una proporción 0,75 de “SI”. Podemos decir que tiene una“probabilidad” de responder “SI” de 75%. Es decir todos los sujetos de este grupo son clasificadoscomo “SI”. Sin embargo, todos no contestaron realmente “SI”. Para este nodo tenemos un 25% deerrores de clasificación.

Si aplicamos este criterio de clasificación (respuesta “SI ” o “NO”) a un nodo, podemos calcularla tasa de errores de clasificación, para las distintas segmentaciones posibles, pues conocemos susrespuestas reales. Por ejemplo, desde la raíz, con el NSE clasificaremos 200 de los 420 encuestadoscon respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(a)) y con la edad clasificaremos 120de los 420 encuestados con respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(b)). El NSEtienen una tasa de error de 48% y la edad una tasa de error de 30%. Se usa la edad como primeravariable de segmentación desde la raíz como en el caso del índice de Gini.

Lo ideal entonces es no tener errores de clasificación de los observaciones de los nodos en “SI”y “NO”. Calculamos las tasas de errores de clasificación (Tabla 1.6). Nuevamente la edad es lamejor elección de la raíz (30% contra 48% del NSE). Seguimos la tabla usando como primerasegmentación la edad. Notemos el decrecimiento de la tasa de errores cuando bajamos el árbol. Elárbol 1.5(a) tiene una tasa total de errores de 30%.

Tabla 1.6. Tasas de errores de clasificación

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Raíz 200 (420) 0 230 (480) 430 (900) 48%

Nodo Edad=“J” Edad=“A” Total Tasa Edad

Raíz 120 (420) 150 (480) 270 (900) 30%

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Edad=“J” 50 (200) 70 (220) 120 (420) 28,6%

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Edad=“A’ 70 (220) 80 (260) 150 (480) 31,25%

Page 17: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.4. CONSTRUCCIÓN DEL ÁRBOL DE CLASIFICACIÓN 11

La variable respuesta del ejemplo 1.1.2 es binaria. Veamos otro ejemplo, donde la variable respuestatiene más de dos categorías.

Tomamos los datos famosos de R. Fisher, citadosen sus escritos. Son 4 mediciones de 3 especies deiris (flores): Largo del pétalo (LP), ancho del pé-talo (AP), largo del sépalo (LS) y ancho del sépalo(AS). Se busca detectar cuales los las 4 medicio-nes discriminan mejor las 3 especies. Tenemos 4variables de segmentación numéricas y una varia-ble respuesta nominal con 3 categorías. En primerlugar podemos visualizar las especies con boxplotpara cada una de las 4 mediciones. En la Figura1.8(b) se muestra los boxplot del largo del pétalo.

Para dividir un nodo, se busca los cortes de las mediciones que producen nodos hijos los más purosposible. Tenemos que definir la impureza para el caso de una variable con tres categorías, que sepuede generalizar a un número cualquier de categorías. Los dos criterios definidos para una variablerespuesta binaria se generalizan fácilmente.

Si p1(t), p2(t) y p3 son las proporciones de las tres especies en el nodo t, p1(t) + p2(t) + p3(t) = 1el índice de Gini del nodo t se define como:

γ(t) = p1(t)p2(t) + p1(t)p3(t)) + p2(t)p3(t)) = 1− p1(t)2 − p2(t)2 − p23.

En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce lamayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dosnodos hijos t1 y t2:

G(t) =n1

nγ(t1) +

n2

nγ(t2)

donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.

No se puede presentar aquí todos los valores de los índices de Gini γ. En efecto, se calcula γ paracada corte posible de cada variable de segmentación, y se toma el corte que minimiza la impureza.Presentamos solamente el valor del índice de Gini para el corte optimo (Tabla 1.7) y los valoresde los tres primeros niveles. Por ejemplo, para el largo del pétalo, la segmentación que producedos nodos menos impuros se basa en el corte igual a 24,5 y para el ancho del pétalo, el corte esen 10. Ambas variables tienen el valor de G igual a 0,333, que es más pequeño que los valores delos dos otros índices G. Se puede elegir cualquiera de las dos variables. Elegimos para la primerasegmentación el largo del sépalo. Debajo de los dos nodos hijos de la raíz buscamos una nuevasegmentación. En primer lugar, vemos que no se puede dividir el nodo LP>24,5, puesto que esun nodo puro. Consideramos entonces el otro nodo, para el cual la mejor división esta dada porel ancho del sépalo con un corte al valor 17. Observe que aparece nuevamente el largo del pétaloque se puede dividir en el recorrido >=24.5. Por ejemplo, en el nivel (4) en el nodo izquierdo estadefinido por un largo de pétalo entre 24,5 y 49,5 y un ancho de pétalo menor que 17,5 (Figura1.8(a)).

En la Tabla 1.8 se encuentran las tasas de errores de clasificación asociadas al árbol 1.8(a). Elárbol 1.8(a) tiene una tasa de error total de 2%. Si podemos el último nivel, la tasa sube a 2,7%,que es muy poco. La última segmentación parece forzada. Tiene un solo iris en uno de los nodos.Tenemos que decidir donde podar el árbol.

Mostramos un gráfico de dispersión del largo y del ancho del pétalo (Figuras 1.7). Las especiesfueron marcadas con diferentes colores. Las lineas corresponden a las diferentes segmentacionesutilizadas. El gráfico (a) corresponde al árbol con 3 errores de clasificación cuando se poda el nivel

Page 18: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

12 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

Tabla 1.7. Índices de Gini de los iris

Nivel Raíz LS <54,5 LS >=54,5 Índice G de LS

1 0,667 (150) 0,232 (46) 0,582 (104) 0,439

Nivel Raíz AS<33,5 AS>=33,5 Índice G de AS

1 0,667 (150) 0,619 (107) 0,374 (43) 0,540

Nivel Raíz LP<24,5 LP>=24,5 Índice G de LP

1 0,667 (150) 0 (50) 0,50 (100) 0,333

Nivel Raíz AP<10,5 AP>=10,5 Índice G de AP

1 0,667 (150) 0 (50) 0,50 (100) 0,333

Nivel LP>=24,5 LP<47,5 LP>=47,5 Índice G de LP

2 0,50 (100) 0,049 (40) 0,300 (60) 0,126

Nivel LP>=24,5 AP<17,5 AP>=17,5 Índice G de AP

2 0,50 (100) 0,142 (52) 0,080 (48) 0,110

Nivel LP>=24,5 LS<61,5s LS>=61,5 Índice G de LS

2 0,50 (100) 0,355 (39) 0,440 (61) 0,407

Nivel LP>=24,5 AS<24,5 AS>=24,5 Índice G de AS

2 0,50 (100) 0,245 (7) 0,499 (93) 0,481

5 y el gráfico (b) corresponde al árbol con 4 errores de clasificación cuando se poda los niveles 4 y5.

Tabla 1.8. Tasas de errores de clasificación de los iris

Nodo LP<24,5 NLP>=24,5 Total Tasa LP

Raíz 0 (50) 50 (100) 50 (150) 33,3%

Nodo AP <17,5 AP>=17,5 Total Tasa LP>=24,5

LP>=24,5 5 (54) 1 (46) 6 (100) 6%

Nodo LP<49,5 LP>=49,5 Total Tasa LP>=24,5 y AP<17,5

AP<17,5 1 (48) 2 (6) 3 (54) 0,056%

Nodo AP<16,5 AP>=16,5 Total Tasa 24, 5‘49, 5 y AP<17,5

LP<49,5 0 (47) 0 (1) 0 (48) 0,0%

1.4.2. Criterios de poda. Como en el caso del árbol de regresión, a partir de ciertos niveles,no se puede seguir agregando segmentaciones. Sin embargo, conviene en general parar antes deagotar todas las segmentaciones, o sea podar el árbol. La variable respuesta siendo nominal, elcriterio del p-valor de la F deFisher no es aplicable.

Page 19: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.4. CONSTRUCCIÓN DEL ÁRBOL DE CLASIFICACIÓN 13

Figura 1.7. Gráficos de dispersión de los iris

Una vez construido el árbol, se van eliminando ramas. Se puede seleccionar el árbol que tenga lamenor tasa de errores de clasificación aplicando el método de validación cruzada, que consiste enaplicar el algoritmo CART sobre un subconjunto de datos, llamados conjunto de entrenamiento.Del árbol obtenido sobre este conjunto de entrenamiento se clasifican el restante de los datos. Deestas últimas clasificaciones se obtiene un tasa de errores de clasificación.

Figura 1.8. Árbol de los iris

1.5. Resumen de la terminología

-

Variable respuesta: Variable que se buscaexplicar a partir de otras variables.Variable explicativa: Variable que influye sobreuna variable respuesta.Árbol de regresión: Árbol de decisión cuyavariable respuesta es numérica.Árbol de clasificación: Árbol de decisión cuyavariable respuesta es nominal.Raíz del árbol: El nivel más alto del árbol quecontiene todas las observaciones.Nodo: Subconjunto de los datos definidos poruna o más variables explicativas.Nodo terminal: Nodo que no se ha dividido.

Regla de decisión: Conjunto de valores de unao más variables explicativas que se eligen paradefinir un subconjunto de datos.Varianza intragrupo: Promedio de las varianzasde una misma variable medida en varios grupos.Varianza intergrupo: Varianza de los promediosde una misma variable medida en varios grupos.Índice de Gini: Criterio de segmentaciónbasado en la impureza de los nodos.Tasa de errores de clasificación: Tasa de erroresobtenida clasificando observaciones en de unárbol.

Page 20: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

14 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

1.6. Ejercicios

Ejercicio 1.1. Clasifique los casos siguientes en árbol de regresión o árbol de clasificación yespecifique el tipo de variables de segmentación que se utilizan.

(a) Un cardiólogo estudia la posibilidad que sobreviven más de 30 días pacientes que ingresancon un ataque de corazón en un hospital a partir de la presión arterial, el pulso, la edad ysi es su primer ataque.

(b) El Banco Central hace un estudio para predecir la bancarrota de una empresa en funciónde indicadores económicos.

(c) Un nutricionista quiere modelar con CART la relación entre el índice de masa corporal(IMC) y la edad y el genero.

(d) El departamento de estudios de mercados de una tienda de artefactos electrónicos buscaanticipar cual será el perfil de las personas susceptible de comprar su nuevo televisor LCD.Con este propósito, hace una encuesta a una muestra aleatoria de 800 personas preguntandono solamente si compraron o no un televisor de la gama anterior, sino también, su edad,su genero y si su ingreso es menor que 1.500.000 pesos o más.

(e) El fisco busca detectar patrones de contribuyentes que permiten distinguir entre las de-claraciones de impuestos legítimas de las fraudulentas con el objeto de desarrollar asímecanismos para tomar medidas rápidas frente a ellas.

(f) Con el objeto de detectar cuanto antes aquellos clientes que puedan estar pensando enrescindir sus contratos para, posiblemente, pasarse a la competencia, un banco encargaun estudio de patrones de comportamiento de clientes actuales y pasados. Estos patronesserán una ayuda a determinar el perfil de los clientes los más proclives a darse de baja. Elbanco podrá hacer promociones especiales, etc., a los clientes con este perfil con el objetivoúltimo de retenerlos.

(g) El departamento de recursos humanos de una empresa recopila informaciones sobre susempleados para identificar las características de sus empleados de mayor éxito. Los datosconsiderados se relacionan con los esfuerzos de sus empleados y los resultados obtenidospor éstos. La información obtenida puede ayudar a la contratación de personal a futuro.

Ejercicio 1.2. Se aplica un modelo CART a los datos de la figura adjunta, que tiene dos variablesde segmentación X1 y X2 y una variable respuesta binaria (“Rojo” y “Azul”).

(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de maneraa minimizar la tasa de errores de clasificación.

(b) Construye el árbol de clasificación asociado.(c) Calcule los coeficientes de Gini del árbol obtenido en (b).(d) Clasifique una nueva observación conX1 = 8 yX2 = 14. Dé la probabilidad de equivocarse.

Page 21: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

1.6. EJERCICIOS 15

Ejercicio 1.3. Se quiere construir un modelo CART a los datos de la figura adjunta, que tienedos variables de segmentación X1 y X2 y una variable respuesta con tres categorías (“Rojo”, “Azul”y “Verde”) (Figura adjunta).

(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de maneraa formar grupos de tal manera que se minimice la tasa de errores de clasificación.

(b) Construye el árbol de clasificación asociado.(c) Clasifique una nueva observación con X1 = 16 y X2 = 16. Dé la probabilidad de equivo-

carse.(d) Clasifique una nueva observación con X1 = 5 y X2 = 5. Dé la probabilidad de equivocarse.(e) Se poda el árbol de nivel. Clasifique nuevamente la observación con X1 = 5 y X2 = 5. Dé

la nueva probabilidad de equivocarse.

Ejercicio 1.4. En un estudio de la PSU de Matemática del 2009, se obtiene las estadísticas pordependencia y genero de la Región Metropolitana (Tablas 1.9 1.10).

(a) ¿Cómo se calcula el coeficiente η de las tablas?(b) ¿Cuál es la primera segmentación de la raíz que optimiza η (Tabla 1.9)? Justifique.(c) En la Tabla 1.10 están los resultados de las segmentaciones que podrían seguir. Construye

el árbol correspondiente.(d) Dé el árbol final usando un criterio de poda de 5%.(e) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de un alumno hombre

de un colegio Particular pagado. Dé un intervalo de confianza de 95%.(f) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de una alumna de

un colegio municipal. Dé un intervalo de confianza de 95%.

Tabla 1.9. Primera segmentación

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Nivel (1) ->(2) Raíz

Genero 97.228 0,833 12.865 0,0000 6,29 0,012

Dependencia (Mu)-(PS+PP) 97.228 107,14 12.865 0,008 816,52 0,000Dependencia (PS)-(Mu+PP) 97.228 51,2 12.865 0,004 388,52 0,000Dependencia (PP)-(Mu+PS) 97.228 532,5 12.865 0,040 4.198 0,000

Page 22: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

16 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

Tabla 1.10. Segundas segmentaciones

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Nivel (2) ->(3) Nodo PP

Genero 14.866 5,177 13.500 0,0004 5,7 0,017

Nivel (2) ->(3) Nodo Mu+PS

Genero 82.362 0,144 12.122 0,00001 0,98 0,32Mu, PS 82.362 12.122 0,002 134,7 0,000

Nivel (3) ->(4) Nodo MU

Genero 29.162 0,0162 12.026 0,000 0,04 0,84

Nivel (3) ->(4) Nodo PS

Genero 53.200 0,78 12.143 0,000 13,44 0,064

Tabla 1.11. Primera segmentación

Genero PP PS MU Total

Frecuencia 7720 23582 14537 45839H Media 559,9 502,3 492,1 508,7

Desv. Estándar 116,3 110,8 109,5 113,8

Frecuencia 7146 29618 14625 51389M Media 564,5 500,5 491,9 506,9

Desv. Estándar 116,0 109,7 109,8 113,1

Frecuencia 14866 53200 29162 97228Total Media 462,1 501,3 492,0 507,8

Desv. Estándar 116,2 110,2 109,7 113,4

Page 23: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Bibliografía

[1] M. Aliaga, B. Gunderson, Interactive Statistics, Prentice Hall, 2002.[2] C. Batanero, J. Godino, Análisis de datos y su didáctica, Universidad de Granada, 2001[3] C. Batanero, Didáctica de la Estadística, Universidad de Granada, 2001.[4] R. Brook et al., The Fascination of Statistics, Marcel Dekker, 1986.[5] M. Cuesta, F. Herrero, http://www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.1/indice.html, Departa-

mento de Psicología, Universidad de Oviedo.[6] O. Gil, Excursiones por el Álgebra Lineal, Santiago, Editorial JC. Sáez, 2009.[7] N. Lacourly, Introducción a la Estadística, Editorial JC. Sáez, Santiago, 2009.[8] M. Lladser, Variables Aleatorias y Simulación Estocástica, Editorial JC. Sáez, Santiago, 2009.[9] D. Moore, G. McCabe, Introduction to the Practice of Statistics, (3rd Ed) W H Freeman & Co, 1998.

[10] A. Naiman, R. Rosenberg & G. Zirkel, Understanding Statistics, Mc Graw-Hill, 1996.[11] J. Newman, The World of Mathematics, Simon & Schuster, New York, 1956.[12] A.Osses, Análisis numérico, Editorial JC. Sáez, Santiago, 2009.[13] K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine 2 (6):

559 - 572, 1901. http://stat.smmu.edu.cn/history/pearson1901.pdf.[14] P. Romagnoli, Probabilidades Doctas con discos y bolitas, Editorial JC. Sáez, Santiago, 2009. s[15] B. Ycart, Curso por Internet, http://ljk.imag.fr/membres/Bernard.Ycart/emel/index.html.[16] G. U. Yule An Introduction to the theory of statistics, London, C. Griffin, 1922.

17

Page 24: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Page 25: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Indice de nombres propios

Breiman L., 72

Cuesta Marcelino, 2

Fisher Ronald, 30, 44Friedman J., 72

Galton F., 51Gauss C.F., 51, 54Gil Omar, 6Gosset William, 30

Herrero Francisco, 2

Kass R., 72

Lacourly Nancy, 2, 25, 27Legendre A.M., 51Lladser Manuel, 25, 27

Morgan J., 71

Olshen R., 72

Pearson K., 51Pearson Karl, 2, 44

Romagnoli Pierre Paul, 25

Sonquist J., 71Spearman Charles, 2Stone C., 72

19

Page 26: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Page 27: Cart

Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción

Indice analítico

Árbol de clasificación, 73Árbol de clasificación y de regresión, 71Árbol de decisión, 71Árbol de regresión, 73Índice de Gini, 79, 81

Análisis en componentes principales, 1Círculo de correlaciones, 15Componente principal, 2, 10–12Gráfico de dispersión, 3Porcentaje de varianza conservada, 8, 12Puntos suplementarios, 16

Análisis exploratorio multivariado, 2Análisis Factorial, 2

Boxplot, 41Boxpot, 40

CARTF de Fisher, 76p-valor, 76Regla de decisión, 72Variable de segmentación, 72Variable respuesta, 72Varianza intergrupos, 75Varianza intragrupos, 75

Coeficiente de correlación linealAnálisis en componentes principales, 7, 8, 10, 15

Coeficiente de correlación múltiple, 57Coeficiente de determinación, 57

Distribuciónχ2, 29F-Fisher, 30Normal, 27t-Student, 30, 32

Ecuaciones normales , 55Error

de Tipo I, 26de Tipo II, 26, 34

Errores del model, 53Estándarización de variables, 7Estadístico, 25

Función de verosimilitud, 58

Impureza, 78Indice, 3, 8, 10, 11

Calidad, 6de corpulencia, 4

Intervalo de confianza, 62

Mínimos cuadrados, 53Muestra aleatoria, 26

Parámetro, 25Paradoja de Simpson, 64Predicción, 62

Razón de correlación, 75Región crítica, 28Regla de decisión, 27, 72Residuos del modelo, 55

Tabla ANOVA, 44Tasa de errores de clasificación, 80, 82Test de hipótesis

Comparación de dos medias en una población, 39Comparación de medias en dos poblaciones, 38Comparación de varias medias en una población,

41Hipótesis alternativa, 26Hipótesis nula, 26Hipótesis unilateral y hipótesis bilateral, 36Test para una proporción, 37ANOVA, 41Test para una media, 32

Valores muestrales, 25Variable de segmentación, 71Variable explicativa, 53, 71Variable respuesta, 53, 71Varianza intergrupos, 43Varianza intragrupos, 43

21