Analisis Arboles de Decision

10
Análisis exploratorio de las determinantes del consumo de vino de calidad: Análisis de segmentación utilizando árboles de clasificación. Curso: Técnicas de clasificación Pablo Cáceres Serrano Alumno Universidad Complutense de Madrid Resumen En el presente informe se disponen los resultados obtenidos a partir del análisis de un estudio realizado con el fin de establecer los determinantes de las diferencias de elección en el consumo de vino. Mediante el denominado análisis de segmentación se pretende realizar una exploración inicial de los datos que permita establecer las variables que mejor permitan segmentar o dividir una población en grupos homogéneos muy diferentes entre sí. El propósito no queda completamente comprendido cuando se habla de segmentación, ya que también se desea determinar cuáles son las mejores variables pronosticadoras de los valores de la variable dependiente. La diferencia con otras técnicas de clasificación que se han usado hasta el momento reside en que las variables deben ser de carácter categórico, no sólo la variable dependiente, sino también las variables independientes. Las categorías de esta clase de variables deben ser menos de 10 y pueden tanto de carácter nominal como ordinal. El estudio específico en este caso tiene la pretensión de determinar aquellas variables que mejor pronostiquen la segmentación establecida para la variable dependiente que implica consumidores que beben vino con denominación de origen versus consumidores que beben indistintamente vino corriente o bien con denominación. Las variables pronosticadoras están vinculadas a aspectos como lugar, el entorno social, el momento en que se bebe o bien aspectos sociodemográficos tales como sexo, edad o estado civil El proceso de clasificación en esta oportunidad se lleva a cabo mediante análisis de segmentación, que hace uso de árboles de clasificación para representar los resultados. El algoritmo a la base de la segmentación recibe el nombre de CHAID (Chi-square automatic interaction detection). Método. Participantes La muestra estuvo compuesta por 411 sujetos, 242 personas de sexo masculino y 169 sujetos de sexo femenino. Del total de hombres, 118 eran solteros y 124 casados, mientras que entre las mujeres, 81 eran casadas y 88 eran solteras. La edad media de la muestra fue de 32.7 años con una desviación típica de 9.4 1

Transcript of Analisis Arboles de Decision

Page 1: Analisis Arboles de Decision

Análisis exploratorio de las determinantes del consumo de vino de calidad:Análisis de segmentación utilizando árboles de clasificación.

Curso: Técnicas de clasificación

Pablo Cáceres SerranoAlumno Universidad Complutense de Madrid

Resumen

En el presente informe se disponen los resultados obtenidos a partir del análisis de un estudio realizado con el fin de establecer los determinantes de las diferencias de elección en el consumo de vino. Mediante el denominado análisis de segmentación se pretende realizar una exploración inicial de los datos que permita establecer las variables que mejor permitan segmentar o dividir una población en grupos homogéneos muy diferentes entre sí. El propósito no queda completamente comprendido cuando se habla de segmentación, ya que también se desea determinar cuáles son las mejores variables pronosticadoras de los valores de la variable dependiente. La diferencia con otras técnicas de clasificación que se han usado hasta el momento reside en que las variables deben ser de carácter categórico, no sólo la variable dependiente, sino también las variables independientes. Las categorías de esta clase de variables deben ser menos de 10 y pueden tanto de carácter nominal como ordinal.

El estudio específico en este caso tiene la pretensión de determinar aquellas variables que mejor pronostiquen la segmentación establecida para la variable dependiente que implica consumidores que beben vino con denominación de origen versus consumidores que beben indistintamente vino corriente o bien con denominación. Las variables pronosticadoras están vinculadas a aspectos como lugar, el entorno social, el momento en que se bebe o bien aspectos sociodemográficos tales como sexo, edad o estado civil

El proceso de clasificación en esta oportunidad se lleva a cabo mediante análisis de segmentación, que hace uso de árboles de clasificación para representar los resultados. El algoritmo a la base de la segmentación recibe el nombre de CHAID (Chi-square automatic interaction detection).

Método.

Participantes

La muestra estuvo compuesta por 411 sujetos, 242 personas de sexo masculino y 169 sujetos de sexo femenino. Del total de hombres, 118 eran solteros y 124 casados, mientras que entre las mujeres, 81 eran casadas y 88 eran solteras. La edad media de la muestra fue de 32.7 años con una desviación típica de 9.4

1

Page 2: Analisis Arboles de Decision

Diseño

Se aplicó un diseño no experimental de encuesta, en que a través de un instrumento desarrollado para el estudio del consumo de vino, se recogió información sobre antecedentes sociodemográficos, frecuencia de consumo por lugar, entorno social en que se bebe y momentos de consumo más habituales. Todos estos elementos fueron considerados factores o determinantes de la opción por la calidad en el consumo de vino, aspecto este último que se definió como la variable dependiente del estudio.

Procedimiento.

El proceso seguido para realizar el análisis implicó en primer lugar una recodificación de la base de datos, desde categorías definidas en formato texto a valoraciones numéricas (dado que se utilizó un software distinto de SPSS, la lectura del fichero .sav en la importación sólo muestra las categorías textuales que es necesario transformar a formato numérico). En segundo lugar se hizo un análisis exploratorio para descartar la presencia de datos ausentes. No se realizaron estudios específicos sobre supuestos estadísticos porque no se detallan respecto de variables categóricas. Sí se intentó determinar la presencia de valores atípicos y se evaluó la posible presencia de casillas vacías en los cruces de los valores de las variables categóricas, ya que pueden redundar afectar los contrastes.

Una vez se depuró la base de datos -salvaguardando estos aspectos preliminares- se llevó a cabo el análisis de segmentación. En esta ocasión sí fue necesaria la realización de un procedimiento de validación cruzada, por cuanto no se dispone de la misma rutina que en el análisis discriminante referida al uso de método jacknife. Para llevarlo a cabo construyeron dos muestras a partir de la muestra original de aproximadamente 50% del total. Aunque la muestra de validación suele representar una proporción menor que la señalada, aquí se optó por esta división para conservar un número suficiente de casos que no deje casillas vacías.

Análisis.

Para el análisis se utilizó fundamentalmente el paquete de análisis para minería de datos SIPINA Research Edition () y el paquete TANAGRA versión 1.4 (). También se utilizó el entorno de programación R versión 2.9.2 (R Development Core Team, 2009) y el paquete adicional Rcommander (Fox, 2005), principalmente para construir los gráficos de mosaico. Para la depuración o codificación de las bases se usó la hoja de cálculo Calc, que forma parte de la suite ofimática OpenOffice, en su versión 3.1.

2

Page 3: Analisis Arboles de Decision

Resultados.

Análisis descriptivo.

El análisis descriptivo inicial es un poco distinto a los que hemos detallado para los otros procedimientos de análisis, en particular porque se busca dar cuenta de variables de tipo categórico. Si bien las variables de carácter ordinal pueden ser tratadas mediante los procedimientos estadísticos aplicables también a variables de escala intervalo, el procedimiento de segmentación las considera en virtud de sus categorías y no en términos de escala numérica. Un análisis tabular es imposible porque el número de variables a cruzar supera cualquier posibilidad de ofrecer algo interpretable. Por ello se optó aquí informar las proporciones condicionales de las categorías de la variable dependiente calidad del vino en función de las variables independientes incluidas. Los gráficos usados, llamados gráficos de mosaico (generalmente usados para ilustrar tablas de contingencia), se ordenaron conforme las agrupaciones dadas en la encuesta.

Figura 1. Gráficos de mosaico para las variables calidad del vino, cantidad, categorías de edad, sexo y estado civil

La figura 1 dispone los datos para la variable dependiente, algunas variables sociodemográficas y la variable cantidad de vino que se bebe. En general se observan diferencias en las distribuciones de las categorías de respuesta en los grupos constituidos por calidad. Se aprecia, por ejemplo, que mayormente se bebe un vaso de vino, pero de estos bebedores, la mayoría son del grupo que bebe cualquier vino, por su parte, en menor proporción se beben dos o más vasos, pero de dicho grupo, la mayor proporción la constituyen los bebedores que prefieren la calidad; también se ve que la muestra completa está compuesta casi mitad y mitad por sujetos de menos de 33, o con igual o mayor edad, pero de ellos, los que prefieren el vino de calidad son principalmente mayores, mientras que los que

3

Page 4: Analisis Arboles de Decision

gustan de beber vino sin más, son más bien menores. Nótese además que sexo parece no diferenciar en nada a los bebedores, mientras que el estado civil enuncia que los que beben vino corriente son más bien solteros, mientras que los que beben vino de calidad son más bien casados (al parecer esto concuerda también con la edad de los sujetos).

La figura 2 dispone las variables relativas a la frecuencia se bebe vino en virtud del lugar. Estos gráficos, por poseer más categorías en las variables independientes son más complejos de interpretar. No obstante se puede señalar que se mantuvo más o menos la misma proporción de bebedores de vino de calidad y de vino corriente en casi todas las categorías de las variables relativas al lugar donde se bebe. Observe que por un tema de espacio las etiquetas de las categorías están desplazadas hacia la izquierda, y no coinciden con su columna correspondiente.

Figura 2. Gráficos de mosaico para las variables del lugar donde se bebe.

A simple vista no se puede establecer cuál de las variables dependientes referidas al lugar donde se bebe condiciona el tipo de bebedor en cuanto calidad. En principio todas las variables parecen no establecer claras diferencias entre ambos grupos, pero al menos se puede indicar que beber en el trabajo denota menor variabilidad de respuesta porque casi todo responden a la categoría “nunca”. La respuesta “siempre” tampoco es muy común aunque surge en dos situaciones por lo demás bastante lógicas: para algunos encuestados “siempre” se bebe en fiestas o en bares.

4

Page 5: Analisis Arboles de Decision

Figura 3. Gráficos de mosaico para las variables de con quien se bebe.

Se presenta una menor variabilidad en la frecuencia de aparición de diferentes opciones en las variables beber con desconocidos, beber en soledad y beber en el trabajo. En estos casos muchas personas responden “nunca” beber con esa clase de compañía, suele ser más común, tanto para bebedores de vino de calidad como del corriente, beber con compañeros de trabajo, con amigos y con familiares.

En términos de diferenciación, la única variable de este conjunto que parece separar los dos grupos respecto de sus opciones de respuesta es la variable beber con desconocidos, ya que es una conducta más común entre bebedores de vino corriente. También se aprecia esta diferencia, aunque en mucho menor medida, con la variable beber en soledad. Los sujetos que consumen vino corriente también suelen mostrar esta conducta en mayor proporción.

5

Page 6: Analisis Arboles de Decision

Figura 4. Gráficos de mosaico para las variables del momento en que se bebe.

Por último se disponen los gráficos para los momentos en que se bebe. En casi todos ellos es posible apreciar un grado de variabilidad aceptable, con excepción de beber por la mañana, en donde la respuesta mayoritaria ha sido nunca.

En este conjunto de predictores tampoco se aprecia una diferencia marcada para los grupos de bebedores en función de la calidad del vino, con excepción de la variable ya comentada, beben más por la mañana aquellos que beben cualquier clase de vino, conducta que es muy poco común entre los bebedores de vino con denominación de origen.

Al finalizar, es posible conforme la información que se ha comentado, trazar un perfil preliminar de los determinantes de ser un bebedor refinado que tiende al vino de calidad, en comparación al bebedor de vino corriente. En efecto, un bebedor de vino de calidad tiende a: beber algo más que un vaso, es mayor de edad, sobre los 33 años y en consecuencia también casado, no acostumbran beber alcohol por las mañanas y tampoco lo suelen hacer con desconocidos. Por el contrario, los bebedores de vino corriente representan la contraparte directa de estas características, constituyendo el perfil opuesto.

A esta altura se puede señalar que en términos de proporciones, las variables que mejor clasifican a los sujetos son: cantidad de vino que se bebe, edad del bebedor, estado civil, si se bebe o no por las mañanas o si se consume alcohol junto a desconocidos. Una mejor exploración de esta conclusión se obtiene aplicando el análisis de segmentación vía árboles de clasificación.

6

Page 7: Analisis Arboles de Decision

Análisis de clasificación.

Muestra de estimación

Como se adelantó, el análisis de clasificación es una técnica estadística que permite realizar una exploración de los datos con el fin de establecer aquellas categorías de cada variable que mejor segregan a los sujetos que beben vino de acuerdo a su calidad y a la vez, determinar cuáles son las variables independientes con mejor capacidad de predicción.

Para hacer el análisis de segmentación hay múltiples algoritmos que pueden ser aplicados a los datos. En consonancia con el propósito del curso, en este caso se aplicó el procedimiento CHAID (Chi-square Automatic Interaction Detection).

El análisis implica algunas fases, en concreto implica: a) preparación de las variables a analizar, definiendo la variable dependiente y las independientes, todas discretas, b) agrupación de las categorías de las variables dependientes en caso que tengan un perfil similar de la variable dependiente, c) primera segmentación seleccionando la variable independiente que mejor prediga la variable dependiente, d) sucesivas segmentaciones con variables decreciendo en orden de importancia respecto de su capacidad de predicción.

Para aplicar el procedimiento CHAID es necesario tomar algunas decisiones iniciales, referidas a la parametrización de la técnica. En primer lugar están los criterios de reducción de categorías de cada variable pronosticadora, o significación de las categorías, y el criterio de significación de las variables; el primer impide que se produzcan segmentaciones que no sean estadísticamente significativas y el segundo impide que se sigan incorporando variables que puedan permitir la división de la muestra inicial hasta un nivel no significativo. Para ambos criterios se adoptaron los niveles alfa definidos por defecto con el programa de análisis, el primero con un valor αSC = 0.05 y el segundo con una αSV=0.01, lo que importa en este caso es que SC > SV. Además de estos criterios, se incorpora el ajuste de Bonferroni, para controlar el efecto de inflación del error tipo I que ocurre con sucesivos contrastes estadísticos. La figura 5 dispone el árbol de clasificación obtenido en estas condiciones.

Figura 5. Árbol de clasificación para consumidores de vino según su calidad.

SIPINA, el paquete de análisis con el que se obtuvo este árbol, no es tan sofisticado como AnswerTree de SPSS y no ofrece directamente los valores χ2 de cada contraste efectuado, sólo se puede

7

Page 8: Analisis Arboles de Decision

consultar lo que gráficamente se ha ilustrado: la segmentación o fusión de categorías y las divisiones sucesivas incorporando las variables que producen un mejor pronóstico de la variable dependiente.

El primer nodo, o nodo cero, también llamado nodo raíz, se corresponde con los valores de la variable dependiente y como se puede observar, señala que la muestra total se divide en 112 consumidores de vino corriente y 93 consumidores de vino de calidad. Nótese que no se refiere a los 411 sujetos originales, sino sólo a la mitad que fue seleccionada como muestra de estimación.

Posteriormente se puede revisar que la primera variable con mejor capacidad para predecir es beber por la mañana, conducta que -como se adelantó en los gráficos de mosaico- es propia de los bebedores de vino corriente (identificados con la barra azul del gráfico). Observe además que se han fusionado las categorías “siempre”, “muy a menudo”, “alguna vez”, “casi nunca”, lo que denota que entre ellas no hay diferencias significativas respecto de la variable dependiente. La categoría que sí se segmentó corresponde a la categoría “nunca” que agrupa un mayor porcentaje de consumidores de vino de calidad. La primera variable que pronostica mejor que las demás el consumo de vino con denominación de origen es pues, el beber por la mañana.

A continuación la segunda mejor variable en cuanto su capacidad de predicción es la cantidad de vino que se consume: los bebedores de vino que no tienen reparos en la calidad del producto son los que menos beben (un vaso), mientras que los bebedores de vino con denominación beben a lo menos dos o más vasos. Aquí nuevamente se aprecia la fusión de las categorías “dos a tres vasos” y “cuatro o más vasos”. El tercer nivel de división también concuerda con los análisis descriptivos preliminares.

A continuación, el cuarto nivel establece una primera diferenciación clara entre los bebedores que consumen poco y los que consumen algo más. Para el primer grupo (nodo de la izquierda en el tercer nivel) se obtienen dos nodos más, en donde el 62% de los consultados son bebedores de vino de calidad y señalan ser mayores de 33 años, por contra, los bebedores de vino corriente (81% de esa categoría) destacan ser bebedores de menos de 33 años. Para el segundo grupo, se puede señalar que un 97% de los bebedores de vino con denominación con casados, mientras que los solteros no son mayoritariamente bebedores de vino sin denominación, pero en términos del consumo, sólo tienen figuración en esta categoría.

Se puede hacer una última división, que refiere a la variable beber por las tardes. Principalmente los que beben por la tarde en alguna ocasión son los consumidores de vino de calidad, mientras que son bebedores habituales por las tardes los bebedores de vino corriente. Nuevamente nótese la fusión de las categorías en este el quinto nivel. Posterior a esta variable no hay más segmentaciones. Es la última variable con capacidad de predicción sobre la conformación de grupo sobre la base de la calidad del vino consumido.

Creo que ha sido evidente que este resultado no se escapa a lo que pudo visualizarse en los gráficos de la descripción inicial. La diferencia principal con aquel primer vistazo es conocer qué categorías de cada variable estaban determinando verdaderamente la conformación de los grupos de consumidores y además, establecer la jerarquía de los mejores predictores de la variable dependiente.

Ciertamente que no se cuenta como ocurre con el SPSS con los valores χ2 y el valor p exacto de las diversas pruebas realizadas, aunque se sabe que la segmentación sólo se realizó para valores del estadístico χ2 con un nivel de significación menor a 0.05 y que la jerarquización e inclusión de predictores se obtuvo con un nivel de significación menor a 0.01.

8

Page 9: Analisis Arboles de Decision

Muestra de validación.

La validación mediante SIPINA se obtiene utilizando la segunda muestra llamada muestra de validación, compuesta por el 50% restante de la muestra original de 411 casos. A través de esta muestra se evalúa la tasa de error de la solución obtenida. Con ese propósito se obtiene una matriz de confusión idéntica a la que se ofrece en otras técnicas de clasificación tal como se ha presentado en anteriores trabajos. La tabla 1 exhibe el resultado correspondiente a dicha matriz.

Tabla 1. Matriz de confusión del análisis de segmentación mediante CHAID

Se aprecia que en promedio el porcentaje correcto de clasificación con la solución anteriormente obtenida e ilustrada mediante el árbol de clasificación fue de 74.7%, lo que se puede considerar aceptable, no obstante que la muestra es en términos relativos bastante pequeña para un análisis de este tipo, probablemente con muestras más grandes se obtendría una mejor estimación y en consecuencia la clasificación de casos sería aún mejor, impactando en una mayor bondad de ajuste.

Discusión

Se llevó a cabo un análisis de segmentación mediante el uso del procedimiento CHAID para segmentar categorías y definir los mejores predictores de la variable dependiente que en este caso fue el consumo de vino de acuerdo a su calidad. Dicha variable permitió definir a priori dos grupos: los consumidores de vino con denominación de origen y los consumidores de vino sin preferencia especial por el vino corriente o con denominación de origen.

El análisis ofreció información coherente y relevante sobre las variables que pueden predecir y clasificar mejor el comportamiento de los consumidores. En concreto, el mejor pronóstico se obtuvo con la variable beber por la mañana, el 96% de los que beben vino corriente llegar a hacer esto, mientras que un 57% de los bebedores de vino de calidad se caracteriza por nunca consumir por las mañanas. Otras variables de importancia fueron de cantidad de vino consumido, la categoría de edad, el estado civil y el consumo de vino por las tardes. Esto llevó a la caracterización y obtención de un perfil específico para unos y otros bebedores.

Dado el porcentaje correcto de clasificación, sobre el 70% se puede señalar que la solución obtenida es aceptable.

9

Page 10: Analisis Arboles de Decision

Bibliografía

Di Palma, S. y Rakotomalala, R. (1999) SIPINA_W© : A software for knowledge discovery in databases. Belgium: IBM Chair - International Professorship in Computer Science, Data Mining, Antwerp - Luik.

Fox, J. (2005). The R Commander: A basic-statistics graphical user interface to R. Journal of Statistical Software, 19(9):1-42.

Rakotomalala, R. (2005) TANAGRA: a free software for research and academic purposes. Proceedings of EGC'2005, RNTI-E-3, 2, 697-702.

R Development Core Team (2009). R: A language and environment for statistical computing. Viena: R Foundation for Statistical Computing.

10