Análisis nutricional de cereales - UVavalentin/ad3g/2014/TFA/Paula_Casado... · 2014-06-04 · En...
Transcript of Análisis nutricional de cereales - UVavalentin/ad3g/2014/TFA/Paula_Casado... · 2014-06-04 · En...
3º GRADO ESTADÍSTICA UNIVERSIDAD DE VALLADOLID
ANÁLISIS NUTRICIONAL CEREALES
ANÁLISIS COMPONENTES PRINCIPALES ANÁLISIS CLUSTER
PAULA LÓPEZ CASADO
04/06/2014
Paula López Casado 2
ÍNDICE
Tabla de contenido
ÍNDICE ........................................................................................................................................... 2
INFORME TÉCNICO PRIMERA PARTE ........................................................................................... 3
OBJETIVO ............................................................................................................................................3
DATOS ................................................................................................................................................3
ANÁLISIS COMPONENTES PRINCIPALES (NORMADO) .............................................................................4
VALORES PROPIOS ...............................................................................................................................4
CORRELACIONES ENTRE VARIABLES .......................................................................................................4
INTERPRETACIÓN DE LAS CP (COMPONENTES PRINCIPALES) ...................................................................6
PROYECCIONES ...................................................................................................................................9
ELEMENTOS ATÍPICOS ........................................................................................................................ 13
NUEVO ACP CON ELEMENTOS ILUSTRATIVOS ...................................................................................... 14
ANÁLISIS CLUSTER SEGUNDA PARTE ......................................................................................... 16
MÉTODO JERÁRQUICO ..................................................................................................................... 16
CONSTRUCCIÓN DE LA PARTICIÓN ..................................................................................................... 17
DESCRIPCIÓN DE LA PARTICIÓN ......................................................................................................... 18
RESUMEN FINAL .......................................................................................................................... 24
OBJETIVO ......................................................................................................................................... 24
DATOS ............................................................................................................................................. 24
VARIABILIDAD CONTENIDOS NUTRICIONALES ...................................................................................... 24
ELEMENTOS ATÍPICOS ........................................................................................................................ 25
ANÁLISIS SEGÚN EMPRESA MANUFACTURADORA ................................................................................. 25
COMPOSICIÓN DE LAS CLASES .......................................................................................................... 25
LISTA DE LOS PAQUETES DE CEREALES SEGÚN ZONA ............................................................................. 26
RESUMEN DE ZONAS .......................................................................................................................... 27
Paula López Casado 3
INFORME TÉCNICO
PRIMERA PARTE
Objetivo
Realizar una clasificación de los cereales para el desayuno de un supermercado según
su contenido nutricional, para distribuirlos en diferentes zonas del establecimiento. Se
han reservado solamente 5 zonas del mismo para este fin, es decir, como máximo el
número de grupos formados ha de ser 5 (pero pudiera ser menor). Además, se
pretende que entre sí se distingan lo máximo posible y a su vez, el grupo sea
homogéneo, para que el cliente acuda directamente a la zona que más le interese.
Datos
Tenemos una muestra de los 77 tipos de cereales para el desayuno, de diferentes
marcas comerciales que se venden en el supermercado. Además contamos con 8
variables continuas y 1 nominal, véase la empresa de manufacturación, con 7 niveles:
K=Kellogs, R=Ralston purina, G=General Mills, N=Nabisco, Q=Quaker Oats, P=Post, y
A=American Home Food Products.
Resumen estadísticos básicos variables continuas
Variable Medidas Media Desv. Típica Mín Máx
Calorías Calorías por porción 106.88 19.36 50 160
Proteínas Cantidad de
proteínas (gr) 2.55 1.09 1 6
Grasas Cantidad de grasas
(gr) 0.95 0.90 0 3
Sodio Cantidad de sodio
(mg) 162.14 81.31 0 320
Fibra Cantidad de fibra
(gr) 2.15 2.37 0 14
Carbohidratos Carbohidratos
complejos (mg) 14.92 3.99 5 24
Azúcar Azúcares (gr) 7.05 4.33 0 15
Potasio Cantidad potasio
(mg) 103.16 74.35 15 330
Hay diversos rangos según cuál sea la variable, por ejemplo para las cantidades de
SODIO y POTASIO, la oscilación entre el mín y el máx es muy similar sin embargo para la
FIBRA o el AZÚCAR, aunque tienen rangos muy parecidos, la variación entre mín y máx
es mucho menor, no supera los 15 gramos. Por otra parte, además de contar con
rangos muy distintos, también nos fijamos en que las variables tienen unidades de
medida diferentes. Este hecho será determinante en la elección del tipo de análisis:
Normado o No Normado, que realizaremos más adelante.
Paula López Casado 4
Análisis Componentes Principales (Normado)
Aplicamos el Análisis de Componentes Principales para realizar el estudio de los
individuos y las variables. Tenemos 8 variables cuantitativas mas una variable
categórica (la empresa manufacturadora del producto, con 7 niveles) con 77
individuos. La variable referente a la empresa manufacturadora, la utilizaremos como
ilustrativa y nos servirá para describir los individuos a partir de ella. Es decir, realizaremos
el estudio con todos los individuos sin diferenciar la empresa de procedencia.
Discusión: Normar o No Normar
Como ya se ha explicado anteriormente los rangos de las variables son muy diferentes
entre sí y las unidades de medida son también distintas. Para el supermercado, todas
las componentes nutricionales tienen la misma importancia, por tanto tendrá sentido
igualar las varianzas de todas las variables, sin perder así la representatividad de
ninguna de ellas. Con todo esto lo más adecuado es utilizar ACP Normado.
Valores propios
Número Valor
Propio Porcentaje
Porcentaje
Acumulado
1 2.4734 30.92 30.92
2 2.0511 25.64 56.56
3 1.5311 19.14 75.70
4 0.7900 9.87 85.57
5 0.5395 6.74 92.31
6 0.3763 4.70 97.02
7 0.1457 1.82 98.84
8 0.0929 1.16 100.00
Como vemos, con los dos primeros ejes factoriales obtendríamos más del 50% de la
información resumida, e incluyendo el tercero sobre el 75%. Cada uno de estos tres
ejes recogen más información que si hubieran sido elegidos al azar por ello sería más
que suficientes, sin embargo podríamos incluir el cuarto si fuera necesario, alcanzando
casi el 86% de inercia.
Correlaciones entre variables
Calorías Proteínas Grasas Sodio Fibra Carboh Azúcares Potasio
Calorías 1
Proteínas 0.02 1
Grasas 0.50 0.20 1
Sodio 0.30 0.01 0.16 1
Fibra -0.29 0.50 0.02 -0.07 1
Carboh. 0.24 0.04 -0.16 0.30 -0.36 1
Azúcares 0.56 -0.27 0.33 0.06 -0.14 -0.44 1
Potasio -0.07 0.54 0.23 -0.02 0.83 -0.28 0.01 1
0,00 20,00 40,00
1
3
5
7
Porcentajes
Paula López Casado 5
Las variables con mayor correlación son la FIBRA y el POTASIO, además muy por
encima de las siguientes más correladas, que rondan el 0.50 de correlación: GRASAS-
CALORÍAS, FIBRA-PROTEÍNAS, AZÚCARES-CALORÍAS Y POTASIO-PROTEÍNAS, todas ellas
positivas. Por otra parte, existen variables prácticamente incorreladas entre sí
(destacadas en la tabla). Es el caso por ejemplo de las GRASAS con la FIBRA o del
SODIO con el POTASIO. También podríamos decir que, en un tono general, existen
tantas correlaciones de tipo positivo como negativo.
Podemos reflejar esta tabla en un gráfico obtenido mediante ACP-Normado, de
puntos-variable en el plano 1-2. Al Normar las variables conseguimos que la correlación
entre las mismas sea la misma que entre la existente entre las originales. Además, las
coordenadas de las variables coincidirán con las correlaciones de las mismas con el
plano factorial:
Por una parte, vemos que
efectivamente las variables
FIBRA y PROTEÍNAS están
correladas entre sí, junto con
POTASIO. También se observa
que las GRASAS y la FIBRA son
dos variables casi
incorreladas, o las CALORÍAS
y el POTASIO.
Dado que el SODIO, tiene
una baja contribución
relativa en el plano 1-2,
podríamos proponer un
nuevo plano en el que
recuperásemos información
sobre la misma.
Del plano factorial 3-4, no
podemos obtener gran
información ya que la correlación
de la mayoría de las variables con
el mismo, es baja. Sin embargo, el
SODIO, que anteriormente tenía
una contribución relativa poco
destacable, sí tiene una fuerte
presencia en este nuevo plano.
Además, algo parecido ocurre con
los CARBOHIDRATOS, variable que
antes apenas se hacía notar. Estas
dos variables están correladas
entre sí en un grado más bien bajo
(0.30).
Paula López Casado 6
Interpretación de las CP (componentes principales)
VARIABLES COORDENADAS
CORRELACIONES
VARIABLE-FACTOR ANTIGUOS EJES UNITARIOS
IDEN -
LIBELLE
COURT
1 2 3 4 1 2 3 4 1 2 3 4
CALO -
Calorías -0.37 0.79 -0.26 -0.17 -0.37 0.79 -0.26 -0.17 -0.24 0.55 -0.21 -0.19
PROT -
Proteínas 0.67 0.12 -0.50 -0.32 0.67 0.12 -0.50 -0.32 0.42 0.08 -0.40 -0.35
GRAS - Grasas 0.09 0.78 -0.12 -0.29 0.09 0.78 -0.12 -0.29 0.06 0.55 -0.10 -0.33
SODI - Sodio -0.21 0.31 -0.57 0.69 -0.21 0.31 -0.57 0.69 -0.13 0.22 -0.46 0.78
FIBR - Fibra 0.92 0.03 -0.01 0.21 0.92 0.03 -0.01 0.21 0.59 0.02 -0.01 0.24
CARB -
Carbohidratos -0.42 -0.25 -0.79 -0.13 -0.42 -0.25 -0.79 -0.13 -0.27 -0.17 -0.64 -0.15
AZUC -
Azúcares -0.21 0.76 0.49 0.15 -0.21 0.76 0.49 0.15 -0.13 0.53 0.40 0.17
POTA -Potasio 0.88 0.27 -0.10 0.11 0.88 0.27 -0.10 0.11 0.56 0.19 -0.08 0.12
PRIMER EJE
U1 = -0.24 CALO + 0.42 PROT + 0.06 GRAS – 0.13 SODI +0.59 FIBR – 0.27 CARB
– 0.13 AZUC +0.56 POTA
Esta primera componente principal que recoge un 31% de variabilidad, presenta tanto
correlaciones positivas como negativas con las variables originales, y en general no
muy altas.
Entonces un individuo que tome valores altos en este eje irá asociado a valores altos
en las variables POTASIO, FIBRA y PROTEÍNAS. Las correlaciones de las tres primeras con
el eje son muy altas (0.88, 0.92 y 0.67 respectivamente). Para la variable GRASAS la
correlación es prácticamente nula (0.09). Por otra parte valores bajos en este eje, será
indicio de valores altos en las variables CALORÍAS, SODIO, AZÚCARES y
CARBOHIDRATOS. Aunque se ha de tener presente que para estas cuatro variables las
correlaciones con el eje 1 no superan el 0.50.
CARBOHIDRATOS CALORÍAS
SODIO AZÚCARES 0
FIBRA POTASIO PROTEÍNAS
GRASAS
EJE 1
Paula López Casado 7
SEGUNDO EJE
U2 = 0.55 CALO +0.08 PROT +0.55 GRAS + 0.22 SODI +0.02 FIBR - 0.17 CARB + 0.53 AZUC
+ 0.19 POTA
En esta segunda componente principal (25.64% variabilidad) la mayor parte de las
correlaciones con las variables son de tipo positivo, esto nos lleva a que valores altos
de los individuos para este eje tengan en general valores también altos respecto a su
contenido nutricional. En concreto, serán las variables CALORÍAS, GRASAS y AZÚCARES
las que mayor correlación guardan con el eje 2 (0.79, 0.78, 0.76, respectivamente). La
variable FIBRA, no tienen gran relevancia en esta componente principal pues su
coeficiente en la misma es prácticamente 0.
En resumen:
TERCER EJE
U3 = -0.21 CALO -0.40 PROT -0.10 GRAS -0.46 SODI -0.01 FIBR -0.64 CARB +0.40 AZUC
-0.08 POTA
Para la tercera componente principal tenemos una variabilidad explicada del 19.14%,
ya casi la mitad de inercia que recogía el primer eje.
Destacamos que la mayoría de las correlaciones serán de tipo negativo, es decir que
valores altos en el eje supondrán un valor bajo en las variables (excepto para
AZÚCARES, cuya correlación con el eje es de tipo positivo). En esta tercera
componente principal destaca la presencia de los CARBOHIDRATOS, con una
correlación de -0.79 y de forma más moderada, la del SODIO, correlada -0.57 con el
eje, seguida de las PROTEÍNAS (-0.50). Los AZÚCARES, aunque por la parte positiva,
tendrían un correlación de 0.49, bastante considerable también. El resto de variable
tendrían correlaciones bajas-medias y de nuevo la FIBRA, vuelve estar próxima a 0, ya
que toda su variabilidad quedaba explicada por la primera componente principal.
AZÚCARES CALORÍAS GRASAS SODIO POTASIO PROTEÍNAS
0 CARBOHIDRATOS
EJE 2
Paula López Casado 8
CUARTO EJE Describimos también el cuarto eje aunque en un principio no sea necesario, puesto
que las tres componentes anteriores ya recogen un 75.70% de variabilidad explicada y
este, sólo aportaría un 9.87% más.
U4 = -0.19 CALO -0.35 PROT -0.33 GRAS + 0.78 SODI +0.24 FIBR -0.15 CARB +0.17 AZUC
+ 0.12 POTA
Destacaríamos en este eje la correlación positiva que guarda con la variable SODIO,
0.69, seguida por la negativa de -0.32 con POTREÍNAS y -0.29 con GRASAS. El resto de
variables tienen una aportación de tipo media-baja. Esta vez la FIBRA vuelve a
aumentar ligeramente su presencia con un 0.21 de correlación con el eje.
AZÚCARES 0
CARBOHIDRATOS SODIO
PROTEÍNAS CALORÍAS
GRASAS POTASIO
PROTEÍNAS GRASAS
CALORÍAS CARBOHIDRATOS
0
SODIO FIBRA
AZÚCARES POTASIO
EJE 3
EJE 4
Paula López Casado 9
EN RESUMEN:
CUATRO PRIMEROS EJES FACTORIALES
Factor Significado Contrapone % %
acumulado
1
CARBOHIDRATOS
CALORÍAS
FIBRA
POTASIO
PROTEÍNAS
30.92 30.92
2
CARBOHIDRATOS
AZÚCARES
CALORÍAS
GRASAS
25.64 56.56
3
CARBOHIDRATOS
SODIO
PROTEÍNAS
AZÚCARES 19.14 75.70
4
PROTEÍNAS
GRASAS SODIO 9.87 85.57
Proyecciones
PLANO 1-2 SEGÚN CONTRIBUCIÓN RELATIVA
Paula López Casado 10
En general, todos los puntos para el plano 1-2 tienen buena calidad de
representación. Para el 3-4 sería algo más baja aunque también aceptable.
En el plano 1-2 los puntos se concentran hacia la parte izquierda-central del plano,
quedando muy aislados en el eje 1 los individuos: “All-Bran con extra de fibra”, “All-
Bran” y “100% Bran”. En este eje, se contraponen la FIBRA, el POTASIO y las PROTEÍNAS,
frente a los CARBOHIDRATOS, de ahí que cereales con un alto contenido en FIBRA y
POTASIO y bajo en CARBOHIDRATOS, como son los tres individuos nombrados,
destaquen en la parte superior de la componente. Así mismo los individuos “Muesli
Rainsins, Peaches & Pecans”, “Muesli Rainsins, Dates & Almonds” y “Mueslix Crispy
Blend” tienen valores altos positivos en el eje 2, esto supone que tienen altos
contenidos de AZÚCARES, CALORÍAS y GRASAS.
Paula López Casado 11
PLANO 1-2 SEGÚN C.REL. POR MANUFACTURADOR
PLANO 3-4 SEGÚN C.REL. POR MANUFACTURADOR
Paula López Casado 12
Fijándonos en los gráficos según el tipo de Manufacturador, encontramos un dispersión
muy grande para el caso de K=Kellogs: la tendencia general de sus productos es de
fuentes altas de CARBOHIDRATOS y bajas de POTASIO, FIBRA y PROTEÍNAS, sin
embargo, incluye algunos tipos de cereales con fuertes cantidades de FIBRA, los “All-
Bran” y “All-Bran con extra de fibra” o de POTASIO, “Raisin Bran” y “Craklin’ Oat Bran”.
Los cereales “Mueslix Crispy Blend” que comentábamos con anterioridad, son también
otra excepción de la casa. En los ejes factoriales 3 y 4 se observa la dispersión de la
que hablábamos: vemos dos grupos en cada extremo del eje 3, uno de ellos
representaría productos con CARBOHIDRATOS, SODIO y PROTEÍNAS altos y bajos de
AZÚCAR y el otro, todo lo contrario.
Por otra parte, la empresa R=Ralston Purina, tiene una dispersión considerable, en
todas las componentes, destacando sus productos tipo Muesli de los que ya hablamos
anteriormente.
así como de la empresa G= General Mills, para la cual sus productos serían altos en
CARBOHIDRATOS y bajos en PROTEÍNAS, POTASIO y FIBRA, a la vez que altos en
CALORÍAS, GRASAS y AZÚCARES. Sólo destacaríamos su producto “Cheerios” por su
alto contenido en CARBOHIDRATOS y bajo en AZÚCAR.
En la empresa N=Nabisco, tiene todos sus productos en una zona donde los
CARBOHIDRATOS son medios-altos, sin embargo también produce otro tipo de
cereales, “100% Bran”, muy alejados de estos, con mayor fuente de FIBRA y menor de
CARBOHIDRATOS.
El manufacturador Q=Quaker Oats, tiene productos de todo tipo: con muy bajo
contenido en GRASAS, AZÚCARES y CALORÍAS, así como otros, por ejemplo, “Cap’n
Crunch” cuyo contenido es todo lo contrario, además de tener pocas PROTEÍNAS .
También tiene otros con muchos CARBOHIDRATOS.
La empresa P=Post tiene cereales con pocas CALORÍAS y AZÚCARES (como los “Bran-
Flakes”) y otros, con mucho POTASIO (como los “Post Nat, Raisin Bran”).
De la última que hablaremos será de la empresa A=American Home Food Products,
que sólo contiene un producto “Maypo” con una bajísima fuente de SODIO.
LO MÁS DESTACADO: Manufacturador Variable/s Individuo/os
K = Kellogs +FIBRA
+POTASIO
“All bran con extra fibra”
“Raisin Brain”
R = Ralston Purina +GRASAS “Muesli …”
G = General Mills +CARBOHIDRATOS
-AZÚCARES
“Total Corn Flakes”
“Cheerios”
N = Nabisco +CARBOHIDRATOS “Shredded Wheat …"
Q = Quaker Oats -CALORÍAS “Puffed …”
P = Post +POTASIO “Post Nat Raisin Bran”
A = American Home Food
Products -SODIO “Maypo”
Paula López Casado 13
Elementos atípicos
A la vista de la visualización gráfica de los de los puntos sobre los planos factoriales, se
ve claramente la presencia de 3 individuos alejados de la nube de puntos. Podemos
analizar los resultados de las distancias al origen que nos proporciona la salida de
SPAD, viendo que efectivamente los individuos más alejados del grupo son “All-Bran”,
“100% Bran” y “All-Bran con extra de Fibra”, con las siguientes distancias:
Distancias al 0
All-Bran 27,9
100%_Bran 28,45
All-Bran con extra de fibra 51,62
Además, mostramos el plano factorial 1-2 con los individuos representados según la
contribución absoluta al eje, viendo que efectivamente, estos tres elementos son los
que más han influido en la aparición de los ejes.
PLANO 1-2 SEGÚN C.ABS. – SIN ILUSTRATIVOS
Entonces, podemos repetir el análisis tomando estos tres cereales como ilustrativos, es
decir, sin tenerlos en cuenta para realizar el ACP. Aunque se pierda información
(suponen un 4% de todo el conjunto) podemos ganar en calidad del ajuste para el
96% restante de los individuos.
Paula López Casado 14
Nuevo ACP con elementos ilustrativos
PLANO 1-2 SEGÚN C. ABS. – CON 3 ILUSTRATIVOS
Vemos que el gráfico se distribuye de forma muy diferente al anterior, y aumenta la
contribución absoluta de una cantidad considerable de individuos.
Cambios en medias y varianzas de las variables
Variable Obs Media Desv. Típica Mín Máx
Calorías 77 106.88 19.36 50 160
74 108.65 17.50 50 160
Proteínas 77 2.55 1.09 1 6
74 2.49 1.07 1 6
Grasas 77 0.95 0.90 0 3
74 0.96 0.91 0 3
Sodio 77 162.14 81.31 0 320
74 161.55 82.03 0 320
Fibra 77 2.15 2.37 0 14
74 1.79 1.53 0 6
Carbohidratos 77 14.92 3.99 5 24
74 15.26 3.70 8 24
Azúcar 77 7.05 4.33 0 15
74 7.19 4.33 0 15
Potasio 77 103.16 74.35 15 330
74 94.77 62.67 15 320
Hemos destacado en la tabla los cambios más considerables, como el máx de la FIBRA
y el mínimo de los CARBOHIDRATOS (pues los tres elementos atípicos de los que ahora
prescindimos tenían altos contenidos en FIBRA y bajos de CARBOHIDRATOS) así como
la variabilidad en el POTASIO, cuyo máx también varía en gran medida por la misma
razón. Por el resto de variables no habría cambios notorios, ni en varianzas ni en
medias.
Paula López Casado 15
Cambio en la inercia
La inercia en los 4 primeros ejes factoriales ha disminuido (ahora es de 84.11%).
Nuevos coeficientes y correlaciones, comparados con los anteriores
VARIABLES COORDENADAS CORRELACIONES
VARIABLE-FACTOR ANTIGUOS EJES UNITARIOS
IDEN -
LIBELLE
COURT
1 2 3 4 1 2 3 4 1 2 3 4
Calorías -0.37 0.79 -0.26 -0.17 -0.37 0.79 -0.26 -0.17 -0.24 0.55 -0.21 -0.19
Con ilustrativos 0.65 -0.42 -0.46 0.03 0.65 -0.42 -0.46 0.03 0.41 -0.31 -0.37 0.03
Proteínas 0.67 0.12 -0.50 -0.32 0.67 0.12 -0.50 -0.32 0.42 0.08 -0.40 -0.35
Con ilustrativos 0.55 0.60 -0.11 -0.30 0.55 0.60 -0.11 -0.30 0.35 0.43 -0.09 -0.36
Grasas 0.09 0.78 -0.12 -0.29 0.09 0.78 -0.12 -0.29 0.06 0.55 -0.10 -0.33
Con ilustrativos 0.67 -0.31 -0.17 -0.55 0.67 -0.31 -0.17 -0.55 0.42 -0.23 -0.14 -0.66
Sodio -0.21 0.31 -0.57 0.69 -0.21 0.31 -0.57 0.69 -0.13 0.22 -0.46 0.78
Con ilustrativos 0.11 -0.16 -0.81 0.29 0.11 -0.16 -0.81 0.29 0.07 -0.12 -0.64 0.35
Fibra 0.92 0.03 -0.01 0.21 0.92 0.03 -0.01 0.21 0.59 0.02 -0.01 0.24
Con ilustrativos 0.69 0.48 0.29 0.32 0.69 0.48 0.29 0.32 0.43 0.35 0.23 0.38
Carbohid -0.42 -0.25 -0.79 -0.13 -0.42 -0.25 -0.79 -0.13 -0.27 -0.17 -0.64 -0.15
Con ilustrativos -0.21 0.51 -0.73 0.06 -0.21 0.51 -0.73 0.06 -0.13 0.37 -0.58 0.08
Azúcares -0.21 0.76 0.49 0.15 -0.21 0.76 0.49 0.15 -0.13 0.53 0.40 0.17
Con ilustrativos 0.43 -0.80 0.17 0.24 0.43 -0.80 0.17 0.24 0.27 -0.58 0.13 0.29
Potasio 0.88 0.27 -0.10 0.11 0.88 0.27 -0.10 0.11 0.56 0.19 -0.08 0.12
Con ilustrativos 0.81 0.35 0.17 0.22 0.81 0.35 0.17 0.22 0.51 0.25 0.14 0.26
En general, las nuevas componentes principales no se parecen a las anteriores, sino
que se diferencian bastante: en algunos casos, como en de la FIBRA en la 2ª y 3ª
componente, la variable, en el análisis con ilustrativos, gana relevancia mientras que
en otros, como el del SODIO en las dos primeras componentes, la variable pierde
relevancia estando menos correlada con el eje correspondiente. El hecho de haber
prescindido de los tres elementos ricos en FIBRA, hace que otros, como toda la familia
de los “Muesli” (ver gráfico: PLANO 1-2 SEGÚN C. ABS. – CON 3 ILUSTRATIVOS) tenga
una contribución mayor al eje. Además, los “Muesli” destacan por su contenido en
GRASAS, por lo que esta variable ganará relevancia en el nuevo ACP (correlación con
el eje 1: 0.090.67).
Paula López Casado 16
ANÁLISIS CLUSTER SEGUNDA PARTE
Una vez descritas las características principales de nuestras variables y observaciones,
realizamos la clasificación en grupos. El objetivo principal de esta clasificación será
encontrar clases de cereales para el desayuno lo más dispares posible entre sí,
buscando la homogeneidad de cada conjunto, de manera que el cliente una vez
haya entrado en el establecimiento se acerque a la zona del supermercado que más
le interese y elija entre productos similares.
Método Jerárquico
En este caso la clasificación mixta no haría falta aplicarla ya que no tenemos un gran
número de individuos. Por ello optamos por aplicar en primer lugar un método
jerárquico para posteriormente, poder determinar el número de clases apropiado y
aplicar la técnica de centros móviles con el objetivo de estabilizar la inercia de las
clases. Tendremos en cuenta en todo momento que el número máximo de clases
permitidas es de 5.
La clasificación se realizará sobre factores, aplicando una clasificación jerárquica
ascendente con el criterio de la inercia y utilizando todas las coordenadas disponibles
del análisis de componentes principales para así no perder información.
DENDOGRAMA
En un primer momento nos plateamos el corte en 5 grupos. Este corte supone que las
alturas entre los vértices son bastante diferenciables, además de que cada rama tiene
un tamaño similar respecto al número de individuos que la conforman: la primera clase
que recogería tan sólo un 4% de las observaciones, sin embargo, la segunda contiene
el 14% de los individuos y las tres restantes un porcentaje que oscila entre el 25-30%.
Paula López Casado 17
Otros cortes posibles serían el reagrupar la segunda y tercera clase, manteniendo el
resto, pero esto nos llevaría a que casi la mitad de los individuos fueran recogidos por
una sola la clase lo cual no nos interesa pues quedaría una zona del supermercado
demasiado descompensada con el resto.
Como última opción también nos podríamos plantear realizar un corte en 2 o en tres
grupos, de manera que, repartiésemos en dos mitades a todo el conjunto de
individuos, pero estaríamos desperdiciando gran parte de la información. El corte en 3
clases, sería equivalente al de dos pero formando un tercer grupo con los tres
elementos atípicos ricos en FIBRA.
ÍNDICE DE NIVEL
Con los índices de nivel,
observamos que el corte con 5
clases resulta razonable puesto
que la diferencia de alturas
entre vértices consecutivos es
considerable. Así, también
podríamos plantearnos el corte
en 6 clases, sin embargo el
supermercado sólo cuenta con
5 zonas reservadas para los
cereales.
Construcción de la partición
Tamaño de las clases
Como decíamos anteriormente, la primera clase
estaría formada por tan sólo 3 individuos, sin
embargo el resto recogen una cantidad de
productos muy similar.
Consolidación de la partición
La partición se ha consolidado por el algoritmo de centros móviles con una sola
iteracción, resultando:
La inercia inter-clases apenas
se ve afectada por esta
consolidación, pues aumenta
ligeramente.
Clase Nº individuos Distancia 0
1 3 33.57
2 11 6.50
3 22 2.38
4 19 3.59
5 22 3.14
Iteracción Inercia total Inercia
inter-clases
Cociente
0 8 4.69956 0.58745
1 8 4.71508 0.58939
Paula López Casado 18
La evolución de la inercia, para cada clase ha sido:
Clase Inercia Efectivos Puntos Distancias
Antes Después Antes Después Antes Después Antes Después
Clase 1 0.0944 0.0944 3 3 3.00 3.00 33.5678 33.5678
Clase 2 0.5304 0.5304 11 11 11.00 11.00 6.4966 6.4966
Clase 3 0.9836 1.0073 22 23 22.00 23.00 2.3817 2.2505
Clase 4 1.0800 1.0800 19 19 19.00 19.00 3.5875 3.5875
Clase 5 0.6120 0.5727 22 21 22.00 21.00 3.1427 3.3795
En global observamos que las dos clases que se han modificado al consolidar la
inercia, han sido la 3 y la 5, ganando la 3 un individuo tomado de la quinta clase. Con
esto, la clase con menor inercia, o lo que es lo mismo, la más homogénea, sería la
primera, seguida de la segunda y la quinta. En último lugar situaríamos la tercera y la
cuarta.
Las varianzas globales serían:
Se ve que los productos que se vayan a situar en la
quinta zona del supermercado estarán mejor
adaptados a la misma que los de la primero zona,
seguidos por los de las clases 3 y 2. En último lugar
situaríamos los de la clase 4, que será donde más
variabilidad exista.
Descripción de la partición
Veamos la clasificación en un gráfico y analicemos los individuos que forman parte de
cada subconjunto.
INDIVIDUOS EN 5 CLASES
Clase Inercia / Efectivos
Clase 5 0,02727143
Clase 1 0,03146667
Clase 3 0,04379565
Clase 2 0,04821818
Clase 4 0,05684211
Paula López Casado 19
Se observa que la clase uno está formada por los atípicos que tenían altos contenidos
de FIBRA, contando sólo con 3 elementos.
Por otra parte, la segunda clase se encuentra bastante concentrada, con elementos
con valores negativos en el eje 2, y medios o próximos al centro, en el eje 1.
La clase cuatro sería la simétrica respecto al eje 1 de la segunda, ya que está formada
por individuos con valores medias en el eje 1, pero medios-altos en el eje 2.
La quinta clase se caracteriza por ser muy compacta y estar situada en la parte
negativa del primer eje factorial.
Por último, la tercera clase, es la más dispersa de las cinco par el plano factorial 1-2,
siendo junto con la cuarta, las que más inercia intra-clase poseen. Además esta clase
tres, recoge los individuos más extremos, por la parte negativa, del primer eje factorial.
Caracterización de la partición por las variables continuas
Con este análisis ANOVA se comparan las medias entre clusters. Así sabemos el orden
de caracterización de la partición (de mayor a menor importancia):
Valor Test Probabilidad Variable Fisher
9.01 0 AZUCAR 48.40
8.89 0 FIBRA 46.37
8.35 0 POTASIO 38.39
8.16 0 SODIO 35.93
7.05 0 CALORIAS 24.36
5.84 0 CARBOHIDRATOS 15.71
5.83 0 GRASAS 15.69
5.25 0 PROTEINAS 12.61
Medias de las variables continuas para cada clase
Si el supermercado tuviese interés por conocer el centro de cada clase, en la tabla
siguiente disponemos de las medias de cada variable en cada clase.
Variable Clase 1 Clase 2 Clase 3 Clase 4 Clase 5
AZUCARES 3.67 2.636 3.565 9.474 11.476
FIBRA 11 2 1.696 3.142 0.571
POTASIO 310 98.455 76.087 167.632 47.381
SODIO 176.667 10 221.957 168.421 168.571
CALORIAS 68.333 87.273 103.478 124.737 110.952
CARBOHIDRATOS 6.667 15.182 18.130 14.947 12.429
GRASAS 0.667 0.091 0.565 1.895 1
PROTEINAS 4 2.545 2.739 3.211 1.524
Caracterización de las clases por las variables continuas
Además podríamos analizar cuáles son las variables que caracterizan cada clase,
según que la media de la variable en cada clase sea significativamente diferente a la
media en todo el conjunto.
Paula López Casado 20
CLASE 1
V. test Prob
Medias Desviación Variables
características Clase General Clase General
6.56 0.000 11.00 2.15 2.16 2.37 FIBR
4.88 0.000 310.00 103.16 21.60 74.35 POTA
2.35 0.009 4.00 2.55 0.00 1.09 PROT
0.31 0.377 176.67 162.14 59.07 81.31 SODI
-0.55 0.291 0.67 0.95 0.47 0.90 GRAS
-1.37 0.085 3.67 7.05 2.62 4.33 AZUC
-3.63 0.000 6.67 14.92 1.25 3.99 CARB
-3.95 0.000 63.33 106.88 9.43 19.36 CALO
CLASE 2
V. test Prob
Medias Desviación Variable
características Clase General Clase General
0.23 0.408 15.18 14.92 3.79 3.99 CARB
0.00 0.500 2.55 2.55 0.78 1.09 PROT
-0.23 0.411 98.45 103.16 36.01 74.35 POTA
-0.23 0.410 2.00 2.15 1.28 2.37 FIBR
-3.41 0.000 0.09 0.95 0.29 0.90 GRAS
-3.61 0.000 87.27 106.88 20.04 19.36 CALO
-3.63 0.000 2.64 7.05 3.11 4.33 AZUC
-6.66 0.000 10.00 162.14 22.86 81.31 SODIO
CLASE 3
V. test Prob
Medias Desviación Variable
características Clase General Clase General
4.57 0.000 18.13 14.92 2.85 3.99 CARB
4.19 0.000 221.96 162.14 48.92 81.31 SODI
1.01 0.156 2.74 2.55 1.19 1.09 PROT
-1.00 0.158 103.48 106.88 6.98 19.36 CALO
-1.10 0.136 1.70 2.15 1.43 2.37 FIBR
-2.07 0.019 76.09 103.16 40.11 74.35 POTA
-2.43 0.008 0.57 0.95 0.58 0.90 GRAS
-4.58 0.000 3.57 7.05 1.44 4.33 AZUC
Paula López Casado 21
CLASE 4
V. test Prob
Medias Desviación Variable
características Clase General Clase General
5.27 0.000 1.89 0.95 0.79 0.90 GRAS
4.60 0.000 124.74 106.88 17.58 19.36 CALO
4.33 0.000 167.63 103.16 61.42 74.35 POTA
3.05 0.001 3.21 2.55 0.61 1.09 PROT
2.79 0.003 9.47 7.05 2.70 4.33 AZUC
2.09 0.018 3.14 2.15 1.32 2.37 FIBR
0.39 0.350 168.42 162.14 40.91 81.31 SODI
0.03 0.487 14.95 14.92 3.62 3.99 CARB
CLASE 5
V. test Prob
Medias Desviación Variable
características Clase General Clase General
5.46 0.000 11.48 7.05 1.92 4.33 AZUC
1.12 0.131 110.95 106.88 5.26 19.36 CALO
0.42 0.336 168.57 162.14 56.42 81.31 SODI
0.31 0.378 1.00 0.95 0.76 0.90 GRAS
-3.33 0.000 12.43 14.92 1.66 3.99 CARB
-3.56 0.000 0.57 2.15 0.64 2.37 FIBR
-4.00 0.000 47.38 103.16 23.43 74.35 POTA
-5.01 0.000 1.52 2.55 0.59 1.09 PROT
Así los individuos que formen parte de la primera clase, tendrán contenidos altos en
FIBRA, POTASIO y PROTEÍNAS, y bajo en AZÚCARES y CARBOHIDRATOS. Por otro lado, los
individuos de la segunda clase tendrán bajo contenido en CALORÍAS, GRASAS y
AZUCARES, aunque sobretodo en SODIO. Los individuos que formen parte de la clase
tres se caracterizarán por tener altos contenidos en CARBOHIDRATOS y SODIO, así
como bajo en POTASIO, GRASAS y AZÚCARES. En la clase 4, todas las variables tienen
la media de la clase por encima del valor general, siendo las únicas no significativas
SODIO y CARBOHIDRATOS. Aunque sobretodo las que más cabe mencionar son:
GRASAS, CALORÍAS y POTASIO. Por último, la clase 5 está caracterizada por productos
ricos en AZÚCARES y con fuentes bajas de CARBOHIDRATOS, FIBRA, POTASIO y
PROTEÍNAS.
Clase 1
FIBRA POTASIO
PROTEÍNAS
AZUCARES CARBOH
Clase 2
GRASAS CALORIAS AZUCARES
SODIO
Clase 3
CARBOH SODIO
POTASIO GRASAS
AZUCARES
Clase 4
GRASAS CALORIAS POTASIO
Clase 5
AZUCARES
PROTEINAS POTASIO
FIBRA CARBOH
Paula López Casado 22
Caracterización de las clases por la variable modal
CLASE 1 V. test Prob % cla/mod % mod/cla % global Manufacturador Puntos
0.80 0.211 8.70 66.67 29.87 K 23
0.78 0.219 16.67 33.33 7.79 N 6
-0.36 0.359 0.00 0.00 28.57 G 22
-0.48 0.315 0.00 0.00 11.69 P 9
-0.57 0.284 0.00 0.00 10.39 Q 8
CLASE 2
V. test Prob % cla/mod % mod/cla % global Manufacturador Puntos
3.65 0.000 83.33 45.45 7.79 N 6
1.39 0.082 37.50 27.27 10.39 Q 8
-0.53 0.298 8.70 18.18 29.87 K 23
-0.60 0.273 0.00 0.00 10.39 R 8
-0.74 0.229 0.00 0.00 11.69 P 9
-2.10 0.018 0.00 0.00 28.57 G 22
CLASE 3
V. test Prob % cla/mod % mod/cla % global Manufacturador Puntos
1.67 0.047 62.50 21.74 10.39 R 8
0.19 0.426 30.43 30.43 29.87 K 23
0.10 0.459 33.33 13.04 11.69 P 9
0.02 0.491 31.82 30.43 28.57 G 22
-0.70 0.243 12.50 4.35 10.39 Q 8
-1.23 0.109 0.00 0.00 7.79 N 6
CLASE 4
V. test Prob % cla/mod % mod/cla % global Manufacturador Puntos
0.50 0.308 37.50 15.79 10.39 R 8
0.35 0.363 25.00 10.53 10.39 Q 8
0.28 0.390 33.33 15.79 11.69 P 9
0.08 0.468 26.09 31.58 29.87 K 23
-0.06 0.475 22.73 26.32 28.57 G 22
-0.95 0.171 0.00 0.00 7.79 N 6
Paula López Casado 23
CLASE 5
V. test Prob % cla/mod % mod/cla % global Manufacturador Puntos
1.95 0.026 45.45 47.62 28.57 G 22
0.08 0.466 33.33 14.29 11.69 P 9
-0.14 0.443 26.09 28.57 29.87 K 23
-0.31 0.377 25.00 9.52 10.39 Q 8
-1.09 0.137 0.00 0.00 7.79 N 6
-1.49 0.068 0.00 0.00 10.39 R 8
En la primera clase no encontramos ninguna empresa manufacturadora que sea
significativa. Para la segunda, las marcas Nabisco y Quarker Oats destacan por tener
un porcentaje en la clase mayor al global. Por otro lado, el 62% de los individuos de la
marca Ralston Purina, están en la tercera clase. Así mismo la quinta clase se
caracteriza por los productos de General Mills.
CLASIFICACIÓN (SEGÚN VARIABLE MODAL)
A continuación analizaremos los porcentajes modalidad / clase para determinar la
composición general de las clases. La tercera clase, por ejemplo, tiene un gran
porcentaje de productos de Kellogs y General Mills. Los mismo ocurre con la cuarta,
aunque esta además también incluye individuos de Post y Quaker Oats. La segunda,
por su parte, se caracteriza por los paquetes de cereales de Quaker Oats y Nabisco,
principalmente. La quinta es similar a la tercera en cuanto que se compone en su
mayoría por cereales de kellogs y General Mills, también se trata de las marcas más
grandes un cuanto a número de individuos por lo que es lógico que aparezcan con
gran representatividad en varias clases. La primera clase, sólo está formada por tres
elementos: dos de Kellogs y uno de Nabisco.
Paula López Casado 24
RESUMEN FINAL
Objetivo
Realizar una clasificación en 5 grupos, de los cereales para el desayuno de un
supermercado según su contenido nutricional, para distribuirlos en diferentes zonas del
establecimiento.
Datos
Tenemos una muestra de los 77 paquetes de cereales para el desayuno, de diferentes
marcas comerciales que se venden
en el supermercado. Además
contamos con 8 variables
continuas y 1 nominal, véase la
empresa de manufacturación, con
7 niveles: K=Kellogs, R=Ralston
purina, G=General Mills, N=Nabisco,
Q=Quaker Oats, P=Post, y
A=American Home Food Products.
Variabilidad contenidos nutricionales
CUATRO PRIMEROS EJES FACTORIALES
Factor Significado Contrapone % %
acumulado
1
CARBOHIDRATOS
CALORÍAS
FIBRA
POTASIO
PROTEÍNAS
30.92 30.92
2
CARBOHIDRATOS
AZÚCARES
CALORÍAS
GRASAS
25.64 56.56
3
CARBOHIDRATOS
SODIO
PROTEÍNAS
AZÚCARES 19.14 75.70
4
PROTEÍNAS
GRASAS SODIO 9.87 85.57
Variable Medidas
Calorías Calorías por porción
Proteínas Cantidad de proteínas (gr)
Grasas Cantidad de grasas (gr)
Sodio Cantidad de sodio (mg)
Fibra Cantidad de fibra (gr)
Carbohidratos Carbohidratos complejos (mg)
Azúcar Azúcares (gr)
Potasio Cantidad potasio (mg)
Paula López Casado 25
Elementos atípicos
Tenemos 3 elementos atípicos que forman un grupo por si sólos por encontrarse muy
alejados del resto ya que contienen fuentes de fibra muy por encima de la media
global. Éstos son: “All-Bran”, “100% Bran” y “All-Bran con extra de Fibra”. Entonces,
repitiendo el análisis tomando estos tres cereales como ilustrativos, es decir, sin tenerlos
en cuenta para realizar el ACP, pasa a ser la familia de los “Muesli” la que más
destaque en este nuevo análisis, por su contenido en GRASAS. Aunque se esté
perdiendo información (suponen un 4% de todo el conjunto) se gana en calidad del
ajuste para el 96% restante de los individuos.
Análisis según empresa manufacturadora
Manufacturador Variable/s Individuo/os
K = Kellogs +FIBRA
+POTASIO
“All bran con extra fibra”
“Raisin Brain”
R = Ralston Purina +GRASAS “Muesli …”
G = General Mills +CARBOHIDRATOS
-AZÚCARES
“Total Corn Flakes”
“Cheerios”
N = Nabisco +CARBOHIDRATOS “Shredded Wheat …"
Q = Quaker Oats -CALORÍAS “Puffed …”
P = Post +POTASIO “Post Nat Raisin Bran”
A = American Home Food
Products -SODIO “Maypo”
Respecto a las clases
Las productos de Kellogs y General Mills irán principalmente destinados a las clases 3 y
4. Los de Quaker Oats y Nabisco hacia la segunda, mientras que los cereales de
Ralston Purina hacia la tres.
Composición de las clases
CLASE 1 4 %
•100%_Bran
•All-Bran
•All-Bran with Extra Fibe
CLASE 2 14 %
•100% Natural Bran
•Cream of Wheat
•Frosted Mini-Wheats
•Maypo
•Puffed Rice
•Puffed Wheat
•Raisin Squares
•Shredded Wheat
•Shredded Wheat 'n'Bran
•Shredded Wheat spoon siz
•Strawberry Fruit Wheats
CLASE 3 29 %
•Bran Chex
•Bran Flakes
•Cheerios
•Corn Chex
•Corn Flakes
•Crispix
•Double Chex
•Grape Nuts Flakes
•Grape-Nuts
•Just_Right Crunchy Nugg
•Kix
•Multi-Grain Cheerios
•Nutri-grain Wheat
•Product 19
•Quaker Oat Squares
•Rice Chex
•Rice Krispies
•Special K
•Total Corn Flakes
•Total Whole Grain
•Triples
•Wheat Chex
•Wheaties
CLASE 4 25%
•Almond Delight
•Basic 4
•Clusters
•Cracklin' Oat Bran
•Fruit & Fibre Dates, Wal
•Fruitful Bran
•Great Grains Pecan
•Just Right Fruit & Nut
•Muesli Raisins, Dates
•Muesli Raisins, Peaches,
•Mueslix Crispy Blend
•Nutri-Grain Almond-Raisi
•Oatmeal Raisin Crisp
•Post Nat, Raisin Bran
•Quaker Oatmeal
•Raisin Bran
•Raisin Nut Bran
•Total Raisin Bran
CLASE 5 29 %
•Apple Cinnamon Cheerios
•Apple Jacks
•Cap'n'Crunch
•Cinnamon Toast Crunch
•Cocoa Puffs
•Corn Pops
•Count Chocula
•Crispy Wheat & Raisins
•Froot Loops
•Frosted Flakes
•Fruity Pebbles
•Golden Crisp
•Golden Grahams
•Honey Graham Ohs
•Honey Nut Cheerios
•Honey-comb
•Lucky Charms
•Nut&Honey Crunch
•Smacks
•Trix
•Wheaties Honey Gold
Paula López Casado 26
Lista de los paquetes de cereales según zona
100%_Bran 1 100% Natural Bran 2 All-Bran 1 All-Bran_with_Extra_Fibe 1
Almond_Delight 4 Apple_Cinnamon_Cheerios 5 Apple_Jacks 5 Basic_4 4
Bran_Chex 3 Bran_Flakes 3 Cap'n'Crunch 5 Cheerios 3
Cinnamon_Toast_Crunch 5 Clusters 4 Cocoa_Puffs 5 Corn_Chex 3
Corn_Flakes 3 Corn_Pops 5 Count_Chocula 5 Cracklin'_Oat_Bran 4
Cream_of_Wheat_(Quick) 2 Crispix 3 Crispy_Wheat_&_Raisins 5 Double_Chex 3
Froot_Loops 5 Frosted_Flakes 5 Frosted_Mini-Wheats 2 Fruit_&_Fibre_Dates,_Wal 4
Fruitful_Bran 4 Fruity_Pebbles 5 Golden_Crisp 5 Golden_Grahams 5
Grape_Nuts_Flakes 3 Grape-Nuts 3 Great_Grains_Pecan 4 Honey_Graham_Ohs 5
Honey_Nut_Cheerios 5 Honey-comb 5 Just_Right_Crunchy__Nugg 3 Just_Right_Fruit_&_Nut 4
Kix 3 Life 4 Lucky_Charms 5 Maypo 2
Muesli_Raisins,_Dates,_& 4 Muesli_Raisins,_Peaches, 4 Mueslix_Crispy_Blend 4 Multi-Grain_Cheerios 3
Nut&Honey_Crunch 5 Nutri-Grain_Almond-Raisi 4 Nutri-grain_Wheat 3 Oatmeal_Raisin_Crisp 4
Post_Nat,_Raisin_Bran 4 Product_19 3 Puffed_Rice 2 Puffed_Wheat 2
Quaker_Oat_Squares 3 Quaker_Oatmeal 4 Raisin_Bran 4 Raisin_Nut_Bran 4
Raisin_Squares 2 Rice_Chex 3 Rice_Krispies 3 Shredded_Wheat 2
Shredded_Wheat_'n'Bran 2 Shredded_Wheat_spoon_siz 2 Smacks 5 Special_K 3
Strawberry_Fruit_Wheats 2 Total_Corn_Flakes 3 Total_Raisin_Bran 4 Total_Whole_Grain 3
Triples 3 Trix 5 Wheat_Chex 3 Wheaties 3
Wheaties_Honey_Gold 5
Paula López Casado 27
Resumen de zonas
Zona 1 •Alto
contenido en FIBRA
Zona 2 • Bajo en
SODIO
Zona 3 •Alto en
CARBOHIDRATOS
•Bajo en AZUCARES
Zona 4 •Fuente
importante de GRASAS
Zona 5 •Contenido
alto AZUCARES
•Bajo en PROTEINAS