ME3-2015-I
-
Upload
yderfcamposalegria -
Category
Documents
-
view
226 -
download
1
description
Transcript of ME3-2015-I
1
Mg Sc Jaime Carlos Porras Cerrón
Escuela de Posgrado
Maestría en Estadística Aplicada
Métodos Estadísticos
John Tukey
(1915-2000)
2
Capítulo I:
Análisis Exploratorio de Datos (A.E.D.)
1. Introducción.
2. El Análisis Exploratorio de Datos.
3. Usos del AED.
4. Diagramas para una variable (univariado).
5. Diagramas para varias variables(multivariado).
6. Aplicación.
El AED debe su desarrollo a John Wilder Tukey,quien publicó un trabajo denominadoExploratory Data Analysis – Princeton University(1977). Dicho trabajo sirvió de base a otrosinvestigadores como: Mosteller, Hoaglin yVelleman para desarrollar esta filosofía.
Algunas de sus frases célebres son:
1. Introducción
“Cantidades numéricas se centran en los valores esperados,
resúmenes gráficos en valores inesperados.”
“Un gráfico puede valer mas que mil palabras, peropuede tomar muchas palabras para hacerlo.”
3
El Análisis Exploratorio de Datos (A.E.D.)comprende un conjunto de procedimientosprincipalmente de tipo gráfico.Muchos de los gráficos vistos en la primeraanteriormente tienen como principalobjetivo resumir un conjunto de datos.El AED tiene un objetivo mas amplio, yaque permite tener un primer acercamientoal análisis de los datos, tratando de queellos por sí mismo revelen su estructuraoculta.Una simple clasificación de las técnicasAED es según la cantidad de variables quese utilicen para su elaboración, asitenemos: AED univariado y AEDmultivariado.
2. El Análisis Exploratorio de Datos
Algunas preguntas que nos puede ayudar aresponder el AED son:
• De varios conjuntos de datos hay al menos unoque presentan mayor (o menor) medida deposición que los otros.
• De varios conjuntos de datos hay al menos unoque es más (o menos) dispersos que los otros.
• En el conjunto de datos se puede apreciarsubgrupos.
• Hay observaciones discordantes (outliers) en unconjunto de datos.
• El conjunto de datos presentan algunadistribución teórica conocida.
• Hay relación lineal o curvilineal entre pares devariables.
4
Algunos de los gráficos considerados en el AEDson:
Gráfica de Puntos.
Grafica de Intervalos.
Diagrama de Tallos y hojas.
Diagrama de Cajas.
Diagrama de Densidad de Kernel.
Diagrama de Violín.
Gráfica de Probabilidad.
Es un gráfico muy útil cuando el conjuntode datos es pequeño y hay relativamentepocos datos distintos (preferentementepara datos de tipo cuantitativo discreto).Cada dato se representa con un puntoencima de la correspondiente localizaciónen una escala horizontal o vertical demedida. Cuando un valor se repite sepresenta un punto por cada ocurrencia.Permite visualizar la moda, dispersión ydetectar datos atípicos.
5
ppm
9085807570656055
Grafico de Puntos
ppm
Lo
ca
lida
d
9085807570656055
A
B
C
Localidad
A
B
C
ppm medido en diferentes localidades
En R se usa la función dotchart
Este diagrama a diferencia del anterior esutilizado principalmente para variables detipo cuantitativa continua.Para su elaboración se obtienen la estimacióndel intervalo con 95% de confianza para lamedia.Se pueden elaborar gráficos para una o variasvariables a la vez de tipo simple (para unamuestra) y con grupos (para varias muestras).
6
En R se usa la función error.bars que se
encuentra en el paquete psych.
Un diagrama de tallos y hojas es un histograma queconserva información numérica. Es decir utiliza losdígitos de los valores de los mismos datos, en vez desimplemente encerrarlos en áreas.De manera similar al histograma permite ver elconjunto de datos como un todo y advertir aspectoscomo:◦ Cuán aproximadamente simétricos son los datos.◦ Cuán dispersos están los valores.◦ Que valores son más frecuentes.◦ Si algunos valores están alejados del resto (datos
atípicos). ◦ Si hay concentraciones de valores. ◦ Si hay grupos separados.
7
Las ventajas del diagrama de tallo y hojas son:◦ Facilita el ordenamiento de los datos.◦ Permite, hallar la mediana y otras medidas resumen basadas en el
conjunto de datos ordenado.
En Minitab Gráfica / Tallo y Hoja
Stem-and-Leaf Display: ppm
Stem-and-leaf of ppm N = 30Leaf Unit = 1.0
2 5 66
7 6 00444
13 6 888888
(5) 7 22222
12 7 6666
8 8 000044
2 8 8
1 9 2
Stem-and-Leaf Display: ppm
Stem-and-leaf of ppm N = 30
Leaf Unit = 1.0
2 5 66
13 6 00444888888
(9) 7 222226666
8 8 0000448
1 9 2
En R se usa la función stem
El diagrama de cajas es la representación gráfica dela mediana, los cuartiles, los valores adyacentes ylos valores externos moderados o severos. Permiteextraer los siguientes aspectos de un conjunto dedatos:
Posición del centro Dispersión Asimetría Longitud de la cola Puntos discordantes.
Este compacto diagrama es muy útil para comparar varios grupos de datos.
8
DIAGRAMA DE CAJAS Y SUS PARTES
outlier (valor fuera de los límites)
L.S.
L.I.
Valor máximo de las observaciones
Q3
Q2=me
Q1
Valor mínimo de las observaciones
En R se usa la función boxplot
Localidad
pp
m
CBA
95
90
85
80
75
70
65
60
55
Diagrama de Cajas de ppm vs Localidad
9
El polígono de frecuencias, el cual es obtenidoa partir del histograma, tiene el defecto quepara su elaboración se necesita especificar elnúmero de intervalos de clase y el ancho deestos.Para el caso de un diagrama de densidad deKernel se necesita solo especificar el ancho delos intervalos, el cual puede ser definido dediferentes maneras (Gaussiano, Uniforme,Triangular, etc).El Kernel muestra un gráfico mas suave que elpolígono de frecuencia.En R se obtiene utilizando las funciones plot ydensity
10
Un diagrama de violín es una combinaciónde un diagrama de cajas y un gráfico dedensidad de Kernel. Para elaborar el gráficoprimero se hace el diagrama de cajasposteriormente se adiciona el gráfico dedensidad de Kernel en cada lado de la caja.
Este diagrama fue diseñado por Jerry L.Hintze y Ray D. Nelson en 1998.
En la actualidad existen muy pocosprogramas estadísticos que permitanobtener el gráfico de violín. Uno de ellos esel R, el cual puede ser encuentra dentro delpaquete vioplot. Para su elaboración sedebe usar la función del mismo nombre.Los comandos a seguir son:library(vioplot)vioplot(A,B,C)
5560
6570
7580
8590
1 2 3
11
La gráfica de probabilidad permiteobservar cuan cerca está la distribuciónde un conjunto de datos a algunadistribución ideal (ó teórica).Si es de interés comparar con ladistribución normal se llama gráfico deprobabilidad normal. Para obtener estegráfico se ordenan los datos y se graficael i-ésimo dato contra el correspondientecuantil normal.
ppm
%
100908070605040
99
95
90
80
70
60
50
40
30
20
10
5
1
Grafico de Probabilidad Normal
En R se usa la función qqplot
12
Algunos de los gráficos considerados en el AEDson: Pirámide poblacional. Diagrama de dispersión 2D. Matriz de dispersión . Diagrama de dispersión 3D. Diagrama marginal. La caras de Chernoff. Gráfico de Estrellas. Gráfico de coordenadas paralelas.
La pirámide de población o pirámidedemográfica es un histograma que está hechoa base de barras cuya altura es proporcional ala cantidad que representa la estructura de lapoblación por un par de variables(generalmente sexo y edad).Gráficamente se trata de undoble histograma de frecuencias. Las barrasdel doble histograma se disponen en formahorizontal, es decir, sobre la línea delas abscisas (convencionalmente se indican losgrupos de edad de la población masculina a laizquierda y los que representan la poblaciónfemenina a la derecha).
13
Piramide Poblacional de Australia 2002
3.5 2.5 1.5 0.5 0 1 2 3
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-44
85+
Masculino Edades Femenino
% %
3.2
3.5
3.6
3.6
3.5
3.5
3.9
3.7
3.9
3.5
3.2
2.8
2.2
1.8
1.5
1.3
0.7
0.4
3.2
3.4
3.5
3.5
3.5
3.7
4
3.8
3.9
3.6
3.2
2.5
2
1.7
1.5
1.3
1
0.9
5. Análisis Exploratorio de Datos
5.1 Pirámide poblacionalEn R esta dentro del paquete plotrix y se usa la función pyramid.plot
Es un gráfico que permite analizar la relaciónexistente entre dos variables de tipocuantitativa.
En el eje X se grafica los valores de una de lasvariables y en el eje Y se grafica los valorescorrespondientes de la segunda variable. Esdecir, se ubican los pares ordenados de datosen el plano.
Permite determinar si las variables presentanuna relación lineal, curvilineal o no presentanrelación.
14
En Minitab
Gráfica / Gráfica de dispersión
Sepalo ancho
Se
pa
lo la
rgo
4.54.03.53.02.52.0
6.0
5.5
5.0
4.5
Scatterplot of Sepalo largo vs Sepalo ancho
En R se usa la función plot
Es un gráfico que presenta el diagrama dedispersión de varias variables por pares devariables.
La matriz gráfica es simétrica es decir laparte superior a la diagonal de la matriz essimilar a la parte inferior de la diagonal dela matriz por lo que solo bastaría presentaruna de las partes.
15
En Minitab
Gráfica / Gráfica de matriz
x1
x3
x4
x2
432 210
8
6
4
4
3
2
6
4
2
864
2
1
0
642
Matrix Plot of x1, x2, x3, x4
En R se usa la función pairs
Es un gráfico que permite analizar larelación existente entre tres variables detipo cuantitativa.
En cada uno de los ejes X, Y, Z se ubicanlos valores de cada una de las variables. Esdecir, se ubican la tupla 3 en el espacio.
16
En Minitab
Gráfica / Gráfica de dispersión 3D
4
Sepalo largo
4.5
5.0
5.5
3 Sepalo ancho
6.0
1.001.25 1.50 21.75
Petalo largo
3D Scatterplot of Sepalo largo vs Sepalo ancho vs Petalo largo
En R se usa la función scatteplot3d
que se encuentra dentro del paquete
del mismo nombre.
Es un gráfico de dispersión para dosvariables al cual se le ha adicionado unhistograma, diagrama de cajas o diagramade puntos en los ejes.
Es decir es una gráfico que puede seraprovechado para analizar la relación entredos variables y para conocer la forma dedistribución de los dos variables que seestán analizando de manera individual.
17
En Minitab
Gráfica / Gráfica marginal
Sepalo ancho
Se
pa
lo la
rgo
4.54.03.53.02.52.0
6.0
5.5
5.0
4.5
Diagrama marginal
Sepalo ancho
Se
pa
lo la
rgo
4.54.03.53.02.52.0
6.0
5.5
5.0
4.5
Diagrama marginal
En un análisis multivariado se quiere visualizar losdatos en una dimensión baja (por ejemplo en 2D),aunque las estructuras son ocultadas en altasdimensiones. La presentación numérica de laestructura de datos usando coordenadas por lotanto puede ser de a lo más en tres dimensiones.Si estamos interesados en condensar la estructuraen dos dimensiones 2D, se tiene que considerargráficos alternativos. Las caras de Chernoff-Flury,por ejemplo, proveen de tal condensación deinformación en una simple “cara”.El tamaño de los elementos como las pupilas, ojos,cabellos, etc, son asignados a ciertas variables. Laidea de usar caras proviene de Chernoff (1973) yha sido desarrollado por Bernhard Flury.
18
Según el diseño descrito por Flury y Riedwyl (1988) se usa las siguientes:características:
Altura de la cara Ancho de la cara Forma de la cara Altura de la boca Ancho de la boca Curva de la sonrisa Altura de los ojos Ancho de los ojos Altura de la oreja Ancho del cabello Estilo del cabello Altura de la nariz Ancho de la nariz Ancho de las orejas Altura de las orejas
Index
1
Index
2
Index
3
Index
4
Index
5
Index
6
Index
7
Index
8
Index
9
Index
10
Index
11
Index
12
Index
13
Index
14
Index
15
Index
16
Al igual que el gráfico de violin existenpocos programas estadísticos quepermiten obtener las caras de Chernoff-Flury. Uno de estos programas es elStatistica y otro es el R. En este últimoprograma el gráfico se puede hacerutilizando el paquete aplpack y la funciónfaces. Los comandos son:library(aplpack)faces(iris[43:58,-5])
19
La idea de este gráfico es muy similar al delas caras de Chernoff-Flury. En este casose representa a cada variable como lapunta de una estrella.
El R realiza este gráfico mediante sufunción stars del paquete graphics
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
Es un sistema de visualización que permite representar n
dimensiones en un sistema bidimensional. En este
sistema, cada eje vertical (ordenada) representa un
atributo (dimensión).
En general, es una técnica de visualización donde las
dimensiones son simbolizadas como una serie de ejes
paralelos perpendiculares, con la misma separación
entre ellos (equidistantes) y donde los valores están
representados. Cada eje representa una coordenada en
la dimensión correspondiente. Uniendo con líneas los
ejes, podemos simbolizar los puntos en n-dimensiones.
20
Prestamo Ingreso2010 Ingreso2011 Nif Edad
Banco Sudamérica es una entidad financiera que haingresado con fuerza al mercado peruano y cuyopublico objetivo son los trabajadoresindependientes.
Al finalizar el 2013 ya cuenta con 3 sucursalesabiertas en los distritos de San Isidro, San Borja ySan Luís.
El Gerente Financiero desea realizar un análisisestadístico sobre los clientes que solicitanpréstamos al banco. Para llevar a cabo este estudioel gerente selecciona muestras aleatorias eindependientes de registros de datos de clientes decada una de las sucursales con las que cuenta elbanco, de los cuales almacena las siguientesvariables:
21
Sucursal donde el cliente solicita el préstamo: San Isidro, San Borja y San Luís.
Monto de préstamo otorgado (en miles de soles) al cliente.
Ingreso mensual (en miles de soles) del cliente en el 2013.
Ingreso mensual del cliente (en miles de soles) del cliente en el 2014.
Número de integrantes de la familia. Edad (en años) del cliente
Género del cliente: Masculino, Femenino.
Deuda pendiente con otras entidades financieras: Si, No