An´alisis Exploratorio de Datos Temas 2 y...
Transcript of An´alisis Exploratorio de Datos Temas 2 y...
Grado en Estadıstica y Empresa 1
Analisis Exploratorio de Datos
Temas 2 y 3
Aurea Grane
Dpto. Estadıstica
Universidad Carlos III de Madrid
Grado en Estadıstica y Empresa 2
2 Descripcion estadıstica de una variable
2.1 Ordenacion simple de los datos
Consideremos una muestra de tamano n de una variable X.
Esto significa que se consideran n individuos escogidos al azar de la
poblacion objeto de estudio y que, para cada uno de ellos se registra
el valor de la variable X.
Sean x1, x2, . . . , xk los k ≤ n diferentes valores de X sobre la muestra.
• Si X es cuantitativa o bien categorica ordinal, supondremos que
x1 < x2 < . . . < xk.
• Si X es una variable categorica nominal, el orden de valores
observados se establece segun el criterio del observador.
Grado en Estadıstica y Empresa 3
Sea xi un valor observado de la variable X, i = 1, 2, . . . , k.
• La frecuencia absoluta del valor xi, ni, es el numero de veces
que se ha observado este valor en la muestra.
• La frecuencia relativa del valor xi, fi, es la proporcion del
valor xi en la muestra, es decir, fi = ni/n. Puede expresarse en
porcentaje.
• La frecuencia absoluta acumulada del valor xi, Ni, es el
numero de observaciones menores o iguales que xi, es decir,
Ni =∑i
j=1 nj .
• La frecuencia relativa acumulada del valor xi, Fi, es la
proporcion de observaciones menores o iguales que xi en la
muestra, es decir, Fi = Ni/n =∑i
j=1 fj . Tambien puede
expresarse en porcentaje.
Grado en Estadıstica y Empresa 4
Propiedades de las frecuencias (pizarra)
Tabla de frecuencias Permite representar de forma resumida los
valores de X en la muestra.
xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
......
......
...
xk nk fk Nk = n Fk = 1
Total n 1
Observacion 1 Las columnas Ni y Fi no tendran sentido para
variables categoricas nominales.
Grado en Estadıstica y Empresa 5
Se denomina distribucion de frecuencias de X al conjunto de
valores observados de la variable junto con las frecuencias
correspondientes a cada uno de estos valores.
Distribucion de frecuencias
absolutas relativas
xi ni
x1 n1
x2 n2
......
xk nk
Total n
xi fi
x1 f1
x2 f2...
...
xk fk
Total 1
Analogamente, se obtienen las distribuciones de frecuencias absolutas
acumuladas y absolutas relativas.
Grado en Estadıstica y Empresa 6
Ejemplo 2.1 Se ha medido el grupo sanguıneo de 40 individuos y se
han observado las siguientes frecuencias absolutas para cada
categorıa: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para
x4 = O.
a) ¿De que tipo es la variable estudiada? Construir la tabla de
frecuencias correspondiente.
grupo ni fi
A 12 0.3
B 11 0.275
AB 8 0.2
O 9 0.225
Total 40 1
Grado en Estadıstica y Empresa 7
Ejemplo 2.1 (continuacion)
grupo ni fi
A 12 0.3
B 11 0.275
AB 8 0.2
O 9 0.225
Total 40 1
b) ¿Que porcentaje de individuos son del grupo A?
c) ¿Que porcentaje de individuos no son del grupo O?
d) ¿Cuantos individuos no son del grupo B?
Grado en Estadıstica y Empresa 8
Ejemplo 2.2 La siguiente tabla muestra la clasificacion de 901
individuos segun la variable satisfaccion en el trabajo
xi ni
muy insatisfecho 62
moderamadente insatisfecho 108
moderadamente satisfecho 319
muy satisfecho 412
Total 901
a) ¿De que tipo es la variable de estudio? Calcular la tabla de
frecuencias correspondiente.
Grado en Estadıstica y Empresa 9
Ejemplo 2.2 (continuacion)
xi ni fi Ni Fi
muy insatisfecho 62 0.07 62 0.07
moderamadente insatisfecho 108 0.12 170 0.19
moderadamente satisfecho 319 0.35 489 0.54
muy satisfecho 412 0.46 901 1
Total 901 1
b) ¿Que porcentaje de individuos estan moderadamente satisfechos?
c) ¿Cuantos individuos estan a lo sumo moderadamente
insatisfechos (es decir, a lo sumo, levemente satisfechos)? ¿Que
porcentaje representan?
d) ¿Cuantos individuos estan por lo menos moderadamente
satisfechos? ¿Que porcentaje representan?
Grado en Estadıstica y Empresa 10
Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida
para plantas de interior. Se seleccionan 50 plantas y se cuenta el
numero de hojas que han sido atacadas despues de haber tratado a la
planta con el nuevo producto. Los resultados son:
Hojas atacadas 0 1 2 3 4 5 6 8 10
ni 6 10 12 8 5 4 3 1 1
a) ¿De que tipo es la variable de estudio? Construir la tabla de
frecuencias correspondiente.
Grado en Estadıstica y Empresa 11
Ejemplo 2.3 (continuacion)
Hojas atacadas ni fi Ni Fi
0 6 0,12 6 0,12
1 10 0,20 16 0,32
2 12 0,24 28 0,56
3 8 0,16 36 0,72
4 5 0,10 41 0,82
5 4 0,08 45 0,90
6 3 0,06 48 0,96
8 1 0,02 49 0,98
10 1 0,02 50 1
b) ¿Que porcentaje de plantas tienen solo 3 hojas atacadas?
c) ¿Cuantas plantas tienen como maximo 3 hojas atacadas?
d) ¿Cuantas plantas tienen como mınimo 6 hojas atacadas?
Grado en Estadıstica y Empresa 12
Ejemplo 2.3 (continuacion)
Hojas atacadas ni fi Ni Fi
0 6 0,12 6 0,12
1 10 0,20 16 0,32
2 12 0,24 28 0,56
3 8 0,16 36 0,72
4 5 0,10 41 0,82
5 4 0,08 45 0,90
6 3 0,06 48 0,96
8 1 0,02 49 0,98
10 1 0,02 50 1
e) ¿Que porcentaje de plantas tienen entre 3 y 5 hojas atacadas?
f) ¿Que porcentaje de plantas tienen al menos 8 hojas atacadas?
g) ¿Que porcentaje de plantas tienen a lo sumo 2 hojas atacadas?
Grado en Estadıstica y Empresa 13
2.2 Ordenacion agrupada de los datos.
Si X es continua o bien discreta con muchos valores diferentes,
resulta conveniente agrupar la muestra en intervalos, que se
denominan intervalos de clase.
Para poder calcular las medidas numericas (que veremos mas
adelante), se toma como representante del intervalo a su punto
medio, que se denomina marca de clase.
Grado en Estadıstica y Empresa 14
Tabla de frecuencias con intervalos de clase (ordenacion agrupada de
los datos)
Intervalo Marca de clase: xi ni fi Ni Fi
[l0, l1) x1 = (l0 + l1)/2 n1 f1 N1 F1
[l1, l2) x2 = (l1 + l2)/2 n2 f2 N2 F2
......
......
......
[lk−1, lk] xk = (lk−1 + lk)/2 nk fk Nk = n Fk = 1
Total n 1
La magnitud Li = li − li−1 se denomina longitud o amplitud del
intervalo [li−1, li).
Grado en Estadıstica y Empresa 15
En las tablas de frecuencias con intervalos de clase hay una perdida
de informacion, puesto que hay valores diferentes que van a parar
dentro de un mismo intervalo y, por tanto, seran tratados como
iguales.
Se have necesario escoger unos intervalos lo suficientemente pequenos,
de manera que la informacion que se pierda sea mınima, pero a la vez
lo suficientemente grandes, de manera que el numero de intervalos no
sea desmesuradamente grande y haga incomodo su manejo.
Como referencia, tomaremos uno de los siguientes valores
aproximados:
Num. intervalos = k ≈⎧⎨⎩
√n, si n no es muy grande,
1 + 3.22 log(n), en otro caso.
Grado en Estadıstica y Empresa 16
Ejemplo:
Si el numero de observaciones que tenemos es n = 100, un buen
criterio es agrupar las observaciones en k =√100 = 10 intervalos.
Sin embargo si tenemos n = 1000000 sera mas razonable elegir
k = 1 + 3.22 log(106) ≈ 20 intervalos, ya que k =√106 = 1000 no es
un numero comodo de intervalos para trabajar.
Grado en Estadıstica y Empresa 17
Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han
contado el numero de asientos vacıos en cada vuelo. Se han agrupado
los datos en intervalos de longitud 4.
asientos vacıos ni
0− 3 9
4− 7 5
8− 11 4
12− 16 2
a) ¿De que tipo es la variable estudiada? Construir la tabla de
frecuencias correspondiente.
Grado en Estadıstica y Empresa 18
Ejemplo 2.4 (continuacion)
intervalos xi ni fi Ni Fi
[0, 4) 2 9 0,45 9 0,45
[4, 8) 6 5 0,25 14 0,70
[8, 12) 10 4 0,20 18 0,90
[12, 16] 14 2 0,10 20 1,00
Total 20 1
b) ¿En cuantos vuelos hay menos de 8 asientos vacıos? ¿Que
porcentaje representan?
c) ¿En cuantos vuelos hay como mınimo 10 asientos vacıos? ¿Que
porcentaje representan?
Grado en Estadıstica y Empresa 19
2.3 Representaciones graficas
Figure 1: Diagrama de barras y polıgono de frecuencias. Datos del
ejemplo 2.3 (X =“numero de hojas atacadas por planta” sobre una
muestra de n = 50 plantas de interior).
0 1 2 3 4 5 6 7 8 9 10
2
4
6
8
10
12 polıgono de frecuencias
diagrama de barras
Grado en Estadıstica y Empresa 20
Figure 2: Diagrama de sectores. Datos del ejemplo 2.1 (X =“grupo
sanguıneo de un individuo” sobre una muestra de n = 40 individuos).
30%
28%
20%
23%
ABABO
Grado en Estadıstica y Empresa 21
Figure 3: Grafico de Pareto. Datos del ejemplo 2.2 (X =“satisfaccion
en el trabajo” sobre una muestra de n = 901 individuos).
muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho0
100
200
300
400
500
600
700
800
900
0%
11%
22%
33%
44%
55%
67%
78%
89%
100%
Grado en Estadıstica y Empresa 22
Figure 4: Histograma y polıgono de frecuencias. Datos del ejemplo 2.4
(X =“numero de asientos vacıos” en una muestra de n = 20 vuelos de
BCN-MAD).
0 4 8 12 16
0.5
1
1.5
2
2.5
polıgono de frecuencias
histograma
Grado en Estadıstica y Empresa 23
Ejemplo 2.5 Los datos siguientes corresponden a ciertas longitudes
(en cm). Construir un diagrama de tallo y hojas.
11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206,
12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698.
Datos redondeados y expresados en mm:
114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134,
147.
Diagrama de tallo y hojas (datos en mm):
tallo
⎧⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎩
11 34412 2457713 34514 2715 216 117 2
⎫⎪⎪⎪⎪⎪⎪⎪⎬⎪⎪⎪⎪⎪⎪⎪⎭
hojas
Grado en Estadıstica y Empresa 24
Ejercicio 2.2 Clasificadas las provincias espanolas por su numero de
habitantes en 2001, se obtuvieron los siguientes datos:
Num. habitantes Num. provincias
de 1 a 100 000 3
de 100 000 a 250 000 8
de 250 000 a 500 000 13
de 500 000 a 750 000 10
de 750 000 a 1 000 000 7
de 1 000 000 a 2 000 000 8
de 2 000 000 a 3 000 000 1
de 3 000 000 a 4 000 000 0
de 4 000 000 a 6 000 000 2
a) Constuir una tabla estadıstica con las marcas de clase, las
frecuencias absolutas y las frecuencias relativas.
Grado en Estadıstica y Empresa 25
Ejercicio 2.2 (continuacion)
intervalos xi ni fi Ni Fi ni/Li
[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5
[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5
[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5
[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5
b) ¿Cuantas provincias tienen menos de 500 000 habitantes? ¿Que
porcentaje representan?
c) ¿Cuantas provincias tienen entre 800 000 y 1 300 000 habitantes?
d) Construir el histograma de frecuencias absolutas.
Grado en Estadıstica y Empresa 26
Ejercicio 2.2 (continuacion)
Figure 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2.
0 1 2 3 4 5 6millones de habitantes
10−5
2 · 10−5
3 · 10−5
4 · 10−5
5 · 10−5
Grado en Estadıstica y Empresa 27
2.4 Caracterısticas numericas de una distribucion
univariante
Supondremos que:
x1 < x2 < . . . < xk son los k valores de X en la muestra (ordenacion
simple de los datos), o bien
x1 < x2 < . . . < xk son las marcas de clase de k intervalos construidos
sobre la muestra de X (ordenacion agrupada de los datos).
Las caracterısticas numericas de una distribucion de se clasifican en:
• Medidas de tendencia central
• Medidas de posicion
• Medidas de dispersion (o de variabilidad)
• Medidas de forma (asimetrıa y curtosis)
Grado en Estadıstica y Empresa 28
2.4.1 Medidas de tendencia central
Dan informacion sobre el “centro” de la distribucion. Las mas
utilizadas son:
La media aritmetica ,x, indica el punto medio de la muestra. Se
calcula:
x =1
n
k∑i=1
xi ni.
Proposicion 2.1 La suma de las diferencias de la variable con
respecto de la media es nula, es decir,
k∑i=1
(xi − x)ni = 0.
(Demostracion)
Grado en Estadıstica y Empresa 29
Proposicion 2.2 (Linealidad de la media) Si Y = a+ bX,
a, b ∈ R, b �= 0, entonces la correspondiente media de Y es
y = a+ b x,
es decir el operador media es una funcion lineal.
(Demostracion)
Inconvenientes de la media.
1. Es muy sensible a valores extremos de la variable: todas las
observaciones intervienen en el calculo de la media, de manera
que la presencia de una observacion extrema hara que la media se
desplace en esa direccion.
2. No es recomendable utilizarla en distribuciones con fuerte
asimetrıa.
Grado en Estadıstica y Empresa 30
La media artimetica ponderada, xP :
En determinadas distribuciones estadısticas no todos los valores de la
variable tienen la misma influencia, y, por ello, a cada valor se le
asigna un coeficiente diferenciador, llamado peso.
Si x1, x2, . . . , xk son los distintos valores X en la muestra y
p1, p2, . . . , pk son los pesos correspondientes, entonces:
xP =
∑ki=1 xi pi∑ki=1 pi
Observacion 2 La media aritmetica x es un caso particular de
media ponderada, donde los pesos pi = ni.
Grado en Estadıstica y Empresa 31
Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depositos
con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde
un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cual
es el tipo de interes medio que recibe?
La variable de estudio es el interes anual. Los valores que toma esta
variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El
interes medio es
xP =5 · 2000 + 4 · 5000 + 2 · 10000
2000 + 5000 + 10000=
50000
17000= 2.94%.
Grado en Estadıstica y Empresa 32
Ejercicio 2.3 Una empresa esta interesada en seleccionar entre dos
candidatos para un puesto de trabajo. Las valoraciones que han obtenido
estos candidatos en las entrevistas y pruebas a que han sido sometidos son
las siguientes:
Aspecto Candidato A Candidato B
experiencia 8 7
conocimientos 6 7
psicontecnico 4 5
Si la empresa da una importancia del 60% a la experiencia, del 25% a los
conocimientos y del 15% a la habilidad psicotecnica, ¿cual de los dos
candidatos va a escoger?
Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y
15, respectivamente para cada categorıa. El candidato que obtenga una
media poderada mayor sera el candidato escogido.
xP (A) =8 · 60 + 6 · 25 + 4 · 15
100= 6.9, xP (B) =
7 · 60 + 7 · 25 + 5 · 15100
= 6.7
Grado en Estadıstica y Empresa 33
La media geometrica, xG, proporciona una medida precisa de un
cambio porcentual medio en una serie de numeros. Se calcula como:
xG = (xn11 xn2
2 . . . xnk
k )1/n
Se recomienda su uso cuando se tienen porcentajes, tasas o numeros
ındice; es decir, cuando una variable presenta variaciones
acumulativas.
Observacion 3 Tomando logaritmos:
log(xG) =1
nlog(xn1
1 xn22 . . . xnk
k ) =1
n
k∑i=1
log(xni
i ) =1
n
k∑i=1
ni log(xi).
Grado en Estadıstica y Empresa 34
La mediana, Me, es aquel valor que divide a la muestra en dos
partes iguales, de manera que el 50% de las observaciones quedan por
debajo de la mediana y el otro 50% por encima de ella.
Calculo de la mediana:
a) Ordenacion simple de los datos:
Me =
⎧⎨⎩
12 (x(n
2 ) + x(n
2 +1)), si n es par,
x(n+12 ), si n es impar,
donde x(j) indica el dato que ocupa la posicion j-esima en la
muestra ordenada.
Grado en Estadıstica y Empresa 35
b) Ordenacion agrupada de los datos:
En la tabla de frecuencias identificamos al intervalo mediano
como aquel que contiene al individuo que ocupa la posicion n/2,
es decir, x(n/2). Para ello nos ayudaremos de la columna de las
frecuencias absolutas acumuladas (la de las Ni).
Si [li−1, li) es el intervalo mediano, entonces:
Me = li−1 + (li − li−1)︸ ︷︷ ︸Li
· (n/2−Ni−1)
Ni −Ni−1.
Grado en Estadıstica y Empresa 36
Propiedades e inconvenientes de la mediana:
1. La mediana no se ve alterada por la presencia de valores
extremos, puesto que no depende de los valores que toma la
variable, sino del orden de los mismos. Por ello es adecuado su
uso en distribuciones asimetricas.
2. El mayor defecto de la mediana es que tiene unas propiedades
matematicas complicadas, lo que hace que sea muy difıcil de
utilizar en Inferencia Estadıstica.
Ejemplo 2.7 Calcular la mediana de los conjuntos de datos
siguientes:
a) 18, 18, 19, 17, 23, 20, 21, 18b) 20, 21, 18, 19, 18, 17, 18
Grado en Estadıstica y Empresa 37
La moda, Mo, se define de forma distinta segun si los datos se
encuentran o no agrupados en intervalos de clase.
En la ordenacion simple de los datos, la moda se define como el
valor que presenta una mayor frecuencia absoluta (o relativa).
En la ordenacion agrupada de los datos, la moda se situa dentro del
intervalo modal, que es el intervalo con mayor altura en el
histograma de frecuencias absolutas (o relativas), es decir, con mayor
ni/Li (o fi/Li). (Deberemos prestar especial atencion si los
intervalos no tienen la misma amplitud).
Si [li−1, li) es el intervalo modal, entonces:
Mo = li−1 + Lini+1/Li+1
ni−1/Li−1 + ni+1/Li+1.
Grado en Estadıstica y Empresa 38
Observacion 4 La moda puede ser no unica, es decir, en una
misma muestra puede haber dos valores con la misma frecuencia (o
dos intervalos que con la misma altura en el histograma de
frecuencias). En ambos casos, la distribucion tendra dos modas y se
denominara bimodal.
Si la distribucion tiene tres modas, se denomina trimodal.
Aunque, a veces, cuando hay mas de dos modas se dice que la
distribucion no tiene moda.
Observacion 5 Esta medida de tendencia central es la menos
utilizada para variables cuantitativas, pero en cambio, es una de las
pocas que pueden calcularse para variables cualitativas.
Ejemplo 2.8 Con los datos del ejemplo 2.7, calcular la moda.
Grado en Estadıstica y Empresa 39
Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las
provincias espanolas) calcular la media aritmetica, la mediana y la
moda.
intervalos xi ni fi Ni Fi ni/Li
[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5
[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5
[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5
[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5
total 52 1
k = 9 intervalos, x =1
n
k∑i=1
xi ni =43050000
52= 827884.62,
Grado en Estadıstica y Empresa 40
Ejemplo 2.8 (continuacion)
intervalos xi ni fi Ni Fi ni/Li
[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5
[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5
[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5
[500000,750000) 600000 10 0.192 34 0.654 4 · 10−5
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5
total 52 1
n/2 = 26 ⇒ Me = 500000 + 250000 · 26− 24
34− 24= 550000,
esto significa que el 50% de las provincias espanolas tienen menos
de 550000 habitantes.
Grado en Estadıstica y Empresa 41
Ejemplo 2.8 (continuacion)intervalos xi ni fi Ni Fi ni/Li
[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5
[100000,250000) 175000 8 0.154 11 0.212 5.3 · 10−5
[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5
[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5
total 52 1
Mo = 100000 + 1500005.2 · 10−5
3 · 10−5 + 5.2 · 10−5= 195121.95,
esto significa que el numero de habitantes mas frecuente en las
provincias espanolas es de 195122 hab. aproximadamente.
Grado en Estadıstica y Empresa 42
2.4.2 Medidas de posicion
El objectivo comun de estas medidas es dividir el total de
observaciones en p partes iguales e informar del porcentaje de datos
que hay por encima y por debajo de los valores que separan cada una
de las partes.
Las mas utilizadas son:
Cuartiles: Se denomina cuartil k-esimo (k = 1, 2, 3) al numero Qk
que deja k cuartas partes de la muestra por debajo de el y 4− k
cuartes partes por encima.
Percentiles: Se denomina percentil k-esimo (k = 1, 2, . . . , 99) al
numero Pk que deja k centesimas partes de la muestra por debajo de
el y 100− k centesimas partes por encima.
Observacion 6 P25 = Q1, P50 = Q2 = Me, P75 = Q3.
Grado en Estadıstica y Empresa 43
Para calcular los cuartiles y percentiles utilizaremos el mismo
algoritmo de calculo que para la mediana, pero en lugar de buscar
n/2 habra que buscar k n/4 para Qk y k n/100 para Pk.
Ejercicio 2.4 Con los datos del ejercicio 2.2 (habitantes de las
provincias espanolas) calcular los cuartiles primero y tercero y el
percentil 80.
Grado en Estadıstica y Empresa 44
Ejercicio 2.4 (continuacion)
Para calcular Q1 buscamos en que intervalo esta el individuo que ocupa la
posicion n/4 = 52/4 = 13. Para calcular Q3 buscamos en que intervalo esta
el individuo que ocupa la posicion 3n/4 = 39. Para calcular P80 buscamos
en que intervalo esta el individuo que ocupa la posicion
80n/100 = 41.6 ≈ 42.
intervalos xi ni fi Ni Fi ni/Li
[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5
[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5
[250000,500000) 375000 13 0.250 24 0.462 5.2 · 10−5
[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5
[750000,1000000) 875000 7 0.135 41 0.789 2.8 · 10−5
[1000000,2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5
total 52 1
Grado en Estadıstica y Empresa 45
Diagrama de caja
Es un diagrama muy util que permite hacerse una idea de la
dispersion y la simetrıa de la distribucion. Sea RI = Q3 −Q1.
+
1.5RI RI 1.5RI3RI 3RI
Q1 Me Q3
Grado en Estadıstica y Empresa 46
Comparacion entre media y mediana: robustez.
Un rasgo que diferencia a media y mediana es su comportamiento
frente a datos atıpicos.
Consideremos las observaciones siguientes
1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2,8.3, 9.3,
que dan lugar a una media de x = 5.3 y una mediana de Me = 5.6.
Supongamos que, por un error de transcripcion, la observacion 8.3 se
registra como 83, es decir que el conjunto de datos ordenado queda
como
1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 9.3,83.
Esta nueva coleccion de observaciones contiene un dato atıpico
extremo, que es 83. A pesar de ello, la mediana sigue siendo
Me = 5.6, mientras que la media ahora vale x = 12.8.
Grado en Estadıstica y Empresa 47
Media y mediana frente a datos atıpicos
x Me
xMe
La resistencia o estabilidad de la mediana frente a la existencia de datos
atıpicos es un fenomeno que, en general, recibe el nombre de robustez.
Las medidas basadas en el orden, como la mediana, los cuartiles, el rango
intercuartılico o la MEDA, gozan de esta propiedad y se dice que son
robustas. Por otra parte, cantidades basadas en la suma, como la media o
la desviacion tıpica, se ven mas afectadas por las observaciones
atıpicas y son, por tanto, poco robustas.
Grado en Estadıstica y Empresa 48
simetrıa asimetrıa a la derecha asimetrıa a la izquierda
−3 −2 −1 0 1 2 30
50
100
150
200
250
300
350
400
450
−0.2 0 0.2 0.4 0.6 0.8 1 1.20
50
100
150
200
250
300
−0.2 0 0.2 0.4 0.6 0.8 1 1.20
50
100
150
200
250
300
x = Me x > Me x < Me
En una distribucion simetrica, media y mediana coinciden.
En una distribucion asimetrica a la derecha, la media (al ser sensible a los
datos atıpicos a la derecha del histograma) es mayor que la mediana.
En una distribucion asimetrica a la izquierda, la media (al ser sensible a los
datos atıpicos a la izquierda del histograma) es menor que la mediana.
Grado en Estadıstica y Empresa 49
2.4.3 Medidas de dispersion o de variabilidad
Informan sobre la concentracion de los datos respecto de alguna de
las caracterısticas de tendencia central. Las mas utilizadas son:
El rango (tambien llamado recorrido o amplitud) es la diferencia
entre el valor maximo y el valor mınimo, es decir,
R = xmax − xmin.
Inconvenientes del rango:
1. No utiliza todas las observaciones (solo dos de ellas).
2. Puede quedar muy afectado por alguna observacion extrema.
3. Al aumentar el numero de observaciones en la muestra, el rango
nunca disminuye (o se queda igual o aumenta).
Grado en Estadıstica y Empresa 50
El rango intercuartılico:
RI = Q3 −Q1.
Indica la dispersion del 50% central de los datos de la muestra
(amplitud de la caja del box-plot). Se recomienda su uso cuando hay
presencia de observaciones atıpicas (outliers).
La desviacion media:
Dm =1
n
k∑i=1
|xi − x|ni.
Mide cuanto se alejan (en promedio) los valores de X de la media
aritmetica. La desviacion media guarda las mismas dimensiones que
las observaciones, pero no suele utilizarse en inferencia estadıstica
puesto que el valor absoluto tiene malas propiedades matematicas.
Grado en Estadıstica y Empresa 51
La varianza muestral:
s2n =1
n
k∑i=1
(xi − x)2 ni.
Mide cuanto se aleja (en promedio) cada valor de X de la media
aritmetica, pero en unidades cuadraticas. A veces, se utiliza la
formula equivalente:
s2n =1
n
k∑i=1
x2i ni
︸ ︷︷ ︸x2
−x2 = x2 − x2
La varianza no guarda la misma dimension que las observaciones,
pero sı su raız cuadrada, sn =√
s2n, que se denomina desviacion
tıpica muestral (o desviacion estandar).
Grado en Estadıstica y Empresa 52
Proposicion 2.3 Si Y = aX + b, con a, b ∈ R, a > 0, entonces:
s2n(Y ) = a2 s2n(X).
(Demostracion)
Este resultado dice que si las observaciones de la muestra sufren un
traslado de una cantidad b, la dispersion de la muestra no aumenta.
Mientras que si estas mismas observaciones sufren un cambio de
escala de factor a entonces la dispersion de la muestra alrededor de la
media sera menor si a < 1 o bien sera mayor si a > 1.
Grado en Estadıstica y Empresa 53
Propiedades e inconvenientes de la varianza y la desviacion
estandar:
1. La desviacion estandar tiene la propiedad de que el intervalo
(x− 2 sn, x+ 2 sn)
contiene por lo menos al 75% de la muestra (teorema de
Chebychev). Mas aun, si el tamano muestral es grande y puede
suponerse que la muestra sigue una distribucion normal, el
intervalo puede contener al 95% de la muestra.
2. Ambas son sensibles a cambios de escala en las observaciones
(cambios en las unidades de medida).
3. No es recomendable el uso de ellas cuando tampoco lo sea el de
la media como medida de tendencia central. Por ejemplo, si hay
datos atıpicos.
Grado en Estadıstica y Empresa 54
La cuasivarianza muestral (o varianza muestral corregida) se
utiliza mucho en inferencia estadıstica y se define como:
s2n−1 =1
n− 1
k∑i=1
(xi − x)2 ni.
La formula siguiente permite relacionar la varianza y la cuasivarianza:
n s2n = (n− 1) s2n−1.
Analogamente, se define la cuasidesviacion tıpica muestral como
la raız cuadrada de la varianza muestral corregida, es decir,
sn−1 =√
s2n−1.
Observacion 7 El programa Statgraphics llama variance y standard
deviation a la cuasivarianza y cuasidesviacion, respectivamente.
Grado en Estadıstica y Empresa 55
La mediana de las desviaciones absolutas, MEDA, es una
medida de la variabilidad de la muestra alrededor de la mediana y se
define como:
MEDA = Me (|x1 −Me(X)|, |x2 −Me(X)|, . . . , |xk −Me(X)|) .
Es una medida robusta.
Ejemplo 2.9 Calcular la MEDA para el conjunto de datos 17, 18,
18, 18, 19, 20, 21.
Indicaciones: Primero obtener la mediana de la muestra. Despues
obtener las diferencias (en valor absoluto) entre las observaciones y la
mediana. Finalmente, la MEDA sera la mediana de estas diferencias.
Grado en Estadıstica y Empresa 56
El coeficiente de variacion de Pearson permite comparar las
variabilidades de dos o mas conjuntos de datos, ya sean variables
distintas medidas sobre el mismo conjunto de individuos o bien, una
sola variable medida sobre distintos conjuntos de individuos. Se
define como:
CV = sn/x.
Observacion 8 No es invariante frente a traslaciones (cambios de
origen). Es decir, si Y = X + b, b > 0 entonces CV (Y ) < CV (X):
CV (Y ) =sn(Y )
y=
sn(X)
x+ b<
sn(X)
x= CV (X).
Observacion 9 Es invariante frente a cambios de escala. Si
Y = aX, a > 0, entonces, CV (Y ) = CV (X).
CV (Y ) =sn(Y )
y=
a sn(X)
a x= CV (X).
Grado en Estadıstica y Empresa 57
Ejercicio 2.8 De los ocho empleados de una oficina, se han
considerado las distribuciones de sus edades y sus anos de antiguedad
en la empresa:
Edad 40 22 19 30 62 32 45 51
Antiguedad 15 3 1 8 39 13 17 24
Calcular lor rangos de estas dos distribuciones. ¿Cual de las dos
tiene mayor grado de dispresion?
Grado en Estadıstica y Empresa 58
Ejercicio 2.8 (continuacion)
Edad 40 22 19 30 62 32 45 51
Antiguedad 15 3 1 8 39 13 17 24
Llamamos X a la variable “edad” e Y a la variable “antiguedad”.
R(X) = 62− 19 = 43, R(Y ) = 39− 1 = 38.
¿Podemos afirmar que X tiene mayor dispersion que Y ?
Grado en Estadıstica y Empresa 59
Ejercicio 2.8 (continuacion)
Aunque R(X) > R(Y ), esto no significa que el grado de dispersion de
X sea mayor que el de Y .
Para decidir que variable tiene un mayor grado de dispersion
debemos calcular el coeficiente de variacion.
Para la variable edad es:
x =1
n
n∑i=1
xi =301
8= 37.6,
s2n(X) = x2 − x2 =12839
8− (37.6)2 = 189.23,
sn(X) =√189.23 = 13.8,
CV (X) =sn(X)
x× 100 =
13.8
37.6× 100 = 36.7%.
Grado en Estadıstica y Empresa 60
Ejercicio 2.8 (continuacion)
Mientras que para la variable antiguedad:
y =1
n
n∑i=1
yi =120
8= 15,
s2n(Y ) = y2 − y2 =2854
8− (15)2 = 131.75,
sn(Y ) =√131.75 = 11.48,
CV (Y ) =sn(Y )
y× 100 =
11.48
15× 100 = 76.5%.
Por tanto, puesto que CV (Y ) = 76.5% > CV (X) = 36.7%, la
variable Y (antiguedad) tiene una mayor dispresion, a pesar de que
su rango es menor.
Grado en Estadıstica y Empresa 61
2.4.4 Medidas de forma: asimetrıa y apuntamiento
Se dice que una distribucion de datos es simetrica cuando lo es su
representacion grafica, mientras que si la representacion grafica esta
desplazada hacia la izquierda o hacia la derecha se dice que es
asimetrica.
Si el desplazamiento es hacia la derecha, se dice que la distribucion
tiene asimetrıa positiva, y asimetrıa negativa si el
desplazamiento es hacia la izquierda.
El coeficiente de asimetrıa de Fisher permite medir la asimetrıa
de la muestra:
AsF =1n
∑ki=1(xi − x)3 ni
s3n.
AsF > 0 ⇒ asimetrıa positiva; AsF < 0 ⇒ asimetrıa negativa.
Observacion 10 Statgraphics denomina skewness a este coeficiente.
Grado en Estadıstica y Empresa 62
Figure 6: (a) Simetrıa, (b) Asimetrıa positiva y (c) Asimetrıa negativa.
−3 −2 −1 0 1 2 30
50
100
150
200
250
300
350
400
450
−0.2 0 0.2 0.4 0.6 0.8 1 1.20
50
100
150
200
250
300
−0.2 0 0.2 0.4 0.6 0.8 1 1.20
50
100
150
200
250
300
(a) AsF = 0 (b) AsF > 0 (c) AsF < 0
Grado en Estadıstica y Empresa 63
Las medidas de apuntamiento, o curtosis, tratan de valorar la
estilizacion de la representacion grafica de una distribucion de datos.
Solo tienen sentido en el caso de distribucions acampanadas con
simetrıa o ligera asimetrıa.
Se define el coeficiente de apuntamiento o de curtosis:
Ap =1n
∑ki=1(xi − x)4 ni
s4n.
Ap ≈ 3 ⇒ distribucion normal (mesocurtica),
Ap > 3 ⇒ distribucion apuntada (leptocurtica),
Ap < 3 ⇒ distribucion plana (platicurtica).
Observacion 11 Statgraphics calcula el coeficiente de apuntamiento de
Fisher, Ap− 3, al que denomina kurtosis. De manera que: si Ap− 3 ≈ 0 ⇒distribucion normal (mesocurtica), si Ap− 3 > 0 ⇒ distribucion apuntada
(leptocurtica), si Ap− 3 < 0 ⇒ distribucion plana (platicurtica).
Grado en Estadıstica y Empresa 64
Figure 7: (a) Mesocurtica, (b) Leptocurtica y (c) Platicurtica.
−6 −4 −2 0 2 4 60
100
200
300
400
500
600
700
800
900
1000
−6 −4 −2 0 2 4 60
100
200
300
400
500
600
700
800
900
1000
−6 −4 −2 0 2 4 60
100
200
300
400
500
600
700
800
900
1000
(a) Ap = 3 (b) Ap > 3 (c) Ap < 3
Grado en Estadıstica y Empresa 65
Ejemplo 2.10 Con los datos del ejemplo 2.3 calcular la media
aritmetica, la mediana y la moda, el primer y tercer cuartiles, el
percentil 95%, la varianza y desviacion tıpica muestrales, el rango, el
rango intercuartılico y la MEDA.
hojas atacadas ni Ni xi ni
0 6 6 0
1 10 16 10
2 12 28 24
3 8 36 24
4 5 41 20
5 4 45 20
6 3 48 18
8 1 49 8
10 1 50 10
Total 50 134
Medidas de tendencia central:
x = 13450 = 2.68,
Me =x(25)+x(26)
2 = 2,
Mo = 2.
¿Que deducimos de la posicion
relativa entre media y mediana?
Grado en Estadıstica y Empresa 66
Ejemplo 2.10 (continuacion):
Observemos que Me < x, por tanto, esto debe advertirnos que la
distribucion tiene asimetrıa positiva, tal como indican el diagrama de
barras y el polıgono de frecuencias:
0 1 2 3 4 5 6 7 8 9 10
2
4
6
8
10
12 polıgono de frecuencias
diagrama de barras
Grado en Estadıstica y Empresa 67
Ejemplo 2.10 (continuacion):
hojas atacadas ni Ni
0 6 6
1 10 16
2 12 28
3 8 36
4 5 41
5 4 45
6 3 48
8 1 49
10 1 50
Total 50
Medidas de posicion:
n/4 = 12.5 ⇒ Q1 = 1,
3n/4 = 37.5 ⇒ Q3 = 4,
95n/100 = 47.5 ⇒ P95 = 6.
¿Que significa que P95 = 6?
¿Que intervalo contiene el
50% central de la muestra?
Grado en Estadıstica y Empresa 68
Ejemplo 2.10 (continuacion):
hojas atacadas ni Ni xi ni x2i ni
0 6 6 0 0
1 10 16 10 10
2 12 28 24 48
3 8 36 24 72
4 5 41 20 80
5 4 45 20 100
6 3 48 18 108
8 1 49 8 64
10 1 50 10 100
Total 50 134 582
Medidas de dispersion:
s2n = 582/50− 2.682 = 4.46,
sn =√4.46 = 2.11,
R = 10− 0 = 10,
RI = 4− 1 = 3.
¿Que significa que sn = 2.11?
Grado en Estadıstica y Empresa 69
Ejemplo 2.10 (continuacion):
¿Cuanto vale la MEDA? Recordemos que Me = 2.
xi xi −Me(X) ni
0 -2 6
1 -1 10
2 0 12
3 1 8
4 2 5
5 3 4
6 4 3
8 6 1
10 8 1
yi = |xi −Me(X)| ni Ni
0 12 12
1 18 30
2 11 41
3 4 45
4 3 48
6 1 49
8 1 50
Total 50
n = 50 ⇒ MEDA =y(25) + y(26)
2= 1.
Grado en Estadıstica y Empresa 70
Ejemplo 2.11 Con los datos del ejemplo 2.4 calcular la media
aritmetica, la mediana y la moda, el primer y tercer cuartiles, el
percentil 30%, la varianza y desviacion tıpica muestrales, el rango y
el rango intercuartılico.
intervalo xi ni Ni ni/Li xi ni
[0, 4) 2 9 9 9/4 18
[4, 8) 6 5 14 5/4 30
[8, 12) 10 4 18 4/4 40
[12, 16] 14 2 20 2/4 28
Total 20 116
Medidas de tendencia central:
x = 11620 = 5.8,
Intervalo mediano: [4, 8),
Me = 4 + (8− 4) 10−914−9 = 4.8,
Intervalo modal: [0, 4),
Mo = 0 + (4− 0) 5/40+5/4 = 4.
¿Que significa Mo=4?
¿Que tipo de asimetrıa presenta esta muestra de datos?
Grado en Estadıstica y Empresa 71
Ejemplo 2.11 (continuacion):
Observemos que Me < x, por tanto, esto debe advertirnos de que la
distribucion tiene asimetrıa positiva, tal como indican el histograma
y el polıgono de frecuencias:
0 4 8 12 16
0.5
1
1.5
2
2.5
polıgono de frecuencias
histograma
Grado en Estadıstica y Empresa 72
Ejemplo 2.11 (continuacion):
intervalo xi ni Ni
[0, 4) 2 9 9
[4, 8) 6 5 14
[8, 12) 10 4 18
[12, 16] 14 2 20
Total 20
Medidas de posicion:
Q1 = 0 + 4(5−0)9−0 = 2.22,
Q3 = 8 + 4(15−14)18−14 = 9,
P30 = 0 + 4(6−0)9−0 = 2.67.
Grado en Estadıstica y Empresa 73
Ejemplo 2.11 (continuacion):
intervalo xi ni Ni xi ni x2i ni
[0, 4) 2 9 9 18 36
[4, 8) 6 5 14 30 180
[8, 12) 10 4 18 40 400
[12, 16] 14 2 20 28 392
Total 20 116 1008
Medidas de dispersion:
s2n = 100820 − 5.82 = 16.76,
sn =√16.76 = 4.09,
R = 16− 0 = 16,
RI = 9− 2.22 = 6.78.
Grado en Estadıstica y Empresa 74
Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en
regimen de alquiler con los siguientes precios (en euors):
precio alquiler (mensual) numero de apartamentos
700-1000 21
1000-1100 27
1100-1300 34
1300-1500 14
1500-1800 8
1800-2000 11
2000-2100 10
a) Obtener el alquiler medio por apartamento, el precio mas
frecuente y el precio que se situa en medio de la oferta.
Grado en Estadıstica y Empresa 75
Ejercicio 2.9 (continuacion):
[li−1, li) xi ni Ni fi xi ni ni/Li
[700, 1000) 850 21 21 0.168 17850 0.07
[1000, 1100) 1050 27 48 0.216 28350 0.27
[1100, 1300) 1200 34 82 0.272 40800 0.17
[1300, 1500) 1400 14 96 0.112 19600 0.07
[1500, 1800) 1650 8 104 0.064 13200 0.027
[1800, 2000) 1900 11 115 0.088 20900 0.055
[2000, 2100] 2050 10 125 0.08 20500 0.1
Total 125 1 161200
¿Cual es el intervalo modal? ¿Y el intervalo mediano?
El alquiler medio por apartamento es ...
El precio mas frecuente es ...
El precio que se situa en medio de la oferta es ...
Grado en Estadıstica y Empresa 76
Ejercicio 2.9 (continuacion):
b) Si una persona esta dispuesta a gastarse en alquiler entre 1250 y
1350 euros al mes, a que porcentaje de apartamentos tiene
opcion?
c) Por debajo de que precio estan el 80% de los apartamentos?
d) Entre que precios estan el 50% central de los apartamentos?
Soluciones: a) 1289.6 euros/mes, 1070.83 euros/mes, 1185.29
euros/mes; b) 9.6%; c) 1650 euros/mes; d) entre 1037.96 y 1467.86
euros/mes
Grado en Estadıstica y Empresa 77
3 Transformaciones
Transformar un conjunto de observaciones de una variable
cuantitativa consiste en modificar cada una de ellas mediante una
misma operacion matematica, obteniendo ası el conjunto de datos
transformados.
La transformacion de datos se realiza con el fin de obtener una nueva
variable cuya distribucion sea mas simple y con mejores propiedades
(simetrıa, media igual a cero, desviacion tıpica igual a uno, . . .) que
la variable original.
Grado en Estadıstica y Empresa 78
3.1 Transformaciones lineales
Es la forma mas sencilla de transformar datos.
Si X es la variable original y a, b ∈ R, entonces Y = a+ bX es una
transformacion lineal de X.
Propiedades: Si x, s2n(X), Me(X) y MEDA(X) son la media, la
varianza, la mediana y la MEDA de X, respectivamente, entonces:
1. La media y varianza de Y son: y = a+ b x, s2n(Y ) = b2 s2n(X),
2. La mediana y MEDA de Y son: Me(Y ) = a+ bMe(X),
MEDA(Y ) = |b|MEDA(X).
Una situacion habitual donde se utilizan las transformaciones lineales
es cuando se hace un cambio de unidades de medida. Por ejemplo
pasar de habitantes a miles de habitantes, de dolares a euros, . . .
Grado en Estadıstica y Empresa 79
Un caso particular de transformacion lineal es la tipificacion de
una variable. La variable tipificada de X es
Z =X − x
sn(X)=
1
sn(X)X − x
sn(X),
que equivale a decir que Z es una transformacion lineal de X, con
a = −x/sn(X) y b = 1/sn(X).
Proposicion 3.1 Toda variable tipificada tiene media cero y
varianza unidad.
La variable tipificada expresa el numero de desviaciones estandar que
cada observacion dista de la media. Se utiliza para comparar la
posicion relativa de un mismo individuo respecto de distintas
distribuciones de datos o bien, para comparar la posicion relativa de
individuos distintos dentro de la misma distribucion de datos.
Grado en Estadıstica y Empresa 80
A pesar de las buenas propiedades de las transformaciones lineales,
estas no son suficientes para modificar rasgos mas complejos de una
distribucion de datos, como por ejemplo la asimetrıa. Para ello seran
necesarias las transformaciones no lineales.
3.2 Transformaciones no lineales.
Como regla general, se trata de escoger una transformacion que
conduzca a una distribucion simetrica y mas cercana a la distribucion
normal. De este modo, se podran aplicar numerosas tecnicas de
inferencia estadıstica.
En una distribucion simetrica unimodal, la media, la moda y la
mediana coinciden; ademas el coeficiente de asimetrıa es cero (ası
como todos los momentos de orden impar).
Grado en Estadıstica y Empresa 81
Correccion de la asimetrıa negativa: Cuando se tienen
distribuciones de frecuencias con asimetrıa negativa (frecuencias altas
hacia el lado derecho de la distribucion), es conveniente aplicar la
transformacion xk, k ∈ N, k ≥ 2. Esta transformacion comprime la
escala para valores pequenos y la expande para valores altos.
Correccion de la asimetrıa positiva: Para distribuciones con
asimetrıa positiva (frecuencias altas hacia el lado izquierdo de la
distribucion) se usan las transformaciones√x, log x, 1/x, que
comprimen los valores altos y expanden los pequenos. El efecto de
estas transformaciones esta en orden creciente: menos efecto√x, mas
efecto log x y aun mas 1/x.
La transformacion mas utilizada es la logarıtmica. Muchas
distribuciones de datos economicos, o de consumos se convierten en
simetricas al tomar la transformacion logarıtmica.
Grado en Estadıstica y Empresa 82
Las medidas basadas en el orden de los datos, como la mediana o los
cuartiles se mantienen iguales cuando se hace una transformacion
monotona del estilo de las previamente citadas. Por el contrario, el
resto de estadısticos cambia.
Observacion 12 Si en lugar del conjunto de observaciones
originales se tiene solo la distribucion de frecuencias en una tabla con
ordenacion agrupada, se puede realizar la transformacion modificando
los extremos de las clases mediante la funcion elegida. En general,
esto hace que cambien las longitudes de los intervalos de
clase. Por tanto, si a continuacion se dibuja el histograma con las
nuevas clases, habra que recalcular las alturas de cada intervalo.
Grado en Estadıstica y Empresa 83
Ejemplo 3.1 El numero de dıas que 9 trabajadores escogidos al azar
de una empresa han estado de baja son los siguientes:
15 7 8 85 19 12 8 22 14
a) Representa este conjunto de datos mediante un diagrama de caja
(box-plot). ¿Se detecta algun valor atıpico?
b) ¿Que se puede decir de la simetrıa de estos datos?
c) ¿Que transformaciones conoces que creas que pueden ser utiles
para simetrizar estos datos?
Grado en Estadıstica y Empresa 84
Ejemplo 3.1 (continuacion:)
dias de baja
0 20 40 60 80 100
¿Que se puede decir de la simetrıa de estos datos?
¿Que transformaciones conoces que creas que pueden ser utiles para
simetrizar estos datos?
Grado en Estadıstica y Empresa 85
transformacion X2 transformacion√X
d d di
0 2 4 6 8(X 1000) 2,6 4,6 6,6 8,6 10,6
transformacion log(X) transformacion 1/X
1,9 2,4 2,9 3,4 3,9 4,4 4,9 0 0,03 0,06 0,09 0,12 0,15
Grado en Estadıstica y Empresa 86
Ejemplo 3.2 Se consideran los siguientes datos, correspondientes a
la tasa de incrementos de precios al consumo, en 1985, para 24 paıses
de la OCDE:
2.2 7.6 2.9 4.6 4.1 3.9
7.4 3.2 5.1 5.3 20.1 2.3
5.5 32.7 9.1 1.7 3.2 5.8
16.3 15.9 5.9 6.7 3.4 40.5
Considerar la transformacion logarıtmica y comparar ambas variables.
Grado en Estadıstica y Empresa 87
Ejemplo 3.2 (continuacion)
paıs x y = log(x) paıs x y = log(x)
1 1.7 0.53 13 5.5 1.70
2 2.2 0.79 14 5.8 1.76
3 2.3 0.83 15 5.9 1.77
4 2.9 1.06 16 6.7 1.90
5 3.2 1.16 17 7.4 2.00
6 3.2 1.16 18 7.6 2.03
7 3.4 1.22 19 9.1 2.21
8 3.9 1.36 20 15.9 2.77
9 4.1 1.41 21 16.3 2.79
10 4.6 1.53 22 20.1 3.00
11 5.1 1.63 23 32.7 3.49
12 5.3 1.67 24 40.5 3.70
Grado en Estadıstica y Empresa 88
Ejemplo 3.2 (continuacion)
Figure 8: Histograma de frecuencias absolutas.
0 8.2 16.4 24.6 32.8 41
3
6
9
12
15
18
X
0 0.8 1.6 2.4 3.2 4
2
4
6
8
10
Y = log(X)
X presenta una fuerte asimetrıa positiva: la mayor parte de los paıses
tienen valores por debajo de 10 y, unos pocos, un valor mucho mayor.
Y tiene una distribucion mas simetrica.
Grado en Estadıstica y Empresa 89
Ejemplo 3.2 (continuacion)
medidas numericas X Y = log(X)
media x 8.975 1.812
Q1 3.2 1.16
cuartiles Me = Q2 5.4 1.685
Q3 7.6 2.03
RI = Q3 −Q1 4.4 0.87
1as y 2as Q1 − 1.5RI -3.4 -0.145
barreras Q3 + 1.5RI 14.2 3.335
exteriores Q3 + 3RI 20.8 4.64
mınimo(∗) 1.7 0.53
maximo(∗) 9.1 3.00
(*) el mınimo y el maximo de los datos antes de las primeras barreras exteriores.
Grado en Estadıstica y Empresa 90
Ejemplo 3.2 (continuacion)
Figure 9: Diagramas de caja. En la figura de la izquierda se observa
una fuerte asimetrıa positiva, mientras que en la figura de la derecha
hay una ligera asimetrıa positiva.
+
0 10 20 30 40 50
X
+
0 1 2 3 4
Y = log(X)
Grado en Estadıstica y Empresa 91
Ejercicio 3.1 Dada la distribucion de edades (medidas en anos) en
un colectivo de 100 personas, obtener: la variable tipificada Z, los
valores de la media y varianza de Z, el coeficiente de variacion de Z.
edad 2 7 15 30
frecuencia 47 32 17 4
Grado en Estadıstica y Empresa 92
Ejemplo 3.1 (continuacion)
Puesto que la variable tipificada se obitene mediante la formula:
Z =X − x
sn,
para obtener los valores tipificados de X, necesitamos obtener, en
primer lugar, la media y la desviacion tıpica de X. Para ello nos
ayudamos de la tabla siguiente:
xi ni xi ni x2i ni
2 47 94 188
7 32 224 1568
15 17 255 3825
30 4 120 3600
total 100 693 9181
x = 693100 = 6.93
s2n = x2 − x2 = 9181100 − (6.93)2 = 43.79
sn =√43.79 = 6.62
Grado en Estadıstica y Empresa 93
Ejemplo 3.1 (continuacion)
Los valores tipificados de X son:
z1 =2− 6.93
6.62= −0.745, z2 =
7− 6.93
6.62= 0.011,
z3 =15− 6.93
6.62= 1.220, z4 =
30− 6.93
6.62= 3.485.
Calculamos la media y varianza para la variable Z:
zi ni zi ni z2i ni
-0.745 47 -35.015 26.086
0.011 32 0.352 0.004
1.220 17 20.740 25.303
3.485 4 13.940 48.581
total 100 0.0017 99.974
z = 0.017100 = 0.00017 ≈ 0
s2z = 99.974100 − (0.00017)2 = 0.9997 ≈ 1
sz =√0.9997 = 0.9999 ≈ 1
¿Cuanto vale el coeficiente de variacion de Z?
Grado en Estadıstica y Empresa 94
Ejemplo 3.1 (continuacion)
No tiene ningun sentido calcular el
coeficiente de variacion de Z,
puesto que al tratarse de una variable
tipificada:
CV =sz
z≈ 1
0→ ∞!!