Estadistica y Prob 05 (118)

118
MEDIDAS DE POSICIÓN Ing. William León Velásquez [email protected] CLASE 05 ESTADISTICA Y PROBABILIDADES

Transcript of Estadistica y Prob 05 (118)

Page 1: Estadistica y Prob 05 (118)

MEDIDAS DE

POSICIÓN

Ing. William León Velásquez

[email protected]

CLASE 05 ESTADISTICA Y

PROBABILIDADES

Page 2: Estadistica y Prob 05 (118)

MEDIDAS DE POSICIÓN

Las medidas de posición también facilitan información sobre la serie de datos que se desea analizar.

La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos, dentro de un contexto de valores posible.

ING. WILLIAM LEON V.

2

MEDIDA DE POSICIÓN

Page 3: Estadistica y Prob 05 (118)

UTILIDAD Se trata de encontrar unas

medidas que sinteticen las

distribuciones de frecuencias.

En vez de manejar todos los

datos sobre las variables, tarea

que puede ser pesada, se

puede describir su distribución

de frecuencias mediante

algunos valores numéricos,

eligiendo como resumen de los

datos un valor central

alrededor del cual se

encuentran distribuidos los

valores de la variable ING. WILLIAM LEON V.

3

MEDIDA DE POSICIÓN

Page 4: Estadistica y Prob 05 (118)

DEFINICIÓN Son indicadores usados

para señalar que

porcentaje de datos dentro

de una distribución de

frecuencias superan estas

expresiones, cuyo valor

representa el valor del dato

que se encuentra en el

centro de la distribución de

frecuencia.

ING. WILLIAM LEON V.

4

MEDIDA DE POSICIÓN

Page 5: Estadistica y Prob 05 (118)

DEFINICIÓN Estas medidas de posición de una

distribución de frecuencias han de cumplir determinadas condiciones para que sean verdaderamente representativas de la variable a la que resumen.

Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención

ING. WILLIAM LEON V.

5

MEDIDA DE POSICIÓN

Page 6: Estadistica y Prob 05 (118)

CUANTILES

Son valores que dividen al

total de los datos

debidamente ordenados

en k partes iguales.

ING. WILLIAM LEON V.

6

CUANTILES

Page 7: Estadistica y Prob 05 (118)

CUARTILES

Son medidas de

posición que dividen al

total de los datos

ordenados, en cuatro

partes iguales.

De esta forma entre dos

cuartiles consecutivos

se encuentra ubicado

no más del 25% del total

de los datos. ING. WILLIAM LEON V.

7

DEFINICIÓN

Page 8: Estadistica y Prob 05 (118)

CUARTILES

Hay 3 cuartiles que dividen a una

distribución en 4 partes iguales:

primero, segundo y tercer cuartil.

ING. WILLIAM LEON V. 8

DEFINICIÓN

Page 9: Estadistica y Prob 05 (118)

CUARTILES

El cálculo para los cuartiles se

determina a través de la siguiente

expresión:

Af

fkn

LQi

iacum

ik

14

ING. WILLIAM LEON V. 9

DEFINICIÓN

Page 10: Estadistica y Prob 05 (118)

CUARTILES

Donde:

ING. WILLIAM LEON V. 10

DEFINICIÓN

k Orden del cuartil

Límite inferior del intervalo que

contiene al cuartil

Frecuencia acumulada considerada al

intervalo donde se encuentra

Frecuencia del intervalo que contiene el

cuartil

n Número de mediciones

A Ic Amplitud del intervalo

if

1iacumf

iL

Page 11: Estadistica y Prob 05 (118)

PRIMER CUARTIL (Q1)

Aquel valor de una serie que supera al 25% de los datos y es superado por el 75% restante.

Formula de Q1 para series de Datos Agrupados en Clase.

ING. WILLIAM LEON V. 11

DEFINICIÓN

Page 12: Estadistica y Prob 05 (118)

PRIMER CUARTIL (Q1)

Donde:

: posición de Q1, la cual se

localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q1, la correspondiente a tal frecuencia acumulada.

Li, faa, fi, Ic : idéntico a los conceptos vistos para Mediana pero referidos a la medida de la posición correspondiente.

ING. WILLIAM LEON V. 12

DEFINICIÓN

Page 13: Estadistica y Prob 05 (118)

SEGUNDO CUARTIL (Q2)

Coincide, es idéntico o

similar al valor de la

Mediana (Q2 = Md).

Es decir, supera y es

superado por el 50% de los

valores de una Serie.

ING. WILLIAM LEON V. 13

DEFINICIÓN

Page 14: Estadistica y Prob 05 (118)

TERCER CUARTIL (Q3)

Es aquel valor, termino o dato

que supera al 75% y es

superado por el 25% de los

datos restantes de la Serie.

Formula de Q3 para series de

Datos Agrupados en Clase.

ING. WILLIAM LEON V. 14

DEFINICIÓN

Page 15: Estadistica y Prob 05 (118)

TERCER CUARTIL (Q3)

Donde:

: posición de Q3, la cual se

localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q3, la correspondiente a tal frecuencia acumulada.

Li, faa, fi, Ic : idéntico a los conceptos vistos para Mediana pero referidos a la medida de la posición correspondiente.

ING. WILLIAM LEON V. 15

DEFINICIÓN

Page 16: Estadistica y Prob 05 (118)

CUARTILES

Un reporte de laboratorio

indica el número de

pacientes que en los

primeros 100 días del año

recibieron peticiones por

parte de una clínica, de

reportes clínicos para

realizar estudios de

glucosa.

ING. WILLIAM LEON V. 16

EJEMPLO

Page 17: Estadistica y Prob 05 (118)

CUARTILES

ING. WILLIAM LEON V. 17

EJEMPLO

Veremos que el primer cuartil se localiza

en el intervalo de clase marcada en color

El intervalo de clase donde se ubica el

segundo cuartil esta marcado por

El tercer cuartil esta marcado por

El número de datos a considerar son 63

pacientes.

Page 18: Estadistica y Prob 05 (118)

CUARTILES

ING. WILLIAM LEON V. 18

EJEMPLO

Intervalos

1 día a 9 días 5 5 5

10 día a 19 días 14.5 6 11

20 día a 29 días 24.5 8 19

30 día a 39 días 34.5 8 27

40 día a 49 días 44.5 4 31

50 día a 59 días 54.5 5 36

60 día a 69 días 64.5 7 43

70 día a 79 días 74.5 8 51

80 día a 89 días 84.5 4 55

90día a 100 días 94.5 8 63

Promedio

de días

ix

Número de

pacientes

if

Frecuencia acumulada

acumuladaf

Page 19: Estadistica y Prob 05 (118)

CUARTILES

Para la obtención del primer

cuartil tenemos k=1, obteniendo:

75.15

4

63)1(

4

kn

ING. WILLIAM LEON V. 19

EJEMPLO

Page 20: Estadistica y Prob 05 (118)

CUARTILES

lo que representa que el primer cuartil se

encuentre en la tercera clase, sus datos

están dados como

9;8;11;20 1 AffL iiacumi

ING. WILLIAM LEON V. 20

EJEMPLO

Page 21: Estadistica y Prob 05 (118)

CUARTILES

por lo que el primer cuartil es igual a

díasQ 34.2598

114

)63(1

201

ING. WILLIAM LEON V. 21

EJEMPLO

Page 22: Estadistica y Prob 05 (118)

CUARTILES

Interpretación:

Lo que indica que 25 % de

los pacientes fueron

mandados a valoración de

glucosa en 25.34 días y el

75% de los pacientes

atendidos lo hicieron

después de 25.34 días.

ING. WILLIAM LEON V. 22

EJEMPLO

Page 23: Estadistica y Prob 05 (118)

CUARTILES

Nótese que la consideración para

elegir el primer cuartil se hizo

considerando la frecuencia

acumulada y de esta manera se

considerará para localizarla para

el resto.

ING. WILLIAM LEON V. 23

EJEMPLO

Page 24: Estadistica y Prob 05 (118)

CUARTILES

Para la obtención del segundo

cuartil consideraremos k=2 por lo

que

5.314

632

4

kn

ING. WILLIAM LEON V. 24

EJEMPLO

Page 25: Estadistica y Prob 05 (118)

CUARTILES

Considerando que para este

segundo cuartil ,

con ello el cuartil tendrá un valor de

9;5;31;50 1 AffL iiacumi

díasQ 9.5095

314

)63(2

502

ING. WILLIAM LEON V. 25

EJEMPLO

Page 26: Estadistica y Prob 05 (118)

CUARTILES

Lo que indica que en 50.9 días se habían

atendido al 50 % de los pacientes a ser

valorados de los niveles de glucosa.

Lo que indica que 50 % de los pacientes fueron

mandados a valoración de glucosa en 50.9

días y el 50% restante de los pacientes

atendidos lo hicieron después de 50.9 días.

ING. WILLIAM LEON V. 26

EJEMPLO

Page 27: Estadistica y Prob 05 (118)

CUARTILES

Nótese que efectivamente el segundo

cuartil corresponde a la mediana, ya

que si sustituimos k=2 tendremos la

misma formula que utilizamos para el

calculo de la mediana para datos

agrupados

MeAf

fn

LAf

fn

LQi

iacum

i

i

iacum

i

11

224

2

ING. WILLIAM LEON V. 27

EJEMPLO

Page 28: Estadistica y Prob 05 (118)

CUARTILES

Para el cálculo del tercer cuartil,

k=3, observamos que:

con

25.474

633

4

kn

9;8;43;70 1 AffL iiacumi

ING. WILLIAM LEON V. 28

EJEMPLO

Page 29: Estadistica y Prob 05 (118)

CUARTILES

tenemos

díasQ 78.7498

434

)63(3

703

ING. WILLIAM LEON V. 29

EJEMPLO

lo cual indica que 75% de pacientes que envió la clínica a realizarse estudios de glucosa lo realizo en 74.78días y el resto en los otros días restantes.

Page 30: Estadistica y Prob 05 (118)

CUARTILES

Nótese que para el cálculo del cuarto

cuartil es de manera inmediata, en

este se contempla la totalidad de la

muestra, por lo que no es necesario realizar ningún cálculo, aunque si lo

realizamos observamos que cubre el

total de días.

ING. WILLIAM LEON V. 30

EJEMPLO

Page 31: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

La forma de calcular los cuartiles

cuando los datos no están agrupados

se da a través del siguiente concepto.

Para un número de n observaciones en

el que los datos no son representados

en clases, una vez ordenados los datos

la posición de los cuartiles se pueden

localizar de la siguiente forma:

ING. WILLIAM LEON V. 31

DEFINICIÓN

Page 32: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

es importante considerar que si el

cálculo no corresponde con la

posición exacta entonces se usa

interpolación lineal.

4y3,2,1,

4

1

k

nk

ING. WILLIAM LEON V. 32

DEFINICIÓN

Page 33: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

En el caso en que la posición no corresponda exactamente con la posición la interpolación se realiza de la siguiente forma:

Donde:

4,3,2,1,

4

k

LLkLQ is

ik

ING. WILLIAM LEON V. 33

DEFINICIÓN

;SuperiorLimite;,inferiorlimite;Cuartil fik LLkQ

Page 34: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

Ejemplo. Consideremos las siguientes tabla de

temperaturas reportadas en un experimento:

ING. WILLIAM LEON V. 34

EJEMPLO:

25 °C 28 °C 25 °C 26 °C 28 °C 28 °C

35 °C 32 °C 31 °C 31 °C 32 °C 27 °C

25 °C 29 °C 26 °C 28 °C 27 °C 28 °C

30 °C 30 °C 31 °C 31 °C 30 °C 31 °C

Page 35: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

Ordenando los datos tenemos:

25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28,

28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32,

32, 35

ING. WILLIAM LEON V. 35

EJEMPLO:

Page 36: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados La posición del primer cuartil es:

25.6

4

25

4

1241

ING. WILLIAM LEON V. 36

EJEMPLO:

Page 37: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

lo que significa que el primer cuartil se encuentra entre la posición 6 y 7, como en este caso el número es el mismo entonces

por lo que el primer cuartil es igual a .

0 fi LL

ING. WILLIAM LEON V. 37

EJEMPLO:

CQ 271

Page 38: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados La posición para el segundo cuartil

es

5.12

4

50

4

1242

ING. WILLIAM LEON V. 38

EJEMPLO:

Page 39: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

En este caso la posición 12 la ocupa la temperatura 28°C y la posición 13 la temperatura 29°C entonces, la interpolación nos conduce a

5.28

4

28292282

Q

ING. WILLIAM LEON V. 39

EJEMPLO:

Page 40: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

La posición del tercer cuartil se

puede calcular como

75.18

4

1243

ING. WILLIAM LEON V. 40

EJEMPLO:

Page 41: Estadistica y Prob 05 (118)

Cuartiles para datos no

agrupados

Como la posición 18 y 19 tienen la

temperatura 30°C entonces, por la

misma razón que el primer cuartil,

el tercer cuartil es igual a 30°C.

ING. WILLIAM LEON V. 41

EJEMPLO:

Page 42: Estadistica y Prob 05 (118)

RANGO INTERCUARTIL Es la distancia que hay entre el tercer cuartil (Q

3 ) y el primer cuartil (Q 1 ):

RIC = Q 3 - Q 1

RIC es la amplitud del intervalo que contiene el

50% central de individuos.

Interpretación es como una medida de

variabilidad;

Si es pequeña significará que los valores están

muy concentrados alrededor de la medida de

tendencia central (mediana) y

Si es grande hay gran dispersión.

ING. WILLIAM LEON V. 42

Page 43: Estadistica y Prob 05 (118)

DECILES

Son valores que dividen al total de

los datos ordenados, en diez partes

iguales; de modo que en cada

una de estas partes se encuentre

ubicado no más del 10% del total.

ING. WILLIAM LEON V. 43

DEFINICIÓN

Page 44: Estadistica y Prob 05 (118)

Primer Decil (D1)

El primer decil es aquel valor de

una serie que supera a 1/10 parte

de los datos y es superado por las

9/10 partes restantes

(respectivamente, hablando en

porcentajes, supera al 10% y es

superado por el 90% restante),

ING. WILLIAM LEON V. 44

DEFINICIÓN

Page 45: Estadistica y Prob 05 (118)

Primer Decil (D1)

ING. WILLIAM LEON V.

45

DEFINICIÓN

Page 46: Estadistica y Prob 05 (118)

Quinto Decil (D5)

El quinto decil es aquel valor de

una serie que supera a 5/10 parte

de los datos y es superado por las

5/10 partes restantes

(respectivamente, hablando en

porcentajes, supera al 50% y es

superado por el 50% restante),

ING. WILLIAM LEON V. 46

DEFINICIÓN

Page 47: Estadistica y Prob 05 (118)

Quinto Decil (D5)

ING. WILLIAM LEON V.

47

DEFINICIÓN

Page 48: Estadistica y Prob 05 (118)

Noveno Decil (D9)

El noveno decil es aquel valor de

una serie que supera a 9/10 parte

de los datos y es superado por las

1/10 partes restantes

(respectivamente, hablando en

porcentajes, supera al 90% y es

superado por el 10% restante),

ING. WILLIAM LEON V. 48

DEFINICIÓN

Page 49: Estadistica y Prob 05 (118)

Noveno Decil (D9)

ING. WILLIAM LEON V.

49

DEFINICIÓN

Page 50: Estadistica y Prob 05 (118)

Deciles

Como se observa, son formulas

parecidas a la del calculo de la

Mediana, cambiando solamente la

respectivas posiciones de las

medidas.

ING. WILLIAM LEON V. 50

DEFINICIÓN

Page 51: Estadistica y Prob 05 (118)

PERCENTILES

Son valores que dividen al total de

los datos ordenados, en cien

partes iguales: de manera que en

cada una de estas partes se

encuentre ubicado no más del 1%

del total.

ING. WILLIAM LEON V. 51

DEFINICIÓN

Page 52: Estadistica y Prob 05 (118)

PERCENTILES De esta manera se puede

establecer la siguiente relación

entre cuartiles, deciles y percentiles

así como también con la mediana.

ING. WILLIAM LEON V. 52

DEFINICIÓN

Page 53: Estadistica y Prob 05 (118)

Primer Percentil (P1)

El primer percentil supera al uno

por ciento de los valores y es

superado por el noventa y nueve

por ciento restante.

Formulas de P1, para series de

Datos Agrupados en Clase.

ING. WILLIAM LEON V. 53

DEFINICIÓN

Page 54: Estadistica y Prob 05 (118)

Percentil 50 (P50)

El percentil 50 supera al cincuenta

por ciento de los valores y es

superado por el cincuenta por

ciento restante.

Formulas de P50, para series de

Datos Agrupados en Clase.

ING. WILLIAM LEON V. 54

DEFINICIÓN

Page 55: Estadistica y Prob 05 (118)

Percentil 99 (P99)

El percentil 99 supera al noventa y

nueve por ciento de los valores y

es superado por el uno por ciento

restante.

Formulas de P99, para series de

Datos Agrupados en Clase.

ING. WILLIAM LEON V. 55

DEFINICIÓN

Page 56: Estadistica y Prob 05 (118)

Percentil

Para determinar estas medidas se aplicara el principio de la mediana; así, el primer cuartil cereal valor por debajo del cual se encuentra el 25 por ciento de los datos; bajo el tecer cuartil se encuentra el 75 por ciento; el 80 decil será el valor por encima del cual estará el 20 por ciento de los datos, etc.

ING. WILLIAM LEON V. 56

DEFINICIÓN

Page 57: Estadistica y Prob 05 (118)

Percentil

Como se observa, todas estas

medidas no son sino casos

particulares del percentil ya que el

primer cuartil no es sino el 25°

percentil, el tercer cuartil el 75°

percentil, el cuarto decil el 40°

percentil, etc.

ING. WILLIAM LEON V. 57

DEFINICIÓN

Page 58: Estadistica y Prob 05 (118)

Percentil Ejemplo:

Para la siguiente tabla de

frecuencias que

corresponde a la

distribución de 42 días de

acuerdo a la temperatura

que se registró en cada

día.

El 35% inferior de los días,

¿qué temperatura

presentó como máximo?

ING. WILLIAM LEON V. 58

Ejemplo

Page 59: Estadistica y Prob 05 (118)

Percentil

ING. WILLIAM LEON V. 59

Ejemplo

Temperatura

( C ) Nº días

10-15 8 8

15-18 9 17

18-25 12 29

25-30 7 36

30-34 6 42

lugar.vo157,14100

4235

iF

Page 60: Estadistica y Prob 05 (118)

Percentil

Luego:

ING. WILLIAM LEON V.

60

Ejemplo

21 F100

4235F

235 IP

33,179

815315P35

Page 61: Estadistica y Prob 05 (118)

Percentil

Interpretación:

En el 35% inferior de los días se registró una temperatura de 17 C como máximo?

ING. WILLIAM LEON V.

61

Ejemplo

Page 62: Estadistica y Prob 05 (118)

Cuantiles para datos no

agrupados:

Ejemplo: En una serie de 32 términos se desea localizar el 4° sextil, 8° decil y el 95° percentil.

ING. WILLIAM LEON V.

62

Ejemplo

Page 63: Estadistica y Prob 05 (118)

Cuantiles para datos no

agrupados:

ING. WILLIAM LEON V.

63

Ejemplo

Page 64: Estadistica y Prob 05 (118)

Cuantiles para datos no

agrupados:

Esto significa que el 4° sextil se encuentra localizado en el termino numero 21, es decir, el que ocupa la 21° posición; el 8° decil se encuentra localizado entre el termino numero 25° y 26° ; y el 95°

percentil entre la posición 30° y 31° .

ING. WILLIAM LEON V.

64

Ejemplo

Page 65: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: Determinación del primer cuartil, el cuarto sextil, el séptimo decil y el 30° percentil.

ING. WILLIAM LEON V.

65

Ejemplo

Page 66: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: Determinación del primer cuartil, el cuarto sextil, el séptimo decil y el 30° percentil.

ING. WILLIAM LEON V.

66

Ejemplo

Salarios(I. de

Clases)

N° de empleados (fi) fa

200 – 299 85 85

300 – 399 90 175

400 – 499 120 295

500 – 599 70 365

600 – 699 62 427

700 – 800 36 463

Page 67: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: .

ING. WILLIAM LEON V. 67

Ejemplo

Page 68: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: .

ING. WILLIAM LEON V. 68

Ejemplo

Page 69: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: .

ING. WILLIAM LEON V. 69

Ejemplo

Page 70: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Ejemplo: .

ING. WILLIAM LEON V. 70

Ejemplo

Page 71: Estadistica y Prob 05 (118)

Cuantiles para datos agrupados:

Estos resultados nos indican que el 25 por ciento de los empleados ganan salarios por debajo de $. 334; que sobre $. 519,51 ganan el 33,33 por ciento de los empleados; que bajo $ 541,57 gana el 57 por ciento de los empleados y sobre $. 359,88 gana el 70 por ciento de los empleados. .

ING. WILLIAM LEON V. 71

Ejemplo

Page 72: Estadistica y Prob 05 (118)

Cuantiles

Muchas veces necesitamos conocer el porcentaje de valores que esta por debajo o por encima de un valor dado; lo que representa un problema contrario al anterior, esto es, dado un cierto valor en la abscisa determinar en la ordenada el tanto por ciento de valores inferiores y superiores al valor dado. .

ING. WILLIAM LEON V. 72

Definición

Page 73: Estadistica y Prob 05 (118)

Cuantiles

Operación que se resuelve utilizando la

siguiente formula general:

Donde:

P: lugar percentil que se busca.

P: valor reconocido en la escala X.

fa-1: frecuencia acumulada de la clase

anterior a la clase en que esta incluida P.

fi: frecuencia de la clase que contiene a p.

Li: limite inferior de la clase que contiene a P.

Ic: intervalo de clase.

N: frecuencia total..

ING. WILLIAM LEON V. 73

Definición

Page 74: Estadistica y Prob 05 (118)

Cuantiles

Ejemplo:

Utilizando la distribución

anterior, determinar que

porcentaje de personas ganan

salarios inferiores a $ 450,00

ING. WILLIAM LEON V. 74

Definición

Page 75: Estadistica y Prob 05 (118)

Cuantiles

ING. WILLIAM LEON V.

75

El 50,75 por ciento de las personas ganan

salarios inferiores a $. 450.

Definición

Page 76: Estadistica y Prob 05 (118)

DIAGRAMAS

DE CAJAS

Ing. William León Velásquez

[email protected]

Page 77: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

Es una presentación visual que describe

al mismo tiempo varias características

importantes de un conjunto de datos,

ING. WILLIAM LEON V.

77

CAJAS Y BRAZOS

Page 78: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

Las características que representan

son:

el centro, la dispersión, la desviación

de la simetría y

la identificación de observaciones

que se alejan de manera poco usual

del resto de los datos, este tipo de

observaciones se conocen como

“valores atípicos”.

ING. WILLIAM LEON V.

78

CAJAS Y BRAZOS

Page 79: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

ING. WILLIAM LEON V.

79

CAJAS Y BRAZOS

Page 80: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

El diagrama de caja presenta los tres

cuartiles, y los valores mínimo y máximo de

los datos sobre un rectángulo, alineado

horizontal o verticalmente.

El rectángulo delimita el rango

intercuartílico con la arista izquierda (o

inferior) ubicada en el primer cuartil y la

arista derecha (o superior) en el tercer

cuartil.

ING. WILLIAM LEON V.

80

CAJAS Y BRAZOS

Page 81: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

Dentro del rectángulo se dibuja una línea

en la posición que corresponde a la

mediana.

Cuando la distribución es simétrica la

mediana divide a la caja en dos partes

iguales.

ING. WILLIAM LEON V.

81

CAJAS Y BRAZOS

Page 82: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

Fuera del rectángulo se dibujan dos segmentos,

llamados `bigotes' o brazos que llegan hasta los

datos más lejos que estén a una distancia menor o

igual a 1:5 x (RI) del rectángulo, donde RI

representa el rango intercuartil.

Cualquier punto que no esté incluido en este rango

se representa individualmente y se considera un

punto atípico (outlier).

ING. WILLIAM LEON V.

82

CAJAS Y BRAZOS

Page 83: Estadistica y Prob 05 (118)

DIAGRAMAS DE CAJA

ING. WILLIAM LEON V.

83

CAJAS Y BRAZOS

Page 84: Estadistica y Prob 05 (118)

RESUMEN DE CINCO NÚMEROS

Los cinco números son el valor mínimo, el primer

cuartil, la mediana,

el tercer cuartil, y el valor máximo,

respectivamente. ING. WILLIAM LEON V.

84

Page 85: Estadistica y Prob 05 (118)

CAJAS MÚLTIPLES

Estos gráficos se utilizan para

comparar la distribución de los

valores entre diferentes grupos.

Si en una caja la línea que

representa al cuartil 1 está por

encima de la línea que representa a

la mediana en la otra caja,

entonces se concluye que las

medias de las poblaciones son

diferentes.

ING. WILLIAM LEON V.

85

CAJAS Y BRAZOS

Page 86: Estadistica y Prob 05 (118)

CAJAS MÚLTIPLES

ING. WILLIAM LEON V.

86

CAJAS Y BRAZOS

Page 87: Estadistica y Prob 05 (118)

CARACTERÍSTICAS

a) La anchura de la caja refleja la

amplitud intercuartil (abreviado como IQR

o como RI), en ella está representado el

50% de la muestra.

b) El borde superior de la caja es el

percentil 75 (Q3).

c) El borde inferior es el percentil 25 (Q1).

ING. WILLIAM LEON V.

87

CAJAS Y BRAZOS

Page 88: Estadistica y Prob 05 (118)

CARACTERÍSTICAS

d) La línea central de la caja es la

mediana. Cuando el valor de la

mediana coincide con el punto

medio de la caja (IQR/2 + Q1), la

variable representada es simétrica.

Diremos que es asimétrica positiva

o a la derecha si está próxima al

borde izquierdo de la caja y,

asimétrica negativa o a la izquierda

si está próxima al borde derecho

ING. WILLIAM LEON V.

88

CAJAS Y BRAZOS

Page 89: Estadistica y Prob 05 (118)

CARACTERÍSTICAS

e) Los valores que no son

considerados extremos son aquéllos

comprendidos entre el límite inferior

y el límite superior.

Límite inferior = Q1 – 1,5*IQR

Límite superior = Q3 + 1,5IQR

Los valores de las patillas

corresponden a la primera y última

observación dentro de dichos límites.

ING. WILLIAM LEON V.

89

CAJAS Y BRAZOS

Page 90: Estadistica y Prob 05 (118)

CARACTERÍSTICAS

f) Se señalan con signos (*,O) los casos

muy alejados o extremos.

g) Con una O se marcan los casos

situados entre 1,5 y 3 veces la amplitud

intercuartil desde los dos extremos de la

caja.

ING. WILLIAM LEON V.

90

CAJAS Y BRAZOS

Page 91: Estadistica y Prob 05 (118)

Variables

estadísticas

bidimensionales

Ing. William León Velásquez

Covarianza

Correlacion

Page 92: Estadistica y Prob 05 (118)

Variables estadísticas

bidimensionales

Se trata de variables

que surgen cuando

se estudian dos

características

asociadas a la

observación de un

fenómeno.

Page 93: Estadistica y Prob 05 (118)

Organización de datos

Las variables estadísticas bidimensionales se representan por el par (X,Y), donde X es una variable unidimensional que toma los valores x1,x2,....xn e Y es otra variable unidimensional que toma los valores y1,y2,...yn.

Si representamos estos pares (x1,y1), (x2,y2)......en un sistema de ejes cartesianos se obtiene un conjunto de puntos sobre el plano que se denomina diagrama de dispersión o nube de puntos.

Page 94: Estadistica y Prob 05 (118)

Cálculo de parámetro

Considere una variable

estadística bidimensional

(X,Y) y recuerde las

definiciones de media y

varianza para

distribuciones de variable

estadística

unidimensional:

Page 95: Estadistica y Prob 05 (118)

Cálculo de parámetro

A la raíz cuadrada positiva de las varianzas se la llama

desviación típica y se representa por Sx y por Sy.

Page 96: Estadistica y Prob 05 (118)

Variables estadísticas bidimensionales

Ejemplo 1.- Estudiamos la

talla, medida en cm. y el

peso, medido en kg. de

un grupo de 10 personas,

podemos obtener los

siguientes valores

Talla

(cms) 160 165 168 170 171 175 175 180 180 182

Peso

(kgs) 55 58 58 61 67 62 66 74 79 83

Page 97: Estadistica y Prob 05 (118)

Podemos llamar X a la talla e Y al peso

con lo que se obtendría la variable

bidimensional (X, Y) que toma 10 valores,

que son las 10 parejas de valores de la

tabla anterior: (160,55), (165,58), etc.

83797466626761585855

Peso

(kgs)

182180180175175171170168165160

Talla

(cms)

83797466626761585855

Peso

(kgs)

182180180175175171170168165160

Talla

(cms)

Page 98: Estadistica y Prob 05 (118)

Variables estadísticas

bidimensionales

En algunos casos el número de "parejas" de valores (x,y) es grande y además muchos de ellos aparecen repetidos; en este caso se utiliza una "Tabla de doble entrada" como la que se muestra a continuación en el ejemplo 2

En la primera fila se colocan los valores de una de las características o variable que componen la variable bidimensional y en la primera columna los de la otra.

Page 99: Estadistica y Prob 05 (118)

Variables estadísticas

bidimensionales Ejemplo 2.- Se representa por X el número de hijos

de 100 familias y por Y el número de hijas

# de hijas (Y) 0 1 2 3

# de hijos (x) ----------- ---- ---- ---- ---

0 ----------- 10 15 15 3

1 ----------- 10 12 7 2

2 ----------- 8 4 3 1

3 ----------- 3 2 1 0

4 ----------- 2 1 1 0

Page 100: Estadistica y Prob 05 (118)

Variables estadísticas bidimensionales

La lectura de esta tabla es sencilla.

Por ejemplo: habría 7 familias que tendrían 1

hijo y 2 hijas y ninguna familia tendría 3 hijos

y 3 hijas.

Page 101: Estadistica y Prob 05 (118)

Diagramas de dispersión o nubes de

puntos La representación gráfica de este

tipo de variables es en realidad

semejante a la respresentación

de puntos en el plano, usando

unos ejes de coordenadas. Cada

pareja de valores da lugar a un

punto en el plano y el conjunto

de puntos que se obtiene se

denomina "diagrama de

dispersión o nube de puntos".

Page 102: Estadistica y Prob 05 (118)

Diagramas de dispersión o nubes de puntos En el ejemplo 1 anterior en el que se estudiaba la

talla y el peso de 10 personas se obtendría el siguiente diagrama de dispersión: (En el eje X se representa la talla en cm. y en el eje Y el peso en kg.)

TALLA

PE

SO

Page 103: Estadistica y Prob 05 (118)

Diagramas de dispersión o nubes

de puntos Se puede ver en el primera figura que correspondía

al diagrama de talla - peso que la serie de puntos presenta una tendencia "ascendente" . Se dice en este caso que existen entre las dos variables una "dependencia directa" .

En caso en que la tendencia sea "descendente" se diría que estaríamos ante una " dependencia inversa "

En caso en que no se pueda observar una tendencia clara estaríamos ante una dependencia muy débil que no se puede observar mediante la nube de puntos

Page 104: Estadistica y Prob 05 (118)

Diagramas de dispersión o nubes de puntos

Page 105: Estadistica y Prob 05 (118)

COVARIANZA

Sean (xi, yi ) pares de

observaciones de dos

caracteristicas X y Y, y sean

sus respectivas medias. La

covarianza entre entre las dos

variables se define por :

Page 106: Estadistica y Prob 05 (118)

COVARIANZA

Donde xi e yi representan los pares de valores de la variable y el producto corresponde al producto de las medias aritméticas de las variables x e y respectivamente.

Page 107: Estadistica y Prob 05 (118)

Pasos para calcular la covarianza de una serie de eventos

Paso 1: Se calcula Σxiyi , esto es la sumatoria de los

productos de las variablares x y y; o sea:

(x1 * y1) + (x2 * y2) + ... +(xn * yn )

Paso 2: se define n, que el numero de eventos o el

numero de pares de variables

Paso 3: Se calcula , que es el producto de las medias

de ambas variables

Paso 4: Obtenidos todos los datos se sustituyen en la

formula y se obtiene el resultado

Page 108: Estadistica y Prob 05 (118)

Calcular la covarianza para el ejemplo primero

correspondiente a la variable talla - peso

83797466626761585855

Peso

(kgs)

182180180175175171170168165160

Talla

(cms)

83797466626761585855

Peso

(kgs)

182180180175175171170168165160

Talla

(cms)

Paso 1:

La suma de todos los productos de los valores de x (talla) por los de y (peso) sería: 160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 + 175 · 66 + 180 · 74 + 180 · 79 + 182 · 83 = 114987

Paso 2: Definir n como el numero de eventos en este caso es 10

Page 109: Estadistica y Prob 05 (118)

Paso 3:

A este valor debemos restarle el producto de las medias de

ambas variables que naturalmente sabes calcular:

Media de x (talla): 172.6

= 172.6 * 66.3 = 11443.38

Media de y (peso): 66.3

De acuerdo ala formula tenemos que:

Sxy = (114987 / 10 ) – 11443.38

Sxy = 55.32

Se ha obtenido un valor positivo para la covarianza que

corresponde a una dependencia directa como ya habíamos

intuido con la nube de puntos

Page 110: Estadistica y Prob 05 (118)

CORRELACIÓN

Se llama correlación a

la teoría que trata de

estudiar la relación o

dependencia que existe

entre las dos variables

que intervienen en una

distribución

bidimensional.

Page 111: Estadistica y Prob 05 (118)

Coeficiente de correlación de Pearson.

Si le llamamos r, su valor es:

Puede observarse que el signo del

coeficiente de correlación es el mismo

que el de la covarianza y puede

deducirse que el valor del mismo esta

comprendico entre -1 y 1.

CORRELACIÓN

Page 112: Estadistica y Prob 05 (118)

Se pueden deducir las siguientes conclusiones

relativas al coeficiente de correlación (r):

- Su signo es el mismo de la covarianza, luego si r es

positivo la dependencia es directa y si es negativo

inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y

por tanto las predicciones que se realicen a partir de la

recta de regresión serán bastante fiables.

- Si r se acerca a 0 la dependencia es débil y por tanto

las predicciones que se realicen a partir de la recta de

regresión serán poco fiables

CORRELACIÓN

Page 113: Estadistica y Prob 05 (118)

Ejemplo:

Calcularemos la correlacion para el ejemplo de las

tallas y los pesos

Sxy = 55.32

Sx = 50.71

Sy = 752.81

r = 55.32 / (50.71 * 752.81)

r =0.0014

r se acerca a 0 la dependencia es débil y por tanto las

predicciones que se realicen a partir de la recta de

regresión serán poco fiables

CORRELACIÓN

Page 114: Estadistica y Prob 05 (118)

EJERCICIOS 01

Se han realizado unas pruebas de habilidad (puntúan de

0 a 5) en un grupo de alumnos. Las siguientes

puntuaciones corresponden a las obtenidas por seis alumnos en dos de ellas:

Calcula la covarianza y el coeficiente de correlación.

¿Cómo es la relación entre las variables?

Page 115: Estadistica y Prob 05 (118)

EJERCICIOS 01 Cálculos

Page 116: Estadistica y Prob 05 (118)

EJERCICIOS 01 Cálculos

Page 117: Estadistica y Prob 05 (118)

EJERCICIOS 01 Cálculos

Page 118: Estadistica y Prob 05 (118)

FIN [email protected]