Est Sesiones 3 y 4 Diplops Adobe

48
“Estadística” Prof. Juan Narro Lavi Diplomatura de Estudio en Gestión de Operaciones

description

Estad

Transcript of Est Sesiones 3 y 4 Diplops Adobe

Page 1: Est Sesiones 3 y 4 Diplops Adobe

“Estadística”Prof. Juan Narro Lavi

Diplomatura de Estudio en

Gestión de Operaciones

Page 2: Est Sesiones 3 y 4 Diplops Adobe

Sesiones 3 y 4:Resumen numérico

de los datosMedidas de Correlación

Page 3: Est Sesiones 3 y 4 Diplops Adobe

“La estadística es una ciencia que demuestra que si mi vecino tiene dos autos y yo ninguno, en promedio los dos tenemos uno.”

Page 4: Est Sesiones 3 y 4 Diplops Adobe

Media Aritmetica

Mediana

Moda

Descripción Numérica de Datos

Varianza

Desviación EstándarCoeficiente de Variación

Rango

Rango Intercuartil

Tendencia Central Dispersión

Estadística Sumaria

Page 5: Est Sesiones 3 y 4 Diplops Adobe

Tendencia Central

Media Mediana Moda

n

xx

n

1ii

Punto medio de los Datos Ordenados

Valor observado frecuentemente

Promedio

Aritmético

Estadística Sumaria

Page 6: Est Sesiones 3 y 4 Diplops Adobe

Medidas de tendencia central

• Aquellas que nos indican cual podría ser el punto medio o típico de un conjunto de datos analizados.

• Llamados “Promedios”.• Promedios principales:

Media aritmética simple

Media ponderada

Media geométrica

Media Armónica

Mediana

Moda

Page 7: Est Sesiones 3 y 4 Diplops Adobe

• Ventajas:

• Concepto familiar para muchas personas

• Es única para cada conjunto de datos

• Es posible comparar medias de diferentes muestras

• Desventajas:

• Se ve afectada por los datos extremos.

Media aritmética

0 1 2 3 4 5 6 7 8 9 10

Media = 3

0 1 2 3 4 5 6 7 8 9 10

Media = 4

Page 8: Est Sesiones 3 y 4 Diplops Adobe

Media ponderada

k

ii

k

iii

p

k

ii

k

iii

p

w

xwx

w

Xw

1

1

1

1• Media aritmética en la

cual se considera a cada uno de los valores de las variables de acuerdo con su importancia relativa en el grupo.

Page 9: Est Sesiones 3 y 4 Diplops Adobe

Media geométrica

• De n números positivos es la raíz n-ésima del producto de los n números.

• Para promediar porcentajes, índices y cifras relativas.

• Determinar el incremento porcentual promedio en ventas, producción, etc.

G nN

GN

X X X X

ValoralfinalValoralinicio

1 2 3

1 1

..

Page 10: Est Sesiones 3 y 4 Diplops Adobe

Mediana

• Punto medio de los valores después de ordenarlos.

• Es un promedio de posición.

• No es afectada por valores extremos.

Med

DatosNoAgrupados

NX

2

0 5.

MedN

faAi

DatosAgrupados

ii

L f

2

Page 11: Est Sesiones 3 y 4 Diplops Adobe

Reglas1º Si la serie es impar, la mediana ocupa el lugar

central de la serie previamente ordenada.

Ejemplo: 5, 10, 10, 12, 15, 17, 20, 21, 24

Mediana

2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada.

Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34

5.202

2318

mediana

Page 12: Est Sesiones 3 y 4 Diplops Adobe

Ventajas:• Los valores extremos no afectan a la mediana como

en el caso de la media aritmética.• Es fácil de calcular, interpretar y entender.• Se puede determinar para datos cualitativos.

Desventajas:• Como valor central, se debe ordenar primero la

serie de datos.

Mediana

Page 13: Est Sesiones 3 y 4 Diplops Adobe

Moda

• Valor que más se repite en un conjunto de datos.

• No es afectada por valores extremos.

• Para datos discretos es fácil de calcular.

• No puede ser calculada exactamente en una dist. de frecuencias.

Mo i

DatosAgrupados

iLd

d d

1

1 2

Page 14: Est Sesiones 3 y 4 Diplops Adobe

14

4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38

Ejemplo:

Moda

Page 15: Est Sesiones 3 y 4 Diplops Adobe

Ventajas:• Se puede utilizar tanto para datos cualitativos como

cuantitativos.• No se ve afectada por los valores externos

Desventajas:• No tiene un uso tan frecuente como la media.• Muchas veces no existe moda (distribución amodal).• En otros casos la distribución tiene varias modas, lo

que dificulta su interpretación.

Moda

Page 16: Est Sesiones 3 y 4 Diplops Adobe

Selección del promedio apropiado

OBSERVACIÓN DATOS

EDAD 22, 24, 25, 26, 27, 28, 28, 29, 30, 31, 33, 34

INGRESO EN MILES DE $

8, 8.2, 9,10,11,12, 12.3,12.5,13,13.5, 86,97

TALLA ZAPATOS

39, 40, 41, 41, 41, 41, 42, 42, 43, 43, 44, 45

Page 17: Est Sesiones 3 y 4 Diplops Adobe

Selección del promedio más adecuado

• La mediana siempre es la posición central.• La moda se puede emplear cuando se requiere

una idea rápida de la tendencia central.• La más usada es la media aritmética.• La más representativa para datos de una

distribución asimétrica es la mediana.• Media valor de equilibrio de Magnitud .

Mediana valor de equilibrio de Cantidad.Moda valor con mayor frecuencia.

Page 18: Est Sesiones 3 y 4 Diplops Adobe

Cuartiles, deciles y percentiles(Fractiles o cuantiles)

• Medidas de posición.• Dividen en :

– Cuatro (Qj)– Diez (Dj)– Cien (Pj)

• Formulación semejante a la mediana.

j jnF

j ijij

F X

F L f

DatosNoAgrupados

jnF faA

i

DatosAgrupados

0 5.

Page 19: Est Sesiones 3 y 4 Diplops Adobe

Mismo centro, Diferente variación

Dispersión

Varianza DesviaciónEstandard

Coeficiente de Variación

Rango Desviación Media

Información sobre la variabilidad de los datos.

Medidas de dispersión

Page 20: Est Sesiones 3 y 4 Diplops Adobe

Rango o recorrido

• Diferencia entre el valor mayor y el valor menor de un conjunto de datos.

• No está afectado por los valores comprendidos entre los extremos.

R V max V min

DatosNoAgrupados

R A B

DatosAgrupadoss iL L

. . .

( ) ( )

Page 21: Est Sesiones 3 y 4 Diplops Adobe

Ventajas• fácil de calcular• fácil de entender e interpretar

Desventajas• sólo considera los valores extremos• no toma en cuenta ni el número de datos ni el valor

de estos

Rango o recorrido

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13

Page 22: Est Sesiones 3 y 4 Diplops Adobe

Desviación media

• Media de los valores absolutos de las diferencias entre las variables y la media.

• Da una mejor descripción de la dispersión que el rango.

DMN

DatosNoAgrupados

DMN

DatosAgrupados

ii

N

i ii

N

X

f X

1

1

Page 23: Est Sesiones 3 y 4 Diplops Adobe

Varianza

• Media aritmética de las desviaciones cuadráticas respecto a la media.

• Expresada en unidades al cuadrado.

• n-1, factor de corrección.

2

2

1

X

NPoblacion

i

N

S

x

nMuestra

ii

n

x2

2

1

1

Page 24: Est Sesiones 3 y 4 Diplops Adobe

Desviación estándar

ii

N

ii

n

X

x

NPoblacion

Sx

nMuestra

2

1

2

1

1

• Es la raíz cuadrada positiva de la varianza.

• Unidades originales.

• Permite medir el % de elementos dentro de intervalos de una curva simétrica.

• Puntaje estándar (Z).

Page 25: Est Sesiones 3 y 4 Diplops Adobe

Comparación de Desviaciones Estándar

Media = 15.5

s = 3.338 11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

Datos B

Datos A

Media = 15.5

s = .9258

11 12 13 14 15 16 17 18 19 20 21

Media = 15.5

s = 4.57

Datos C

Page 26: Est Sesiones 3 y 4 Diplops Adobe

-3σ -2σ -1σ +1σ +2σ +3σμ

x

Z

Puntaje o Resultado Estándar (Z)

-3 -2 -1 +1 +2 +30Z

Page 27: Est Sesiones 3 y 4 Diplops Adobe

• Regla Empírica, si la distribución de datos tiene forma acampanada, entonces el intervalo:

• contiene cerca 68% de los valores en la población o muestra.

1σμ

μ

68%

1σμ

Interpretación y usos de la Desviación Estándar

Page 28: Est Sesiones 3 y 4 Diplops Adobe

• contiene cerca 95% de los valores en la población o muestra.

• contiene a casi todos (cerca 99.7%) los valores de la población o

muestra.

2σμ

3σμ

3σμ

99.7%95%

2σμ

Interpretación y usos de la Desviación Estándar

Page 29: Est Sesiones 3 y 4 Diplops Adobe

-3σ -2 σ -1σ +1σ +2σ +3σμ

34.13%34.13%

13.60%13.60%

2.135%2.135%

0.135%0.135%

68.26%

95.46%

99.73%

Interpretación y usos de la Desviación Estándar

Page 30: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de variación

CV

Poblacion

CVS

xMuestra

*

*

100

100

• Indica la magnitud relativa de la desviación estándar con respecto a la media aritmética.

• Comparación de distribuciones.

Page 31: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de variación

CV Grado de Variablidad

0 < CV < 10 Datos muy homogéneos

10 ≤ CV < 15Datos regularmente homogéneos

15 ≤ CV < 20Datos regularmente variables

20 ≤ CV < 25 Datos variables

CV ≥ 25 Datos muy variables

Page 32: Est Sesiones 3 y 4 Diplops Adobe

Medidas de Simetría y Curtosis

• Evalúa como están concentradas las observaciones.• Además de la tendencia para agruparse alrededor de

ciertos valores y grados de dispersión.• Representatividad de los valores de tendencia y su

confiabilidad.• Coeficientes:

– de Asimetría de Pearson– de Curtiosis

Page 33: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de Simetria y Curtosis de Fisher

𝑠𝑘 = σ ሺ𝑥𝑖 − 𝑥ҧሻ3𝑛𝑖=1ሺ𝑛− 1ሻ𝑠2

• Tercer momento • Simétrica = 0• Asimetrica Positiva > 0• Asimetrica Negativa < 0

Simetría Curtosis• Cuarto Momento• Mesocurtica = 0• Leptocurtica > 0• Platicurtica < 0

𝑘 = σ ሺ𝑥𝑖−𝑥ҧሻ4𝑛𝑖=1 ሺ𝑛−1ሻ𝑠4 -3

Page 34: Est Sesiones 3 y 4 Diplops Adobe

Sesgo de una distribución

Page 35: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de Curtosis

K > 0 K < 0K = 0

Page 36: Est Sesiones 3 y 4 Diplops Adobe

Análisis de Regresión Simple

• Finalidad es establecer una relación cuantitativa (ecuación de regresión) entre dos variables, y estimar el valor de Y (dependiente) con base en un valor de X (independiente).

• Ecuación de estimación o de pronóstico (Y’) .

• Regresión lineal simple

– Una recta.

Y a bX'

Y X' 0 1

Page 37: Est Sesiones 3 y 4 Diplops Adobe

Análisis de regresión simple

• Métodos : gráfico y matemático (mínimos cuadrados).

• Gráfico– Diagrama de dispersión.– Trazar una recta que trate de unir los puntos.– Ventaja: simple y directo.– Desventaja: procedimiento subjetivo.

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6

X 3 1 2 5 4

Y 9 5 7 14 10

Page 38: Est Sesiones 3 y 4 Diplops Adobe

Análisis de regresión simple• Mínimos cuadrados

– Técnica para encontrar la ecuación de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores observados y los estimados (recta) de Y.

– Hallar los coeficientes de regresión a y b.– Ecuaciones Normales.

a Y bX

bXY nXY

X n X

2 2

Y na b X

XY a X b X

;

2

Page 39: Est Sesiones 3 y 4 Diplops Adobe

Recta de regresión

0

2

4

6

8

10

12

14

0 1 2 3 4 5

Y’=2.7+2.1X

YY’*

*

ValorEfectivo

ValorEstimado

Page 40: Est Sesiones 3 y 4 Diplops Adobe

• Error estándar de estimación– Mide la disparidad (dispersión) promedio

entre los valores observados y los valores estimados de Y.

– Indicador del grado de precisión de la ecuación.– No es la más adecuada para medir relación.

Análisis de regresión simple

y x

y x

S

S

Y Y

n

Y a Y b XY

n

.

.

'

( ) ( )

2

2

2

2

Page 41: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de correlación (r)

• Karl Pearson, 1900.

• Mide el grado de asociación o relación lineal entre

las variables X e Y.

• Sus valores van de -1 a +1.(correlación negativa y

positiva perfecta).

• Es el mismo signo de b.

rXY nXY

X nX Y nY

( )( )2 2 2 2

Page 42: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de correlación (r)

Medida de intensidad de la relación entre dos conjuntos de variables.

CorrelaciónNegativaPerfecta

NingunaCorrelación

CorrelaciónPositivaPerfecta

CorrelaciónNegativa

Moderada

CorrelaciónPositiva

Moderada

0-1 1

Correlación positivaCorrelación negativa

0.5 0.5

Page 43: Est Sesiones 3 y 4 Diplops Adobe

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

r = +.3r = +1

Y

Xr = 0

Coeficiente de correlación (r)

Page 44: Est Sesiones 3 y 4 Diplops Adobe

Variaciones

0

2

4

6

8

10

12

14

0 1 2 3 4 5

YY’*

*VariaciónTotal Variación

Explicada

Y

Variación noExplicada

Page 45: Est Sesiones 3 y 4 Diplops Adobe

Coeficiente de determinación (r2)

• Proporción de la variación total en la variable

dependiente (Y) que se explica por o se debe a la

variación de la variable independiente.

• Puede adoptar valores entre 0 y 1.

rVar Explicada

Var Total

Y Y

Y Y

ra Y b XY nY

Y nY

22

2

22

2 2

.

.

( ' )

( )

Page 46: Est Sesiones 3 y 4 Diplops Adobe

Si r2 = 1 : Correlación perfecta, es decir, toda

variación de Y puede explicarse por X

Si r2 = 0 : No existe correlación entre X e Y. La

variación explicada es 0.

La variable X no explica nada de los cambios en Y

1 r 0 2

Cuanto más cerca a uno, las variables tendrán mayor correlación.

Coeficiente de determinación (r2)

Page 47: Est Sesiones 3 y 4 Diplops Adobe

• Una empresa dedicada a la producción de cierto artículo perecible ZZ desea evaluar la relación existente entre la distancia recorrida para transportar su producto a los diferentes puntos de comercialización y las mermas producidas por dicho transporte. Con este fin, se lleva a cabo un estudio en el que se observan, entre otras variables:

Y= porcentaje de carga útil final (luego del transporte)

X= Distancia recorrida (decenas de kilómetros)• Y se encuentra en una muestra aleatoria de 12 viajes o

recorridos los siguientes resultados:

• Con la finalidad de establecer medidas preventivas, ¿Cuál será el porcentaje de carga útil para un futuro transporte de 250 km.?

Análisis de regresión simple

Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95

Distancia Recorrida (x)

33 12 18 3 4 8 66 5 37 29 15 10

Page 48: Est Sesiones 3 y 4 Diplops Adobe

“Estadística”Prof. Juan Narro Lavi

Diplomatura de Estudio en

Gestión de Operaciones