Est Sesiones 3 y 4 Diplops Adobe

Post on 01-Feb-2016

228 views 0 download

description

Estad

Transcript of Est Sesiones 3 y 4 Diplops Adobe

“Estadística”Prof. Juan Narro Lavi

Diplomatura de Estudio en

Gestión de Operaciones

Sesiones 3 y 4:Resumen numérico

de los datosMedidas de Correlación

“La estadística es una ciencia que demuestra que si mi vecino tiene dos autos y yo ninguno, en promedio los dos tenemos uno.”

Media Aritmetica

Mediana

Moda

Descripción Numérica de Datos

Varianza

Desviación EstándarCoeficiente de Variación

Rango

Rango Intercuartil

Tendencia Central Dispersión

Estadística Sumaria

Tendencia Central

Media Mediana Moda

n

xx

n

1ii

Punto medio de los Datos Ordenados

Valor observado frecuentemente

Promedio

Aritmético

Estadística Sumaria

Medidas de tendencia central

• Aquellas que nos indican cual podría ser el punto medio o típico de un conjunto de datos analizados.

• Llamados “Promedios”.• Promedios principales:

Media aritmética simple

Media ponderada

Media geométrica

Media Armónica

Mediana

Moda

• Ventajas:

• Concepto familiar para muchas personas

• Es única para cada conjunto de datos

• Es posible comparar medias de diferentes muestras

• Desventajas:

• Se ve afectada por los datos extremos.

Media aritmética

0 1 2 3 4 5 6 7 8 9 10

Media = 3

0 1 2 3 4 5 6 7 8 9 10

Media = 4

Media ponderada

k

ii

k

iii

p

k

ii

k

iii

p

w

xwx

w

Xw

1

1

1

1• Media aritmética en la

cual se considera a cada uno de los valores de las variables de acuerdo con su importancia relativa en el grupo.

Media geométrica

• De n números positivos es la raíz n-ésima del producto de los n números.

• Para promediar porcentajes, índices y cifras relativas.

• Determinar el incremento porcentual promedio en ventas, producción, etc.

G nN

GN

X X X X

ValoralfinalValoralinicio

1 2 3

1 1

..

Mediana

• Punto medio de los valores después de ordenarlos.

• Es un promedio de posición.

• No es afectada por valores extremos.

Med

DatosNoAgrupados

NX

2

0 5.

MedN

faAi

DatosAgrupados

ii

L f

2

Reglas1º Si la serie es impar, la mediana ocupa el lugar

central de la serie previamente ordenada.

Ejemplo: 5, 10, 10, 12, 15, 17, 20, 21, 24

Mediana

2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada.

Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34

5.202

2318

mediana

Ventajas:• Los valores extremos no afectan a la mediana como

en el caso de la media aritmética.• Es fácil de calcular, interpretar y entender.• Se puede determinar para datos cualitativos.

Desventajas:• Como valor central, se debe ordenar primero la

serie de datos.

Mediana

Moda

• Valor que más se repite en un conjunto de datos.

• No es afectada por valores extremos.

• Para datos discretos es fácil de calcular.

• No puede ser calculada exactamente en una dist. de frecuencias.

Mo i

DatosAgrupados

iLd

d d

1

1 2

14

4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38

Ejemplo:

Moda

Ventajas:• Se puede utilizar tanto para datos cualitativos como

cuantitativos.• No se ve afectada por los valores externos

Desventajas:• No tiene un uso tan frecuente como la media.• Muchas veces no existe moda (distribución amodal).• En otros casos la distribución tiene varias modas, lo

que dificulta su interpretación.

Moda

Selección del promedio apropiado

OBSERVACIÓN DATOS

EDAD 22, 24, 25, 26, 27, 28, 28, 29, 30, 31, 33, 34

INGRESO EN MILES DE $

8, 8.2, 9,10,11,12, 12.3,12.5,13,13.5, 86,97

TALLA ZAPATOS

39, 40, 41, 41, 41, 41, 42, 42, 43, 43, 44, 45

Selección del promedio más adecuado

• La mediana siempre es la posición central.• La moda se puede emplear cuando se requiere

una idea rápida de la tendencia central.• La más usada es la media aritmética.• La más representativa para datos de una

distribución asimétrica es la mediana.• Media valor de equilibrio de Magnitud .

Mediana valor de equilibrio de Cantidad.Moda valor con mayor frecuencia.

Cuartiles, deciles y percentiles(Fractiles o cuantiles)

• Medidas de posición.• Dividen en :

– Cuatro (Qj)– Diez (Dj)– Cien (Pj)

• Formulación semejante a la mediana.

j jnF

j ijij

F X

F L f

DatosNoAgrupados

jnF faA

i

DatosAgrupados

0 5.

Mismo centro, Diferente variación

Dispersión

Varianza DesviaciónEstandard

Coeficiente de Variación

Rango Desviación Media

Información sobre la variabilidad de los datos.

Medidas de dispersión

Rango o recorrido

• Diferencia entre el valor mayor y el valor menor de un conjunto de datos.

• No está afectado por los valores comprendidos entre los extremos.

R V max V min

DatosNoAgrupados

R A B

DatosAgrupadoss iL L

. . .

( ) ( )

Ventajas• fácil de calcular• fácil de entender e interpretar

Desventajas• sólo considera los valores extremos• no toma en cuenta ni el número de datos ni el valor

de estos

Rango o recorrido

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13

Desviación media

• Media de los valores absolutos de las diferencias entre las variables y la media.

• Da una mejor descripción de la dispersión que el rango.

DMN

DatosNoAgrupados

DMN

DatosAgrupados

ii

N

i ii

N

X

f X

1

1

Varianza

• Media aritmética de las desviaciones cuadráticas respecto a la media.

• Expresada en unidades al cuadrado.

• n-1, factor de corrección.

2

2

1

X

NPoblacion

i

N

S

x

nMuestra

ii

n

x2

2

1

1

Desviación estándar

ii

N

ii

n

X

x

NPoblacion

Sx

nMuestra

2

1

2

1

1

• Es la raíz cuadrada positiva de la varianza.

• Unidades originales.

• Permite medir el % de elementos dentro de intervalos de una curva simétrica.

• Puntaje estándar (Z).

Comparación de Desviaciones Estándar

Media = 15.5

s = 3.338 11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

Datos B

Datos A

Media = 15.5

s = .9258

11 12 13 14 15 16 17 18 19 20 21

Media = 15.5

s = 4.57

Datos C

-3σ -2σ -1σ +1σ +2σ +3σμ

x

Z

Puntaje o Resultado Estándar (Z)

-3 -2 -1 +1 +2 +30Z

• Regla Empírica, si la distribución de datos tiene forma acampanada, entonces el intervalo:

• contiene cerca 68% de los valores en la población o muestra.

1σμ

μ

68%

1σμ

Interpretación y usos de la Desviación Estándar

• contiene cerca 95% de los valores en la población o muestra.

• contiene a casi todos (cerca 99.7%) los valores de la población o

muestra.

2σμ

3σμ

3σμ

99.7%95%

2σμ

Interpretación y usos de la Desviación Estándar

-3σ -2 σ -1σ +1σ +2σ +3σμ

34.13%34.13%

13.60%13.60%

2.135%2.135%

0.135%0.135%

68.26%

95.46%

99.73%

Interpretación y usos de la Desviación Estándar

Coeficiente de variación

CV

Poblacion

CVS

xMuestra

*

*

100

100

• Indica la magnitud relativa de la desviación estándar con respecto a la media aritmética.

• Comparación de distribuciones.

Coeficiente de variación

CV Grado de Variablidad

0 < CV < 10 Datos muy homogéneos

10 ≤ CV < 15Datos regularmente homogéneos

15 ≤ CV < 20Datos regularmente variables

20 ≤ CV < 25 Datos variables

CV ≥ 25 Datos muy variables

Medidas de Simetría y Curtosis

• Evalúa como están concentradas las observaciones.• Además de la tendencia para agruparse alrededor de

ciertos valores y grados de dispersión.• Representatividad de los valores de tendencia y su

confiabilidad.• Coeficientes:

– de Asimetría de Pearson– de Curtiosis

Coeficiente de Simetria y Curtosis de Fisher

𝑠𝑘 = σ ሺ𝑥𝑖 − 𝑥ҧሻ3𝑛𝑖=1ሺ𝑛− 1ሻ𝑠2

• Tercer momento • Simétrica = 0• Asimetrica Positiva > 0• Asimetrica Negativa < 0

Simetría Curtosis• Cuarto Momento• Mesocurtica = 0• Leptocurtica > 0• Platicurtica < 0

𝑘 = σ ሺ𝑥𝑖−𝑥ҧሻ4𝑛𝑖=1 ሺ𝑛−1ሻ𝑠4 -3

Sesgo de una distribución

Coeficiente de Curtosis

K > 0 K < 0K = 0

Análisis de Regresión Simple

• Finalidad es establecer una relación cuantitativa (ecuación de regresión) entre dos variables, y estimar el valor de Y (dependiente) con base en un valor de X (independiente).

• Ecuación de estimación o de pronóstico (Y’) .

• Regresión lineal simple

– Una recta.

Y a bX'

Y X' 0 1

Análisis de regresión simple

• Métodos : gráfico y matemático (mínimos cuadrados).

• Gráfico– Diagrama de dispersión.– Trazar una recta que trate de unir los puntos.– Ventaja: simple y directo.– Desventaja: procedimiento subjetivo.

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6

X 3 1 2 5 4

Y 9 5 7 14 10

Análisis de regresión simple• Mínimos cuadrados

– Técnica para encontrar la ecuación de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores observados y los estimados (recta) de Y.

– Hallar los coeficientes de regresión a y b.– Ecuaciones Normales.

a Y bX

bXY nXY

X n X

2 2

Y na b X

XY a X b X

;

2

Recta de regresión

0

2

4

6

8

10

12

14

0 1 2 3 4 5

Y’=2.7+2.1X

YY’*

*

ValorEfectivo

ValorEstimado

• Error estándar de estimación– Mide la disparidad (dispersión) promedio

entre los valores observados y los valores estimados de Y.

– Indicador del grado de precisión de la ecuación.– No es la más adecuada para medir relación.

Análisis de regresión simple

y x

y x

S

S

Y Y

n

Y a Y b XY

n

.

.

'

( ) ( )

2

2

2

2

Coeficiente de correlación (r)

• Karl Pearson, 1900.

• Mide el grado de asociación o relación lineal entre

las variables X e Y.

• Sus valores van de -1 a +1.(correlación negativa y

positiva perfecta).

• Es el mismo signo de b.

rXY nXY

X nX Y nY

( )( )2 2 2 2

Coeficiente de correlación (r)

Medida de intensidad de la relación entre dos conjuntos de variables.

CorrelaciónNegativaPerfecta

NingunaCorrelación

CorrelaciónPositivaPerfecta

CorrelaciónNegativa

Moderada

CorrelaciónPositiva

Moderada

0-1 1

Correlación positivaCorrelación negativa

0.5 0.5

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -.6 r = 0

r = +.3r = +1

Y

Xr = 0

Coeficiente de correlación (r)

Variaciones

0

2

4

6

8

10

12

14

0 1 2 3 4 5

YY’*

*VariaciónTotal Variación

Explicada

Y

Variación noExplicada

Coeficiente de determinación (r2)

• Proporción de la variación total en la variable

dependiente (Y) que se explica por o se debe a la

variación de la variable independiente.

• Puede adoptar valores entre 0 y 1.

rVar Explicada

Var Total

Y Y

Y Y

ra Y b XY nY

Y nY

22

2

22

2 2

.

.

( ' )

( )

Si r2 = 1 : Correlación perfecta, es decir, toda

variación de Y puede explicarse por X

Si r2 = 0 : No existe correlación entre X e Y. La

variación explicada es 0.

La variable X no explica nada de los cambios en Y

1 r 0 2

Cuanto más cerca a uno, las variables tendrán mayor correlación.

Coeficiente de determinación (r2)

• Una empresa dedicada a la producción de cierto artículo perecible ZZ desea evaluar la relación existente entre la distancia recorrida para transportar su producto a los diferentes puntos de comercialización y las mermas producidas por dicho transporte. Con este fin, se lleva a cabo un estudio en el que se observan, entre otras variables:

Y= porcentaje de carga útil final (luego del transporte)

X= Distancia recorrida (decenas de kilómetros)• Y se encuentra en una muestra aleatoria de 12 viajes o

recorridos los siguientes resultados:

• Con la finalidad de establecer medidas preventivas, ¿Cuál será el porcentaje de carga útil para un futuro transporte de 250 km.?

Análisis de regresión simple

Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95

Distancia Recorrida (x)

33 12 18 3 4 8 66 5 37 29 15 10

“Estadística”Prof. Juan Narro Lavi

Diplomatura de Estudio en

Gestión de Operaciones