Estadistica para la investigación (sesión5) version mejorable

44
Lenin H. Cari Mogrovejo [email protected]

Transcript of Estadistica para la investigación (sesión5) version mejorable

Page 2: Estadistica para la investigación (sesión5) version mejorable

¿Se puede elegir concebir un

niño o una niña?

Según el Dr. Landrum Shettles, la dieta y el

calendario influyen en el sexo de un bebé.

Existe la posibilidad de 85% y 95%.

Intr

od

ucció

n

Page 3: Estadistica para la investigación (sesión5) version mejorable

Niño entre más cerca sea el acto sexual

del día de la ovulación y niña, si el acto

sexual se realiza a 2-3 días de la ovulación.

Page 4: Estadistica para la investigación (sesión5) version mejorable

No importa el sexo,

lo que importa es que sea feliz

Page 5: Estadistica para la investigación (sesión5) version mejorable

¿Puedo relacionar el peso y la

edad de una persona?

Page 6: Estadistica para la investigación (sesión5) version mejorable

ANÁLISIS DE CORRELACIÓN

Y REGRESIÓN LINEAL

Page 7: Estadistica para la investigación (sesión5) version mejorable

CORRELACIÓN ENTRE VARIABLES

CUANTITATIVAS

TIEMPO A

VE

LO

CID

AD

B

Page 8: Estadistica para la investigación (sesión5) version mejorable

CORRELACIÓN Y

REGRESIÓN LINEAL (1)

Estudian la existencia de una relación lineal

entre dos variables de naturaleza

cuantitativa.

Sus objetivos, aunque complementarios,

son diferentes.

Page 9: Estadistica para la investigación (sesión5) version mejorable

CORRELACIÓN Y

REGRESIÓN LINEAL (2)

El ACL estudia la relación lineal de intensidad y la dirección.

Existe una relación lineal entre el coeficiente intelectual de una persona y sus ingresos?

El ARL ayuda en la predicción de los valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor de otra variable cuantitativa (llamada independiente).

¿Cuál es el coeficiente intelectual de un niño con una buena nutrición?

Page 10: Estadistica para la investigación (sesión5) version mejorable

ANÁLISIS DE CORRELACIÓN (1)

El proceso para determinar el grado de relación

lineal se puede resumir en los siguientes pasos:

A. Elaboración del diagrama de dispersión.

B. Inspección del diagrama en busca de una relación

lineal.

C. Cálculo de la covarianza entre las dos variables

D. Cálculo de las desviaciones estándar

E. Cálculo del coeficiente de correlación

Page 11: Estadistica para la investigación (sesión5) version mejorable

A.- DIAGRAMA DE DISPERSIÓN

Consiste en la representación en ejes

de coordenadas de los puntos

correspondientes a los pares de

valores de cada individuo.

Es indiferente qué variable representemos en

abscisas y qué variable en ordenadas. En el

análisis de correlación se da una simetría entre

las dos variables. No cabe hablar, por tanto, de

variable dependiente o independiente.

Page 12: Estadistica para la investigación (sesión5) version mejorable

Llamado también Ploteo de Datos, tiene como propósito mostrar la

posible tendencia (en caso de existir) entre las variables “X” y “Y”.

Consiste en llevar los pares de valores “x, y” a un sistema de

coordenadas (bidimensional)

Y

X

(x, y)

Diagrama de Dispersión

Page 13: Estadistica para la investigación (sesión5) version mejorable

FORMAS TÍPICAS DE LOS DIAGRAMAS DE

DISPERSIÓN ESTADÍSTICA

Page 14: Estadistica para la investigación (sesión5) version mejorable

DIAGRAMA DE DISPERSIÓN (2)

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30

PUBLICIDAD

VEN

TA

S

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30

PUBLICIDAD

VEN

TA

S

Page 15: Estadistica para la investigación (sesión5) version mejorable

b.-INSPECCIÓN DEL DIAGRAMA

La relación entre dos variables cuantitativas

puede ser de naturaleza no lineal, por ejemplo

cuadrática, cúbica, logarítmica, etcétera.

El análisis de correlación lineal sólo debe

aplicarse cuando de la inspección del diagrama

de dispersión se pueda deducir la existencia de

una relación lineal.

Page 16: Estadistica para la investigación (sesión5) version mejorable

c.-CÁLCULO DE LA COVARIANZA

La covarianza es una medida del grado en

que dos variables cuantitativas

evolucionan paralelamente.

N

YXN

i

YiXi

XY

1

Page 17: Estadistica para la investigación (sesión5) version mejorable

INTERPRETACIÓN DE LA COVARIANZA

Si Sxy > 0 hay dependencia directa (positiva), es decir, a

grandes valores de x corresponden grandes valores de y.

Si Sxy = 0 Una covarianza 0 se interpreta como la no

existencia de una relación lineal entre las dos variables

estudiadas.

Si Sxy < 0 hay dependencia inversa o negativa, es decir,

a grandes valores de x corresponden pequeños valores

de y. .

Page 18: Estadistica para la investigación (sesión5) version mejorable

e.- EL COEFICIENTE DE CORRELACIÓN

Surge ante los problemas que plantea la

covarianza.

Se designa con la letra griega ( )

Ventajas:

Carece de unidades

Está acotado

11 YX

XY

Page 19: Estadistica para la investigación (sesión5) version mejorable

EL COEFICIENTE DE CORRELACIÓN (2)

Si el coeficiente de correlación vale -1estamos ante una relación lineal perfecta e inversa entre las dos variables.

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

0 5 10 15 20

X

Y

¡Cuidado!: la pendiente

no es necesariamente -1

Page 20: Estadistica para la investigación (sesión5) version mejorable

EL COEFICIENTE DE CORRELACIÓN (3)

Si el coeficiente de correlación vale +1

estamos ante una relación lineal perfecta y

directa entre las dos variables.

Diagrama de dispersión

0

10

20

30

40

50

60

70

80

90

0 5 10 15 20

X

Y

¡Cuidado!: la pendiente

no es necesariamente +1

Page 21: Estadistica para la investigación (sesión5) version mejorable

EL COEFICIENTE DE CORRELACIÓN (4)

Si el coeficiente de correlación vale 0 no

existe relación lineal entre las dos variables.

Diagrama de dispersión

0

2

4

6

8

10

12

0 5 10 15

X

Y

Page 22: Estadistica para la investigación (sesión5) version mejorable

Regresión lineal

Page 23: Estadistica para la investigación (sesión5) version mejorable

23

REGRESIÓN LINEAL

Es la técnica matemático – estadística que

analiza la dependencia entre dos o más

variables.

Observa si las variaciones de una

característica provocan variaciones en la

magnitud de otra característica.

Es la función matemática que, para un valor

dado de una variable, da el valor esperado

de una característica, con la cual está ligada.

Page 24: Estadistica para la investigación (sesión5) version mejorable

Y

X1

X2.

.

.

Xi

En el desarrollo de los eventos, puede

ser que una variable sea afectada por el

comportamiento de otra (s) variable (s)

Es de interés poder cuantificar este tipo

de relación de manera que se pueda

predecir una variable en función de otra

En Regresión Lineal Simple es de

interés cuando una variable afecta el

comportamiento de otra variable

Y: Variable Dependiente

X: Variable Independiente

Y = f(X)Propósito de la R.L.S: Predicción

Regresión Lineal Simple

Page 25: Estadistica para la investigación (sesión5) version mejorable

25

EJEMPLOS

El precio de venta (VD; Y) depende del precio de costo de unartículo (VI; X).

El costo total (VD; Y) depende de la producción total (VD; X).

El tiempo de servicios (VD; Y) de un trabajador depende desu edad (VD; X).

El consumo familiar (VD; Y) está en función del ingresofamiliar VD; X).

Donde:

VD; Y = variable dependiente, predictando, explicativa.

VI; X = variable independiente; predictor, explicativa.

Esta relación se expresa: Y = f(X), “Y depende de X”

Page 26: Estadistica para la investigación (sesión5) version mejorable

ANÁLISIS DE REGRESIÓN

El ARL es una herramienta que

persigue ayudar en la predicción

de los valores de una variable

cuantitativa supuestos conocidos

los valores de otra variable

cuantitativa con la que la primera

tiene una relación de tipo lineal.

Page 27: Estadistica para la investigación (sesión5) version mejorable

DIAGRAMA DE DISPERSIÓN

Partimos del diagrama de dispersión (igual que en ACL), pero hemos de distinguir entre: Variable dependiente: la que queremos

predecir.

Variable independiente: la que nos va a servir para predecir.

Situaremos la variable dependiente en ordenadas (Y) y la independiente en abscisas (X).

Page 28: Estadistica para la investigación (sesión5) version mejorable

RECTA DE REGRESIÓN

Diagrama de dispersión

0

5

10

15

20

25

30

35

40

0 5 10 15

X

Y

Diagrama de dispersión

y = 1,243x - 141,98

R2 = 0,8634

0

20

40

60

80

100

120

160 170 180 190 200

ALTURA

PES

O

Page 29: Estadistica para la investigación (sesión5) version mejorable

COEFICIENTE DE DETERMINACIÓN

A la proporción de variabilidad eliminada por

la recta de regresión se le llama coeficiente

de determinación (R2)

Como es una proporción, toma valores entre

0 y 1

2

2 1

2

1

ˆN

i

i

N

i

i

Y YVE

RVT

Y Y

Page 30: Estadistica para la investigación (sesión5) version mejorable

COEFICIENTE DE DETERMINACIÓN (2)

Coincide con el cuadrado del coeficiente de correlación.

Cuando el coeficiente de correlación es +1 o -1, la

relación lineal es perfecta y la recta de regresión consigue

eliminar toda la variabilidad de la variable a estimar, en

consecuencia R2=1.

Cuando el coeficiente de correlación es 0, no existe

relación lineal entre las variables. En consecuencia, el

conocimiento de la variable independiente no ayuda a

estimar la variable dependiente y la recta de regresión no

consigue eliminar nada de la variación total. Así, R2=0

22 R

Page 31: Estadistica para la investigación (sesión5) version mejorable

¿Cómo estimo sin la recta de regresión?

ALTURA PESO

175 69

184 85

192 93

165 68

174 72

182 87

191 102

¿Cuánto pesa un individuo ?

82,28 Kg. (el peso promedio del

conjunto de individuos)

¿Me equivoco?

Seguro, el riesgo en la predicción

es mayor cuanto mayor sea la

varianza del peso

Page 32: Estadistica para la investigación (sesión5) version mejorable

¿Cómo estimo con la recta de regresión?

Diagrama de dispersión

y = 1,243x - 141,98

R2 = 0,8634

0

20

40

60

80

100

120

160 170 180 190 200

ALTURA

PES

O

¿Cuánto pesa un individuo

que mide 186 cm.?

1,243x186-141,98=89,218

¿Me equivoco?

Seguro, pero corres menos riesgo

que si no conocieras su altura.

De hecho, has reducido la

variabilidad del peso en un 86,34%

Page 33: Estadistica para la investigación (sesión5) version mejorable

33

APLICACIÓN A continuación se muestran los datos observados correspondiente a la

función costo total (C = Yi) medida en millones de soles, con respecto a la

producción total (Q = Xi) medida en miles de soles.

PRODUCCIÓN (Xi) COSTO TOTAL (Yi)

10 30

20 36

30 40

40 48

50 54

60 58

70 66

80 68

Page 34: Estadistica para la investigación (sesión5) version mejorable

DIAGRAMA DE DISPERSIÓN

REGRESIÓN LINEAL ENTRE LA PRODUCCIÓN

TOTAL Y EL COSTO TOTAL

0

10

20

30

40

50

60

70

80

0 20 40 60 80 100

PRODUCCIÓN

COST

O T

OTA

L

34

Page 35: Estadistica para la investigación (sesión5) version mejorable

PLANTEAR LA ECUACIÓN DE ESTIMACIÓN DE REGRESIÓN LINEAL

Ŷi = 24,5 + 0,5666667Xi

COSTO TOTAL ESTIMADO = 24,5 + 0,5666667 * PRODUCCIÓN TOTAL

INTERPRETAR b0.

Por cada mil unidades que se incremente la producción, el costo

total se incrementará en 566 666,67 soles.

ESTIMAR O PREDECIR CUÁNTO SERÁ EL COSTO TOTAL SI SE

QUIERE PRODUCIR 85 000 ARTÍCULOS.

Ŷi = 24,5 + 0,5666667 * 85

Ŷi = 72,66666667 * 1 000 000

Ŷi = 72 666 666,95 SOLES.

i 0 1 i= b + b XY

35

Page 36: Estadistica para la investigación (sesión5) version mejorable

36

GRAFICAR LA RECTA DE REGRESIÓN LINEAL ESTIMADA

REGRESIÓN LINEAL ENTRE LA PRODUCCIÓN

TOTAL Y EL COSTO TOTAL

y = 0,5667x + 24,5

0

10

20

30

40

50

60

70

80

0 20 40 60 80 100

PRODUCCIÓN

CO

ST

O T

OT

AL

Page 37: Estadistica para la investigación (sesión5) version mejorable

Algunas consideraciones

Page 38: Estadistica para la investigación (sesión5) version mejorable

38

DIAGRAMA DE DISPERSIÓN O

NUBE DE PUNTOS

••

••

••

•• •

• •

• •

•• ••

••

••

••

• •••

• •

••

••

••

•• •

•• •

•• ••

••

••

••

••

(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa

(d) Curvilínea inversa (e) Lineal inversacon más dispersión

(d) Ninguna relación

Y

X

Y

X

Y

X

Y

X

Y

X

Y

X

Page 39: Estadistica para la investigación (sesión5) version mejorable

Coeficiente de Pearson

El coeficiente de correlación (r) mide el grado de afinidad o asociación entre

dos variables.

Coeficiente de Pearson:

Coeficiente de Determinación: CD = r2 * 100

Propiedades de r: -1 ≤ r ≤ +1

a) Si r > 0, existe “correlación directa positiva”.

b) Si r < 0, existe una “correlación inversa negativa”.

c) Si r2 = 1, los datos forman una línea recta.

d) Si r = +1, entonce hay una correlación perfecta positiva.

e) Si r = -1, Existe una correlación perfecta negativa.

f) Si r = 0, las variables son independientes; no están correlacionadas.

2 2 2 2

n XY - X Yr =

[n X - ( X) ] [n Y - ( Y) ]

39

Page 40: Estadistica para la investigación (sesión5) version mejorable

GRADO DE ASOCIACIÓN O INTERRELACIÓN

COEFICIENTE r GRADO DE ASOCIACIÓN

0,0 ± 0,2 NULA

± 0,2 ± 0,4 POCA SIGNIFICATIVA

±0,4 ± 0,7 SIGNIFICATIVA

± 0,7 ± 0,9BASTANTE

SIGNIFICATIVA

± 0,9 ± 1,0 MUY SIGNIFICATIVA

40

Page 41: Estadistica para la investigación (sesión5) version mejorable

APLICACIÓN

Calcule el coeficiente de correlación y el coeficiente

de determinación del ejemplo anterior e interprete.

r = 0,9958246

Interpretación: Entre la producción total y el costo

total existe una correlación o grado de asociación

muy significativa, es decir se acepta que el costo

total esta influenciado por la producción total.

CD =99,17%

Interpretación: El 99,17% de la variación del costo es

explicada por la variación en la producción.

41

Page 42: Estadistica para la investigación (sesión5) version mejorable

Rango de Sueldo (X) Inasistencias (Y)11 1810 178 295 369 119 267 283 3511 148 207 322 399 168 266 313 40

Conjunto de datos

Page 43: Estadistica para la investigación (sesión5) version mejorable

0

5

10

15

20

25

30

35

40

45

0 2 4 6 8 10 12

Inasis

ten

cia

Rango de Salario

Diagrama de Dispersión

Page 44: Estadistica para la investigación (sesión5) version mejorable

Muchas gracias

Lenin H. Cari MogrovejoCel. [email protected][email protected]