REGRESION Y CORRELACION. A NÁLISIS DE DOS VARIABLES Frecuentemente dos variables están...

Post on 22-Jan-2016

229 views 1 download

Transcript of REGRESION Y CORRELACION. A NÁLISIS DE DOS VARIABLES Frecuentemente dos variables están...

REGRESION Y CORRELACION

ANÁLISIS DE DOS VARIABLES Frecuentemente dos variables están

relacionadas o asociadas.Ejemplo: estatura y peso

sexo y talla de zapatos alimentación y crecimiento precio y demanda de un producto

CORRELACION Se refiere a la relación o asociación entre dos

variables. a) Positiva

b) negativa

2 3 4 5 6 7 8 9 100123456789

10

10 15 20 25 30 35 40 450

1

2

3

4

5

6

7

b) Sin correlación

0 10 20 30 40 50 60 70 80 900

200

400

600

800

1000

1200

CORRELACION POSITIVA

a) Fuerte

b) moderada

2 3 4 5 6 7 8 9 100

50

100

150

200

250

60 65 70 75 80 85 900

10

20

30

40

50

60

70

80

90

100

Débil:

.

2 3 4 5 6 7 8 9 100

50

100

150

200

250

Correlación Valor de r

Positiva 0 r 1

Negativa -1 r 0

Perfecta r = 1

Sin correlación r = 0

REGRESION

Es el método de ajustar una línea a un conjunto de datos y encontrar la ecuación de esa línea.

La línea es llamada también “modelo”

La línea de regresión es también llamada “la mejor línea de ajuste” y puede ser usada para predecir el valor de una variable dependiente dado el valor de la variable independiente.

Hay dos métodos para encontrarla: “ por ojo” y “mínimos cuadrados”

MÉTODO “ POR OJO”

160 165 170 175 180 1850

102030405060708090

-Se toman dos puntos de la recta para encontrar la ecuación. Por ejemplo (160, 64) y (190,88).

- Se calcula la pendiente de los dos puntos:

8.03024

1601906488

m

Entonces, la ecuación es :

Dificultad: la respuesta puede variar de una persona a otra.

648.0

1288.064

)160(8.064

8.016064

xy

xy

xyxy

MIDIENDO LA CORRELACION

Significa medir la fuerza y dirección de la asociación entre dos variables.

El coeficiente de correlación (r), tiene valor entre -1 y 1

La correlación positiva es una asociación entre dos variables si el incremento de una resulta en el incremento de otra.

La correlación es negativa si el incremento de una variable lleva una disminución en la otra.

COEFICIENTE DE CORRELACIÓN DE PEARSON

Sirve para encontrar el grado de alineación entre dos muestras de variables X y Y, dados en pares ordenados

donde xy : covarianza de x y y x : desviación estándar de x

y : desviación estándar de y

EL COEFICIENTE DE DETERMINACION (R 2 )

Valor Fuerza de la correlación

r 2 = 0 No hay correlación

0 r 2 0.25 Correlación muy débil

0 .25 r 2 0.50 Correlación débil

0.50 r 2 0.75 Correlación moderada

0.75 r 2 0.90 Correlación fuerte

0.90 r 2 1.0 Correlación muy fuerte

r 2 = 1 Perfecta correlación

MÍNIMOS CUADRADOS

)(2

xxS

Syy

x

xy

Se llama así porque es el proceso de minimizar la suma de los cuadrados de los residuos.

Un residuo es un valor de donde y es un valor observado y el otro es un posible valor sobre la línea de ajuste.

Hay residuos positivos y negativos.

yy

FÓRMULA DE MÍNIMOS CUADRADOS

)(2

xxS

Syy

x

xy

INTERPOLACIÓN/ EXTRAPOLACIÓN

Interpolación: si se usa la ecuación de mínimos cuadrados para predecir valores entre el valor más bajo y el más alto de la serie.

Extrapolación: si se usa la ecuación de mínimos cuadrados para predecir valores afuera del área comprendida entre el valor más bajo y el más alto de la serie.

EL TEST DE INDEPENDENCIA (CHI CUADRADO) X2

Se usa para encontrar si dos clasificaciones ( o factores) de una muestra son independientes.

Ejemplo:

• Sexo y capacidad de compra

• Ingresos e intención de voto

• Grupos escolares y resultados académicos

El test determina la diferencia entre los valores observados y los esperados.

Donde fo: frecuencia observada fe: frecuencia esperada

fefefo

X calc2

2 )(

GRADOS DE LIBERTAD

La distribución de Chi cuadrado depende de los grados de libertad (gl) donde:

gl = ( f -1) (c-1)

f: número de filas c: número de columnas

TABLA DE VALORES CRÍTICOSGrados de libertad

Área derecha de los valores de la tabla

0.10 0.05 0.01

1 2.71 3.84 6.63

2 4.61 5.99 9.21

3 6.25 7.81 11.34

4 7.78 9.49 13.28

5 9.24 11.07 15.09

6 10.64 12.59 16.81

7 12.02 14.07 18.48

8 13.36 15.51 20.09

9 14.68 16.92 21.67

10 15.99 18.31 23.21

TEST FORMAL DE INDEPENDENCIA Paso 1:

- Llamamos Ho a la hipótesis nula. Esta es la oración que considera que las variables son independientes- Llamamos H1 a la hipótesis alternativa. Esta es la oración que considera que las variables no son independientes.

Paso 2: Calculamos los grados de libertad gl = (c -1) ( f- 1)

Paso 3: Determinamos el nivel de significación

Paso 4: Establecemos la desigualdad X2

calc K, donde K es el valor obtenido de la tabla de valores críticos

Paso 5: De la tabla de contingencias, encontramos X2

calc

usando la fórmula

Paso 6: Aceptamos o rechazamos la hipótesis nula dependiendo del resultado de la desigualdad.

Paso 7: Si operamos con un nivel de significación del 5%, también podemos usar valores de p,

si p 0.05, aceptamos Ho si p 0.05, rechazamos Ho

fefefo

X calc2

2 )(