Correlacion y Regresion Lineal

22
ESTADISTICA Y PROBABILIDADES TEMA : REGRESION Y CORRELACION LINEAL INTEGRANTE: AMAYA SOLIS Kevin CONDOR CHACON Julio Cesar GUZMAN TOMAS Jhon Alexander DOCENTE: Ing. Edwin CAMPOS GONZALES SEMESTRE: III 2015

description

estadística

Transcript of Correlacion y Regresion Lineal

ESTADISTICA Y PROBABILIDADESTEMA :

REGRESION Y CORRELACION LINEAL

INTEGRANTE:AMAYA SOLIS KevinCONDOR CHACON Julio Cesar

GUZMAN TOMAS Jhon Alexander

DOCENTE: Ing. Edwin CAMPOS GONZALES

SEMESTRE: III

2015

Parte de la Estadística corresponde a la Estadística Inferencial y dentro de ella los capítulos de correlación y regresión son muy usados en la Investigación Científica, una herramienta muy útil cuando se trata de relacionar 2 o más variables, relacionadas entre si, como por ejem. nivel de hemoglobina y embarazo 

Distinguiremos entre relaciones funcionales y relaciones estadísticas

Introducción

3

Relación funcional entre dos variables Una relación funcional se expresa mediante

una función matemática.

Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:

Y=f(X)

Ejemplo 1

Parcela Dosis Rend.(kg/h)

1 75 1502 25 503 130 260

4

Relación funcional perfecta entre dosis y rendimientos

0

50

100

150

200

250

300

0 20 40 60 80 100 120 140

Dosis

Rendim

iento

Rend.

Figura 1

Nota: Las observaciones caen exactamente sobre la línea de relación funcional

5

Relación estadística entre dos variables

A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la curva de relación entre las variables

Ejemplo 2

Lote de prod. Tamaño del lote Horas hombre1 30 732 20 503 60 1284 80 1705 40 87

6

Relación estadística entre tamaño del lote y horas hombre

0

20

40

60

80

100

120

140

160

180

0 10 20 30 40 50 60 70 80 90

Tamaño del lote

Hor

as h

ombre

Horas hombre

Figura 2

Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.

Esta dispersión de punto alrededor de la línea representa la variación aleatoria

7

Gráfico de dispersión

Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

8

Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la/s otra/s.Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés. Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimarVariables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.Regresión simple: interviene una sola variable independienteRegresión múltiple: intervienen dos o más variables independientes.Regresión lineal: la función es una combinación lineal de los parámetros.Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal

Conceptos básicos

Coeficiente de correlación lineal

El Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones Varía entre -1 y 1. Valores de -1 ó 1 indican correlación

perfecta. Valor igual a 0 indica ausencia de

correlación. Valores negativos indican una relación lineal

inversa y valores positivos indican una relación lineal directa

9

Correlación Negativa Perfecta

10

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

11

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

Correlación Positiva Perfecta

12

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

Ausencia de Correlación

13

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

X

Y

Correlación Fuerte y Positiva

Fórmula para el coeficente de correlación (r) Pearson

14

[ ] ( ) ( )[ ]2222 YYn)X()X(n)Y)(X()XY(n

=rΣΣΣΣ

ΣΣΣ

MODELOS DE REGRESIÓN

Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:

Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática

Una dispersión de las observaciones alrededor de la curva de relación estadística

15

Estas dos características están implícitas en un modelo de regresión, postulando que:

En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X.

Las medias de estas distribuciones varían de manera sistemática al variar X.

REPRESENTACIÓN GRÁFICA DEL MODELO DE REGRESIÓN LINEAL

16

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

ANÁLISIS DE REGRESIÓN

Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la o las variables independientes (X).

Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión. 17

Supuestos de Regresión Lineal Clásica

Cada error está normalmente distribuido con:

Esperanza de los errores igual a 0

Variancia de los errores igual a una constante 2.

Covariancia de los errores nulas para todo ij.

18

Proceso de estimación de la regresión lineal simple

y=0+1x+Ecuación de regresiónE(y)=0+1x

Modelo de regresión

Parámetros desconocidos0.1

Datos de la muestrax yx1 y1

x2 y2

. .

. .

. .xn yn

proporcionan estimados

b0.b1

Ecuación estimada de regresióny=b0+b1x

Estadísticos de la muestra

b0 y b1

0 y 1

LÍNEAS POSIBLES DE REGRESIÓN EN LA REGRESIÓN LINEAL SIMPLE

xx

Ey

Sección ARelación lineal positiva

Línea de regresión

La pendiente 1 es positiva

*

x

Ey

Sección BRelación lineal negativa

Línea de regresión

La pendiente 1 es negativa*

Sección CNo hay relación

Ey

Línea de regresión

La pendiente 1 es 0

*

Ordenada al origen 0

*

Estimación de la ecuación de Regresión Simple

Y’= a + bX, donde: Y’ es el valor estimado de Y para distintos X.

a es la intersección o el valor estimado de Y cuando X=0

b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de X

el principio de mínimos cuadrados es usado para obtener a y b:

21

bn XY X Y

n X X

aY

nbX

n

( ) ( )( )

( ) ( )

2 2

22

Variables implicadas:

Cuantitativa

Respuesta

Cuantitativas o dicotómicas

Eje

mp

los • Tensión arterial

• concentración sérica

• Tamaño de una lesión

• Pporcentaje de absorción

• Calidad de vida

• Satisfacción del paciente

• Nnivel de colesterol

• Peso en kg.

• Edad

• Dosis de un fármaco (mg)

• Nivel de ansiedad

• Sexo

Explicativa (MÚLTIPLES)

Regresión Lineal Múltiple Variables