Métodos de Regresión

32
REPÚBLICA DE PANAMÁ UNIVERSIDAD TECNOLÓGICA DE PANAMÁ CENTRO REGIONAL DE VERAGUAS FACULTAD DE INGENIERÍA INDUSTRIAL LICENCIATURO DE INGENIERÍA INDUSTRIAL ASIGNATURA: MÉTODOS NUMÉRICOS TÍTULO DE LA INVESTIGACIÓN: MÉTODOS DE REGRESIÓN INTEGRANTES: CASTILLO KRITZIA CUMBRERA VICTORIA GONZÀLEZ ALMA NARANJO ALADINO FACILITADOR: JAMES BERMÚDEZ II SEMESTRE 2012

Transcript of Métodos de Regresión

Page 1: Métodos de Regresión

REPÚBLICA DE PANAMÁ

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ

CENTRO REGIONAL DE VERAGUAS

FACULTAD DE INGENIERÍA INDUSTRIAL

LICENCIATURO DE INGENIERÍA INDUSTRIAL

ASIGNATURA:

MÉTODOS NUMÉRICOS

TÍTULO DE LA INVESTIGACIÓN:

MÉTODOS DE REGRESIÓN

INTEGRANTES:

CASTILLO KRITZIA

CUMBRERA VICTORIA

GONZÀLEZ ALMA

NARANJO ALADINO

FACILITADOR:

JAMES BERMÚDEZ

II SEMESTRE

2012

Page 2: Métodos de Regresión

INTRODUCCIÓN

En  análisis de  regresión lineal o ajuste lineal es una técnica de estadística utilizada para estudiar la relación entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de

regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para determinar en cuál diferentes medios de comunicación puede resultar más eficaz invertir; o para predecir el

número de ventas de un determinado producto.

En física se utiliza para caracterizar la relación entre variables o para calibrar medidas, etc. Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables (regresión múltiple), el análisis de

regresión lineal puede utilizar para explorar y cuantificar la relación entre una variable llamada dependiente o criterio (Y) y una o más variables llamadas independientes o predictoras (X1, X2,…, Xk), así como para

desarrollar una ecuación lineal con fines predictivos. Además el análisis de regresión lleva asociados una serie de procedimientos de diagnóstico que informan sobre la estabilidad e idoneidad del análisis y que proporcionan

pistas sobre cómo perfeccionarlo.

Page 3: Métodos de Regresión

ÍNDICE

INTRODUCCIÓN

MÉTODOS DE REGRESIÓN PAG

1. REGRESIÓN LINEAL………………………………………………………………………………..4-72. REGRESIÓN POLINOMIAL………………………………………………………………………...8-93. REGRESIÓN EXPONENCIAL……………………………………………………………...……..10-224. REGRESIÓN MÚLTIPLE…………………………………………………………………………..23-26

CONCLUSIÓN

RECOMENDACIONES

BIBLIOGRAFÍA

Page 4: Métodos de Regresión

MÉTODOS DE REGRESIÓN

REGRESIÓN LINEAL

Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una

variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser

expresado como:

: Variable dependiente, explicada o regresando.

: Variables explicativas, independientes o regresores.

: Parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.

Donde   es la intersección o término "constante", las   son los parámetros respectivos a cada

variable independiente, y   es el número de parámetros independientes a tener en cuenta en la regresión. La

regresión lineal puede ser contrastada con la regresión no lineal.

El Modelo De Regresión Lineal

El modelo lineal relaciona la variable dependiente Y con K variables explicativas   (k = 1,...K), o

cualquier transformación de éstas, que generan un hiperplano de parámetros  desconocidos:

donde   es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u

observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el

caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:

Page 5: Métodos de Regresión

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos ,

de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones.

En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable

dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parámetros, son los coeficientes de regresión, sin que se

pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en

Los valores   son por su parte estimaciones de la perturbación aleatoria o errores.

Hipótesis Modelo De Regresión Lineal Clásico

1. Esperanza matemática nula.

Para cada valor de X la perturbación tomará distintos valores de forma aleatoria, pero no tomará

sistemáticamente valores positivos o negativos, sino que se supone que tomará algunos valores mayores que

cero y otros menores, de tal forma que su valor esperado sea cero.

2. Homocedasticidad

 Para todo t

Todos los términos de la perturbación tienen la misma varianza que es desconocida. La dispersión de cada   en

torno a su valor esperado es siempre la misma.

3. Incorrelación.   Para todo t, s con t distinto de s

Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas o

autocorrelacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene

influenciado por los valores de la perturbación correspondientes a otras observaciones muestrales.

4. Regresores no estocásticos.

5. No existen relaciones lineales exactas entre los regresores.

6.   Suponemos que no existen errores de especificación en el modelo ni errores de medida en las

variables explicativas

7. Normalidad de las perturbaciones 

Supuestos Del Modelo De Regresión Lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:

1. La relación entre las variables es lineal.

2. Los errores en la medición de las variables explicativas son independientes entre sí.

Page 6: Métodos de Regresión

3. Los errores tienen varianza constante. (Homocedasticidad)

4. Los errores tienen una esperanza matemática igual a cero (los errores de una misma magnitud y distinto

signo son equiprobables).

5. El error total es la suma de todos los errores.

Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma

Donde   es el error asociado a la medición del valor   y siguen los supuestos de

modo que   (media cero, varianza constante e igual a un   y   con ).

Análisis

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

Derivando respecto a   y   e igualando a cero, se obtiene:5

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos

parámetros:

La interpretación del parámetro   es que un incremento en Xi de una unidad, Yi incrementará en 

Regresión lineal múltiple

La regresión lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede

comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en

relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación

estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que

una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:

Page 7: Métodos de Regresión

Donde   es el error asociado a la medición   del valor   y siguen los

supuestos de modo que   (media cero, varianza constante e igual a un   y  con  )

Rectas de regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de

dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo

ajuste:

La recta de regresión de Y sobre X:

La recta de regresión de X sobre Y:

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será

bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta

verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las

predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta

representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad

de la distribución.

Page 8: Métodos de Regresión

REGRESIÓN POLINOMIAL:

Algunas veces cuando la relación entre las variables dependientes e independientes es no lineal, es útil incluir

términos polinomiales para ayudar a explicar la variación de nuestra variable dependiente.

Las regresiones polinomiales se pueden ajustar la variable independiente con varios términos

Ejemplo

x Y xy x2 y2 x2y x3 x4

1 3 3 1 9 3 1 1

1.2 3.4 4.08 1.44 11.56 4.896 1.728 2.0736

1.5 5 7.5 2.25 25 11.25 3.375 5.0625

2 2 4 4 4 8 8 16

3 4.1 12.3 9 16.81 36.9 27 81

3.7 5 18.5 13.69 25 68.45 50.653 187.4161

4 7 28 16 49 112 64 256

4.5 6.5 29.25 20.25 42.25 131.625 91.125 410.0625

Σ 20.9

Σ 36 Σ 106.63 Σ 67.63 Σ 182.62 Σ 376.121 Σ 246.881 Σ 958.6147

Usando una Matriz para calcular valores de los coeficientes

Page 9: Métodos de Regresión

   

Usando el método de Eliminación de Gauss-Jordan

La ecuación final que modela el sistema es

Page 10: Métodos de Regresión

REGRESIÓN EXPONENCIAL

En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables X e Y es de forma

exponencial, en cuyo caso interesa ajustar a la nube de puntos una función del tipo:

Mediante una transformación lineal, tomando logaritmos neperianos, se convierte el problema en una

cuestión de regresión lineal. Es decir, tomando logaritmos neperianos:

Ejemplo

x y In y x2 x Iny In y2

1 3 1,0986 1 1,0986 1,2069

1,2 3,4 1,2237 1,44 1,4684 1,4974

1,5 5 1,6094 2,25 2,4141 2,5901

2 2 0,6931 4 1,3862 0,4803

3 4,1 1,4109 9 4,2327 1,9906

3,7 5 1,6094 13,69 5,9547 2,5901

4 7 1,9459 16 7,7836 3,7865

4,5 6,5 1,8718 20,25 8,4231 3,5056

Σ 20,9Σ 36

Σ 11,4628 Σ 67,63 Σ 32,7614 Σ 17,6455

Numero de datos = n = 8

x promedio =   =   = 2,6125

Page 11: Métodos de Regresión

y promedio =   =   = 1,43285

Usando la forma lineal de la Regresión Exponencial:

b =   =   = 0,216047

 = 1,43285 - (0,216047)(2,6125) = 0,868427

a = eb = e0,868427 = 2,38316

La ecuacion final que modela el sistema es

Regresión exponencial mediante el principio de los mínimos cuadrados

Fue Francis Galton (1822-1911) quien utilizó por primera vez el término regresión para indicar que, aunque influida por la estatura de sus padres, la estatura de los hijos "regresaba" a la media general.

La regresión examina la relación entre dos variables, pero restringiendo una de ellas con el objeto de estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la regresión es un método que se emplea para predecir el valor de una variable en función de valores dados a la otra variable.

En todos los casos de regresión existe una dependencia funcional entre las variables. En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de regresión de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresión de la altura de los árboles sobre su diámetro, lo cual significa que midiendo el diámetro (variable independiente) y reemplazando su valor en una relación definida según la clase de árbol se obtiene la altura, y aun sin necesidad de cálculos aprecian la altura utilizando gráficas de la función de dependencia, altura = función del diámetro.

Cuando la curva de regresión de y sobre x es exponencial, es decir para cualquier x considerada, la media de la distribución está dada por la siguiente ecuación predictora:

Page 12: Métodos de Regresión

Ejemplo ilustrativo: Las cifras siguientes son datos sobre el porcentaje de llantas radiales producidas por cierto fabricante que aún pueden usarse después de recorrer cierto número de millas:

Miles de Millas recorridas (X) 1 2 5 15 25 30 35 40

Porcentaje útil (Y) 99 95 85 55 30 24 20 15

1) Elaborar el diagrama de dispersión.

2) Ajustar una curva exponencial aplicando el método de mínimos cuadrados.

3) Calcular la ecuación predictora.

4) Graficar la ecuación predictora.

5) Estimar qué porcentaje de las llantas radiales del fabricante durarán 50000 millas.

Solución:

1) Elaborando el diagrama de dispersión empleando Excel se obtiene la siguiente figura:

Empleando el programa Graph se obtiene la siguiente figura:

Page 13: Métodos de Regresión

2) Se llena la siguiente tabla:

Resolviendo empleando Excel se muestra en la siguiente figura:

Page 14: Métodos de Regresión

Remplazando valores en el sistema se obtiene:

Resolviendo empleando Excel se muestra en la siguiente figura:

Page 15: Métodos de Regresión

3) Reemplazando en la ecuación predictora se obtiene:

4) Graficando la ecuación predictora empleando Excel se obtiene la siguiente figura:

En Graph se obtiene la siguiente figura:

5) La estimación del porcentaje de llantas radiales que durarán 50000 millas se obtiene reemplazando en la ecuación predictora el valor de X = 50

Page 16: Métodos de Regresión

Entonces el porcentaje sería de 9,106%

La regresión examina la relación entre dos variables, pero restringiendo una de ellas con el objeto de estudiar las variaciones de una variable cuando la otra permanece constante. En otras palabras, la regresión es un método que se emplea para predecir el valor de una variable en función de valores dados a la otra variable.

En todos los casos de regresión existe una dependencia funcional entre las variables. En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra (Y) la dependiente, se habla de regresión de Y sobre X; Por ejemplo, los ingenieros forestales utilizan la regresión de la altura de los árboles sobre su diámetro, lo cual significa que midiendo el diámetro (variable independiente) y reemplazando su valor en una relación definida según la clase de árbol se obtiene la altura, y aun sin necesidad de cálculos aprecian la altura utilizando gráficas de la función de dependencia, altura = función del diámetro.

La regresión potencial tiene por ecuación predictora:

Y la regresión recíproca es:

Para el primer caso los valores siguen una ley potencial. Si la ecuación predictora está dada por: tomando logaritmos en ambos miembros, queda:

Donde las constantes  y  quedan fijadas al resolver simultáneamente las ecuaciones:

Para el segundo caso, si la ecuación predictora está dada por  entonces invirtiendo, la misma

expresión se puede escribir  o sea:

Donde las constantes  y  quedan fijadas al resolver simultáneamente las ecuaciones:

Ejemplos ilustrativo N° 1

Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es el volumen (variable independiente) e Y es la presión de una masa dada de gas (variable resultante).

X 1 2 3 4 5 6 7

Y 7 30 90 170 290 450 650

Page 17: Métodos de Regresión

1.1) Elaborar el diagrama de dispersión.

1.2) Ajustar una curva exponencial aplicando el método de mínimos cuadrados.

1.3) Calcular la ecuación predictora.

1.4) Graficar la ecuación predictora.

1.5) Estimar la presión de la masa de gas de volumen 9.

Solución:

1.1) El diagrama de dispersión elaborado en Excel se presenta en la siguiente figura:

El diagrama de dispersión elaborado en Graph se presenta en la siguiente figura:

1.2) Para ajustar una curva exponencial aplicando el método de mínimos cuadrados se llena la siguiente tabla:

X Y log X log Y log X· log Y (log X)2

Page 18: Métodos de Regresión

1 7 0,0000 0,8451 0,0000 0,0000

2 30 0,3010 1,4771 0,4447 0,0906

3 90 0,4771 1,9542 0,9324 0,2276

4 170 0,6021 2,2304 1,3429 0,3625

5 290 0,6990 2,4624 1,7211 0,4886

6 450 0,7782 2,6532 2,0646 0,6055

7 650 0,8451 2,8129 2,3772 0,7142

S X=28 S logX=3,7024 S logY=14,4354 S log X· log Y =8,8829 S(log X)2= 2,4890

Reemplazando valores en el sistema de ecuaciones se obtiene:

Al resolver el sistema se obtiene: log a = 0,819; ß = 2,351

Reemplazando valores en la ecuación predictora expresada en logaritmos se tiene:

1.3) Para calcular la ecuación predictora, primero se calcula el valor de a de la siguiente manera:

Reemplazando en la ecuación predictora se obtiene:

1.4) Graficando la ecuación predictora mediante Excel se muestra en la siguiente figura:

Page 19: Métodos de Regresión

Empleando Graph se obtiene la siguiente figura:

1.5) Para estimar la presión de la masa de gas de volumen 9 se reemplaza el valor X = 9 en la ecuación predictora

Ejemplo ilustrativo N° 2

Sea el siguiente conjunto de valores, las lecturas de un experimento donde X es la variable independiente e Y la variable resultante.

X 1 2 3 4 5 6 7

Y 1,4 1 0,9 0,7 0,6 0,55 0,5

2.1) Elaborar el diagrama de dispersión.

2.2) Calcular las constantes  y  aplicando el método de mínimos cuadrados.

2.3) Calcular la ecuación predictora.

2.4) Graficar la ecuación predictora.

2.5) Estimar el valor de Y para X = 9

Solución:

Page 20: Métodos de Regresión

2.1) El diagrama de dispersión elaborado en Excel se muestra en la siguiente figura:

El diagrama de dispersión elaborado en Graph se muestra en la siguiente figura:

2.2) Para calcular las constantes  y  aplicando el método de mínimos cuadrados se llena la siguiente tabla:

X Y 1/Y X(1/Y) X2

1 1,4 0,7143 0,7143 1

2 1 1,0000 2,0000 4

3 0,9 1,1111 3,3333 9

4 0,7 1,4286 5,7143 16

5 0,6 1,6667 8,3333 25

6 0,55 1,8182 10,9091 36

Page 21: Métodos de Regresión

7 0,5 2,0000 14,0000 49

S X = 28 S (1/Y) = 9,7388 S X(1/Y) = 45,0043 S X2 = 140

Reemplazando valores en el siguiente sistema se obtiene:

Al resolver el sistema se obtiene:

a = 0,5271; ß = 0,2160

2.3) Para calcular la ecuación predictora se remplaza los valores encontrados de a y ß, y se obtiene:

2.4) La gráfica la ecuación predictora elaborada en Excel se muestra en la siguiente figura:

La gráfica la ecuación predictora elaborada en Graph se muestra en la siguiente figura:

Page 22: Métodos de Regresión

2.5) Para estimar el valor de Y para X = 9 se reemplaza el valor de X en la ecuación predictora.

REGRESIÓN MÚLTIPLE:

Page 23: Métodos de Regresión

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener   y   en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:

 

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.

El error estándar de la regresión múltiple 

Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

Y: Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n: Número de datos

m: Número de variables independientes

El coeficiente de determinación múltiple 

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por  ,   y   simultáneamente.

Page 24: Métodos de Regresión

APLICACION DE REGRESION MULTIPLE

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Múltiple:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:

Page 25: Métodos de Regresión

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos calcular también los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple 

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que se viene desarrollando es de 0.861

El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples, utilizando la si siguiente formula:

 

Page 26: Métodos de Regresión
Page 27: Métodos de Regresión

CONCLUSIONES

Terminado este trabajo hemos conocido y desarrollado métodos que estudian la recolección, análisis e interpretación de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Estos métodos se emplean para conocer las relaciones y significación de una serie de datos.

Lo analizado y desarrollado anteriormente es de suma importancia para muchos procesos. Pero en nuestro campo, la industria, es indispensable, ya que es aquí donde se presentan variables de respuesta e independientes las cuales interactúan para originar las características de un proceso en particular, y por ende, analizar, presidir valores de la variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables.

Una vez finalizado, nosotros como estudiantes, somos capaces y estamos en la disponibilidad de reconocer cualquier método explicado anteriormente y obviamente, no presentar ningún tipo de inconveniente al momento de ponerlos en práctica.

Page 28: Métodos de Regresión

RECOMENDACIONES

• Para utilizar cada uno de los métodos mencionados anteriormente, recomendamos lo siguiente:

• Estudiar minuciosamente cada uno de los métodos; antes de realizar cualquier problema.

• Tener los conceptos de variable, razón, dependencia, independencia lo más claro posible, además de todos los términos matemáticos y estadísticos que estén relacionados al tema.

• Consultar ejemplos, problemas, relacionados a este tipo, en caso de presentar alguna duda.

• Tener cuidado al momento del análisis y escritura de los datos, ya que tienden a confundir.