Regresion estadistica

23
República Bolivariana de Venezuela Ministerio del Poder Popular para la Educación Universitaria I.U.T “Antonio José de Sucre” Extensión – Puerto La Cruz Departamento: Electricidad Trabajo de: Regresión lineal simple Profesor: Pedro Vidal Bachiller: María F. De Sousa C.I: 21.390.227

Transcript of Regresion estadistica

Page 1: Regresion estadistica

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Universitaria

I.U.T “Antonio José de Sucre”

Extensión – Puerto La Cruz

Departamento: Electricidad

Trabajo de:

Regresión lineal simple

Profesor: Pedro Vidal Bachiller:

María F. De Sousa

C.I: 21.390.227

Puerto la cruz, 07 de febrero de 2016

Page 2: Regresion estadistica

Introducción

La estadística es un potente auxiliar de muchas ciencias y actividades

humanas, es una herramienta indispensable para la toma de decisiones y esto

se puede ver reflejado precisamente en la regresión lineal simple la cual es un

proceso estadístico muy importante para cualquier profesional; ya que es muy

utilizado en diversos campos, algunos de ellos son: la medicina, la informática,

la contaduría, la electricidad, la economía, las finanzas, la biología, entre otros;

cuando se aplica adecuadamente la regresión lineal se logra relacionar de

forma rigurosa y cuantificable variables en diferentes ambientes.

Asimismo se encuentra acompañada de una serie de elementos tales

como el método de mínimo cuadrados que se usa comúnmente en el ajuste de

curvas, las hipótesis, las suposiciones que son fundamentales para encontrar

las variables y asignar a la relación entre variables un número, logrando así

obtener una medida referente a su grado de relación.

La Regresión lineal simple es la más básica pero también la más usual,

y por lo tanto es aplicada en todos los ámbitos del conocimiento.

Page 3: Regresion estadistica

Historia de la regresión lineal

Legendre (1805) fue el primero en documentar el uso de la regresión

lineal en una publicación del Método de los Mínimos Cuadrados que incluía una

versión del teorema de Gauss-Márkov. Los primeros trabajos que tienen que

ver con el estudio de la regresión lineal se remontan al siglo XIX, cuando Sir

Francis Galton (1822-1917), estudio el impacto de la herencia en la estatura de

las personas, y la expresión matemática de los fenómenos vinculados a ella. Él

fue el primero en trabajar un conjunto de variables y asignar a la relación entre

variables un número, para así obtener una medida referente a su grado de

relación. Sostenía que las personas excepcionalmente altas solían tener hijos

de estatura menor, mientras que las personas muy bajas solían tener hijos más

altos; este hecho fue expuesto por Galton como la regresión a la media,

aplicables a las tallas de una generación respecto de las siguientes. La

justificación que se da hoy en día a esta situación es que los valores extremos

de una distribución se deben en gran parte al azar.

Regresión lineal simple

La regresión lineal es un Proceso estadístico que pretende modelar la

relación entre dos variables, por la ecuación de línea recta. Así pues, tenemos

una variable Y, que depende de otra "x", que es independiente. Si se utiliza,

sólo una variable independiente, la regresión se denomina simple. Cuando se

usa más de una variable independiente, la regresión se llama "Múltiple". 

La ecuación de la línea recta es: y = ax + b, donde "a" es la pendiente del

segmento de línea recta, y "b", el punto en el que, la línea corta el eje vertical

(y). 

Clases de coeficiente de Regresión:

- El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.

- Es positivo cuando las variaciones de la variable independiente X son

directamente proporcionales a las variaciones de la variable dependiente “Y”

Page 4: Regresion estadistica

- Es negativo, cuando las variaciones de la variable independiente “X”

son inversamente proporcionales a las variaciones de las variables

dependientes “Y”.

- Es nulo o cero, cuando entre las variables dependientes “Y” e independientes

“X” no existen relación alguna.

Supociones de la regresión lineal

- Los valores de la variable independiente X son fijos, medidos sin

error.

- La variable Y es aleatoria.

- Para cada valor de X, existe una distribución normal de valores de

Y (subpoblaciones Y).

- Las variancias de las subpoblaciones Y son todas iguales.

- Todas las medias de las subpoblaciones de Y están sobre la

recta.

- Los valores de Y están normalmente distribuidos y son

estadísticamente independientes.

Estimadores de mínimos cuadrados

Gauss propuso en 1809 el método de mínimos cuadrados para

obtener los valores βˆ 0 y βˆ 1 que mejor se ajustan a los datos: yˆi = βˆ 0 +

βˆ 1xi.

es una técnica de análisis numérico enmarcada dentro de la

optimización matemática, en la que, dados un conjunto de pares ordenados:

variable independiente, variable dependiente, y una familia de funciones, se

intenta encontrar la función continua, dentro de dicha familia, que mejor se

aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo

error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las

diferenciasen las ordenadas (llamadas residuos) entre los puntos generados

Page 5: Regresion estadistica

por la función elegida y los correspondientes valores en los datos.

Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el

número de datos medidos es 1 y se usa el método de descenso por

gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS

minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por

iteración), pero requiere un gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que

funcione el método de mínimos cuadrados es que los errores de cada medida

estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que

los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de

datos no tiene que ajustarse, por ejemplo, a una distribución normal. También

es importante que los datos a procesar estén bien escogidos, para que

permitan visibilidad en las variables que han de ser resueltas (para dar más

peso a un dato en particular

Estimación de la ecuación de regresión muestral.

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es

decir, encontrar los valores de a y b con los datos observados de la muestra.

El método de estimación es el de Mínimos Cuadrados, mediante el cual se

obtiene:

Luego, la ecuación de regresión muestral estimada es:

El coeficiente de determinación: Se define el coeficiente de

determinación, R2, como el cuadrado del coeficiente de correlación entre los

valores de Y observados y los valores de Y ajustados; viene dado por la

expresión:

Page 6: Regresion estadistica

Rectas de regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube

de puntos (o también llamado diagrama de dispersión) generada por una

distribución binomial.

Matemáticamente, son posibles dos rectas de máximo ajuste:

La recta de regresión de Y sobre X:

La recta de regresión de X sobre Y:

Calidad de ajuste de una regresión lineal simple La calidad del ajuste de una regresión lineal simple, permite verificar la calidad

con la que el modelo planteado permite hacer estimaciones. Se necesita

conocer qué tanta variabilidad en Y fue explicada por el modelo, si se cumplen

los supuestos de normalidad en los residuos y si la variación no tiene ningún

patrón fuera de lo usual.

Los elementos fundamentales de la regresión lineal

Son la pendiente, la intersección y el error.

Aplicaciones de la regresión lineal

Líneas de tendencia

Una línea de tendencia representa una tendencia en una serie de

datos obtenidos a través de un largo período. Este tipo de líneas puede

decirnos si un conjunto de datos en particular (como por ejemplo, el PBI,

el precio del petróleo o el valor de las acciones) han aumentado en un

determinado período.10 Se puede dibujar una línea de tendencia a simple

Page 7: Regresion estadistica

vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente

se calcula de manera más precisa utilizando técnicas estadísticas como las

regresiones lineales. Las líneas de tendencia son generalmente líneas

rectas, aunque algunas variaciones utilizan polinomios de mayor grado

dependiendo de la curvatura deseada en la línea.

El uso de la regresión lineal está muy generalizado y se puede aplicar

prácticamente a cualquier campo algunos de ellos son:

finanzas

medicina

Biología

Física

Ingeniería

La economía

Hipótesis básicas del modelo de regresión lineal.

Hipótesis primera: El modelo está bien especificado. Es decir, la única

variable relevante en la explicación de la variable endógena es la variable X,

además, la relación que existe entre la variable endógena y exógena es del tipo

lineal.

Hipótesis segunda: La variable exógena es una variable no aleatoria,

es determinista. En consecuencia, la esperanza de X es X.

Hipótesis tercera: No existen errores de medida en los datos de las

variables Y y X.

Hipótesis cuarta: Los parámetros del modelo son fijos, y no existe

cambio estructural en el período muestral.

Hipótesis quinta: Comportamiento del término de perturbación

aleatoria.

Page 8: Regresion estadistica

Análisis de regresión lineal

El análisis de regresión involucra el estudio la relación entre dos

variables cuantitativas.

En general interesa:

Investigar si existe una asociación entre las dos variables

testeando la hipótesis de independencia estadística.

Estudiar la fuerza de la asociación, a través de una medida

de asociación denominada coeficiente de correlación.

Estudiar la forma de la relación.

Usando los datos propondremos un modelo para la relación

y a partir de ella será posible predecir el valor de una variable a partir de

la otra.

Modelo de regresión lineal simple

El modelo de regresión lineal simple se caracteriza porque para estimar

o predecir la variable dependiente o endógena sólo se utiliza una variable

independiente o exógena, a través, de la siguiente ecuación:

Υi= α + β Хi+ єi i = 1,..., N

Donde, N es el número de observaciones de las variables; los

coeficientes α y β, son los parámetros desconocidos que indican

respectivamente, la ordenada en el origen (o valor estimado de Y cuando X=0)

y la pendiente o coeficiente de la regresión (o variación la variable dependiente

ante variaciones unitarias de la variable independiente); y ε, es la perturbación

aleatoria que recoge todos aquellos hechos no observables y que, por lo tanto,

se asocian con el azar. Esta perturbación es la que confiere al modelo su

carácter estocástico.

Page 9: Regresion estadistica

Las asociaciones que se presentan en la regresión lineal simple

1) Correlación o asociación Positiva (+), es decir a medidas altas de

una variable, le corresponden medidas altas de otra variable, cambios en el

mismo sentido (Relación Directamente Proporcional).

X entonces Y

X entonces Y

Ejemplo: Altura y peso

2) Correlación o Asociación Negativa (-), En este caso, a valores

altos de una variable, corresponden valores bajos de la otra variable y

viceversa. (Relación inversamente proporcional).

3) Medidas no Correlaciónales; No existe ninguna asociación entre

las variables.

Ecuación de regresión lineal simple

Es una ecuación para estimar una variable dependiente a partir de la

variable independiente.

Si X: Variable independiente

Y: Variable dependiente

Donde: Y = variable dependiente estimada

: b = coeficiente de R.L.S.

Características del Coeficiente de R.L.S. (b)

1) b: indica el número de unidades en que varía la variable dependiente al

variar la independiente en una unidad de su medida.

2) Si b es positivo los cambios son directamente proporcionales.

Si b es negativo entonces los cambios son inversamente proporcional

3) b: mide la pendiente de la línea de regresión.

4) b, esta dado en unidades de la variable dependiente.

5) b y r siempre tienen el mismo signo.

6) b se calcula:

Sí Y = f(X), entonces:

Y el valor de la constante a:

Si X= f (Y)

Page 10: Regresion estadistica

Limitaciones

Una de las principales limitaciones del análisis de regresión se basa en

el hecho de que dos variables crezcan o decrezcan siguiendo las mismas

pautas no implica necesariamente que una cause a la otra, ya que puede

ocurrir que entre ellas se produzca una relación espúrea. Por lo tanto, para

establecer la relación entre diferentes variables es necesario que esta relación

se base en una buena teoría, ya que, este análisis estadístico es adecuado

para cuantificar una relación conocida entre variables, pero no es el mejor

instrumento para hallar relaciones funcionales entre variables.

Definición de correlación lineal: Es aquella que establece la relación

que existen entre las dos variables que participan en una distribución

bidimensional.

Tipos de correlación lineal: Existen tres tipos de correlación lineal las

cuales son:

Correlación Directa: Se da cuando al aumentar una de las

variables la otra aumenta.

Correlación Inversa: Se da cuando al aumentar una de las

variables la otra disminuye.

Correlación Nula: Se da cuando no hay dependencia entre

las variables.

Diagrama de dispersión: Es una representación gráfica de la relación

entre dos variables, permite analizar la relación que existe entre los valores de

una variable que nos interesa (dependiente) y los valores de otra variable que

sea fácil de medir (independiente).

Ejemplo

Este es el diagrama de dispersión que expresa la cantidad de dinero

que se ganó Mateo cada semana trabajando en la tienda de su padre.

Page 11: Regresion estadistica

Las semanas están diagramadas en el eje x, y la cantidad de dinero que

se ganó en esa semana en el eje y. En general, la variable independiente (la

variable que no está influenciada por nada) está en el eje x y la variable dependiente (la que es modificada por la variable independiente) está en el

eje y.

En este diagrama podemos ver que en la segunda semana Mateo se

ganó alrededor de $125, y en la semana 18 estuvo cerca de los $165. Pero

más importante aún es la tendencia. Por ejemplo, con estos datos podemos ver

que Mateo gana cada vez más según pasan las semanas. Quizá su padre le da

más horas a la semana o más responsabilidades.

Correlación de Pearson: Es una medida de la relación lineal entre dos

variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación

de Pearson es independiente de la escala de medida de las variables. De

manera menos formal, podemos definir el coeficiente de correlación de

Pearson como un índice que puede utilizarse para medir el grado de relación

de dos variables siempre y cuando ambas sean cuantitativas.

Ventajas

El valor del coeficiente de correlación es independiente de

cualquier unidad usada para medir variables.

Page 12: Regresion estadistica

Mientras más grande sea la muestra más exacta será la

estimación.

Desventajas

Requiere supuestos acerca de la naturaleza o formas de

las poblaciones afectadas.

Requiere que las dos variables hayan ido medidas hasta

un nivel cuantitativo continuo y que la distribución de ambas sea

semejante a la de la curva normal.

Usos del coeficiente de correlación de Pearson

Permite predecir el valor de una variable dado un valor

determinado de la otra variable.

Se trata de valorar la asociación entre dos variables

cuantitativas estudiando el método conocido como correlación.

Dicho cálculo es el primer paso para determinar la relación

entre las variables.

Consiste en la posibilidad de calcular su distribución

muestral y así poder determinar su error típico de estimación.

Reporta un valor de correlación cercano a cero como un

indicador de que no hay relación lineal entre dos variables.

Reporta un valor de correlación cercano a uno como un

indicador de que existe una relación lineal positiva entre las dos

variables. Un valor mayor a cero que se acerque a uno da como

resultado una mayor correlación positiva entre la información.

Coeficiente de correlación de Spearman: La correlación de Spearman

es una medida de relación lineal entre dos variables. Se diferencia de la

correlación de Pearson en que utiliza valores medidos a nivel de una escala

ordinal. Si alguna de las variables está medida a nivel de escala de

intervalo/razón deberá procederse antes de operar el estadístico a su

conversión en forma ordinal.

Page 13: Regresion estadistica

Ventaja

- No está afectada por los cambios en las unidades de medida.

- Al ser una técnica no parámetra, es libre de distribución probabilística.

Desventaja

- Es recomendable usarlo cuando los datos presentan

valores extremos, ya que dichos valores afectan mucho el coeficiente de

correlación de Pearson, o ante distribuciones no normales

- R no debe ser utilizado para decir algo sobre la relación

entre causa y efecto.

Usos

- Para aplicar el coeficiente de correlación de Spearman se

requiere que las variables estén medidas al menos en escala ordinal, es

decir; de forma que las puntuaciones que la representan puedan ser

colocadas en dos series ordenadas.

- A veces, este coeficiente es denominado por la letra

griega ρs (rho), aunque cuando nos situamos en el contexto de la

Estadística Descriptiva se emplea la notación rs.

Ejemplo de Regresión lineal SimpleLa tabla siguiente, presenta datos sobre el volumen y (x10-4mm3) de desgaste del acero dulce, y la viscosidad  x del aceite:

x 1.6. 9.4. 15.5. 20.0. 22.0. 33.0. 35.5. 40.5. 43.0y 240 181 193 155 172 94 110 75 113

a) Ajusta un modelo de regresión lineal simple utilizando la técnica de mínimos

cuadrados.

b) Obtén el valor ajustado de y cuando x = 22, y calcula el residuo

correspondiente.

c) Calcula R2 para este modelo, y da una interpretación de esta cantidad.

Page 14: Regresion estadistica

Antes de empezar a resolver los apartados propuestos, hacemos una

recopilación de datos que podemos extraer de la tabla dada, ya que

posteriormente serán de gran utilidad.

· n = 9

· 

· 

· 

· 

· 

Apartado a)

Para calcular la pendiente, la expresión matemática es:

Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

Page 15: Regresion estadistica

· 

· 

Por lo tanto, la pendiente es:

Una vez obtenida la pendiente, podemos tener el valor del estimador para la

ordenada:

Sustituimos valores:

Por lo tanto, la ecuación de regresión ajustada es:

y(x) = 234.070733 - 3.508556·x

Siendo:

· y ≡ Volumen de desgaste del acero dulce.

· x ≡ Viscosidad del aceite.

Apartado b)

Para obtener el valor ajustado de y cuando x = 22, empleamos la ecuación de

Page 16: Regresion estadistica

regresión ajustada:

Y (22) = 234.070733 - 3.508556 · 22 = 156.882501

Para obtener el residuo, el valor real está contenido en la tabla, lo que

debemos hacer es, restar la real con la que obtenemos con la ecuación de

regresión ajustada:

Residuo ≡ 172 - (234.070733 - 3.508556 · 22) = 15.117499

Apartado c)

Para obtener el coeficiente de determinación, empleamos su expresión

matemática:

Debemos obtener el valor de Syy:

· 

Sustituimos valores y obtenemos el resultado del coeficiente de determinación:

Page 17: Regresion estadistica

Conclusión

Es necesario que cada individuo adquiera todos los conocimientos

relacionados con la regresión lineal simple, con la finalidad de emplearlo

correctamente en el trabajo, un ejemplo claro de ello es el precio del petróleo ,

de las acciones o de una enfermedad, todo depende del campo de trabajo en el

que nos encontremos, a través de la regresión lineal logramos saber y

entender de qué manera se ha incrementado o disminuido el precio o una

enfermedad ; por esta razón debemos indagar este importante tema, de esta

forma obtendremos un balance general de la situación actual del caso tratado

y se podrá mejorar significativamente , logrando así establecer la relación entre

diferentes variables y beneficiar a la población.

Page 18: Regresion estadistica

Bibliografía

www.elrincondelvago.com

http://www.monografias.com/trabajos/osciloscopio/osciloscopio.com.

https://es.wikipedia.org

https://es.slideshare.net