B REGRESIÓN Y CORRELACIÓN LINEAL³n de coeficientes Correlación Lineal Múltiple Aplicación...

23
B REGRESIÓN Y CORRELACIÓN LINEAL Estadística Aplicada 1 ÍNDICE Índice 1 Introducción 2 Regresión Lineal Simple 3 Método de los mínimos cuadrados 4 Correlación Lineal Simple Aplicación Práctica Regresión Lineal Múltiple Estimación de coeficientes Correlación Lineal Múltiple Aplicación Práctica Conclusiones Bibliografía

Transcript of B REGRESIÓN Y CORRELACIÓN LINEAL³n de coeficientes Correlación Lineal Múltiple Aplicación...

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

1

ÍNDICE

Índice

1

Introducción

2

Regresión Lineal Simple

3

Método de los mínimos cuadrados

4

Correlación Lineal Simple

Aplicación Práctica

Regresión Lineal Múltiple

Estimación de coeficientes

Correlación Lineal Múltiple

Aplicación Práctica

Conclusiones

Bibliografía

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

2

INTRODUCCIÓN

En la industria con mucha frecuencia es necesario resolver problemas que

implican conjuntos de variables, cuando se sabe que existe alguna relación inherente

entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha

relación.

Cuando, simultáneamente, contemplamos dos variables continuas, aunque por

extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y

problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y

técnicas de estimación para contestar esas preguntas, y técnicas de contraste de

hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos

están encuadrados en las técnicas regresión y correlación

En forma más especifica el análisis de correlación y regresión comprende el

análisis de los datos muestrales para saber que es y como se relacionan entre si dos o

mas variables en una población. El análisis de correlación produce un número que

resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión

da lugar a una ecuación matemática que describe dicha relación.

La técnica de regresión lineal simple está indicada cuando se pretende explicar

una variable respuesta cuantitativa en función de una variable explicativa cuantitativa

también llamada variable independiente, variable regresora o variable predictora. Por

ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría

aproximar la variable respuesta mediante una función lineal de la variable explicativa.

A partir de la presente investigación, se pretende mostrar la aplicación práctica

de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación

de las técnicas estadísticas contribuyen a la optimización de los procesos.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

3

REGRESIÓN LINEAL SIMPLE

La finalidad de una ecuación de regresión es estimar los valores de una variable

con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en términos de otra. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una.

Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son: • El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que:

Var respuesta = oβ + variable explicativa . 1β + ε

siendo 0β el término independiente (constante) 1β el coeficiente de regresión de la variable explicativa (pendiente) y ε es una variable aleatoria que se llama error residual. • La variable explicativa se ha medido sin error. • El valor esperado de e del modelo es cero. • La varianza de e (y por lo tanto de la variable respuesta) es constante. • Los ε son independientes entre sí. • Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el modelo, también es necesario que la distribución de ε sea normal. Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien para obtener una relación lineal o bien para homogeneizar la varianza.

La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.

Ecuación Lineal Simple

Dos características importantes de una ecuación lineal:

• La independencia de la recta • La localización de la recta en algún punto. Una ecuación lineal tiene la forma:

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

4

Forma general de la ecuación de regresión lineal simple

Y´= a + Bx

Donde: YY´́ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado de X. aa es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X = 0. BB es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio (incremento o decremento) en la variable independiente X. xx es cualquier valor seleccionado de la variable independiente.

Con esta expresión se hace referencia al proceso matemático que sirve para ajustar una línea recta a través de un conjunto de datos bivariables asentados en una gráfica de dispersión. Dicha línea se conoce como línea de regresión simple.

El primer paso es recoger datos experimentales correspondientes a n individuos

con información de dos variables cuantitativas: una de ellas se considera variable explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo que se asume es:

y = oβ + x 1β + ε

Los coeficientes oβ y 1β se estiman por b0 y por b1 a través del método de

mínimos cuadrados.

Método de mínimos cuadrados

Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes:

• Es nula la suma de desviaciones verticales en los puntos a partir de la recta • Es mínima la suma de los cuadrados de dichas desviaciones

Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la curva C. Esta diferencia se denota por D1, que se conoce como desviación, error o residuo.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

5

De todas las curvas de aproximación a una serie de datos puntuales la curva que tiene la propiedad de que: DD2211 ++ DD2222 ++ .. .. .. ++ DD22NN Se conoce como Mejor curva de ajuste

La suma de cuadrados de desviación se le llama ssuummaa ddee ccuuaaddrraaddooss ppoorr ffaall llaa

((SSCCFF)). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la línea al conjunto completo de puntos.

Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados.

Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce

un valor único para la pendiente B y la ordenada a asociada con los datos bivariables. Obteniéndose así:

El problema que se plantea es entonces el de cómo calcular las cantidades a y b

a partir de un conjunto de n observaciones:

(X1, Y1) (X2, Y2)

. . . (XN, YN)

De forma que se minimice el error. Las etapas en que se divide el proceso que

se va a desarrollar son de forma esquemática, las que siguen:

1. Dadas dos variables X, Y, sobre las que se define:

((XX11,,YY11)) DD11

((XXNN,,YYNN)) DDNN

((XX22,,YY22)) DD22

XX11 XX22 XXNN

C

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

6

Se mide el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):

2. Una aproximación de Y, se define a partir de dos cantidades a y b. Se va a calcular aquellas que minimizan la función

3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que sirvan para cualquier problema. Ordenada al origen

Pendiente de la recta

n

xmyia

n

i

n

ii∑ ∑= =

−= 1 1

∑ ∑∑ ∑ ∑

= =

= = =

−=

n

i

n

iii

n

i

n

i

n

iiiii

xxn

yxyxnB

1 1

1 1 1

)(

))((

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

7

DIAGRAMA DE DISPERSIÓN

La correlación, método por el cual se relacionan dos variables se pude graficar

con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.

También se puede describir un diagrama de dispersión en coordenadas

cartesianas valores, en donde la nube de puntos representa los pares de valores.

Gráficos de recta de regresión

Regresión Positiva Regresión Negativa

Gráfico de dispersión

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

8

CORRELACION

La correlación, o el grado de relación entre las variables, se estudia para

determinar en que medida una ecuación lineal o de otro tipo describe o explica de una forma adecuada la relación entre variables.

El análisis de correlación intenta medir la fuerza de las relaciones entre dos

variables por medio de un solo número llamado coeficiente de correlación. Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice

que las variables están correlacionadas perfectamente o que hay una correlación perfecta entre ellas.

Cuando se trata de dos variables solamente, se habla de correlación simple y de

regresión simple. Cuando se trata de más de dos variables se habla de correlación múltiple y de regresión múltiple.

CORRELACION LINEAL SIMPLE

Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de dispersión muestra la localización de los puntos (X, Y) en un sistema de coordenadas rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse cerca de una recta, como en (a) y (b) de la figura 1, la correlación se dice lineal. En tales casos es adecuada una ecuación lineal.

Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la

correlación se dice positiva o correlación directa. Si “Y” tiende a disminuir cuando se incrementa “X”, como en (b) la correlación se dice negativa o correlación inversa.

Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice

no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva y a veces negativa.

Si no hay ninguna relación entre las variables, como la figura 1(c), se dice que no

hay correlación entre ellas, es decir, no están correlacionadas.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

9

Medidas de correlación

Una forma de determinar de una manera cualitativa, lo bien que una recta o

curva dada describe la relación entre variables es la observación directa del diagrama de dispersión. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada describe mucho mejor la relación entre “X” y “Y” que la de la fig.-1(b) lo hace para los suyos, debido al hecho de que hay menos dispersión alrededor de la recta de la fig.1(a).

Si se trata el problema de la dispersión de los datos muestrales alrededor de rectas o curvas de una manera cuantitativa, será necesario definir unas medidas de correlación.

Error típico de la estimación

Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal simple para valores de X dados, una medida de la dispersión alrededor de la recta de regresión de Y sobre X viene dada por la cantidad:

que se llama error típico de la estimación de Y sobre X.

Variación explicada y no explicada

La variación total de Y se define como:

es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media lo cual puede escribirse como:

X

Y

X(a) Correlación lineal positiva

Y

X(b) Correlación lineal negativa

Y

(c) No hay correlación

Figura 1

Σ(Y - Y )2

Y

Σ(Y - Y est.)2

Ns Y.X =

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

10

Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de mínimos cuadrados para valores de X dados: Y´= a + Bx

El primer término del segundo miembro se llama variación no explicada, mientras

que el segundo término se llama variación explicada, y esto es así, porque las desviaciones de “Y estimada” menos “Y media” tienen un patrón definido, mientras que las desviaciones “Y” menos “Y estimada” se comportan de una forma aleatoria o no previsible.

Coeficiente de correlación

La razón de la variación explicada a la variación total se llama coeficiente de

determinación. Si la variación explicada es cero, es decir, la variación total es toda no explicada, esta razón es cero. Si la variación no explicada es cero, es decir, la variación total es toda explicada, la razón es uno. En los demás casos la razón se encuentra entre cero y uno. Puesto que la razón es siempre no negativa, se denota por r2. La cantidad r se llama coeficiente de correlación y esta dado por:

y varía entre -1 y +1, los signos ± se utilizan para la correlación lineal positiva y la correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin dimensiones, es decir, no depende de las unidades empleadas. De esta manera un valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva, mientras que un valor de r igual a -1 resulta de una relación lineal perfecta con pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r cercanas a la unidad en magnitud implican una buena correlación o una asociación lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna correlación.

Otra forma de medir el coeficiente de correlación muestral es:

Ecuaciones similares se obtienen cuando se intercambian X y Y.

Σ(Y - Y )2 = Σ(Y - Y est.)2 + Σ(Y est. - Y )2

Σ(Y - Y)2

variación explicada

variación totalr = ± = ±

Σ(Yest. - Y)2

r = 1 - S2Y.X

S2Y

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

11

Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X como Y considerada como variables independientes. Así, pues, r es una medida muy buena de la correlación lineal entre dos variables.

Las dos definiciones anteriores de r “coeficiente de correlación” son

completamente generales y pueden utilizarse para relaciones no lineales, tanto como para lineales, las únicas diferencias, son que Yest. Se calcula en aquel caso, a partir de una ecuación de regresión no lineal en lugar de una ecuación de regresión lineal y los signos ± se omiten.

El coeficiente de determinación muestral r2 expresa la proporción de la variación

total en los valores de la variable Y que dan razón o se pueden explicar mediante una relación lineal con los valores de la variable aleatoria X. De esta manera una correlación de 0.6 significa que 0.36, o 36%, de la variación total de los valores de Y en nuestra muestra se explican mediante una relación lineal con los valores de X.

Se debe señalar que en estudios de correlación, como en problemas de

regresión lineal, los resultados que se obtienen sólo tan buenos como el modelo que se supone. En la técnica de correlación de nuestro caso se supone una densidad normal bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente relacionado con x. Para observar la conveniencia de la suposición de linealidad, a menudo es útil una graficación preliminar de los datos experimentales. Un valor del coeficiente de correlación muestral cercano a cero resultará de datos que muestren un efecto estrictamente aleatorio, lo que implica poca o ninguna relación causal. Es importante recordar que el coeficiente de correlación entre dos variables es una medida de su relación lineal, y que un valor de r igual con cero implica una falta de linealidad y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y, podemos aún obtener una correlación cero que indique una relación no lineal.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

12

APLICACIÓN PRÁCTICA En la industria de las Artes Gráficas es importante el tiempo de secado una vez que el impreso sale de la prensa Offset, ya que de la rapidez de lo anterior dependerá la agilización del proceso posterior y la eliminación de cuellos de botella innecesarios.

Durante el mes de Julio de 2005; en la empresa Surtidora Gráfica S.A. de C.V.,

se desarrollo un muestreo a partir de un impreso estándar en PMS con un área de impresión gráfica aproximada del 75%, ya que generalmente este impreso responde al formato común a producir. El objetivo de dicho estudio, fue determinar la relación existente entre gramaje y tiempo de secado. Conocimiento Teórico.- El mecanismo de secado de la tinta se refiere a la forma en que la tinta impresa húmeda se transforma en película permanente sobre la superficie de impresión.

Especificaciones del proceso Offset:

Máquina.- Speed Master CD (5 colores) Proveedor Papel.- Pochteca (Couche Brillante) Proveedor Tinta.- Sun Chemical Ganancia de Punto.- 72% Solución de la fuente: PH.- 3.0-4.5Conductividad.- 800-1200 microhms Temperatura.- 120oC

Medida GramajeTiempo de

Secado (Min)

Medida GramajeTiempo de

Secado (Min)

Medida GramajeTiempo de

Secado (Min)

57X87 90 130 61x90 90 140 70X95 90 18057X87 100 110 61X90 100 120 70X95 100 12057X87 115 150 61X90 115 150 70X95 115 18057X87 135 180 61X90 135 145 70X95 135 21058X88 150 168 61X90 150 180 70X95 150 20058X88 200 240 61X90 200 280 70X95 200 26058X88 250 200 61X90 250 250 70X95 250 28958X89 300 260 61X90 300 280 70X95 300 320

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

13

A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado.

Regression Analysis - Linear model: Y = a + b*X

Parameter Estímate Error P-Value

Intercept 72.8425 15.6932 0.0001 Slope 0.744722 0.0862982 0.0000

Dependent variable: Tiempo Independen variable: Gramaje Correlation Coefficient = 0.878607 R-squared = 77.1951 %Standard Error of Est. = 29.9319

Análisis de Resultados

A continuación se muestran los resultados apropiados del modelo lineal que se describe: a) La ecuación del modelo establece la relación entre el Tiempo de secado y el gramaje

Tiempo = 72.8425 + 0.744722*Gramaje b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 77.1951% la variabilidad en relación al gramaje.

DIAGRAMA DE DISPERSIÓN

y = 0.7447x + 72.842

0

50

100

150

200

250

300

350

0 50 100 150 200 250 300

Gramaje

Tie

mpo

de

seca

do

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

14

c) El coeficiente de correlación igual a 0.878607 indica una relación moderadamente fuerte entre las variables. d) El error estándar de la estimación muestra la desviación estándar de 29.9319. Este valor puede ser usado para construir límites de predicción en nuevas observaciones para elaborar pronósticos. e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación moderadamente fuerte del tiempo de secado con el gramaje.

Software Statgraphic

Fig. 1 Pantalla Central del Software Statgraphic.

Fig. 2 Pantalla en la que se muestran los cálculos obtenidos a partir del software.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

15

REGRESIÓN LINEAL MÚLTIPLE

En la mayor parte de los problemas que se generan en la industria en que se

aplica el análisis de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple ..

La regresión múltiple comprende tres o más variables. Existe solo una variable

dependiente, pero hay dos o más de tipo independiente. En esta operación se desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a valores dados de la diferencia de variables independientes adicionales a través de incrementar la capacidad predicativa sobre la de la regresión lineal simple.

Aunque hay muchos problemas en los cuales una variable puede predecirse con

bastante exactitud en términos de otra, parece razonable que las predicciones deban mejorar si adicionalmente se considera información relevante.

Estimación de los coeficientes por el método de mín imos cuadrados

En el caso de la regresión múltiple la ecuación se amplía y puede tener más variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de variables independientes, siendo la ecuación general de regresión múltiple:

Forma general de la ecuación de regresión lineal múltiple

Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ε i Donde: XX11,, XXkk son las variables independientes. aa es la intersección con el eje Y. Es la ordenada del punto de intersección con el eje Y. BB11 es la variación neta en Y por cada unidad de variación en X1 manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión. BBkk es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante. También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

16

Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes cuando los modelos lineales involucran potencias y productos de las variables independientes.

nbo+b1∑ =

n

iiX

11 +b2∑ =

n

iiX

12 + . . . + bk∑ =

n

ikiX

1= ∑ =

n

iiY

1

bo ∑ =

n

iiX

11 +b1∑ =

n

iiX

11 +b2∑ =

n

iiX

12 + . . . + bk∑ =

n

iKXX

11 = ∑ =

n

iiiYX

1

bo ∑ =

n

iKiX

1+b1 i

n

iKiXX 1

1∑ =+b2 i

n

ikiXX 2

1∑ =+ . . . + bk∑ =

n

iKiX

12 = ∑ =

n

iikiYX

1

La solución de este conjunto de ecuaciones de las estimaciones únicas produce los coeficientes b0, b1, b2,...bk.

Regresión lineal matricial

Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número de variables excede de 2, el conocimiento de la teoría matricial puede facilitar las manipulaciones matemáticas. Supóngase que el experimentador tiene k variables independientes X1, X2 . . ., XK, y n observaciones y1, y2 . . ., y yn, cada una de las cuales se puede expresar por la ecuación:

Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ⌡⌡⌡⌡i

Este modelo representa n ecuaciones que describen cómo se generan los

valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones.

Dada la complejidad de las matrices, de acuerdo al número de variables

independientes, es conveniente resolverlas a través de un software.

=

ny

y

y

y

.

.

.

2

1

=

knnn

k

k

XXX

XXX

XXX

X

...1

.

.

.

...1

...1

21

22212

12111

=

βββ

β

.

.

.

2

1

0

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

17

CORRELACION MULTIPLE

El grado de relación existente entre tres o más variables se llama correlación múltiple. Los principios fundamentales implicados en los problemas de correlación múltiple son análogos a los de la correlación simple tratada con anterioridad.

Como se observó en la parte de regresión lineal múltiple, existe una ecuación de

regresión para estimar una variable dependiente, a partir de variables independientes. También, como observamos en la parte de regresión lineal múltiple,

análogamente a como existen las rectas de regresión de mínimos cuadrados de aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres dimensiones.

La base del cálculo de la correlación múltiple se basa en la teoría de la regresión

múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra parte de regresión lineal múltiple.

Planos de regresión y coeficientes de correlación

Vamos a suponer una ecuación de regresión para el caso de tres variables,

como a continuación se indica: X1 = b1.23 + b12.3 X2 + b 13.2 X3

Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23, b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables independientes X2 y X3.

Tomando como referencia esta ecuación, si los coeficientes de correlación lineal entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados tiene la ecuación:

donde:

s1

x1=

r12 - r13r23

1 - r223 s2

x2 +r13 - r12r23

1 - r223 s3

x3

x1 = X1 - X1, x2 = X2 - X2, x3 = X3 - X3, y s1, s2 y s3 son las desviaciones típicas de X1, X2 y X3,

respectivamente

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

18

Error típico de la estimación

Tomando como base la teoría de la regresión lineal simple como una

generalización de esta definimos al error de la siguiente manera:

donde X1 est. Indica los valores de X1 estimados en la recta de regresión.

En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la

estimación puede calculares por medio de:

Coeficiente de correlación múltiple

Por analogía con la teoría de correlación simple, el coeficiente de correlación múltiple queda defino por una extensión de la ecuación del coeficiente en correlación simple. En el caso, por ejemplo, de dos variables independientes, el coeficiente de correlación múltiple esta dado por:

Donde s1 es la desviación típica de la variable X1 y s1.23 se calcula de acuerdo a la fórmula vista en la parte de error típico de la estimación. La cantidad R2

1.23 se llama coeficiente de determinación múltiple.

Cuando se utiliza una ecuación de regresión lineal, el coeficiente de correlación

múltiple se llama coeficiente de correlación múltiple lineal. A menos que se especifique de otro modo, siempre que se refiera a correlación múltiple se tratará de correlación múltiple lineal.

En términos de r12, r13, y r23, la ecuación anterior puede escribirse como:

Σ(X 1 - X 1 est.)2

Ns 1.23 =

1 - r 212 + r

213 - r

223 + 2r 12r 13r 23

1 - r 223

s 1.23 =

R 1.23 = 1 - s21.23

s21

r 212 + r

213 - 2r 12r 13r 23

1 - r 223

R 1.23 =

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

19

Un coeficiente de correlación múltiple, tal como R1.23, se encuentra entre 0 y 1. Cuanto más se acerque a 1 mejor es la relación lineal entre las variables. Cuanto más cerca se encuentra de cero la relación lineal es peor. Si el coeficiente de correlación múltiples 1, la correlación se dice perfecta. Aunque un coeficiente de correlación con valor 0 indica que no existe relación lineal entre las variables, es posible que exista entre ellas una relación no lineal.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

20

APLICACIÓN PRÁCTICA

En la empresa Surtidora Gráfica S.A. de C.V. Se desea saber si se relacionan las

variables de lineatura de trama de PMS con la ganancia de punto, cómo se relacionan y el grado en el que las variables se relacionan. Para tal efecto se realizo un estudio del impreso “Carta Bienvenida Bancomer” impreso en selección de color en papel couche de 120 grs. La máquina Offset proporciona las medidas de lineatura por pulgada, mientras que el densitómetro es empleado para determinar la ganancia de punto correspondiente.

En una corrida de 1000T/L se realizo a cabo el siguiente estudio con un n= 20 impresos

Conocimiento Teórico.- La definición de ganancia de punto trata del incremento en los valores tonales del punto de trama (es decir, la superficie relativa que ocupa en la trama) que experimenta en los diversos procesos gráficos por los que atraviesa

L in e a tu r a s N e g r o X 1

L in e a tu r a s M a g e n ta X 2

L in e a tu r a s C y a n X 3

L in e a tu ra s Y e l lo w X 4

G a n a n c ia d e p u n to Y 1

%7 5 8 5 9 0 9 5 7 .59 0 8 9 1 2 8 1 5 0 2 59 0 8 5 8 9 9 6 7 .5

1 6 5 1 3 5 1 4 0 1 5 0 3 01 0 0 9 5 1 2 0 1 0 0 2 51 2 5 1 6 5 1 8 5 1 0 0 3 01 2 8 1 5 0 1 4 0 1 1 0 2 51 0 0 1 2 5 2 0 0 1 6 0 3 01 1 0 1 3 0 2 1 0 2 1 0 3 01 1 5 1 2 5 1 2 8 1 3 0 2 51 2 0 1 9 0 2 0 0 1 6 9 3 01 8 0 1 6 0 1 9 0 2 0 0 3 02 5 0 1 8 9 2 2 0 2 0 0 4 01 4 0 2 0 0 2 5 0 2 8 0 4 22 8 0 2 5 0 2 0 0 2 4 0 4 33 0 0 3 2 0 2 9 0 2 6 0 4 53 5 0 2 9 0 2 8 0 2 9 0 4 93 0 0 3 2 0 3 5 0 3 0 0 5 03 2 0 3 5 0 3 6 0 3 2 0 5 03 1 0 3 5 0 3 2 0 3 1 0 5 0

L IN E A S P O R P U L G A D A

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

21

A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado.

Regression Analysis - Linear model: Y = a + b1*X1 + b2*X2+ b3*X3 + b4*X4

Parameter Estímate Error P-Value

CONSTANT 3.711982 3.06246 0.2433 Negro 0.0510435 0.0341314 0.1555

Magenta -0.0224212 0.0518854 0.6718 Cyan 0.0870096 0.0503742 0.1046

Yellow 0.0343141 0.0404302 0.4094 Correlation Coefficient = 0.94403 R-squared = 89.1202 % Dependent variable: Ganancia Punto Independen variable: Lineatura de trama Error of Est. = 4.74695

Análisis de Resultados

A continuación se muestran los resultados apropiados del modelo lineal que se describe: La ecuación del modelo establece la relación entre la ganancia de punto y las lineaturas de trama del PMS.

Ganancia Punto =3.71982+0.0510435*Negro – 0.0224212 *Magenta + 0.870096*Cyan + 0.0343141*Yellow b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 89.1202 % la variabilidad en relación al gramaje. c) El coeficiente de correlación igual a 0.94403 indica una relación fuerte entre las variables. d) El error estándar de la estimación muestra la desviación estándar de 4.74695. Este valor puede ser usado para construir límites de predicción en nuevos experimentos. Se observa que el margen de error es reducido. e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación fuerte de la lineatura del tramado de selección de color con la ganancia de punto. A partir de lo anterior, el color magenta tiene un p-value lo cual significa que este color representa de manera efectiva la correlación existente.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

22

CONCLUSIONES

El análisis de regresión y correlación lineal constituyen métodos que se emplean

para conocer las relaciones y significación entre series de datos. Lo anterior, es de

suma importancia para la industria ya que es aquí en donde se presentan variables de

respuesta e independientes las cuales interactúan para originar las características de

un proceso en particular y por ende; analizar, predecir valores de la variable

dependiente y examinar el grado de fuerza con que se relacionan dichas variables.

La regresión lineal simple y la regresión múltiple, analiza la relación de dos o mas

variables continuas, cuando analiza dos variables a esta se el conoce como variable

bivariantes que pueden corresponder a variables cualitativas. La finalidad de una

ecuación de regresión es la de estimar los valores de una variable con base en los

valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los

valores de una variable en términos de otra. Es decir, se puede intuir una relación de

causa y efecto entre dos o más variables. El análisis de regresión únicamente indica

qué relación matemática podría haber, de existir una.

Por otro lado, Al ajustar un modelo de regresión simple o múltiple a una nube de

observaciones es importante disponer de alguna medida que permita medir la bondad

del ajuste. Esto se consigue con los coeficientes de correlación. Si el modelo que se

ajusta es un modelo de regresión lineal, a R se le denomina coeficiente de

correlación y representa el porcentaje de variabilidad de la Y que explica el modelo de

regresión.

Estas técnicas estadísticas constituyen una herramienta útil para el análisis de

las variables de un proceso ya que a través de la aplicación de éstas, es posible

conocer el modelo que siguen y la fuerza con que se encuentran relacionadas.

Asimismo, es posible explicar la relación que guardan dos o más causas de un posible

defecto.

B REGRESIÓN Y CORRELACIÓN LINEAL

Estadística Aplicada

23

BIBLIOGRAFÍA

1. Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA, Sexta Edición. 1998. 2. William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana. 3. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México. 4. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE EXPERIMENTOS, McGraw-Hill, México.