Regresion Lineal en Excel

download Regresion Lineal en Excel

of 22

description

manual

Transcript of Regresion Lineal en Excel

  • Rectas de mejor ajuste en Excel

    Contenido [ocultar] 1 Introduccin 2 Qu es una recta de mejor ajuste 3 Por qu se llama de mnimos cuadrados 4 Antes de calcular: representando los puntos

    o 4.1 Medidas experimentales o 4.2 Implementacin en Excel o 4.3 Haciendo una grfica de los datos

    5 Cmo se calcula o 5.1 Pendiente, b o 5.2 Ordenada en el origen, a o 5.3 Coeficiente de correlacin, r o 5.4 Incertidumbre de la pendiente, Eb o 5.5 Expresin de la pendiente con su incertidumbre o 5.6 Incertidumbre de la ordenada, Ea o 5.7 Expresin de la ordenada con su incertidumbre o 5.8 Resumen de los pasos

    6 Haciendo la grfica o 6.1 La grfica, lo ms grande posible o 6.2 Cuadrcula en la grfica

    6.2.1 Lmites en los ejes 6.2.2 Trazado de la cuadrcula

    o 6.3 Etiquetas y ttulo o 6.4 Formato de los puntos o 6.5 Recta de mejor ajuste

    1 Introduccin En la mayora de las prcticas de laboratorio se requiere el trazado de una o varias rectas de mejor ajuste o rectas de mnimos cuadrados (en nuestro contexto, ambos trminos son sinnimos). En este artculo se trata de explicar de forma lo ms clara posible qu son, como se calculan y sobre todo, cmo se representan grficamente de forma correcta. Aparte de las frmulas, explicaremos el procedimiento particularizado en el programa Excel. 2 Qu es una recta de mejor ajuste

    Muchas leyes fsicas obedecen un comportamiento lineal, que quiere decir que una variable depende de otra como una funcin de primer grado. As, por ejemplo, la ley de Hooke nos relaciona la fuerza aplicada a un muelle con la elongacin de ste respecto a la posicin de equilibrio)

  • Si esta fuerza la aplicamos colgando sucesivas masas, obtenemos la relacin terica entre longitud del muelle y masa colgada

    que es un caso particular de relacin lineal

    donde a es la llamada ordenada en el origen y b es la pendiente. Idealmente, si representamos la longitud del resorte frente a la masa obtendremos una recta cuya pendiente esb y que corta el eje de ordenadas a una altura a. Esta es una ley terica, que se apoya en evidencias experimentales. Esto quiere decir que si, para un muelle dado, medimos la elongacin para distintas masas concretas, deberamos obtener una serie de puntos alineados. A partir de la recta que pasa por estos puntos podemos determinar la constante k del muelle o su longitud de equilibrio, por ejemplo. Cuando se tienen dos puntos experimentales, existe solo una recta que pasa por ellos, por lo que con solo dos puntos seramos capaces de hallar a y b. Sin embargo, solo dos medidas puede ser demasiado poco. Si han salido mal, por la razn que sea, lo que se deduzca de ellas estar igualmente mal. Por ello, es preferible hacer ms medidas, cuantas ms mejor. De esta forma, los posibles errores se reducen, ya que si en algunos hemos medido de ms, en otros se medir de menos, y el efecto de una mala medida se amortigua.

    El problema es que cuando se tienen ms de dos puntos experimentales, ya no habr una recta que pase por todos ellos, ya que nunca van a estar perfectamente alineados.

    Lo que se hace en ese caso es buscar la recta de mejor ajuste, que es aquella que probablemente no pase por ninguno de los puntos experimentales, pero es la que, en promedio, pasa ms cerca de todos ellos. Una vez calculada la ecuacin de esta recta, podemos emplear sus coeficientes para determinar las magnitudes del problema. 3 Por qu se llama de mnimos cuadrados

    En el contexto de las prcticas de Fsica usamos indistintamente los trminos de recta de mejor ajuste y recta de mnimos cuadrados, aunque siendo precisos, el segundo trmino corresponde al mtodo concreto que se emplea para hallar la recta de mejor ajuste (existiendo ms de un mtodo).

    El principio del mtodo es el siguiente: puesto que no podemos conseguir una recta que pase por todos los puntos experimentales, buscamos una que sea la que pase ms cerca de todos ellos.

  • Supongamos que tenemos un conjunto de datos experimentales y suponemos una recta, cuya pendiente y ordenada en el origen son aun desconocidas

    Para un valor xi la diferencia entre lo que predice la recta y lo que se ha medido es el llamado residuo

    Un residuo puede ser positivo o negativo. Por ello, si queremos minimizar los residuos, consideramos la suma de sus cuadrados (que son siempre positivos)

    El mtodo de los mnimos cuadrados consiste entonces en hallar los valores de a y b que hacen mnima esta suma de cuadrados. De ah el nombre del mtodo. El resultado de esta minimizacin produce los resultados que se ven en las secciones siguientes.

    A este mtodo tambin se lo denomina "regresin lineal" (linear regression en ingls), razn por la que en las calculadoras se lo suele identificar como modo LR.

    4 Antes de calcular: representando los puntos 4.1 Medidas experimentales

    Supongamos que tenemos un resorte del cual vamos suspendiendo diferentes pesos y medimos, para cada pesa, la longitud total del muelle, empleando una regla graduada en milmetros. Obtenemos, tras una serie de medidas, la siguiente tabla:

    50 15.6 100 15.7 200 15.9 500 16.5

    1000 17.4 2000 19.4

    De una tabla como esta hay que resaltar que en la cabecera hay que indicar las unidades y el error; se entiende que lo que se ponga en la cabecera se aplica a todas las celdas de la columna. Solo si las unidades o errores fueran diferentes para cada dato habra que indicarlo en cada celda

  • 4.2 Implementacin en Excel Para hacer nuestro anlisis, abrimos un fichero nuevo de Excel, en el cual introducimos los valores. Por correccin (aunque no hace falta para los clculos; evita confusiones) aadimos una cabecera con las magnitudes y unidades.

    En este ejemplo, los datos de las "x" estarn en las celdas B3 a B8 y los de las "y" de la C3 a la C8. Evidentemente, en cada caso concreto la ubicacin de estas celdas cambiar.

    4.3 Haciendo una grfica de los datos

    Antes de hacer ningn clculo, conviene hacer una grfica de los datos, que refinaremos ms tarde. El objeto de esta grfica es comprobar si los puntos estn ms o menos alineados o si hay que descartar alguno que se salga de la tendencia.

    Para ello, seleccionamos (con el ratn o los cursores) las celdas que contienen los datos y aplicamos la operacin de Insertar y luego elegimos un grfico del tipo "Dispersin" (o "XY"), que contiene los puntos experimentales.

  • En este ejemplo, los lmites de los ejes por defecto que aplica el programa no son los apropiados para ver con claridad si los datos estn alineados. Esta es una leccin permanente: hacer una grfica no consiste en aceptar de forma acrtica los resultados de la aplicacin. Consiste en ir fijando los parmetros adecuadamente hasta que salga la grfica deseada.

    En nuestro caso, pinchamos con el botn de la derecha del ratn en uno de los nmeros del eje de ordenadas. Esto hace aparecer la opcin "Dar formato al eje...". Dentro de esta, podemos seleccionar los lmites de los ejes. Puesto que nuestros datos valen como mnimo 15.6 y como mximo 19.4 tomamos como mnimo un valor fijo de 15 y como mximo uno fijo de 20. De esta forma se ve mucho ms claro.

  • El resultado es que, efectivamente, parece que estn alineados, y no hay ningn dato extrao, por lo que podemos continuar con los clculos.

    5 Cmo se calcula 5.1 Pendiente, b Supongamos que tenemos una lista de datos en dos columnas de una hoja de Excel, que como en la figura, se encuentran en las celdas B3 a B8 (los valores de xi) y de C3 a C8 los de yi. En ese caso la pendiente de la recta de mejor ajuste se calcula con la funcin PENDIENTE. Escribimos en la celda correspondiente

    =PENDIENTE(C3:C8;B3:B8)

    donde los argumentos de la funcin son en primer lugar los datos de las yi y luego los de las xi. Los argumentos se separan por un punto y coma; los extremos de cada columna por dos puntos.

  • En este caso la operacin produce un resultado 0.00193939 (al cual luego le tendremos que hallar el error).

    La pendiente es una magnitud con unidades, siendo sus dimensiones las de "y" divididas por las de "x". En este caso sera

    5.2 Ordenada en el origen, a La ordenada en el origen, a, se halla de manera anloga empleando en este caso la funcin INTERSECCION.EJE

    =INTERSECCION.EJE(C3:C8;B3:B8)

    El resultado en este caso es 15.5055613 (que luego redondearemos teniendo en cuenta el error). La ordenada en el origen tiene las mismas dimensiones que y, que en este ejemplo es una longitud medida en centmetros, por lo que

  • Si en lugar de Excel se usa su alternativa Calc (de la suite LibreOffice), la funcin se denomina INTERSECCIN.EJE (con tilde).

    5.3 Coeficiente de correlacin, r

    El tercer parmetro que caracteriza a una recta de mejor ajuste es el coeficiente de correlacin. Este mide la bondad de la recta. Es un nmero adimensional comprendido entre -1 y +1. Cuanto ms se acerque en valor absoluto a la unidad, mayor es el grado de alineado de los puntos (siendo |r| = 1 una recta perfecta).

    En las prcticas de laboratorio de fsica, los comportamientos lineales son muy precisos por lo que el coeficiente de correlacin est muy cerca de 1 casi siempre. En este caso, la verdadera informacin la obtenemos de cunto se acerca a la unidad. Para ello, en lugar de redondearlo a partir de un clculo de errores, lo que hacemos es conservar tantos nueves como contenga tras el punto decimal y la primera cifra que no sea un 9. As una r = 0.992 sera una recta menos alineada que r = 0.99997, ya que la primera es de solo "dos nueves" y la segunda de "cuatro nueves".

    El coeficiente de correlacin se calcula de forma similar a la pendiente b y a la ordenada en el origen, a. En este caso se emplea la funcin COEF.DE.CORREL

    =COEF.DE.CORREL(C3:C8;B3:B8)

    El resultado en este caso es 0.9998626. Aplicando la regla del redondeo particular para el coeficiente de correlacin escribimos

    5.4 Incertidumbre de la pendiente, Eb

    El clculo anterior de la pendiente hay que refinarlo calculando la incertidumbre de sta. Esta incertidumbre se debe tanto al hecho de que cada dato es incierto (por las limitaciones propias del proceso de medida) como al hecho de que se

  • trata de una estimacin estadstica. Para que fuera exacta deberamos reunir infinitos datos.

    La mejor estimacin de la incertidumbre de la pendiente puede hallarse recurriendo de nuevo a un clculo del mnimo de una funcin y el resultado es

    siendo b la propia pendiente, r el coeficiente de correlacin y n el nmero de datos. vemos que cuando n tiende a infinito el error de la pendiente se anula.

    Para calcular este error con Excel debemos recurrir a las funciones RAIZ(), que halla la raz cuadrada y CONTAR(), que nos da el nmero de datos de la columna (sin incluir las celdas vacas).

    En nuestro ejemplo, con los valores en las celdas que hemos empleado, queda

    =2*E4/E8*RAIZ((1-E8^2)/(CONTAR(B3:B8)-2))

    siendo E4 la casilla donde est almacenada b, y E8 donde est r. Obviamente, en otro ejemplo habr que cambiar estas referencias por las que correspondan.

    El resultado del clculo en este caso nos da 3.21525E-05, esto es, 3.2152510-05. La incertidumbre de b tiene las mismas unidades que b, es decir

    5.5 Expresin de la pendiente con su incertidumbre

    Si expresamos b con su incertidumbre nos queda

  • Aplicamos ahora las tcnicas del redondeo: colocamos el error bajo la maginitud

    0.00193939

    0.0000321525

    Consideramos las dos primeras cifras significativas del error (32), puesto que son mayores de 25 redondeamos a una cifra

    0.00193939

    0.00003

    Redondeamos ahora la pendiente hasta la cifra en que hemos cortado el error

    0.00194

    0.00003

    Volvemos a escribir la pendiente con su error, ya redondeados:

    o, en forma compacta

    o, en notacin cientfica

    Si ahora pasamos a las unidades fundamentales del sistema internacional

    Por tanto, escribiremos en la celda correspondiente del formulario de prcticas

    o

  • o

    Cualquiera de estas tres formas es vlida, aunque por las limitaciones de espacio es preferible la forma compacta con la incertidumbre entre parntesis.

    5.6 Incertidumbre de la ordenada, Ea

    La ordenada en el origen tiene tambin su propia incertidumbre, causada en este caso por tres factores:

    Por la incertidumbre de cada una de las medidas individuales Por el hecho de que se trata de una estimacin estadstica Por la incertidumbre en la pendiente. Este ltimo factor influye en que segn

    la pendiente sea un poco mayor o un poco menor, el punto de corte con el eje de ordenadas bajar o subir.

    La frmula para el error en la ordenada en el origen es

    donde Eb es la incertidumbre de la pendiente (que hallamos antes), es el valor medio de las x (que en Excel se halla con la funcin PROMEDIO) y es la varianza de la poblacin

    Esta cantidad se halla en Excel 2010 con la funcin VAR.P, (en Excel 2007 y anteriores con la funcin VARP; tambin funciona en Excel 2010). Con esto nos queda la orden

    =F4*RAIZ(PROMEDIO(B3:B8)^2+VARP(B3:B8))

    siendo F4 la celda donde est almacenada la incertidumbre de la pendiente.

  • En nuestro ejemplo nos da un valor de 0.030225925. Teniendo en cuenta que la incertidumbre de la ordenada tiene las mismas unidades que sta, sera

    5.7 Expresin de la ordenada con su incertidumbre

    Reuniendo el valor de a con el de su incertidumbre queda

    Ahora corresponde redondear empleando las mismas tcnicas que para cualquier otra magnitud con incertidumbre. Escribimos el valor de la magnitud y el de su incertidumbre uno bajo el otro, alineando los puntos decimales

    15.5055613

    0.030225925

    Consideramos las dos primeras cifras significativas de la incertidumbre (30). Al ser mayores que 25 se redondea a una sola cifra

    15.5055613

    0.03

    Redondeamos la magnitud hasta la ltima cifra del error. Puesto que las siguiente cifras (55) son mayores que 50, redondeamos hacia arriba

    15.51

    0.03

    Con esto nos queda el valor de la ordenada

  • En forma compacta, escribiendo la incertidumbre entre parntesis

    Pasamos este valor a las unidades fundamentales del sistema internacional

    Esto es lo que tenemos que escribir en la casilla correspondiente del formulario. Alternativamente, podemos poner

    aunque por las limitaciones de espacio, es preferible la forma compacta.

    5.8 Resumen de los pasos

    Resumiendo, tenemos los siguientes pasos para hacer los clculos de la recta de mejor ajuste

    a una serie de datos (xi,yi)

    1. Se almacenan los datos en una tabla de dos columnas 2. Se hace una grfica de los puntos experimentales, para ver si hay alguno

    que descartar. Si lo hubiera, se borra de la tabla. 3. Se calcula la pendiente, b. 4. Se calcula la ordenada en el origen, a. 5. Se halla el coeficiente de correlacin, r. Se expresa hasta el primer

    nmero que no sea un 9 tras el punto decimal. 6. Se calcula la incertidumbre de la pendiente, Eb (que requiere conocer b

    y r) 7. Se expresa la pendiente con su incertidumbre, redondeando donde sea

    preciso y colocando las unidades adecuadas.

  • 8. Se halla la incertidumbre de la ordenada, Ea (precisa de Eb) 9. Se expresa la ordenada en el origen con su incertidumbre, redondeando

    donde sea preciso y colocando las unidades adecuadas.

    Detalles a tener en cuenta:

    b es la pendiente y a es la ordenada en el origen; en algunas calculadoras y textos de referencia, se usa la notacin inversa, por lo que hay que tener mucho cuidado.

    La pendiente tiene unidades, las de y divididas por las de x. Es un error muy grave escribir la pendiente sin unidades porque es un nmero que da la calculadora (o Excel). En general, convendr pasar a las unidades fundamentales del SI.

    La ordenada en el origen tambin tiene unidades, las de y. Tambin est mal el clculo si no se ponen.

    La regla de redondeo para r es diferente que para las otras dos cantidades. 6 Haciendo la grfica

    Una parte importante de todo clculo de rectas de mejor ajuste es su representacin grfica. De hecho, en las prcticas de Fsica se entiende que siempre que se pida calcular una recta por mnimos cuadrados, hay que adjuntar la grfica correspondiente.

    El trazado de una grfica tiene unas normas de presentacin especficas, que hay que respetar. No puede uno limitarse a aceptar lo que produce Excel sin ms. El objeto de una grfica no es simplemente ilustrar un fenmeno. Se trata de una herramienta muy til. Para ello, debe presentar toda la informacin necesaria de forma clara.

    Veamos cmo se hace una buena grfica en Excel.

    6.1 La grfica, lo ms grande posible

    El primer paso consiste en ampliar la grfica para aumentar su visibilidad.

    Recordemos que ya habamos trazado una grfica de los puntos experimentales. Para ampliarla la movemos a una hoja nueva. Pulsando con el botn de la derecha en una zona libre de la grfica aparece un men contextual. Mediante la opcin "Mover grfico" (o "Ubicacin...") podemos elegir el cambiarlo de hoja. De este modo obtenemos una grfica que ocupa toda una pgina

  • 6.2 Cuadrcula en la grfica

    En una representacin sobre papel milimetrado, la posicin de los puntos se puede leer fcilmente a partir de su posicin en la cuadrcula. En una grfica producida por ordenador se aplica el mismo principio. Debe haber una cuadrcula que permita localizar de forma sencilla los valores aproximados de los datos experimentales, sin necesidad de indicar los valores numricos explcitamente.

    Excel incluye entre sus plantillas para los grficos del tipo "Dispersin" o "XY" una

    que prcticamente produce una grfica con casi todas las propiedades que vamos a emplear.

  • Suponiendo que no tenemos, o no sabemos emplear, esta plantilla, podemos fijar todos los parmetros manualmente a partir de la grfica bsica que tenamos antes.

    6.2.1 Lmites en los ejes

    El primer paso para trazar la cuadrcula consiste en establecer los lmites de los ejes. En una grfica no hay ninguna obligacin de que el punto (0,0) est en la esquina. Por el contrario, lo ms probable es que ni aparezca en la grfica. Los lmites de la grfica se eligen tomando dos valores ms o menos "redondos", uno de los cuales est algo por debajo del menor dato y otro algo por encima del mayor.

    En nuestro ejemplo, para la x, que va de 50 a 2000, tomamos los lmites 0 y 2000, y para la y, que va de 15.6 a 19.4 tomamos los lmites en 15 y 20.

    En Excel, para fijar los lmites, marcamos en un nmero del eje que queremos modificar y elegimos la opcin "Dar formato a eje...". En el formulario que aparece seleccionamos la opcin de fijar manualmente los lmites superior e inferior, as como las divisiones principales y secundarias (las principales corresponden a la cuadrcula gruesa y la secundaria a la fina).

  • 6.2.2 Trazado de la cuadrcula

    A continuacin, pulsando de nuevo en un nmero del eje, seleccionamos las opciones de "Agregar lneas de divisin principales" y "Agregar lneas de divisin secundarias".

    Repetimos la operacin con el otro eje y as obtenemos la grfica cuadriculada.

  • 6.3 Etiquetas y ttulo

    Toda grfica debe estar correctamente identificada.

    Debe tener un ttulo descriptivo de qu se representa frente a qu. En cada eje debe aparecer el smbolo de la magnitud (el mismo que se

    emplee en las frmulas) y la unidad de medida.

    Para ello, editamos el ttulo y las etiquetas, simplemente pinchando en ellas.

    Si nuestra grfica por defecto no trae ni ttulo de grfico ni rtulo de ejes, los insertamos yendo a la pestaa "Presentacin" y pulsando en las opciones correspondientes

    Con esto nos queda una grfica correctamente rotulada.

  • 6.4 Formato de los puntos

    Los puntos experimentales deben ser claramente visibles. Por ello, no es conveniente un marcador (el smbolo usado para marcarlos), que sea un punto gordo, pues no deja clara la posicin exacta del dato.

    Por ello, debemos cambiar el formato de la serie de datos (pulsando con el botn derecho en uno de los puntos experimentales y eligiendo "Dar formato a serie de datos...") y elegir un marcador en forma de aspa o similar, que sea adems de un color oscuro, para que se va bien al imprimirlo. Existen muchas opciones que pueden modificarse (color del marcador, grosor de sus lneas, tamao del marcador, etc.)

    Una opcin debe evitarse siempre: No se debe trazar la lnea quebrada que unira los puntos. Puesto que no tenemos informacin sobre lo que pasa entre dato y dato, esta lnea es superflua.

  • La etiqueta por defecto "Serie 1" que coloca Excel puede ser suprimida sin problemas.

    6.5 Recta de mejor ajuste

    Por ltimo, queda trazar la recta de mejor ajuste. En principio, puede hacerse a partir de los datos de a y b hallados antes. Sin embargo, en Excel es mucho ms sencillo: basta pulsar de nuevo en un punto experimental con el botn derecho del ratn y elegir la opcin "Agregar lnea de tendencia...". Se abre entonces un men de opciones que nos permiten elegir el tipo de ajuste (lineal, en la prctica totalidad de los casos), el color de la lnea, su grosor, etc.

    La recta de mejor ajuste debe ser claramente visible y debe dejar ver los marcadores de los puntos experimentales, por lo que hay que buscar que su color sea diferente y que los marcadores sobresalgan claramente de la lnea.