Uso de Software Libre Cientıfico en La Practica Docente

download Uso de Software Libre Cientıfico en La Practica Docente

of 18

description

Uso de Software Libre Cientıfico en La Practica Docente

Transcript of Uso de Software Libre Cientıfico en La Practica Docente

  • Uso de software libre cientfico en la practica docentee investigacion: un caso de estudio enfocado al

    analisis de regresion de datos.

    C. Bouchot1, J. B. Martnez Romero1, J. C. Sanchez Ochoa2

    (1) Laboratorio de Termodinamica, SEPI ESIQIE, IPN, UPALM, Edif. Z Secc. 6, 1ER Piso,Lindavista, 07738 Mexico D.F.(2) ESIQIE IPN, UPALM, Edif. 8, 1ER Piso, sala B, Lindavista, 07738 Mexico D.F.(*) E-Mail: [email protected]

    Resumen

    En las ciencias fsico matematicas, especialmente en termodinamica, el anali-sis estadstico y las regresiones de datos, son actividades comunes y muchas vecesreducidas a un simple ajuste de parametros. Actualmente estas actividadescobran mas profundidad haca la estandarizacion, calidad y presentacion de losresultados, refiriendose a los aspectos metrologicos apegados a estandares inter-nacionales.

    En Posgrado como en Licenciatura, es importante que los estudiantes estenfamiliarizados con herramientas que permiten llevar a cabo este tipo de analisis.Para eso, se requieren paquetes de computo con caractersticas estandares. En lapractica, se tiene un dilema entre la necesidad de contratar numerosas y costosaslicencias, y el sacrificio de aspectos en la formacion cientfica como la curiosidad,la posibilidad de elegir, evaluar, modificar o generar herramientas de computo.El software libre, muy poco utilizado, por lo menos en la ESIQIE y ESFM delIPN, es una opcion viable que merece ser considerada.

    El objetivo de este trabajo, es dar a conocer herramientas profesionales deuso libre que podran ser beneficas para la formacion de futuros ingenieros e in-vestigadores en el contexto planteado. Tomando como ejemplo la regresion de laspresiones de vapor del n-hexano mediante la ecuacion de Wagner, se presentantres paquetes relevantes que resuelven el problema en ambientes diferentes: unacercamiento grafico con analisis basico (Gnuplot), mediante tabulador y macro-comandos predefinidos (Gnumeric) y mediante un programa especializado (Gretl),entre otros. Las caractersticas importantes y especficas de los programas serancomentadas y los resultados analizados.

    1

  • Palabras claves: docencia, software libre, analisis de datos, regresion.

    1. Introduccion

    Despues de una seccion sobre generalidades y fundamentos sobre la relacion entre uncaso simple de regresion de datos y las caractersticas de las herramientas de computoque permiten resolverlo en la practica, se hara una presentacion del caso de estudioespecfico donde se planteara brevemente el problema a resolver y sus caractersticasmatematicas relevantes. En una tercera parte se analizan tres aplicaciones libres, GNU-MERIC, GNUPLOT y GRETL que permiten resolver el problema planteado, enfocandola atencion sobre los aspectos didacticos y tecnicos relevantes. Finalmente se haran pro-puestas para sus usos en la practica docente.

    2. Fundamentos

    El analisis estadstico de los datos y de los modelos que los representan es unaactividad frecuentemente subestimada (y a su vez omitida) en la practica docente delas ciencias basicas en ingeniera qumica. La razon, probablemente, es que hace faltatiempo en clase para abordar de manera seria la enorme cantidad de material que estocontempla as como los requisitos matematicos que implica. Sin embargo, por lo menosen el posgrado, y, cada vez que se puede, en la licenciatura, se impulsan a los estudiantesde esos cursos a considerar la siguiente conjetura: esta usted seguro que el resultadoque acaba de obtener es correcto?, dirigiendo la pregunta no tanto hacia saber si sehicieron correctamente los calculos sino hacia saber si se tiene conciencia que al utilizarvalores aproximados sin fundamentos en una formula tiene alguna influencia sobre elresultado. La respuesta a lo ultimo es s, obviamente. La respuesta a la pregunta originalno es tan facil de hallar.

    La importancia de considerar los aspectos de precision numerica en los calculosclasicos en ingeniera qumica se encuentra en varios aspectos dirigidos haca las nocio-nes de calidad. La calidad de los resultados de un calculo depende no solamente delmodelo que se emplea sino tambien de la precision de los parametros involucrados yde la manera en que fueron obtenidos. En el caso que consideraremos, del estableci-miento de una correlacion de presion de saturacion, se tiene el objetivo de proporcionarvalores de presiones con cierta calidad, en principio comparable con la calidad de losdatos experimentales utilizados para establecerla. En ese aspecto, es importante que losestudiantes entiendan cual es la relacion entre las ciencias experimentales y las herra-mientas matematicas que se emplean y que, por lo menos alguna vez, hayan construidouna correlacion en el estado del arte.

    2

  • Otro aspecto relacionado con las actividades de la ingeniera qumica donde lasregresiones, el analisis estadstico y la precision numerica es fundamental se refiere ala metrologa y especificamente a la generacion de curvas de calibraciones para ins-trumentos de medicion. En esas actividades, las regresiones, tomando en cuenta lasincertidumbres y modelos apropiados (en el sentido estadstico), son basicas, y de igualimportancia es que los datos que se obtienen de las correlaciones obtenidas sean con-fiables.

    Las actividades mencionadas, ya sea en clases, practicas en laboratorio o en lasactividades de investigacion, requieren programas cientficos de computo, que son losque consideraremos aqu como la herramienta indispensable para manipular datos enrelativamente grandes cantidades y en un tiempo razonable. La cuestion de fondo sobrela eleccion entre el uso de calculadoras o de programas de computo, en nuestro sentir,es: a que se destinan los resultados?. En el posgrado y a su vez en licenciatura, es-peramos que estos se vean reflejados en tesis, memorias, artculos y, por lo tanto, lasherramientas deben presentar caractersticas de portabilidad en los formatos de salidasy de compatibilidad con aplicaciones externas de procesamiento de graficos o de texto.Esto, a la fecha, no esta disponible de manera convincente en las calculadoras, y unalaptop basica es seguramente una mejor herramienta.

    En la practica docente, la eleccion de un programa adecuado es delicado por dosrazones principales. Primero, ademas de permitir resolver el problema con una calidadtrazable, debe responder a criterios didacticos de eficiencia y no provocar que un cursode fsicoqumica se transforme en un curso de computacion. Segundo, el programa debeser disponible y aqu aparecen situaciones especficas a una escuela o a un laboratorio quetienen que ver con el manejo y las posibilidades de adquisicion de licencias. Los efectoscombinados de grupos numerosos de estudiantes y la falta de presupuesto provocan quelos estudiantes, en general, no pueden tener acceso a ciertas herramientas de computoque les serviran en su currcula. Frecuentemente, esto provoca que cada quien utilizael programa que puede, pero no forzosamente el que requiere.

    Una solucion a esta disyuntiva, es la del uso de Software Libre[1, 2]. Los pros ylas contras del Software Libre son fuera del alcance de este artculo. En el IPN, lasiguiente liga esta dedicada a este asunto [3]. En la ESIQIE o ESFM es muy probable quese use y desarrolle software libre, pero esto es muy poco difundido. Por experiencia,los autores no han detectado, por parte de los alumnos, un conocimiento relevante dela existencia de programas libres que les puedan ser utiles en sus currcula o carrera.

    En este trabajo, simplemente mostraremos que, por lo menos para el caso de estudioplanteado, podemos hallar herramientas libres, con licencias que no involucran gastosalgunos, y que resuelven concretamente y correctamente el problema. Seleccionamostres aplicaciones que responden, en ambitos diferentes al caso planteado: mediante untabulador o hoja de calculo, con o sin macrocomandos predefinidos (Gnumeric [4]), con

    3

  • un acercamiento grafico y posibilidad de analisis basico (Gnuplot [5]), y mediante unaaplicacion grafica mas especializada (Gretl [6]).

    3. Caso de estudio

    Elegimos considerar un ejercicio tpico que consiste, dentro de un curso de fsico qumica, en alguna practica de laboratorio, o bien en la practica diaria en un la-boratorio de investigacion experimental, en determinar una correlacion que representecorrectamente un conjunto de datos experimentales.

    3.1. Un ejemplo

    Se considera el caso de la correlacion de los datos de presion de saturacion del nhexano [7], datos de alta precision ( 0.002 K en temperatura y en promedio 0.02%en presion), obtenidos en un amplio intervalo de temperatura (aproximadamente Tnb25 K, donde Tnb es la temperatura normal de ebullicion, hasta Tc 3.5 K, donde Tces la temperatura crtica). Para regresar tales datos, se considera un modelo apropiadoque llamaremos ecuacion de Wagner [7, 8], con la siguiente forma:

    ln(p) = ln(pc) + (Tc/T )(c1 + c1,51,5 + c2

    2 + c4,54,5) (1)

    donde = 1 T/Tc es la temperatura reducida complementaria, Tc es la temperaturacrtica y pc es la presion crtica del n-hexano. La ecuacion (1) presenta ln(p) comoun modelo lineal respecto a los parametros ln(pc), c1, c1,5, c2 y c4,5 bajo la condicionde especificar Tc. En [7], se ha efectuado una regresion multi-lineal no ponderada deln(p) fijando Tc= 507.49 K. Los valores de los parametros estan reportados con 6 cifrasdecimales significativas y una desviacion estandar sobre la presion (p) = 47Pa. El errorestandar sobre los parametros y sus intervalos de confianza no estan reportados. Esosresultados son los que pretendemos reproducir, mediante herramientas que permitan alos estudiantes no solo aprender a hacer sino tambien entender como se hace.

    3.2. El problema de los mnimos cuadrados ordinarios

    Se quiere determinar una observacion y (Variable dependiente) como funcion deotra observacion x (Variable independiente). Para eso se obtienen experimentalmentek mediciones de pares de valores (xi , yi) donde i = 1 ... k. Supondremos que cadamedicion yi tiene una incertidumbre cuantificable

    i . El objetivo de la regresion es

    determinar (es decir obtener los valores de los parametros) la funcion (o modelo) y que

    4

  • describa la relacion entre estas dos variables medidas, tal que para cualquier dato i:yi = y(xi) [9].

    La forma matematica del modelo, en el caso presente, depende de la fsica del ex-perimento. En general, se puede proponer una funcion de n parametros (n < k), yhacer variar estos hasta ajustar la funcion y lo mas cercanamente posible a los datosexperimentales. Un modelo general para el metodo de los mnimos cuadrados linealespuede ser:

    y(xi) =n

    j=1

    aj fj(xi) (2)

    para el cual se deben determinar los valores mas probables de los parametros aj queminimicen la suma de los cuadrados de las diferencias, o residuos, entre los valoresmedidos yi y los valores calculados y(xi). De aqu el nombre del metodo de mnimoscuadrados.

    La afirmacion que este metodo de minimizacion proporciona los valores mas pro-bables para los coeficientes aj, se fundamenta en la inferencia que cada medicion ex-perimental obedece estadsticamente a una distribucion Gaussiana con una varianzai . As, la probabilidad de observar una medicion yi con una desviacion estandar

    i

    respecto al valor actual de y(xi) se puede calcular, para un conjunto de k valores deyi. Para maximizar esta probabilidad (criterio de maxima verosimilitud) se tiene queminimizar un termino llamado 2, que aparece en la expresion de la probabilidad [9],y definido por la ecuacion (3):

    2 =k

    i=1

    12iyi n

    j=1

    aj fj(xi)

    2 (3)

    La ecuacion (3) se debe minimizar con respecto a los parametros aj, con el obje-tivo de obtener una representacion en cada punto experimental (xi, yi), en la cual laincertidumbre de medicion i sea un estimado de la varianza estadstica (desconocidausualmente) en cada punto. El termino 1/2i es el llamado factor de ponderacion opeso, que notaremos wi. La ponderacion wi, en cada punto, tiene por efecto favorecerel ajuste de y(xi) a los datos obtenidos con mayor precision (o menor incertidumbre).

    La minimizacion de la expresion (3) se hace igualando a cero simultaneamente todaslas derivadas parciales de 2 respecto a cada uno de los n parametros aj. Para un modelolineal se obtiene un sistema de n ecuaciones con n incognitas, conocido como sistemade ecuaciones normales, las cuales se pueden escribir en una forma matricial poniendo:

    m =k

    i=1

    wi yi fm(xi) (4)

    5

  • ym,j =k

    i=1

    [wi fm(xi) fj(xi)] (5)

    obteniendo as: = a (6)

    La matriz es de dimension (n, n), simetrica y definida positiva (y por lo tantoinvertible, por ejemplo, por descomposicion de Choleski). El vector , de dimension nes el vector de componentes m, y el vector a es el vector de los n parametros aj, paraj = 1, . . . , n.

    Es obvio entonces que el problema se resume a un problema de algebra lineal y quesu resolucion es analtica:

    a = (7)

    notando la matriz inversa de , llamada matriz de error o de varianza covarianzade la regresion.

    De esa matriz se obtienen estimados de los errores en los parametros ei =ii,

    de sus errores estandares p,i = ei2/(k n) y de sus intervalos de confianza icp,i =

    p,itStud.(k n, p) donde aparece una correccion por estadsticas de Student de doscolas, tStud., para el numero de grados de libertad, (kn) y un nivel (1 p) de confianzadefinido. De se obtiene tambien la llamada matriz de correlacion c, tal que cij =

    ij/(iijj).

    Para el problema considerado, lo anterior aplica directamente, asignando wi = 1para todos los datos, y f1 =1.0, f2 = (Tc/T ) , f3 = (Tc/T )

    1,5, f4 = (Tc/T )2 y

    f5 = (Tc/T )4,5. Para los parametros, a1 = ln(pc), a2 = c1, a3 = c1,5, a4 = c2 y

    a5 = c4,5.

    Este planteamiento condensado y formulado de manera algortmica tiene comoproposito recordar que el analisis no termina con la determinacion de los parametros.El punto clave es la determinacion de la matriz y su aprovechamiento. Esa matriz esfundamental para hallar valores que permiten evaluar, con algo de detalle, la calidad deun modelo ademas de la calidad de la regresion como el error estandar en los parame-tros (numero de dgitos estadsticamente significativos), los intervalos de confianza delos mismos, que tan correlacionados estan entre ellos, etcetera. Entonces, un programaque resuelve el problema planteado debe, por lo menos, proporcionar esta informacion(y no nada mas valores de los parametros) porque de aqu se generan las discusiones yanalisis sobre la validez y confiabilidad de los modelos que son lo que realmente importaen la practica y la docencia en ingeniera.

    6

  • 4. Herramientas de computo libres y su analisis.

    En la cuestion computacional, el IEEE [10] (Institute of Electrical and ElectronicEngineers) es el responsable de una norma de especial interes: la ANSI/IEEE Std754-1985, (conocida como IEEE 754 ) que establece el estandar para la aritmetica encoma flotante. Esta norma es una base para las libreras en lenguajes ANSI/ISO Co FORTRAN. Averiguamos, y esto es posible directamente gracias al acceso al codigofuente que permite el Sofware libre, que los programas utilizados aqu estan apegadosa esta norma.

    Ademas, la manera en que un programa esta implementado independientemente delas libreras que usa, son factores que pueden tener impacto en la calidad de los resulta-dos que arroja. Para eso, tanto el NIST National Institute of Standard and Technology[11] como el NPL (National Physical Laboratory - ReinoUnido ) [12], han desarrolladopruebas estandares de regresion, que permiten, sobre una base de resultados certificados[13, 14], evaluar la precision de la aritmetica implementada en un programa de computodado. Los programas GNUMERIC y GRETL han sido ampliamente confrontados (ycon exito) a esas pruebas. GNUPLOT no tiene como finalidad el analisis estadstico,sin embargo, veremos que en el caso considerado proporciona resultados identicos a losotros programas.

    4.1. Hoja de Calculo: GNUMERIC

    Cuando se hace la pregunta en un salon de clase: con que programa suelen pre-parar sus graficas?, invariablemente, la respuesta es con Excel, profe!, y la mismarespuesta se obtiene (aunque raras veces) cuando la pregunta porta sobre el asuntode hacer regresiones de datos. La notoriedad y la frecuencia de uso de los llamadostabuladores o hojas de calculo es innegable. Sin embargo, poco se sabe, por parte delos estudiantes en general, de la existencia de tales aplicaciones con licencias libres ycodigo abierto (licencia GPL).

    GNUMERIC [4] es una aplicacion libre (licencia GPL) de tipo hoja de calculo, comoson MS-Excel(tm) y OpenOffice.org Calc (licencia GPL). A la diferencia de los paquetesmencionados, GNUMERIC no pertenece a una suite; es un programa autonomo. Eneste trabajo se utilizo Gnumeric version 1.6.3, ( c) para GNU/Linux Nucleo 2.6.15-51-386 en una LapTop/Celeron 600 MHz.

    A partir de los datos reportados por [7], se genero un archivo de texto (ASCII)con dos columnas conteniendo, en la primera, columna la temperatura T en K y, en lasegunda, la presion de saturacion ps en kPa. Este archivo es el unico que se tiene quegenerar para todos los programas utilizados.

    Utilizamos dos procedimientos para llevar a cabo la regresion propuesta con GNU-

    7

  • MERIC. Un metodo corto, utilizando el macro-comando disponible de [Regresion] y unmetodo riguroso, que reproduce la secuencia de calculos de la seccion 3.2.

    Metodo corto.

    Se importaron los datos a la hoja de calculo y se generaron siete columnas de los54 datos disponibles para obtener los valores de ln(ps), de , y de las cinco funcio-nes fi. Finalmente utilizamos la secuencia de menus [Tools] > [Statistical Analysis] >[Regression...], obteniendo la informacion presentada en la figura 1.

    Figura 1: Resultado de regresion en GNUMERIC (Metodo corto).

    Los resultados obtenidos para los parametros son, hasta los 6 dgitos reportados en[7], los mismos que en esta referencia y estan mostrados en la tabla 1. Los resultadosdesplegados son basicamente identicos a los que arrojan cualquier otra hoja de calculo.No se proporciona la matriz de varianza covarianza, , ni la matriz de correlacion, peros el error en los parametros y sus intervalos de confianza a 95% segun requisitados. El

    8

  • programa devuelve una informacion suficiente y precisa, aunque, sin la matriz se tieneque recurrir a calculos adicionales y generar graficos para explorar a detalle que tanadecuado es el modelo y que tan correlacionados estan los parametros entre ellos.

    Metodo riguroso

    El procedimiento inicial es le mismo que anteriormente hasta el uso del macroco-mando de regresion. Para seguir desde ese punto se tienen que generar 43 columnasde datos adicionales a las 7 ya presentes representando en total 1720 calculos aritmeti-cos. Treinta de esas columnas contienen 54 filas, y la inversion de la matriz implicaaprender a utilizar el macrocomando MINVERSE() comun a varias hojas de calculo. Laestadstica de Student, para la evaluacion de los intervalos de confianza, se tiene que ob-tener de un programa externo (en este caso, el valor se obtuvo de GRETL y es identicaa la que calcula internamente GNUMERIC). Se obtuvo, por supuesto, toda la informa-cion deseada, incluyendo y c pero, nuevamente, se requiere un trabajo adicional pararobtener los graficos de residuos, por ejemplo. y sus estadsticas descriptivas.

    Los resultados obtenidos (ver figura 2) son identicos a los que arroja el metodocorto lo que significa que el macro-comando para regresiones proporciona los resultadoscorrectos, y es un asunto que era importante averiguar.

    4.2. Aplicacion grafica: GNUPLOT

    GNUPLOT [5] es una utilidad de graficos operada por lineas de comandos al estilode varias aplicaciones disenadas para UNIX/Linux. Es una aplicacion multi-plataforma,(independiente de GNU), libre y dirigida a cientficos y estudiantes, para la visualiza-cion de funciones matematicas y datos. Utilizamos Gnuplot version 4.2.-3. ( c) paraGNU/Linux en la misma maquina que anteriormente.

    Para resolver el problema planteado se uso el mismo archivo de datos anterior yun guion (Script), es decir un archivo de comandos en formato ASCII. El editor detexto Xemacs [15] fue utilizado para interpretar el guion. Los guiones de GNUPLOTson secuencias de instrucciones que responden a un lenguaje extremadamente simple,donde, por ejemplo, el algebra se escribe con la sintaxis de FORTRAN. Para el casopresente, se escribio un guion de 22 lneas de texto utilizando tres instrucciones basicas(SET, PLOT y FIT) y produciendo los resultados de la figura 3.

    El comando FIT ajusta una funcion real definida por el usuario a un conjuntode datos utilizando una implementacion de los mnimos cuadrados no lineales segunel algoritmo de Marquardt-Levenberg. Esto significa que tanto modelos lineales en losparametros como no lineales pueden ser ajustados. Los resultados del ajuste de modeloslineales no corresponde estrictamente a la teora de los mnimos cuadrados lineales. Se

    9

  • Figura 2: Resultado de regresion en GNUMERIC (Metodo riguroso).

    trata de algo mas general que consiste directamente en la minimizacion de la sumade los residuos al cuadrado ponderados, (2) y no de la resolucion analtica derivadaanteriormente del problema. Sin embargo, los intervalos de confianza de los parametrosestan calculados conforme a lo planteado en la seccion 3.2. Esta estadstica no es siemprecorrecta ya que corresponde al estimado que da el analisis de los mnimos cuadradoslineales. El valor del llamado error asintotico obtenido de esta manera para cadaparametro es en general sobre estimado, a parte si el modelo que se considera, comoes el caso aqu, es efectivamente lineal respecto a sus parametros. GNUPLOT reportala matriz de correlacion de los parametros pero no la matriz de varianza covarianza que, sin embargo, es facil de hallar, en el caso de un modelo lineal, a partir de lainformacion proporcionada por el programa.

    Los resultados de la regresion se recuperan en un archivo de texto (ASCII) y, comolo muestra la tabla 1, son identicos a los anteriores. Es importante mencionar que tantoel planteamiento del modelo como la elaboracion de graficos en GNUPLOT, no implican

    10

  • Figura 3: La regresion resuelta por GNUPLOT, con grafico de residuales y barras deerror.

    la manipulacion directa de las columnas de datos de entrada. Esas manipulaciones sehacen internamente mediante estructuras de los comandos en las cuales el usuario solorequiere tener una referencia las columnas del archivo de entrada, mediante un numero.Esto tiene un inconveniente que es el de no tener acceso facil a estadsticas por columnas,por ejemplo de los residuos, las cuales son faciles de obtener en una hoja de calculo.

    4.3. Aplicacion especializada: GRETL

    GRETL [6], es una aplicacion grafica libre (licencia GPL) dedicada al analisis deregresion y muchos otros aspectos de las estadsticas. Es una herramienta dirigida aespecialistas en econometrica. Sin embargo, es inmediato ubicar las funcionalidades quepermiten hacer regresiones de varios tipos, en especial mediante el metodo de mnimoscuadrados lineales que nos interesa aqu. GRETL tiene funcionalidades tanto de hoja de

    11

  • calculo como de graficador. GNUPLOT es la aplicacion ligada que produce los graficosen GRETL, pero no genera las regresiones. De eso se encargan libreras especializadasen C.

    La figura 4 muestra una copia de pantalla de la sesion de GRETL que produjo losresultados para este trabajo y estan reportados en la tabla 1.

    Figura 4: La regresion resuelta por GRETL

    Se utilizo Gretl version 1.7.4 ( c) para GNU/Linux en la misma maquina ya men-cionada. El procedimiento para obtener los resultados de la regresion mostrados en latabla 1, consiste en importar el mismo archivo de texto de datos usado en todo el tra-bajo. GRETL reconoce, en este archivo, dos columnas de datos T y ps. Las variablesreducidas, ln(ps) y las funciones fi (ver seccion 3.2) se construyen mediante expresio-nes algebraicas a partir de las variables asignadas a las columnas importadas. Esasexpresiones producen nuevas columnas que se pueden manipular, graficar y analizarestadsticamente, individualmente. Esto es muy util para obtener muy rapidamente lasestadsticas sobre los residuos de la correlacion por ejemplo, facilidad que no era inme-

    12

  • diata en los programas anteriores. Un analisis de regresion como considerado aqu notarda mas de 10 minutos, y la sesion, incluyendo los datos, analisis y graficos, se puedeguardar completamente para su reproduccion o modificacion posterior. Se tiene la fa-cilidad de obtener una cantidad impresionante de informacion estadstica de los datos.A parte de los resultados esperados, que nuevamente son identicos a los obtenidos an-teriormente, se tiene acceso a la matriz normalizada, a los residuos calculados y susestadsticas descriptivas, as como a pruebas estadsticas como por ejemplo la pruebade normalidad de los residuos (observar la grafica de distribucion en la figura 4) o bienpruebas de influencia de los datos en la regresion. Los resultados numericos se recuperanen archivos de texto y los graficos en varios formatos estandares portables.

    5. Resultados y discusion

    Los resultados arrojados por los tres programas presentados en la resolucion delproblema planteado, se encuentran condensados en la tabla 1. Se tomo, arbitrariamen-te, el caso del uso de GNUMERIC con el metodo corto como referencia para unacomparacion de los resultados. Los datos originales estan dados con 6 cifras decimales[7]. Para el caso de referencia, elegimos hacer el redondeo hasta la octava decimal parael valor de los parametros y hasta la sexta para los errores estandares de los mismos.Los otros casos se pueden as comparar en terminos de numeros de cifras decimalesidenticas respecto a la referencia

    Podemos notar que, por los formatos en que se presentan naturalmente los datos desalida en GNUPLOT o GRETL, no se alcanza la precision numerica fijada en GNUME-RIC. Sin embargo, en GNUPLOT, se tiene acceso a los valores de los parametros pormedio de una instruccion PRINT que los presenta con la precision de la coma flotantede la maquina. Por eso se indica que s se alcanza la precision de 8 decimales respectoal caso de referencia. En el caso de GRETL, el formato de salida de los parametros esde 5 decimales. Es posible cambiar ese formato y alcanzar decimales en el lmite de laprecision aritmetica de la maquina utilizada. Para nuestro proposito, esto es suficien-te para mostrar que los tres programas producen calculos basicamente identicos en ellmite fijado.

    La segunda parte de la tabla 1, muestra si se tiene o no acceso a las caractersticasestadsticas que se han encontrado importantes en la seccion 3.2, y si se tiene accesoa graficos de manera directa. Los dos programas que permiten acceso a lo esencialde la informacion importante son GNUPLOT y GRETL, volviendo a mencionar queGNUPLOT es el generador de los graficos de GRETL.

    En la cuestion practica, La implementacion del metodo corto con GNUMERICen una clase tardara aproximadamente 40 minutos tomando en cuenta la generacion de

    13

  • los graficos de residuos por ejemplo. Es un tiempo apenas razonable, pero es un metodode tipo caja negra. Si los resultados basicos son suficientes para analizar un modelo,no se aprende nada de la manera en como se hacen los calculos. Al contrario, el metodoriguroso con GNUMERIC permite ensenar a detalle la mecanica de la regresion. Sinembargo, es obvio que implementar eso en clase no es factible.

    14

  • Param

    etros

    Originales

    GNUMERIC

    GNUMERIC

    GNUPLOT

    GRETL

    corto

    riguroso

    Nom

    bre

    Val.

    Val.

    Err.Estd.

    Val.

    Err.Estd.

    Val.

    Err.Estd.

    Val.

    Err.Estd.

    ln(p

    c)

    8.0154605(2)

    0.00003(0)

    id-6

    id-6

    id-5,8

    id-6

    id-5

    id-6

    (pc)[kPa]

    3027.4

    3027.40325(6)

    id-6

    id-5,6

    id-5

    c 1-7.640550

    -7.6405499(7)

    0.00218(0)

    id-6

    id-6

    id-5,8

    id-5

    id-5

    id-6

    c 1,5

    2.644067

    2.6440672(7)

    0.00940(9)

    id-6

    id-6

    id-4,8

    id-6

    id-5

    id-6

    c 2-2.456301

    -2.4563014(2)

    0.01095(1)

    id-6

    id-6

    id-4,8

    id-5

    id-5

    id-6

    c 4,5

    -4.044549

    -4.0445485(4)

    0.01560(7)

    id-6

    id-6

    id-4,8

    id-5

    id-5

    id-6

    2/(kn)

    6.348E

    -08

    idid

    id

    nono

    sino

    si(*)

    cno

    nosi

    si(?)

    icp,i

    nosi

    sisi

    sit S

    tud.

    nono

    nono

    siE/C

    nono

    nono

    siGraficos

    directos

    nono

    si(**)

    si(***)

    Tabla1:Resultados

    Globales.V

    al.=Valor,E

    rr.Estd.=Error

    Estandar.LacolumnaO

    riginalesse

    refiere

    alosparam

    etrosreportados

    por

    [7].Las

    cifras

    entreparentesiscorresponden

    alredondeo

    numerico.

    id-n=

    numeros

    identicosalospresentados,parael

    caso

    GNUMERIC

    corto,hasta

    lacifradecim

    aln.

    id-n,m

    significa

    que,

    adem

    as,se

    tieneacceso

    almismonumeroidentico

    alvalordereferenciahasta,por

    lomenos,

    lacifradecim

    alm

    .(*):en

    este

    caso,la

    matrizesta

    dadaen

    form

    anormalizada(esdecirdivididapor

    sudeterminante).

    (?):en

    este

    caso

    nose

    haencontradounainstrucciondirecta

    parahallarel

    dato.

    E/C

    =si,

    serefiereala

    disponibilidad

    directa

    deEstadsticassobre

    Columnas

    dedatos.(**):mediante

    instrucciones

    program

    ables.(***):mediante

    macro

    comandos

    predefinidos.

    15

  • Una hoja de calculo como GNUMERIC es una herramienta versatil que permiteun acceso casi inmediato a ciertas funciones de gran interes para algunas actividadesde la ingeniera qumica y se puede comprobar la exactitud de los resultados. Para lapractica docente, al igual que otros programas similares, es una herramienta demasiadodemandante en tiempo.

    El cuello de botella en esas aplicaciones es el manejo de numerosas columnas dedatos conteniendo expresiones matematicas arbitrariamente complejas. Es una herra-mienta que se ubica mejor como una herramienta personal para el estudiante o para ellaboratorio que como algo utilizable en clase.

    GNUPLOT proporciona un medio extremadamente rapido y confiable para trazargrandes cantidades de datos o funciones y algebra sobre columnas de datos arbitra-riamente complejas. Teniendo el guion apropiado, que nuevamente es solo un pequenoarchivo de texto, la ilustracion del mecanismo de la regresion aparece claramente, demanera rapida, confiable y visual.

    Lo que da un valor didactico inigualable a los guiones de GNUPLOT es que sonusualmente cortos, legibles en cualquier maquina, cualquiera los puede modificar, adap-tar a sus necesidades, estudiar y experimentar con ellos sin requerimientos de conoci-mientos mas alla de una formacion basica en matematicas. La caracterstica mas con-tundente de GNUPLOT en ese aspecto es que produce graficos con extremada rapidezy permite hacer calculos arbitrariamente complejos sobre las columnas de un archivode datos sin nunca tener que manipularlas directamente. Esto es indudablemente muyvalioso para su uso en clase porque permite dedicarse a explorar la fsica, y ver losresultados, sin perder el tiempo en generar y acomodar largas y complejas columnas dedatos.

    Como herramienta de uso personal, el usuario puede poner en marcha la teora bajosus propias decisiones en cuanto al modelo y la representacion de los datos. Esto esun aspecto importante en la cuestion de la formacion academica y es por eso que sesugiere el uso de este programa: facilita la experimentacion numerica y el aprendizajede algunos metodos de manera agradable y eficiente.

    GRETL es una herramienta muy poderosa y especializada. El problema planteado seresuelve con un nivel de detalle impresionante en menos de 10 minutos. Tal herramientapodra ser muy util en clase pero tiene el riesgo de distraer la atencion del estudiante enun curso basico por la profundidad a la que lleva el analisis estadstico. Probablemente,es una herramienta que se podra aprovechar mejor en laboratorios o en cursos masespecializados, de licenciatura o maestra, o como herramienta de uso personal.

    16

  • 6. Conclusiones

    A traves del caso de estudio de la regresion de las presiones de vapor del nhexano,hemos mostrado que existen herramientas de computo libres que resuelven el pro-blema de manera rigurosa y precisa. Cada una de esas herramientas tiene sus propiascaractersticas que pueden impactar sobre varios aspecto de la labor docente, en espe-cial el aspecto didactico y el aprendizaje. Se trata de programas de uso simple, que norequieren de mucha infraestructura computacional y que no implican gastos importan-tes ni por parte de los estudiantes, ni por parte de la institucion educativa donde seencuentran.

    Los programas presentados se podran facilmente adecuar al quehacer docente, conlas siguientes caractersticas: 1. Aun si los programas vienen sin garanta alguna(por la licencia que los rige), se puede rastrear la calidad de sus resultados y procedi-mientos haca los estandares reconocidos en materia de precision aritmetica, y, en elcaso presentado, en materia de analisis de regresion. 2. Cualquiera los puede utilizar,explorar y aprender de sus codigos fuentes o modificar sus funcionalidades libremente.3. No requieren de una infraestructura computacional especial, y 4. no dependen, porlo menos los que se mencionaron aqu, de la plataforma en que se quieren usar. As,un programa utilizado en clase puede ser utilizado en casa o en cualquier otro lugar,facilitando la resolucion de tareas o problemas en tiempo libre, con la seguridad de unaprendizaje homogeneo, favoreciendo una actitud de exploracion y experimentacion eimpulsando la curiosidad y el ingenio personal.

    El archivo de datos, la hoja de calculo de GNUMERIC, el guion de GNUPLOT yla sesion de GRETL, que fueron utilizados en este trabajo, estan disponibles medianteuna simple solicitud, por correo electronico, a los autores.

    Agradecimientos

    Los autores, agradecen el apoyo del programa PIFI, y del IPN a traves del proyectoSIP-20070980 del cual deriva este trabajo. Tambien agradecemos a los desarrolladoresde los programas, a la GNU y a la FSF por hacer disponible libremente herramientasde la calidad de las presentadas.

    Referencias

    [1] http://www.fsf.org/ (15-03-2008).

    [2] http://www.gnu.org/ (15-03-2008).

    17

  • [3] http://www.te.ipn.mx/laboratorio/libre/ o //www.comunidades.ipn.mx/softwarelibre/(22-03-2008).

    [4] http://www.gnome.org/projects/gnumeric/ (22-03-2008).

    [5] http://www.gnuplot.info/ (22-03-2008).

    [6] http://gretl.sourceforge.net/ (22-03-2008).

    [7] M. Ewing & J. C. Sanchez Ochoa: Vapor pressure of n-hexane determined bycomparative ebulliometry. J. Chem. Thermodynamics, 38: 283288 (2006).

    [8] R. Kleinraham & W. Wagner: J. Chem. Thermodynamics, 18: 739760 (1986).

    [9] P. Bevington & D. Robinson: Data Reduction and Error Analysis for the PhysicalSciences. WCB McGraw-Hill (1992).

    [10] http://www.ieee.org/ (21-03-2008).

    [11] http://physics.nist.gov/cuu/ (20-03-2008).

    [12] http://www.npl.co.uk/ (20-03-2008).

    [13] http://www.itl.nist.gov/div898/strd/ (20-03-2008).

    [14] http://www.npl.co.uk/ Seguir: [Science + Technology] > Mathematics and Scien-tific Computing > Sofware Support for Metrology ... (22-03-2008).

    [15] http://www.xemacs.org/ (24-03-2008).

    18

    IntroduccinFundamentosCaso de estudioUn ejemploEl problema de los mnimos cuadrados ordinarios

    Herramientas de computo libres y su anlisis.Hoja de Calculo: GNUMERICAplicacin grfica: GNUPLOTAplicacin especializada: GRETL

    Resultados y discusinConclusiones