PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de...

6
PR ´ ACTICAS MATEM ´ ATICAS II Curso 2019/2020 Escuela T´ ecnica Superior de Ingenier´ ıaAgron´omica Departamento de Matem´atica Aplicada I Pr´ actica 3: Estad´ ıstica Descriptiva. Estudio de varias variables. Ajuste de datos Para mostrar los distintos ejemplos a lo largo de esta pr´actica, usaremos el fichero Cardata.sgd, que podemos encontrar en el portal de ense˜ nanza virtual de la Universidad de Sevilla. Para abrir dicho archivo pinchamos en Archivo Abrir Abrir Datos. Seleccionamos Archivo de Datos STATGRAPHICS y buscamos el archivo en el sistema. ESTUDIO DESCRIPTIVO MULTIDIMENSIONAL STATGRAPHICS permite realizar un estudio descriptivo de varias variables es- tad´ ısticas. Podemos dibujar el diagrama de dispersi´ on de dos variables, obtener tablas de frecuencias bidimensionales, calcular diferentes par´ametros estad´ ısticos para todas las variables consideradas y determinar sus matrices de covarianzas y de correlaciones. Gr´ afico de dispersi´ on Para representar gr´aficamente una distribuci´on bidimensional, obtenemos el dia- grama de dispersi´ on o nube de puntos seleccionando Graficar Gr´ aficos de Dispersi´ on Gr´ afico X - Y . Ejemplo 1. Obtener el diagrama de dispersi´ on de horsepower (X) con accel (Y). Haciendo doble click con el bot´ on izquierdo sobre el gr´ afico, lo maximizamos en la ventana. Una vez maximizado el diagrama, si pinchamos con el bot´ on izquierdo sobre un punto, se muestran las coordenadas de dicho punto. 1

Transcript of PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de...

Page 1: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

PRACTICASMATEMATICAS II

Curso 2019/2020Escuela Tecnica Superior de Ingenierıa Agronomica

Departamento de Matematica Aplicada I

Practica 3: Estadıstica Descriptiva. Estudio de varias variables.Ajuste de datos

Para mostrar los distintos ejemplos a lo largo de esta practica, usaremos el ficheroCardata.sgd, que podemos encontrar en el portal de ensenanza virtual de la Universidadde Sevilla. Para abrir dicho archivo pinchamos en Archivo ⇒ Abrir ⇒ Abrir Datos.Seleccionamos Archivo de Datos STATGRAPHICS y buscamos el archivo en el sistema.

ESTUDIO DESCRIPTIVO MULTIDIMENSIONAL

STATGRAPHICS permite realizar un estudio descriptivo de varias variables es-tadısticas. Podemos dibujar el diagrama de dispersion de dos variables, obtener tablasde frecuencias bidimensionales, calcular diferentes parametros estadısticos para todas lasvariables consideradas y determinar sus matrices de covarianzas y de correlaciones.

Grafico de dispersion

Para representar graficamente una distribucion bidimensional, obtenemos el dia-grama de dispersion o nube de puntos seleccionando Graficar ⇒ Graficos de Dispersion⇒ Grafico X − Y .

Ejemplo 1. Obtener el diagrama de dispersion de horsepower (X) con accel (Y).

Haciendo doble click con el boton izquierdo sobre el grafico, lo maximizamos en laventana. Una vez maximizado el diagrama, si pinchamos con el boton izquierdo sobre unpunto, se muestran las coordenadas de dicho punto.

1

Page 2: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

2 Matematicas II

STATGRAPHICS permite conocer el valor de dos variables mas sobre cada puntodel grafico. Ası, para distinguir los puntos del grafico segun los valores de otra variableclasificadora, pulsamos el boton derecho del raton, seleccionamos Opciones de Ventana eintroducimos dicha variable en Codigo de Puntos.

Ejemplo 2. Distinguir los puntos del grafico anterior segun los valores de la variable year.

Tambien podemos identificar el valor que toma otra variable en cada punto del grafico.Para ello pulsamos el boton Identificar de la barra de herramientas del grafico maximizado

e introducimos la variable correspondiente en el campo Identificar con. Entonces, almarcar con el raton cualquier punto, aparecera el valor de la variable en este punto, en elcampo Etiqueta de la barra de herramientas.

Ejemplo 3. Identificar los puntos del diagrama anterior respecto a la variable make. Pinchar

en los puntos del diagrama y observar en Etiqueta la marca correspondiente.

Page 3: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

Practica 3: Estadıstica Descriptiva. Estudio de varias variables 3

Si pulsamos con el boton derecho del raton sobre el grafico y seleccionamos Op-ciones Graficas, podemos cambiar el formato del dibujo (presentacion de los puntos,colores, tıtulo de ejes, etc).

Tabla de frecuencias bidimensional

Una distribucion bidimensional puede resumirse en una tabla de doble entrada enla que se recoja la frecuencia de cada par de datos. Para realizar una tabla de frecuen-cias bidimensional, seleccionamos Describir⇒ Datos Categoricos⇒ Tabulacion Cruzada.Para que la informacion en esta tabla sea significativa, muchas veces es conveniente re-codificar los datos en clases o intervalos.

Ejemplo 4. Realizar la tabla de frecuencias bidimensional para las variables cylinders y year.

Analisis multidimensional

Dado un conjunto de variables, STATGRAPHICS realiza el correspondiente analisismultidimensional seleccionando Describir ⇒ Datos Numericos ⇒ Analisis Multivariado.Una vez seleccionados los datos, podemos seleccionar entre realizar ese analisis para to-dos los datos, o unicamente para casos completos. En el segundo caso, se eliminan delanalisis las filas para las que falte informacion en alguna de las variables. En la ventanaTablas y Graficos podemos elegir, entre otros analisis, Resumen Estadıstico, Correlacionesy Covarianzas. El primero proporciona los estadısticos de cada una de las variables selec-cionadas, mientras que los otros recogen, respectivamente, las matrices con los coeficientesde correlacion y las covarianzas de cada pareja de variables.

Ejemplo 5. Hacer un analisis multidimensional de las variables accel, cylinders, horsepower

y price. Observar los distintos tipos de relaciones entre las variables. Obtener un resumen

estadıstico del analisis anterior y la matriz de covarianzas.

AJUSTE DE DATOS

El ajuste de datos consiste en estudiar las posibles relaciones funcionales quepuedan existir entre varias variables. El interes fundamental de realizar un ajuste de datosesta en ser capaces de predecir o pronosticar, con cierta fiabilidad, el comportamiento deuna variable (variable dependiente) a partir de otras conocidas (variables independientes).

La regresion es el procedimiento matematico para determinar el modelo que rela-ciona de la mejor forma posible a las variables estudiadas. la regresion se dice simplecuando se emplea un modelo con una sola variable independiente y multiple cuando seusan modelos con varias variables independientes.

Regresion lineal

La regresion lineal es el tipo de regresion simple mas sencilla. Consiste en apro-ximar los valores de una variable Y (variable dependiente) a partir de los valores de otravariable X (variable independiente), mediante una relacion funcional lineal. Es decir,

Page 4: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

4 Matematicas II

pretende expresar Y ' aX + b. Graficamente, se trata de la recta que mejor ajusta a lanube de puntos de estas variables.

Para el estudio de la regresion lineal con STATGRAPHICS, seleccionamos en labarra de menus Relacionar ⇒ Un Factor ⇒ Regresion Simple. En el campo Y intro-ducimos la variable dependiente (la que queremos predecir) y en el campo X, la variableindependiente. En la ventana Opciones Regresion Simple aparece seleccionada por defectola regresion lineal Y ' aX + b. En Tablas y Graficos podemos elegir las tablas y graficosdel analisis que se mostraran. En principio sera suficiente con mostrar un Resumen delAnalisis realizado y el Grafico del Modelo Ajustado.

Ejemplo 6. Hacer una regresion lineal tomando como variable dependiente la variable mpg y

como variable independiente la variable horsepower.

El grado de dependencia lineal entre las variables se mide mediante el coeficientede correlacion lineal o de Pearson. Por tanto, este parametro es una medida de la bondaddel ajuste lineal que hemos realizado. Cuanto mas proximo este su valor a 1 o −1 mejores el ajuste lineal.

Ejemplo 7. ¿Es bueno el ajuste de la regresion anterior?

Page 5: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

Practica 3: Estadıstica Descriptiva. Estudio de varias variables 5

Tambien podremos realizar predicciones de la variable elegida como dependientepara determinados valores de la variable independiente. Para ello, seleccionamos la opcionPronosticos en Tablas y Graficos. Despues, pulsando con el boton derecho del raton,en Opciones de Ventana, introducimos los valores de la variable independiente para laspredicciones deseadas.

Ejemplo 8. Usando el modelo elegido en el ejemplo anterior, realizar una prediccion de la

variable mpg para el valor de horsepower igual a 66.

Ejercicios

En el portal de ensenanza virtual de la Universidad de Sevilla encontraras unarchivo llamado cordero.sf3 que contiene datos de un estudio realizado sobre 24 corderosde tres razas distintas. Recordemos las variables que ya fueron descritas en una practicaanterior:

Raza. (1) Raso Aragones; (2) Britanico; (3) Merino espanol

Peso canal. El animal es sacrificado, se le quita la piel, vısceras y patas. La canal (en gramos)es lo que queda.

Color. Esta variable proporciona una valoracion subjetiva del color de la carne. Toma valoresen el intervalo [0, 5] de forma que, los valores cercanos al 0 corresponden a carne masblanca, y los cercanos al 5, a carne mas roja.

Peso espalda. Peso (en gramos) de la espalda.

Peso costillas. Peso (en gramos) de las costillas.

Terneza. Valoracion de la terneza de la carne, toma valores en el intervalo [0, 100]. A mayorvalor, mayor terneza.

Jugosidad. Valoracion de la jugosidad de la carne, toma valores en [0, 100]. A mayor valor,mas jugosidad de la carne y, por tanto, mejor carne.

Aroma. Valoracion del aroma de la carne, toma valores en [0, 100]. A mayor valor, mas aromade la carne, y peor carne.

Global. Apreciacion global de la carne, toma valores en [0, 100]. A mayor valor, mejor carne.

Page 6: PRACTICAS MATEMATICAS II...PRACTICAS MATEMATICAS II Curso 2019/2020 Escuela T ecnica Superior de Ingenier a Agron omica Departamento de Matem atica Aplicada I Practica 3: Estad stica

6 Matematicas II

Ejercicio 1. Dibujar un diagrama de dispersion de las variables bidimensionales (Jugosi-dad, Aroma) y (Jugosidad,Global). ¿En que caso las variables estan mas relacionadas?

Ejercicio 2. En el grafico anterior de (Jugosidad,Global), distinguir los puntos correspon-dientes a cada raza. ¿A que raza corresponden los mayores valores de Jugosidad? ¿Queraza posee tanto las mayores como las menores puntuaciones globales?

Ejercicio 3. Realizar una tabla de frecuencias de la variable bidimensional (Terneza,Global). Para ello, organiza primero los datos en clases: crea dos nuevas variablesTerneza 1 y Global 1 copiando los datos de las dos variables anteriores; divide los datos en4 intervalos de la forma [a, b), comprendidos entre 40 y 80 para Terneza 1 y en 3 intervalosentre 50 y 80 para Global 1; toma como marca de clase el punto medio de cada intervalo.Segun la tabla obtenida, ¿que valor de la variable bidimensional (Terneza 1, Global 1)tiene frecuencia 3?

Ejercicio 4. Calcular las covarianzas de las variables bidimensionales (Jugosidad,Color)y (Aroma,Color).

Ejercicio 5. ¿Que esta mas relacionado linealmente con el aroma, el color o la jugosidad?Elegir la respuesta apropiada:

i El color, puesto que el coeficiente de correlacion lineal con el aroma es 36.7956%.

ii El color, puesto que el coeficiente de correlacion lineal con el aroma es 0.6066.

iii La jugosidad, puesto que el coeficiente de correlacion lineal con el aroma es 0.9715.

iv La jugosidad, puesto que el coeficiente de correlacion lineal con el aroma es 0.7714.

Ejercicio 6. Usando regresion lineal, ¿que peso de espalda se espera que tenga un corderode 12 kg de peso en canal? ¿Es fiable el resultado? Justificar la respuesta. Obtener laecuacion de la recta de regresion correspondiente.

Ejercicio 7. Analizado un cordero determinado, hemos obtenido una valoracion de 68.5para Terneza y de 66.5 para Jugosidad. Queremos estimar, usando regresion lineal, el valorde la Puntuacion Global de la forma mas fiable posible. ¿Que dato debemos utilizar paraello, el de Terneza o el de Jugosidad? Justificar la respuesta dando el valor del coeficientede correlacion lineal. Escribir la ecuacion del modelo elegido y el valor estimado de lapuntuacion global.