Reporte Del Proyecto Final R

6
Reporte de Proyecto Final Andrea Beatriz Arbizú Solis Mario Alexis Guerra Caballero 1. Análisis de una Variable Cual es la estructura del conjunto de datos

description

trabajo en R

Transcript of Reporte Del Proyecto Final R

Reporte de Proyecto FinalAndrea Beatriz Arbiz SolisMario Alexis Guerra Caballero

Reporte de Proyecto Final1. Anlisis de una Variable Cual es la estructura del conjunto de datos:

Cules son las principales variables del conjunto de datos:

Del conjunto de datos se descartan aquellas que no son considerables relevantes por no explicar de manera significativa la calidad del vino blanco. Es importante analizar que variables relacionadas a control de la acidez, el sulfato, cloruros y el pH son las que tienen mayor relevancia o son principales dentro del conjunto de datos. Siendo la principal la variable calidad, que es el objetivo del conjunto de datos. Que otras caractersticas le pueden servir para analizar la base de datosOtras caractersticas que se pueden utilizar son Head (para revisar los primeros datos de la base) Tail(para revisar los ltimos datos de la base) Boxplot ( nos sirve para analizar la distribucin de los datos de cada variable presentada en la base de White wine y su nivel de dispersin respecto a su media) Splom (que permite ver la interaccin de todas las variables)Se colocan ejemplos de informacin obtenida a partir de cada caracterstica.

Que variables nuevas cre a partir de la data Debido a que la data no nos muestra relaciones muy claras, por el tipo de dato, es necesario hacer nuevas que permitan demostrar de una mejor manera su relacin.La primera variable es acido.t que se define como la suma de las variables de acidez dentro de la data (fixed.acidity + volatile.acidity + citric.acid)La segunda nueva variable es sulfuros que representa los sulfuros dentro de la data vieja (free.sulfur.dioxide + total.sulfur.dioxide) divididos entre 1000 para convertirlo de miligramos/dm^3 a gramos/dm^3El summary de las nuevas variables.

Hubieron distribuciones inusuales en la data vieja y en la nueva creadaSi, en la data vieja se presentan distribuciones cargadas hacia la izquierda, existe un sesgo hacia la derecha.En la nueva data tambin cuenta con distribuciones inusuales, pero con ms informacin para poder explicar la calidad del vino blanco. En esta nueva data disminuye el sesgo los cual se puede apreciar en los histogramas que presentamos.

Realiz ajustes de la data (investigue diferentes ajustes como logaritmos, etc)

Anlisis de dos variables Observ alguna relacin entre dos variables? Que variables fueron y que tipo de relacin existe.

Si existen relaciones entre dos variables, realizamos un anlisis de correlacin bajo el mtodo de Pearson y se identificaron 4 relaciones. Existen 3 relaciones directamente proporcionales. Es decir ante un aumento de una variable la otra aumentar proporcionalmente tambin y son: Residual Sugar con density, free sulfur dioxide con el total sulfur dioxide y por ltimo total sulfur dioxide con density.

Existe una relacin inversamente proporcional. Es decir ante un aumento de una variable la otra disminuye de manera proporcional, la relacin se da con las variables alcohol y density.

Cul fue la relacin ms fuerte que encontr?

La relacin ms fuerte que se da es entre residual sugar y density, siendo directamente proporcional y con una correlacin de 0.84

Anlisis de varias variablesObserv alguna relacin entre tres o ms variables? Que variables fueron y que tipo de relacin existe.

Cual fue la relacin ms fuerte que encontr

Conclusiones FinalesLas variables obtenidas no son suficientes para predecir la calidad del vino blanco, y estaba difcil