AnáLisis EstadíStico De Datos Usando R 1

18
Análisis estadístico de datos de cultivos in-vitro usando R Juan Pablo Angamarca G. Becario Escuela de Ciencias de la Computación [email protected] Mat. Pablo Ramón C. Docente Investigador Docente Investigador – LFV – UTPL [email protected] Unidad de Fisiología y Ecología Vegetal

description

Algunos comandos básicos para hecer Análisis de Varianza utilizando lenguaje R

Transcript of AnáLisis EstadíStico De Datos Usando R 1

Page 1: AnáLisis EstadíStico De Datos Usando R 1

Análisis estadístico de datos de cultivos in-vitro usando R

Juan Pablo Angamarca G.Becario Escuela de Ciencias de la Computación

[email protected]. Pablo Ramón C.

Docente Investigador Docente Investigador – LFV – UTPL

[email protected] de Fisiología y Ecología Vegetal

Page 2: AnáLisis EstadíStico De Datos Usando R 1

Objetivos

• Realizar el análisis estadístico de los datos de cultivos in-vitro usando el lenguaje estadístico R como una mejor alternativa entre el software estadístico clásico.

• Incorporar nuevos procedimientos al análisis estadístico mediante el lenguaje R, concretamente representaciones gráficas, con la finalidad de optimizar la interpretación biológico-estadística.

• Aprovechar la flexibilidad que ofrece este lenguaje estadístico en dicho análisis.

Page 3: AnáLisis EstadíStico De Datos Usando R 1

Metodología• Fase 1: Entender el funcionamiento del

lenguaje R mediante la lectura de artículos y tutoriales.

• Fase 2: Realizar aplicaciones sencillas de análisis de datos en el lenguaje.

• Fase 3: Utilizar los datos de las investigaciones realizadas en el laboratorio de Fisiología Vegetal para un análisis estadístico adecuado.

• Fase 4: Extender la fase 3 utilizando las características de programación del lenguaje.

Page 4: AnáLisis EstadíStico De Datos Usando R 1

Análisis de Varianza

• Identificar el origen de la variabilidad de una o más fuentes potenciales, llamadas “tratamientos” o “factores”.

• Variando los factores o niveles en un diseño predeterminado y analizando los resultados.

Page 5: AnáLisis EstadíStico De Datos Usando R 1

Análisis de Varianza• Comparar promedios de

tratamientos.• Identificar si la variabilidad depende

de los diferentes tratamientos o de un error aleatorio.

• Hipótesis:H0: μ1 = μ2 = … = μα

Donde μi representa la media de cada nivel (one-way) o tratamiento (two-way).

Page 6: AnáLisis EstadíStico De Datos Usando R 1

Condiciones de ANOVA• Test de Bartlett (variabilidad)

El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).

• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).

• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.

Page 7: AnáLisis EstadíStico De Datos Usando R 1

Condiciones del ANOVA

• Test de Bartlett (variabilidad)El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).

• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).

• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.

Page 8: AnáLisis EstadíStico De Datos Usando R 1

Análisis de Varianza

• Luego de realizar el test ANOVA, se realiza una prueba post-hoc, ejm: test Tukey

• Test post-hoc = test comparaciones múltiples

Page 9: AnáLisis EstadíStico De Datos Usando R 1

Lenguaje y Entorno R

• R lenguaje y entorno para computación estadística y gráficos

• Es un proyecto GNU (software libre)• Posibilidad de crear gráficos, incluir

símbolos y fórmulas matemáticas donde se necesiten.

• R es una suite integrada de utilitarios de software

• Un bien logrado, simple y efectivo lenguaje de programación que incluye sentencias condicionales, bucles, funciones definidas por usuario y facilidades para ingreso y presentación de datos

Page 10: AnáLisis EstadíStico De Datos Usando R 1

Lectura de datos con R• R puede obtener datos desde varias fuentes• Ejm: datos en Excel, así que, para facilitarnos

la importación de datos, podemos exportar una hoja de Excel como un archivo de texto.

• Luego importarlo con la función read.table de R, que al leer el archivo, creará un objeto de datos llamado “Data frame”, que contendrá los datos del archivo.

• Asignación a un objeto brotacionCinchona los datos del archivo:

> brotacionCinchona <-read.table(“datos_anova.txt”, header = TRUE)

Page 11: AnáLisis EstadíStico De Datos Usando R 1

Lectura de datos con R

Page 12: AnáLisis EstadíStico De Datos Usando R 1

CASO DE ESTUDIO: Brotación de C. officinalis

• Desarrollar un test de Bartlett para determinar si las varianzas en cada tratamiento son iguales estadísticamente.

H0 = No existe diferencia significativa entre las varianzas de los tratamientos.

> bartlett.test(brotacionCinchona$Brotacion, brotacionCinchona$Tratamientos)

Bartlett test for homogeneity of variancesdata: brotacionCinchona$Brotacion and brotacionCinchona$Tratamientos Bartlett's K-squared = 6.6692, df = 11, p-value = 0.8252

• Conclusión: Puesto que p-value es mayor que 0.05, no se rechaza la hipótesis de homogeneidad de varianzas.

Page 13: AnáLisis EstadíStico De Datos Usando R 1

Test ANOVA

H0 = No existe diferencia significativa en la brotación media de cada tratamiento.

> aov.brotacionCinchona <- aov(brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)> aov.brotacionCinchonaCall: aov(formula = brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)Terms: brotacionCinchona$Tratamientos ResidualsSum of Squares 45 230Deg. of Freedom 11 24Residual standard error: 3.095696 Estimated effects may be unbalanced> summary(aov.brotacionCinchona) Df Sum Sq Mean Sq F value Pr(>F)brotacionCinchona$Tratamientos 11 45.000 4.091 0.4269 0.9287Residuals 24 230.000 9.583

Puesto que Pr > 0.05, no se rechaza la hipótesis de igualdad de promedios entre cada tratamiento.

Page 14: AnáLisis EstadíStico De Datos Usando R 1

Gráficas de ANOVA

Page 15: AnáLisis EstadíStico De Datos Usando R 1

Test TUKEY HSD

OBJETIVO: Determinar tratamientos significativamente diferentes

> resultados.tukey <- TukeyHSD(aov.cinchona)> resultados.tukey Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = Brotación ~ Tratamientos)

Page 16: AnáLisis EstadíStico De Datos Usando R 1

RESULTADOS TEST DE TUKEY

Page 17: AnáLisis EstadíStico De Datos Usando R 1

Tratamientos significativos

> parejas.dif.significativa

Parejas.de.tratamientos Valores.p

1 T-B1N0 0.00157922 T-B1N1 0.02303173 T-B1N2 0.01202604 T-B1N3 0.00111905 T-B2N0 0.00313456 T-B2N1 0.00617557 T-B2N2 0.00111908 T-B2N3 0.00440489 T-B3N0 0.002226410 T-B3N1 0.003134511 T-B3N2 0.001119012 T-B3N3 0.0002812

Page 18: AnáLisis EstadíStico De Datos Usando R 1

Gráfica Test Tukey> plot(datos.tukey)