PROPUESTA Curso 2015

3
 Denominación del cur so:  Estadística avanzada para ciencias bio lóg icas y del ambiente util izando R Docente a cargo: Doctor Luis Eduardo Castro Profesor adjunto de la cátedra de Estadística, FCNyM, UNLP y profesor adjunto de la cátedra de Cálculo Estadístico, FCAyF, UNLP. Fundamentación de la actividad: Los problemas encontrados en la investigación básica y aplicada implican frecuentemente la recolección de información cuantitativa y su posterior tratamiento estadístico, a fin de obtener un respaldo robusto a la evidencia encontrada en determinadas problemáticas de índole biológica o ambiental. La estadística, es la disciplina que estudia la obtención, tratamiento, análisis y presentación de esta información. Si bien los primeros avances en teoría de la probabilidad de Bernoulli y De Moivre, datan del siglo XVII, se trata de una ciencia relativamente joven, que ha experimentado un desarrollo muy importante en los últimos años, a partir de los trabajos de Pearson, Youle, Galton y Fisher, a fines del siglo XIX y comienzos del XX (Stigler, 1986). El propio desarrollo de la estadística, sumado a la aparición de las computadoras en las últimas décadas, ha desencadenado su veloz expansión, con un sinnúmero de nuevas técnicas para la mejor descripción y análisis de los datos disponibles. Los cálculos a menudo extensos y complejos, son realizados por los ordenadores de forma rápida y eficaz. Sin embargo, el paquete estadístico usado para ello es desarrollado por empresas privadas que guardan para sí el código por motivos de propiedad intelectual. El resultado de esta situación es que el investigador desconoce la forma en que los procedimientos son realizados por el paquete estadístico (no pocas veces errónea) y un alto costo de adquisición y actualización del mismo. Otra consecuencia es un cierto grado de desactualización, ya que las nuevas técnicas estadísticas demoran un promedio de 8 años en estar disponibles en los paquetes estadísticos comerciales. Recientemente, un emprendimiento colectivo de científicos comenzó el desarrollo de un paquete estadístico libre llamado “R”. La iniciativa tuvo una rápida aceptación a nivel mundial, multiplicándose rápidamente el número de colaboradores de primer nivel. Por ser “software” libre, no solo es gratuito estando disponible en Internet, sino que además es abierto. Esto quiere decir que el código es visible y puede analizarse como cada procedimiento es llevado a cabo. De esta forma, R se transformó no sólo en una aplicación para los usuarios, sino también en un leguaje de programación. El predilecto por la comunidad estadística para implementar nuevas técnicas y para transmitir e intercambiar conocimientos con sus pares. Por otra parte, todos los avances

description

PROPUESTA Curso 2015

Transcript of PROPUESTA Curso 2015

  • Denominacin del curso: Estadstica avanzada para ciencias biolgicas y del ambiente utilizando R Docente a cargo: Doctor Luis Eduardo Castro Profesor adjunto de la ctedra de Estadstica, FCNyM, UNLP y profesor adjunto de la ctedra de Clculo Estadstico, FCAyF, UNLP. Fundamentacin de la actividad:

    Los problemas encontrados en la investigacin bsica y aplicada implican frecuentemente la recoleccin de informacin cuantitativa y su posterior tratamiento estadstico, a fin de obtener un respaldo robusto a la evidencia encontrada en determinadas problemticas de ndole biolgica o ambiental.

    La estadstica, es la disciplina que estudia la obtencin, tratamiento, anlisis y presentacin de esta informacin. Si bien los primeros avances en teora de la probabilidad de Bernoulli y De Moivre, datan del siglo XVII, se trata de una ciencia relativamente joven, que ha experimentado un desarrollo muy importante en los ltimos aos, a partir de los trabajos de Pearson, Youle, Galton y Fisher, a fines del siglo XIX y comienzos del XX (Stigler, 1986).

    El propio desarrollo de la estadstica, sumado a la aparicin de las computadoras en las ltimas dcadas, ha desencadenado su veloz expansin, con un sinnmero de nuevas tcnicas para la mejor descripcin y anlisis de los datos disponibles. Los clculos a menudo extensos y complejos, son realizados por los ordenadores de forma rpida y eficaz. Sin embargo, el paquete estadstico usado para ello es desarrollado por empresas privadas que guardan para s el cdigo por motivos de propiedad intelectual. El resultado de esta situacin es que el investigador desconoce la forma en que los procedimientos son realizados por el paquete estadstico (no pocas veces errnea) y un alto costo de adquisicin y actualizacin del mismo. Otra consecuencia es un cierto grado de desactualizacin, ya que las nuevas tcnicas estadsticas demoran un promedio de 8 aos en estar disponibles en los paquetes estadsticos comerciales.

    Recientemente, un emprendimiento colectivo de cientficos comenz el desarrollo de un paquete estadstico libre llamado R. La iniciativa tuvo una rpida aceptacin a nivel mundial, multiplicndose rpidamente el nmero de colaboradores de primer nivel. Por ser software libre, no solo es gratuito estando disponible en Internet, sino que adems es abierto. Esto quiere decir que el cdigo es visible y puede analizarse como cada procedimiento es llevado a cabo.

    De esta forma, R se transform no slo en una aplicacin para los usuarios, sino tambin en un leguaje de programacin. El predilecto por la comunidad estadstica para implementar nuevas tcnicas y para transmitir e intercambiar conocimientos con sus pares. Por otra parte, todos los avances

  • logrados en la disciplina son inmediatamente puestos a disposicin en Internet, en el sitio de R.

    El paquete estadstico es relativamente simple de utilizar, una vez adquiridos los conocimientos bsicos y comprendida su filosofa (es un paquete estadstico orientado a objetos). Sin embargo, actualmente carece de una interfase grfica eficaz que permita operarlo mediante ventanas, botones y otras facilidades que usualmente tienen los programas que funcionan bajo Windows. Las operaciones se realizan mediante comandos, lneas de cdigo que deben ser digitadas por el usuario. Esto hace algo dificultoso la iniciacin en el aprendizaje y, justifica un entrenamiento asistido desde un curso hasta adquirir las aptitudes mnimas para su operacin.

    Objetivos del Curso:

    El objetivo de la actividad propuesta, dar a conocer procedimientos avanzados del modelo lineal de amplia aplicacin en ciencias biolgicas y ambientales. Se pretende brindar a los participantes los conocimientos mnimos para utilizar R. Se promover el aprendizaje a travs de la interaccin entre los aspectos conceptuales de las tcnicas estadsticas avanzadas y la resolucin prctica de su implementacin en R.

    Contenidos: Clase 1: Presentacin de mtodos estadsticos a tratar y las situaciones en las cuales resultan aplicables. Dificultades prcticas para su implementacin. Posibilidades de resolucin en R. Presentacin de R. Generalidades sobre el uso de R. Una sesin introductoria. Manipulacin de datos. Objetos. Clases. Importacin y exportacin de datos y resultados. Clase 2: Lenguaje R. Expresiones aritmticas. Operaciones con vectores y matrices. Formateo e impresin. Formulacin de modelos. Estructuras de control. Clases y mtodos. Grficos. Funciones bsicas. Control de detalles. Grficos avanzados. Clase 3. Distribuciones de probabilidad. Generacin de nmeros aleatorios. Estadstica univariada clsica. Estimaciones de densidad. Mtodos de permutaciones y aleatorizacin. Modelo lineal. Correlacin y regresin. Formulacin de modelos y operacin de matrices. Diagnsticos. Anlisis de la varianza. Comparaciones mltiples. Clase 4. Modelo lineal generalizado. Funciones link. Datos binomiales. Regresin de Poisson. Familia binomial negativa. Efectos mixtos y aleatorios. Modelos mixtos. Modelos jerrquicos o anidados. Mediciones repetidas. Modelos mixtos lineales generalizados GLME. Anlisis multivariado exploratorio. Componentes principales. Anlisis de correspondencias. Funciones discriminantes. Clase 5. Presentacin de trabajos finales.

  • Bibliografa bsica: Claude J. 2008. Morphometrics with R. springer NY. Faraway JJ. 2004. Linear model with R. Chapman & Hall. Faraway JJ. 2006. Extending the linear model with R. Chapman & Hall. Venables WN & BD Ripley. 2002. Modern applied statistics using S. Springer, NY. Software a utilizar: R package. Statistical software, ver 2.8.1. The R project statistical computing.GNU. www.r-project.org Fecha Propuesta: abril 2015 Modalidad: Clases terico prcticas con computadora, de cursado intensivo. Carga horaria: 48 horas. Destinatarios del curso: Graduados Universitarios de disciplinas biolgicas, ambientales, de ciencias agrarias y forestales y de disciplinas afines. Cupo: Mnimo de 15 alumnos, mximo de 30 alumnos. Requisitos para la aprobacin del curso: Asistencia al 80% de las clases tericas y prcticas. Realizacin de un trabajo y su presentacin en seminario. Recursos didcticos a utilizar: un aula con pizarrn, una computadora y un can proyector para las clases tericas. Gabinete de computacin para las clases prcticas. El software a utilizar es de distribucin libre y gratuita.