DEPARTAMENTO DE INGENIERÍA AGROINDUSTRIAL

28
DEPARTAMENTO DE INGENIERÍA AGROINDUSTRIAL “ESTADÍSTICA BÁSICA APLICADA A CASOS EN LA AGROINDUSTRIA CON USO DE R” (Protocolo de investigación) PRESENTAN: JOSÉ LUIS JURADO ZURITA TALINA GUERRERO RAMÍREZ ASESORA: DRA. MA. CARMEN YBARRA MONCADA 1

Transcript of DEPARTAMENTO DE INGENIERÍA AGROINDUSTRIAL

Page 1: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

DEPARTAMENTO DE INGENIERÍA AGROINDUSTRIAL

“ESTADÍSTICA BÁSICA APLICADA A CASOS EN LA AGROINDUSTRIA CON USO DE R”

(Protocolo de investigación)

PRESENTAN:

JOSÉ LUIS JURADO ZURITA

TALINA GUERRERO RAMÍREZ

ASESORA:

DRA. MA. CARMEN YBARRA MONCADA

Chapingo México. Junio 2013.

1

Page 2: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

I. INTRODUCCIÓN

Durante los últimos años la estadística aplicada ha ganado mucha importancia en el

mundo de la investigación, probablemente debido a la gran potencia de cálculo de los

ordenadores y en concreto a los diferentes paquetes estadísticos.

Paralelamente, los paquetes estadísticos también se han adaptado a las nuevas necesidades,

de manera que ahora ya no se habla de "paquetes estadísticos", término demasiado

concreto, sino de softwares especializados. Por ejemplo, SAS ® inicialmente significaba

"Statistical Analysis System", pero a medida que este programa iba incorporando nuevas

aplicaciones la mayoría de las cuales no eran propiamente estadísticas, SAS ® pasó a

convertirse en una sola palabra (Cochran, 1957).

Actualmente, los diferentes módulos de SAS ® hacen que éste sea un software de

los que se llaman como "de inicio a fin". Permite crear gráficos, trabajar como una hoja de

cálculo, compilar programas en lenguaje C, incluye herramientas para construir interfases

para la www, herramientas para tratar el Datawarehouse o para explorar datos con la

filosofía del Datamining, etcétera.

El software estadístico R aporta un entorno de trabajo orientado a resolver problemas de

estadística. A estos sistemas se les denomina a veces PSE, (Problem Solving

Environments), como Matlab, Mathematica, etcétera. Es de uso libre en el dominio público

y resulta del esfuerzo cooperativo de personas e instituciones académicas relevantes

relacionadas con la estadística y la computación en todo el mundo.

Este software permite trabajar con una ventana de interacción con usuario, R

Console, que ofrece posibilidades para gestionar archivos en disco, guardar resultados, etc.

Trabaja con un lenguaje de programación, y variables con diversos tipos (numéricas,

cualitativas-factor, lógicas, caracter), y estructuras (escalar, vector, matriz, data.frame,

lista), con constantes y con llamadas a funciones. El lenguaje utiliza elementos clásicos de

programación, con funciones, instrucciones, expresiones aritméticas, lógicas, estructuras

for, if, etc. Se puede trabajar tanto en modo programa, con un conjunto de instrucciones,

1

Page 3: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

como en modo de comandos interactivos. Ofrece un entorno básico interactivo a través de

una ventana de diálogo llamada R Console, y otro paquete, R Commander, que ofrece más

interactividad en sus menús para las aplicaciones estadísticas (Paradis, 2002).

R proporciona todas las herramientas estadísticas necesarias para analizar la

información generada en la agroindustria, optimizando los costos de operación que muchas

veces la micro, pequeña y mediana agroindustria presenta como principal problema y no

logran consolidarse en el mercado, sin embargo existe poca información de la aplicación de

R en la agroindustria, motivo por el cual se presenta dicha investigación.

2

Page 4: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

II. REVISIÓN BIBLIOGRÁFICA

Un paquete estadístico es un programa informático que está especialmente diseñado para

resolver problemas en el área de la estadística, o bien está programado para resolver

problemas de esta área. Existen muchos programas que no son especialmente estadísticos

pero que pueden hacer algunos cálculos aplicables en estadística aplicada. Estos programas

han impulsado y siguen impulsando enormemente la labor de los investigadores que desean

utilizar la estadística como apoyo en su trabajo (Robinson, 2010).

Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad de uso y

aprendizaje, pero un mayor encorsetamiento a la hora de hacer cálculos que el programa no

tenga predefinidos. Los programas más complejos suelen tener la necesidad de conocer su

lenguaje de programación, pero suelen ser mucho más flexibles al poderse incluir en ellos

funciones, tests o contrastes que no traen instalados por definición (Murrell, 2005).

Las variables a tener en cuenta para comparar adecuadamente un paquete con otro son:

El costo (de la licencia)

 

El nivel de sofisticación del usuario: idealmente tener conocimientos de estadística

y de programación y tamaño del conjunto de los datos: las computadoras modernas

permiten manipular eficientemente conjuntos de datos cada vez más extensos (grado

de intensidad computacional): con técnicas de re-muestreo o de validación cruzada,

ciertos tests exactos, importantes porque la gran parte de las técnicas bayesianas

exigen una enorme capacidad de cálculo. Sin embargo, Minitab, Stata y gran parte

de los paquetes gratuitos carecen de un verdadero lenguaje de programación que

resulte eficiente. Otros sí cuentan con él: SAS ® realiza cierto número de

manipulaciones no elementales en su data sep así como construir programas

relativamente complejos usando su sistema de macros y gran número de

operaciones matriciales.

 

Ergonomía: es el aspecto del que tal vez encarezcan determinados paquetes

estadísticos: la posibilidad de contar con ayudas interactivas o tutoriales; de

3

Page 5: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

representar gráficamente datos con un golpe de ratón y de exportar automáticamente

los resultados a formato .html .pdf.

Debido a las diferencias existentes entre los paquetes estadísticos, mencionaremos

individualmente las ventajas y desventajas de algunos de ellos, considerando especialmente

los paquetes más conocidos como SAS ® y SPSS, pero de muchos otros solo se

mencionará su existencia.

SAS, Statistical Analysis System (SAS Institute Inc., Cary, NC)

El software SAS ® reporta varias ventajas:

Comprende amplios procedimientos estadísticos (métodos multivariados, regresión

múltiple con posibilidades diagnósticas, análisis de supervivencia con riesgos

proporcionales y regresión logística) y permite cálculos exactos para tablas r x c

y contiene potentes posibilidades gráficas.

Todos los procedimientos pueden emplearse con una sola ejecución.

Los resultados pueden guardarse como archivos y usarse como entradas para futuras

ejecuciones.( SAS Institute, 2013)

R es un entorno especialmente diseñado para el tratamiento de datos, cálculo y

desarrollo gráfico. Permite trabajar con facilidad con vectores y matrices y ofrece diversas

herramientas para el análisis de datos.

El lenguaje de programación R forma parte del proyecto GNU1 y puede verse como

una implementación alternativa del lenguaje S, desarrollado en AT&T Bell Laboratories.

Se presenta como un software libre, donde el término software libre se refiere a la libertad

de los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software

(Febrero et al., 2008).

Se trata de un lenguaje creado específicamente para la visualización y exploración

de datos así como para su uso en modelización y programación estadística. En la web

(http://www.r-project.org/index.html) se encuentra disponible toda la información acerca de

R. La instalación de R se realiza a través de la CRAN (Comprehensive R Archive

Network). Además, R es un entorno en el que se han ido incorporando diversas técnicas

estadísticas. Algunas de ellas se encuentran en la base de R, pero otras muchas están

4

Page 6: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

disponibles como paquetes (packages). Estos paquetes están disponibles en la web

(http://cran.au.r-project.org/) (Febrero et al., 2008).

En resumen, R proporciona un entorno de trabajo especialmente preparado para el

análisis estadístico de datos. Sus principales características son las siguientes: R

proporciona un lenguaje de programación propio, basado en el lenguaje S, que a su vez

tiene muchos elementos del lenguaje C. Sin embargo, la semántica es muy distinta a la de

este último. Esto es porque R permite ejecuciones de comandos en línea (compilación y

ejecución unidas en un mismo paso), lo cual hace que su semántica esté más próxima a la

de un lenguaje de programación funcional, por eso tiene objetos y funciones específicos

para el tratamiento de datos (Murrell, 2005).

R, es software libre, tiene tal capacidad que permite la descarga de librerías, con

implementaciones concretas de funciones, gráficas, métodos estadísticos y algoritmos.

Las aplicaciones del software R permiten desarrollar metodologías repetibles,

orienta en la manipulación de datos y análisis de los recursos naturales, es una herramienta

de ayuda para resolver problemas de análisis forestal (Robinson y Hamann, 2010).

Dado que R ofrece una amplia gama de posibilidades, es útil para el principiante

adquirir algunas nociones y conceptos y así avanzar progresivamente.

R tiene una naturaleza doble de programa y lenguaje de programación y es considerado

como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell. S está disponible

como el programa S-PLUS comercializado por Insightful. Existen diferencias importantes

en el diseño de R y S: aquellos interesados en averiguar más sobre este tema pueden leer el

artículo publicado por Ihaka & Gentleman (1996) o las Preguntas Más Frecuentes en R, que

también se distribuyen con el programa.

R se distribuye gratuitamente bajo los términos de la GNU General Public Licence;

su desarrollo y distribución son llevados a cabo por varios estadísticos conocidos como el

Grupo Nuclear de Desarrollo de R.

R posee muchas funciones para análisis estadísticos y gráficos; estos últimos pueden

ser visualizados de manera inmediata en su propia ventana y ser guardados en varios

formatos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los formatos disponibles dependen del

sistema operativo), (Maindonald, 2008).

5

Page 7: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

Con R los resultados de análisis estadísticos se muestran en la pantalla, y algunos

resultados intermedios (como valores P-, coeficientes de regresión, residuales, etc.) se

pueden guardar, exportar a un archivo, o ser utilizados en análisis posteriores.

El lenguaje de R permite al usuario, por ejemplo, programar bucles (’loops’ en

inglés) para analizar conjuntos sucesivos de datos. También es posible combinar en un solo

programa diferentes funciones estadísticas para realizar análisis más complejos. Los

usuarios de R tienen a su disponibilidad un gran número de programas escritos para S

disponibles en la red; la mayoría de éstos pueden ser utilizados directamente con R.

Al principio, R puede parecer demasiado complejo para el no-especialista; esto no

es cierto necesariamente. De hecho, una de las características más sobresalientes de R es su

enorme flexibilidad. En la siguiente figura podemos observar el funcionamiento del sistema

operativo de R.

Figura 1. Esquema básico del funcionamiento de R (Berenson, 2003).

Mientras que programas más clásicos muestran directamente los resultados de un

análisis, R guarda estos resultados como un “objeto”, de tal manera que se puede hacer un

análisis sin necesidad de mostrar su resultado inmediatamente. Esto puede ser un poco

extraño para el usuario, pero esta característica suele ser muy útil. De hecho, el usuario

puede extraer solo aquella parte de los resultados que le interesa

De hecho, cuando se utiliza R por primera vez, es muy útil tener una idea general de

cómo funciona y eso es precisamente lo que vamos a hacer ahora. Como primera medida,

veremos brevemente como funciona R. Posteriormente, describiré el operador “asignar” el

cual permite crear objetos en R, miraremos como manejar estos objetos en memoria, y

6

Page 8: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

finalmente veremos cómo usar la ayuda en línea, la cual a diferencia de las ayudas en otros

programas estadísticos, es bastante útil e intuitiva.

R es un lenguaje Orientado a Objetos: bajo este complejo término se esconde la

simplicidad y flexibilidad de R. El hecho que R es un lenguaje de programación puede

desaminar a muchos usuarios que piensan que no tienen “alma de programadores”. Esto no

es necesariamente cierto por dos razones. Primero R es un lenguaje interpretado (como

Java) y no compilado (como C, C++, Fortran, Pascal, etc.), lo cual significa que los

comandos escritos en el teclado son ejecutados directamente sin necesidad de construir

ejecutables (Berenson, 2003).

Como segunda medida, la sintaxis de R es muy simple e intuitiva. Por ejemplo, una

regresión lineal se puede ejecutar con el comando lm(y ˜x). Para que una función sea

ejecutada en R debe estar siempre acompañada de paréntesis, inclusive en el caso que no

haya nada dentro de los mismos (v.g. ls()). Si se escribe el nombre de la función sin los

paréntesis, R mostrará el contenido (código) mismo de la función (Dalgaard, 2008).

En este documento, se escribirán los nombres de las funciones con paréntesis para

distinguirlas de otros objetos, a menos que se indique lo contrario en el texto.

Orientado a Objetos significa que las variables, datos, funciones, resultados, etc., se

guardan en la memoria activa del computador en forma de objetos con un nombre

específico. El usuario puede modificar o manipular estos objetos con operadores

(aritméticos, lógicos, y comparativos) y funciones (que a su vez son objetos).

El uso y funcionamiento de los operadores es relativamente intuitivo, los detalles se

muestran más adelante. Una función en R se puede representar como en la figura 2.

Figura 2. Representación de la delineación de una función en R (Aliaga, 1999).

Los argumentos pueden ser objetos (“datos”, fórmulas, expresiones, . . . ), algunos

de los cuales pueden ser definidos por defecto en la función; sin embargo estos argumentos

7

Page 9: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

pueden ser modificados por el usuario con opciones. Una función en R puede carecer

totalmente de argumentos, ya sea porque todos están definidos por defecto (y sus valores

modificados con opciones), o porque la función realmente no tiene argumentos (Dalgaard,

2008).

Objetos

R trabaja con objetos los cuales tienen nombre y contenido, pero también atributos

que especifican el tipo de datos representados por el objeto. Para entender la utilidad de

estos atributos, consideremos una variable que toma los valores 1, 2, o 3: tal variable podría

ser un número entero (por ejemplo, el número de huevos en un nido), o el código de una

variable categórica (por ejemplo, el sexo de los individuos en una población de crustáceos:

macho, hembra, o hermafrodita), (Muenchen, 2008).

Es claro que los resultados de un análisis estadístico de esta variable no será el

mismo en ambos casos: con R, los atributos del objeto proporcionan la información

necesaria. En general, y hablando un poco más técnicamente, la acción de una función

sobre un objeto depende de los atributos de este último.

Todo objeto tiene dos atributos intrínsecos: tipo y longitud. El tipo se refiere a la

clase básica de los elementos en el objeto; existen cuatro tipos principales: numérico,

carácter, complejo, y lógico (FALSE [Falso] or TRUE [Verdadero]). Existen otros tipos,

pero no representan datos como tal (por ejemplo funciones o expresiones). La longitud es

simplemente el número de elementos en el objeto. Para ver el tipo y la longitud de un

objeto se pueden usar las funciones mode y length, respectivamente (Gentleman, 2008).

El cuadro 1 resume los tipos de objetos y los datos que se representan en R.

Tabla 1. Tipos de objetos y los datos que se representan en R.

8

Page 10: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

Fuente: (Sarkar, 2002)

Un vector es una variable con el significado comúnmente asumido; un factor es una

variable categórica; un arreglo es una tabla de dimensión k, y una matriz es un caso

particular de un arreglo donde k = 2. Conviene notar que los elementos en un arreglo o una

matriz son del mismo tipo. Un “data.frame” (marco o base de datos) es una tabla

compuesta de uno o más vectores y/o factores de la misma longitud, pero que pueden ser de

diferentes tipos. Un ’ts’ es una serie temporal, y como tal contiene atributos adicionales

tales como frecuencia y fechas. Finalmente, una lista puede contener cualquier tipo de

objeto, incluyendo otras listas (Chatfield, 2003).

Leyendo datos desde un archivo

R utiliza el directorio de trabajo para leer y escribir archivos. Para saber cuál es este

directorio puede utilizar el comando getwd() (get working directory) Para cambiar el

directorio de trabajo, se utiliza la función setwd(); por ejemplo, setwd(“C:/data”) o

setwd(“/home/paradis/R”).

R puede leer datos guardados como archivos de texto (ASCII) con las siguientes

funciones: read.table (con sus variantes, ver abajo), scan y read.fwf. R también puede leer

archivos en otros formatos (Excel, SAS, SPSS), y acceder a bases de datos tipo SQL, pero

las funciones necesarias no están incluidas en el paquete base. Aunque esta funcionalidad

es muy útil para el usuario avanzado, nos restringiremos a describir las funciones para leer

archivos en formato ASCII únicamente (Dalgaard, 2008).

La función read.table crea un marco de datos (“data.frame”) y constituye la manera

más usual de leer datos en forma tabular. Por ejemplo si tenemos un archivo de nombre

data.dat.

Vector. La función vector, que tiene dos argumentos mode y length, crea un vector

cuyos elementos pueden ser de tipo numérico, lógico o carácter dependiendo del argumento

especificado en mode (0, FALSE o “ ” respectivamente). Las siguientes funciones tienen

exactamente el mismo efecto y tienen un solo argumento (la longitud del vector):

numeric(), logical(), y character().

Factor. Un factor incluye no solo los valores correspondientes a una variable

categórica, pero también los diferentes niveles posibles de esta variable (inclusive si están

presentes en los datos).

9

Page 11: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

Matriz. Una matriz es realmente un vector con un atributo adicional (dim) el cual a

su vez es un vector numérico de longitud 2, que define el número de filas y columnas de la

matriz. Una matriz se puede crear con la función matrix.

Operadores

El cuadro número 2 presenta los operadores en R.

Cuadro 2. Los operadores principales en R.

Los operadores aritméticos y comparativos actúan en dos elementos (x + y, a <b).

Los operadores aritméticos actúan sobre variables de tipo numérico o complejo, pero

también lógico; en este caso los valores lógicos son forzados a valores numéricos. Los

operadores comparativos pueden actuar sobre cualquier tipo devolviendo uno o varios

valores lógicos ( Chatfield, 2003).

Los operadores lógicos pueden actuar sobre uno (!) o dos objetos de tipo lógico, y

pueden devolver uno (o varios) valores lógicos. Los operadores “Y” y “O” existen en dos

formas: uno sencillo donde cada operador actúa sobre cada elemento del objeto y devuelve

un número de valores lógicos igual al número de comparaciones realizadas; otro doble

donde cada operador actúa solamente sobre el primer elemento del objeto (Arriaga et al.,

2008).

El editor de datos.

Es posible utilizar un editor gráfico similar a una hoja de cálculo para editar un

objeto numérico. Por ejemplo, si X es una matriz, el comando data.entry(X) abrirá un editor

gráfico que le permitirá cambiar los valores en la matriz o adicionar nuevas columnas y/o

filas (Dalgaard, 2008).

10

Page 12: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

Los detalles del uso del editor de datos dependen del sistema operativo (no está aún

implementado en todas las plataformas).

Haciendo gráficas en R.

R ofrece una increíble variedad de gráficos. Para darse una idea, escriba el comando

demo (graphics).

No nos es posible detallar aquí todas las posibilidades de R en términos de

generación de gráficas. Cada función gráfica en R tiene un enorme número de opciones

permitiendo una gran flexibilidad en la producción de gráficos y el uso de cualquier otro

paquete gráfico palidece en comparación. El modus operandi de las funciones gráficas es

sustancialmente diferente del esquema esbozado al principio de este documento.

Particularmente, el resultado de una función gráfica no puede ser asignado a un objeto sino

que es enviado a un dispositivo gráfico. Un dispositivo gráfico es una ventana gráfica o un

archivo (Dalgaard, 2008).

Existen dos tipos de funciones gráficas: las funciones de traficación de alto nivel

que crean una nueva gráfica y las funciones de traficación de bajo nivel que agregan

elementos a una gráfica ya existente. Las gráficas se producen con respecto a parámetros

gráficos que están definidos por defecto y pueden ser modificados con la función par

(Faraway, 2004).

11

Page 13: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

III. JUSTIFICACIÓN Y ANTECEDENTES.

Justificación.

En la agroindustria se generan datos que resultado de las interacciones que esta tiene

con su entorno, estos datos provienen de diversas áreas, algunas de ellas son el área de

calidad, de investigación de mercados y de la eficiencia de los procesos de transformación;

el control que existe sobre el desarrollo de sus actividades es indispensable para tener un

adecuado registro.

Una vez que se ha recopilado estos datos se procede a analizarlos, para ello la

estadística es una herramienta de análisis fundamental, y con ayuda de esta y en base a lo

observado en la agroindustria, permite a los encargados de la dirección de la empresa,

detectar puntos de mejora y debilidades dentro y fuera de ella.

En la pequeña y mediana industria, la falta de recursos económicos dificulta el

análisis de los datos particulares de la agroindustria, pues además de que se necesita una

instrucción básica en nociones estadísticas, el acceso a un software que ayudase al análisis

estadístico es costoso.

Utilizar un paquete estadístico como R es favorable pues no hay una inversión

monetaria, para utilizarlo de forma adecuada es necesario utilizar un software que

proporcione la forma en que se pueden realizar el estudio de casos particulares en la

agroindustria.

12

Page 14: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

Antecedentes

Utilizamos el sistema R para análisis estadístico. Se inició en la década de 1990

como un proyecto de Ross Ihaka y Robert Gentleman en la Universidad de Auckland

(Nueva Zelanda). El sistema R implementa un lenguaje de S, desarrollada en el AT & T

Bell Laboratories por Rick Becker, John Chambers, y Allan Wilks, que es la base para el

sistema S-PLUS comercial. De ello se desarrolla S en su estrecha vinculación entre el

análisis de datos y gráficos. Las versiones de R están disponibles, sin costo alguno, para las

versiones de 32 bits de Microsoft Windows, de Linux y otros sistemas Unix, y para

Macintosh (Maindonald & Brau, 2010).

Está disponible a través de la integral R Archive Network (CRAN). Ir a

http://cran.r-project.org/. El modelo de desarrollo utilizado para R ha demostrado ser muy

eficaz en altos niveles de conocimientos de computación para la mejora continua, para

identificar y corregir errores, y para responder rápidamente a las cambiantes necesidades y

los intereses de la comunidad estadística. Supervisión de la "base de R" es manejado por el

Equipo Central R, cuyos miembros son ampliamente establecido internacionalmente. Se

hace uso de código, corrección de errores, y la documentación de la comunidad de usuarios

de R es amplia. Especialmente importante es el gran número de paquetes que la base de

complemento R tiene, y que cualquiera es libre de contribuir. Una vez instalados, estos se

unen a la perfección en el sistema de base. (Maindonald & Brau, 2010).

Muchos de los análisis que ofrece R, hace 20 años, no estaba disponible en cualquiera de

los paquetes estadísticos estándar. Se han producido cambios desafiantes y emocionantes de

la metodología que normalmente se encuentra en los cursos de estadística hace 15 o 20

años. En el desarrollo actual de R, las prioridades han sido: la visión de una buena

capacidad de manipulación de datos, gráficos flexibles y de alta calidad, la prestación de los

métodos de análisis de datos que son a la vez interesantes y adecuadas para toda la gama de

aplicaciones de área demandas, la integración sin fisuras de los diferentes componentes de

R, y la prestación de interfaces a otros sistemas (editores, bases de datos, la web, etc.) que

los usuarios de R pueden requerir. Facilidad de uso es importante, pero no a expensas de la

potencia, flexibilidad, y controles contra respuestas que son potencialmente engañosas

(Maindonald & Brau, 2010).

13

Page 15: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

IV. PROBLEMA, HIPÓTESIS, OBJETIVOS Y METODOLOGÍA

Problema

El costo para darle confiabilidad estadística a una investigación es elevado, esto se debe a

que los análisis de datos se realizan con el uso de paquetes estadísticos costosos, lo cual

representa un obstáculo económico importante para las micro, pequeñas y medianas

empresas agroindustriales.

Reducir los costos del análisis estadístico de datos obtenidos en la micro, pequeña y

mediana agroindustria, puede generar soluciones basadas en referencias estadísticas

confiables.

Hipótesis

La herramienta del software generado en R proporciona resultados confiables que nos permitirán tomar decisiones estadísticamente fundamentadas para casos de problemas agroindustriales.

Objetivo general

Desarrollar un software para herramientas estadísticas básicas usando R aplicado a casos particulares de la agroindustria.

Objetivos particulares

Aplicar el software desarrollado a problemas de la agroindustria. Generar un ambiente de análisis estadístico básico y fácil de entender. Demostrar la importancia del uso de R para análisis estadísticos de forma gratuita. Generalizar el software para cualquier usuario. Brindar confiabilidad en el análisis de los datos.

14

Page 16: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

MATERIALES Y MÉTODOS

El objetivo de esta tesis, es generar un software en “R Project” para diseños experimentales

particulares en algunos problemas enfocados a la agroindustria y que sirvan como

herramienta de decisión en el manejo de los datos. El planteamiento del problema se

desarrolla con paquetes y comandos propios de R.

La metodología consiste en dos etapas: creación del software y generalización de este. La

primera etapa consiste, en crear el software con la rutina adecuada en cada caso, éste debe

ser preciso en las estadísticas de prueba y en el diseño experimental. Los datos analizados

corresponden a investigaciones en otras tesis.

En la segunda etapa se procede a elaborar el procedimiento para que cualquier usuario

pueda hacer uso del software con datos propios de su investigación.

Se espera que el software sea una alternativa que muestre al usuario su confiabilidad en el

análisis de los datos, pero también su flexibilidad en la ejecución de sus comandos.

V. CRONOGRAMA DE ACTIVIDADES

CRONOGRAMA DE ACTIVIDADES

SEMESTRE 6° 7° 8° 9°

AÑO 2013 2014

MESES E F M A M J J A S O N D E F M A M J J A S O N D

REVISIÓN DE LITERATURAESTRUCTURACIÓN DEL PROTOCOLO

PRIMERA ETAPA

SEGUNDA ETAPA

ANÁLISIS Y REDACCIÓN

REVISIÓN Y CORRECCIONES

PRESENTACIÓN DE RESULTADOS

VI. PRESUESTO Y FINANCIAMIENTO

Presupuesto

Financiamiento

15

Page 17: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

VII. BIBLIOGRAFÍA

1. Aliaga, M y Gunderson, B (1999) Interactive Statistics (3º Edition) Prentice Hall.

2. Arriaga Goez, A; Fernández Palacin, F; Lopez Sánchez, M; Muñoz Márquez, M;

Pérez Plaza, S y Sánchez Navas, A. (2008) Estadística Básica con R y R

Commander Universidad de Cádiz, Servicio de Publicaciones.

http://knuth.uca.es/ebrcmdr.

3. Berenson, M y Levine, D (2003) Estadística Básica en Administración. Conceptos y

Aplicaciones 6º Edición Prentice Hall.

4. Chambers, J. M. 2007. Software for Data Analysis: Programming with R. Springer.

5. Chatfield, C. 2003a. The Analysis of Time Series: An Introduction, 6th edn.

Chapman and Hall.

6. Cochran, W. G. and Cox, G. M. 1957. Experimental Designs, 2nd edn. John Wiley.

7. Dalgaard, P. 2008. Introductory Statistics with R, 2nd edn. Springer. USA.

8. Faraway, J. J. 2004. Linear Models with R. Chapman and Hall/CRC.

9. Faraway, J. J. 2006. Extending the Linear Model with R. Generalized Linear, Mixed

Effects and Nonparametric Regression Models. Chapman and Hall/CRC.

10. Gentleman, R. 2008. R Programming for Bioinformatics. Chapman and Hall/CRC.

11. Maindonald, J. H. 1984. Statistical Computation. John Wiley. USA.

12. Maindonald, J. H. 1992. Statistical design, analysis and presentation issues. New

Zealand Journal of Agricultural Research Pp. 41.

13. Maindonald, J. H. 2008. Using R for data analysis and graphics.

http://wwwmaths.anu.edu.au/~johnm/r/usingR.pdf . consultado el día 05 de junio de

2013.

14. Muenchen, R. A. 2008. R for SAS and SPSS Users. Springer.

15. Murrell, P. 2005. R Graphics. Chapman and Hall/CRC.

http://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html

16. R Development Core Team. 2009a. An introduction to R. The most recent version is

available from CRAN sites. http://cran.r-project.org consultado el día 10 de junio de

2013.

16

Page 18: DEPARTAMENTO DE  INGENIERÍA AGROINDUSTRIAL

17. R Development Core Team. 2009b. R: A language and environment for statistical

computing. RFoundation for Statistical Computing, Vienna, Austria. http://www.R-

project.org consultado el día 12 de junio de 2013.

18. R Development Core Team. 2009c. R Language Definition. Available from CRAN

sites.

19. Robinson, A., Hamann, J. 2010. Forest Analytics with R. Springer Science and

Business Media, LLC, NY, USA. 355.

20. Sarkar, D. 2002. Lattice. R News 2(2): 19–23.

21. Spector, P. 2008. Data Manipulation with R. Springer. USA.

22. Paradis, Emmanuel. (2002). R para Principiantes. Consultado el 14 de marzo de

2009, disponible en http://cran.r-project.org/doc/contrib/rdebuts_es.pdf

23. R Development Core Team. (2009). R: A language and environment for statistical computing

[R Foundation for Statistical Computing]. Vienna, Austria. Consultado el 14 de mayo de 2013,

en http://www.R-project.org

17