Manual R commander

17

Transcript of Manual R commander

• Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.

• Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suficiente para todos los análisis estadísticos que tengan que abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R tendrán que manejarse directamente con la consola de R, creando y editando instrucciones a mano, lo que puede resultar más engorroso, pero que permite un control total sobre los procedimientos que en cada momento se van a aplicar.

Según la version de R y R-Commander que se eligió instalar, hay distintas formas de abrir R-Commander: Si instaló RExcel, siga las instrucciones de la sección 3.2. Si instaló R-UCA, abriendo Rterm automáticamente se abrirá también el R-Commander. Si instaló directamente R, siga las instrucciones que siguen, o mire la sección 2.4.2.Desde la consola de R, seleccione Paquetes y después Cargar paquete... como se muestra en la figura 34.

AspectoUna vez abierto el R-Commander como se explica en la sección precedente, aparecerá una ventana parecida a la figura 36.

La ventana consta de las siguientes partes: •barra de menús; •barra de elementos activos (conjuntos de datos y modelos); •área de instrucciones; •área de resultados; •área de mensajes.Los datos•En las secciones que seguirán, se usará una base de datos elaborada a partir de una encuesta realizada entre los turistas que pernoctan en Asturias. •Los datos son de distinta naturaleza: hay datos numéricos (por ejemplo los gastos) y datos categóricos (por ejemplo el sexo). •El tamaño de la base de datos es de 2565 unidades. Se muestra una tabla de ejemplo en la figura 37.

Datos (I)A continuación se explicarán los comandos básicos para abrir una base con R-Commander. Los datos que usaremos en los ejemplos son los mismos de la sección precedente. El menú que contiene los comandos de esta sección está representado en la figura 38.

Nuevo conjunto de datosEste comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario tendrá que rellenar con sus propios datos, como se muestra en la figura 39.

• Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la figura 40 se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.

•  

El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten también utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son :•texto puro (en fichero, portapapeles o dirección URL); •SPSS; •Minitab; •STATA; •Excel; •Access.Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguendo las instrucciones de la figura 41 en la página 163.

Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura 42.

Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura 43, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que estan cargados.

A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de esta sección se encuentran en el menú de la figura 45. •Resúmenes

Resumenes•Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los comandos contenidos en este menú aparecen en la figura 46, y se explicarán en los próximos epígrafes.

• Tablas de contingencia Permite hallar las frecuencias de la distribución conjunta de dos variables categóricas, es decir, el número de casos en que se manifiestan simultáneamente cada combinación de valores de cada variable.

• Si por ejemplo queremos contar cuántos encuestados se quedarán durante el fin de semana (La estancia, ¿incluye fin de semana? (p9)), en función del Periodo de recogida datos (p2), haremos como se muestra en la figura 55. También se puede calcular el estadístico ji cuadrado del contraste de independencia u homogeneidad.

Este menú permite construir tablas para la distribución conjunta de tres, cuatro o más variables. Si por ejemplo queremos hacer una tabla donde aparezcan las frecuencias de las variable Periodo de recogida datos (p2) y Procedencia de la persona entrevistada (p7), agrupadas según la variable Sexo de la persona entrevistada (p18), marcaremos en la primera columna p2, en la segunda p7 y en la tercera p18. La salida se muestra en la figura 56.

• Test t para una muestra Sirve para hacer contrastes de hipótesis para la media de una variable cuantitativa con distribución normal. En la pantalla de construcción del contraste se pueden elegir:

• tipo de contraste — bilateral (igualdad), unilaterales (menor o mayor);

• valor de la media bajo la hipótesis nula; • nivel de confianza para el intervalo de estimación.• Por ejemplo, si queremos averiguar si la media del

Gasto total en el viaje por persona (gastotal) es mayor que 300, haremos como se muestra en la figura 59, cuya salida aparece en la figura 60.

• Test F para 2 varianzas La resolución del contraste t para comparar medias de muestras independientes depende de la homoscedasticidad (igualdad de varianzas) en las dos muestras. Mediante el comando que nos ocupa se puede realizar un contraste F para comparar la varianza de dos muestras, suponiendo que la variable sigue una distribución normal.

• Como ejemplo, pensemos en el Gasto en diversión en pubes y discotecas (p13), en función de si el encuestado se queda o no el fin de semana (La estancia, ¿incluye fin de semana? (p9)). Para probar si las dos muestras tienen la misma varianza seguimos los comandos que se muestran en la figura 68. La salida es el resultado del contraste de hipótesis con su P-valor (figura 69).

• Test de Wilcoxon para dos muestras Contraste no paramétrico correspondiente al contraste t de medias.

• Si por ejemplo queremos averiguar si el Gasto en diversión en pubes y discotecas (p13) es distinto respecto a si el turista encuestado se queda durante el fin de semana, podemos realizar el contraste como en se muestra en la figura 72. La salida está representada en la figura 73.

• Agrupación jerárquica Este comando permite hacer agrupaciónes jerárquicas. Si por ejemplo queremos agrupar las variables Gasto total diario por persona (gasdia) y Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 76. Además de dibujar el dendrograma, tambien se creará una nueva variable HClust.2, que puede ser agregada al conjunto de datos activo con el comando del próximo epígrafe.