Manual del r commander

ESCUELA SUPERIOR POLITÉCNICA DE

CHIMBORAZO

FACULTAD DE INFORMÁTICA Y ELECTRÓNICA

ESCUELA DE INGENIERÍA ELECTRÓNICA

TELECOMUNICACIONES Y REDES

PROBABILIDAD Y ESTADÍSTICA

MANUAL R COMMANDER

CUARTO “A”

JOSÉ RECALDE 340

FECHA DE ENTREGA: 15-01-2013

SEPTIEMBRE 2013 – FEBRERO 2014

Manual del R-Commander

1. Introducción

Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje R que corresponde a las acciones solicitadas.

Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suficiente para todos los análisis estadísticos que tengan que abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R tendrán que manejarse directamente con la consola de R, creando y editando instrucciones a mano, lo que puede resultar más engorroso, pero que permite un control total sobre los procedimientos que en cada momento se van a aplicar.

2. Primeros pasos

Según la version de R y R-Commander que se eligió instalar, hay distintas formas de abrir R-Commander:

Si instaló RExcel, Si instaló R-UCA, abriendo Rterm automáticamente se abrirá también el R-

Commander. Si instaló directamente R.

Desde la consola de R, seleccione Paquetes y después Cargar paquete... como se muestra en la figura.

Figura: Cargar paquetes en R

Se visualizará una lista de paquetes; baje hasta encontrar Rcmdr y selecciónelo. Se abrirá la ventana del programa R-Commander, que tendría que parecerse a la figura.

Figura: R-Commander

3. Aspecto

Una vez abierto el R-Commander como se explica en la sección precedente, aparecerá una ventana parecida a la figura.

Figura: Aspecto de R-Commander

La ventana consta de las siguientes partes:

barra de menús; barra de elementos activos (conjuntos de datos y modelos); área de instrucciones; área de resultados; área de mensajes.

4. Los datos

En las secciones que seguirán, se usará una base de datos elaborada a partir de una encuesta realizada entre los turistas que pernoctan en Asturias.

Los datos son de distinta naturaleza: hay datos numéricos (por ejemplo los gastos) y datos categóricos (por ejemplo el sexo).

El tamaño de la base de datos es de 2565 unidades. Se muestra una tabla de ejemplo en la figura.

Figura: Base de datos sobre turismo en Asturias

Por cada entrevistado, se recogen los siguientes datos:

Código del cuestionario (codcue); Zona geográfica (p1)

1. Occidente 2. Centro 3. Oriente

Periodo de recogida datos (p2)

1. Enero - Mayo 2. Junio - Septiembre 3. Octubre - Diciembre

Motivos de su visita (p3)

1. Ocio - Vacaciones 2. Trabajo 3. Otro

¿Qué personas lo acompañan en este viaje? (p4)

1. Viaja solo 2. En pareja 3. En familia 4. Amigos - Grupo 5. Compañeros de trabajo

Medio de transporte de llegada (p5)

1. Coche - Moto propios 2. Coche de alquiler 3. Autobús contratado 4. Autobús de línea regular 5. Tren 6. Avión

Tipo de establecimiento en que se aloja (p6)

1. Hotel 2. Turismo Rural 3. Camping

Procedencia de la persona entrevistada (p7)

1. Asturiano 2. Nacional 3. Extranjero

¿Cuántas noches pernoctará en Asturias? (p8) La estancia, ¿incluye fin de semana? (p9)

1. Sí 2. No

Gasto en comidas en el alojamiento (p10) Gasto en comidas fuera del alojamiento (p11) Gasto en bebidas en bares y cafeterías (p12) Gasto en diversión en pubes y discotecas (p13) Gasto en alojamiento (p14) Gasto en actividades (p15) Gasto en transporte (p16) Gasto en compras varias (p17) Sexo de la persona entrevistada (p18)

1. Femenino 2. Masculino

Gasto total diario por persona (gasdia) Gasto total en el viaje por persona (gastotal)

5. Datos (I)

A continuación se explicarán los comandos básicos para abrir una base con R-Commander. Los datos que usaremos en los ejemplos son los mismos de la sección precedente.

El menú que contiene los comandos de esta sección está representado en la figura.

Figura: Menú datos (primera parte)

5.1. Nuevo conjunto de datos

Este comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario tendrá que rellenar con sus propios datos, como se muestra en la figura.

.

Figura: Crear conjunto de datos

5.2. Cargar conjunto de datos

Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la figura se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.

Figura: Cargar datos

5.3. Importar datos

El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten también utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son

texto puro (en fichero, portapapeles o dirección URL); SPSS; Minitab; STATA; Excel; Access.

Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguendo las instrucciones de la figura.

Figura: Importar datos desde Excel

5.4. Cambiar conjunto de datos

Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura.

Figura: Conjunto de datos activo

Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que están cargados.

Figura: Lista de conjuntos de datos disponibles

Desde la consola de R-Commander es posible cambiar el conjunto de datos activo usando el menú de figura. En este ejemplo se ilustra cómo pasar desde el conjunto de datos Turisguay al conjunto de datos Jovenguay.

Figura: Cambiar conjunto de datos activo

Todos los análisis y los estadísticos que se calculan en R-Commander se realizan sola y exclusivamente sobre la base de datos activa, así que tenga cuidado cuando maneje varios conjuntos de datos a la vez: ¡asegúrese de trabajar sobre el conjunto apropriado! Es fácil despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones.

6. Estadísticos

A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de esta sección se encuentran en el menú de la figura.

Figura: Menú de estadísticos

6.1. Resúmenes

Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los comandos contenidos en este menú aparecen en la figura, y se explicarán en los próximos epígrafes.

Figura 46: Menú de resúmenes

Conjunto de datos activos Según la naturaleza de la variable (cuantitativa o cualitativa), tendremos (figura ):

Resúmenes numéricos para variables cuantitativas: o mínimo y máximo o media y mediana

o primer y tercer cuartil

Es decir, los cinco cuartiles más la media.

Frecuencias absolutas para variables cualitativas (categóricas, factores).

Figura: Resúmenes del conjunto de datos activo

Resúmenes numéricos Este comando hace el resumen de una variable numérica (o varias). Frente al resumen descrito antes, ofrece además la desviación típica.

Si, por ejemplo, queremos el resumen de la variable numérica ¿Cuántas noches pernoctará en Asturias? (p8), seguiremos las instrucciones de la figura.

Figura: Resúmenes numéricos de ¿Cuántas noches pernoctará en Asturias? (p8)

También se pueden calcular los resúmenes de una variable numérica, segmentando los resultados con respecto a una variable categórica. Si por ejemplo queremos conocer los estadísticos de la variable Gasto total diario por persona (gasdia) con respecto a Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la figura.

Figura: Resúmenes numéricos segmentados

La salida será una tabla parecida a la que aparece en la figura.

Figura: Descripción del gasto según procedencia

Distribución de frecuencias Se usa para calcular las frecuencias de los casos observados en una variable categórica. Si por ejemplo estamos interesados a conocer la frecuencia de turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)), haremos como se ilustra en la figura.

Figura: Procedencia de los turistas: frecuencias

Número de observaciones ausentes Este comando genera una tabla donde por cada variable se muestra el número de observaciones ausentes.

Para el conjunto de datos Turisguay, la ejecución del comando genera la tabla de la figura.

Figura: Número de ausentes

Tablas de estadísticos Se pueden hacer tablas con los estadísticos (media, mediana o desviación típica) para comparar varias variables. Si por ejemplo queremos saber cuál es el Gasto total en el viaje por persona (gastotal) medio de los turistas, según sean hombres o mujeres (Sexo de la persona entrevistada (p18)) y según la Procedencia de la persona entrevistada (p7), haremos como se ilustra en la figura.

Figura: Tablas de estadísticos

La salida será una tabla parecida a la que se muestra en la figura.

Figura: Gasto medio según sexo y procedencia

Matriz de correlaciones Calcula las matrices de correlaciones de Pearson o de Spearman entre las variables seleccionadas.

Test de correlación Contraste para la asociación entre variables emparejadas. Se pueden calcular distintos coeficientes (Pearson, Tau de Kendall y Rho de Spearman).

Test de normalidad de Shapiro-Wilk Realiza el contraste de normalidad de Shapiro-Wilk. La salida será el valor del estadístico y el correspondiente P-valor.

6.2. Tablas

Tablas de contingencia Permite hallar las frecuencias de la distribución conjunta de dos variables categóricas, es decir, el número de casos en que se manifiestan simultáneamente cada combinación de valores de cada variable.

Si por ejemplo queremos contar cuántos encuestados se quedarán durante el fin de semana (La estancia, ¿incluye fin de semana? (p9)), en función del Periodo de recogida datos (p2), haremos como se muestra en la figura. También se puede calcular el estadístico ji cuadrado del contraste de independencia u homogeneidad.

Figura: Existe una relación significativa entre periodo de visita y estancia en fin de semana

Tablas de entradas múltiples Este menú permite construir tablas para la distribución conjunta de tres, cuatro o más variables. Si por ejemplo queremos hacer una tabla donde

aparezcan las frecuencias de las variable Periodo de recogida datos (p2) y Procedencia de la persona entrevistada (p7), agrupadas según la variable Sexo de la persona entrevistada (p18), marcaremos en la primera columna p2, en la segunda p7 y en la tercera p18. La salida se muestra en la figura.

Figura: Tablas de triple entrada: salida

Para el caso de más de tres variables, obsérvese la figura; en la pantalla de construcción de la tabla se marcarán las variables de interés, una en la primera lista, una en la segunda y una o más en la tercera.

Si por ejemplo queremos conocer cuántos casos hay por cada posible valor de las cuatro variables Periodo de recogida datos (p2), Procedencia de la persona entrevistada (p7), La estancia, ¿incluye fin de semana? (p9) y Sexo de la persona entrevistada (p18), elegiremos como en la figura tabla entrada múltiple, cuya salida será una lista de tablas (figura tabla entrada múltiple salida).

Figura: Tablas de entrada múltiple

Figura: Tablas de entrada múltiple: salida

6.3. Medias

Test t para una muestra Sirve para hacer contrastes de hipótesis para la media de una variable cuantitativa con distribución normal. En la pantalla de construcción del contraste se pueden elegir:

tipo de contraste — bilateral (igualdad), unilaterales (menor o mayor); valor de la media bajo la hipótesis nula; nivel de confianza para el intervalo de estimación.

Por ejemplo, si queremos averiguar si la media del Gasto total en el viaje por persona (gastotal) es mayor que 300, haremos como se muestra en la figura 1, cuya salida aparece en la figura 2.

Figura 1: Contraste t para una media

Figura 2: No se rechaza que el gasto total sea igual a 300 euros al 95 por ciento de confianza

Test t para muestras independientes Realiza un contraste de hipótesis de igualdad de medias entre dos muestras. Se necesita por un lado una variable cuantitativa y, por otro, una variable dicotómica (cualitativa o factor, con sólo dos modalidades) que indique los dos grupos (por ejemplo, el sexo).

En el ejemplo de la figura 3 , se muestra cómo realizar un contraste para averiguar si el Gasto total en el viaje por persona (gastotal) promedio es mayor para las mujeres que para los hombres, con un nivel de confianza del 95% y suponiendo que la dos muestras tengan la misma varianza. La salida aparece en la figura 4.

Figura 3: Contraste t para muestras independientes

Figura 4: El gasto medio es igual para hombres y mujeres

Como otro ejemplo, queremos averiguar si en el Gasto total en el viaje por persona (gastotal) medio influye la variable dicotómica La estancia, ¿incluye fin de semana? (p9) (figura 5).

Figura 5: El gasto medio es significativamente distinto si la estancia incluye fin de semana

Test t para datos emparejados Se utiliza para contrastar dos variables en que los datos se suponen relacionados, como al comparar dos variables observadas sobre los mismos individuos. Por ejemplo, si queremos averiguar si el gasto medio en Gasto en bebidas en bares y cafeterías (p12) es igual al gasto medio en Gasto en diversión en pubes y discotecas (p13), haremos como se muestra en la figura 6, cuya salida aparece en la figura 7.

Figura 6: Contraste t para datos emparejados

Figura 7: La diferencia entre los gastos medios es significativa

ANOVA de un factor Este comando permite contrastar la igualdad de medias en varias muestras independientes, mediante un análisis de varianza. Si por ejemplo queremos comprobar si el Gasto total en el viaje por persona (gastotal) medio es igual independientemente del valor de Zona geográfica (p1), haremos como se muestra en la figura 8, marcando la variable gastotal en la columna izquierda y p1 en la derecha; si queremos ver si depende del sexo, marcaremos gastotal a la izquierda y p18 a la derecha. La salida está representada en la figura 9.

Figura 8: Análisis de varianza con un solo factor

Figura 9: En el gasto medio influye la zona pero no el sexo

6.4. Varianzas

Test F para 2 varianzas La resolución del contraste t para comparar medias de muestras independientes depende de la homoscedasticidad (igualdad de varianzas) en las dos muestras. Mediante el comando que nos ocupa se puede realizar un contraste F para comparar la varianza de dos muestras, suponiendo que la variable sigue una distribución normal.

Como ejemplo, pensemos en el Gasto en diversión en pubes y discotecas (p13), en función de si el encuestado se queda o no el fin de semana (La estancia, ¿incluye fin de semana? (p9)). Para probar si las dos muestras tienen la misma varianza seguimos los comandos que se muestran en la figura 1. La salida es el resultado del contraste de hipótesis con su P-valor (figura 2).

Figura 1: Contraste F de igualdad de dos varianzas

Figura 2: Las varianzas son significativamente distintas, por lo que hay que ser prudente al contrastar la igualdad de medias

Test de Bartlett Una de las hipótesis del análisis de varianza es la homoscedasticidad entre las muestras independientes. El contraste de Bartlett es similar al contraste del epígrafe anterior, pero permite contrastar más de dos muestras independientes.

Las figuras 3 y 4 representan el mismo ejemplo del epígrafe anterior, considerando las mismas variables, pero con el contraste de Bartlett en vez del contraste F .

Figura 5: Contraste de Bartlett: entrada

Figura 6: Contraste de Bartlett: salida

6.5. Test no paramétricos

Test de Wilcoxon para dos muestras Contraste no paramétrico correspondiente al contraste t de medias.

Si por ejemplo queremos averiguar si el Gasto en diversión en pubes y discotecas (p13) es distinto respecto a si el turista encuestado se queda durante el fin de semana, podemos realizar el contraste como en se muestra en la figura 7. La salida está representada en la figura 8.

Figura 7: Contraste de Wilcoxon para dos muestras: entrada

Figura 8: Contraste de Wilcoxon para dos muestras: salida

Test de Kruskall-Wallis Es un contraste no paramétrico correspondiente al contraste de igualdad de medias de dos o más poblaciones.

Considerando por ejemplo el Gasto total en el viaje por persona (gastotal) en las tres distintas temporadas en que se recogieron los datos (Periodo de recogida datos (p2)), podemos preguntarnos si las tres muestras provienen de la misma población. Para realizar la prueba en R-Commander, síganse las instrucciones de la figura 9, y se obtendrá la salida de la figura 10.

Figura 9: Contraste de Kruskall-Wallis: entrada

Figura 10: Contraste de Kruskall-Wallis: salida

6.6. Análisis dimensional

Agrupación jerárquica Este comando permite hacer agrupaciónes jerárquicas. Si por ejemplo queremos agrupar las variables Gasto total diario por persona (gasdia) y Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 11. Además de dibujar el dendrograma, tambien se creará una nueva variable HClust.2, que puede ser agregada al conjunto de datos activo con el comando del próximo epígrafe.

Figura 11: Agrupación jerárquica y dendograma

Agregar la agrupación jerárquica al conjunto de datos... Este comando permite agregar al conjunto de datos activos las variables indicadoras de los grupos generados con el comando del epígrafe anterior.

Por ejemplo, podemos agregar la variable HClust.2, que hemos generado en el ejemplo precedente, siguiendo las instrucciones de la figura 12. Como se puede ver en la tercera ventana de la figura 12, la nueva variable aparece al final de la base de datos y se presenta con tres niveles.

Figura 12: Agregar la variable HClust.2 al conjunto de datos activo

Una vez que hemos adjuntado esta nueva variable, podemos calcular, por ejemplo, el gasto total según la variable de agrupación, como se indicaba en la sección 4.6.1 (figura 78).

Figura 13: Gasto total según la variable de agrupación HClust.2

6.7. Ajuste de modelos

En esta parte analizaremos cómo construir modelos de regresión lineal para los datos, mientras la parte de evaluación y mejora de los ajustes se tratará más adelante. El menú para construir los modelos está representado en la figura 13.

Figura 13: Menú de ajuste de modelos

Regresión lineal Es muy sencillo construir un modelo de regresión. Una vez fijadas la variable por explicar y todas las variables explicativas, se construye el modelo según las instrucciones de figura 14. En este caso hemos elegido el Gasto total en el viaje por persona (gastotal) como variable por explicar y todas las otras variables numéricas se utilizarán como variables explicativas. El programa calcula el valor de los coeficientes y también realiza una primera evaluación del ajuste, tal como se muestra en la figura 15.

Figura 14: Regresión lineal

Figura 15: Regresión lineal: salida

Modelo lineal Es muy parecido al caso precedente, pero en este modelo se pueden incorporar también variables categóricas. En el ejemplo hemos calculado el valor de los coeficientes para un modelo lineal con todas las variables categóricas de la base de datos. Como se muestra en la figura 16, también se pueden efectuar trasformaciones al vuelo sobre el valor de las variables explicativas, bien con las teclas ilustradas en la ventana, bien tecleando directamente. La salida está representada en figura 17.

Figura 16: Modelo lineal

Figura 17: Modelo lineal: salida

7. Modelos

En este apartado presentamos las herramientas básicas para la evaluación de modelos estadísticos (por ejemplo, modelos de regresión lineal). El menú que permite acceder a los comandos para la evaluación de los modelos está representado en la figura 1.

Figura 1: Menú de modelos

7.1. Resumir el modelo

Es un primer vistazo al modelo; nos enseña las características básicas del modelo, como se ilustra en la figura 1:

fórmula del modelo; coeficientes calculados para cada variable explicativa:

o coeficiente; o desviación típica; o valor estadístico t; o P-valor;

información sobre el ajuste: o R cuadrado; o estadístico F y su P-valor.

Figura 1: Resumen de modelo

7.2. Selección del modelo paso a paso

Esta técnica permite, de forma rápida y automática, refinar un modelo con distintos procedimientos. La idea es probar a quitar y añadir variables a un modelo ya existente, evaluar los efectos de dichos cambios y elegir qué variables mantener y cuáles omitir. Para la evaluación de la bondad del ajuste se pueden usar dos métodos:

BIC: criterio de información bayesiano AIC: criterio de información de Akaike

mientras que las técnicas para quitar y añadir variables son cuatro:

atrás/adelante; adelante/atrás; atrás; adelante.

Combinando técnicas y formas de evaluación se pueden construir algoritmos de mejoramiento del ajuste de forma bastante sencilla.

Consideramos ahora el modelo construido en la sección precedente, donde se explicaba el gasto total en función de todas las variables numéricas de la base de datos. Con el comando Resumir el modelo, podemos averiguar que no todas las variables son significativas, y que en general el modelo podría ser mejorado. Aplicamos entonces una de las técnicas propuestas (figura 1) y analizamos los resultados (figura 2 ).

Figura 1: Selección paso a paso: entrada

Figura 2: Selección paso a paso: salida

La técnica atrás/adelante con criterio de información bayesiano es un algoritmo compuesto de los siguientes pasos:

1. Inicio: se considera el modelo con todas las variables explicativas posibles. 2. Quitar una variable y evaluar el modelo con el criterio. Una vez acabado, volver a

añadir la variable. (Paso atrás.) 3. Repetir el paso precedente hasta haber probado con todas las variables. 4. Ordenar los modelos calculados en los pasos 2 y 3 y construir el nuevo ajuste con una

variable menos. 5. Repetir los pasos 2 y 3, aplicándolos a el nuevo modelo, y esta vez también se puede

añadir la variable quitada. (Pasos atrás/adelante.) 6. Ejecutar el procedimiento hasta que ningún cambio en las variables mejore en el ajuste. 7. El modelo final será el modelo al que no se puedan ni añadir ni quitar variables sin

bajar la calidad.

La técnica llamada adelante/atrás sigue el mismo algoritmo, pero en vez que arrancar con el modelo con todas variables, arranca con el modelo sin variables explicativas y va añadiendo una a una las variables hasta que se queda con el mejor ajuste.

Las técnicas adelante y atrás son más sencillas porque no consideran la posibilidad de volver a añadir (o quitar) variables descartadas (paso 5).

7.3. Gráficas básicas de diagnóstico

Una vez seleccionado el modelo, es posible dibujar las gráficas de diagnóstico. La salida, en el caso del modelo que explica el Gasto total en el viaje por persona (gastotal) en función de ¿Cuántas noches pernoctará en Asturias? (p8), Gasto en bebidas en bares y cafeterías (p12), Gasto en diversión en pubes y discotecas (p13), Gasto en alojamiento (p14) y Gasto en transporte (p16), está representada en la figura 1.

Figura 1: Gráficas de diagnóstico

En los párrafos siguientes se ofrece una sucinta explicación de las gráficas.

1. Residuos frente a ajustados.

Representa los residuos (diferencias entre el valor real y el valor ajustado/predicho) frente a los valores ajustados. Si la regresión es simple (Y = a + bX), sería equivalente a un gráfico de residuos frente a la variable independiente (X).

Si un punto está relativamente muy por encima o muy por debajo de la recta horizontal, es un valor atípico (aparecen destacados en el gráfico con sendas etiquetas). El gráfico sirve también para detectar heteroscedasticidad, falta de independencia, falta de (recti)linealidad, etc.

2. Residuos tipificados frente a cuantiles teóricos (de una distribución gausiana)

Una hipótesis de los modelos de regresión habituales una hipótesis es que los residuos tienen distribución gausiana (normal).

El gráfico cuantil-cuantil sirve para diagnosticar el cumplimiento de esa hipótesis. En el caso perfecto, todos los puntos estarían en línea recta. Las desviaciones de la recta suelen apreciarse en los puntos de los extremos. Los puntos que más se desvían de la hipótesis aparecen destacados con sendas etiquetas identificativas.

3. Escala-posición: raíz de valor absoluto de residuo frente a valores ajustados

Cabe destacar que, en contraste con la primera gráfica, en ésta se toma el valor absoluto, para comparar la magnitud del residuo independientemente del sentido arriba/abajo; y se toma la raíz cuadrada para disminuir la asimetría, que suele dificultar la interpretación.

Por lo anterior, puede facilitar la diagnosis de la homoscedasticidad. Sin embargo, puede dificultar la diagnosis de linealidad, precisamente por las trasformaciones a que se someten los residuos.

4. Residuos tipificados frente a palancaje

El palancaje es una medida de la influencia que tiene un punto en el cálculo de los coeficientes del modelo. El palancaje se basa en la aportación del punto a las varianzas de las variables independientes.

Los puntos a la derecha de la gráfica tienen gran palancaje. Tales puntos poseen una influencia notable si el residuo correspondiente se separa mucho del cero; en concreto, se suele considerar muy influyente si supera la distacia de Cook igual a 1 (que se corresponde con una de las líneas rojas de la gráfica). Los puntos notables aparecen destacados con su etiqueta.

8. Gráficas

Unas herramientas muy útiles a la hora de hacer estadística son sin duda las gráficas. Muchas veces la visualización de la gráfica adecuada nos ayuda a hacernos una idea preliminar de la variable que queremos analizar.

En lo que sigue aprenderemos a construir distintas gráficas usando el menú apropiado. El menú que permite acceder a los comandos para construir las gráficas está representado en la figura 1.

Figura 1: Menú de gráficas

8.1. Diagrama de caja

Dibuja el típico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las instrucciones de la figura 1, podemos construir la gráfica de la figura 2, que representa el diagrama de caja de la variable Gasto total diario por persona (gasdia).

Figura 1: Diagrama de caja

Figura 2: Diagrama de caja: gasto diario

También se pueden construir diagramas de cajas para variables cuantitativas segmentadas con respecto a otras variables categóricas. En el ejemplo de figura 3 hemos construido el diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la persona entrevistada (p7).

Figura 3: Diagrama de caja por grupos

8.2. Histograma

Este comando permite construir histogramas para variables numéricas. En la figura 1 en la página 322 está representado el histograma del Gasto total diario por persona (gasdia).

Figura 1: Histograma: gasto diario

¿Cómo cambiar las etiquetas del gráfico?

Siendo las gráficas unas herramientas muy útiles y ampliamente utilizadas en estadística, es necesario que sean lo más claras posible y que se puedan presentar incluso solas, o sea, sin estar acompañadas por datos numéricos; por esta razon deberían ser auto-explicativas en la mayoría de los casos.

Es importante entonces que cada gráfica contenga toda la información necesaria para su interpretación. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el título de la gráfica y las variables que en ella intervienen.

Desafortunadamente, con R-Commander no es posible modificar estas características, pero en lo que sigue daremos una explicación sencilla de cómo operar con los comandos de R para añadir a una gráfica generada con R-Commander las etiquetas de las variables y del título.

Para empezar, cuando se genera una gráfica con R-Commander, automáticamente se está pidiendo a R seguir algunos comandos específicos, los cuales aparecen reflejados en el área de instrucciones; en el caso de la gráfica representada en la figura 4, que representa el histograma del gasto diario, el comando seria:

hist (Turisguay$gasdia, scale=~percent~, breaks=~Sturges~, col=~darkgray~)

que corresponde a pedir:

hist (...) — un histograma... Turisguay$gasdia — ...de la variable Gasto total diario por persona (gasdia) en el

conjunto de datos Turisguay... scale=~percent~ — ...que representa los porcentajes... breaks=~Sturges~ — ...calculando el ancho de las columnas con el método de

Sturges... col=~darkgray~ — ...y pintando las columnas de un color gris oscuro.

Para añadir las etiquetas habrá que usar el comando:

hist (Turisguay$gasdia, main=~Gasto total diario~, xlab=~Euros~, ylab=~Porcentaje (%)~, scale=~percent~, breaks=~Sturges~, col=~darkgray~)

donde las opciones añadidas significan que:

main=~Gasto total diario~ — el título será Gasto total diario, xlab=Euros~ — el eje horizontal llevará la etiqueta Euros y ylab=~Porcentaje (%)~ — el eje vertical llevará la etiqueta Porcentaje ( %).

El resultado de este comando está representado en la figura 5.

Figura 3: Histograma con etiquetas

4.8. Gráfica de barras

Es una gráfica adecuada para representar las frecuencias de las variables categóricas, en especial las ordinales. En el eje horizontal se ponen las categorías (niveles o modalidades) y

en el eje vertical se representan las frecuencias por cada nivel. En la figura 1 se representa la gráfica de barra de la variable Procedencia de la persona entrevistada (p7).

Figura 1: Gráfica de barras: procedencia

También a las gráficas de barra es importante añadir las etiquetas de los ejes y el título; si para producir la gráfica de barras 95, el comando que automáticamente ha usado R-Commander ha sido:

barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~)

para añadir título y etiquetas, usaremos lo siguiente:

barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~, main=~Procedencia~)

cuyo resultado se representa en la figura 2.

Figura 2: Gráfica de barras con título y etiquetas

9. Datos (II)

En esta sección seguiremos explicando los comandos contenidos en el menú Datos, que ya hemos introducido en la sección 5.

En esta sección veremos aquellos comandos que permiten modificar, agrupar, segmentar y eliminar tanto los datos como las variables del conjunto de datos activo.

9.1. Conjunto de datos en paquetes

Existen diferentes bases de datos de ejemplo que acompañan a algunos de los paquetes de R. Con este comando se puede cargar estos archivos y, si posible, obtener información adicional sobre los mismos.

4.9.2. Conjunto de datos activos

Seleccionar Equivale a pinchar con el ratón en el nombre del conjunto de datos activo, sito en la barra de elementos activos de R-Commander.

Actualizar Es conveniente si se realizan acciones en la consola de R, al margen de R-Commander. De esta manera, R-Commander actualiza su información sobre los datos que pudieron modificarse sin que se diera cuenta.

Ayuda sobre conjunto de datos activo Si existe información adicional sobre el conjunto de datos se visualizará en una ventana (es el caso de muchas de las bases de datos contenidas como ejemplos en los paquete de R).

Establecer nombres de casos Sirve para usar una variable como nombre de los casos (individuos de la muestra), en lugar del número consecutivo que se le asigna por omisión, de forma que se puede identificar más facilmente un caso en una tabla o en una gráfica. En nuestro ejemplo, la variable Código del cuestionario (codcue) representa el código del encuestado y se presta muy bien como nombre de los casos. De hecho sólo las variables que tienen un valor distinto por cada caso se pueden utilizar (razonablemente) para nombrar los casos.

Variables del conjunto de datos activo Este comando enumera las variables del conjunto de datos activo. En nuestro caso, por ejemplo, el resultado sería la lista de figura 1.

Figura 1: Variables del conjunto de datos

Filtrar el conjunto de datos activo Este comando es muy útil cuando queremos restringir nuestra base de datos a un subconjunto de casos que cumplen una determinada condición.

Si por ejemplo queremos trabajar sólo con los datos de los turistas de la zona occidental de Asturias, haremos como en figura 2. Ojo, que para indicar igualdad hay que usar un doble signo igual: ==; para desigualdad, !=.

Conviene indicar un Nombre del nuevo conjunto de datos, de forma que la salida es un nuevo conjunto de datos, distinto del original, en el sentido de que pueden coexistir ambos en el entorno R. En el nuevo conjunto aparecen sólo los datos relativos a los encuestados de la zona occidental.

Figura 2: Filtrar datos: sólo Occidente

También se pueden poner condiciones más complejas. Para expresar la selección se pueden usar los operadores lógicos de conjunción Y (&), de disyunción O (|) y de negación NO (!).

Pruebe a filtrar los datos, a partir del conjunto de datos Turisguay, según las siguientes condiciones:

turistas extranjeros que vinieron en avión p7 == ’Extranjero’ & p5 == ’Avion’→TurisExtrAvion españoles (asturianos y nacionales) que se gastaron a lo sumo cinco euros en bares y

cafeterías p7 != ’Extranjero’ & p12 <= 5→TurisEspBaresMenos5 parejas que gastaron más de diez euros de alojamiento por noche p4 == ’En pareja’ & p14 > 10→ TurisParejaAlojMas10 asturianos que se gastaron en total o más de 200 euros o menos de 50 euros p7 == ’Asturiano’ & (gastotal < 50 | gastotal > 200) → TurisAstuMasoMenos

Recuerde que cada vez que filtre los datos, el nuevo conjunto de datos activo será el propio conjunto filtrado, así que, si quiere volver a trabajar con el conjunto original, tendrá que volver a seleccionarlo.

Borrar fila(s) del conjunto de datos activo Este comando permite borrar uno o más casos del conjunto de datos y llamar al nuevo conjunto de datos con un nuevo nombre.

En el ejemplo que se muestra en la figura 3, hemos quitado la fila numero 6.

Figura 3: Borrar fila

Eliminar los casos con valores omitidos Permite eliminar los casos donde haya una variable con valor ausente.

Guardar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato .rda, formato binario (código objeto) nativo de R.

Exportar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato de texto puro.

9.3. Modificar variables del conjunto de datos activos

Recodificar variables Recodificar variables significa normalmente transformar una variable numérica o categórica en una categórica. Existen muchas posibilidades, que esperamos aclarar a la luz de los siguientes ejemplos.

En el conjunto de datos Turisguay, queremos recodificar la variable Zona geográfica (p1), de forma que los datos recogidos en la parte occidental de Asturias aparezcan marcados con una A, mientras que todos los otros con una B. Para ello seguiremos las instrucciones que se muestran en la figura 1. La nueva variable categórica turisp1ab contiene sólo A y B, como se ve en la figura 2.

Figura 1: Recodificar p1 con A y B

Figura 2: Variable recodificada turisp1ab

Otros ejemplos podrían ser los siguientes:

1. Recodificar la variable Medio de transporte de llegada (p5) en la nueva variable mediopropio, diferenciando entre quien vino con su propio medio de transporte (propio) y quien vino con medios públicos (publico). 2. Recodificar la variable Periodo de recogida datos (p2) en la nueva variable temporada, de forma que las tres distintas temporadas aparezcan con los nombres: primera, segunda y tercera. 3. Crear la variable Estancia a partir de la variable ¿Cuántas noches pernoctará en Asturias? (p8) donde aparezcan los siguientes niveles:

Estancia corta si el numero de noches es menor que 2.

Estancia media si el numero de noches queda entre 2 y 7. Estancia larga si el numero de noches es mayor de 7.

4. Imagínese una base de datos donde los encuestados votaron en una escala entre 0 y 10 su propio agradecimiento con respecto a una película (variable voto). Lo que queremos hacer es que, para todos los que votaron entre 0 y 3, aparezca la etiqueta bajo, medio para votos entre 4 y 8, y alto para los restantes.

Posibles soluciones a los ejemplos anteriores:

Vieja variable Directrices de recodificaión Nueva variable

Medio de transporte de llegada (p5)~Coche-moto propio~=~propio~ else = ~publico~ mediopropio

~Enero-Mayo~ = ~primera~Periodo de recogida datos (p2) ~Junio-Septiembre~ = ~segunda~temporada

else = ~tercera~

0,1=~Estancia corta~Noches pernoctación (p8) 2:7=~Estancia media~ Estancia

else=~Estancia larga~

0:3 = ~bajo~voto 4,5,6,7,8 = ~medio~ etiquetas

else = ~alto~

Calcular una nueva variable Se pueden calcular nuevas variables a partir de las que tenemos en la base de datos. Se pueden usar todas las típicas operaciones aritméticas y conviene asignar a la nueva variable un nombre que no aparezca ya en la lista de las variables.

En los ejemplos de la figura 3, hemos calculado primero el gasto en servicios que no fueran comidas (sumando los gastos en Gasto en bebidas en bares y cafeterías (p12), Gasto en diversión en pubes y discotecas (p13), Gasto en alojamiento (p14), Gasto en actividades (p15), Gasto en transporte (p16) y Gasto en compras varias (p17)) y hemos llamado a esta nueva variable gastonocomida. Después hemos calculado el porcentaje de gastos distintos de la comida sobre el total y lo hemos llamado NoComSobreTotal.

La salida se muestra en la figura 3, donde las dos columnas representan respectivamente las dos nuevas variables gastonocomida y NoComSobreTotal.

Figura 3: Cálculo de dos nuevas variables

Convertir variable númerica en factor Este comando sirve para convertir una variable numérica en variable categórica. Esto es a menudo ineludible porque R-Commander sólo

permite ciertos estadísticos y gráficas para variables de un determinado tipo. A la hora de la trasformación, cabe la posibilidad de dar nombres a las categorías, o que éstas se identifiquen mediante el código numérico con el que aparecen.

Por ejemplo, imagínese que en la base de datos hubiera una variable donde el encuestado tuvo que expresar su agradecimiento respecto a la visita en la comunidad. La preferencia se expresa con una escala de valores entre uno y cinco. Usando el comando Convertirvariablenuméricaenfactor, se podría asignar a cada número un nombre como por ejemplo:

1. Nada. 2. Poco. 3. Regular. 4. Bastante. 5. Siempre.

Segmentar variable numérica Segmentar una variable numérica significa discretizarla, es decir, obtener una variable categórica a partir de los valores numéricos de la variable. Hemos visto varios ejemplos en el apartado de recodificación. En este caso, R-Commander proporciona métodos para realizar la segmentación de forma automática, sin tener que indicar cada categoría de la nueva variable.

Si por ejemplo queremos dividir nuestro conjunto de datos en tres subconjuntos distintos (Gastobajo, Gastomedio y Gastoelevado), según el Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 4. La salida se muestra en la misma figura, donde se puede apreciar la nueva columna con las etiquetas que hemos asignado a cada rango.

Figura 4: Segmentar una variable numérica

Las posibilidades de este comando son muchas:

1 .Es posible elegir el numero de segmentaciones que queremos hacer, usando la barra 1 de la figura 4. 2 .Se puede elegir el nombre de los distintos niveles (2 en la figura 4):

Especificar nombre: permite asignar un nombre a cada nivel. Números: cada nivel está representado por un número entre 1 y el número de

niveles. Rangos: cada nivel está representado por el intervalo en que se mueven sus

elementos.

3. Existen distintas formas de ejecutar la segmentación (3 de figura 4):

Segmentos equidistantes: se divide el rango total de las variables entre el número de segmentos deseados.

Segmentos de igual cantidad: funciona como los cuantiles, es decir, el rango total de la variable está dividido de forma que cada segmento contenga aproximadamente el mismo número de elementos.

Segmentos naturales: utiliza el algoritmo de k-medias para generar los segmentos. Se puede interpretar como que anteriormente el programa indaga sobre las propiedades de la distribución de la variable; por ejemplo, si la variable representa tres poblaciones con distintas medias, los tres segmentos estarían centrados en las tres medias, idealmente.

Reordenar niveles de un factor Este comando sirve para reordenar las categorías de variables categóricas. Esto puede ser importante, por ejemplo, a la hora de presentar un gráfico con barras correspondientes a los días de la semana; es muy posible que, por omisión, R-Commander decida ordenar los días por orden alfabéticos, en vez de por orden cronológico.

En el ejemplo que se ilustra en la figura 5, hemos cambiado el orden de la variable Zona geográfica (p1), de forma que la nueva variable p1bis tenga Oriente como primera y Occidente como tercera.

Figura 5: Reordenar niveles de una variable

Renombrar - Eliminar variables Existe la posibilidad de cambiar nombre a una variable y también de eliminarla del conjunto de datos.

10. Extensiones (plug-in)

En esta sección se explican ocho extensiones que se pueden activar en R-Commander. Por cada uno de ellos se dará una breve explicacion de las funciones contenidas y de las posibles utilizaciónes.

Para instalar un plug-in en R-Commander, siga las instrucciones contenidas en la proxima sección, que, aunque se refieran al caso particular del plug-in Export, se pueden utilizar para cualquier otro paquete.

10.1. RcmdrPlugin.Export

Para los usuarios que suelen escribir con el sistema de texto LATEX, existe la posibilidad de exportar las tablas de salida producidas por el R-Commander directamente en formato LATEX. Primero habrá que activar el plug-in para le exportación de tablas, siguiendo las instrucciones de la figura 1, hasta que aparezca el nuevo menú Export.

Figura 1: Cargar el Plug-in “Export”

Una vez generada una tabla, por ejemplo la tabla de contingencia entre las variables ¿Qué personas lo acompañan en este viaje? (p4) y Periodo de recogida datos (p2), seguimos las instrucciones de la figura 2, para exportar a formato LATEX la misma tabla.

Figura 2: Exportar una tabla

El R-Commander nos dará como resultado una secuencia de comandos en lenguaje LATEX parecida a la que sigue:

\begin{table}[ht] \begin{center} \begin{tabular}{rrrrrr} \hline & Sólo & En pareja & En familia & Amigos/Grupo & Compañeros de trabajo \\ \hline Enero-Mayo & 164.00 & 442.00 & 158.00 & 221.00 & 70.00 \\ Junio-Septiembre & 65.00 & 544.00 & 374.00 & 270.00 & 28.00 \\ Octubre-Diciembre & 36.00 & 107.00 & 20.00 & 57.00 & 9.00 \\ \hline \end{tabular} \caption{Tab Contingencia} \label{tab1} \end{center} \end{table}

cuyo resultado será el siguiente:

Sólo En pareja En familiaAmigos/Grupo

Compañeros de trabajo

Enero-Mayo 164.00 442.00 158.00 221.00 70.00Junio-Septiembre 65.00 544.00 374.00 270.00 28.00Octubre-Diciembre 36.00 107.00 20.00 57.00 9.00

Cuadro 1: Tab Contingencia

10.2. RcmdrPlugin.HH: Heiberger and Holland

Es un paquete principalmente dedicado a la construcción de gráficas complejas y para uso profesional.

En la pagina http://cran.r-project.org/web/packages/HH/HH.pdf (en inglés) está disponible una guía completa de los comandos, que describe con todo detalle cómo construir e interpretar las gráficas, y cómo acompañar los resultados tradicionales con las gráficas más apropriadas. Muchos métodos y muchas gráficas son totalmente inovadores, siendo presentados y explicados por primera vez. La guía contiene tambien ejemplos y ejercicios guíados.

10.3. RcmdrPlugin.FactoMineR

FactoMineR es un paquete de R dedicado al análisis multivariante de datos. Las principales características de este paquete son:

trabajar conjuntamente con distintos tipos de variables (númericas y categóricas); distintas estructuras de datos; numerosas gráficas con distintas opciones; existe una interfaz para la modificación de las gráficas, integrada con R-

Manual del r commander

Technology

Transcript of Manual del r commander