Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander...

13
Estadística básica con R Commander María Eugenia Fernández de Luco Facultad de Ciencias Exactas, Ingeniería y Agrimensura Universidad Nacional de Rosario 2014

Transcript of Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander...

Page 1: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con

R Commander

María Eugenia Fernández de Luco

Facultad de Ciencias Exactas, Ingeniería y Agrimensura

Universidad Nacional de Rosario

2014

Page 2: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-1-

ÍNDICE

1. Introducción .............................................................................................................. 2

2. Lectura de datos ........................................................................................................ 3

2.1 Ingreso manual de datos ............................................................................................. 3

2.2 Importación de archivos .............................................................................................. 4

2.3 Filtro de datos ............................................................................................................. 5

3. Recodificación y cálculo de nuevas variables ............................................................... 6

4. Estadística descriptiva ................................................................................................ 7

4.1 Cálculo de medidas de posición y dispersión .............................................................. 7

4.2 Distribuciones de frecuencias ..................................................................................... 8

4.3 Gráficos ....................................................................................................................... 8

5. Estimación por intervalos de confianza ....................................................................... 9

5.1 Intervalo para la media ............................................................................................... 9

5.2 Intervalo para una proporción .................................................................................. 10

5.3 Intervalo para la varianza .......................................................................................... 11

6. Distribuciones de probabilidad ................................................................................. 11

6.1 Cálculo de probabilidades ......................................................................................... 11

6.2 Simulación de muestras ............................................................................................ 12

Page 3: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-2-

Estadística básica con R Commander

1. Introducción

R es un software gratuito que permite realizar análisis estadísticos y gráficos. Se maneja a

través de una consola en la que se introduce un código propio de su lenguaje. El código de R

está disponible como software libre, y puede ser instalado tanto en Windows, como en Linux o

MacOS X. La página principal desde la que se puede acceder para su descarga es:

http://www.r-project.org/

Una vez descargado y abierto el programa, aparece la ventana llamada consola, donde se

puede manejar R mediante la introducción de código.

R Commander es la interfaz gráfica que cubre la mayor parte de los análisis estadísticos

más habituales en menúes desplegables. Es una manera de manejar R sin necesidad de

aprender su código. Para instalarlo, es necesario abrir R y escribir la siguiente sentencia en la

consola:

>install.packages("Rcmdr", dependencies=TRUE).

Entonces aparecerá la ventana “CRAN mirror” para seleccionar desde donde hacer la

descarga. Una vez seleccionada la opción, el programa instalará las librerías necesarias. Luego,

para abrir el R Commander, es necesario escribir la siguiente sentencia en la consola de R:

>library(Rcmdr)

Figura 1: Vista de la pantalla principal de R.

En caso de cerrar la ventana de R Commander, para volver a abrirla sin tener que reiniciar

R puede ejecutarse la sentencia Commander().

Una vez cargado R Commander, aparece una ventana en la que pueden distinguirse cuatro

partes:

1. El menú de opciones desplegables.

Page 4: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-3-

2. La ventana de instrucciones. Esta ventana es equivalente al editor de R. Cada vez que se

ejecute alguna acción del menú, R Commander traducirá dicha acción a código de R y lo

escribirá en esta ventana.

3. La ventana de resultados.

4. La ventana de mensajes. Sirve para que R Commander informe de cualquier aspecto,

especialmente de errores cometidos.

Cuando se creen gráficos, éstos aparecerán en una ventana separada, llamada Graphics

Device.

Figura 2: Vista de la pantalla principal de R Commander.

Bajo el menú de opciones hay una fila de botones. El primero muestra el conjunto de datos

activos. Inicialmente no hay ninguna serie de datos activa. Si hay más de un conjunto de datos

en la memoria, se puede elegir entre ellos pulsando sobre el botón.

Los dos botones contiguos permiten abrir el editor de datos de R para modificar la serie de

datos activa o el visor para examinarla.

2. Lectura de datos

2.1 Ingreso manual de datos

Para introducir los datos en R Commander debe elegirse la opción Nuevo conjunto de datos

del menú Datos. Eso abre el editor de datos que, en primer lugar, pedirá un nombre para la

matriz de datos, y a continuación abrirá una ventana con casillas, similar a una hoja de Excel.

1

2

3

4

Page 5: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-4-

Figura 3: Vistas de los pasos para ingresar manualmente datos en R Commander.

Una vez introducidos los datos, se debe dar nombre a las variables, posicionándose sobre la

parte superior de cada columna, donde se nombran por defecto como var1, var2, etc. En este

paso también puede clasificarse a la variable, en función de si es numérica o del tipo carácter.

Para terminar, se cierra la ventana del editor de datos. En ese momento, R habrá

almacenado los datos introducidos convirtiéndolos en lo que R Commander llama el conjunto

de datos activo.

Para guardar una hoja de datos en R Commander, se debe seleccionar en el menú Datos la

opción Conjunto de datos activo y, dentro de ésta, Guardar el conjunto de datos activo. A

continuación se debe dar un nombre y un directorio donde almacenar el archivo, cuya

extensión por defecto será .rda3. Si posteriormente se quiere cargar estos datos, debe usarse

la opción Cargar conjunto de datos dentro del menú Datos y buscar el archivo correspondiente

mediante la ventana del explorador que se abre.

2.2 Importación de archivos

Se puede importar datos desde un archivo de texto, desde un conjunto de datos de Excel o

Access, o desde otro paquete estadístico (Minitab, SPSS o Stats). Para abrir un archivo desde el

R Commander hay que ir a la opción del menú Datos/ Importar datos /desde el archivo de

texto o desde conjunto de datos Excel.

Page 6: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-5-

Luego hay que darle un nombre al conjunto de datos, y seleccionar el archivo que se desea

importar. En caso de que sea un archivo Excel y éste cuente con varias pestañas, se abrirá una

ventana en la que se puede seleccionar la pestaña deseada.

Figura 4: Opción para importar archivos en R Commander.

2.3 Filtro de datos

Para filtrar el conjunto de datos activos, se debe seleccionar la opción Datos/Conjunto de

datos Activo/ Filtrar el conjunto de datos activos. Si no se da un nombre nuevo al conjunto de

datos, el conjunto activo se pisa, manteniendo solo aquellas observaciones que cumplan con el

filtro.

Figura 5: Filtrado de conjuntos de datos.

Page 7: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-6-

3. Recodificación y cálculo de nuevas variables

Si se busca recodificar variables, calcular nuevas variables, segmentar variables numéricas,

etc, del conjunto de datos activos, hay que seleccionar la opción Datos/Modificar variable del

conjunto de datos activo, y se llega al siguiente cuadro de opciones:

Figura 6: Opción para modificar variables en R Commander.

La opción Recodificar variables permite la creación de una variable cualitativa a partir de

una cuantitativa, donde se crean intervalos.

Figura 7: Recodificación de variables.

Por su parte, la opción Calcular una nueva variable permite la creación de nuevas variables

a partir de variables cuantitativas y la aplicación de ciertas operaciones.

Figura 8: Cálculo de variables.

Page 8: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-7-

La opción Segmentar variable numérica permite recodificar automáticamente una variable

cuantitativa, según distinto criterios.

Figura 9: Segmentación de variables.

Otras opciones interesantes con las que se cuenta son:

*Añadir número de observaciones al conjunto de datos: añade una nueva columna con el

número de observación.

*Tipificar variables: permite crear variables estandarizadas.

*Renombrar variables.

*Eliminar variable.

4. Estadística descriptiva

4.1 Cálculo de medidas de posición y dispersión

En R Commander, la opción para obtener estadísticos descriptivos se encuentra en el menú

Estadísticos/ Resúmenes/ Resúmenes numéricos. Las medidas disponibles son: la media, la

desviación estándar, el coeficiente de variación y los cuartiles, como puede verse en la

siguiente figura. Se pueden obtener las medidas para distintos grupos, según una variable

cualitativa, dentro de la opción “Resumir por grupos”.

Figura 10: Estadísticas descriptivas.

Page 9: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-8-

4.2 Distribuciones de frecuencias

En R Commander, se puede obtener una tabla de frecuencias absolutas desde la opción

Estadísticos/Resúmenes/Distribución de frecuencias.

Figura 11: Obtención de tablas de frecuencias.

4.3 Gráficos

En R Commander, los gráficos disponibles se encuentran en la opción Gráficas del menú.

Figura 12: Opciones de gráficos.

Page 10: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-9-

Como puede verse, entre los gráficos disponibles se encuentran el histograma, el gráfico de

tallo y hojas, el boxplot, el gráfico de dispersión, el gráfico de barras, el gráfico de sectores y el

QQ plot (denominado en las opciones como Gráfico de comparación de cuartiles).

Dentro de cada gráfico hay una pestaña de opciones, para determinar opciones específicas

de cada tipo de gráfico.

Por otra parte, para gráficos como el histograma o el boxplot, es posible graficar para

distintos grupos, seleccionando la opción “Gráfica por grupos”.

Figura 13: Opción para graficar por grupos.

5. Estimación por intervalos de confianza

5.1 Intervalo para la media

Para obtener intervalos de confianza para la media con R Commander, hay que seleccionar

la opción Estadísticos/Medias/Test t para una muestra.

Figura 14: Obtención de un intervalo de confianza para la media.

Como el intervalo pertenece a la salida del test de hipótesis, hay que elegir la primera

opción de hipótesis alternativa (distinto).

Page 11: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-10-

Figura 15: Opciones del intervalo de confianza para la media.

Se muestra a continuación un ejemplo de la salida de esta opción, donde puede verse que

el intervalo del 95% de confianza obtenido es (148,4623; 151,1967).

Figura 16: Salida de un intervalo de confianza para la media.

5.2 Intervalo para una proporción

Para obtener intervalos de confianza para una proporción hay que contar con una variable

definida como factor. Esta variable puede ser creada a través de la opción de Recodificación de

variables vista previamente en el punto 3. Al nivel del factor que se considera “éxito” y cuya

proporción se estudia, debe dársele un valor que alfabéticamente esté antes que el no

deseado, para que R haga el cálculo adecuado.

Una vez realizado este paso, se sigue con la opción Estadísticos/Proporciones/Test de

proporciones para una muestra, seleccionando la columna que tiene estructura de variable

factor.

Figura 17: Opciones del intervalo de confianza para la proporción.

Page 12: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-11-

5.3 Intervalo para la varianza

R Commander no tiene un menú específico para obtener el intervalo de confianza para la

varianza.

6. Distribuciones de probabilidad

6.1 Cálculo de probabilidades

Con R Commander se pueden calcular probabilidades de las siguientes distribuciones:

Binomial, Hipergeométrica, Poisson, Normal, Exponencial, Uniforma, T-Student, Chi-cuadrado,

entre otras. Se puede acceder a estas opciones en Distribuciones/Distribuciones continuas, o

en Distribuciones/Distribuciones discretas.

Para cada una de las distribuciones discretas están disponibles las siguientes opciones:

*Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda una

determinada probabilidad.

*Probabilidades: Determina la probabilidad de que la variable tome un valor dado.

*Probabilidades Acumuladas: Calcula el valor de P(X ≤x) o bien P(X > x).

Para cada una de las distribuciones continuas están disponibles las siguientes opciones:

*Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda una

determinada probabilidad.

*Probabilidades: Determina la probabilidad que queda acumulada a izquierda (o a derecha) de

un valor dado.

Se muestran a continuación algunos ejemplos:

1) Distribución Normal

2) Distribución Binomial

Page 13: Estadística básica con R Commanderpablos/Probabilidad y...Estadística básica con R Commander -2-Estadística básica con R Commander 1. Introducción R es un software gratuito

Estadística básica con R Commander

-12-

6.2 Simulación de muestras

En R Commander, para cada una de las distribuciones de probabilidad que tiene

implementadas, se puede seleccionar la opción Muestra de una distribución … dentro de cada

opción listada dentro del menú Distribuciones, para generar muestras aleatorias.

Por ejemplo, se muestran a continuación las opciones para generar una muestra de

tamaño 50 de una distribución uniforme en el intervalo [0, 1], a través de la ruta

Distribuciones/Distribuciones continuas/Distribución uniforme/Muestra de una distribución

uniforme.

Figura 18: Generación de una muestra aleatoria de una binomial.