Manual de r commander

MINI MANUAL DE R-COMMANDER, COMANDOS, VENTANAS Y APLICACIONES DEL

SOFTWARE EN LA PRUEBA DE HIPÓTESIS

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO

ESCUELA DE INGENIERIA ELECTRONICA EN TELECOMUNICACIONES Y REDES

CATEDRA:PROBABILIDAD Y ESTADISTICA.

Elaborado por: Lenin Medina

R-COMMANDER

R-Commander es una Interfaz Gráfica deUsuario (GUI en inglés), creada por JohnFox, que permite acceder a muchascapacidades del entorno estadístico Rsin que el usuario tenga que conocer ellenguaje de comandos propio de esteentorno. Al arrancar R-Commander, senos presentan dos ventanas:

La ventana de la izquierda es la consola de R. Aquí podremos ejecutar comandos de R, para lo cual

necesitamos conocer el lenguaje R y su sintaxis. La ventana de la derecha corresponde al entorno de

R-commander, que nos evita precisamente tener que usar dicho lenguaje de comandos, al menos

para las tareas que se encuentran implementadas dentro de dicho entorno.

No obstante, R-Commander no pretende ocultar el lenguaje R. Si observamos

de cerca la ventana de R-Commander, vemos que se divide en tres

subventanas: script, output y messages.

El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el

ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta

con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios

comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit

.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos

acceder. Las opciones son:

File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos, resultados, sintaxis,

etc.

Edit: las típicas opciones para cortar, pegar, borrar, etc.

Data: Utilidades para la gestión de datos (creación de datos, importación desde otros programas,

recodificación de variables, etc.)

Statistics: ejecución de procedimientos propiamente estadísticos

Graphs: gráficos

Models: definición y uso de modelos específicos para el análisis de datos.

Distribution: probabilidades, cuantiles y gráficos de las distribuciones de probabilidad más

habituales (Normal, t de Student, F de Fisher, binomial, etc.)

Tools: carga de librerías y definición del entorno.

Help: ayuda sobre R-commander (en inglés).

LECTURA DE DATOS DESDE UN FICHERO EXTERNO

Supongamos que hemos creado los datos con EXCEL (o equivalente), y quelos hemos guardado desde EXCEL en formato CSV (Comma SeparatedValues). Este formato es simplemente un formato de texto en el que los datosse guardan tal como se han introducido en EXCEL, separados por punto ycoma, y sin que se añada ninguna información adicional (negritas, cursivas,colores de las letras, etc.). Para que R (y cualquier otro paquete estadístico)pueda utilizar los datos, éstos deben introducirse de modo que cada variablefigure en una columna, y cada fila represente un caso. Asimismo, esconveniente que cada columna esté encabezada con el nombre de la variable.

A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada uno de

los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 = hembra, 2

= macho), midiéndose además su longitud y peso. Como se ve, cada columna corresponde a una variable, y

cada fila corresponde a un sujeto (un pez en este caso).

A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera

haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya

podido. En EXCEL al guardar el fichero hay que seleccionar “guardar como” y elegir como tipo de fichero

CSV (delimitado por comas). EXCEL nos

informará de que sólo se guardará la hoja

activa (deberemos aceptar), y a continuación

nos avisará que el libro puede tener

características no compatibles con CSV

Deberemos elegir la opción SI, para que

Guardedefinitivamente el fichero en ese formato.

Medir cuando falte algún dato, conviene introducir

el valor NA, que R interpretará como Not Assigned

(valor no asignado). En el ejemplo que se

muestra a continuación vemos que hay valores

perdidos en varias variables y varios casos,

que han sido consignados con el valor NA.

Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que

picar con el ratón en la opción Data, luego Import data y por último from text file

Data > Import data > from text file ...

Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que

especificar:

Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este nombre

no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar peces

a nuestro conjunto de datos.

Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla

Variable names in file.

Una vez introducida esta información, picando en OK, nos aparece la ventana para

abrir ficheros de Windows. Buscamos el directorio en que hemos guardado nuestro

fichero de datos y lo seleccionamos:

En la pantalla de R-commander ha aparecido un comando en la ventana superior

(script) y el mismo comando repetido en la ventana inferior (Output window). Este

comando es concretamente:

peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE, sep=";",

na.strings="NA", dec=",",strip.white=TRUE)

La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos)

peces se introduce el resultado de leer (read.table) el fichero

c:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las

variables en la cabecera (header=TRUE), que el separador de los datos es el punto

y coma (sep=”;”), que los valores perdidos se han codificado como NA

(na.strings=”NA”), que el separador de cifras decimales es la coma (dec=”,”) y que

en caso de leer variables de tipo carácter (variables cuyos valores son

alfanuméricos, por ejemplo, nombres de islas) se eliminen los espacios anteriores y

posteriores al valor registrado en dichas variables (strip.white=TRUE).

En la ventana de salida (Output) no se observa ningún resultado ya que solamente

se ha procedido a la lectura de los datos. Esto se nos indica en la ventana inferior

(Messages) donde aparece una nota señalando que se ha leido el dataset peces, y

que éste tiene 20 filas y 4 columnas.

INTERVALO DE CONFIANZA

Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error.

Ejemplo: Queremos estudiar la altura media de todos losindividuos con un nivel de confianza de =0.05. Utilizamoscomo conjunto de datos activo el de Pulso. Lo hemosasociado al data.frame Pulsea1. Caso de desconocida:Para calcular el intervalo de confianza empleamos lasecuencia:se hace la secuencia: >Estadísticos >Medias >Testt para una muestra…

Para el intervalo de confianza bilateral hay que marcar

•En Hipótesis alternativa >Media poblacional = 0,

•Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.

•Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%

•La instrucción R generada:

> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)

One Sample t-test

data: Pulsea1$Height

t = 180.1207, df = 91, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95

percent confidence interval: (67.95957 69.47521)sample estimates:

Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos

alternative='two.sided' (Bilateral). El cálculo anterior se basa en la distribución t de Student para un

estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza

poblacional. El intervalo de confianza bilateral se formula:

xm t(n-1, 1-α/2) s/ , con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el

valor tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1)

grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o

sea el cuantil (1- α/2) de la t de Student con (n-1) g.l.

EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR HIPÓTESIS

Con el conjunto de datos de Pulsos, queremos estudiar la altura

media de los hombres solamente, por medio de un intervalo de

confianza al nivel de significación =0.05, o de confianza del 95%,

y utilizarlo para contrastar la hipótesis de si la altura media de los

hombres es de 171 cms. Vamos a generar un conjunto de datos

con las alturas de los hombres.

En principio debemos filtrar la altura por medio del Género para separar los

hombres de las mujeres con la secuencia:

>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar un Data.frame con

todos los datos referidos sólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipo data.frame, se

llamará Alturahombres

El intervalo de confianza para la media de altiras , Emplando el R Commander,

lo producen los menús:

>Estadísticos > Medias >Test para una muestra…. Resultando en la Ventana de

resultados de R Commander

Resultando en la Ventana de resultados de R Commander

One Sample t-test

data: Alturahombres$Height

t = 206.8254, df = 56, p-value < 2.2e-16

alternative hypothesis:

true mean is not equal to 0

95 percent confidence interval:

70.06908 71.43969

sample estimates:

mean of x

70.75439

Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969)

consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta

altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.

Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues

67.3228 pulgadas no está contenido en el intervalo de confianza calculado.

Manual de r commander

Education

Transcript of Manual de r commander