Mini manual R commander kathy moya dual

43
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO “ESPOCH” ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL Nombres y Apellidos: KATHY MICHEL MOYA FLORES

Transcript of Mini manual R commander kathy moya dual

Page 1: Mini manual R commander kathy moya dual

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO “ESPOCH”

ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL

Nombres y Apellidos: KATHY MICHEL MOYA FLORES

Page 2: Mini manual R commander kathy moya dual

MINI MANUAL

DE R-

COMMANDER

Page 3: Mini manual R commander kathy moya dual

«R-COMMANDER"

R-Commander es una Interfaz Gráfica

de Usuario (GUI en inglés), creada por

John Fox, que permite acceder a

muchas capacidades del entorno

estadístico R sin que el usuario tenga

que conocer el lenguaje de comandos

propio de este entorno. Al arrancar R-

Commander, se nos presentan dos

ventanas:

Page 4: Mini manual R commander kathy moya dual
Page 5: Mini manual R commander kathy moya dual

.

Page 6: Mini manual R commander kathy moya dual

Lenguaje de comandos de

R, simplemente

observando lo que va

apareciendo en la ventana

script se irá familiarizando

(y con un poco de interés,

también

aprendiendo) con dicho

lenguaje.

Page 7: Mini manual R commander kathy moya dual

Si se desea ejecutar un único comando

basta con situar el cursor en cualquier

punto del comando y pulsar Submit .

Si se desean ejecutar varios comandos

conjuntamente hay que seleccionarlos

todos con el ratón y a continuación pulsar

Submit

. Las opciones son:

− File: para abrir ficheros con

instrucciones a ejecutar, o para guardar

datos, resultados, sintaxis, etc.

− Edit: las típicas opciones para cortar,

pegar, borrar, etc.

Page 8: Mini manual R commander kathy moya dual

− Statistics: ejecución de procedimientos propiamente

estadísticos

− Graphs: gráficos

− Models: definición y uso de modelos específicos para el

análisis de datos.

− Distribution: probabilidades, cuantiles y gráficos de las

distribuciones de probabilidad más habituales (Normal, t

de Student, F de Fisher, binomial, etc.)

− Tools: carga de librerías y definición del entorno.

− Help: ayuda sobre R-commander (en inglés).

Page 9: Mini manual R commander kathy moya dual

LECTURA DE

DATOS DE UN

FICHERO

EXTERNO

Page 10: Mini manual R commander kathy moya dual

LECTURA DE DATOS DE UN

FICHERO EXTERNO

Para que R (y cualquier otro paquete estadístico)

pueda utilizar los datos, éstos deben introducirse de modo que cada

variable

figure en una columna, y cada fila represente un caso. Asimismo, es

conveniente que cada columna esté encabezada con el nombre de la

variable.

A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a

una

muestra de peces, de cada uno de los cuales se ha determinado su

estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 =

hembra, 2 = macho), midiéndose además su longitud y peso. Como

se ve, cada columna

corresponde a una variable, y cada fila corresponde a un sujeto (un

pez en este caso).

Page 11: Mini manual R commander kathy moya dual

A veces no se dispone del valor de

alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera

haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya podido

medir. Cuando falte algún dato, conviene

introducir el valor NA, que R interpretará como Not Assigned (valor

no asignado). En el ejemplo que se muestra a continuación vemos que hay valores perdidos en varias variables y

varios casos, que han sido consignados con el valor NA

Page 12: Mini manual R commander kathy moya dual
Page 13: Mini manual R commander kathy moya dual

Para leer estos datos con R commander, una vez situados en la

ventana de

este programa hay que picar con el ratón en la opción Data, luego

Import data

y por último from text file …:

Page 14: Mini manual R commander kathy moya dual

SIEMPRE

ESPECIFICAR •

• Hay que especificar qué carácter separa los campos (Field

Separator). Si hemos guardado los datos con EXCEL en

formato CSV, el separador es el punto y coma. Hay que marcar

Other y en el cuadro Specify poner ;

• Por último en Decimal-Point Character hay que especificar

cual

es el separador de cifras decimales. En los ordenadores con

Windows

en español el separador decimal es la coma..

Page 15: Mini manual R commander kathy moya dual

Una vez introducida esta

información, picando en

OK, nos aparece la

ventana

para abrir ficheros de

Windows. Buscamos el

directorio en que hemos

guardado nuestro fichero

de datos y lo

seleccionamos:

Page 16: Mini manual R commander kathy moya dual

En la pantalla de R-commander ha

aparecido un comando en la ventana

superior (script) y el mismo comando

repetido en la ventana inferior (Output

window). Este comando es concretamente:

peces <-

read.table("C:/Estadística/Datos/peces.cs

v",

header=TRUE, sep=";", na.strings="NA",

dec=",",

strip.white=TRUE

Page 17: Mini manual R commander kathy moya dual

Crear

resúmenes

numéricos y

gráficas

Page 18: Mini manual R commander kathy moya dual

Una vez que hay un

conjunto de datos activo,

puede usar los menús de R

Commander para generar

varios resúmenes

numéricos y graficas.

Describiremos simplemente

unos ejemplos básicos a

continuación. Una buena

GUI debería ser

ampliamente

autoexplicativa: esperamos

que una vez que vea cómo

funciona R Commander, le

sea fácil usarlo, asistido,

quizás, por la ayuda en

línea

Page 19: Mini manual R commander kathy moya dual

Seleccionando Estadísticos→Resúmenes→Conjunto de

datos activo, obtendrá la �gura ??. Para cada variable

numérica en el conjunto de datos (TFR, contraception,

infant.mortality y GDP), R informa de los valores máximos

y mínimos, el primer y el tercer cuartil, la mediana, la

media, así como el número de valores que faltan.

Para la variable categórica region, obtenemos el número

de observaciones en cada �nivel� del factor. Si el

conjunto de datos hubiera incluido más de diez variables,

R Commander nos habría preguntado si realmente

queremos continuar, intentando protegernos de producir

una no deseada voluminosa cantidad de resultados

Page 20: Mini manual R commander kathy moya dual
Page 21: Mini manual R commander kathy moya dual

Por defecto, la instrucción R

que se ejecuta calcula la

media y la

desviaciónestándar (sd) de

la variable, junto con los

cuantiles correspondientes

con el mínimo, el primer

cuartil, la mediana, el tercer

cuartil y el máximo; n es el

número de observaciones

válidas, y NA es el número

de valores que faltan. Como

es típico en los diálogos de R

Commander, el cuadro de

diálogo resúmenes

numéricos de la gura ??

incluye los botones Aceptar,

Cancelar y Ayuda.

Page 22: Mini manual R commander kathy moya dual
Page 23: Mini manual R commander kathy moya dual
Page 24: Mini manual R commander kathy moya dual

Terminar la

sesión en R.

Page 25: Mini manual R commander kathy moya dual

Hay varias maneras de terminar su sesión en R. Por ejemplo,

puede seleccionar Fichero→Salir→ de Commander y R en los

menús de R Commander.

Se le pedirá que conrme si desea salir, y a continuación si

quiere guardar los

contenidos de la ventana de instrucciones y de resultados.

Del mismo modo, puede seleccionar Fichero→Salir en R

Console; en este caso, se le preguntará si quiere guardar el

área de trabajo R (p.e., los datos que R guarda en la

memoria); normalmente contestará No.

Page 26: Mini manual R commander kathy moya dual

Introducir

instrucciones

en la ventana

de

instrucciones.

Page 27: Mini manual R commander kathy moya dual

La ventana de instrucciones

proporciona facilidades sencillas

para editar, introducir y ejecutar

instrucciones.Las instrucciones

generadas por R Commander

aparecen en la ventana de

instrucciones, y usted puede teclear

y editar instrucciones en la ventana

más o menos como en cualquier

editor.

Page 28: Mini manual R commander kathy moya dual

Las instrucciones que se

extiendan más allá de una

línea deberían tener la

segunda y siguientes líneas

sangradas con uno o más

espacios o tabulaciones; todas

las líneas de una instrucción

multilínea deberán ser

ejecutadas

simultáneamente para obtener

resultados.

Page 29: Mini manual R commander kathy moya dual

Las instrucciones que incluyan una

�echa de asignación (< −) no

generarán un resultado impreso,

incluso si este resultado habría

aparecido normalmente si se

hubiera introducido la instrucción

en R Console [la instrucción print(x<

−10), por ejemplo]. Por otro lado, las

tareas hechas con

el signo igual (=) producen una

salida impresa incluso cuando

normalmente no lo harían (e.g., x =

10).

Las instrucciones que

normalmente dan resultados

invisibles ocasionalmente harán

que los resultados aparezcan en

la ventana de resultados. Este

comportamiento puede

modificarse editando las

entradas del archivo

log-exceptions.txt en el

directorio etc de R Commander

Page 30: Mini manual R commander kathy moya dual

Intervalo de

confianza de

la media

poblacional

Page 31: Mini manual R commander kathy moya dual

INTERVALO DE CONFIANZA Vamos a comenzar por hallar el intervalo de

confianza para la media poblacional. Existen dos

tipos de estimación, la puntual se halla calculando

la media de la muestra, y es de cálculo sencillo,

pero es difícil que esta estimación coincida con el

verdadero valor de la media poblacional, aparte de

no informar sobre el error que cometemos. Otra

forma es la estimación por intervalos que consiste

en calcular a partir de la muestra, un intervalo con

una probabilidad dada (nivel de confianza), de

contener el valor de la media poblacional,

informándonos del error.

Page 32: Mini manual R commander kathy moya dual

Ejemplo: Queremos estudiar la altura media de todos los individuos

con un nivel de confianza de =0.05.

Utilizamos como conjunto de datos activo el de Pulso. Lo hemos

asociado al data.frame Pulsea1.

Caso de desconocida:

Para calcular el intervalo de confianza empleamos la secuencia:se

hace la secuencia:

>Estadísticos >Medias >Test t para una muestra…

Page 33: Mini manual R commander kathy moya dual

• Para el intervalo de confianza bilateral hay que marcar

• En Hipótesis alternativa >Media poblacional = 0,

• Aunque hay un error y debería mostrar el texto Media

poblacional <> 0, como hipótesis alternativa.

• Hay que elegir la Variable Height para altura, y dar un

nivel de confianza, aquí del 95%

• La instrucción R generada:

• > t.test(Pulsea1$Height, alternative='two.sided',

mu=0.0, conf.level=.95)

• One Sample t-test

• data: Pulsea1$Height

• t = 180.1207, df = 91, p-value < 2.2e-16 alternative

hypothesis: true mean is not equal to 0 95 percent

confidence interval: (67.95957 69.47521)sample

estimates:

Page 34: Mini manual R commander kathy moya dual

Si se pusiera mu=5.8, el intervalo calculado sería el

mismo, siempre que indiquemos

alternative='two.sided' (Bilateral).

El cálculo anterior se basa en la distribución t de

Student para un estadístico asociado a la media

muestral, que es el más adecuado si no se conoce la

varianza poblacional. El intervalo de confianza

bilateral se formula:

xm t(n-1, 1-α/2) s/ ,

con s la cuasi-desviación típica muestral,

xm la media muestral, t(n-1, 1-α/2) el valor

tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2,

esto es, el valor de la variable tn-1 de

Student de (n-1) grados de libertad que

deja a su izquierda un área de valor (1-

α/2) bajo la función de densidad, o sea el

cuantil (1- α/2) de la t de Student con (n-1)

g.l.

Page 35: Mini manual R commander kathy moya dual

Ejemplos de

Aplicación de los

Intervalos de

Confianza para

contrastar hipótesis

Page 36: Mini manual R commander kathy moya dual

Con el conjunto de datos de Pulsos, queremos

estudiar la altura media de los hombres

solamente, por medio de un intervalo de

confianza al nivel de significación =0.05, o de

confianza del 95%, y utilizarlo para contrastar la

hipótesis de si la altura media de los hombres

es de 171 cms. Vamos a generar un conjunto de

datos con las alturas de los hombres.

Page 37: Mini manual R commander kathy moya dual

En principio debemos filtrar la altura por medio del Género para

separar los hombres de las mujeres con la secuencia::

>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar un

Data.frame con todos los datos referidos

sólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipo

data.frame, se llamará Alturahombres

El intervalo de confianza para la media de altiras ,

Emplando el R Commander, lo producen los menús:

>Estadísticos > Medias >Test para una muestra….

Resultando en la Ventana de resultados de R Commander

Page 38: Mini manual R commander kathy moya dual

Resultando en la Ventana

de resultados de R

Commander

One Sample t-test

data: Alturahombres$Height

t = 206.8254, df = 56, p-value < 2.2e-16

alternative hypothesis:

true mean is not equal to 0

95 percent confidence interval:

70.06908 71.43969

sample estimates:

mean of x

70.75439

Page 39: Mini manual R commander kathy moya dual

Tamaño de

muestra

(aleatoria

simple) para

estimar una

proporción

Page 40: Mini manual R commander kathy moya dual

Llamamos error E al

semiancho del intervalo de

confianza para la proporción.

Basándose en la validez de la

aproximación normal de la

variable binomial, si se tiene

idea del posible valor de la

proporción poblacional p (con

base en un muestreo previo,

por ejemplo), el tamaño de la

muestra es

Page 41: Mini manual R commander kathy moya dual

Si no se sabe nada de la

magnitud de p, se elige una

muestra de tamaño:

puesto que el valor p(1-p) es siempre

no mayor que 1/4 .

Obsérvese que a menor error E que se

desee, el tamaño de la muestra debe

ser mayor. Y a mayor nivel de

confianza ( o menor nivel de

significación), el tamaño también

crece.

Page 42: Mini manual R commander kathy moya dual

Ejemplo

Se Qué tamaño de muestra hay que elegir

para estimar una proporción de modo que

el error en la estimación sea menor o igual

que 0,05, con un nivel de confianza del

95%? (Emplear la aproximación normal con

el criterio más desfavorable).

> z=qnorm(c(0.975), mean=0,

sd=1, lower.tail=TRUE);z

[1] 1.959964

> E=0.05;

n=ceiling(z^2/(4*E^2));n [1] 385

Page 43: Mini manual R commander kathy moya dual

¿Qué tamaño resultaría en el caso de que se emplee

una primera estimación de la proporción de valor 0.17

?

> p=0.17

> n=ceiling(z^2*p*(1-p)/E^2);n

[1] 217

Naturalmente, con más información, se reduce el

tamaño de la muestra necesaria.

.