HCM_U2_A2_JEHR.docx

7
Actividad 2. Análisis estadístico y muestreo. Al finalizar esta actividad serás capaz de identificar el uso de elementos y funciones del Lenguaje R para resolver problemas. Describe en un documento de texto el procedimiento que utilizarías para resolver los siguientes problemas con las herramientas del programa R. ************************************************************* ************************* Problema 2.1. Crea una tabla "two-way" utilizando los dos vectores de datos siguientes para que contenga la frecuencia de ocurrencia de los elementos. (Soltero, Soltero, Casado, Divorciado, Divorciado, Soltero, Soltero, Divorciado) (Joven, Joven, Maduro, Joven, Joven, Mayor de 60, Maduro, Mayor de 60) ************************************************************* ************************* PROCEDIMIENTO Para construir una tabla de doble entrada con el valor de la frecuencia, podemos utilizar el comando table(). Abrimos el editor y realizamos lo siguiente: Primero introduciremos los datos usando el comando básico >Dato1=(‘Soltero’, ‘Soltero’, ‘Casado’, ‘Divorciado’, ‘Divorciado’, ‘Soltero’, ‘Soltero’, ‘Divorciado’) Después realizaremos un conteo de datos usando el comando length()

Transcript of HCM_U2_A2_JEHR.docx

Page 1: HCM_U2_A2_JEHR.docx

Actividad 2. Análisis estadístico y muestreo.

Al finalizar esta actividad serás capaz de identificar el uso de elementos y funciones del Lenguaje R para resolver problemas. Describe en un documento de texto el procedimiento que utilizarías para resolver los siguientes problemas con las herramientas del programa R.

**************************************************************************************Problema 2.1. Crea una tabla "two-way" utilizando los dos vectores de datos siguientes para que contenga la frecuencia de ocurrencia de los elementos.

(Soltero, Soltero, Casado, Divorciado, Divorciado, Soltero, Soltero, Divorciado)

(Joven, Joven, Maduro, Joven, Joven, Mayor de 60, Maduro, Mayor de 60)

**************************************************************************************

PROCEDIMIENTOPara construir una tabla de doble entrada con el valor de la frecuencia, podemos utilizar el comando table().

Abrimos el editor y realizamos lo siguiente:

Primero introduciremos los datos usando el comando básico >Dato1=(‘Soltero’, ‘Soltero’, ‘Casado’, ‘Divorciado’, ‘Divorciado’, ‘Soltero’, ‘Soltero’, ‘Divorciado’)Después realizaremos un conteo de datos usando el comando length()Este comando nos arrojará el número total de elementos que integran el conjunto. Dicho valor es necesario si queremos calcular la frecuencia relativa.

Finalmente usamos el comando table() para generar una tabla de frecuencias absolutas.>table(Dato1)Dato1 Casado Divorciado Soltero 1 2 4También podemos usar table()/length() para obtener las frecuencias relativas.

Page 2: HCM_U2_A2_JEHR.docx

> table(Dato1)/length(Dato1)Dato1 Casado Divorciado Soltero 0.1428571 0.2857143 0.5714286

**************************************************************************************Problema 2.2. Determina si los datos que se proporcionan en el archivo adjunto (datos.txt), ubicado en la pestaña de la unidad 2, tienen una distribución normal. Para este análisis podrás utilizar qqnorm(). **************************************************************************************PROCEDIMIENTOAbrimos el editor y realizamos lo siguiente:Creamos el vector introduciendo los datos del archivo datos.txt usando el comando x=scan(“c:/…/datos..txt)> x=sacn("C:/Users/Jessica/Documents/muestras.txt")Read 54 itemsDe esta manera podemos ingresar todos los datos sin necesidad de escribirlos uno por uno. Graficamos las funciones quantile de la muestra, es decir los cuantiles muestrales vs. los cuantiles teóricos de la distribución Normal, usando el comando qqnorm().El comando qqnorm() compara gráficamente la distribución de una muestra con una distribución normal (si los valores están alineados, la distribución es normal).>qqnorm(x)

Page 3: HCM_U2_A2_JEHR.docx

**************************************************************************************Problema 2.3. Calcula el intervalo de confianza utilizando una distribución t con los siguientes datos: Media muestral = 5 Desviación estándar muestral = 2 Tamaño de la muestra = 20 Nivel de confianza = 95% **************************************************************************************PROCEDIMIENTOAbrimos el editor y realizamos lo siguiente:

“Un intervalo de confianza es un rango de valores en el cual se encuentra el valor real del parámetro, con una probabilidad determinada. Realizar el cálculo de dicho intervalo utilizando una distribución t es similar a utilizar a usar una distribución normal qnorm(), la diferencia es que se usa el comando asociado a la distribución t.”Para realizar estos, iniciamos definiendo las variables correspondientes a los valores>m=5 # Media muestral>s=2 # Desviación estándar>n=20 # Tamaño de muestraDeterminamos el margen de error de acuerdo al nivel de confianza del 95%determinándolo con el error estándar s/sqrt(n), adicionalmente la distribución t tiene n-1 grados de libertad para un tamaño de n muestras, así que podemos definir nuestro margen de error por qt(0.975, df = n-1) * s / sqrt(n), finalmente, el intervalo de confianza a merrory m+error> error=qt(0.975, df = n-1) * s / sqrt(n)> error[1] 0.9360288

Page 4: HCM_U2_A2_JEHR.docx

> int_izq = m - error> int_izq[1] 4.063971> int_der = m + error> int_der [1] 5.936029

Page 5: HCM_U2_A2_JEHR.docx

**************************************************************************************Problema 2.4. Encuentra el valor p para el conjunto de datos que se proporcionan en el archivo adjunto (datos.txt). Utiliza una prueba de hipótesis bilateral. Problema 2.5. a) Crea el siguiente data-frame (hoja de datos) en el que la columna f sea un factor.**************************************************************************************PROCEDIMIENTOAbrimos el editor y realizamos lo siguiente:Se crea el vector de datos leyendo el archivo con la instrucción scan(), para el caso de este ejemplo es necesario utilizar el parámetro skip para ignorar el encabezado.> j=scan("C:/Users/Jessica/Documents/Datos.txt")Read 54 itemsObtenemos el estadístico de contraste con la formula mean() / (sd() / sqrt(lenght()))> e=mean(j)/(sd(j)/sqrt(length(j)))> e[1] 14.86709Finalmente obtenemos el valor con 2*pt(-abs(e), df=lenght()-1)> s=2*pt(-abs(e), df=length(j)-1)> s[1] 1.493455e-20

Page 6: HCM_U2_A2_JEHR.docx

**************************************************************************************Problema 2.5. a) Crea el siguiente data-frame (hoja de datos) en el que la columna f sea un factor.> miframe

b) Comenta el resultado de ejecutar > miframe$f después de crearlo. **************************************************************************************PROCEDIMIENTOAbrimos el editor y realizamos lo siguiente:Se crean los vectores correspondientes con cPrimero=jSegundo =eTercero=sF=y>j=c(5, 17, 8, 18, 60, 3)>e=c(7, 75, 6, 56, 35, 1)>s=c(22, 4, 5, 44, 9, 58)>y=c('A', 'C', 'B', 'A', 'A', 'B')Posteriormente creamos la colección de filas y columnas de mismas dimensiones con el comando data.frame, Finalmente con el parametro $f transformamos la columna f en un factor>miframe=data.frame(j,e,s,y)>miframe$y[1] A C B A A BLevels: A B C